基于hadoop技术的油田大数据应用浅析

来源：99网

TECHNOLOGY 技术应用

基于Hadoop技术的油田大数据应用浅析

◆ 高寒姚刚王从镔

摘要：随着物联网技术在各油田油气生产业务领域中的广泛应用，油气水井在采油采气过程中产生并采集的数据种类越来越多，有的油田甚至需要把过去纸质历史数据等也要录入到计算机中，数据量越来越大。以传统的Java EE技术进行处理已经不能满足油田油气生产的业务需求，Hadoop技术可以很好地辅助油田捕捉、管理和处理海量的数据集合，利用大数据技术对油气水井生产数据进行分析，并指导油田进行生产决策。

关键词：油田；大数据；应用

一、油田大数据应用环境特点

大数据的应用和研究已经成为各油田油气生产业务领域信息技术的主流，更好地应用和管理生产数据是油田业务发展的关键。

（一）数据多样化。随着物联网技术在油田的广泛应用和不断发展，油气水井在生产过程中所产生的结构化数据和非结构化数据的种类越来越多样，数据采样间隔的频度也越来越密集。结构化数据简单来说就是数据库，如各类参数字段；非结构化数据格式多样，如图片、日志、音频、视频等数据。

（二）数据的准确性要求高。为了更加精准地指导油气水井生产，油田对采集数据的准确性要求越来越高，但对实时性要求相对较低。

（三）数据处理方式多样性。油气举升的不同、油气种类的不同和采油工艺的不同都决定了各油田对数据处理方式的差异性。例如：功图分为做功功率图和有功功图，并且井类型不一样，参数也不一样,各油田对数据处理的方式也不一样。

（四）数据延迟。油井分布广泛，尤其是西部油田自然条件较为恶劣，远离人口聚集区甚至是在无人区，网络条件比较差、延迟率高；受环境影响设备故障率高，导致数据无法上传；另外，组织层级之间数据库数据的传输与共享也存在较高延迟率。

二、油田大数据Hadoop技术的应用分析

油气生产业务的特点以及数据的处理方式都需要一项适合的数据分析技术做应用支撑。在使用中往往价值密度的高低与数据总量大小成反比，大数据必须要面对各种的业务需求，并且业务需求的那部分数据所占比重远小于总数据量。因此，数据清洗是大数据分析的重要步骤和核心工作，大数据分析的重点是解决用户如何从分析决策的需求出发快速完成模型构建。Hadoop高可靠、高扩展、高效、高容错的特点正好满足油田复杂的数据应用环境，能够为油田生产决策者制定方案提供快速、准确的数据依据。

（一）Hadoop技术。Hadoop是一个适合对海量数据进行分析处理的分布式软件框架，允许使用简单的编程模型在跨计算机集群分布式环境下存储和处理大型数据集。它的设计核心是MapReduce并行计算编程模型，HDFS分布式文件系统，YARN资源管理系统和Common辅助工具[1]，如图1所示，Hadoop2.X组成。

图1 Hadoop2.X组成

HDFS用来解决海量数据的存储问题, MapReduce并行计算编程模型主要是用来解决海量数据的计算和分析问题，YARN自Hadoop 2.X从MapReduce剥离形成模块，实现对MapReduce和HDFS的资源管理，Common是支持其他模块的公用工具包，为其他模块提供了最为基础的实现。如图2所示，Hadoop2.X生态体系。

图2 Hadoop2.X生态体系

（二）大量数据与承载数据的小文件。油气水井各类数据参数种类繁多，数据采样间隔短，数据量大，数据体需要快速收集而且准确地处理。以做功功图为例，若每10分钟采集一次，每天144次，上千口井，日积月累数据量相当庞大。尤其是大型油田存在设备老化、仪器仪表种类繁多、数据格式不统一的问题，这对处理程序的兼容性提出了挑战，并且兼容这些势必会牺牲其他方面的性能。现今的企业所采用的大数据框架一般都是Hadoop2.X，因为逻辑的原因Hadoop会把一个大文件拆成许多个小文件颗粒进行处理，仅这些小文件颗粒的元数据信息就占150个字节，所以对处理完毕的小文件需要马上进行合并，不然计算机内存就有可能因为爆满而宕机。

信息系统工程 │ 2019.10.20

TECHNOLOGY 技术应用

（三）高速处理数据。这是大数据区别于传统数据挖掘最显著的特征。油田采集到的数据从井、站、库的各类传感器芯片而来，除了结构化数据以外，还有很多都是运行日志等非结构化数据体，Hadoop生态圈可以很好地快速处理这些数据，因为开启Hadoop时他会把小文件的元数据读到内存，从内存中寻找文件，再对文件进行处理，在内存中存储元数据，数据再落盘，这比传统的数据挖掘快很多。油气水井的生产数据24小时不间断传输，即使因各种情况引起的数据传输中断，当恢复传输时也要保证数据体的完整性和连续性，如果数据先落到数据库之后用Java EE去处理，数据有可能传一天都传不完，但是经过Hadoop生态圈处理后的数据转存到数据库中，极大地减轻对数据库的压力。

（四）实现高可用。受自然环境等条件的影响，油田服务器性能不稳定，存在随时宕机的风险，大数据要面临的难题之一是如何在陈旧或者性能不好的服务器上运行。Hadoop可以把宕掉的机器除役，把这台机器所运行的Job再分配到其他资源相对空闲的机器上，也可以配置多个管理集群，即便是这个集群宕机，其他集群也能处理数据，也可以配置多个Hadoop数据存储路径，通过配置多个NameNodes实现在集群中对NameNode的热备来解决上述问题。如果服务器出现宕机或需要升级维护停机的时候，可以通过此种方式将NameNode很快地切换到另

外一台机器。这样保证了大数据可以在性能低下或是宕机风险的用机环境下仍然能够稳定运行及传输数据。系统稳定不仅释放了运维人员的工时，也减轻了运维人员的工作强度。

三、结语

综上所述，在油田大数据应用实践中，Hadoop很好地解决了油田数据的多样性、精准性、延迟性等问题。Hadoop的高可用性，可以在性能不好的服务器上较好地运行。另外，Hadoop对数据的高速处理与惊人的准确性可以为油田生产、决策者指挥生产做出及时响应，并提供可靠地解决方案。Hadoop处理数据的准确性和适应性，可以满足大多数油田油气生产业务的应用场景。但是Hadoop对小文件的处理不是很好，不管一个文件大小如何，其元数据占150B，也就是说，可能一个小文件本身没有多少数据，但元数据就可能占去这个小文件的绝大部分空间，数据量极大的时候可能内存就因为小文件太多，而存在内存溢出的情况。H参考文献

[1]林子雨.大数据技术原理与应用[M].北京:人民邮电出版社,2017.

（作者单位：中国石油勘探开发研究院西北分院）

（上接第76页）

四、结语

在全面了解了Solidworks软件的快捷操作方式后，根据设计者使用习惯，将鼠标笔势以及快捷方式栏合理自定义，结合鼠标与键盘快捷键、关联工具栏灵活配合使用，Solidworks中所有常用的工具和命令都可以用鼠标快速选择并执行如图6。在设计过程中，我们的鼠标基本没有离开模型，就已经完成了一系列的操作，这大大减少了拖动鼠标寻找命令的时间，提高了绘图效率，使得设计者能够在繁杂的绘图设计中快速完成任务，将更多的精力放在提高设计的精度上面。H参考文献

[1] 陈超祥,胡其登主编.Solidworks零件与装配体教程[M].北京:机械工业出版社,2017(3).

信息系统工程 │ 2019.10.20

[2] 申潇.AutoCAD 常用快捷键的分析与运用[J].信息系统工程,2017(11):108.

[3] 薛海涛.AutoCAD 绘图软件应用技巧[J]. 电脑迷, 2016(2):44-.

[4] 付贵权.CAXA 自定义高效快捷键[J]. 电子技术与软件工程,2018(02):53.

（基金项目：兰州石化职业技术学院科技教研项目：高职机械制图教学资源库立体化教材建设的研究与实践（JY2017-11））

（作者单位：兰州石化职业技术学院机械工程系）

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部频道

基于hadoop技术的油田大数据应用浅析