- 收藏
- 加入书签
江西省多源异构的水利科技数据融合技术研究
摘要:随着大数据、云计算等新一代技术的快速发展,对科技资源共享平台的需求呈爆炸式增长,大数据时代即将到来。实现科技资源的共享和利用,是加强科技资源管理,促进资源有效整合的重要手段。文章主要研究江西省多源异构的水利科技数据的融合,分析水利科技大数据的现状,介绍数据融合过程,从数据融合层次步骤、技术几方面阐述江西省多源异构水利科技数据融合技术,为相关研究提供参考。
关键词:多源异构;数据融合;水利科技数据;
0引言
江西省水资源包括水利勘测数据、防洪工程数据、运行系统数据、系统用户数据等。有40种左右的对象数据18万,每种运行监测数据记录超过1亿。地理空间数据中基本矢量数据70gb, DEM数据80gb,图像数据2.5 TB。有超过150个服务用于45种对象。水利业务应用持续建设,活跃的业务应用和基础应用系统60余个,涉及各级用户1万余人。数据有很多种,各种数据都有大量的冗余,对数据的存储,共享造成了极大的困扰,因此,对江西省多源异构的水利科技数据融合技术研究显得极为重要。
本文对江西省多源异构的水利科技数据融合技术进行研究,得出创新性融合技术,最终实现江西省多源异构的水利科技数据融合,得出价值更高的数据供江西省水利科研人员利用,突破科技资源信息的封闭状态,实现对众多闲置资源有效利用,为江西省水利科技管理工作提供准确、及时、量大的数据支持,提高工作效率,促进江西省水利科技创新发展和科技成果转化能力,加快江西省水利科研工作的发展。
1水利科技大数据现状分析及问题呈现
随着江西省水利科研工作的快速发展,科研课题和科研成果日益增多,科技管理工作日益繁重。目前,江西省已开发水利科技项目管理系统,主要针对科研项目申报、过程管理、验收报奖等业务,但该系统尚未正式投入使用,部分功能仍待进一步优化。江西省科研工作离实现信息化管理还存在差距,现阶段科研管理工作存在的问题主要有以下几点:
(1)科研成果保存分散、难以得到充分利用
传统的科研成果管理方式主要是以纸质档案形式保存,或借助office等办公软件实现对数据的录入、存储和处理,这种方式具有保存分散、难以查找、资料不完整、数据易丢失、字迹易模糊、占用存储空间大等缺点,不便于及时整理、查看,数据成果难以得到有效利用。
(2)科研管理工作量大、周期较长影响效率
随着水利科技建设的不断深入发展,科技力度不断增强,科技人员、科技项目数量逐年增加,部分科研项目周期较长,人工管理工作量巨大。这些都为科技管理造成了一定困难。当前的这种科研管理模式已经不再适用,不仅消耗大量人力、物力和财力,同时资料准确性也难以保证,影响工作效率。
(3)科研信息传递较慢、时效性难以有保证
对于科研信息,实时性很重要,科研人员应及时、准确掌握所在地区以及整个行业的最新科研动态和一手资料。信息化程度不够,存在一定的滞后性,导致滞后性的原因在很大程度上是由于缺少一个综合性科研信息资源共享平台能在第一时间提供准确信息。目前大量地依靠手工操作管理,科研信息显然加重科研管理人员负担,同时不利于科研信息的传递,难以得到及时、准确的信息。
(4)科研资源相对独立,缺乏条件共享机制。
随着科学技术的发展,近年来科研仪器设备数量增多,更新换代周期较快,当前的管理模式却相对独立,缺乏共建共享的机制,无法实现对科研资源的动态管理,不能及时了解其使用情况和使用状态。科研人才、仪器设备、数据文献、网络资源等都相对分散,难以形成规模共享,项目间关联性差,造成资源浪费。急需对相关资源进行整合集成、优化配置、合理布局、开放共享,制定有关管理办法和共享机制,保持科研条件的先进性,充分发挥其作用,真正做到科研资源的最佳配置,提高科研设备和成果的共享程度和利用率。
2多源异构数据融合
2.1多源异构数据融合技术的选择
针对多源数据融合不同的应用场景和数据特点,选择合适的数据融合算法十分重要。下面简要介绍多源数据融合领域决策级融合的几种常用算法,并对证据理论算法的相关内容进行详细说明。
2.1.1贝叶斯估计
贝叶斯推理被广泛应用于统计方法中,是多源数据融合领域决策级融合常采用的方法[1]。其原理是结合基于概率论原理的数据收集器信息,以概率的形式给出相应的不确定性,然后在多源异构数据的前提下估计特定假设真实的后验概率[2]。在贝叶斯推理的工作过程中,综合考虑了未知参数和样本的先验信息,并根据贝叶斯定理进行推理得到后验信息。最后,根据一定的规则,得到了未知参数的推理结果。
2.1.2卡尔曼滤波器
卡尔曼滤波器是信号处理和估计理论中常用的一种方法[3]。首先将数据采集节点收集的同质信息分批处理,然后用一系列加权公式处理,使计算出的融合信息更加真实,减少数据融合过程中的信息传输量,延长整个数据融合系统的使用周期[4]。
2.1.3人工神经网络
人工神经网络可以有效解决复杂的非线性问题。它能有效地满足多源异构水利科技数据融合处理的要求。神经网络技术通过自主学习能力,可以根据源数据之间的相似性和相关性,制定出一定的数据处理规则和融合算法,得到不确定的推理机制[5]。作为当前人工智能领域研宄的一大热点,人工神经网络历经了不同的发展阶段。1943年Warren McCulloch等提出的神经元McCulloch-Pitts(M-P)模型,被公认为是历史上第一个神经元数学模型;如今大数据和云计算技术的高速发展,为人工神经网络的研究和发展提供了新的机遇。
2.2多源数据融合步骤
对于特征级和决策级两类较高层次的数据融合,信息处理步骤可以简单的表示为图1所示的过程,具体说明如下:
(1)信息采集
信息采集环节指利用多源传感器在目标环境中获取原始的待测信息,如实时降雨量数据、水位数据、水文数据等。根据水利科技资源应用服务的具体数据收集来自不同来源的水利科技数据对数据进行初步检测和评估,以协助制定数据融合相关步骤和内容。
(2)数据预处理
由于水利科技数据的多源异构性,直接从各种数据源中收集的信息会在不同程度上出现数据的完整性、唯一性、权威性和一致性等问题,数据的维度不是统一的无关信息(噪声)、场冗余或多个索引值。这些问题将导致后续操作成本高和决策错误,因此数据预处理是数据融合的一个重要环节。数据预处理有多种方法,可分为:数据清理、数据集成与转换、数据协议等。根据工作内容,这些技术是后续数据,为融合操作提供了重要的保证,提高了融合的性能。
(3)特征提取
特征提取从预处理后的数据中提取反映待测目标信息的特征信息,压缩数据的同时保留数据应有特征,有利于提高后续数据处理的效率。
(4)融合计算
融合计算即利用一种或多种多源数据融合算法,完成对特征数据的融合处理,以得到优化的决策。数据融合算法常用到的有:贝叶斯估计、卡尔曼滤波器和人工神经网络。特征提取和融合计算是整个融合处理过程的核心。
(5)输出结果
根据融合计算得到的数据,通过一定的决策规则,获取最终的决策结果进行输出。
3多源异构水利大数据融合工作流程
基于水利科技资源应用服务的多源异构水利数据工作流程如图2所示,将业务数据、日志数据、外部数据和其他数据等四类数据源作为水利数据处理流程的起点,并根据不同的同源类别对数据进行分类。
流程1:多源异构数据预处理阶段。结构化数据由业务系统主体数据支持,通过结构化数据处理工具/接口采集、提取、清理、转换,加载到数据仓库单元;半结构化和非结构化数据由日志和文档数据支持,还包括互联网相关的科研数据。这些数据可以收集日志和文档数据,通过非结构化处理工具抓取外部科学研究数据,并将其存储在非结构化数据存储单元中。
流程2:并行计算处理和持久性存储阶段。根据不同场景的业务需求、不同的处理和分析及时性,将相关应用数据动态加载到实时处理过程和离线处理过程中。
(1)实时处理流程
业务系统中与科研用户相关的结构化数据可作为仪器设备共享用户行为日志数据的补充(例如,仪器设备共享用户的基本信息、专业信息、研究偏好等信息可添加到他们的科研活动行为日志),提供更多维度的数据分析。
基于对结构化数据流的实时处理,将关系数据库中存储的结构化数据通过sqoop组件导入HBase进行存储,并将实时数据流传输到Kafka消息队列中。消息队列数据通过火花流批处理处理接收,并通过数据流单元进行缓存。火花流实时计算分析后,将数据写回Kafka,输出存储进行后续数据关联检索;基于半结构化和非结构化实时数据流处理,特别是日志数据的实时处理,日志数据流通过水槽采集,数据流通过Kafka队列传输,火花流将连续输入数据流转换成碎片,实现基于规则引擎的数据实时报警、批量分析、关联和流向控制。
(2)离线处理流程
离机数据基于HDFS的海量数据持久性存储系统。通过spark数据持久性功能完成分析,结合HBase中的结构化数据进行数据关联,分析关联结果保存回HDFS;处理结果数据采用SQL语法定义的查询计算接口,通过sparksql检索计算数据。Spark单元实现了对数据的深入分析和挖掘,主要用于支持异步数据分析,并为全数据集的构建提供支持。
流程3:逻辑输出和结果显示阶段。根据应用的实际需要,输出多源异构教育大数据经过处理、计算分析后的数据流,将计算结果存储在MySQL数据库中,进行页面可视化显示。
(1)实时处理输出
通过对流程2中的实时数据进行处理,通过实时数据检索引擎的弹性搜索,实现实时多维检索的计算和输出,数据通过MySQL数据库进行存储。
(2)离线处理输出
通过对流程2的离线数据处理,通过sparkSQL进行数据检索计算,计算结果存储在MySQL数据库中,为后续大数据应用程序显示的可视化模式交互提供支持。
4融合应用及设计
通过对水利科技资源应用服务的多源异构水利数据融合工作流程的构建,解决水利科技数据多源异构的问题,并将此运用到建立以江西省水利科技管理工作现状及存在的问题为切入点进行分析的江西省水利科技资源共享平台,提升江西省水利厅科研管理工作效率、提高科研成果利用率、保证科研成果时效性发挥了重要作用,促进了江西省水利科技创新发展和科技成果转化能力,实现科研仪器设备的共享及统一管理,实现江西省水利厅科研仪器设备的动态跟踪,实现网络化信息共享,
5结语
随着水利科研工作的快速发展,科研课题和成果日益增多,科研管理工作也越来越艰巨。实现科技资源的共享和利用,是加强科技资源管理,促进资源有效整合的重要手段。然而,实现数据共享先要解决多源异构的科技数据的融合问题。本文对江西省水利科技数据特点进行了分析,通过数据融合 原理、步骤、技术等方面,对江西省多源异构的水利科技数据融合技术进行探讨,为提高水利科技大数据整合、分析、挖掘和应用效率,以及实现资源共享等提供信息与技术支撑。
参考文献:
[1]贺雅琪.多源异构数据融合关键技术研究及其应用[D].成都:电子科技大学,2018.
[2]赵汉青,王志国.论中医药多源异构大数据融合方法研究的意[J].中医学,2018,7(5):282—285.
[3]凌云.基于物联网的异构传感数据融合方法研究[J].计算机仿真,2011,28(11):138—140.
[4]Evensen G. Ensemble Kalman Filter:theoretical formulation and practical implementation[J]. 0cean Dynamics,2003,53(4):343—367.
[5]Benke K,Benke G. Artificial Intelligence and Big Data in Public Health[J].Int J Environ Res Public HeaIth,2018,15(12):2796
【基金项目】南昌航空大学第十六届“三小”项目“江西省多源异构的水利科技数据融合技术研究”(2021JG039)

京公网安备 11011302003690号