• 收藏
  • 加入书签
添加成功
收藏成功
分享

大数据挖掘面临的挑战与思考初探

薛川
  
卷宗
2022年36期
中国人民大学 数学学院

摘要:大数据挖掘作为一种先进技术,其在许多行业中都得到了广泛应用,为了发挥出大数据挖掘技术作用,要加强对大数据挖掘技术的应用的探讨。但大数据挖掘技术在实际应用期间面临一定挑战,为了充分发挥出大数据挖掘技术作用,要加强对相关内容的探究。

关键词:大数据挖掘;智能电网;电子医疗;深度学习

大数据主要分为决策大数据、科学大数据、Web大数据,大数据挖掘技术在具体应用期间,会呈倒金字塔形状。目前,大数据挖掘技术在许多企业内都得到了广泛应用,而且从具体应用情况来看,取得了不错效果,对企业发展能够起到一定促进作用。

1.大数据挖掘时需要注意的要点

近几年,大数据得到了快速发展,这在一定程度上促进了我国人工智能行业的发展,例如无人驾驶汽车、远程医疗等。随着人们对大数据挖掘技术研究相关内容的不断深入,人们意识到在进行大数据挖掘时,不能一味追求大规模,还要注重对大数据的融合,在追求结果精准性基础上,提高时效性、完整性,这是大数据挖掘需要注意的要点。

2.大数据挖掘采用的关键技术

2.1 神经元网络技术

神经网络技术是大数据挖掘技术中常用的一种,其中用于特征采掘和聚类的技术十分特殊。利用神经网络对生物神经网络进行模仿,从本质上来说就是分布矩阵结构。神经网络技术主要有以下几种形式网络:

(1)前馈式

以反向传播模型、感知机为代表,能够预测与识别模式。

自组织

以ARI模型为代表,聚类应用上相对较为特殊。

通过对神经网络技术进行合理应用,能够大幅度提高处理遇到的各项问题的效率,高效完成处理作业[1]。

2.2决策树技术

决策树在属性值基础上,能够进行归纳分离,其优势体现在直观性和可理解性,其在具体应用时,能够实现对决策过程的合理解释。

2.3 线性回归分析技术

该项技术在具体应用期间包括预测属性及目标,两者能够绘制为二维空间,实际作业开展时,能够沿着轴绘制预测属性值,在回归模型中,可以将其看作为一条曲线,通过对这一曲线进行应用,能够将实际预测值与线上点错误几率控制在最小。

3.大数据技术的具体应用场景

3.1 智能电网

监控智能电网运行情况与管理国家电子耗电量要利用传感器、智能电表、其他设施连接实现。通过大数据分析,能够实现对存在风险变压器精准识别,而且能够完成对各项设备在运行中存在各种异常行为的检测。因此,通过对网格实用程序的应用,能够对最佳操作或处理方法进行精准选择,具体作业中,对于生产大数据,能够实时分析,可以建设场景模型,能够建设具有战略性预防计划,依据计划开展后续作业,从而降低纠正成本[2]。同时,做好能源预测分析,能够完成电力需求负荷的有效管理,完成对各项资源的计划,实现收益最大化。

3.2 电子医疗

互联网医疗平台目前被应用在个性化医疗服务中,医学数据来自不同异构源。通过对大数据进行应用,能够实时传输患者身体情况、药品数据、医院运行情况等各项信息。医学数据集内大数据分析具有深远价值,这也促使了个性化医疗服务的实现[3]。例如,医生能够通过在线方式实现对患者身体具体变化情况的监控,对制定的处方进行调整,也可以依据人群表现出的具体症状,疾病演变等,对公共卫生计划进行适当调整,这能够减少卫生费用和医院运营情况的调整。

3.3 公共设施

负责供水基础设施运行的公司,在实际工作开展时,可以将传感器放置在管道中,通过对传感器的应用,能够实现对复杂供水网络内水实际流量情况的动态检监测。例如,将监控系统应用在污水和供水处理中,能够实现对系统中是否存在泄露、远程控制阀门状态,以及非法连接等各项问题的全面检测,保证能够实现不同城市供水的安全性与稳定性[4]。采用大数据,还能减少操作人员操作阀门的具体需求,及时完成对供水管道内的出现泄漏水管的修复,通过大数据完成对公共设施运行中各种信息数据的全面收集,预测可能会发生的各种风险,从而提高人们生活质量。

3.4 物联网

物联网是大数据技术具体应用期间的一项主要方面。物联网数据种类多,其应用也得到了推广与发展。目前,智能城市成为互联网数据研究与应用的一项重点内容。例如,将无线适配器、传感器、GPS跟踪车辆位置,完成对各种信息的挖掘和组合,这一方面能够完成对相关员工的管理与监督,另一方面也能实现对交换路线的优化[5]。

3.5 物流运输

目前,射频识别技术和GPS跟踪运输工具被广泛应用在公共道路运输企业内,能够实现对具有价值数据的探索,从而使当地服务质量能够得到进一步改善。例如,能够实现对乘坐不同公交车人数的收集,完成对公交班次和线路的优化,实时为乘客提供具有价值的信息,例如,换乘时间、换乘路线等。挖掘大数据,能够利用专用网络或预测公共需求,实现对旅行业务的改善[6]。例如,在铁路运行期间,通过对大数据技术的应用,能够完成对乘坐人数、预留座位的预测,而该项工作受节假期、中间站、起步站等各项因素影响。采用机器学习算法,能够实现对以往和新大数据的收集、预测、挖掘等,确保铁路运输的合理性。

4.大数据挖掘过程期间面临的各项挑战

4.1 大数据管理

挖掘大数据是一项复杂工作,该项工作具体开展时会面临各项挑战,主要体现以下两个方面:

如何能够通过对软件和硬件的应用,完成对大数据的收集、存储,从分布式源头形成大量数据集,满足后续应用需求。

良好数据管理是挖掘大数据的一项重要内容,做好大数据管理的核心目的就是保证实现对大数据的可靠访问、管理、存储、保护,高效管理大数据,能够更好完成大数据挖掘工作,提高大数据应用的合理性,降低应用大数据成本。

4.2 大数据清洗

为了得到合理分析结果,应当在挖掘与大数据应用前,提高各项数据应用到合理性与可靠性。但是最终挖掘的大数据可能会存在各种错误,不完整等情况。由此可见,在挖掘大数据时,需要面临的一个挑战就是如何实现对庞大数据集的清洗,确定哪些数据是可靠的,是可以应用的。在大数据挖掘时,要加强对大数据的分析,明确各项数据是否可靠,是否可用[7]。

4.3大数据挖掘中数学的作用

大数据挖掘具有集合、应用等特点。数据在大数据挖掘期间发挥着不可代替的作用。大数据挖掘期间,常用的数学方法有关联分析法、聚类分析法,其中聚类分析法已经被广泛应用在统计、营销、医学等各个领域内。所谓聚类分析法实际上就是将相似或相同数据合理到一起,进行不同数据集合划分,然后利用不同数据集合分析进行处理,最终将每个集合内经过处理数据都汇聚到一起,从数据中提出具有高价值信息,实现对大数据的合理挖掘。从实际情况来看,聚类分析法已经被广泛应用在人们日常生活中,各种图像处理、数据分析都能够分析关键性数据,最终实现对有效数据的提取。

4.4 如何进行合理的快速有效聚类算法的设计

大数据规模大,而且会快速增长,这也就导致传统聚类分析法在实际应用时,在计算时会面临较大困难。针对这一问题,要做好大数据分解与融合,这也是解决大数据规模大,以及快速增长的一种合理方法。大数据分解可以形成基聚类器,通过对合理融合策略,集成聚类。在具体分析期间,需要关注的重点问题主要体现在以下两个方面:

(1)基聚类器集成

主要任务就是间某个强聚类器作为参照物,以此为基础,融合多个弱聚类器,最终形成一个强聚类器。在这一过程中的核心问题就是提取正确的聚集方向,构成集成模型,通过对这一方式进行应用,能够达到弱弱生强效果。

(2)局部聚类结果集成

键任务就是融合多个局部结果,使其能够与全聚类结果相接近。在该项作业开展时的核心问题就是单聚类器并未在整个数据集上运行时,怎样才能得到全聚类结果检验信息,从而为后续相应工作开展提供支持,确保后续各项工作能够顺利进行。

4.5如何发展合理的分类方法

在大数据时代背景下,难以精准获取大量有效标签,而且各项数据都会呈现出监督弱或没有监督现象,这也就致使如何发展合理的分类方法成为了挖掘大数据的一项重要挑战。传统分类学习方法在具体应用时,需要事先对一部分对象类别标签进行精准标注,然后在训练集上学习分类器,而且要在测试集上,完成对其具体性能情况的检验。针对大数据来说,在进行大数据分类时,标注特定比利时,不仅需要耗费大量人力物力,而且可能无法实现。总而言之,大数据分类学习能够获取到的标准对象只能占据大数据集类中十分细小的一部分,而且在监督性上会呈现出极弱性。在这一过程中需要关注的重点内容主要体现在以下几个方面:

(1)极弱监督分类学习

通过对无标记样本进行应用,能够完成对建设在小数据集上建设的分类器的改善,在该过程中的核心问题就是如何通过无监督学些与监督学习对类假设可以保持一致。

(2)极弱监督聚类学习

采用极弱监督信息进行应用,从而使无监督聚类结果能够得到有效改善。该项内容的关键就是如何通过对无标记样本进行合理应用,进而使极弱监督信息能够得到进一步增强。

(3)主动+半监督分类学习

在实际作业开展期间的关键,就是采用迭代方式,选取无标签样本内少量核心数据,并且在该过程中,要采取人工方式完成相应标注,从而构建出一个能够满足应用需求的半监督分离器。在这一期间的核心就是如何实现无监督样本最终重要性的合理度量,以及确定人工标注数据最终停止的基础原则。

4.6如何高效合理挖掘数据之间的隐含关联

大数据内的信息内容杂且乱,而不同数据集内会表现出复杂,相互缠绕关联,因此,如何高效合理挖掘数据之间的隐含关联是挖掘大数据时需要面临的一项重要挑战。

大数据挖掘中的关联性分析指的就是通过分析,对大量数据集内相关关系或关联的明确,实现对某些属性同现模式和具体规律的精准描述。对于这一同现关系,可能为客观对象存在,但是在数量并不是严格依存关系;也可能是标准确定形函数形式表达,以及一种伪相关关系,但是并不存在内在联系。针对现有的相关性分析,可以将其划分为互信息、相关信息、矩阵距离和计算等多项内容。大数据背景下,在进行关联挖掘时,主要采取的策略内容如下:

(1)学习性

从关联认知机理入手,通过对人类联想进行应用,能够在现有关联关系中完成对现有关联关系的识别,并且能够完成相应学习,做好大数据挖掘作业。

(2)构造性

如果关联关系具有特定相关性约束,能够实现对实际度量的合理构造。

(3)探索性

针对并未掌握的复杂关联关系,在对其挖掘时,可以采取探索性策略实现,完成对大数据的挖掘。

4.7 如何确保大数据安全

在挖掘大数据期间,确保大数据安全性十分重要,该项工作也得到了相关企业和工作人员的重视。在一些情况下,大数据生产速度快,挖掘大数据期间,识别恶意数据难度较大,通常都无法实现精准识别。目前多数大数据安全技术全都基于经验数据集,而从实际情况来看,多数数据都是动态变化的,为了保证挖掘大数据时安全可靠,对于传统安全机制,要全面结合大数据新特性进行分析,例如,数据变化和数据模式。针对复杂大数据流在实时性要求方面,设计一套低时延、安全性高的新机制,可见,如何确保大数据安全是大数据挖掘中一项挑战性较高的工作。

5. 结语

大数据挖掘技术在许多行业中都得到了广泛应用,将其应用在企业中,采取科学方式应用,能够保证企业在运行时管理效率。大数据具有数量大、复杂性高等特点,这使大数据挖掘时面临许多挑战,在未来对大数据挖掘时,要加强对各项挑战的分析,充分发挥大数挖掘技术的作用,从而使大数据能够被合理应用在不同行业中。

参考文献:

[1]周姬.大数据背景下企业财务管理面临的挑战及创新[J].企业改革与管理,2021(03):167-168.

[2]王溪溪,孔为伦.大数据背景下企业财务管理面临的挑战和变革研究[J].中外企业文化,2020(08):50-51.

[3]郭亚斌.浅谈企业人力资源管理大数据挖掘面临的挑战[J].商讯,2020(21):188+190.

[4]何文韬,邵诚.工业大数据分析技术的发展及其面临的挑战[J].信息与控制,2018,47(04):398-410.

[5]赵克克,李炜钦,马迪.浅析大数据下电子政务的变革与发展[J].电子世界,2017(13):98.

[6]伯运鹤.大数据技术在电力行业的应用研究[J].科技创新与应用,2017(11):177-178.

[7]刘玉兰,韩海涛,滕水莲.大数据时代档案工作面临的挑战与机遇[J].兰台世界,2015(11):15-16.

作者简介:

薛川(1990.6-),男,籍贯:陕西吴堡,学历:本科,职称:高级,现就职于:比亚迪汽车有限公司大数据开发工程师,研究方向:大数据。

*本文暂不支持打印功能

monitor