- 收藏
- 加入书签
大数据分析处理与应用研究
摘要:随着互联网技术不断发展,互联网和人工智能的迅猛发展,大数据应用到各个行业,赋能产业智能化发展,成为信息社会进入智能化阶段的关键要素。然而,大数据技术发展也面临着更深层次的挑战,这些挑战将推动大数据分析处理技术的创新变革,促进新技术体系的建立与发展。文章简单介绍了大数据的分析处理类型以及处理流程,介绍了大数据应用的几个场景,并展望新技术体系下的发展趋势。
关键词:大数据;智能化;挑战
科技发展日新月异,大数据已成为重要的生产要素,大数据分析成为各行各业关注的重点。比如,我们日常生活中的电商购物、交通出行、外卖订购等应用平台,还有行业领域的天气预报、医疗卫生、网上银行等都需要有海量的数据分析运算来支撑运营。这些数据既可以帮助平台开发者制定决策,也可以为使用者提供更为便利的信息服务。
一、大数据的基本内涵
(一)大数据定义
“大数据”(Big Data)概念最早在1980年由著名的未来学家阿尔文·托夫勒在其著作《第三次浪潮》中所提出。研究机构Gartner定义为:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样经的信息资产。麦肯锡全球研究所定义为:一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据说到底就是海量数据的集合,必然无法用单台的计算机进行处理。它的特色在于依托云计算的分布式处理、分布式数据库和云存储、虚拟化等技术对海量数据进行分布式数据挖掘。
(二)大数据的数据类型
大数据的数据类型有:
1.结构化数据:简单说就是数据库,是能够用数据或统一的结构加以表示。如企业用的人事系统、财务系统、ERP系统。
2.半结构化数据:介于完全结构化数据和完全无结构化数据之间的数据,和普通文本相比,具有一定的结构性。OEM(Objet exchange Model)是一种典型的半结构化数据模型。
3.非结构化数据:是指数据结构不规则或不完整,没有预定的数据模型,不方便和数据库二维逻辑来表示的数据。如所有格式办公文档、图片、各类报表、音/视频信息等。
二、大数据分析处理类型及工具
大数据分析包括六个基本方面:1.可视化分析,即以直观的展示数据,让数据自己说话,让观众听到结果。2.数据挖掘算法,可视化是给人看的,数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法,让我们深入数据内部,挖掘价值。3.预测性分析能力。让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。4.语义引擎,利用一系列工具解析、提取、分析非结构化数据,智能提取信息。5.数据质量和数据管理,通过标准化的流程和工具对数据进行处理,保证一个预告定义好的质量的分析结果。6.数据存储,数据仓库,按特定模式进行存储所建立越来关系型数据库。
大数据分析处理工具主要有:用于前端展现分析有:JasperSoft、OpenI、Tableau,国云数据等。用于数据处理的有:Excel、Python、各类数据库等。用于数据仓库有:Teradata AsterData、HP Vertica等。用于数据集市有:QlikView、Style Intelligence等。
三、大数据分析处理流程
大数据分析处理是利用科学的方法、过程或算法,从结构化或非结构化的数据中提炼知识、洞察规律,挖掘数据的潜在价值,这是让数据智能化“说话”的主要途径。主要流程可分四个方面:
(一)数据收集
数据收集是大数据分析处理的第一步,“巧妇难为无米之炊”,数据收集尤为重要。按收集方式的不同,数据收集可以分为线上收集和线下收集;按收集渠道的不同,又可分为内部收集和外部收集。线上收集指利用互联网技术自动采集。一般采用数据埋点方式、爬虫技术或第三方工具获取数据信息。线下收集对技术要求不高,一般采用手工录入获取数据、出版物权威数据以及其他方式提供电子表格等。内部收集指获取数据来源于企业内部数据库、日常财务数据、销售业务数据、运营活动数据等。此类数据获取较为方便。外部收集指的是数据不是企业内部产生,而是通过其他手段从外部获取的。例如,利用爬虫技术、市场调研等获取数据。
(二)数据处理
通过不同途径收集过来的原始数据都是比较粗糙且无序,需要利用数据处理软件进行一系列的加工处理,降低原始数据的复杂程度,最终汇总成用户可以解读的业务指标。数据处理包括前期的脏数据清洗、缺失值填充、数据分组转换、数据排序筛选等,常用数据处理工具包括Excel电子表格软件、各类数据库软件以及Python、SAS、SPSS等。经过处理的数据有结构化数据,但多数是半结构化数据(如日志数据)和非结构化数据(如视频、音频数据),如何进行存储是大数据分析重要环节,结构化数据一般使用MySQL、Oracle等传统的关系型数据库,其可快速存储结构化数据,并支持随机访问。半结构化和非结构化数据的存储使用HadoopHDFS、KFS、GFS等分布式文件系统。数据存储系统同时兼顾数据存储和访问两方面需求,可采用HBase、MongoDB数据库。
将收集数据加工处理,通过对数据进行有效组织,可以高效地提升数据的质量,为后面的分析过程提供更好、更可用的数据。
(三)数据分析
数据处理好以后,就可以开始分析了,根据我们的分析目标,结合实际业务选择合适的分析方法和分析思路去拆解和挖掘,得出相关结论,提供给管理层进行决策。因此,数据分析人中需要掌握数据分析和数据挖掘的常用方法,才能为后期的数据报告的制作打下坚实基础。常用的数据分析方法包括对比分析法、分组分析法、预测分析法、漏斗分析法、A/B测试分析法。数据挖掘的侧重点在于对模型和算法的理解,数据的复杂性、多样性、动态性特点会使得数据挖掘变得很困难。因此在数据挖掘过程中,应该要清楚每一步需要做什么,达到什么样的效果,数据挖掘的规范化步骤可以采用SIG组织在2000年推出的CRISP-DM模型,该模型将数据挖掘项目的生存周期定义为六个阶段。六个阶段分为商业理解、数据理解、数据准备、建立模型、模型评估、结果部署。
(四)数据应用
数据分析完成后,接下来就是数据应用的范畴,所谓数据应用就是通过对数据的分析,得出知识、见解、原理,或者是相关关系。这是数据智能化的体现。根据业务需求,运用图形、图表等多种有效的可视化方法将数据展现出来,以便更清晰明确地传递数据中所蕴含的价值,也帮助人们更好地理解数据。比如短视频个性化推荐、电商商品导购、产品销售分析等。数据应用必将对相关行业领域产生影响,并带来应用价值。
四、大数据分析的主要应用场景
大数据时代大数据分析技术广泛应用,日常生活、政府及企业对数据分析的应用需求越来越多,大数据分析技术为人们的日常生活带来诸多便捷,促进变革和科技发展。日常生活中,人们的衣食住行都离不开数据支撑,大数据分析技术的发展正在逐渐改变人们的生活方式。交通、医疗、金融、教育、媒体等众多领域运用大数据技术支撑运转,国家陆续出台一系列大数据应用政策,支持其发展,由此可见,大数据分析与人们的日常生活已经紧密结合。
1. 电商购物
电商平台给人们生活带来了极大便利,移动互联网的发展让用户可以随时随地购物。利用大数据分析技术,电商企业可以对用户的偏好进行分析,然后进行商品推荐,从而提高用户的购买效率;电商企业对用户反馈的评论进行收集分析,然后用来对产品进行优化,从而提高用户对产品体验。
2. 交通出行
大数据分析技术可以实时监控车辆通行密度、道路拥堵情况,合理规划行驶路线,实现即时的信号调度、交通导流,提高线路运行能力。此外,近几年来发展迅猛的打车平台和共享单车也是利用大数据分析技术快速匹配司乘信息,从而提高用户乘车的便利性,减少能源损耗,提高出行效率。
3.医疗卫生
医疗卫生领域应用大数据主要体现在智慧医疗,例如通过某种典型病例的大数据分析,评估该病例最优治疗方案;根据病人就诊信息,通过大数据分析得出涉及食品安全信息,及时进行监督检查,降低已有不安全食品的危害;基于覆盖区域的居民健康档案和电子病历数据库分析,快速检测传染病,进行全面疫情监测,并通过集成疾病监测和响应程序,快速进行响应。
4.金融领域
金融领域是大数据应用的重要领域,比如信用评估,银行基于客户资料的大数据分析,对申请贷款的客户进行信用评分,从而确定是否给客户发放贷款以及发放贷款的额度。除此之外,金融领域里面的风险管控,客户细分,精细化营销也都是大数据应用典型例子。
5.媒体行业
大数据分析在媒体领域广泛应用。借助大数据分析功能以及更多的服务,我们可以随时随地访问喜爱的节目和电影。大数据分析帮助公司与客户建立了良好的互动联系,为了确保轻松访问其内容,媒体和娱乐公司收集大量用户数据,利用大数据分析,以获取有关用户选择和兴趣见解, 根据喜爱向用户推荐节目或电影。此外,公司分析查看用户历史记录、评分、评论等社交媒体数据,密切关注评估每个客户的需求,预测在将来需要提供什么服务。
五、大数据分析的发展趋势
1.技术发展趋势
大数据技术的发展使得数据采集、存储、处理、安全等技术日臻成熟。深入开发数据分析和数据挖掘技术,利用大数据分析技术从海量数据中提取更有价值信息。未来大数据分析技术的发展方向大体可以分以下两点:一是对海量的结构化和半结构化数据进行深度分析,挖掘数据背后隐藏的知识;二是非结构化数据进行深度挖掘,将文本、图形、声音、视频、超媒体等类型中蕴藏的丰富信息转化为有用的知识。
2.产业发展趋势
大数据产业是以数据采集、存储、加工、分析、服务为主的新兴产业,包括数据资源建设、大数据软硬件产品开发、销售以及相关信息技术服务。随着大数据与物联网、云计算、人工智能等前沿新技术深度融合。大数据未来发展趋势有以下几个方面:①大数据推动物联网发展。物联网握手大数据,正逐步显示出巨大的商业价值。②大数据推动科技领域。人工智能够充分利用大数据潜在价值,大数据将为人工智能带来更多的创新。③大数据推动智慧城市建设。利用先进信息技术、大数据技术,实现城市智慧管理和运行,促进城市的和谐、可持续发展。
3. 人才发展趋势
大数据技术的发展带动了企业对于大数据分析人才需求的快速增长,当前大数据人才培养滞后,导致大数据分析人才的缺口很大。因此未来一段时间内大数据分析人才依然炙手可热。当前大数据人才需求有三个较为明显的趋势:一是大数据岗位划分逐渐行业化,更多行业领域出现自己的大数据岗位,岗位也更趋向全栈化,这就要求大数据从业者的知识结构要更全面。二是大数据领域创新更趋向价值出口打造,这个过程要求大数据与更多技术相结合,比如大数据与区块链的结合。三是大数据生产将从被动变为主动。传统数据采集将被数据生产所取代,如何生产数据则是大数据从业者需要重点考虑的核心问题之一,因此掌握大数据生产技术将会有更大的发展空间。
参考文献:
[1]基于大数据分析的计算机信息处理技术探究[J].罗丽红.计算机产品与流通.2019(06).
[2]高性能计算系统在大数据分析中的应用探究[J].姜斌.电子元器件与信息技术.2021(02).
[3]云计算技术在计算机大数据分析中的应用探析[J].吕国庆.智慧中国.2022(07).
[4]浅析大数据分析中高性能计算系统的应用[J].李阳,牛长亮.信息系统工程.2020(03).
[5]当前大数据分析与云计算网络技术剖析[J].赫时煊.网络安全技术与应用.2020(03).
京公网安备 11011302003690号