• 收藏
  • 加入书签
添加成功
收藏成功
分享

浅谈基于大数据背景下的传统统计模型与人工智能新算法新技术创新融合的优势

刘昀
  
富网媒体号
2024年134期
湖南科技大学应用统计专业

统计是通过收集、整理、分析、描述数据等手段,运用数学、信息技术及其他学科的专业知识,通过样本分析达到推断所测对象的本质,进而预测对象未来发展目标的一门综合性科学,使用范围覆盖到了社会科学、自然科学的各个领域。

在过去的100多年中,普遍调查与抽样调查作为统计的两大数据收集方法体系,在对社会经济发展、自然环境保护的测量中发挥了重要作用,当前,信息化进入了新阶段,大数据时代已全面来临,统计的研究方向、方法不断地演变,极大地丰富和拓展了统计的内涵和外延,在生态环境治理、机器学习、人工智能、经济分析、金融精算、医药卫生等多个领域,统计与数据科学都为解决复杂问题提供了方案,扮演着不可或缺的角色。

面对更加复杂、更具不确定性的社会科学、自然科学的疑难问题,对于统计发展而言,既是挑战也是机遇,更需要先进的算法和技术。

中国科学院数学与系统科学研究院研究员马志明院士在首届全国统计与数据科学联合会议上谈到,“当前正处于大数据时代,大数据促进了数据科学的发展。在大数据时代,数据科学不仅与统计学有联系,而且与计算机科学、数学、人工智能等学科都有联系。同时,大数据的海量性质、异构性质、非独立同分布性质等特征也给传统的统计学带来巨大的挑战。我们迫切需要发展和创新统计思想和统计理论,建立大数据分析的统计学基础,为数据科学建立严谨的统计分析体系和计算基础。”

统计学是一门从数据中发现规律的学科,对人工智能发展起着至关重要的作用,统计学不仅是解决人工智能算法和模型问题的基础,而且对整个人机协作、数据获取、算法研发以及结果分析都有着巨大影响。

在传统统计学的研究中,统计模型的建立依赖于数据的测量方法与结构特征。统计学的基本任务是预设分析策略、建立数据模型,设定待测量对象的变量以及数据的收集方式,收集来自某个所测对象的样本,使用样本分析、推断出所测对象总体的本质。然而在实际收集过程中,样本数据的收集渠道、方法往往无法完全遵循事先的预设,收集上来的样本数量、质量,对总体是否具有良好的代表性等因素会影响统计分析的精确度。

随着大数据时代的到来,在数据收集过程中可以获得的数据规模(即样本量)大幅提升,样本量的增加使得统计推断与预测的结果更为精确,但大样本量对计算的精度和速度要求更高,需要借助更为先进的统计模型、统计方法和技术来提高算法和算力。

同时,在传统的统计建模中,线性结构假设是最常见的假设之一,并有着丰富的理论结果。然而,现实世界中变量之间的关系常常是较为复杂的非线性关系。以统计学的一个重要领域金融分析为例,金融分析中收集的数据常常因为收集手段和渠道的限制,存在信息不全或信息损失,但随着样本量的提升,大数据在一定程度上降低了信息损失带来的干扰,提高了统计模型的性能与效果。因此,如果能够在统计模型中引入非线性模型,则可以更加接近客观世界的真实情况,由此提高统计模型的性能。

随着人工智能时代的到来,人工智能所涉及的算法与技术,主要是依托大量的数据信息,基于统计学原理让计算机使用既定模型与算法进行训练,从而使得计算机能够具备某些类型的智能。这样,一方面统计学作为人工智能重要的支撑性学科,其研究热点与人工智能的发展密切相关;另一方面,人工智能的技术、方法不仅有助于传统统计方法的优化,也为提高统计分析的效率和精度提供了可能。

在传统统计建模中,统计分析人员常常需要根据所研究的目标从数据资源中构建各种变量,即将数据资源进行结构化处理,随后再引入统计模型,这个步骤一般被称为“特征提取”。在很多应用中,特征提取的质量往往与统计模型的性能有着密切的关系。但作为人工智能技术中的深度学习,其依靠深层次的“神经网络”结构,可以在大量非线性结构数据中自动实现特征提取,提取过程可以借助自动算法,完全独立于后续的统计任务,实现对特定任务最优的特征提取。

因此,人工智能时代的统计分析,不再需要统计人员根据自身对统计对象的理解来设定变量或提取特征,而是可以借助人工智能的算法,自动且有效地捕捉数据的内在特征、内在联系,从面实现高质量、如社会经济生活分析、生物医药基因组合、地方工农业发展规划等方面的统计分析建模。

*本文暂不支持打印功能

monitor