• 收藏
  • 加入书签
添加成功
收藏成功
分享

大数据背景下概率论与数理统计的运用研究

刘颖 周芹 修江涛
  
卷宗
2023年9期
中国人民大学

摘要:伴随着社会的发展和科学技术的发展,当今世界正步入一个"大数据"的时代,在这个信息化、智能化和数据化的时代里,人类的日常工作也在发生着巨大的改变。随着网络的发展,我们的生活和工作都已经无法离开网络。网络数据也突破了地理等界限,把人和人联系在了一起,文章就大数据背景下的概率论与数理统计的相关理论进行了分析,并对其起源和联系进行了深入的研究。

关键词:大数据背景;概率论;数理统计;运用研究

前言

伴随着人们生活质量的不断提高,概率学知识在日常工作和生活中得到了日益普遍的运用,它的运用大大地增强了我们对这个世界的认知程度,而将它运用到大数据分析工作中,将会大大地提高我们对于大数据的分析效率。在对大数据的分析运用过程中,运用概率学与数理统计的方法,可以对人类的生活和日常工作中所面对的各种复杂问题和数据展开科学的研究,并可以获得精确的结论,从而可以对人类的生活品质进行全面的提高。而且,通过对这些数据的运用,可以对相关事情的演化规律和发展趋势进行精确的预报。

一、大数据下的概率论与数理统计

概率和数学都是统计学的一种,从古代开始,统计学就是无所不能的,古代有"结绳纪年"。而现在是一个大数据的时代,统计学的发展也发生了巨大的改变。"概率"和"数学"的运用,首先是在法国兴起的,这就是著名的"赌鬼故事",在这个大数据的时代,统计学有了很大的发展,而数学也可以在大数据的环境中起到很好的辅助效果。概率理论是一门数学学科,它主要是用来探讨一些随机性的定量法则。偶然的事情与确定的事情是相关的。在特定的情况下,某种后果的产生是必然性的。在日常的工作中,我们经常遇到的一些常识性问题,都和几率理论有关,例如:在一个标准大气压力下,如果将水加热到100℃,那么它就一定会沸腾。随机现象是一种偶然的现象,在我们要对一种事物的可能性进行预测的时候,经过对它的观测,我们很难对它的结果做出准确的判定。不过,我们可以用几率来对它进行分析,就像最常见的抛硬币,大家都知道,硬币有两面。如果在一般的条件下进行抛投,会产生正负两面,我们无法对其结果进行预估,但正负两面出现的几率都是50%,所以我们可以从它出现的次数来推断,例如,在一次试验中,我们对一元纸币进行投掷,每次试验抛掷100次,总共进行4次试验。我们可以看到,硬币的"正数"和"反数"是非常相近的。数理统计学是一门新兴的学科,它包括了描述性统计学和推论统计学两大类。这是一种建立在概率理论的理论框架下,对许多随机事件进行统计规律的理论和方法。叙述统计的工作就是对数据进行收集、整理、分组,编制出一张频率分配表格,画出一条频率分配的曲线,并对各类的特性指数进行分析,从而对数据的集中趋势、离中趋势以及频率分布的偏坡度等进行说明。在大数据的时代环境下,概率理论与数理统计获得了新的发展机遇,由于大数据自身所具备的特性,可以利用对大数据进行采集,并对其进行分析,从而可以获得相对最好的解决方案。而在此基础上,概率理论与数理统计也是以概率为基础,来对事情的可能性进行研究,因此,在大数据的基础上,可以使其变得更为科学,得出的结论也更为准确[1]。

二、大数据下概率论与数理统计的新方法

在大数据背景下,概率论与数理统计发挥着非常关键的作用,我们将学校的教育作为一个例子,政府提倡在当前的教育工作中,要充分利用大数据、大时代、人工智能等工具的优点,以完成对国家对现代化教育的要求。网上的教育资源,是按照教材、试卷、资料、课件等等来划分的,还有中考专区,高考专区,优课专区等等,学生们还可以在这个论坛上,分享自己喜欢的教育资源。在目前的大数据时代,资源共享平台上可以将其优点完全展现出来。在在大学里,学生们的生活已经不能离开电脑和智能手机,而教师们在进行的课堂教学也是对多种教学形式进行了研究学习。因此,对数据的选取可以让他们的教育质量得到提升,让校园管理水平得到提高。在大数据的环境下我们可以发现,学校运用统计学原理来对学科知识展开统计,以分模块的形式可以为学生的学习带来便利。大数据下的概率与数理统计,不仅仅是在校园,在生活中、工作中的各个领域都可以被运用到,具有非常高的重要性。在大数据的环境下,统计中出现了许多新的新的方式,比如:第一,可视化分析法,大数据分析的使用者包括大数据分析专家和一般的用户,但这两种人对于大数据的最基本的需求就是可视化分析,由于可视化分析可以直接地展现出大数据的特征,并且可以让读者更好地理解,就像是看图说话一般,简单明确。例如,许多 APP都会提供一个基于用户观看的信息的推荐系统。第二是统计学方法,统计学方法是通过一个分布的数据库,或一个分布的计算机群,对其中所储存的大量的数据进行常规的处理和归类,以达到最基本的处理要求,在这一点上, EMC的 GreenPlum可以用于某些实时性要求。第三,对新的信息进行预测,大数据的终极用途就是对新的信息进行预测,根据这些信息进行建模,对新的信息进行预测。就像百度的导航系统,就是通过对大量数据的处理,再加上新的统计方式来实现运行的[2]。

三、大数据下概率论与数理统计的关系分析

从概念的意义上来说,概率论是一种对我们所见到的事情的随机性展开分析,并对它的变化进行研究,而数据统计是一种方法,它借助计算机、互联网等进行操纵,可以精确地对大数据下的事件出现的几率进行分析,还可以将事情进行归类和统计,所以它是一种现实中的事实,而数理统计是一种科学的方法,它是一种针对数据进行处理的一种方式。概率与数理统计相互补充,其主要目标都是对数据进行分析,使得数据具有一定的科学价值,为实际问题的解决提供基础。在概率论和数理统计这二者之间,前者可以为后者提供进行研究的理论依据,而后者可以为前者进行数据分析,二者相互配合,可以使得对大数据的分析更为准确,对数据进行的处理也更为有意义。概率理论和数理统计在很久以前就得到了运用,然而现在,我们所面对的是一个"大数据"的世界,随着网络和其他技术的飞速发展,我们所采用的常规的数据处理方法很难与现在的大数据环境相匹配,所以我们应当选择一种覆盖面更广泛、组成更多的数据的新方法来进行研究。概率论和数理统计从最开始就是从赌博开始的,而在大数据的发展过程中,它的发展是建立在这个大数据的前提下的,数据的来源非常广泛,包含着非常多的信息,利用这些信息和数理统计的方法来进行数据的处理,可以帮助我们更好地进行数据的分析。目前,在这个世界上,概率论与数理统计的研究已有了一定的理论依据,它们在现实生活中也有着一定的实际意义,所以,在对其进行的数据分析上,它们可以互相关联,互相支持[3]。

四、概率论与数理统计和大数据分析之间的关联

在进行在概率论与数理统计的理论知识的时候,我们并不十分清楚它们的思路,我们只是按照不同的类别,来确定应该采用什么样的流程来处理问题。

(一)概率论与数理统计具有很强数据分析能力

很多同学在学习似然函数的时候,都会觉得,如果要将有关的概率数据结合起来,那么从概率论和数理统计的角度来说,其本质就是要对"可能性"问题进行对应的解析,尤其适合在样本足够大的时候。但他们不明白为何要这么做。从这个方面也可以看出,在教学过程中,将概率论和数理统计运用到大数据中,是学生所遇到的一个重大问题。在此基础之上,我把概率理论应用到实际的解析中,有着重大的实际意义。从概率论的观点来说,就是将随机数理统计运用到大数据的分析中,这就要求我们清楚地运用概率论与数变量分布问题展开研究。但是,在数理统计与统计学知识之中,也有用条理化统计来进行大数据的理由。把这作为一个先决条件,只有将概率与数理统计的内容完全地融会贯通,这样,就可以更好地利用概率与数理统计来对大数据进行分析[4]。

(二)强化对相关统计软件的学习

从科学的角度来说,概率论与数学、统计有着密切的联系。一般我们在研究概率和数理统计的时候,都是将它们当成了高等数学的一部分。但是在现实生活中,许多资料的分析都是离不开统计的。统计是一门特殊的科学,主要研究资料的处理与分析。但是,因为大数据分析所面对的数据量十分巨大,如果仅仅依靠人工来进行分析,那么就不能有效地确保数据的计算和数据分析的准确性,所以在这个时候,学习统计程序就变得十分关键。就目前的大学教育而言。在管理学和经济学等领域,统计学的软件被广泛地使用,特别是对一些较为复杂的学科进行调查和分析。根据上述情况,我们必须加强对有关的统计软件的研究,这样在将来我们就可以将这些数据的数据合理地运用起来,这样不但可以提高我们对大数据的准确率,而且还可以极大地节约我们在劳动力上的费用。

(三)将统计学、数学融合于概率论与数理统计中

从上面可以清楚地看出,概率论与数理统计、统计学、数学三者之间的存在有着非常紧密的联系。尽管在学习阶段,人们是将概率论与数理统计统合在数学这门学科中,展开对理论知识的学习。但事实上,这些知识与统计学之间也有一定的联系。在统计和数学方面,许多想法都是从统计学的理论性想法中衍生出来的。因此,在进行大数据分析的时候,除了要将概率论与数理统计理论知识的学习作为基础之外,还要将统计学、数学结合到一起来进行学习。从而可以更好地利用概率论与数理统计来展开大数据分析:除了上述内容之外,统计学、数学也可以对大数据展开直接的分析。利用统计学中理论知识,对收集到的数据展开统计,并以统计结果为依据,寻找出众多数据独有的数字特征。在统计学处理中,要利用有关的数学知识来处理数据[5]。

(四)在经济数据方而的应用

在"大数据"的背景下,数据在社会发展中具有无可取代的地位。在各类数据中,目前较为普遍的就是经济资料,因此,对这些资料进行研究,对于促进社会和经济的发展有着重要的作用。这在很大程度上提升了对经济数据的分析的困难。但是,利用概率理论与数理统计来对经济数据进行分析,可以使数据的分析困难得到有效地减少。比如,在对经济数据进行分析时,使用正态几率分布方法,可以对连续性随机变量的几率进行预测和描述,从而可以有效地对概率信息进行分析,并以此为基础,对目前市场经济发展的现实状况进行把握,可以对更多的有关经济数据进行分析。从目前经济市场的情况来看,每一天都在不断地发生着改变。当我们对这些经济资料进行研究的时候,除了要对市场的发展趋势和改变的规律做出准确的判断之外,还需要将这些影响到我们所处的环境中所面临的各种问题都纳入到我们的考量之中。这就意味着,为了更好地规避这些问题,我们可以运用概率论和数学统计的方法,来减少这些问题的发生。以证券投资为例,从概率理论和数学统计的角度来看,证券投资的规模愈大,获利的几率就愈大,所以许多投资人在做出投资决定的时候,都会将自己的钱分散到不同的证券机构中,这样就可以减少风险,从而极大地提高投资人获利的几率。又如,运用回归法。该方法是在对一个随机变量的研究中,对一个与另外一个随机变最有关的方法,根据变最数目、自身变最和因变最的相互影响,再将它划分为一元多元线性回归,从而实现对证券投资的一次预报,其方法是利用已有的样品值来获得对应的样品值曲线,并据此来预报未来的结果。从总体上来说,通过回归分析方法进行的股份投资预测,不但可以对股份将来会带来的利润进行风险的预估,还可以对股份收益的过程中有可能会发生的下降进行预估。对股市投资者来说,如果能够对一只特定的股份的将来的走势展开预估,可以给他们在投资决策方面带来一些借鉴。但是,需要指出的是,使用这种方法进行股份的投资分析,需要建立在相关的科学定性的基础之上,这样,才可以确保计算的结果是可靠的。上述结果表明,在对经济资料进行研究时,在实际中运用概率学和数学统计学,具有十分显著的实用价值[6]。

(五)在商业数据分析中的应用

在大数据的背景下,商务数据在公司的存在和发展中起着非常关键的作用,商务数据也是一种经济数据。现在,在对商业数据进行分析的时候,大部分的企业都会使用到概率论和数理统计两种方法。比如说,要想在商业数据中,对大顾客的离开几率进行分析,那么就需要构建一个研究模型,将流出的数据形成一个相应的方程。然后,找到一个对大顾客的离开有很大的作用的原因。根据它的划分层级,进行分类,设置一个特殊时间段,将在这个时间段中的大顾客的离职状况进行总结,然后,再将这个问题的发展趋势图进行整理,最后,再将一个特定顾客在一个时间段内的离职几率进行计算,利用这个方程找到一个协变量,并对这个问题的相关问题进行分析。

五、大数据下概率论与数理统计的案例分析

PredPol与洛杉矶、圣克鲁斯等地的警察部门和科研小组共同努力,根据不同类型的运算法则和相关的犯罪资料,对可能出现的罪行进行了预报,其预报精度有大幅度提高。洛杉矶使用这一计算方法后,偷窃与暴行比例分别降低了33%与21%。利用概率论与数学的方法,我们可以知道,偷窃罪和暴力犯罪都会出现,而且,我们可以从过去的犯罪纪录中,推断出各个区域的犯罪率。再加上大数据的环境,犯罪的发生几率就可以获得准确的结果,这就是将大数据与数学的优点融合在一起的结果。在当前的社会中,概率论与数理统计的运用变得日益广泛。例如,在企业的运营过程中,常常会出现一些审计问题。公司中的运营项目太多,应收款项的账目数据数量太多,在进行审计的时候,很难将每个项的数据都进行审核。此时,我们就可以将概率论与数理统计的方法运用起来,展开抽样调查,按照一定的取样方式,从中提取出账目信息,在对样品进行审核之后,可以有效地对其账目的准确度进行审核。概率理论和数学统计学的实际运用可以帮助人们更好地理解现实世界中的许多实际问题,因而本项目的开展有着重要的意义。

六、结语

总之。在当今这个时代,在对大数据进行研究的时候,概率论和数理统计并不只是作为辅助的手段,同时也是一种更加简便、更加有效的数据处理方法,可以将概率论和数理统计结合起来。数据处理中所涉及到的数据类型、处理效果等都是数据处理中的重要内容。目前,大数据的发展速率变得更高了,在大数据的处理过程中,将概率理论和数理统计运用到其中,可以更好地促进我们的社会和经济发展。

参考文献

[1]汪浩,李莹,曹远龙.大数据/人工智能背景下IT专业概率论与数理统计知识点融合R软件的具体举措[J].数学学习与研究,2022(11):14-16.

[2]汪浩,李莹.大数据/人工智能背景下IT专业基于R的概率论与数理统计教学改革[J].计算机教育,2021(03):180-184.

[3]杨静,杨新木,许峰,李德权.大数据背景下《概率论与数理统计》课程改革探索[J].浙江水利水电学院学报,2020,32(04):93-96.

[4]李琴,李斐,丁春燕.大数据背景下“概率论与数理统计”课程的教学改革[J].新课程研究,2020(06):32-34.

[5]李晓莎,武洪萍.基于大数据背景下应用技术型高校概率论与数理统计教学改革的研究与实践[J].中国石油大学胜利学院学报,2019,33(02):65-67.

[6]刘广会,韩莹莹.大数据时代背景下R软件在概率论与数理统计课程实践教学中的应用研究[J].发明与创新(职业教育),2019(04):59-60.

作者简介:

刘颖(1993.1)女,汉族,河北省张家口市,生物信息工程师,本科,研究方向:统计学。

周芹(1985.5)女,汉族,江苏省,公司员工,本科,研究方向:概率论、数理统计。

修江涛(1988.2)男,汉族,山东省烟台市,主任运营专员,本科,研究方向:统计学。

*本文暂不支持打印功能

monitor