• 收藏
  • 加入书签
添加成功
收藏成功
分享

统计学方法在生物信息学分析中的应用

郭一贤
  
卷宗
2022年31期
天津云泉智能科技有限公司

摘要:随着生物信息学的发展,生物信息学的科学性和有效性在生物技术应用中发挥重要作用。如今,各种新形式的统计学方法在生物信息学分析中得到了广泛的应用,统计学方法的应用理念也在不断地创新。在构建安全生物技术的主题下,生物信息学越来越注重统计学方法应用的创新路径。通过探索统计学方法在生物信息学分析中的应用,可以在一定程度上保障生物技术的安全和质量,提高生物信息学水平。近年来,统计学方法在生物信息学分析中发挥着越来越重要的作用,在探索中寻找科学性和有效性的应用方法,发挥统计学方法的积极意义。

关键词:统计学方法;生物信息学;数学;积极影响

生物信息学是一个综合性的学科领域,生物信息学主要包括基因组信息的获取、存储、分配和分析解释等。通过综合使用数学、统计学、物理学、化学以及计算机学等相关专业可以辅助阐明大量生物数据的内容,更深层次的明确生物信息。本文主要探讨统计学方法在生物信息学分析中的应用。

一、生物信息学概述

生物信息学的研究领域不仅限制于传统生物学,生物信息学当前的发展包含了许多学科基础,生物信息学的分析需要借助数理统计等统计学工具,以处理大量的生物学数据。目前生物信息学的研究发展主要涵盖了遗传学、分子生物学以及细胞生物学等重要的生命学科,这些重要的生命学分支与生物信息学息息相关,同时,这些学科交叉的发展也离不开数学、统计学、物理学以及化学等计算学科的共同参与。生物信息学的分析针对大量生物数据,完成数据查询、筛选、分析和比较,可以获取更深层的基因编码、调控以及核酸和蛋白质等。生物信息学的数据量极大,处理数据的计算量也很大,为了解决这个问题,科学有效地优化生物信息学的数据处理方法及算法,对庞大的数据内容进行优化处理,结合生物信息学数据处理的经验,引入统计学方法十分必要。

近代以来。生物信息学的主要数据库由美国、欧洲以及日本组成,这些生物信息数据库在日常工作中也需要进行数据交互。随着计算机网络的普及,世界范围内的更多国家参与了生物信息数据库的资源共享,共同推动了生物信息学的研究和发展。

二、统计学方法概述

自二十世纪以来,统计学方法被广泛应用于生物医学的研究中,随着科学技术的发展,生物医学中的基因学、蛋白质学等学科不断进步,在这些学科的发展过程中,与统计学产生了必要的学科交叉,融合统计学的数学方法,对生物研究人员的日常工作带来了便利,对生物信息学也产生了积极的意义。为了研究生物信息学与统计学的学科交叉,解决当下面临的新问题,统计学专家与生物信息学专家对统计学的经典计算方法不断改进,以统计学方法为基础,不断探索更加科学有效的新理论和统计方法,主要涵盖统计设计、统计分析以及其他复杂的分析手段。

针对统计设计过程,重点关注对生物信息学数据的收集、整理和分析,在开始研究工作之前对整个数据的处理过程提前做好安排和设定,明确研究目的、数据样本、干预措施,通过合理的统计设计得到研究结果。在统计设计过程中也需要注意抽样、控制变量、参照信息等设置的合理性,确保研究更加科学合理。

针对统计分析过程,重点关注统计描述与统计推断。统计描述指的是使用统计学工具(统计图表以及数据统计)对生物信息学的数据资料进行评估和测定,主要从数据分布状态,数据特征以及数据与变量之间的关系入手,完整地描述统计过程。统计推断则是在统计描述的基础上,由统计样本推断整个统计数据的整体特性,参数估计在统计推断过程中发挥了重要作用。

针对其他复杂分析方法,涉及不同的生物信息学项目,数据量以及数据特性不同使研究人员需要针对具体情况具体分析,采用其他更加复杂的分析方法(概率分布,分布偏差等),综合评估数据统计分析采用相应的方式,完成数据处理。

三、统计学方法在生物信息学分析中的应用

生物信息学分析中,统计学方法的数据处理手段可以科学有效地处理庞大地生物信息数据,同时可以在有限的时间里处理更多的数据,统计学方法是生物信息学分析的有效工具,利用更加方便快捷的数学统计方法推动了生物信息学的发展。

(一)序列相似性

序列相似性是生物信息学中常见的研究问题,存在于生物分子学中,主要针对碱基序列(氨基酸序列),需要在数据库的大量数据中寻找相似的同源序列,以推测其基因源于哪个家族,序列相似性的生物学功能意义重大,因此,在序列相似性的研究中,数据结果比较需要经过统计学的检验。在序列相似性研究中,主要用到的统计学方法有Monte Carlo仿真,Karlin Altschul公式以及非重叠局部亚优化配准三种方法,不同的方法具有不同的特性。针对Monte Carlo仿真方法,在序列数据中,序列的符号随机改变后需要在同样的条件下重新配准,重复上百次之后,其均值与标准差可以判断序列得分的统计学特性。针对Karlin Altschul公式,序列数据中的随机变量可以在数据中得到最优配准。针对非重叠局部亚优化配准,局部配准的期望分值与被比较序列的长度有关,最终得以得到局部配准的显著性。

(二)基因表达

生命科学已经进入了基因时代,生物专家以及相关研究人员对基因表达已经开始深入探索。在基因表达中,对基因数据的挖掘与处理是研究的关键。基因实验中的海量数据中藏着丰富的基因信息,利用统计学的方法对海量数据进行处理可以挖掘新的基因知识。在基因表达中,主要用到的统计学方法有分层聚类分析,和K-Means聚类,利用两种统计学方法处理基因表达实验中的原始数据,可以帮助研究人员节约大量时间,聚类分析也可以将数据分类化处理,最后得到数据的分层结构。针对分层聚类分析,在数学中可以把分层聚类分析看作一种二元树,在不同层中对数据分类,在不同层的数据不断被一分为二的过程中,相似的数据被保存为同一个子类,不同的数据被分散开,最终得到树形的分层结构图。针对K-Means聚类,与第一种分类方法不同,它不考虑数据划分以及分层结构,通过矩阵将数据分为不同的类,不断重复分类过程,直到不会有新的类出现。

(三)序列结构以及模式识别

在生物信息学中,序列结构以及模式识别是两个重要的部分,主要用于研究结构复杂的蛋白质。在测定蛋白质结构的过程中,也可以使用统计学方法完成数据的处理与筛选分析。在蛋白质的匹配分析中,庞大的数据量需要借助频率表法完成测试。针对序列结构和模式识别,频率表法可以顺利化简数量结构测定,在处理数据的过程中,帮助研究人员了解蛋白质的组成。

(四)基因转录调控网络

基因转录调控网络是一项重要的基因研究方向,单一基因的表达会受到其他基因的影响,基因之间相互影响和制约的过程可以构建复杂的基因转录调控网络。在基因转录调控网络中,主要包括布尔网络模型和线性组合模型,这两种数学统计模型可以帮助生物研究人员了解基因调控的真实情况,分析基因转录网络的特性。

四、统计学方法在生物信息学分析中的应用存在问题

生物信息学作为生命学科与信息学科的重点,具有极好的发展前景,统计学是重要的生物信息学分析工具,科学有效地利用统计学方法,可以帮助生物信息学科探寻研究数据中的规律和内涵,揭示更加有价值的生物学信息,为科研人员的进一步研究提供理论支持。当前,统计学方法在生物信息学分析中的应用还存在一定的问题急需解决。

(一)统计学方法应用不合理

在生物信息学分析过程中,存在着统计学方法应用不合理的问题,难以保证统计学应用的科学性和有效性。从生物信息学研究具体情况可以发现,大部分研究遇到困难的原因是研究人员选择的统计学方法与具体研究内容不匹配,统计模型的不适配也导致了研究结果不理想。同时研究人员对的统计学方法的应用也需要一定的技巧,忽略了统计学方法侧重点。为了处理海量的生物信息数据,研究人员选择统计学模型时未进行测试,根据经验判断而未结合具体的研究实验数据特征,将会直接影响研究结果。

(二)统计学与生物信息学的学科交叉发展缓慢

与一些国外生物研究单位相比,我国的生物信息学起步较晚,在其发展的过程中也会受到来自经济与生物学科的发展制约。在统计学与生物信息学的学科交叉发展中,最初受到来自技术设备等硬件条件的影响,在资金问题解决之后,由于处理数据占据研究大部分时间,生物信息分析时间也会受到一定程度的缩减,使统计学与生物信息学的学科交叉发展遇到了瓶颈。如今,相关部门出台了各项政策促进统计学与生物信息学的学科的融合,统计学与生物信息学并行发展,不仅要关注生物科研,也要重视统计学对生物信息的辅助。更多的研究人员开始研究如何利用统计学,分析生物信息学数据处理遇到的问题。

(三)生物信息研究人员对统计学方法的认识存在片面性

如今的生物信息学分析中,研究人员对统计学方法重视程度不足,将统计学方法仅仅视为操作工具,对统计学方法的应用存在一定的误解,传统的研究观念使研究人员无法认识到学科交叉融合的必要性。更多的研究人员还未意识到更加科学先进的统计学方法给生物信息学分析带来的优势。

五、解决对策

(一)提高统计学应用的合理性

建立科学、有效的统计学应用方法。创新生物信息学和统计学的融合理念。充分推广统计信息化理念,生物信息研究项目应该提高信息化水平,增加统计学方法资源的共享程度,对于生物研究人员来说,只有掌握了科学有效的统计学方法,才能更好地应用。加强统计学方法在生物信息领域的普及,如今,生物研究单位内部管理也出现了电子化的发展趋势,先进的生物研究单位已经开始采用超算系统对生物信息数据进行统一的归纳与管理,应用统计学方法不仅提高生物信息研究的质量,也避免了对人力物力的浪费,促进了学科融合发展。

(二)普及统计学方法的价值

为了推动统计学与生物信息学的学科交叉的发展,在生物学领域开展广泛地统计学方法普及活动十分必要。先进的统计学方法将其应用价值充分发挥,使生物研究人员充分了解统计学方法,明确统计学方法对数据处理的正向意义,主动参与研究与统计学的融合,提高生物信息学分析质量。

(三)提供完善的统计学方法培训

为了使更多的生物领域人员学习统计学方法,提供完善的统计学方法培训十分必要。在统计学方法实施的培训过程中,首先应该培养生物研究人员对统计学方法的学习热情,可以通过集体观看统计学方法在生物信息学的应用案例开始,使生物研究人员充分感受到先进统计学方法对数据处理的价值。其次,坚持生物信息研究为主统计学方法为辅的理念,注重学科融合意识的培养。完善的培训计划需要有目的有重点的使研究人员投入其中,注重研究人员的基本数理统计技能和理念的培训,提高研究人员对统计学方法的学习能力,制定更加完善的方案,帮助研究人员系统性学习统计学方法。在系统化的培训过程中,研究人员对统计学方法加深了自己的理解,在参与生物研究项目的过程中,将学习到的理论知识转化为实践,感受统计学方法的价值。

结论

当下的生物信息学分析和统计学方法是相辅相成、不可分割的。为了提高生物信息学的数据处理质量,生物信息学分析和统计学方法相融合是指将两者进行有机统一,互相渗透和整合等,以促进生物基础学科的全面发展。

参考文献

[1]贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究.2007(01).

[2]孟恒,宋从宽,李宁,江万里,耿庆.生物信息学分析慢性阻塞性肺疾病在肺癌中的影响[J].中华实验外科杂志.2022(06).

[3]黄继康,刘斌.肺结核相关miRNA的生物信息学分析[J].智慧健康.2020(34).

*本文暂不支持打印功能

monitor