- 收藏
- 加入书签
基于深度学习LSTM算法的双色球预测
摘要:本文利用循环神经网络LSTM算法,以双色球开奖号码为预测对象,研究双色球开奖号码预测问题。在充分分析历史数据的基础上,采用LSTM模型对双色球开奖号码进行预测,并采用LSTM模型对未来的开奖号码进行预测。通过与多种机器学习算法的比较,结果表明本文所提算法对双色球开奖号码进行预测是有效的。本文为双色球数据的分析与预测提供了一种新思路,有助于彩票业的健康发展。
关键词:双色球;LSTM算法;预测模型
引言
自20世纪80年代以来,随着我国彩票市场的发展,越来越多的彩民开始通过购买彩票来实现自己的梦想。随着数据科学和人工智能技术的发展,彩票数据的分析与预测已经成为了一种趋势。在过去,人们更多地是使用机器学习算法对彩票数据进行分析与预测,并取得了较好的效果。然而,在当前大数据背景下,机器学习算法存在着明显的局限性,比如:大数据下的数据往往是非结构化的且分布不均,这给传统机器学习算法带来了很大挑战。而传统机器学习算法所使用的特征工程方法难以有效地解决大数据下的复杂问题。并以2016年双色球开奖号码为预测对象进行了实证分析。
一、LSTM算法的理论基础
1.1LSTM算法的结构分析
LSTM算法是一种将输入向量进行延拓或预处理的正则神经网络,其特点是模仿人类大脑的局部调节、交互覆盖和接收。其基本思路是:以径向基函数为隐元“基”,构造隐层空间,并把输入向量直接映射到隐藏层,在径向基函数的中心确定后,建立了相应的映射关系;隐层与输出层之间的关系是一种线性关系,也就是说,网络的输出是隐式单元输出的线性加权之和。
LSTM算法在结构上类似于多层前向网络,分为三个层次:一层是输入层,由信源节点组成,负责将输入信息传送给隐含层;第二个层次是隐藏层,它由径向作用函数(基函数)组成,隐元的数目根据问题的不同而不同,其功能是在输入和隐空间间进行非线性转换。第三个层次是一个简单的线性函数,其功能是根据输入模态的动作进行反应。
1.2LSTM算法的特点
LSTM算法具有以下优点:一是具有很好的非线性计算性能。它具有任意精确近似任意连续的非线性方程的能力,符合双色球难以预料的特性。该算法采用了三个层次的神经网络,其中,前向神经网络采用了一种线性的映射关系,使得其在训练过程中的学习效率大大提高,是BP神经算法的103-104倍,能够满足实时性的需求;由于网络的输入与输出之间存在着非线性关系,且其输出与调节参量呈线性关系,因此可采用线性系统(高斯削除法)和递归最小二乘法(RLS)两种方法来实现权重的快速收敛,且不会出现局部最优现象。
LSTM算法在函数(信号)逼近、数据(图)压缩、模式识别、非线性系统建模、软测量以及非线性系统的建模与预报等方面有着重要的研究价值。
(1)任何一个连续的函数都可以用一系列的径向基函数的权和来表达,而邓F可以很好地近似该函数。
(2)LSTM算法可以用来对非可区分的线性模型进行分类。将原始空间中的非可分性模型转化到一个新的高维度上,使其具有线性可分性,并在输出级进行线性分类。
选择适当的RBF函数是完成这些任务的重要环节。径向基函数具有局域分布,中心径向对称,非负衰减的非负衰减特性,其两个基心与基宽决定了对输入有重要影响的区域。
1.3LSTM算法的映射机理
LSTM算法通过对隐含层进行一定的、非线性的、不变性的转换,从而实现了对输入域的映射。当用Gauss函数来确定非线性转换元件的功能关系时(式1.1):
(l)非线性转换元件只对靠近中央的一个输入比较敏感,而且当它离开中央时,它会迅速地降低到一个非常小的数值,显示出一种局域灵敏度。
(2)减少的速度取决于宽度,也就是说,随着时间的推移,减少的速度也会变慢;相反,如果增加,则会变慢。体积愈小,减少的速度愈快。
(3)对输入级进行权重调节,获得所需的输入信号。
中央的t表示一套相对密集的、组成一个类别的数据集合的中央数值。因为他们之间的关系很接近,因此有很多相似之处。所以,t表示一个输入的数据样式。神经网路的训练样本由有限个类别的样本组成,每个类别都有一个中央的数值。目前,通过从输入的数据中抽取表示各种图案的、并且被赋予合适的宽值值的数据中心,可以使用某种数学方式,通过相应的数据中心“ti”和相应的宽值i来组成所有的非线性转换装置。
在构建和培训LSTM的过程中,首先要解决的问题是如何通过对映射函数的学习,来决定各隐含层的基函数值的中心位置,宽度i,以及隐含层与输出的权重w。一个引数程序,以便能够实现期望的输入-输出之间的映射。与仅有权重的BP神经网络相比,LSTM算法中三个分量的参数对图的影响各不相同。隐藏层的中心与宽度分别表示采样点与采样点之间的关系,从而实现了由输入向隐含层的非线性变换。在此基础上,对输出级进行权重分配,使隐藏级与输出级之间建立一个直线关系。需要指出的是,LSTM算法的关键在于其隐藏层的构造,其选择是否合理将对LSTM方法的最后效果产生本质的影响。
二、基于LSTM算法的双色球分析与预测
LSTM算法需要三个参数来进行训练:一个是基函数值的中心点、变化率,另一个是隐含层和输出层之间的权重。基于RBF网络的中心选取方式,LSTM算法的学习方式有很多种,主要包括:随机选择中心、自组织选择中心、有监督选择中心、正交最小二乘等四类。
2.1LSTM算法的建立
在具体应用中,LSTM算法的核心在于如何选择合适的节点数目,其中包含了输入层、隐藏层和输出层。输入级将数据来源加入到网路中,其结点数量由资料来源的维度决定,也就是输入资料的维度;输出级完成对输入端的输入,输出端由输出端的维度决定;隐藏层承担了整个网络的学习任务,它的结点数量与问题的需求和输入输出单元的数量有着密切的联系,并且在具体的应用中得到的结果也不尽相同。
如何选择每一层次的结点数目非常关键。选取输入和输出的结点点数,要考量选取的结点数目能否完整地反映出物件的基本特性。节点数不能很好地表示物体的特性,会导致计算结果与真实情况相差很大。因此,输入输出节点数目的确定要结合现实情况。
三、预测效果及其分析
LSTM算法的输入和输出节点数目以及隐含层结点的选取对网络的学习速度、收敛性和推广性能都有很大的影响。在对网络结构进行优化时,需要兼顾计算准确性和学习速度两个方面来选取隐层结点。
针对目前的双色球中签号码预测问题,本项目拟从LSTM模型出发,通过以下几个方面的研究:(1)LSTM方法的选取与自组织学习方法的选取。(2)在输入层面,由33个细胞构成;(3)在输出层,由33个细胞组成;(4)对所述输入的数据进行0-1的预处理;(5)采用52个隐藏层的起始结点数目。通过对2018050的红色号码的预报,得到了真实的、预期的输出结果。
四、结语
本文利用LSTM算法,以双色球开奖号码为预测对象,建立了LSTM算法的双色球开奖号码预测模型,并利用该模型对双色球开奖号码进行了预测。通过与传统机器学习算法的对比分析,证明了本文所提算法的有效性。对于传统机器学习算法中的决策树、支持向量机等,本文也提出了相应的改进方法,为未来LSTM模型在彩票领域的应用提供了思路。
本文所提LSTM算法仍存在一些不足之处,如:(1)未充分考虑历史数据中不同维度之间的联系;(2)对于重复数据处理存在不足;(3)未充分考虑不同维度之间的相关性。因此,未来需要进一步完善LSTM模型,如考虑更多维度之间的联系、对重复数据进行处理等。此外,随着大数据技术的发展,我们需要对大数据进行更深层次的挖掘和分析,并将其应用于彩票领域,这也是未来需要进一步研究和解决的问题。
参考文献
[1]周博军,王旺,黄俊达等.基于BP神经网络对中国体育彩票销售金额的预测[J].体育教育学刊,2022,38(02):46-50.
[2]高楷程.Keras神经网络预测大乐透彩票的实现[J].微型电脑应用,2022,38(03):189-192.
京公网安备 11011302003690号