• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于CE-LSTM的“一带一路”指数收益率预测

秦天
  
科创媒体号
2025年14期
浙江财经大学 浙江省杭州市 310000

打开文本图片集

摘要:随着中国“一带一路”倡议在全球范围内受到越来越多的关注,它已成为国际合作领域中最重要的、最有前景的项目之一。基于 2018 年 1 月 2 日至 2024 年 1 月 31 日的中证“一带一路”主题指数数据,本文建立了长短期记忆神经网络(LSTM)模型和基于 Copula 熵(CE)筛选的长短期记忆神经网络(CE-LSTM)模型进行实证分析。具体研究过程如下:

在第一章中,介绍了以“一带一路”指数作为研究对象的原因以及研究的背景意义。最后,探讨了“一带一路”倡议、Copula 熵(CE)和长短期记忆神经网络(LSTM)的研究过程。在第二章中,依次给出了 Copula 熵(CE)和长短期记忆神经网络(LSTM)算法的定义,详细介绍了 Copula 熵和长短期记忆神经网络的相关理论,并介绍了 CE-LSTM 模型的原理和架构。本文创新性地使用 Copula 熵筛选因子特征并引入模型,构建了预测模型 CE-LSTM。在第三章中,介绍了本文影响因素的选择,首先,在实验不考虑特征筛选的情况下,我们使用第三章所选所有成分股的收益率和指标因素作为影响因素作为特征输入到不同的模型中进行预测,在模型比较中,CE-LSTM 模型的均方误差(MSE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)均低于未进行特征选择的 LSTM 模型,分别降低了 12.13%、11.08%和 36.03%,这表明 CE-LSTM 在“一带一路”指数预测中表现良好。总之,实证研究表明,CE-LSTM 模型的拟合效果优于未进行特征选择的 LSTM 模型。因此,本文揭示了不同行业构成和指数因素对“一带一路”指数的影响,并定量给出了一个高精度的集成预测模型,同时运用 CE-LSTM 模型对“一带一路”指数进行预测,期望更全面地挖掘数据中的信息,捕捉多变量关系,提高模型的预测性能,从而提升“一带一路”指数的预测精度。

关键词:"一带一路" 指数;收益率预测;因子特征;Copula 熵;长短期记忆网络

一、引言

(一)研究背景

随着我国提出的“一带一路”倡议成为全球范围内最具影响力和前景的国际合作项目之一。旨在促进沿线国家之间的经济合作和贸易往来,推动基础设施建设和互联互通,实现共同发展繁荣。“一带一路”指数预测成为了一个备受关注的研究领域。传统的时间序列预测方法在面对复杂的金融市场和多元数据关系时存在一定的局限性。基于此,本文旨在通过Copula模型,计算Copula熵进行宏观经济指标和成分股的筛选,构建预测模型CE-LSTM,以期探索金融市场的变化,更全面地挖掘数据中的信息,捕捉多变量关系,提升模型的预测性能,从而提升“一带一路”指数的预测精度。

(二)研究意义

“一带一路”指数预测的研究对于了解沿线国家经济发展趋势、评估“一带一路”倡议实施效果、指导投资决策以及推动区域合作具有重要意义。通过对“一带一路”指数的预测分析,促进“一带一路”沿线国家间的经济合作和共同发展。故对预测模型的准确性的探究,具有重要的理论意义和现实意义。

(三)研究现状

1.“一带一路”指数研究现状

关于“一带一路”相关的研究主要集中于相关板块股票以及主题指数的研究。张白鹭(2018)等使用了中国股票市场“一带一路”板块数据构建单位最大个体风险收益投资组合模型,认为该模型比方差模型、半绝对离差模型更有效地控制最优策略中各资产的风险。牛华勇(2022)等对“一带一路”指数拟合ARMA-GARCH模型,得出尽管在疫情下波动较为剧烈,但在国际国内双循环持续推进的背景下,其总体波动规律逐渐趋于稳定。

2.Copula熵研究现状

在特征选择领域,Copula理论引起了一些学者的关注和研究。马健(2021)在Ma和Sun(2011)基础上,提出了特征Copula熵选择方法,该方法采用非参数方法,不依赖于特定的分布假设,使得在处理不同类型的数据时具有普适性和灵活性。陈璐(2014)等基于Copula熵筛选预报因子构造神经网络径流预报模型,认为该方法预测精度相较传统方法更高,能够切实可靠地找出相关性变量,对线性相关和非线性相关均适用。

3.长短记忆模型研究现状

LSTM网络是一种深度学习领域中的循环神经网络(RNN),最初由Hochreiter和Schmidhuber(1997)提出,旨在克服RNN训练困难和梯度消失等问题。随后,LSTM得到广泛研究者的进一步完善和应用。

二、模型的理论依据

(一)基于Copula熵的相关性度量

建立静态Copula模型。通过步骤1得到边缘分布后,对边缘分布数据两两建立“一带一路”主题指数sub与选取的成分股及影响因子之间的静态Copula函数,并估计Copula参数。

利用Copula模型的结果,计算“一带一路”指数和每只成分股及影响因子之间的相关性度量——Copula熵。后根据式(3)进行Hampel检验计算Hampel距离,如果Hampel距离大于1,那么此特征被选入输入特征集。

三、影响因子选取

(一)成分股选取

1.数据来源

数据来源于Akshare数据库,数据处理使用Python3.8和Jupyter。选取中证“一带一路”指数(代码为399991),样本期为2018年1月2日—2024年1月31日,选取纳入日期在2018年之前的成分股,删除存在过多缺失值的样本后,共包含1478个样本数据,根据行业划分,选择34支适用成分股,包含“一带一路”指数历史信息和相关34支成分股历史收益率数据。

2.数据补足

由于部分股票指数缺少数据,因此循环遍历每个缺失特征,并为每个特征创建一个子图。将缺失特征作为x轴变量,绘制了返回数据的直方图。直方图的bin数量设置为40,并且还绘制了核密度估计(KDE)。其中“天孚通信”、“亨通光电”由于数据集较大且缺失值较多,因此进行回归填充,使用线性回归预测缺失值。

(二)指标因子选取

1.指标因子介绍

期货交易基本行情指标包括开盘价(OP)、最高价(MP)、最低价(LP)、收盘价(CP)、成交量(VOL)等,通过比较不同公司的基本行情指标,投资者可以找到潜在的投资机会,选择具有潜力和价值的股票进行投资。这些指标可以帮助投资者了解公司的基本财务状况和股票的估值情况,是投资决策的重要参考。

此外,为消除数据量纲对模型训练的干扰,本文对所有指标因子进行了标准化处理,计算如下:

2.基本行情指标初步筛选

本文通过总结文献收集的基本行情指标因子包括开盘价(OP)、最高价(MP)、最低价(LP)、收盘价(CP)、成交量(VOL)、成交额(TVOL)、涨跌(UDC)、涨跌幅,由于基本面因子直接关联程度高。

根据Pearson系数,开盘价、最高价、最低价、收盘价四者的相关性比较高,应该剔除其中三个,结合现实情况分析,选择保留收盘价进行分析。同样涨跌和涨跌幅之间的Pearson系数为0.988,成交量和成交额的Pearson系数为0.976。最终保留收盘价、涨跌、成交量进行下一步分析。

四、实证分析

(一)“一带一路”指数收益率预测及不同模型对比

根据第四节的影响因子选取,本文使用的“一带一路”指数收益率建模数据如表7所示。总数据为2018年1月2日到2024年1月31日总共1478个。选取前80%数据作为训练数据集合建立拟合模型,后20%数据作为测试数据集合优化校验模型。

为对比LSTM模型预测能力,本文选取多类基准模型:

① MLP(多层感知机)是一种人工神经网络模型,由多个神经元组成的多层结构。它是一种前向反馈神经网络,可以用于解决分类和回归问题,在实际应用中,可以根据具体的问题和数据特点来合适的MLP模型结构和参数配置。

② infromer是一种专为长序列时间序列预测(LSTF)设计的Transformer模型。相较于传统的Transformer,Informer采用ProbSpare自注意力机制,具有O(L IogL)的时间复杂度和内存使用。

由难以直接比较LSTM模型与其他模型之间预测好坏,因此采用以下四个误差指标用于评估模型的预测性能:均方误差(MSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和R2。指标的计算公式如式(5)~(8)所示。

其中 是预测值, 是真实值, 是样本均值,n是测试的样本数量。MSE和MAE的值越小,MAPE越收敛接近于0%,R2越接近于1,意味着模型的预测性能越好。

(二)模型优化:CE-LSTM

1.基于copula熵的影响因子筛选

与传统的熵度量方法不同,Copula熵能够精准刻画变量之间的关联性,不受变量边缘分布的影响。通过计算变量的Copula熵,我们可以评估变量之间的依赖强度和非线性关系程度,进而辅助特征选择过程。

分析计算“一带一路”指数收益率和选取后的基本面因子以及技术指标因子、宏观经济指标、经济政策不确定性、地缘政策风险、风险政策不确定性之间的相关性度量,即Copula熵。

2.因子分析

由于copula熵筛选出的宏观经济变量个数较多,对LSTM模型造成挑战,因此本文对上述指标因子进行因子分析。通过极大似然法估计了因子载荷矩阵并通过最大方差法进行因子旋转,得到两个主因子 Fmacro1 和 Fmacro2 。其方差贡献度分别为55.68%和21.94%,总方差贡献率超过 75%。

为了降低 LSTM 模型的复杂程度,通过SPSS软件进行因子分析,首先进行KMO检验以及Bartlett球检验,分析结果如下:

KOM结果为0.627>0.5,说明选取的变量之间具有相关性,可以由其他变量解释,巴特利特形度检验显著性为0.000小于0.05,拒绝零假设,说明因子分析适用于本次研究的商业银行绩效评价指标。

方差分解表表明,默认提取的前两个因子能够解释 10个指标的 81.384%。碎石图表明,从第三个因子开始,特征值差异很小。综上,提取前两个因子。

本文也对输入LSTM模型的24个技术指标进行因子分析降维,得到5个主因子 Ftech1 、Ftech2 、Ftech3 、Ftech4 和 Ftech5 ,其方差贡献度分别为34.86%、21.74%、8.66%、12.83%和12.26%,总方差贡献率超过80%。

3.CE-LSTM模型预测

在考虑影响因子筛选后,我们将筛选后的5个指标因子以及成分股的收益率作为影响因子输入到不同的模型中进行预测,预测结果如下图1所示。

最后,当实验考虑选择输入特征时,通过Copula熵筛选的方法最终确定23个有效特征时模型预测能力最佳。较LSTM模型,CE-LSTM模型评估指标MSE、MAE、MAPE和R2的变化百分比如表12所示。相对于MLP模型,分别降低了52.92%、48.89%和67.31%,而R2提高了43.53%,真实值和拟合值之间的偏差降低了6.16%,预测结果表明,使用Copula熵进行影响因子筛选能有效提高模型整体预测精度与拟合度,过多的影响因子会对预测产生负面影响,适量的影响因子会对预测产生积极影响。

五、总结与展望

(一)总结

随“一带一路”倡议的推进和全球贸易的不断增长,对于“一带一路”主题指数的预测和分析变得越来越重要。考虑到股票价格的非线性,所构建的模型为CE-LSTM模型。并综合比较了MLP、Informer、LSTM、CE-LSTM四种回归模型在“一带一路”指数预测中的性能,我们可以得出以下结论:

分析计算“一带一路”指数收益率和影响因子之间的相关性度量,即Copula熵,筛选出显著相关的23个因子,包括成分股收益率13个和影响因子10个。成分股根据行业划分后入选的能源行业、信息技术行业的成分股收益率比重更高,说明能源行业与信息技术行业对“一带一路”指数收益率影响大。

入选的影响因子包括基本行情指标收盘价,技术指标6个,宏观经济指标中的CPI,地缘政治风险GPR及风险厌恶指数RAI。

(二)展望

随“一带一路”主题指数在投资决策、经济政策制定、跨国企业战略决策以及宏观经济研究等方面具有重要的实际应用和意义。本研究证实了CE-LSTM模型在预测方面的良好效果,为股票价格预测方法的丰富提供了合理的理论支持。该模型能够为“一带一路”相关产业和经济发展提供有益的预测信息,帮助相关方做出更明智的决策。

然而,该模型仍存在一些潜在进步空间,包括:

数据限制:本研究仅使用了2018年以来的“一带一路”指数和相应成分股数据,数据量相对较少,可能限制了模型对更广泛时间范围内“一带一路”数行为的理解和预测能力。

影响因子选择:本研究选取的指标因子具有主观性且并不全面,这可能会影响模型的预测能力。

因此,为提高模型的预测能力和适用性,需要进一步探索数据获取和处理方法,进行参数调优,并综合考虑更全面、客观的指标因子。

参考文献

[1] 张白鹭,张华节.单位最大个体风险收益投资组合模型——以“一带一路”板块股票 为例[J].财经科学,2018(10):109-122.

[2] 杨博文.“一带一路”概念指数系统性风险溢出特征研究[J].区域金融研究,2021(12):79-86.

[3] 王祥雪,许伦辉.基于深度学习的短时交通流预测研究[J].交通运输系统工程与信息,2018,18(01):81-88.DOI:10.16097/j.cnki.1009-6744.2018.01.012.

[4] 龙奥明,毕秀春,张曙光.基于LSTM神经网络的黑色金属期货套利策略模型[J].中国科学技术大学学报,2018,48(02):125-132.

[5] Ma J,Sun Z. Mutual information is Copula entropy [J].清华大学学报:自然科学版(英文版), 2011,16(1):51-54.

[6] Liu P, Han S, Rong N, et al. Frequency stability prediction of power systems using vision transformer and Copula entropy   [J]. Entropy, 2022, 24(8): 1165.

[7] Xiong X, Qing G. A hybrid day-ahead electricity price forecasting framework based on time series[J]. Energy, 2023, 264: 126099.

*本文暂不支持打印功能

monitor