编者按:九层之台,始于累土,四载潜心,方有小成。金融论文是结合现实经济活动中出现的金融问题加以研究 并将研究成果描述出来的过程。大学四年转瞬即逝,盛宝金融科技商学院又一批学子们完成了他们的高质量毕业论文。由于现实经济活动可能涉及范围较广,需考虑的因素较多,为了让金融学子们能够更好的了解我们所能学习到的知识,以及对后世大家在金融行业的造诣不断走深,在此展示盛宝金融科技商学院优秀学子们的毕业论文献礼毕业季。
毕业论文这一痛并快乐的考验,虽然青涩,却是每一位大学学子青春时代最有价值的学术起点。在毕业季到来之时,学院微信公众号将陆续推出高质量本科毕业论文集萃,通过示范、带动与辐射作用,促进各专业各年级同学交流学习。
基于机器学习的
比亚迪股票涨跌预测实证分析摘要
作者:金融科技2001 林甜甜
本文采用数据集为比亚迪企业2019-2023年度的历史股票交易数据,包括每日开盘价、收盘价、最高价、最低价等信息,并通过python算法计算出各项股票指标,以此构成模型的初始数据集,并运用主成分分析法对数据进行处理。通过SPSS软件提取数据的主要成分,并将得到的主成分指标输入模型,再对所使用的三种集成模型进行相应调参等,经过一系列的分析和模型训练,预测比亚迪企业股票的未来涨跌趋势,通过对比得到模型性能准确率等,这一预测结果也能够为相关部门制定策略规划提供了有力的决策依据。
关键词 机器学习;随机森林;比亚迪企业;预测模型
一、引言
现如今,金融市场的发展愈来愈在一国经济中显示出重要作用,与此同时证券买卖也成为许多人们获取收益的来源之一。在早期,许多学者通过收集与选股相关的影响因素及大盘走势等,对股票进行线性规划,构建线性模型等来预测选股的未来走势等,或采用传统的时间序列等模型尝试预测,但在如今的大数据时代,大量数据显示出多维特征,数据影响因素之间也存在相关性等特点,导致传统预测模型预测精度并不完善。而如今,人工智能领域发展迅速,更多学者探寻基于机器学习算法来构建模型,更多实证也可证明,在对非线性模型研究的过程中,机器学习方法在证券领域中的预测中更具解释力,预测准确率大为提高。
二、相关文献评述
国外学者对机器学习模型的研究主要集中在股票预测方面,Kumar.M(2006)[1]首次将随机森林算法应用在股票指数预测的领域,并与支持向量机进行比较。结果表明,随机森林在此方面的表现优于支持向量机。Nair(2010)[2]在进行股价预测时采用了决策树算法与模糊神经系统,验证了它们具备一定预测能力。Dey et al.(2016)[3]结合雅虎金融的交易数据,在对特征进行处理后,采用XGBoost模型进行股价的预测。结果得出了进行准确预测的最佳时间范围为60天和90天。Polamuri等(2019)[4]在预测美国标普500指数中公司未来股票价格时,对比多种机器学习模型,最终发现基于决策树及随机森林的模型在预测性能上表现最佳。Cosenza等(2021)[5]收集全球五个地区的股市数据,对比了普通最小二乘回归、随机森林和k近邻三种模型在股价预测方面的表现。研究结果显示,普通最小二乘回归和随机森林的预测精度相近,且均显著优于k近邻模型。此外,还发现变量选择对随机森林的预测性能并无显著影响。Dou Changsheng(2021)[6]等人结合支持向量机与多因子选股模型,以中国股票市场为研究样本,采用主成分分析法实现了因子的降维,并从中选取13个关键因子,再以模型预测值高低对所选股票进行排序,取得了较为准确的结果。Sadorsky(2022)[7]采用多种机器学习方法,包括随机森林、随机梯度提升、支持向量机以及极端随机树等。经过对比实验,显示出使用该类算法在预测美国清洁能源股票价格方向的准确率显著超越了传统的模型方法。
李凌宇(2019)[8]基于市场数据构建数据库,并借鉴决策树方法在分析变量间非线性关系方面的优势,进而以随机森林算法为基础成功建立选股模型。蔡高远(2020)[9]在研究资产收益率涨跌方向预测时,采用了支持向量机、随机森林、XGBoost、GBDT、BP和LSTM六种机器学习算法,将此研究内容转化为模式识别中的分类问题。闫政旭(2021)[10]等人基于随机森林回归模型,采用多支股票上进行验证分析并发现新的组合模型能够呈现更为显著的优势。林瑶(2022)[11]探究股票收益率预测方面的表现时对比传统线性与机器学习线性定价模型,发现相较于传统的线性模型,机器学习方法的预测性能通常更为出色。邹婕(2023)[12]等人再预测股票收盘价时,创新性提出了一种以随机森林为基础的SA-BIGRU(RF-SA-BIGRU)模型,经过验证,该模型在预测精度和稳定性方面均展现出超越其他模型的优势。
综上,之前国外的学者在不同的市场环境和数据集上验证了机器学习模型在股票预测中的有效性和优越性。相较之下,国内的学者也在机器学习模型的应用上逐步展现出潜力,进一步探索了机器学习模型在股票收益率预测中的性能,发现相较于传统的线性模型,机器学习模型通常具有更出色的预测性能和稳定性。基于上述研究现状,本文在国外学者对机器学习模型应用于股票预测的基础上,借鉴国内学者的研究成果,将重点放在提高预测性能和稳定性方面。优化现有机器学习模型,更有效地利用随机森林、XGBoost和GBDT三种集成分类模型,选取我国新能源汽车龙头企业比亚迪作为研究对象,帮助其更好应对股票市场的复杂性和不确定性。而本文将以机器学习算法为基础分析股本数据,采用多种算法进行预测分析,从而对比出准确率及各性能较好的模型,使股价涨跌预测的准确性得以提高。
三、研究思路框架:
四、研究成果及应用
本文采用主成分分析法对于股票历史交易数据及其所计算的指标提取出特征值,来消除数据之间相关性过高的问题。
首先,以比亚迪企业2019-2023年日粒度数据:开盘价、收盘价、最高成交价格、最低成交价格、总交易量、总交易金额,及计算得出的股票指标数据:MA、RSI、MACD、CCI、ROC、AO、ADX,为原始数据进行主成分分析。将数据标准化之后得到相关矩阵,代入上述主成分分析公式2-4中得到累计方差贡献率,如图可知,前五个特征值贡献率为90%以上,因此确认主成分为五个。
在本文中,为预测股票结果未来趋势波动情况,准确率的高低也较为重要,模型经训练检验后由表中可知,随机森林模型和GBDT模型的预测准确率较高,可达到约60%,XGboost模型相对上述两种模型准确率较低,且随机森林模型的F1值最高,表示此模型的预测结果中精准及召回率更为均衡,AUC值也可显示出随机森林模型及其GBDT模型性能较XGboost模型更好。综上所述,经过模型间的对比可得出随机森林模型在本文进行股票未来涨跌预测中更具优势。
五、研究结论与展望
1.研究结论
首先,经主成分分析法可知,真实振荡指标、移动平均线指标在预测比亚迪企业未来股票价格的变动趋势中是较为重要的指标。因此此结果也能够为各位投资者提供预测股票价格未来涨跌趋势的信息,从而使其进行更为理性的投资决策。
最后,经本篇论文所进行的一系列分析与研究,相较于GBDT模型及XGBoost模型,可知随机森林模型在预测股票未来变动涨跌趋势中,具有较高的准确度与精确性。因此,通过对比结果可知,随机森林模型能够在进行对比亚迪企业的投资决策中发挥关键作用。
2.政策建议
2.1比亚迪企业应该顺应政策趋势,继续加大对于绿色项目的投入与研究
2.2政府方面应继续制定相应政策
2.3提升投资者的投资决策能力
3.局限与展望
局限:未考虑基本面因素等,所提取的主成分为历史交易数据和常见股票指标,没有覆盖更多相关潜在因素,如经济环境、国家政策变化、企业运营情况等。
其次,根据结果显示,虽然随机森林模型的预测性能较GBDT、XGBoost算法更优,但是在实际应用领域中仍存在局限,例如,对于更大的大规模数据而言,处理效率较低。
展望:尝试扩展原始数据的选取范围,引入更多基本面因素,从而提高股票价格预测模型的准确率等。其次,尝试进一步对机器学习算法进行优化,从而来适应现实应用场景数据大规模化的需求
在预测股票未来涨跌趋势方面或许可采用时间序列或深度学习方法,以期得到更高的准确率,使研究更具意义。