- 收藏
- 加入书签
基于大数据和机器学习的职业足球运动员身价评估和预测研究
摘要:足球运动员作为这足球行业的主体,即使参与度最高的从业者,也是俱乐部的重要资源。球员身价,作为衡量球员价值的最直观,最重要的标准,对于球员自身,俱乐部,和足球市场而言都是一个值得研究的重要课题。
本文采取机器学习方法对职业球员身价进行研究,主要包含,数据获取,构建模型和影响因素分析三个方面。本文基于FIFA2018提供的球员数据进行研究,其中包括了基本个人信息和赛季技术统计等信息。本文使用了决策树和随机森林模型进行拟合,而后提出了进一步的改进措施,通过使用xgboost模型,基于球员各方面能力数值对于其身价进行预测。
关键词:足球;机器学习;大数据
1.引言
球员身价由权威的市场分析机构评估得出,成为球员转会时的重要参考指标,实际上也与真实转会费用基本保持一致。而球员身价受众多因素的综合影响。国内外研究者已将球员的宏观属性例如位置,知名度,国籍,所属俱乐部,个人表现和转会意向等等因素列入研究范围,构建了一系列模型对于球员身价进行预测。而这些影响因素由于过于宏观,局限性较大,具体化到每一个球员身上时结果并不理想,不能适应变化较快的足球转会市场。足球运动员的个性化,特色化是足球运动的发展趋势,而这些特点在球员转会市场中往往起到了决定性作用,通过对于近些年足球转会市场的观察可以发现,有越来越多的交易违背了以往的经验和分析,这说明对于足球运动员的身价分析,应该充分考虑到球员的个人能力特点,将宏观和微观相结合。本文聚焦了球员的更加具体的能力属性,数据来源于电子游戏FIFA2018。作为目前市面上最受欢迎的足球游戏,FIFA系列一贯将真实的体验作为首要卖点,由专业的大型团队设计球员模型,由于获得了国际足联的授权,在游戏中可以还原现实球员真实数据比如个人基本信息,例如姓名,国籍,所属俱乐部等;以及身体基本信息,例如身高,体重,惯用脚等。同时,根据球员的现实特点和实时表现,设计了球员能力的各项数值,将球员能力这一定性问题进行了细节的定量描述,这些描述,可以很大程度上反应球员在现实赛场上的能力。本文挖掘的FIFA2018中的球员能力数值是可靠的数据,建立的模型可以应用与现实世界的球员身价分析。
2.研究方法
(1)文献研究法。通过收集和阅读与主题相关联的文献和资料,了解该领域目前的研究成果和研究进度,以现存研究为基础,发掘研究目标,研究主题,并基于目前研究的不足之处进行改进和创新。
(2)定量分析法。定量分析对于大量数据进行分析,发现隐藏其中的规律和模式,并对分析和量化的结果做出合理的解释应用于实际。本文是通过将足球运动员的各项能力指标进行量化作为预测身价的依据。
(3)实证研究法。实证研究主要包含了三个方面,理论,数据和方法。研究时必须有足够的科学理论进行支撑,确保研究具有实际意义;
数据要保证准确性,完整性,真实性,从而确保研究结论的可靠性;合理的研究方法可以提高研究效率,有利于形成科学严谨的研究结果,本文应用了多种数据挖掘方法和统计学知识。
创新:
本文创新性的将XGBoost算法应用于在构建球员身价模型上,为球员身价的影响因素提供分析的途径。
不足:
(1)数据量不够充分,数据有部分缺失。
(2)数据特征不够丰富,因此模型可能训练不够完善。
3.数据集说明:
训练集含样本10440条,预测集含样本7000条。每条样本代表一位球员,数据中每个球员有63项属性。缺少数值:20575(3.0%),其中数值型变量33个,分类型变量5个。评价标准为MAE(Mean Absolute Error)。
4.研究模型:
在足球运动中,守门员是一个特殊的位置,守门员的主要职责为使用手臂等身体部位阻挡对方射门得分,因此能力要求和评价体系和其他位置有所不同,在研究时需要单独分类,将数据集划分为守门员和非守门员。预测结果也将被分为守门员身价和非守门员身价两个部分。
5.模型拟合:
训练集数据将用于训练模型,并将得出的模型应用于测试集,通过比较MAE大小来评估模型的优劣。所有模型的随机种子random state=100。
拟合结果汇总(结果保留四位小数):
1.决策树模型:
对于守门员,MAE为23.4646,性能评估得分为0.8994;对于非守门员,MAE为37.9512,性能评估得分为0.9357;模型总体评价得分为36.3839。
2.随机森林模型:
对于守门员,MAE为17.5785,性能评估得分为0.8884;对于非守门员,MAE为25.0469,性能评估得分为0.9629;模型总体评价得分为24.2390。
3.Xgboost 加强树模型
目标采用线性回归,进行定义的参数有树的最大深度(max_depth),学习速率(learning_rate),集成中弱评估器的数量(n_estimators),这三个参数的作用相较于其他参数作用更加强大,其他参数为默认值。
守门员max_depth设为2,n_estimators设为185,非守门员数据量较大,max_depth设为7,n_estimators设为230,learning_rate均设置为0.1进行拟合。得出结果为守门员MAE为18.1384,非守门员MAE为24.2899,模型总体评价为23.6244。表现优于上文提到的两个基本模型。
6.结论
通过构建三个模型并将拟合结果进行比较,xgboost模型的拟合度最优,同时可以发现,对于位置为守门员的球员的拟合结果要普遍优于非守门员球员,可能的原因是用于评估守门员的特征数量较少,结构较为简单,构建的模型并不复杂。因此,xgboost模型可以作为一个比较好的预测模型对于球员身价进行预测。
参考文献:
[1]马瑞.职业足球运动员身价及影响因素[D].天津财经大学, 2020.
[2]曾志坚,胡惕.我国职业足球俱乐部球员转会价格的定价模型构建[J].北京体育大学学报,2013,36(02):38-42.
[3]付海燕.人力资本流动的定价机制——基于球员转会模型的研究[J].中南财经政法大学学报,2008(2): 110-115.
[4]A Miller,L Bornn,R Adams,et al.Factorized Point Process Intensities:A Spatial Analysis of Professional Basketball[J].Eprint Arxiv,2014(5):235-243.
[5]M Hamilton,P Hoang,L Layne,et al.Applying machine learning techniques to baseball pitch prediction[C].International Conference on Pattern Recognition Applications&Methods,Angers, Loire Valley, 2014(3):520-527.
[6]S Sinha,C Dyer,K Gimpel,et al.Predicting the NFL using Twitter[C].Computer Science,2013.