不同模型预测足球赛事的比较.pdf
体育大视野2018年(第8卷)第31期
DOI:10.16655/j.cnki.2095-2813.2018.31.191
不同模型预测足球赛事的比较①
段志民朱盼
(天津财经大学统计学院天津300000)
摘要:尽管足球是目前世界上最受欢迎的体育项目,但相关研究还没有达到与其他专业运动一样的分析水平。本文将从
机器学习角度,基于python语言,利用大数据思维模式对英超联赛2015—2016赛季的比赛结果进行预测,在对数据进行
预处理后,进行相应的模型评估,最后将预测结果与传统建模分析相比较,比较结果发现:与传统模型相比,机器学习算
法对现有足球数据的利用并没有想象中的那么好(传统模型精度为55%,机器学习算法精度为45%)。可见,对于足球赛事
而言,由于赛季数据的稀缺性(赛季只有38轮次比赛),传统模型由于立足于逻辑性建模理念,目前来说还是有一定的可
取性。
关键词:足球赛事胜负预测python机器学习模型比较
中图分类号:G80-32文献标识码:A文章编号:2095-2813(2018)11(a)-0191-02
传统预测足球比赛结果大多数是基于建立一个可适大博彩公司给出的赔率等92个属性,故数据框为380×92
用的机理模型而预测比赛结果,由于一场比赛收集到的数的数据。
据庞大,而传统的理论模型又无法完全度量这些变量的2.3清洗数据
重要性程度,预测模型和结果往往会受到很大的限制,本我们获取了大部分的所需足球数据。现在我们要对数
文选用的模型不同于传统机理模型,利用已经成熟的机据进行清洗,从而为后续分析研究打下基础。清洗数据是
器学习分类算法如加强算法对比赛结果进行分类,这种分将“原始”数据转化为“可利用”数据所需的过程。数据清
类模型跳出了衡量变量指标重要性程度的怪圈,以一种新洗包括数据清理以识别异常,丢失或异常数据点等。
的角度来分析思考问题。将数据导入后,我们进行数据的清洗。
(1)校正异常值:遍览数据,观察是否存在数据的异
1前人相关工作
常值,如进球数是否为负或超过10个。倘若数据异常,我
Ulmer和Fernandez(2013)通过研究诸如高斯朴素贝
们需要格外审视,判断其是否真实,后续的一系列分析都
叶斯,隐马尔可夫模型,多模式朴素贝叶斯,支持向量机
以此为前提而展开。
(SVM),随机森林(RF)等模型对从2002赛季到2011赛
(2)填补缺失值:在主客场球员编号部分存在一些缺
[1]
季10个赛季的英超冠军进行评估。Hucaljuk和Rakipovi
失值,我们需要自行填补。
(2011)通过神经网络算法评估了欧洲冠军联赛的成绩预
通过统计该球队处于该位置的球员编号来获取其众
测,其算法预测结果表明,利用机器学习算法进行比赛赛
数,倘若存在多组相同数据(如A球队B位置2人同一位置