2018年俄羅斯世界杯開打,首場(chǎng)比賽是東道主俄羅斯對(duì)陣沙特阿拉伯,将于6月(yuè)14日拉開序幕。
每屆世界杯最受關注的(de)當屬決賽,上屆2014年巴西世界杯,東道主巴西隊意外爆冷(lěng),隻獲得(de)第四名,無緣決賽。今年的(de)世界杯,不少機構/研究人(rén)員(yuán)給出預測:德國将和(hé)巴西争奪冠軍,并且,巴西隊奪冠的(de)概率更大(dà)些。
綜合各種預測和(hé)民意調查,冠軍幾乎肯定在巴西、德國和(hé)阿根廷之間展開,雖然強強争鋒喜聞樂(yuè)見,但似乎也(yě)少了(le)些驚喜。
機器學習(xí)和(hé)大(dà)數據的(de)方法正越來(lái)越多(duō)地被用(yòng)在比賽結果預測上,不僅是世界杯,也(yě)不僅是結果,球隊組成、戰術選擇和(hé)球員(yuán)訓練都已經開始見到機器學習(xí)的(de)身影(yǐng)。對(duì)于球迷和(hé)觀衆而言,人(rén)工智能也(yě)将展開一種全新的(de)參與/觀看體育賽事的(de)體驗。
機器學習(xí)預測結果:巴西獲得(de)冠軍
肯尼亞的(de)投資銀行Genghis Capital Investment Bank的(de)投資銀行分(fēn)析師Gerald Muriuki,日前在Medium上公布了(le)他(tā)使用(yòng)機器學習(xí)預測FIFA 2018的(de)結果——巴西将赢得(de)冠軍。
這(zhè)一結果跟微軟的(de)AI和(hé)數據科學專家Sorin Peste的(de)預測結果一緻。
實際上,預測世界杯冠軍是一個(gè)典型的(de)機器學習(xí)問題,你首先預測每場(chǎng)比賽的(de)獲勝者,接著(zhe)再預測小組賽、半決賽和(hé)決賽的(de)冠軍。在這(zhè)個(gè)過程中,你需要進行數據整合、特征建模和(hé)結果預測。因此,很多(duō)機器學習(xí)或數據科學家,都做(zuò)過類似的(de)項目。
Muriuki和(hé)Peste兩個(gè)人(rén)都是根據足球比賽的(de)曆史數據,建立機器學習(xí)模型,模拟比賽,并預測這(zhè)些比賽的(de)結果。下(xià)面我們分(fēn)别來(lái)看看。
使用(yòng)邏輯回歸進行預測
Muriuki使用(yòng)了(le)兩個(gè)來(lái)自Kaggle的(de)數據集,包含了(le)從1872年到2017年國際足球比賽的(de)結果。他(tā)先分(fēn)析了(le)兩個(gè)數據集,做(zuò)了(le)一些特征工程,選擇跟2018年世界杯最相關的(de)特征進行預測,再足控了(le)一些數據增強。
在模型的(de)選擇上,Muriuki用(yòng)的(de)是邏輯回歸,一種分(fēn)類器算(suàn)法。邏輯回歸通(tōng)過使用(yòng)邏輯函數預估概率,從而衡量分(fēn)類因變量和(hé)一個(gè)或多(duō)個(gè)自變量之間的(de)關系。簡單說,給定一組相關的(de)數據後,邏輯回歸能夠預測結果(在世界杯的(de)情況下(xià),就是預測是輸還(hái)是赢)。
這(zhè)是他(tā)的(de)模型預測最初幾場(chǎng)比賽的(de)結果:俄羅斯vs沙特,俄羅斯勝利;烏拉圭vs埃及,烏拉圭勝利;伊朗vs摩洛哥(gē),平局。4天以後就可(kě)以驗證這(zhè)個(gè)結果是對(duì)還(hái)是錯了(le)。
16強的(de)結果是這(zhè)樣的(de):
四分(fēn)之一決賽将在葡萄牙vs巴西,以及德國vs阿根廷之間展開。
最終巴西vs德國,巴西獲勝。
使用(yòng)随機森林(lín)進行預測
另一方面,微軟的(de)AI和(hé)數據科學專家Sorin Peste的(de)預測過程則更加完善。在數據的(de)選擇上,除了(le)曆年世界杯結果,Peste還(hái)使用(yòng)了(le)歐洲杯、奧運會等大(dà)型比賽的(de)數據,以及這(zhè)些比賽的(de)勝率分(fēn)布。
此外,Peste還(hái)考慮了(le)比賽的(de)地址,也(yě)即是在主場(chǎng)、客場(chǎng)還(hái)是在雙方都無關的(de)中立場(chǎng)所,以及比賽是否“friendly”,在踢friendly比賽時(shí),目的(de)不是爲了(le)赢球,而是爲了(le)觀察對(duì)手的(de)球員(yuán)和(hé)策略。
在模型的(de)選擇上,Peste用(yòng)的(de)是随機森林(lín)(深度500),一種根據呈現給它的(de)特征生成多(duō)個(gè)決策樹的(de)算(suàn)法,并且每個(gè)單獨的(de)樹對(duì)每個(gè)新輸入向量的(de)結果“投票(piào)”。随機森林(lín)的(de)速度快(kuài),相當準确,可(kě)以對(duì)泛化(huà)誤差進行無偏估計,因此不需要交叉驗證。
下(xià)圖展示了(le)叠代1000次後的(de)結果,巴西獲勝,阿根廷第二。
統計的(de)方法:德國戰車險勝巴西
當然,除了(le)機器學習(xí),還(hái)有更多(duō)預測是使用(yòng)大(dà)數據方法。KDnuggets上一位狂熱(rè)球迷用(yòng)統計的(de)方法,預測德國隊會奪冠。他(tā)的(de)操作步驟如下(xià):
收集信息:
國際足聯世界排名:這(zhè)是所有211支國家足球隊的(de)排名系統。使用(yòng)積分(fēn)系統,積分(fēn)是基于所有FIFA認可(kě)的(de)國際比賽的(de)結果。然而,這(zhè)并不是最好的(de)系統,而且有很多(duō)缺點。
Elo評級:該系統最初是爲國際象棋聯合會FIDE開發的(de),目的(de)是給棋手打分(fēn)。它的(de)複雜(zá)矩陣根據比賽的(de)類型分(fēn)配點數,并考慮到雙方的(de)淨勝球差異。它和(hé)國際足聯的(de)主要不同之處在于,它也(yě)統計了(le)友誼賽的(de)數量。
TransferMarkt team value:這(zhè)個(gè)總部位于德國的(de)網站提供了(le)關于足球各個(gè)方面的(de)信息,包括每個(gè)知名球員(yuán)的(de)估計市值。他(tā)們列出了(le)參與國的(de)名單和(hé)他(tā)們的(de)團隊價值。
投注賠率:使用(yòng)投注比較網站OddsChecker,采用(yòng)每個(gè)國家最慷慨的(de)賠率。
TransferMarkt的(de)數字是歐元,而FIFA和(hé)Elo有他(tā)們自己的(de)評級系統,投注賠率是分(fēn)數。作者将每一個(gè)系統都标準化(huà),使它們具有可(kě)比性。在統計中,标準分(fēn)數(也(yě)稱爲z分(fēn)數/值,正常分(fēn)數或标準化(huà)值)是數值與平均值不同的(de)标準偏差數。
2018年世界杯,四個(gè)流行的(de)預測來(lái)源
KDnuggets預測的(de)z分(fēn)數
如果KDnuggets的(de)預測是正确的(de),那麽世界杯小組賽的(de)結果會是下(xià)面這(zhè)樣的(de):
研究結果引出了(le)一些有趣的(de)結論:
德國排名第一,但僅略高(gāo)于巴西。緊随其後的(de)是西班牙和(hé)法國。
Elo排名系統和(hé)投注幾率看起來(lái)最相似,都列出了(le)相同的(de)前五名(上面提到的(de)四個(gè)球隊和(hé)阿根廷)。
在整個(gè)體系中有一些鮮明(míng)的(de)對(duì)比,其中最引人(rén)注目的(de)是秘魯在國際足聯(FIFA)和(hé)Elo排名中z分(fēn)數都排在第10位,而在TrasferMarkt的(de)球隊價值排名卻在第30位。
民意調查:德國、巴西、阿根廷最受歡迎
除了(le)KDnuggets上的(de)預測,還(hái)有諸多(duō)世界杯賽前的(de)其他(tā)預測:
《每日電訊報》對(duì)每支球隊進行了(le)廣泛的(de)分(fēn)析,最後進行了(le)一項投票(piào),讓讀者預測冠軍,投票(piào)結果如下(xià):
此外,據中新網報道,俄羅斯彼爾姆國立研究大(dà)學學生維克多(duō) 紮科派洛建立了(le)一個(gè)能預測2018年世界杯冠軍的(de)神經網絡,神經網絡綜合各項參數進行分(fēn)析計算(suàn)後得(de)出結論稱,世界杯前三名将是德國隊、巴西隊和(hé)阿根廷隊。
四年前,巴西在家門口以1:7輸給了(le)德國隊,創下(xià)了(le)自1920年0:6輸給烏拉圭以來(lái)最大(dà)的(de)世界杯輸球記錄,震驚全國人(rén)民。最終,德國隊奪得(de)了(le)當年的(de)世界杯冠軍。
今年的(de)俄羅斯世界杯,諸多(duō)機構預測巴西和(hé)德國将上演冠軍大(dà)戰。巴西能否一雪(xuě)前恥,德國能否成功衛冕?我們拭目以待。 |