久しぶりのサッカーの分析*1。
ちなみに今年の大河ドラマは視聴していないです*2。
Motivation
グラぽの先日のACLについての記事のなかで、
編注:名古屋グランパスは雨に弱いですね・・・
という記載があり、天候の影響を分析するの面白いかもと思って(&つぶやいて)いたら、
グラぽさんが以下のようなtweetをなさっていたり、
過去3年でもこんな感じ。
— グラぽ@AI・データサイエンスの基礎 発売中 (@grapodotnet) 2021年6月16日
10年も3年もそうなので、「名古屋は荒天に強いほうではない」という感じ pic.twitter.com/whXgiicPDE
名城大の小中先生が論文をご教示くださったり、
>RT 検索時間5分で見つけた論文.中東湾岸地域での気温がサッカーの勝敗に与える影響について統計的に分析しているようです.(AbstractとConclusionしか見てません!)https://t.co/pEI0fShn6W
— konakalab (小中研究室/名城大) (@konakalab) 2021年6月16日
※Conclusionだけ読んだところ、高い温度のときほど中東のチームのホーム戦は良い結果を得ており、その効果は対戦相手のFIFAランクを考慮しても残存する、とのこと。
名古屋も夏強いシーズンが多いので、名古屋の暑さが武器になってるみたいな説定期的に出ますよね。
さらに、クラブによる天候の得意・不得意があるのかを検証してくださったり
天候ごとの勝ち点についてちょっと工作したのでスレッドで続けます.結論の概要は「直近3年間のJ1で,雨の有無で平均勝ち点の有意差があるチームは見つけられなかった」です.(1/n) https://t.co/yqNxSMQb9y
— konakalab (小中研究室/名城大) (@konakalab) 2021年6月17日
したので、自分も簡単な分析をしようと思った次第。
天候によって強いクラブが変わるのか、という問いをもう少し深彫りして、
この記事では天候によって「勝てるサッカー」に必要な条件は変わるのか、という問いを明らかにする。
換言すれば、晴天に恵まれるか否かで、サッカーにおいて「勝ちをつかむうえで重要な変数」が変わるかどうかを探り出す。
データと方法
分析につかうデータと分析手法を述べる。
※結果だけ知りたい人は、本節を読み飛ばしてもらってもかまわない
データと変数
2020年のJ1リーグの全306試合を対象とする。
データの取得方法に関しては過去の記事(コレとか、コレとか)を参考のこと。
ちなみに、天気の分布は以下の通りであった。
見ても分かるように、去年は雨のなかで行われた試合が少ない(梅雨の時期に長期中断がかぶったのもあると思う)ゆえ、
分析上は完全なる晴天 or それ以外 という二項区分を設けて独立変数*3とする。
結果変数は、各試合で獲得した勝ち点(0/1/3,のどれか)である。
共変量(調節変数の候補)としては、
を投入している。シュート数やゴール期待値は、予測の対象とする結果変数に近すぎるproxy variableなので、今回は分析に用いていない。
このようなデータで、J1リーグの試合では青天に恵まれるか否かで勝利の上で重要な変数が変わってくるかどうか、すなわち「青天を衝く」サッカーは如何なるものであるのか、を探索的に分析していく。
分析手法
Athey&Imbens(2016, URL)で提案されている手法(因果木分析)を使う*4。
この手法は簡単にいえば、ある原因変数Xが結果変数Yに与える効果の「バラつき」を基準として、そのバラつきを最大化するような調節変数Zを探す手法である。
今回の場合に引き付けてわかりやすく説明していえば、「晴れるかどうか」が「勝ち点」に与える効果を変化させる変数が何かを探すのに最適な手法、ということである。
例えば(いささか空想的な例だが)、晴天時は直接フリーキックがめっちゃ入るけど、非晴天だとなぜか全くフリーキックが入らなくなる、みたいなキッカーがJ1の各クラブにいたと仮定すると、「直接FKの獲得数」は、晴天/非晴天が勝ち点に与える影響を大きく左右する変数として見出されることになる。
決定木分析ベースの手法なので、変数間の交互作用も柔軟に捉えることができるのも、強みである。
分析結果
晴天か否かにより効果が変わる変数は何か
天候→勝点の効果と他変数の関係を探る因果木分析における変数重要度は上図の通りで、
- ドリブル成功率(Dribble_SucRate)
- ロングボール本数(Longballs_All)
- 空中戦勝率(aDuels_Rate)
の3変数が、とくに「青天か否か」により勝ち点に対しての効果が異なってくる変数であるとわかる。
結果の概要:晴れの日はロングボールは少なめ、ドリブルマシマシで
推定結果の詳細な数値は省略するが、分析結果を簡単に説明*5すると、
- 晴天ではドリブル成功率が高いほうが勝ちやすいが、非晴天ではむしろドリブル成功率が低い方が勝ちやすくなる【結果①】
- ドリブル成功率が高い場合、空中戦勝率が低いなら晴天時に、空中戦勝率が高いなら非晴天時に勝ちやすくなる【結果②-1】
- ドリブル成功率が低い場合、ロングボール本数が多いなら非晴天時に、ロングボールが低いなら晴天時に勝ちやすくなる【結果②-2】
因果木の推定結果をそのまま載せても、一般(=普段統計に親しんでいない人)的にはちょっと分かりづらくなるので、
ここでは少し簡略化して、ドリブル成功率・ロングボール本数・空中戦勝率の各々が中央値より高いかどうかで2群に分けて、それぞれのグループ間で、晴天/非晴天時による勝ち点の違いを見てみよう。
【結果①】
普通に考えて、ドリブルで相手を抜けたほうが、抜けずにボールを奪われるより良い。
それはどういう試合状況であれ、どういう展開であれ普遍的な効果をもつと考えるのが普通である(私もそうでした)。
しかし上図が示唆するのは、実は晴れていない時にはドリブルの成功は勝利に結び付きづらくなる、という事実である。
【結果②】
-ドリブル成功率が高い場合、空中戦勝率が低いなら晴天時に、空中戦勝率が高いなら非晴天時に勝ちやすくなる【結果②-1】
について、左側のふたつの図をみると、ドリブル成功率が高い(=地上での前進手段が(パス以外に)確保されている)チームのなかでも、空中戦は不得手な地上特化型のチームの場合は、特に青天特化型になる
普通に考えて、ドリブルも成功させたうえで空中戦も勝った方が「どんな天候でも」良いはずではあるのだが、晴天の場合はそうでもなくなっている。
不思議であるが、簡単に他の変数の分布などを見てもメカニズムがわからなかったので、今後の課題としたい。
-ドリブル成功率が低い場合、ロングボール本数が多いなら非晴天時に、ロングボールが低いなら晴天時に勝ちやすくなる【結果②-2】
ドリブルという前進手段に頼れない場合、一気にボールを蹴り飛ばしていくのか、それとも長いボールではなく短いパスをつないでいくのか、というのがひとつの分水嶺となる。
ドリブル成功率が低いチームの戦い方を考えるとき、天候が悪い時にはロングボールが有効になるが、同じ戦略を晴天時にとっていると期待勝ち点は顕著に低下する。
まとめ&課題:一見直感に反するような結果をどう説明するのか。
以上、青天か否かにより勝ち点獲得に対して顕著に効果が変動するような指標があることを確認してきた。
導入でふれた小中先生の検証結果*6ではクラブ単位でみたときに「天候による有利/不利があるクラブはない」とされていたが、少なくとも試合を構成する各要素(具体的にはドリブルやロングボール数、空中戦)の規定力には天候差があることが明らかになった。
ただ、上述したように、今回見出された結果がどのようなメカニズムによって生じるのかはわからない。
※自分でも簡単な追加分析をしてみたけど、説得的な説明根拠となるような規則性は見出されなかった。
いつか、より粒度の高いデータが利用可能になったとき(Jリーグのデータ分析における現状の制約については以下記事参照)には、「なぜ天候の違いがドリブルやロングボールの有効性を変えるのか」ということについて、メカニズムの精緻な分析を行いたい。
※参考記事
ronri-rukeichi.hatenablog.com
Enjoy!!