論理の流刑地

地獄の底を、爆笑しながら闊歩する

【データ分析】Jリーグで「青天を衝け」るサッカーの条件を探る

久しぶりのサッカーの分析*1
ちなみに今年の大河ドラマは視聴していないです*2

Motivation


グラぽの先日のACLについての記事のなかで、

編注:名古屋グランパスは雨に弱いですね・・・

【出張版ミネ月式】2021年ACLグループステージご案内 #ACL2021 #AFCCL #grampus | グラぽ

という記載があり、天候の影響を分析するの面白いかもと思って(&つぶやいて)いたら、

グラぽさんが以下のようなtweetをなさっていたり、


名城大の小中先生が論文をご教示くださったり、


※Conclusionだけ読んだところ、高い温度のときほど中東のチームのホーム戦は良い結果を得ており、その効果は対戦相手のFIFAランクを考慮しても残存する、とのこと。
名古屋も夏強いシーズンが多いので、名古屋の暑さが武器になってるみたいな説定期的に出ますよね。

さらに、クラブによる天候の得意・不得意があるのかを検証してくださったり

したので、自分も簡単な分析をしようと思った次第。

天候によって強いクラブが変わるのか、という問いをもう少し深彫りして、
この記事では天候によって「勝てるサッカー」に必要な条件は変わるのか、という問いを明らかにする

換言すれば、晴天に恵まれるか否かで、サッカーにおいて「勝ちをつかむうえで重要な変数」が変わるかどうかを探り出す。

データと方法

分析につかうデータと分析手法を述べる。
※結果だけ知りたい人は、本節を読み飛ばしてもらってもかまわない

データと変数

2020年のJ1リーグの全306試合を対象とする。
データの取得方法に関しては過去の記事(コレとか、コレとか)を参考のこと。

ちなみに、天気の分布は以下の通りであった。

f:id:ronri_rukeichi:20210622063538p:plain
天気分布(2020年J1リーグ306試合より)

見ても分かるように、去年は雨のなかで行われた試合が少ない(梅雨の時期に長期中断がかぶったのもあると思う)ゆえ、
分析上は完全なる晴天 or それ以外 という二項区分を設けて独立変数*3とする。

結果変数は、各試合で獲得した勝ち点(0/1/3,のどれか)である。

共変量(調節変数の候補)としては、

  • ボール支配率
  • パス成功率
  • クロス数/成功率
  • ドリブル数/成功率
  • ロングボール数/成功率
  • スローイン数/成功率
  • 空中戦勝率
  • 地上戦勝率
  • スプリント数
  • 走行距離
  • ホーム or アウェイ
  • インターセプト

を投入している。シュート数やゴール期待値は、予測の対象とする結果変数に近すぎるproxy variableなので、今回は分析に用いていない。

このようなデータで、J1リーグの試合では青天に恵まれるか否かで勝利の上で重要な変数が変わってくるかどうか、すなわち「青天を衝く」サッカーは如何なるものであるのか、を探索的に分析していく。

分析手法

Athey&Imbens(2016, URL)で提案されている手法(因果木分析)を使う*4
この手法は簡単にいえば、ある原因変数Xが結果変数Yに与える効果の「バラつき」を基準として、そのバラつきを最大化するような調節変数Zを探す手法である。

今回の場合に引き付けてわかりやすく説明していえば、「晴れるかどうか」が「勝ち点」に与える効果を変化させる変数が何かを探すのに最適な手法、ということである。

例えば(いささか空想的な例だが)、晴天時は直接フリーキックがめっちゃ入るけど、非晴天だとなぜか全くフリーキックが入らなくなる、みたいなキッカーがJ1の各クラブにいたと仮定すると、「直接FKの獲得数」は、晴天/非晴天が勝ち点に与える影響を大きく左右する変数として見出されることになる。

決定木分析ベースの手法なので、変数間の交互作用も柔軟に捉えることができるのも、強みである。

分析結果

晴天か否かにより効果が変わる変数は何か

f:id:ronri_rukeichi:20210619131226p:plain

天候→勝点の効果と他変数の関係を探る因果木分析における変数重要度は上図の通りで、

  • ドリブル成功率(Dribble_SucRate)
  • ロングボール本数(Longballs_All)
  • 空中戦勝率(aDuels_Rate)

の3変数が、とくに「青天か否か」により勝ち点に対しての効果が異なってくる変数であるとわかる。

結果の概要:晴れの日はロングボールは少なめ、ドリブルマシマシで

推定結果の詳細な数値は省略するが、分析結果を簡単に説明*5すると、

  • 晴天ではドリブル成功率が高いほうが勝ちやすいが、非晴天ではむしろドリブル成功率が低い方が勝ちやすくなる【結果①】
  • ドリブル成功率が高い場合、空中戦勝率が低いなら晴天時に、空中戦勝率が高いなら非晴天時に勝ちやすくなる【結果②-1】
  • ドリブル成功率が低い場合、ロングボール本数が多いなら非晴天時に、ロングボールが低いなら晴天時に勝ちやすくなる【結果②-2】

因果木の推定結果をそのまま載せても、一般(=普段統計に親しんでいない人)的にはちょっと分かりづらくなるので、
ここでは少し簡略化して、ドリブル成功率・ロングボール本数・空中戦勝率の各々が中央値より高いかどうかで2群に分けて、それぞれのグループ間で、晴天/非晴天時による勝ち点の違いを見てみよう。

【結果①】

f:id:ronri_rukeichi:20210622075349p:plain
ドリブル成功率別勝点の、天候による差異

普通に考えて、ドリブルで相手を抜けたほうが、抜けずにボールを奪われるより良い。
それはどういう試合状況であれ、どういう展開であれ普遍的な効果をもつと考えるのが普通である(私もそうでした)。

しかし上図が示唆するのは、実は晴れていない時にはドリブルの成功は勝利に結び付きづらくなる、という事実である。

【結果②】

f:id:ronri_rukeichi:20210622080731p:plain
ドリブル成功率/ロングボール本数/空中戦勝率の区分による、天候の効果の差異

-ドリブル成功率が高い場合、空中戦勝率が低いなら晴天時に、空中戦勝率が高いなら非晴天時に勝ちやすくなる【結果②-1】
について、左側のふたつの図をみると、ドリブル成功率が高い(=地上での前進手段が(パス以外に)確保されている)チームのなかでも、空中戦は不得手な地上特化型のチームの場合は、特に青天特化型になる

普通に考えて、ドリブルも成功させたうえで空中戦も勝った方が「どんな天候でも」良いはずではあるのだが、晴天の場合はそうでもなくなっている。
不思議であるが、簡単に他の変数の分布などを見てもメカニズムがわからなかったので、今後の課題としたい。

-ドリブル成功率が低い場合、ロングボール本数が多いなら非晴天時に、ロングボールが低いなら晴天時に勝ちやすくなる【結果②-2】

ドリブルという前進手段に頼れない場合、一気にボールを蹴り飛ばしていくのか、それとも長いボールではなく短いパスをつないでいくのか、というのがひとつの分水嶺となる。
ドリブル成功率が低いチームの戦い方を考えるとき、天候が悪い時にはロングボールが有効になるが、同じ戦略を晴天時にとっていると期待勝ち点は顕著に低下する。

まとめ&課題:一見直感に反するような結果をどう説明するのか。

以上、青天か否かにより勝ち点獲得に対して顕著に効果が変動するような指標があることを確認してきた。
導入でふれた小中先生の検証結果*6ではクラブ単位でみたときに「天候による有利/不利があるクラブはない」とされていたが、少なくとも試合を構成する各要素(具体的にはドリブルやロングボール数、空中戦)の規定力には天候差があることが明らかになった

ただ、上述したように、今回見出された結果がどのようなメカニズムによって生じるのかはわからない。
※自分でも簡単な追加分析をしてみたけど、説得的な説明根拠となるような規則性は見出されなかった。

いつか、より粒度の高いデータが利用可能になったとき(Jリーグのデータ分析における現状の制約については以下記事参照)には、「なぜ天候の違いがドリブルやロングボールの有効性を変えるのか」ということについて、メカニズムの精緻な分析を行いたい。

※参考記事
ronri-rukeichi.hatenablog.com



www.youtube.com

Enjoy!!

*1:たまにデータ触ってはいるけど、あんまりブログ書くほどの発見はないんですよね

*2:最後にちゃんと観たのは「真田丸」です。まぁ今の家にTVないってのが大きいですが。

*3:aka. 処置変数, 説明変数..

*4:因果木については過去記事1, 過去記事2などを参照されたい

*5:こういう、若干複雑な手法の分析結果を「簡単に説明する」のがなによりも難しい説あります

*6:天気の区分が違うので本論の分析と単純に比較はできない