論理の流刑地

地獄の底を爆笑しながら闊歩する

一般ファン・サポーターがJリーグを統計的に楽しむうえで「できないこと」は何か

「制約はアイディアの母」*1とは言うけれど...という話

導入:Jのデータ分析の面白さと物足りなさ

昨年の9月末くらいに少し思い立って、Jリーグのデータベースを個人的に構築*2して、いくつかデータ分析をしてみたりした。

◆分析して書いた記事
grapo.net
ronri-rukeichi.hatenablog.com
ronri-rukeichi.hatenablog.com
ronri-rukeichi.hatenablog.com


データと実感の一致/乖離がもつ特有の面白さというものはやはりどの領域でもあるもので、その例に漏れずJリーグを分析することも色々な発見があった*3
特に自分は物心ついたときから応援してきたMyクラブがあるので、そのクラブに関してはある程度個々の選手の特徴や歴史的な文脈もある程度分かっている。
つまり、もともとある程度の「思い込み」や仮説生成につながる「疑問」がある状態で分析がスタートできるので、やはりその予想が当たったり覆されたりすることを楽しめる環境にはあった。

その面白さの基盤は、やはりデータ自体にある。Jリーグに関しては、

の2つのサイトが主なデータの提供元となっている。
前者は各試合×各クラブの単位の情報を、後者は各試合×各選手の単位の情報を豊富に提供しており、Jリーグのファン・サポーターが「Footballを統計的に楽しむ」うえでの素地となっている

これらのデータがあることで、一見chaoticな集団現象にみえるfootballのなかにある規則性(regularity)をある浮き彫りにすることができるのである。

しかし、結論先取的に言ってしまうと、興味を持った人がJリーグについてデータ分析しようとしても(現状利用可能なデータの質・量を所与とする限りは)面白さのあとに物足りなさがすぐに来やすい環境が現状なのではないのかな、という認識を持っている。

その一番の理由はやはり、利用可能なデータの種類・形式の制限と、そこから導かれる「分析でできること」の幅の狭さにあるのではないか、と思っている。
その点について早速次項から述べていく。

最大制約としての「データにおける時空間情報の欠如」

なんでJに関する現在利用可能なデータを分析するのでは物足りないのか?、という点について理由を述べる。

Footballの統計的分析のふたつの役割

個人的には、footballを対象とした統計的分析には以下の二つの「役割」があると思っている。

  1. 一見乱雑で無秩序に見えるピッチ上での22人の振る舞いのなかに現れる規則性を描写し、可視化すること
  2. ひとたび可視化された規則性が「なぜ」「どのようにして」生まれるのかについての、背後のメカニズムを説明すること。

そして現状、各サッカークラブや統計データ提供会社の在籍者のようなインサイダーでない者が、現状のJリーグのオープンなデータソースから果たせることできる目的は前者(=規則性の可視化)のみ*4である、というのが私個人の見解である。

因果の同定に必要な情報の不足

ではなぜJリーグについての現状利用可能なデータからではメカニズムを描き出せないのか。
それは端的に述べれば、現状のJリーグに関するデータ群は、因果的関係を同定するのに必要な時間・空間に関する情報を十分に含んでいないから、という点に尽きる。
具体的には、①Event Sequence形式のデータの欠如、②位置・空間情報の不足、の2点が最大のボトルネックとなっている、と考えている。

カニズムの説明というのは、不可避的に因果的な言明を含む*5
したがって、因果の同定に必要な情報がデータセット内に含まれていないと、見出された規則性の背後に潜むメカニズムを明らかにするのは非常に難しくなってしまう。

例えば、哲学者のヒュームは、因果性の要件として

  1. 原因と結果の間の時間・空間的な近接性
  2. 原因と結果の間の継起性
  3. 原因と結果の間の必然的結合性


を挙げている。

3つ目の必然的結合性については、「因果の同定とは何か」に関する考え方自体の多様性や発展と絡んでくるので一旦おいとくとして、これらの基本的要件*6のうちの1-2つ目の要件(時空間的近接性と順序に関する同定)というのは、ちょうど先ほど指摘した、現状のJの利用可能なデータに欠けた情報と綺麗に対応している

だから、Jリーグについての現状分析可能なデータから、変数Yについて(あるいは変数X⇔Y間)の規則性を見つけることができたとしても、

  • Yが起きたときにN秒以内にMメートル以内に何が起きているか?
  • Yが起きたときに増えているXは、時系列的にYが起きる前に起きがちなことなのか?起きた後に共起するものなのか?


ということは分からないのである

1試合単位での集計量どうしの関係を眺めるだけでは、これを明らかにすることはできない*7
結局、分析の質や幅を大きく規定するのはデータの性質なのである。

因果に関する分析の不可能性は、それすなわちメカニズムの詳解の不可能性につながる。
これが、Jリーグを統計的に楽しもうとするファン/サポーターの前に今立ちはだかるもっとも大きな壁ではなかろうか。

詳細データが公開されないのは悪か(そうではないよ)

じゃあより粒度の細かいデータをもってる会社が公開しないのが悪いのかというと、そんなに簡単にいくものでもないよ、ということについて。

データ自体はある

www.football-lab.jp

たとえば、先日Football LABに掲載されていたスローインに関する上の記事には

  • スローインが行われる瞬間や前後3秒間の全選手の位置や移動距離
  • スローイン後5秒以内のロスト率
  • さらにロスト後5秒以内の奪還率

などの情報が使われている。
だから、Data Studium社内部には時空間に関する情報が利用可能なデータとして蓄積されていることは分かる。
Optaの日本版アカウント(@OptaJiro)の呟く内容も、内部ではかなり粒度が細かいデータが蓄積されることをうかがわせる。
これらのデータがもし公開されることとなれば上述のようなメカニズムについての分析可能性はかなり拓けてくる、だろう(たぶん)。

データのアーカイブ化・公開のコスト

一度StatsBombとかを使ってみるとわかるのだけど、時空間的に近接したさまざまなイベントを網羅するデータをきっちりつくっていくと、1試合あたりの変数の数やイベントごとに定義するテーブルの数が膨大になってしまう

↓※素晴らしすぎるsaenaiさんのStatsBomb入門記事↓
note.com

それを、共通化・標準化したアクセス対象にするのは、それだけでかなりの手間がかかるだろう。

さらにいえば、SofaScoreにしろFootball LABにしろ、データの提示の仕方にこだわっていて、それ自体がコンテンツとなっている
※LABの各試合のSummaryのページ(例:名古屋vs川崎)とかかなり凝っていて、データ好きはこれを眺めているだけで酒の肴にできる。

ゆえに、彼らにとっては公開するデータの種類を増やすということは、各種指標を提示するコンテンツ自体も同時に新規作成する、ということを意味するので、そのコストは我々が思っている以上に大きい可能性がある。

データは無形資産であり企業競争力の源泉

この種のデータがオープンになっていない理由として、もっとシンプルな経済面の理由を考えることもできる。

たとえば、RIETIの鶴先生らの著書『日本経済のマクロ分析』pp.55-57では、近年の経済学においては各企業にとっての無形資産としてのデータベースの価値の指標化の試みに注力がなされていることが記されている。

当たり前のことではあるが、企業がリソースを投入してそれなりのコストをかけながら作成したデータを公開するためには、それを内部で非公開な状態で保持しておくことを上回るメリットが公開することに見出せる環境が必要となってくる
既述の通り、データ公開プロセス自体がさらにコストを上積みしてしまうことを考えると、それはなかなか容易なことではないだろう。

現状のデータでできるはずだけど十分にやられてないこと

現状のデータでは「メカニズムの分析」ができない、という話をつらつらと書いてきた。
しかし「できないことリスト」みたいなものをただ作って眺めているだけでは芸がないし、じゃあ今利用できるものを与件とした場合の「できることリスト」を我々はちゃんと遂行できているの*8?という話もある。

というわけで、できそうだけど管見の限りあんまりやられてない、ということを自分の宿題的な意味でも書いておく

Visualisation面の努力

今使える情報をどう「わかりやすく見せて伝える」かという方向性での努力は改善できるのではないか、という話。

著書も出しておられる新進気鋭の結城康平氏は以下のようなtweetを先日していた。

なるほど確かに、データ面の環境的ハンデは一朝一夕には埋まらないが、「見せる技術」を欧州の先駆者から学ぶことはできるだろう。

たとえばアーセナルに関する情報発信で有名な山中氏は、Jon Ollington氏のイケてる可視化をたびたび紹介なさっている。

もちろん細かいヒートマップとかパスネットワーク図みたいな、そもそも原情報がJだとないっていうシリーズもあるけど、
単純に「なんか見ててかっこいいな」「スタイリッシュ」だなという図を参考にすることは大事である。

また、polestar氏の以下の記事シリーズも、とても参考になるし示唆的だ。

筆者自身は美的センスはゼロ(むしろマイナス)なのだが、上記のようなものを参考にしつつ真似しつつ...って感じで牛歩でもやれることやれたらええですね。

戦術的レビュー(レビュアー)との協業

少なくとも自分にとってはJのデータを分析するのは趣味の一環なので、分析する動機は主に「このチーム/選手のこの特徴に関するデータがどうなっているか知りたい」という欲求に求められる。
そして、そのような「知りたい」の取っ掛かりとなる疑問・仮説というのは、一次情報として試合を観戦している時だけでなく、戦術面から分析したレビューを読んでいるときに生まれることも多い

たとえば自分はグランパスサポーターなので、グラぽのレビュー/プレビューやコラムなどにおける戦術的考察を読んでいて、「あーこの方の考え方ならデータはこうなってるハズだよなぁ...」みたいに仮説が浮かんでくることが多い。

定性的な観察から仮説生成⇒定量的な検証という流れは科学の王道だが、それは別に一人でやる必要はなくて、分掌してしまえばいいのだ。
だから、別に明示的に「この人と組みます」みたいなガチガチなコラボレーションでなくていい*9ので、ゆるやかな相互言及的な関係がもっとあるといいのかなと思う。

ただ難しいのは、すでに述べたように基本的に今Jで使えるデータって基本的にクラブ・選手どっちについても「試合単位の集計量」なのでメゾ・ミクロレベルでの戦術的観察から得られる知見については、直接的に検証し得ない、という点である。

だからむしろJに関しては、よりマクロな規則性をデータ分析している側がおおまかな変数間の関係に関する「解くべき謎」を提示して、それをもとに戦術的な分析の「眼」をもつような人がメカニズムの精緻な描写・分析をする、という逆の関係(定量分析→定性分析という順番)のほうがうまくいくのかもしれない

おわりに

この記事で指摘してきた分析の限界はあくまでも現時点での環境制約によるものなので、むろん将来には状況自体が変わる可能性もある。


Jリーグ 村井満チェアマン いらっしゃい!


この記事を書いているときにちょうどアップされた、「蹴球メガネーズ」の村井チェアマン*10のインタビュー動画(上の埋込動画の24分あたりから)のなかでも、ラッキングデータや加速度のデータに関しての(リアルタイムな)整備・公開への課題感が「個々のクラブがやるよりリーグがやっていくこと」という当事者意識をもって表明されている

ので、ちょっと面白い方向に現実が変わるかもしれないですね。
いまやれることを楽しみつつ、期待しましょう。



HOME MADE 家族 『JOYRIDE』

Enjoy!!

*1:制約があってこそアイディアが生まれる、という考えについては岩田聡・宮本茂・糸井重里の鼎談を参照

*2:データ取得に関する道義的・倫理的なエチケットなどに関しては"polite"で守るWebスクレイピングのエチケット - watagusa’s diaryなどを参照

*3:割と好意的な反響も多少あり、とてもありがたく思います

*4:細かいことを言うと、もちろん可視化できる規則性の幅にも欧州リーグに関する現状と比べるとだいぶ差はあって、特に位置情報にかんする規則性の発見は現状難しい

*5:と、思ってるけど因果に言及しないメカニズムの説明もあるんでしょうか。たとえば機能的説明も実は因果への言及を含むから機能概念は冗長だって佐藤俊樹も言ってた。動機による説明とか?いやでもそれデータから実証できるんでしょうか...

*6:むろん統計的因果推論にかんする近年の統計学・科学哲学・社会科学等の学術諸領域における理論的・方法的発展も承知しているが、それでもこのヒュームの図式が批判の対象としての役割も含めて、ある種の「叩き台」を提供している(たぶん)。

*7:とはいいつつも集計量どうしの関係性については分析は可能ではあるので、集計量を扱うことを専門としたマクロ経済学ミクロ経済学とは区別されるように、一種の「マクロサッカー統計学」化した分析を進めていくことはできるのだろう。その試みに実りがあるかは別として

*8:というかそもそもリストアップできているのか

*9:もちろんそういうのもあって良いと思うのですが、コミュニケーションコストが発生するので。

*10:色んな方が言っているけど2020年のJリーグの真のMVPはこの方では...