論理の流刑地

地獄の底を、爆笑しながら闊歩する

data frameをはてな記法での表組に変える関数

R

ただのTechnical Notes。 いちいちスクショなり表を整形するなりまでする必要ないけど、ブログに表をのせたいとき使う データフレームを引数にとって、ただ実行するだけであとは「貼り付け」するだけではてな記法での表組に変換できる関数をつくる◆参考URL …

一般ファン・サポーターがJリーグを統計的に楽しむうえで「できないこと」は何か

「制約はアイディアの母」*1とは言うけれど...という話 導入:Jのデータ分析の面白さと物足りなさ 最大制約としての「データにおける時空間情報の欠如」 Footballの統計的分析のふたつの役割 因果の同定に必要な情報の不足 詳細データが公開されないのは悪か…

Jリーグの各試合におけるシュート位置の座標を推定・取得する

いとマニアックな備忘録というかもはや作業メモでしかない系記事 Motivation 座標の指定方法をしらべる ピッチの広さに関する知識 座標変換のロジックをつくる 試合ページから取得できるようにする 集計結果(やっぱ川崎すげー) Conclusion Motivation Foot…

【データ検証】川崎フロンターレは「トータルフットボール」なのか?「キングダムサッカー」なのか?:ボールタッチ数の集中度から考える

fooball計量学シリーズ。ちょっとした思いつきによる分析。 問題提起:川崎フロンターレは「トータルフットボール」か? データ検証の指針:タッチ数の不平等度からのアプローチ Technical Notes:タッチ数の集中係数の計算方法 ジニ係数の計算方法 タッチ数…

インプットを続けていくためにこその"随時更新型アウトプット"

自分の考えを整理するための駄文ログ的なアレ。 Introduction: 継続できない私たち 齢を重ねると増える諸々の制約 haruki氏による「随時更新型アウトプット」の提案 随時更新型アウトプットを活かしたインプットのシステムの作り方 トピックごとの理解のログ…

StatsBombをRで遊ぶ

個人的な備忘録でしかないメモ。 Introduction Rでも実現したい処理工程の把握・書き出し データの取得・整形 大会情報の取得・整形 試合情報の取得・整形 ラインナップの取得 イベントデータの取得 イベントデータの基礎集計と可視化 チーム別集計(例:パ…

【備忘】「人手不足なのになぜ賃金が上がらないのか」

移動時間でナナメ読みしたので、めちゃ簡単なメモ。 個人的に面白いと思った章の、印象に残った箇所だけ抜き書きしとく。 総評 6章(梅崎修)『人材育成力の低下による「分厚い中間層」の崩壊』pp.85-100 7章(川口大司・原ひろみ)『人手不足と賃金停滞の併…

Rからestatapiパッケージを通してe-stat APIをつかう

Introduction e-stat APIの基本仕様 どんな機能があるか パラメータについて Rから使ってみる estatapiパッケージを使う 機能1:統計表を検索してIDを取得する 機能2:メタデータを取得する 機能3:データ本体の取得 機能4:データカタログの取得 Conclusion…

【備忘】村上春樹・柴田元幸『本当の翻訳の話をしよう』(2019)

本当の翻訳の話をしよう発売日: 2019/05/09メディア: 単行本 Introduction 印象に残った箇所の備忘 明治の翻訳における漢学の役割 二葉亭四迷の「あひゞき」の翻訳が当時の文学に与えた影響 漱石に対する村上春樹の評価 短編小説家を支えたアメリカ50'sの雑…

【簡単な備忘】『分解するイギリス:民主主義モデルの漂流』(近藤康史, 2017)

図書館で借りて、最近移動時間や休憩時間に読んでいた本。 (新着図書のところに置いてあったから今年の本かと思いきや3年前の本だった) 政治のことは国内外含めわからないし、イギリス社会にも全然詳しくないが、単純に勉強になった。分解するイギリス: 民…

フィリップス曲線ふたたび

◆Outline Introduction フィリップス曲線とは フィリップス曲線のロジック 日本におけるフィリップス曲線のフラット化 Conclusion:何が仮定されているのか?が大事 (いきなり脱線) 最近息抜き時に内田義彦の『読書と社会科学』を読んでいて、なかなか耳が…

【追加データ検証】マッシモ名古屋(とロティーナセレッソ)が前半先行されると追いつけないのはなぜか

マッシモ名古屋をデータで追うシリーズpart2. 小中先生(@konakalab)が新たな武器を授けてくれたので。◆Outline 問題提起:あれから一か月経った現状と課題 セレッソと名古屋の共通点:一部選手への起用の集中化 アプローチ:HTがビハインドである場合の勝敗…

RIF回帰再訪

齢を重ねると物をすぐに忘れるために備忘録を多くとるようになるが、 さらに衰えが激しくなると、そのメモをみてもすぐに学んだ内容を想起できなくなるため、このような悲しい記憶の復元録を書くことに相成るのである。。。。 Introduction RIF(Recentered I…

【備忘】交互作用のparameterizationについて考えたこと

実務上の分析をするなかでふと思ったこと。 いちいち書き留めるほどのことでもないけど、そうしないと忘れちゃうので(老兵はつらい)。 何が問題か じゃあどうすればいいか Zが離散変数:ダミー変数のcodingを工夫 Zが連続変数の場合はどう考えるとよいか C…

グラぽで掲載されていた出場時間集中係数の計算プログラム&分析結果再現をこころみる

仕事に疲れたので、休憩用に遊んでいたものをそのまま記事にするだけのやつ*1 車輪の再発明ってやつですね。 Motivation:コナカ先生の知的な試み ジニ係数(オリジナル)の計算方法について 集中係数へのアレンジ 再現できたかの検証 追記:Excelでやるには …

【R備忘】既存のテキストファイルの文字コードをUTF8からShift-JISに変換する関数

R

備忘。たぶんすごい基礎的なことだと思うんだけど、あんまり日本語情報がない気がしたんで。 まぁテキストエディタで文字コード変更して保存しなおせばええやん、って話ではあるんだが、Rだけでなるべく処理は完結したい。以下みたいな関数をつくっておくと…

【分析準備】Jリーグの会見コメントからコーパスをつくる by rvest/RSelenium/RMeCab

Motivation 実装(データ取得) ①:取得対象のURLの取得 ②:監督コメントの取得 実装(取得したtextからのコーパス化) テキストを監督ごとに結合する RMeCab::docDF()でコーパスをつくる 次回予告 Motivation 最近、マッシモの会見が面白くなってきたともっ…

【R小ネタ】最終引数以外でも、複数の変数を非標準評価(NSE)形式で与えたい場合のやりかた。

R

なんか簡単そうで意外と思いつかなかったので簡易な備忘 Probrem Solution Probrem 関数内でdplyrの諸関数をつかうときに、NSEな感じでquotationをつけずに引数を複数指定したいときがある。 そんなとき、最終の引数であれば 「...」をquos()で受け取ってか…

選手の個人スタッツのデータベースをつくる by rvest&RSelenium

鉄は熱いうちに打て、ということで分析基盤をやる気のあるうちにつくる。 テーマや領域にかぎらず、大抵の分析は「分析可能なデータをつくる」工程に大部分の時間・労力が費やされる説あります。 Introduction 目標の設定 実装(Rseleniumのとこだけ) 初期…

【データ検証】マッシモ名古屋は本当に「先行逃げ切り特化型」なのか?それはなぜか?

データから見るマッシモ名古屋シリーズ*1◆Outline Introduction: グラぽにおける問題提起 マッシモ名古屋=「先行逃げ切り特化型」説の提起 「先行逃げ切り特化型」説の検証の必要性 分析:マッシモ名古屋は「他チームと比較しても」先行逃げ切り特化型なの…

前後半のゴール数/シュート数/ボール支配率を取得する by rvest

Introduction どのページからとってくるか データ取得の方法:得点編 場合わけ(得点をとってない場合もあるよねという話) データ取得to整形 時間帯別のポゼッション/シュート数を取得する Possessionを取得する シュート数 Conclusion Introduction rvest…

Jリーグをデータから分析する準備

猫背、なかなか直らんすな.... Introduction Scrapingの流れ 欲しいデータの要件の定義 データ要件の定義が大事な理由 データの要件の定義@Football Lab rvestの使用手順を簡単におさらい 基本的な使い方 実行例 データをとっていく(クラブ編) 走査ルール…

最近印象に残った言葉 part2

うぐひすに 人は落ち目が 大事かな 久保田万太郎 黒澤は少し黙り、そのまま車を走らせていたが、やがて、 「罪は引力みたいなものだ、と書いてあったな」とぼそりと言った。 「罪が引力?どういうことだ」 「地上にあるものは罪から逃れられない。罪をゼロに…

【備忘】逆引きXLConnect

Introduction セルの背景色をつける セルを結合する セルの罫線を設定する オートフィルタを設定する Conclusion Introduction 意外と色々やれるXLConnect、すごいぞXLConnect。でもちょっと仕組みがわかりにくくて、初見さんに優しくない感じなので 色々な…

XLConnectでハマったこと備忘

Introduction 罠①:日本語を含んだfile pathが指定できない 罠②:値だけ書き込むためには、事前にsetStyleAction()での指定が必要 罠③:xlcFreeMemory()を忘れると直接編集したExcelの変更が直接保存できない。 Conclusion Introduction VBAも一応かけるけど…

StataのデータをRでつくる(sjlabelledパッケージ)

とてもマニアックな備忘録シリーズ。 Introduction Rにおけるデータフレームは他の統計ソフトのおけるデータ形式に比して、必要最小限の情報しか入っていない。 したがって、他の統計ソフト(SPSS , Stataなど)向けのデータを出力する時には、データ本体に加…

将棋棋士の全盛期はいつか?それは居飛車/振り飛車党によって違うのか

色んなことに疲れ果てて魔が差したシリーズ。 Introduction データ元URL 分析①:お前の全盛期はいつだ? 才能の代理変数としてのデビュー時期 基本モデル 全盛期は約24歳 分析②:戦型によって全盛期は異なるか? Conclusion Introduction 将棋のプロ棋士はみ…

Boudon(1969=1970)『社会学の方法』

社会学の方法 (文庫クセジュ 483)作者:レイモン・ブードン発売日: 1970/12/01メディア: 単行本Boudon, Raymond , 1969, Les methodes en sociologie,Presses universitaires de France(=宮島喬訳, 1970, 『社会学の方法』白水社) Introduction 印象に残った…

plm()の結果から、対数尤度を取得する。

Introduction 正規誤差モデルにおける最尤法 正規誤差の対数尤度関数 OLSの場合 plmの場合 Conclusion Introduction 天下のStata様とは違い、Rの各パッケージは各々の開発者の単騎行動によりつくられているため、痒い所に手が届かない場合も少なくない*1。パ…

【小ネタ】パネルデータ分析における"Between"モデルは何をしているのか

単に「これ何やってんだっけ?」を確認してくシリーズ Introduction plmパッケージの"between"モデル 推定結果の比較 plmの推定結果 自分でデータ変換してからOLS Conclusion Introduction たまにパネルデータの分析結果で"Betweenモデル"なる記述を見る。 p…