論理の流刑地

地獄の底を、爆笑しながら闊歩する

統計学

年末年始によんでいたもの(2022→2023)

師走も走り去りぬ。例によって年末年始は(帰省や移動時間を利用して)読んでみようと当初思っていたものの2~3割ほども読めなかったが、読んだものについて超簡単な感想・備忘など。 記録をとらないと読んだことも忘れちゃうゆえ*1 クリスチャンセン&チェ…

JMP分解について:備忘ノート

Introduction JMP分解の概要 前段としてのBO分解 JMP分解:①効果の同質性を仮定ver JMP分解:② 群間での効果の異質性を考慮するver Conclusion Introduction 人間の(いや私だけかもしれないけど)の何が哀しいって、それなりにそのときは時間をかけて理解し…

【データ分析】Jリーグでトランジション・ゲームを制するのはどのようなクラブか

データからみるJリーグシリーズふたたび はじめに:トランジションゲームになると得するのはどういうクラブか 分析の方法と仮説 データ&変数 分析アプローチ 分析 プレ分析:ハイトランジション志向のチームの優位性の確認 本分析:トランジション・ゲーム…

【R】{randomForestSRC}パッケージの基本事項備忘用メモ

なんか日本語情報が全然なかったので、自分用メモ 別にrandom forestの計算ロジック自体が変わるわけではないので*1、情報がなくても不思議じゃないんだけど。ちょいちょい触ってみて、{randomForest}パッケージより使いやすいと思ったので必要最小限に書き…

{glba}パッケージ 備忘録

体調管理が、何よりいちばん難しいタスク。 Introduction LBAの概要かいつまみ Main Function Introduction response time(回答時間)をどうやって行動予測や(関心のある変数の)効果の推定精度につなげるか、というハナシをやっている界隈がある。 ご多分…

Rでパレート優越ソート

{rPref}パッケージの使い方についてのメモ。 必要に追われて調べたときに日本語資料がほぼみつからなかったので、自分の備忘ついでに書く はじめに:パレート優越性と多目的最適化問題 基本的な使い方 カスタマイズ 条件指定関数 複数条件指定系 抽出方法指…

【データ分析】Jリーグで「青天を衝け」るサッカーの条件を探る

久しぶりのサッカーの分析*1。 ちなみに今年の大河ドラマは視聴していないです*2。 Motivation データと方法 データと変数 分析手法 分析結果 晴天か否かにより効果が変わる変数は何か 結果の概要:晴れの日はロングボールは少なめ、ドリブルマシマシで まと…

X→Yの効果と交互作用のあるZを見つける

Introduction How To Data Pre Analysis How to Find : Causal Tree Conclusion Introduction p-hackingやasterisk-seekingなんて言葉も人口に膾炙している通り、調査データから「有意な関連」を見出すこと自体が目的化しがちなのが経験科学における定量的研…

rpartと因果木についての覚え書き

すっごいマニアックな備忘録だが、こういうの書いてまとめて自分事として納得しないと秒速で忘却してしまうので。 What's the problem? いきなり寄り道:Rのrpartについての注意点 本題:Causal TreeにおけるMSEの求め方。 前提:因果木のつくられかた 本題…

ジニ係数の色々な含意について覚え書き

知ってる知識でも色んな広げ方をしている人がいるなぁ、という備忘録 Introduction 上の論文の概要 発展:G-Indexを用いたジニ係数の計算の意味について Conclusion Introduction 井上(2009)「ローレンツ曲線とジニ係数に関する覚え書き」 という論文に、な…

Rからestatapiパッケージを通してe-stat APIをつかう

Introduction e-stat APIの基本仕様 どんな機能があるか パラメータについて Rから使ってみる estatapiパッケージを使う 機能1:統計表を検索してIDを取得する 機能2:メタデータを取得する 機能3:データ本体の取得 機能4:データカタログの取得 Conclusion…

RIF回帰再訪

齢を重ねると物をすぐに忘れるために備忘録を多くとるようになるが、 さらに衰えが激しくなると、そのメモをみてもすぐに学んだ内容を想起できなくなるため、このような悲しい記憶の復元録を書くことに相成るのである。。。。 Introduction RIF(Recentered I…

【備忘】交互作用のparameterizationについて考えたこと

実務上の分析をするなかでふと思ったこと。 いちいち書き留めるほどのことでもないけど、そうしないと忘れちゃうので(老兵はつらい)。 何が問題か じゃあどうすればいいか Zが離散変数:ダミー変数のcodingを工夫 Zが連続変数の場合はどう考えるとよいか C…

グラぽで掲載されていた出場時間集中係数の計算プログラム&分析結果再現をこころみる

仕事に疲れたので、休憩用に遊んでいたものをそのまま記事にするだけのやつ*1 車輪の再発明ってやつですね。 Motivation:コナカ先生の知的な試み ジニ係数(オリジナル)の計算方法について 集中係数へのアレンジ 再現できたかの検証 追記:Excelでやるには …

plm()の結果から、対数尤度を取得する。

Introduction 正規誤差モデルにおける最尤法 正規誤差の対数尤度関数 OLSの場合 plmの場合 Conclusion Introduction 天下のStata様とは違い、Rの各パッケージは各々の開発者の単騎行動によりつくられているため、痒い所に手が届かない場合も少なくない*1。パ…

【小ネタ】パネルデータ分析における"Between"モデルは何をしているのか

単に「これ何やってんだっけ?」を確認してくシリーズ Introduction plmパッケージの"between"モデル 推定結果の比較 plmの推定結果 自分でデータ変換してからOLS Conclusion Introduction たまにパネルデータの分析結果で"Betweenモデル"なる記述を見る。 p…

Hybrid ModelをRでやる(特にpanelrパッケージについて)

ひとつ、ひとつだ。 Introduction 問題の所在 ハイブリッドモデルに関する参考URL等 RでHybrid Modelを使うーpanelrパッケージ wbm()関数 for hybrid model 基本:hybrid modelの推定 plmとの比較(wbmで固定効果モデルの方法も) lmerとの比較(hybrid mode…

Rで縦断データを使うときの前処理でやること集

なんか追加すべき内容があったときに随時更新系のやつ。 Introduction 参考URL(主に分析関連) 過去の関連記事 縦断データを前処理 in R 変数名の命名規則 tidyr::pivot_longer()を用いたWide形式からLong形式への変換 時変変数に共通の処理はどうすべきか…

繰り返し比例調整法とその周辺について(その1)

Introduction 繰り返し比例調整法(iterative proprtional fitting, IPF)という方法がある。 古くは1940年の論文に遡る由緒正しき手法であるが、その汎用さゆえか割と近年の最新手法にも部分的に使われていたりしている。IPFは二変数(カテゴリ変数)A, Bが…

【R】wide方式からlong方式への変換の仕方 in 自力&tidyr::pivot_longer

これも同じことを100回調べるので備忘用シリーズ なんかStataとかよりwide↔longの相互変換のやりかたがわかりにくいのよな。 Introduction Wide to Long 関数作った 実行 tidyrの神機能"pivot" 先ほどと同じ処理を行う おまけ:Rにおける正規表現に関する参…

ディビジア指数(Divisia index)について

食欲の秋でも芸術の秋でもなく、知識欲の秋にしたいな Introduction 労働系の記事を見ていたらでてきた指標だが私のような無学おじさんにはわからんかったので、勉強する。参考URL 「経済分析」第170号の解説 ※冒頭が参考に RIETI「TFP成長率の予測」 ※pp.3-…

回帰分析の結果から共分散分解

暑すぎてモチベがアレなんで血迷って誰得関数を実装していくシリーズのやつ Intro. 共分散分解とは 定義 神林龍(2017)『正規の世界, 非正規の世界』*1を読んでいたら共分散分解なるものが出てきた(p.270)。 あんまりなじみのない分解手法だったのだが、…

ひょっこりTucker Decomposition in R

急襲に遭い、トイレに籠城していたお供として村上春樹『職業としての小説家』を読み直していた。 この記事の主題とは全く関係ないが、なんとなく印象に残った箇所を書き残しておく。 アイザック・ディネーセンは「私は希望もなく、絶望もなく、毎日ちょっと…

ブール代数分析をふわっと

ふわとろ高級オムライスがたべたい Motivation 「どうせ簡単だろ」とタカを括ってあんまり勉強してなかった手法シリーズなので。 なんとなくの感触で過信してちゃんと時間かけないのは恥ずべきことなんだよな...てことで下らへん見て勉強する...◆文献list…

どのようにして分位点回帰の推定は線形計画法でなしうるのか

食費を節約したいし痩せたいけどついついコンビニでドリアとか買っちゃう社会の闇 Introduction 分位点回帰モデルに関する解説を読むと、「推定のところでは線形計画法を使う」と書いてある(Koenkerの有名な解説書等)。 分位点回帰の推定において、何が最…

カーネル密度推定を君へ

Motivation 数値ベクトルが与えられているとき xの値が与えられていない区間についても、なめらかな形で確率密度関数を求めたいときがある。そんなときに多く用いられるのが、カーネル密度推定である。 カーネル関数をを用いた以下の式で、(実際の観測値の…

車輪の再発明としての二項ロジスティック回帰 feat. 指数分布族

Motivation ちょっと複雑なモデルを開発・実装しなくてはならないので、単体テスト的な意味で車輪の再発明をする。 サービス提供の質や速度の観点からすると車輪の再発明は望ましくないが、学習者は車輪の再発明をすることを恐れてはいけない、ってどっかの…

Stataで出力したregression tableをcsv形式で出力 by estoutパッケージ

備忘用。年を重ねるごとに物忘れが激しくなってしまうな。 Motivation Stataで回帰分析を行なった結果をExcelにうつすときのやりかた(これがbestかはわからん)。Texで出力するのがスタンダードでスマートなのはわかっているが、 実際の仕事だと(例えば出…

対応分析(correspondence analysis, CA)では一体何を「分解」しているのか

Introduction 小野滋さんの「読書日記」が久しぶりに更新を再開し、ひとり小躍りするGW中盤戦...前々回の記事で、SVDとはなんぞや、について解説した。 ronri-rukeichi.hatenablog.com この記事のなかで、対応分析も多重対応分析も結局はSVDだよーってちらっ…

ダンゴムシでもわかる特異値分解(SVD)

無脊椎動物なめんな。節足動物なめんな。 Introduction SVDの概要 基本の定義 便利な別表現 基本性質 前提知識:フロベニウスノルムによる距離の定義 性質①:最小二乗近似を得る方法としてのSVD 性質②:行列と転置行列との積の成分分解 性質②の具体的な例 性…