JMP分解について：備忘ノート

Introduction
JMP分解の概要
Conclusion

Introduction

人間の（いや私だけかもしれないけど）の何が哀しいって、それなりにそのときは時間をかけて理解したつもりになったことでも、そのあと思い出す機会がないと数年したら跡形もなく忘れていたりすることである。
この記事もそれを防ぐ系のアレ。

経済学とかでよく見る（といっても因果推論の議論がすすんだ最近は流石にすたれてるけど）Blinder-Oaxacaのもうちょっと高度なversionでJuhn et al. （1991）*1で提案されたJMP分解ってのがあって、仕事関連で調べものしていたら5年以上ぶりに再会したんだけど、あれ？君誰だっけってなったので再学習。

参考URLなど

Yun(2007) ※たぶん正規に論文化したものは2009年の[https://onlinelibrary.wiley.com/doi/epdf/10.1111/j.1467-9485.2009.00475.x
JMPを使ってたりする例としてのLee and Wie(2017), ※working paper versionはこっちから見られる

JMP分解の概要

上のYun(2007)を読みながら適当にメモをとる。

前段としてのBO分解

有名すぎるBlinder-Oaxaca分解は、ある集団Aと別の集団B（あるいはある時代と別の時代だったりもする）のOutcomeの平均値差をOLSの結果を使って、以下のように分解する。

ここで、第一項はcharacteristic effectsとよばれるもので、各独立変数の（平均の）分布差によるアウトカムの差異をあらわす。
第二項はcoefficients effectsというもので、群間の各独立変数の回帰係数の差異に由来する、アウトカムの差異をあらわす。

第三項は、普段は明示して示されない（けどＪMP法との比較上あえて式に残している）誤差の平均値差で、誤差はゼロ平均だからその差もゼロになる。
これは、群Aと群Bの双方でOLSをかけてるから（回帰モデルの性質上）ある意味当たり前のことである。

JMP分解：①効果の同質性を仮定ver

JMP分解のひとつめのBO分解との大きな違いは、各群ごとにOLSを推定「しない」という点にある。
BO分解でいうところの、coefficients effectの存在を想定しない、ということである

手順は以下の通り。

まず、群AだけでOLSを実行して係数推定値を得る。係数 $\beta_A$ が得られる。
この係数と群Bにおける変数Xを組み合わせることで、以下のような群Bの残差 $U_B$ が得られる

ここで、群AvsB間の平均値差は、以下のようになる

$\bar{Y_A}-\bar{Y_B} = (\bar{X_A}-\bar{X_B}) \beta_A + \bar{U_A}- \bar{U_B} = (\bar{X_A}-\bar{X_B}) \beta_A - \bar{U_B}$
$= (\bar{X_A}-\bar{X_B}) \beta_A - \bar{\theta_\beta^*} \sigma_A$

ここで、 $\bar{\theta_\beta^*} \sigma_A= \frac{ \bar{U_B}}{\sigma_A}$ でる。

この分解の第一項はpredicted gap, 第二項はresidual gapと呼ばれる。
residual gapはBO分解になかったものであり、観測されないスキルの分布の差異を反映するとJMP的には捉えられる。

ただ、このJMP法は、coefficients effectは無視しており、residual gapが係数の違いとは独立に決定されることを仮定していることに、注意しなければならない
逆に言えば、JMP分解の立場は、BO分解におけるcoefficients effectが群間での異なる"biased" estimatesによるものだとしている、とも換言できる（p.6のはじめ）
※ただ、Oaxacaさんもこのmisspecificationの可能性については自分で言及しているらしい。

JMP分解：② 群間での効果の異質性を考慮するver

それでもアウトプットとして効果の差が観たかったり、coeffficients effectsが把捉したい場合は以下のように拡張する。

ここで、 $\theta_j = \frac{e_j}{\sigma_j }$ となっているし、 $\sigma_j$ は各群の残差の標準偏差である。
残差についてはpooledなデータに対してのモデルの推定値（ $\beta_p$ から得る）

第一項はcharacteric effects, 第二項はcoefficients effectsで、第三項は残差（unoberved skills）の平均値差による差、第四項は残差の分散の差による差であるといえる。
なるほどー。

Conclusion

残差を利用した手法は単純に読んでて面白い
趣味でやってるサッカーのデータの分析にも使えそうな話だと思った。
ゴール期待値とそこからの乖離ってまんまモデルの予測と乖離の話だもんな

www.youtube.com

Enjoy!

*1:Juhn, C., K. M. Murphy and B. Pierce. “Accounting for the Slowdown in Black-White Wage Convergence.” In M. H. Kosters (ed.), Workers and Their Wages: Changing Patterns in the United States, 1991, AEI Press:Washington D.C., 107-143.