【小ネタ】パネルデータ分析における"Between"モデルは何をしているのか
単に「これ何やってんだっけ?」を確認してくシリーズ
Introduction
たまにパネルデータの分析結果で"Betweenモデル"なる記述を見る。
plmパッケージでもplm( ... , model = "between")でできる。
これって何やってるんだっけ、というのを確認するだけのエントリ。
plmパッケージの"between"モデル
plmのvignetteを読むと、betweenモデルに関しては
Lastly, the between model, which is computed on time (group) averages of the data, discards all the information due to intragroup variability but is consistent in some settings (e.g., non-stationarity) where the others are not, and is often preferred to estimate long-run relationships.
という説明がなされている。各時点に関する個人内平均を用いて計算しているよ、っていうこと。
数式で表せば、以下のようなことだろう。
は従属変数、は時変の独立変数、は時不変の独立変数である。
推定結果の比較
さきの記事で使った、panelrパッケージのWageDataを使って検証していく。
lwage(対数変換済み年間賃金)を従属変数、wks(週あたり労働時間)、occ(職業, ブルーカラーなら0, ホワイトカラーなら1)を独立変数としたモデルを推定する。
plmの推定結果
bet1 <- plm(lwage ~ wks + occ, data =WageData, model="between", index =c("id","t")) summary(bet1) # Balanced Panel: n = 595, T = 7, N = 4165 # Observations used in estimation: 595 # # Residuals: # Min. 1st Qu. Median 3rd Qu. Max. # -1.094664 -0.229004 0.031591 0.255537 0.936863 # # Coefficients: # Estimate Std. Error t-value Pr(>|t|) # (Intercept) 6.3582573 0.2137905 29.7406 < 2e-16 *** # wks 0.0103106 0.0045345 2.2738 0.02333 * # occ -0.3219410 0.0317292 -10.1465 < 2e-16 *** # --- # Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Observations used in estimation: 595の文言の通り、各個人の各変数に個人内平均を割り当てて普通のOLSをしているようにみえる。
自分でデータ変換してからOLS
dplyrを使って、個人内平均を計算したデータフレームをつくり、それに対してOLSを適用する。
wdf_m <- as.data.frame(dplyr::summarize( dplyr::group_by(WageData, id) , lwage_m = mean( lwage), occ_m = mean(occ), wks_m = mean(wks))) bet2 <- lm(lwage_m ~ wks_m + occ_m, data = wdf_m) summary(bet2) # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 6.358257 0.213790 29.741 <2e-16 *** # wks_m 0.010311 0.004535 2.274 0.0233 * # occ_m -0.321941 0.031729 -10.147 <2e-16 *** # --- # Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 # # Residual standard error: 0.3628 on 592 degrees of freedom # Multiple R-squared: 0.1558, Adjusted R-squared: 0.153 # F-statistic: 54.64 on 2 and 592 DF, p-value: < 2.2e-16
回帰係数、標準誤差まで推定値が一致している。
Conclusion
「betweenモデル」は、ようするに平均値どうしのOLSであることがわかった。
ギターガールゾンビギャップクールシュート - いちた(Cover) / いゔどっと
Enjoy!!!