論理の流刑地

地獄の底を、爆笑しながら闊歩する

【小ネタ】パネルデータ分析における"Between"モデルは何をしているのか

単に「これ何やってんだっけ?」を確認してくシリーズ

Introduction

たまにパネルデータの分析結果で"Betweenモデル"なる記述を見る。
plmパッケージでもplm( ... , model = "between")でできる。
これって何やってるんだっけ、というのを確認するだけのエントリ。

plmパッケージの"between"モデル

plmのvignetteを読むと、betweenモデルに関しては

Lastly, the between model, which is computed on time (group) averages of the data, discards all the information due to intragroup variability but is consistent in some settings (e.g., non-stationarity) where the others are not, and is often preferred to estimate long-run relationships.

という説明がなされている。各時点に関する個人内平均を用いて計算しているよ、っていうこと。
数式で表せば、以下のようなことだろう。

\bar{y_{it}} = \alpha + \beta \bar{x_{it}} + \gamma{z_i} +\epsilon_i

y_{it}は従属変数、x_{it}は時変の独立変数、z_iは時不変の独立変数である。

推定結果の比較

さきの記事で使った、panelrパッケージのWageDataを使って検証していく。
lwage(対数変換済み年間賃金)を従属変数、wks(週あたり労働時間)、occ(職業, ブルーカラーなら0, ホワイトカラーなら1)を独立変数としたモデルを推定する。

plmの推定結果

bet1 <- plm(lwage ~ wks + occ,
 data =WageData,
 model="between",
 index =c("id","t"))

summary(bet1)
# Balanced Panel: n = 595, T = 7, N = 4165
# Observations used in estimation: 595
# 
# Residuals:
#   Min.   1st Qu.    Median   3rd Qu.      Max. 
# -1.094664 -0.229004  0.031591  0.255537  0.936863 
# 
# Coefficients:
#   Estimate Std. Error  t-value Pr(>|t|)    
# (Intercept)  6.3582573  0.2137905  29.7406  < 2e-16 ***
#   wks          0.0103106  0.0045345   2.2738  0.02333 *  
#   occ         -0.3219410  0.0317292 -10.1465  < 2e-16 ***
#   ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Observations used in estimation: 595の文言の通り、各個人の各変数に個人内平均を割り当てて普通のOLSをしているようにみえる。

自分でデータ変換してからOLS

dplyrを使って、個人内平均を計算したデータフレームをつくり、それに対してOLSを適用する。

wdf_m <- as.data.frame(dplyr::summarize(
dplyr::group_by(WageData, id) ,
 lwage_m = mean( lwage),
 occ_m = mean(occ),
 wks_m = mean(wks)))

bet2 <- lm(lwage_m ~ wks_m + occ_m, data = wdf_m)
summary(bet2)

# Coefficients:
#   Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  6.358257   0.213790  29.741   <2e-16 ***
#   wks_m        0.010311   0.004535   2.274   0.0233 *  
#   occ_m       -0.321941   0.031729 -10.147   <2e-16 ***
#   ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.3628 on 592 degrees of freedom
# Multiple R-squared:  0.1558,	Adjusted R-squared:  0.153 
# F-statistic: 54.64 on 2 and 592 DF,  p-value: < 2.2e-16

回帰係数、標準誤差まで推定値が一致している。

Conclusion

「betweenモデル」は、ようするに平均値どうしのOLSであることがわかった。


ギターガールゾンビギャップクールシュート - いちた(Cover) / いゔどっと

Enjoy!!!