ジニ係数の色々な含意について覚え書き

知ってる知識でも色んな広げ方をしている人がいるなぁ、という備忘録

Introduction
上の論文の概要
発展：G-Indexを用いたジニ係数の計算の意味について
Conclusion

Introduction

井上(2009)「ローレンツ曲線とジニ係数に関する覚え書き」
という論文に、なんか色々調べているうち*1に行きあたったんですけど、なかなか面白かったので印象に残った箇所を書き残しておく。

※話は脱線するけど、こうやって意外と（査読なしの）紀要のほうが割と各先生が趣味全開でやってくれるので、方法論を勉強する側としてはありがたかったり掘り出し物があったりしますよね....
　この論文も結論の章とかなくて、ただジニ係数の性質を次々羅列して満足して終わってるフリースタイル（だが、それがいい）となっている。

いやぁ、ジニ係数深いっすね～。

上の論文の概要

とりあえず、以下の二つが主な印象に残ったところ

「ローレンツ曲線と完全平等曲線とで囲まれる図形の面積Sと、各データの差の平均が標本平均の2倍に対する比Gとは等しく、それをジニ係数と定義できる」（pp.140-1）

「ジニ変数は、変化データの変化係数（引用注：標準偏差を平均で割ったもの）と、順序数列と変量データの相関係数との積に比例するということである」（pp.142）

これまでの自分の理解が浅いってのはあったんだけど、ジニ係数＝ローレンツ曲線と45°線の間の部分（の2倍）としてばかり覚えていたので、「データの差の平均」という形の理解はしてなかったので、「へぇ～」と感嘆の声を上げた。

また、相関係数と変化係数の積（のスカラー倍）というのも言われてみればなるほどで、確かに変化係数（データの散らばりやすさ）が大きいなかで、序列性が高ければ（＝ランクと変量の相関が高ければ）、不平等度は大きくなりますよね。

発展：G-Indexを用いたジニ係数の計算の意味について

ronri-rukeichi.hatenablog.com

以前上の記事でも書いたが、ジニ係数はG-matrix（対角成分が0、右上非対角成分が1, 左下非対角成分が-1）を使って以下のような単純な行列形式として表現できる。
$G= \begin{pmatrix} 0 & 1 & 1 & \cdots & 1 \\ -1 & 0 & 1 & \cdots & 1 \\ -1 & -1 & 0 & \cdots & 1 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ -1 & -1 & -1 & \cdots & 0 \end{pmatrix}$

$Gini = P'GI$

ここでPはn個の要素を持つ行列 $\{ P_i \} = \frac{1}{n}$ （人数シェア行列）である
Iは所得シェア行列 $\{ I_i\} = \frac{i_i}{\Sigma^n_{i=1} i_i }$ で、n人の所得を昇順にならべたものを総所得で割ったものである。

で、ここまでは前も書いたけど、「この形はエレガントだな～」くらいには思っていいたのだが、具体的な意味までは深く考えていなかった。
でも、今回の論文を読んで実質的な意味がわかった。

G-Matrixに右から昇順の（所得）ベクトルをかけることは、その全ての要素を足し合わせれば、元の所得ベクトルの要素すべての組み合わせの差（の総和）を計算することになるようなベクトルを生み出すこと、に等しい

それに左から $P'$ をかけることは、すべての要素に $\frac{1}{n}$ をかけてから足し合わせることに等しい。
（つまり単純にスカラー値としての1/nをかけてるだけ））

ジニ係数の二つ目の性質、「”すべての所得の組み合わせの差の平均”を”標本平均の二倍”で割ったもの」だったが
G-Matrixによって計算された $GI$ は

重複を許していないのでもともと1/2はされている。
シェアのベクトルを使っているので、すべての組み合わせの差の平均に $\frac{1}{n\bar{i}}$ がかけられている。

ので、すべての所得の組み合わせの差の総和を $S$ とあらわすと
$GI= \frac{S}{2 n \bar{i}}$ となっており、
これに1/nをかけるとちょうど $n^2$ （＝すべての組み合わせの数）でSを割ったもの（すなわち「データの差の平均」）を標本平均の2倍で除したものになるので、ジニ係数になっている。

またジニ分離指数(GSI, 参考URL)に関しては、
（途中式は省略するけど）「すべての配分財（職業とか）の組み合わせに関するユールの連関係数（またはグッドマン・クラスカルのガンマ）を、その組み合わせにおける「順序が一致するペア」＋「順序が逆転しているペア」の数でウェイトをかけて平均したもの」*2になる。

Conclusion

本当は機械学習とかで使われるAUCやROC曲線との関係性まで説明しようと思ってたけど力尽きた。。

いやー面白かった。
わりと古典的な指標であるため、あんまり深く考えずに使ったり解釈したりしてたんだけど、やっぱりちゃんと掘ってみると（私のような素人からみても）面白いですね。

www.youtube.com

Enjoy!!

*1:そもそも機械学習の本を読んでいてROC曲線とかAUCとかの定義見てて、あれ？これジニ係数じゃね？から芋づる式に時間を潰してしまった．

*2:任意の配分財の組み合わせi,jを選んで、分離を測る2群H/Lと掛け合わせると2×2のクロス表ができる。んで、各セルの相対頻度をa,b,c,dとすると $\frac{ad-bc}{ad+bc}$ が連関係数になるが、それに $\frac{ad+bc}{R_H R_L}$ をかけて足し合わせたもの（ここで $R_H, R_L$ は全体集団における群H , 群Lの比率）がGSIであるということ。 ※ユールの連関係数に関しては太郎丸（2005:59-63）なども参照のこと