齢を重ねると物をすぐに忘れるために備忘録を多くとるようになるが、
さらに衰えが激しくなると、そのメモをみてもすぐに学んだ内容を想起できなくなるため、このような悲しい記憶の復元録を書くことに相成るのである。。。。
Introduction
RIF(Recentered Inverse Function)回帰と、それを利用した非条件付分位点回帰モデルを、昔(2年くらい前)にインプットし何なら実装するコードも書いたはずなのだが、悲しき哉ほとんど覚えていない。
文系脳*1のかなしいところで、なかなか数式や統計モデルと親しい友人になれない。
ので、自分のかいた過去のコードなり参考資料なりを頼りにして、記憶を復元(というか再構築?)する。
ちゃんと理解の過程まで文字に残しておかないと、のちのち自分が困る、という教訓をいくつになっても叩きつけられるのである。
◆参考URL
- 解説(Ryo Okui氏の講義スライド)
- James Gentle氏の説明 ←個人的に わかりやすい。途中の"Perturbations"くらいから読むべし。
- 利用例の論文①
RIF(Recentered Influence Function)とは
①:Influence function(IF)の定義
recenteredなinfuluence functionがRIFなので、まずIFが何かを知らなければ話が始まらない。
参考URL1には、以下のような定義が示されている
RIF回帰の仕組みを理解するために、まずはinfluence functionの定義から説明する。
一般の統計量について議論をすすめる。
の分布をからの方向に変更したときに、が
どのように変化するのを表現するのが、influence functionである
なるほど、わからん。
とりあえずこの時点で理解しようとすることはあきらめ、読み進めていく。
として、との凸結合をとる。
そして、 のtについての微分をとると、
とると....?とると?
理解不能すぎて頭が消し飛んだ。これはなんだ。誰を欺くための暗号なのか。
しかし仕事が一緒に消し飛んでくれるわけでもわけでもないので、なんとか食らいついてみる。
恥ずかしながら正直に白状するとこの式の左辺と右辺の間になぜ等式が成り立つのかは分からない(関数同士で差分をとるな。もうその時点で脳が死ぬ)。
だが、とりあえず現目的としてはInfluence functionの定義だけ追えればよいので、
「最後の積分の中に出てきた微分がinfluence functionと呼ばれるもの」という内実だけ理解に努めよう。
その微分項とは、である。これだけなら私のような愚民にもまだ理解できる。
はを確率1でとる分布であるから、
上の微分=influence functionは分布をからにごく微小なだけ近づけたときのの変化割合を表わしているといえる。
これを(ではなくなのがキモ)と表記する。
参考URL②には、もう少し実用的というか私のような数学音痴でもわかりやすいようなIF別表現がある。
ディラック・デルタの関数(で、それ以外のに対してはとなるようなmass function)をもちいたものだ。
確率変数yの累積確率密度関数の微分(ようするに確率密度関数)以下のようにあらわす混合分布関数をまず考える。
を、Y= xのところで密度1をとるディラック・デルタ関数 をの割合だけ元の密度関数に混ぜたものの累積密度関数とする。
すると、この密度関数をつかった場合の統計量の表現をにかんして微分したものがIFになる、ことである。
◆平均の場合のIF
平均値の場合は割と簡単である。
なので、これを微分していくと
が得られる
◆分位点の場合のIF
分位点について考えるときは、若干の場合分けが必要となるので、やや煩雑になる。
まず微分する前の混合確率密度関数をどう考えるか、というところからである。
分位点とmass functionの大小関係によって場合わけをしたうえで、
もとの累積密度関数を使って分位点と対応する累積密度(中央値だったら0.5, 四分位点だったら0.25)の関係を表わすことを考える。
参照URL2のp.13-14くらいにも解説されているが、おおよそ元の関数における(分位点)とmass functionの大小関係によって以下のように変動する。
- のとき、
- のとき
- のとき、
たとえば一番上の場合は、mass functionが元の分位点よりも左側にある場合で、だけmass functionの密度があるから、残りのを元の密度関数(ただし倍されているからとってくる必要があるので、が、混合分布関数において求める分位点になる、ということである。
さて、ここからIFを求めるには、について、上式の分位点関数を微分すればよい*2。
たとえば一番上の場合においては
となる。右辺第一項では逆関数の微分公式を、第二項では分数函数の微分公式を利用している。
その結果、以下のようなIFが得られる。
いや、めんどくさいよなこれ......
②:じゃあRIFとは何ぞや
IFを理解できたのでやっとRIF(recenteredなIF)の理解にうつることができる。
ふたたび上の参考URLより、定義の部分を抜粋しよう。
RIFは、興味のある統計量のinfluence functionを、
その期待値が興味のある統計量になるように調整(この作業がrecentering)したものである。
わかるようなわからんような....なので。
もっとわかりやすく言いかえると、
IFに目標の統計量を足すとRIFになる
ということである。
よって分位点の場合は、分位点の値を、でその比率(さきほどまではとしていたもの)をとすると、
(参考URL1より抜粋)
ここまでが長い。とてつもなく長い。
RIF回帰の仕組み
RIFが何かを理解できたので、やっとRIF回帰にたどり着く。
結論からいうと、RIF回帰とは、従属変数をRIFにしたただのOLSである。
RIFの指標をつくるまでが大変で、あとは普通に回帰をすればいい。
RIFを作成するうえで、分位点はそのままデータからもとめればよいので、少し骨なのがであるが、そこは元データのyの分布からカーネル密度推定を行うことで、対処する。
あーそれで下の記事を書いたんだった(ここでやっと記憶がよみがえる)
ronri-rukeichi.hatenablog.com
而して、なんとか記憶を復元することができた。
めでたし、めでたし。
Enjoy!!