RIF回帰再訪 - 論理の流刑地

齢を重ねると物をすぐに忘れるために備忘録を多くとるようになるが、
さらに衰えが激しくなると、そのメモをみてもすぐに学んだ内容を想起できなくなるため、このような悲しい記憶の復元録を書くことに相成るのである。。。。

Introduction
RIF(Recentered Influence Function）とは
- ①：Influence function(IF)の定義
- ②：じゃあRIFとは何ぞや
RIF回帰の仕組み

Introduction

RIF（Recentered Inverse Function）回帰と、それを利用した非条件付分位点回帰モデルを、昔(2年くらい前)にインプットし何なら実装するコードも書いたはずなのだが、悲しき哉ほとんど覚えていない。
文系脳*1のかなしいところで、なかなか数式や統計モデルと親しい友人になれない。
ので、自分のかいた過去のコードなり参考資料なりを頼りにして、記憶を復元（というか再構築？）する。
ちゃんと理解の過程まで文字に残しておかないと、のちのち自分が困る、という教訓をいくつになっても叩きつけられるのである。

◆参考URL

解説（Ryo Okui氏の講義スライド）
James Gentle氏の説明 ←個人的にわかりやすい。途中の"Perturbations"くらいから読むべし。
利用例の論文①

RIF(Recentered Influence Function）とは

①：Influence function(IF)の定義

recenteredなinfuluence functionがRIFなので、まずIFが何かを知らなければ話が始まらない。
参考URL1には、以下のような定義が示されている

RIF回帰の仕組みを理解するために、まずはinfluence functionの定義から説明する。
一般の統計量 $\mu(F_y)$ について議論をすすめる。
$Y$ の分布を $F_y$ から $G_y$ の方向に変更したときに、 $\mu(\cdot)$ が
どのように変化するのを表現するのが、influence functionである

なるほど、わからん。
とりあえずこの時点で理解しようとすることはあきらめ、読み進めていく。

$F_{Y, t \cdot G_y}= (1-t) F_Y + tG_Y$ として、 $F_Y$ と $G_Y$ の凸結合をとる。
そして、 $\mu(F_{Y, t \cdot G_y})$ のtについての微分をとると、

とると....?とると？

f:id:ronri_rukeichi:20201028184841p:plain — Influence functionの定義部分

理解不能すぎて頭が消し飛んだ。これはなんだ。誰を欺くための暗号なのか。
しかし仕事が一緒に消し飛んでくれるわけでもわけでもないので、なんとか食らいついてみる。

恥ずかしながら正直に白状するとこの式の左辺と右辺の間になぜ等式が成り立つのかは分からない（関数同士で差分をとるな。もうその時点で脳が死ぬ）。
だが、とりあえず現目的としてはInfluence functionの定義だけ追えればよいので、
「最後の積分の中に出てきた微分がinfluence functionと呼ばれるもの」という内実だけ理解に努めよう。

その微分項とは、 $\frac{\partial \nu(F_{Y, t \cdot \Delta_y})}{\partial t}$ である。これだけなら私のような愚民にもまだ理解できる。

$\Delta_y$ は $Y= y$ を確率1でとる分布であるから、
上の微分＝influence functionは分布を $F_y$ から $\Delta_y$ にごく微小なだけ近づけたときの $\nu$ の変化割合を表わしているといえる。
これを $IF( y, \nu)$ （ $Y$ ではなく $y$ なのがキモ）と表記する。

参考URL②には、もう少し実用的というか私のような数学音痴でもわかりやすいようなIF別表現がある。
ディラック・デルタの関数( $\delta(0) = 1$ で、それ以外の $x\neq0$ に対しては $\delta(x) = 0$ となるようなmass function)をもちいたものだ。

確率変数yの累積確率密度関数の微分（ようするに確率密度関数）以下のようにあらわす混合分布関数をまず考える。
$P_{x, \epsilon}(Y)$ を、Y= xのところで密度1をとるディラック・デルタ関数 $\delta(x- Y)$ を $\epsilon$ の割合だけ元の密度関数 $p(Y)$ に混ぜたものの累積密度関数とする。
$\frac {dP_{x, \epsilon}}{dy} = (1-\epsilon) p(y) + \epsilon \delta(x -y)$

すると、この密度関数をつかった場合の統計量の表現を $\epsilon$ にかんして微分したものがIFになる、ことである。

◆平均の場合のIF
平均値の場合は割と簡単である。
$M( P_{x, \epsilon}) = (1-\epsilon) \int dP(y) + \epsilon \int y \delta( x- y) dy$
$=(1-\epsilon)\mu + \epsilon x$
$( \because dP(y) = \frac{dP(y)}{dy} dy = p(y) dy)$
なので、これを微分していくと
$IF( \mu , x) = x- \mu$ が得られる

◆分位点の場合のIF

分位点について考えるときは、若干の場合分けが必要となるので、やや煩雑になる。
まず微分する前の混合確率密度関数をどう考えるか、というところからである。

分位点とmass functionの大小関係によって場合わけをしたうえで、
もとの累積密度関数 $P(y)$ を使って分位点と対応する累積密度 $\pi$ （中央値だったら0.5, 四分位点だったら0.25）の関係を表わすことを考える。

参照URL2のp.13-14くらいにも解説されているが、おおよそ元の関数における $P^{-1}(\pi )$ （分位点）とmass functionの大小関係によって以下のように変動する。

$(1- \epsilon ) P(x) + \epsilon < \pi$ のとき、 $P^{-1}_{x, \epsilon} ( \pi) = P^{-1}(\frac{\pi -\epsilon}{1-\epsilon})$
$(1- \epsilon ) P(x) \leq \pi \leq (1- \epsilon ) P(x) + \epsilon$ のとき $P^{-1}_{x, \epsilon} ( \pi) = x$
$(1- \epsilon ) P(x)> \pi$ のとき、 $P^{-1}_{x, \epsilon} ( \pi) = P^{-1}(\frac{\pi }{1-\epsilon})$

たとえば一番上の場合は、mass functionが元の分位点よりも左側にある場合で、 $\epsilon$ だけmass functionの密度があるから、残りの $\pi - \epsilon$ を元の密度関数（ただし $(1-\epsilon)$ 倍されているからとってくる必要があるので、 $P^{-1}(\frac{\pi -\epsilon}{1-\epsilon})$ が、混合分布関数において求める分位点になる、ということである。