食費を節約したいし痩せたいけどついついコンビニでドリアとか買っちゃう社会の闇
Introduction
分位点回帰モデルに関する解説を読むと、「推定のところでは線形計画法を使う」と書いてある(Koenkerの有名な解説書等)。
分位点回帰の推定において、何が最小化されているかというのはそれなりにとっつきやすいんだが、
それがなぜ線形計画法で解けるのかということは何となくわかった気になってそのままにしていた。
なぜか急に気になって電車の中でスマホで調べたら、
以下のStackExchangeでの質問への回答がなかなかにわかりやすかった*1ので、自分用にメモしておく。
線形制約問題自体については、最近たまたま見つけた以下の岩波講座「最適化法」の第2章(著者:今野浩=ヒラノ教授)がこれまで読んだ中で一番過不足なく説明されていると感じた。さすが第一人者。
岩波講座 応用数学〈15〉〔方法7〕 最適化法/〔方法8〕 離散最適化法とアルゴリズム
- 作者: 藤田宏,今野浩,田邉國士,茨木俊秀
- 出版社/メーカー: 岩波書店
- 発売日: 1998/08/03
- メディア: 単行本
- この商品を含むブログを見る
前提
線形計画法の標準形
線形計画問題の標準形は、以下のようにあらわされる。
ここで、はいずれもk × 1、はn × kの行列であるとする。
また、となっている。
解き方(単体法、内点法など)はともかく、この形で示すことができれば、
線形計画法として解にたどりつく(無限解や解が存在しないという判定も含め)ことができる。
分位点回帰における「最小にすべきもの」
一般に、回帰モデルとは、個人iに関する従属変数を独立変数と回帰係数の線形結合と誤差の和として表すものである。
さてここで、教科書的な説明を振り返っておくと、通常の線形回帰モデル(OLS)においては、
「誤差の二乗和を最小化する」という条件を満たすように回帰係数が求められる。すなわち、
となる。一方、分位点回帰モデル(以下QRMと略記)においては、「誤差の重み付き和を最小化する」という条件を満たすように回帰係数が求められる。すなわち、
ここで、weightであるは以下のように定義される
ここでは、独立変数が与える影響を推定したい分位点であり、である。
よりわかりやすく日本語で説明すると、各ケースについて「観測値 - 予測値」の符号によって重みを変えているということである。
たとえば20%点に対してのQRの場合、観測値が予測値を超える場合の重みは0.2、そうでないときは0.8となる。
何がわからなかったのか
これまで何がわからなかったのか、すなわち「分位点回帰は線形計画法で解ける」と言われてもどこが引っ掛かっていたのかというと、
- そもそも回帰係数が決まらないとの符号は決まらないのに、「を最小化するように係数を推定する」というのは困難なのでは?(相互依存性の問題1)
- の符号が決まらないとウェイトも決められないが、が未決定だと前述のようにもわからないのでウェイトがどうなるのかは事前にわからないのでは?(相互依存の問題2)
ということで、つまるところ
回帰係数の推定値 ⇔ の値 ⇔ の符号 ⇔ ウェイトの値
という相互依存関係をどのように扱うのかということがわからなかったということである。
相互依存性への解決法としての同時的決定
今回勉強してみての結論からいうと、上記の問題は
「 、、を同時決定されるパラメータとして解く」
によって解消される。
線形制約側の話
まず線形制約側について考える。回帰モデル
をさきほどみた線形制約の形に変えることを考える。
とりあえず縦にn個つなげて、
とする、左辺右辺ともに要素n個のベクトルとなる。
さてここで行列Aにあたるのは、観測された独立変数となる。
「変数」という言葉で惑わされそうになるが、観測値は固定なので、スカラの制約行列となるのである。
そして線形制約式の右辺にあたるのは、従属変数列である。
したがって、線形制約式における変数にあたるのは、残った二つ。
係数と、誤差である。
しかし、これらは定義上負の値をとりうる(これを線形計画法の用語で「自由変数」という)ので、
以下のように二つの非負変数ベクトルの差として表現しなおすこととする。
すると、
であり、ここで次元nの単位行列を導入すると
となるから結局、
とおくと、
という綺麗な線形制約の形になっているのである。