はだだだだ

定食にサラダは不要だと思う。

MENU

中央値がMAEを最小化する理由

厳密な証明はよくわからなかったので、自分なりのざっくりした理解を記載します。


MAE \\
= E\left( \left| e_{t}\right| \right)  ~~~~~~  \cdot \cdot \cdot (1) \\
= E\left( \left| y_{t} - \widehat {y}_t \right| \right) ~~~~~~  \cdot \cdot \cdot  (2) \\
= \int ^{\infty }_{-\infty }\left| y_{t} - \widehat {y}_t\right| f\left( y\right) dx ~~~~~~  \cdot \cdot \cdot  (3) \\
= \int ^{\widehat {y}_t }_{-\infty }\left| y_{t} - \widehat {y}_t\right| f\left( y\right) dy + \int ^{\infty }_{\widehat {y}_t }\left| y_{t} - \widehat {y}_t\right| f\left( y\right) dy ~~~~~~  \cdot \cdot \cdot  (4) \\
= \int ^{\widehat {y}_t }_{-\infty }\left( \widehat {y}_t - y_{t} \right) f\left( y\right) dy + \int ^{\infty }_{\widehat {y}_t }\left( y_{t} - \widehat {y}_t\right) f\left( y\right) dy ~~~~~~  \cdot \cdot \cdot  (5) \\


(1)(2)予測誤差を式変形していきます。
(3) y_tが連続で -\infty \leq y_t \leq \inftyの値をとる場合、絶対値の期待値は積分で表せます。このとき、 y_tを確率変数と考え、 \widehat y_t は定数とみなすことにします。 f(y) y_t確率密度関数です。
(4)積分区間 \widehat y_t で分けます。
(5)大小関係に気をつけて絶対値を外します。



\dfrac {dE\left( \left| e_{t}\right| \right) }{d\widehat {y}_t} = 0 ~~~~~~  \cdot \cdot \cdot (6) \\
\Leftrightarrow \int ^{\widehat {y}_t}_{-\infty }f\left( y\right) dy - \int ^{\infty }_{\widehat {y}_t}f\left( y\right) dy = 0 ~~~~~~  \cdot \cdot \cdot (7) \\
\Leftrightarrow \int ^{\widehat {y}_t}_{-\infty }f\left( y\right) dy = \int ^{\infty }_{\widehat {y}_t}f\left( y\right) dy ~~~~~~  \cdot \cdot \cdot (8) \\
\Leftrightarrow P\left( y\leq \widehat {y}_t\right) = P\left( y\geq \widehat {y}_t\right) (= 1/2) ~~~~~~  \cdot \cdot \cdot (9)\\


(6)MAEを最小化する予測値 \widehat y_t を考えます。これまで \widehat y_t は定数とみなしていましたが、ここからは変数とします。MAEを \widehat y_t で最小化する場合、1階の微分条件はこの通りになります。
(7)微分を行います。
(8)移項します。
(9)(8)の式を確率の記号で読み変えます。

(9)のように表せるとき、 \widehat y_t  y_t の中央値となります。これは連続変数の場合の中央値の一般的な定義です。

中央値 - Wikipedia

以上から \widehat y_t  y_t の中央値の時、MAEが最小化されると言えそうです。(中央値がMAEを最小化すると言えそうです。)

参考資料