中央値がMAEを最小化する理由

厳密な証明はよくわからなかったので、自分なりのざっくりした理解を記載します。

$MAE \\ = E\left( \left| e_{t}\right| \right) ~~~~~~ \cdot \cdot \cdot (1) \\ = E\left( \left| y_{t} - \widehat {y}_t \right| \right) ~~~~~~ \cdot \cdot \cdot (2) \\ = \int ^{\infty }_{-\infty }\left| y_{t} - \widehat {y}_t\right| f\left( y\right) dx ~~~~~~ \cdot \cdot \cdot (3) \\ = \int ^{\widehat {y}_t }_{-\infty }\left| y_{t} - \widehat {y}_t\right| f\left( y\right) dy + \int ^{\infty }_{\widehat {y}_t }\left| y_{t} - \widehat {y}_t\right| f\left( y\right) dy ~~~~~~ \cdot \cdot \cdot (4) \\ = \int ^{\widehat {y}_t }_{-\infty }\left( \widehat {y}_t - y_{t} \right) f\left( y\right) dy + \int ^{\infty }_{\widehat {y}_t }\left( y_{t} - \widehat {y}_t\right) f\left( y\right) dy ~~~~~~ \cdot \cdot \cdot (5) \\$

(1)(2)予測誤差を式変形していきます。
(3) $y_t$ が連続で $-\infty \leq y_t \leq \infty$ の値をとる場合、絶対値の期待値は積分で表せます。このとき、 $y_t$ を確率変数と考え、 $\widehat y_t$ は定数とみなすことにします。 $f(y)$ は $y_t$ の確率密度関数です。
(4)積分区間を $\widehat y_t$ で分けます。
(5)大小関係に気をつけて絶対値を外します。

$\dfrac {dE\left( \left| e_{t}\right| \right) }{d\widehat {y}_t} = 0 ~~~~~~ \cdot \cdot \cdot (6) \\ \Leftrightarrow \int ^{\widehat {y}_t}_{-\infty }f\left( y\right) dy - \int ^{\infty }_{\widehat {y}_t}f\left( y\right) dy = 0 ~~~~~~ \cdot \cdot \cdot (7) \\ \Leftrightarrow \int ^{\widehat {y}_t}_{-\infty }f\left( y\right) dy = \int ^{\infty }_{\widehat {y}_t}f\left( y\right) dy ~~~~~~ \cdot \cdot \cdot (8) \\ \Leftrightarrow P\left( y\leq \widehat {y}_t\right) = P\left( y\geq \widehat {y}_t\right) (= 1/2) ~~~~~~ \cdot \cdot \cdot (9)\\$

(6)MAEを最小化する予測値 $\widehat y_t$ を考えます。これまで $\widehat y_t$ は定数とみなしていましたが、ここからは変数とします。MAEを $\widehat y_t$ で最小化する場合、1階の微分条件はこの通りになります。
(7)微分を行います。
(8)移項します。
(9)(8)の式を確率の記号で読み変えます。

(9)のように表せるとき、 $\widehat y_t$ は $y_t$ の中央値となります。これは連続変数の場合の中央値の一般的な定義です。