中央値がMAEを最小化する理由
厳密な証明はよくわからなかったので、自分なりのざっくりした理解を記載します。
(1)(2)予測誤差を式変形していきます。
(3)が連続での値をとる場合、絶対値の期待値は積分で表せます。このとき、を確率変数と考え、は定数とみなすことにします。はの確率密度関数です。
(4)積分区間をで分けます。
(5)大小関係に気をつけて絶対値を外します。
(6)MAEを最小化する予測値を考えます。これまでは定数とみなしていましたが、ここからは変数とします。MAEをで最小化する場合、1階の微分条件はこの通りになります。
(7)微分を行います。
(8)移項します。
(9)(8)の式を確率の記号で読み変えます。
(9)のように表せるとき、はの中央値となります。これは連続変数の場合の中央値の一般的な定義です。
以上からがの中央値の時、MAEが最小化されると言えそうです。(中央値がMAEを最小化すると言えそうです。)
参考資料