はだだだだ

定食にサラダは不要だと思う。

MENU

平均値がMSE(or RMSE)を最小化する理由

厳密な証明かはわかりませんが、以下に自分なりの理解をまとめます。MSEの最小化問題はRMSEの最小化問題と解が同じ(?)だと思いますので、MSEの方で検討します。

 (記法)
 e :  e_tのベクトル
 Y :  y_tのベクトル
 \widehat Y :  \widehat y_tのベクトル


MSE \\
= E\left[ e^{2}\right] ~~~~\cdot \cdot \cdot (1) \\
= E\left[( Y- \widehat {Y}) ^{2}\right] ~~~~\cdot \cdot \cdot (2) \\
= E\left[( Y- E[Y] + E[Y] - \widehat {Y}) ^{2}\right] ~~~~\cdot \cdot \cdot (3) \\
= E\left[( Y- E[Y]) ^{2} + (E[Y] - \widehat {Y}) ^{2} + 2(Y- E[Y])(E[Y] - \widehat {Y}) \right] ~~~~\cdot \cdot \cdot (4) \\
= E\left[( Y- E[Y]) ^{2} \right]  + E\left[(E[Y] - \widehat {Y}) ^{2} \right] + 2E\left[(Y- E[Y])(E[Y] - \widehat {Y}) \right] ~~~~\cdot \cdot \cdot (5) \\


ここで(5)の第3項に注目して


2E\left[(Y- E[Y])(E[Y] - \widehat {Y}) \right] \\
= 2E\left[(YE[Y] - E[Y]^2 - Y\widehat {Y} + E[Y]\widehat {Y}) \right] \\
= 2(E[Y]E[Y] - E[Y]^2 - E[Y]E[\widehat {Y}] + E[Y]E[\widehat {Y}]) \\
= 2(E[Y]^2 - E[Y]^2 - E[Y]E[\widehat {Y}] + E[Y]E[\widehat {Y}]) \\
= 0


となるので、


MSE \\
= E\left[( Y- E[Y]) ^{2} \right]  + E\left[(E[Y] - \widehat {Y}) ^{2} \right] ~~~~\cdot \cdot \cdot (6) \\

となります。
ここで(6)を \widehat Yに関する式とみなすと、 \widehat Yが含まれるのは第2項のみとなるため、第2項を最小化する \widehat YがMSE(or RMSE)を最小化する \widehat Yとなります。
第2項は2乗された値のため、最小値は0であり、第2項が0になるのは、 \widehat Y = E[Y]のときです。
 E[Y]は Yの期待値(平均値)のため、「平均値がMSE(or RMSE)を最小化する」と言えます。


(参考資料)
* https://scholar.harvard.edu/files/danielyewmaolim/files/api-208section1.pdf