平均値がMSE(or RMSE)を最小化する理由

厳密な証明かはわかりませんが、以下に自分なりの理解をまとめます。MSEの最小化問題はRMSEの最小化問題と解が同じ(?)だと思いますので、MSEの方で検討します。

(記法)
$e$ : $e_t$ のベクトル
$Y$ : $y_t$ のベクトル
$\widehat Y$ : $\widehat y_t$ のベクトル

$MSE \\ = E\left[ e^{2}\right] ~~~~\cdot \cdot \cdot (1) \\ = E\left[( Y- \widehat {Y}) ^{2}\right] ~~~~\cdot \cdot \cdot (2) \\ = E\left[( Y- E[Y] + E[Y] - \widehat {Y}) ^{2}\right] ~~~~\cdot \cdot \cdot (3) \\ = E\left[( Y- E[Y]) ^{2} + (E[Y] - \widehat {Y}) ^{2} + 2(Y- E[Y])(E[Y] - \widehat {Y}) \right] ~~~~\cdot \cdot \cdot (4) \\ = E\left[( Y- E[Y]) ^{2} \right] + E\left[(E[Y] - \widehat {Y}) ^{2} \right] + 2E\left[(Y- E[Y])(E[Y] - \widehat {Y}) \right] ~~~~\cdot \cdot \cdot (5) \\$

ここで(5)の第3項に注目して

$2E\left[(Y- E[Y])(E[Y] - \widehat {Y}) \right] \\ = 2E\left[(YE[Y] - E[Y]^2 - Y\widehat {Y} + E[Y]\widehat {Y}) \right] \\ = 2(E[Y]E[Y] - E[Y]^2 - E[Y]E[\widehat {Y}] + E[Y]E[\widehat {Y}]) \\ = 2(E[Y]^2 - E[Y]^2 - E[Y]E[\widehat {Y}] + E[Y]E[\widehat {Y}]) \\ = 0$

となるので、

$MSE \\ = E\left[( Y- E[Y]) ^{2} \right] + E\left[(E[Y] - \widehat {Y}) ^{2} \right] ~~~~\cdot \cdot \cdot (6) \\$

となります。
ここで(6)を $\widehat Y$ に関する式とみなすと、 $\widehat Y$ が含まれるのは第2項のみとなるため、第2項を最小化する $\widehat Y$ がMSE(or RMSE)を最小化する $\widehat Y$ となります。
第2項は2乗された値のため、最小値は0であり、第2項が0になるのは、 $\widehat Y = E[Y$ ]のときです。
$E[Y$ ]は $Y$ の期待値（平均値）のため、「平均値がMSE(or RMSE)を最小化する」と言えます。

(参考資料)
* https://scholar.harvard.edu/files/danielyewmaolim/files/api-208section1.pdf

はだだだだ

定食にサラダは不要だと思う。

平均値がMSE(or RMSE)を最小化する理由