[別館]球面倶楽部零八式markIISR

東大入試数学中心。解説なので解答としては不十分。出題年度で並ぶようにしている。大人の解法やうまい解法は極めて主観的に決めている。

1958年(昭和33年)東京大学-数学(解析I)[2]

[2] 変量 y が変量 x に正比例することは理論的にわかっているが,比例定数 a の値がわからない.そこで, x=234 のときの y の値を測ったところ,それぞれ 3.14.45.6 という測定値を得た.a の値をかりに定めたとき 3.1-2a4.4-3a5.6-4a
をそれぞれ x=234 に対応する y の測定の誤差とみなす.このとき,

(i) 誤差の二乗の和が最小となるように a の値を定めよ.

(ii) 誤差の絶対値の和が最小となるように a の値を定めよ.

ただし,小数第三位を四捨五入して小数第二位まで求めよ.

本問のテーマ
最小二乗基準による代表値の定義
最小絶対偏差基準による代表値の定義
最小二乗基準による原点を通る回帰直線
最小絶対偏差基準による原点を通る回帰直線

2019.04.03記
誤差の二乗和を最小とするのは平均値、誤差の絶対値和を最小とするのは中央値、という統計の初歩の問題なのだが、高校生に統計を必修化させる割りに、代表値をこの観点から教えていないのが問題。

[解答]
(i) (3.1-2a)^2+(4.4-3a)^2+(5.6-4a)^2 =4(1.55-a)^2+9\Bigl(\dfrac{4.4}{3}-a\Bigr)^2+16(1.4-a)^2を最小にするaは、1.55,\dfrac{4.4}{3},1.4がそれぞれ4,9,16個あるときの平均値であるから、\dfrac{6.2+13.2+22.4}{4+9+16}=\dfrac{41.8}{29}=1.441\cdotsにより、a=1.44

(ii) |3.1-2a|+|4.4-3a|+|5.6-4a|=2|1.55-a|+3\Bigl|\dfrac{4.4}{3}-a\Bigr|+4|1.4-a|を最小にするaは、1.55,\dfrac{4.4}{3},1.4がそれぞれ2,3,4個あるときの中央値であるから、\dfrac{4.4}{3}=1.466\cdotsにより、a=1.47

2020.04.01記
(うっかり二重に書いていた.1年後に解説を書くと考え方は同じだけど文章がちょっと違う)

[解答]
(i) 誤差の二乗の和は 4(1.55-a)^2+9\Bigl(\dfrac{4.4}{3}-a\Bigr)^2+16(1.4-a)^2 となるので、1.55 が4個,\dfrac{4.4}{3} が9個,1.4 が16個の合計29個のデータの平均値を考えれば良く,それは
a=\dfrac{4\times1.55+9\times\dfrac{4.4}{3}+16\times1.4}{2^2+3^2+4^2}=\dfrac{41.8}{29}=1.44

(ii) 誤差の絶対値の和 2|1.55-a|+3\left|\dfrac{4.4}{3}-a\right|+4|1.4-a| となるので、1.55 が2個,\dfrac{4.4}{3} が3個,1.4 が4個の合計9個のデータの平均値を考えれば良く,それは \dfrac{4.4}{3}=1.47 である。

2022.05.03記
本問を比重の問題として,原点を通る回帰直線としても良い.
(x_i,y_i) に対して,\hat{y_i}=ax_i とする.

[別解]
(i)の最小二乗基準における原点を通る直線のあてはめは
L(a)=\dfrac{1}{n}\displaystyle\sum_{i=1}^n (y_i -ax_i)^2
=\overline{y^2}-2a\overline{xy}+a^2\overline{x^2}
=\overline{x^2}\left(a-\dfrac{\overline{xy}}{\overline{x^2}}\right)^2 +\dfrac{\overline{x^2}\cdot \overline{y^2}-(\overline{xy})^2}{\bar{x^2}}
の最小化なので,a=\dfrac{\overline{xy}}{\overline{x^2}} となり,本問の場合,
a=\dfrac{2\cdot 3.1+3\cdot 4.4+4\cdot 5.6}{2^2+3^2+4^2}=\dfrac{41.8}{29}=1.44
となる.

(ii)の最小絶対偏差基準おける原点を通る直線のはてはめは
2008年(平成20年)東京大学後期-総合科目II[1]A - [別館]球面倶楽部零八式markIISR
と同様に考えると,必ず原点という仮想データを通るので,もう1つのデータ点を通ることがわかる.
そしてその最小値は,傾きの中央値となることが幾何的にわかる.
傾きは1.55\dfrac{4.4}{3}1.4 となるので,その中央値は \dfrac{4.4}{3}=1.466\cdots から 1.47 である.