[別館]球面倶楽部零八式markIISR

東大入試数学中心。解説なので解答としては不十分。出題年度で並ぶようにしている。大人の解法やうまい解法は極めて主観的に決めている。

2008年(平成20年)東京大学後期-総合科目II[1]A

[1] 2つの対象がどれくらい離れているかを定量的に記述するために, 対象の間のへだたりを表す量を適切に導入することはさまざまな分野において有効である.

A
数直線上に n 個の点 {\rm P}_1,…,{\rm P}_n をとり,これらの座標をそれぞれ,x_1,…,x_n とする.実数 u に対して
f(u)=\displaystyle\sum_{k=1}^n |x_k-u|
とおく.

(A-1) n=3 のとき,x_1\lt x_2\lt x_3 として, 関数 f(u) の値を最小にする u とそのときの最小値を x_1,x_2,x_3 を用いて表せ.

(A-2) ある会社の事業所が一直線上に n 個並んでいる。 各事業所の位置を数直線上に表し, これらの座標を x_1,…,x_n とする.ここで x_1\lt x_2\lt …\lt x_n とする.この会社では,事業所が並んでいる直線上で各事業所からの距離の和が最小になる地点に本社を設置したいと考えている.n が奇数の場合と偶数の場合に分けて,このような条件を満たす本社の位置の座標を求め,その理由を説明せよ.ただし,n 個の事業所の一つと同じ場所に本社を設置してもかまわないとする.

xy 平面上に n 個の点 {\rm Q}_1,…,{\rm Q}_n をとり,これらの座標を,それぞれ (x_1,y_1),…,(x_n,y_n) とする.n 個の点 {\rm Q}_1,…,{\rm Q}_n になるべく近い直線 y=ax+b を求めるため,
d=\displaystyle\sum_{k=1}^n |y_k-(ax_k+b)|
とおき,d を最小にする a,b の値を定めることを考える.

以下の問では n=3 とする.

(A-3) a=1 と固定して
d=\displaystyle\sum_{k=1}^3 |y_k-(x_k+b)|
b の関数とみなす.{\rm Q}_1,{\rm Q}_2,{\rm Q}_3 の座標が,それぞれ (1,1),(2,3),(3,3) のとき,d を最小にする b の値を求めよ.

(A-4) 3点 {\rm Q}_1(x_1,y_1),{\rm Q}_2(x_2,y_2),{\rm Q}_3(x_3,y_3) に対して,
d=\displaystyle\sum_{k=1}^3 |y_k-(ax_k+b)|
を最小にするような a,b の値を x_1,x_2,x_3,y_1,y_2,y_3 で表せ.ただし,x_1\lt x_2\lt x_3 とする.

本問のテーマ
最小絶対偏差基準による回帰直線

2021.02.08記

[解答]
(A-1) 中央値 u=x_2 で最小値 |x_1-x_2|+|x_3-x_2|=x_3-x_1 をとる.

(A-2) n が奇数 n=2k-1 のとき,中央値は x_k=x_{\frac{n+1}{2}} が本社の位置の座標である.

n が偶数 n=2k のとき,中央値のある区間 x_k\leqq u  \leqq x_{k+1} なる任意の u にて最小となるので,この区間の任意の場所に本社を設置して良い.

(A-3) d=|-b|+|1-b|+|-b| を最小にする b を求めることは,0,1,0 の中央値 b を求めることだから,b=0 となる.

(A-4) (A-3) と同様に考えると by_1-ax_1y_2-ax_2y_3-ax_3 の中央値となり,そのときの d は3つの最大値と最小値の差となる.

つまり傾きが互いに異なる3つの直線 b=-x_1a+y_1b=-x_2a+y_2b=-x_3a+y_3 を描いて,一番幅が狭くなる部分を考えれば良いが,3つの1次関数からできる3交点(または3交点が1点になるときもある)の a 座標の中央値で実現される.3直線の傾きに対して -x_1\gt -x_2 \gt -x_3 であるから,それは b=-x_1a+y_1b=-x_3a+y_3 の交点において実現する.

この条件は,y=ax+b{\rm Q}_1,{\rm Q}_3 を通る条件であるから,求める直線は y=\dfrac{y_3-y_1}{x_3-x_1}(x-x_1)+y_1 となり,a=\dfrac{y_3-y_1}{x_3-x_1}b=\dfrac{x_3y_1-x_1y_3}{x_3-x_1} となる.


[別解]
(A-4) abd 平面で考えると,d=\displaystyle\sum_{k=1}^3 |y_k-(ax_k+b)| は下に凸な図形である.よってその最小値は頂点となり,その頂点の ab 座標は ab 平面の3直線 y_k-(ax_k+b)=0k=1,2,3)のうちの少なくとも2つの交わりとして得られるので,y=ax+b{\rm Q}_1{\rm Q}_2{\rm Q}_3 の2点を通るが,3通り考えたときに d の値が一番小さくなるのは,図を描けばすぐにわかるように {\rm Q}_1{\rm Q}_3 を通るときだから,直線の方程式は
y=\dfrac{y_3-y_1}{x_3-x_1}(x-x_1)+y_1 となり,
a=\dfrac{y_3-y_1}{x_3-x_1}b=\dfrac{x_3y_1-x_1y_3}{x_3-x_1} となる.

同様にして,n 点に対する最小絶対偏差基準による回帰直線は少なくとも2点を通ることがわかる.