[別館]球面倶楽部零八式markIISR

東大入試数学中心。解説なので解答としては不十分。出題年度で並ぶようにしている。大人の解法やうまい解法は極めて主観的に決めている。

2008年(平成20年)東京大学後期-総合科目II[1]B

[1] 2つの対象がどれくらい離れているかを定量的に記述するために, 対象の間のへだたりを表す量を適切に導入することはさまざまな分野において有効である.

B

遺伝子は4通りの文字A,C,G,Tの配列からなり, 世代ごとに引き継がれていくが,この配列は世代とともに変化していく可能性がある.遺伝子の配列のデータから生物の系統関係などを推定するためには配列の聞のへだたりを表す量を導入することが重要である.ここでは,以下のような単純化されたモデルを用いて,遺伝子の配列の世代による推移を考察してみよう.

遺伝子の配列の一つの文字について,これが次の世代に引き継がれるときに,他の3通りの文字に置き換わる確率を,それぞれ \dfrac{\alpha}{3} とする.ここで,\alpha0\lt \alpha\lt 1 を満たす実数とする.ある文字がそのまま次の世代に引き継がれる確率は 1-\alpha である.例えば文字Aが
A→A→C
と推移する確率は
(1-\alpha)\times\dfrac{\alpha}{3}
である.

最初の世代における遺伝子の配列の一つの文字Aに注目する.これが n 番目の世代においてAである確率を P_{AA}(n) で表す.ここで最初の世代は 0 番目と数える.また,0 番目の世代においてAである文字が n 番目の世代において C となる 確率を P_{AC}(n) で表す.

(B-1) P_{AA}(n+1)P_{AA}(n)\alpha を用いて表せ.

(B-2) P_{AA}(n)P_{AC}(n) をそれぞれ \alphan を用いて表せ.

遺伝子の文字の配列が世代によって変化していく様子を考える.例えば,配列が
AACAAC
と推移する確率は
(1-\alpha)^2\times\dfrac{\alpha}{3}
である.また,文字の配列が3世代目までに
AAAA→CAAA→CAAT→AACT
と推移するとき,0 番目の世代の最後の 2 文字 AA が 3番目の世代では CT に変化している.N 個の文字の配列からなる遺伝子について n 番目の世代の遺伝子の配列を 0 番目の世代と比較して異なっている文字数の期待値を d_n とする.

(B-3) d_n\alpha,n,N を用いて表せ.

上の(B-3)で求めた式を用いることにより 2つ配列を比較して異なっている文字数を求めると,それらの聞がおよそ何世代へだたっているかを推定することができる.

(B-4) n を大きくしていくと, d_n の値は 0. 75N に近づくことを示せ.

2021.02.09記
マルコフ過程
期待値の和=和の期待値

[解答]

(B-1) P_{AA}(n+1)=(1-\alpha)P_{AA}(n)+\dfrac{\alpha}{3}(1-P_{AA}(n))=\Bigl(1-\dfrac{4\alpha}{3}\Bigr)P_{AA}(n)+\dfrac{\alpha}{3}

(B-2) (B-1) と P_{AA}(0)=1 から P_{AA}(n)=\dfrac{1}{4}+\dfrac{3}{4}\Bigl(1-\dfrac{4\alpha}{3}\Bigr)^n だから,
P_{AC}(n)=\dfrac{1}{3}(1-P_{AA}(n))= \dfrac{1}{4}-\dfrac{1}{4}\Bigl(1-\dfrac{4\alpha}{3}\Bigr)^n

(B-3) 特定番目の文字が異なる確率は 3P_{AC}(n) であるから,異なる文字数の期待値は
d_n=N\times 3P_{AC}(n)=3N\Bigl\{\dfrac{1}{4}-\dfrac{1}{4}\Bigl(1-\dfrac{4\alpha}{3}\Bigr)^n\Bigr\}

(B-4) 0\lt \alpha\lt 1 より \Bigl|1-\dfrac{4\alpha}{3}\Bigr|\lt 1 だから d_n\to \dfrac{3}{4}N=0.75N(n\to\infty)