14. 例として用いるデータについて 1
Makorin1
22.61kb
(CDS:1446bp)
Makorin1-p1
1592bp
region A region B region C
Makorin1-p1は、Makorin1遺伝子からできたprocessed pseudogeneである。
Makorin1-p1のregionBがある、もしくはMakorin1のregionBを欠いている状態のときに
Makorin1 のmRNAが長い時間存在することができるので、regionBの部分にmRNAの
分解に関与する配列が含まれていると考えられている。一方隣接するregionCは、
この分解には関与していない。
regionBは‘機能’を持っていて、その機能を果たすためには配列の相同性が重要であるとの
報告があるために、変異量が抑えられていることが期待される。
機能とは関係ないが、同じ進化の過程を経ているregionCの変異量の比較を行うことにより
regionBの機能について、考察を行う。
まずは、「regionBとregionCの変異量は同じである」という帰無仮説を立て、
この仮説を棄却することができるか検証していく。 14
15. 例として用いるデータについて 1 補足
Makorin1
22.61kb
(CDS:1446bp)
Makorin1-p1
1592bp
region A region B region C
考え方
1) Makorin1-p1は出現した時点ではMakorin1と全く同じ配列を持っている。
2) 配列の相同性を認識してMakorin1のmRNAを分解する物質が存在するならば、
Makorin1-p1をMakorin1として認識し分解するために、Makorin1-p1非存在時と比べると
Makorin1自身が壊れてしまうまでの時間は長くなる。
3) Makorin1のmRNAが長い時間存在していることが個体の生存に有利に働くならば、
Makorin1-p1の配列が保存される(regionBにおける機能以外の点で同じ進化の過程を
経てきた領域と比較して変異量が尐なくなる) ことが期待される。
→「regionBとregionCの変異量は同じである」という帰無仮説を立て、
この仮説を棄却することができるか検証していく。 15
18. 例として用いるデータについて 2
変異量の比較を行うためにMakorin1-p1の配列を集める。
Makorin1-p1の配列のorthologはratのゲノムには無かったため、
Makorin1-p1の配列ができた時期を探るために、実験系統でよく用いられる
Mus musculus domesticusの近縁種を5種を用いた。
Subgenus
M. booduga
M. fragilicauda India+Lao/Thai
booduga
M. terricolor
1.5 M. macedonicus
4.3 mya M. spicilegus
mya
M. spretus
M. musculus castaneus
Palearctic
Mus
musculus
M. m. domesticus
M. m. molossinus
M. caroli
M. cookii Southeast Asia
M. cervicolor cervicolor
M. pahari Coelomys
M. mattheyi Nannomys
M. platythrix Pyromys
Apodemus agrarius
Micromys minutus
Rattus norvegicus (from Suzuki et al. 2004 Mol. Phylogenet. Evol.
0.01 33:626-646, Figure 1, 4.)
18
20. region Bとregion Cにおける違い
regionBとregionCの長さと、ペア毎のnumber of differencesと p distanceをもとめる
region B bp region C bp
pair number of differences p distance number of differences p distance
dom – mol
dom – cas
dom – mus
dom – spr
dom – car
mol - cas
mol – mus
mol – spr
mol – car
cas – mus
cas – spr
cas – car
mus – spr
mus – car
spr – car 20
25. region Bとregion Cにおける違い (結果)
region B 617 bp region C 639 bp
pair number of differences p distance number of differences p distance
dom – mol 6 0.010 7 0.011
dom – cas 6 0.010 7 0.011
dom – mus 8 0.013 8 0.013
dom – spr 16 0.026 14 0.022
dom – car 30 0.049 39 0.061
mol – cas 0 0 0 0
mol – mus 4 0.006 1 0.002
mol – spr 14 0.023 17 0.027
mol – car 28 0.045 38 0.059
cas – mus 4 0.006 1 0.002
cas – spr 14 0.023 17 0.027
cas – car 28 0.045 38 0.059
mus – spr 14 0.023 18 0.028
mus – car 28 0.045 39 0.061
spr – car 32 0.052 37 0.058 25
30. 散布図の回帰直線 2
散布図を作成する際に用いたデータについて、最小二乗法による線形回帰をもとめる。
線形の回帰直線は y a bx 。
a は、定数、 b は傾き。
n
xi
x
n
(x i x )( y i y ) i 1 n
x, y
と表記する場合は、
b i 1 n
y
n y i 平均値を意味します。
( xi x ) 2
i 1
i 1 n
> xdev <- (x-mean(x)) # xの偏差を計算
> ydev <- (y-mean(y)) # yの偏差を計算
> bnumin <- xdev*ydev # xとyの偏差をかける
> bnum <- sum(bnumin) # xとyの偏差をかけたものの総和(分子)
> bdenin <- xdev^2 # xの偏差の2乗
> bden <- sum(bdenin) # xの偏差の2乗の総和(分母)
> b <- bnum/bden # b (傾き)
>b
[1] 1.317939
30
31. 散布図の回帰直線 3
散布図を作成する際に用いたデータについて、最小二乗法による線形回帰をもとめる。
回帰直線は y a bx の式で与えられる。
a は以下の式で表される。
n n
yi xi
a b
i 1 n i 1 n
b 1.317939
> a1 <- sum(y)/length(y)
> a2 <- b*(sum(x)/length(x))
> a <- a1-a2
[1] -0.003636326
y 0.0036 1.3x
> abline (a,b)
#a、bは切片と傾き。直線 y = a + bx を描く
「regionBとregionCに起きる変異量は等しい」ということは、y=xの回帰直線が期
待される。
ここで得られた回帰直線y=-0.0036+1.3xは、y=xとどの程度違っているのかにつ
いては、ここでは扱いません。
c2
各ペアの領域ごとの変異量の違いを、 検定により検証する。 31
43. c 検定 (演習)
2
Makorin1-p1の配列については、「regionBとregionCに起きる変異量は等しい」という帰
無仮説のもとにregionBとregionCそれぞれに起きた、number of differencesを用いて
c 2 検定を行う。
(O E ) 2
c 2
E Oは観察値、Eは期待値
c2
それぞれ配列の比較を行ったpair毎に、 検定を行って、
「regionBとregionCに起きる変異量は等しい」という仮説を検証して下さい。
なお、有意水準95%, 自由度1の c 値は、
2
> qchisq(0.95, 1)
で得ることができます。
有意水準の c 値よりも大きな c 値が得られたとき
2 2
帰無仮説は棄却されます。
43
44. 期待値とc をもとめる
2
region B 617 bp region C 639 bp
pair observed expected observed expected chi square
dom – mol 6 6.759 7 6.214 0.18
dom – cas 6 7
dom – mus 8 8
dom – spr 16 14
dom – car 30 39
mol – spr 14 17
mol – car 28 38
cas – spr 14 17
cas – car 28 38
mus – spr 14 18
mus – car 28 39
spr – car 32 37
44
45. c 検定 (結果)
2
region B 617 bp region C 639 bp
pair observed expected observed expected chi square
dom – mol 6 6.759 7 6.214 0.18
dom – cas 6 6.759 7 6.214 0.18
dom – mus 8 7.725 8 8.285 0.02
dom – spr 16 13.518 14 16.571 0.85
dom – car 30 37.657 39 31.070 3.58
mol – spr 14 16.415 17 14.499 0.79
mol – car 28 36.692 38 28.998 4.85 *
cas – spr 14 16.415 17 14.499 0.79
cas – car 28 36.692 38 28.998 4.85 *
mus – spr 14 17.380 18 14.499 1.50
mus – car 28 37.657 39 28.998 5.93 *
spr – car 32 35.726 37 33.141 0.84
* : p < 0.05
molossinus, castaneus, musculusとcaroliとの比較において、regionBとregionCに起こる
変異量が等しいということは、5%有意水準で棄却された。 45
63. 塩基配列の進化距離
塩基配列間の違い
共通の祖先から二つの塩基配列が生じると、それぞれの子孫配列は徐々に塩基置換を
蓄積し分化していく。この分化の程度を進化距離として表す。
1) p distance: p nd / n
n d : 二つの配列の間で異なる塩基の数, n : 調べた塩基の総数
2) Jukes and Cantor model (1969): A T C G
すべての塩基置換が同じ確率で起こると仮定したモデル
a a a
A -
d 3 ln 1 4 p T a - a a
4 3
G a a - a
3) Kimura’s two parameter model (1980): C a a a -
transition型の塩基置換速度を a、
transvesion型の塩基置換速度を b として、別々に扱うモデル
A T C G
4
P 1 1 2e 4a b t e 8 bt A - b b a
Q 1 1 e 8 bt
2
T b - a
G b a - b
d 2rt 2at 4bt
1 ln(1 2 P Q) 1 ln(1 2Q)
2 4
C a b b -
63
64. 塩基配列の進化距離 基本的な考え方1
共通の祖先遺伝子(遺伝子a)からできた遺伝子a’,a”のあるひとつのサイトに注目する。
時間tから時間t+1になる間の塩基置換について考える。
遺伝子a’ t t+1
T a’ T a’ T a’ (1-r)2
遺伝子a
T a
A G C
遺伝子a’’ 1-2r
T a” T a” T a”
rは10-8,10-9
A G C なので
塩基置換速度:r =3a r2の項は
(どの塩基間も同じ割合
時間t以前に T a’ T a’ ほぼ無視できる
で置換する場合)
遺伝子a”で置換
塩基置換が起きる:r
C a” T a” 2r(1-r)/3
起きない:1-r
2r/3
起きた塩基置換が 時間t以前に A a’ T a’
比較しているものと同 遺伝子a’で置換
じ塩基になる確率:1/3 T a” T a”
64
77. 統計 –母集団、サンプル 2-
ゲノム配列のあるひとつのサイトに注目した場合、
ヒト集団中で多型(A:68%, G:28%, C: 4%)であったとする、
10個体をサンプルとして抽出して、塩基配列を決定した結果、A:60%, G40%であった。
ある程度のサンプル数を取らないと母集団を上手く推定することができない。
また、非常にまれなものは見落とす可能性がある。
サンプル
標本
ヒト01 A
ヒト集団全体 ヒト02 A
母集団 ヒト03 G
ヒト04 G
A G A A G ヒト05 A
G
AGA A ヒト06 A
G A C G G
A A A AA ヒト07 A
A A A A ヒト08 G
A
ヒト09 A
ヒト10 G
77
79. 統計 –平均、分散、標準偏差-
平均:相加平均(算術平均)のこと (すべてのデータの和をデータの数で割ったもの)
1 n
x x
n i 1
分散:データが平均のまわりでどのくらい散らばっているかを示す尺度。
それぞれの変数から平均を引いて偏差をもとめ、それを二乗したものを
すべて足し合わせ、標本数で割ったもの(標本分散)。
1 n
2 (x xi ) 2
n i 1
(標本数-1)で割ったもの(不偏分散)母集団の分散。
1 n
2
n 1 i 1
(x xi ) 2
標準偏差:データが平均のまわりでどのくらい散らばっているかを示す尺度。
分散の平方根
2
79