人類の起源

ふと、ヒトと類人猿のゲノムを比較したことがないので、やってみようと思った。

単にアラインメントするだけでは詰まらないので、人類と、チンパンジーボノボの分岐時期の推定に役立ちそうな指標を集計することにする。チンパンジーボノボの分岐は、人類の分岐より後とされているので、ヒトとチンパンジーの"違い"、ヒトとボノボの"違い"は、同程度になっていると考えられる。


最初に、既存の報告を眺めておく。

TIMETREE
http://www.timetree.org/

というサイトによると、人類が、チンパンジーボノボとの共通祖先と分岐した時期は、79の研究に基づく中央値が640万年。信頼区間(?)は、510万年〜1180万年となっている(どういうモデルに基づいて計算された区間か知らないけど、あくまで多くの報告が、このあたりに集中しているというだけで、95%の確率で正しいとかいう類のものではないと思う)。

最も古い予測は、1億3900万年となっていて、多分、何かの間違い(?)。次点は1480万年。1480万年は、2012年の論文に書いてあるらしいので、それほど古い研究でもない。2010年以降の報告に限っても、550〜1480万年と、まだ幅は大きい。2010年以降の報告は30件あって、その中で、1000万年を超えるのは、(1億3900万年のも含めて)4件。とはいえ、少数派だから正しくないとは、当然言えない。

同じサイトで、チンパンジーボノボの分岐を調べると、39の研究に基づく中央値が240万年で、信頼区間は238.9万年〜315.7万年前となっている。一番古い予測分岐年代は、610万年前で、一番新しい方は80万年前。日本語で調べると、チンパンジーボノボ分岐年代は、80〜200万年前としているものが多く出てくるけど、典型的な見積もりとは言えないことになる。この見積もりが出回っている理由は分からない。

ついでに、チンパンジーボノボは、現代でも、交配可能らしい。

Hybrids between common chimpanzees (Pan troglodytes) and pygmychimpanzees (Pan paniscus) in captivity
https://lirias.kuleuven.be/1914867



一般的に、種の分岐時期の推定法は、化石年代による方法と、分子時計による方法がある。化石年代による推定は、個人で追試するのはほぼ不可能。金と時間と発掘許可があったとしても、適当な化石が見つかるかは、運によるとところが大きい。一方、分子時計による推定は、公開されているゲノム配列を信用するなら、手の出しようはある。現在のところ、自力でゲノム配列をシーケンスするのは大変だが、金と許可があれば、原理的には、何とか出来なくはない。

分子時計は、1960年代に提案されたもので、最初は、タンパク質のアミノ酸配列を見ていた。1967年に、Vincent SarichとAllan Wilsonは、ヒトとチンパンジーの分岐時期を約500万年前と推定した。1977年に、サンガー法が考案されて、80年代には、個々の遺伝子の塩基配列ミトコンドリアの配列が比較されるようになった。

分子系統学とヒトの起原
https://doi.org/10.2142/biophys.28.119
という1988年の総説を見ると、ミトコンドリアの比較による議論が中心となっている。

2010年前後からは、多くの生物種でゲノム配列が決定されたし、コンピュータの性能も向上してたので、全ゲノム同士を比較することができるようになった。

進化の過程で、染色体は、割とよく切断したり、融合したりしているようで、哺乳類に限っても、染色体数は、最小で6から、最大で102まで幅がある。ヒトの場合、2番染色体は、かつては、2つの異なる染色体だったのが融合したと考えられていて、ヒト以外の類人猿は、ヒトより染色体が2本(一対)多く、昔の文献を見ると、チンパンジーの12,13番染色体と、ヒト2番染色体が対応してると書いてある。公開されてるゲノム配列では、分かりやすく、2A,2B染色体とされている。

染色体端部にはテロメア配列があるけど、ヒト2番染色体長腕2q13には、対向したテロメア反復配列の痕跡が見られる。

追記)あとから気付いたけど、ゴリラでは、他の大型類人猿には起こっていない染色体再編成が見られる。何が起こったのか正確にはよく分からないけど、ゴリラ5,17番染色体は、どちらも、ヒト5,17番染色体の一部を含む(5番染色体と17番染色体で環状になって切断でもしたのか?)。しかし、以下では、この再編成に気付かず、計算を進めてしまった。話の流れには影響ないので、そのままにしてある



ヒトと類人猿の場合は、染色体の対応が、よく取れるので、ゲノム全体のアラインメントをする。アラインメントには、LASTZというのを使うことにした。
LASTZ
https://github.com/lastz/lastz

make lastz_32でビルドされるLASTZ_32というのも入れておく。最新のバージョンは、1.04.15



ゲノム配列は、ヒト(hg38)、ボノボ(panPan3)、チンパンジー(panTro6)を使った。
hg38
https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/

panPan3
https://hgdownload.soe.ucsc.edu/goldenPath/panPan3/bigZips/

panTro6
https://hgdownload.soe.ucsc.edu/goldenPath/panTro6/bigZips/

ゴリラとオランウータンは、gorGor6とponAbe3が、現在の最新の配列。オランウータンは、スマトラ・オランウータン(Pongo abelii)や、ボルネオ・オランウータン(Pongo pygmaeus)などが区別されてるっぽい。テナガザルゲノムは、キタホオジロテナガザル(Nomascus leucogenys)のnomLeu3が存在する。


ダウンロードしたゲノム配列は、以下のようなコードで、染色体ごとに分割しておく。

import os

def splitFasta(infile, outdir, prefix=""):
   assert(os.path.exists(outdir))
   lines = []
   cur_name = None
   for line in open(infile):
       if len(line.strip())==0:
           continue
       elif line.startswith(">"):
           if cur_name is not None:
               with open(os.path.join(outdir , "{0}.fa".format(cur_name)),"w") as fp:
                    fp.write("".join(lines))
           lines = [">" , prefix , line[1:]]
           cur_name = line.strip()[1:]
       else:
           lines.append( line )
   if len(lines)>0:
       with open(os.path.join(outdir , "{0}.fa".format(cur_name)),"w") as fp:
           fp.write("".join(lines))


if __name__=="__main__":
   splitFasta("hg38.fa" , "hg38" , "hg38/")
   splitFasta("panPan3.fa" , "panPan3" , "panPan3/")
   splitFasta("panTro6.fa" , "panTro6" , "panTro6/")

チンパンジーボノボの2A,2B染色体は、連結しておく。

cat <(echo ">panPan3/chr2") <(tail -n +2 panPan3/chr2A.fa) <(tail -n +2 panPan3/chr2B.fa) > panPan3/chr2.fa
cat <(echo ">panTro6/chr2") <(tail -n +2 panTro6/chr2A.fa) <(tail -n +2 panTro6/chr2B.fa) > panTro6/chr2.fa


LASTZは、オプションの指定によって得られる結果が大きく変わる。今回は、とりあえず、可能な限り、頑張ってアラインメントしてもらうために、例えば、以下のようなコマンドを打った

for f in `ls hg38`;do
  lastz hg38/$f panPan3/$f --chain --gfextend --gapped --step=20 --format=maf > hg38_vs_panPan3_`basename $f .fa`.maf 2> /dev/null
  lastz hg38/$f panTro6/$f --chain --gfextend --gapped --step=20 --format=maf > hg38_vs_panTro6_`basename $f .fa`.maf 2> /dev/null
  lastz panPan3/$f panTro6/$f --chain --gfextend --gapped --step=20 --format=maf > panPan3_vs_panTro6_`basename $f .fa`.maf 2> /dev/null
done

全ての染色体について、ヒトvsチンパンジー、ヒトvsボノボチンパンジーvsボノボのアラインメントを作成。

panTro6 vs hg38のアラインメントなんかは公開されてるっぽいのだけど、使用したオプションなどが分からないので、(同一条件で比較するために)全部やり直す。
https://hgdownload.soe.ucsc.edu/goldenPath/panTro6/vsHg38/


出力は、mafとかいうフォーマット。以下のような3行の連なりが沢山(数百〜数千個)出てくる。

a score=25092
s chr5 104915 302 + 181538259 GGTGGAGAAACACTGCACAGGGGGTGAGGGCTGTTCCAGTTCTGGTGTTCCCGTCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCTGG-TTCTGGTGTTCCCATCCTGAAGGTGGAAAAACAGTGCACAGTGGGTGAGGGCTGTTCTGGTTCTGGTGTTCCCGTCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCTGGTTTTGGTGTTCCCGTCCTGAAGGTGGAGAAACACTCCGCAGTGGGTGAGGGCTGTTCTGGGTTCTCATGCTCCTGTCTTGAAG
s chr5  76020 302 + 176502593 GGTGGAGAAACACTCCACAGTGGGTGAGGGGTGTTCCAGTTCTGGTGTTCCCGTCCTGAAGGTGGAGAAACACTCCGCAGTGGGTGAGGGGTGTTCTGGGTTCTGGTGTTCCCATCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCTGGTTCTGGTGTTCCCATCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCTGGTTCTGGTGTTCCCATCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCT-GGTTCTGGTGTTCCCGTCCTAAAG

2行目は、1つ目の配列で、3行目が、2つ目の配列。完全に同一ではないが、よく似ていることは分かる。



結果を見ると、第一に、アラインメントされない領域が、割とある。ヒトvsチンパンジー、ヒトvsボノボだと、ヒトゲノムの5~10%がアラインメントされない(モノによっては、不明な塩基Nが結構含まれるが、除去して算出)。ボノボvsチンパンジーだと、アラインメントされない領域は、概ね5%未満の模様。

アラインメントされなかった配列の素性をいくつか調べると、CpGアイランドっぽいGC richな配列や謎の反復配列、レトロトランスポゾンLINE-1っぽいものがある。中には、遺伝子だと予測されてながら、他の種では、同じ場所に、相同遺伝子がないというケースもあった。ボノボの12番染色体には

LOC103786383 ATP synthase mitochondrial F1 complex assembly factor 1 [ Pan paniscus (pygmy chimpanzee) ]
https://www.ncbi.nlm.nih.gov/gene/103786383

があるけど、チンパンジーの12番染色体には、相同遺伝子がない。BLASTしてもhitしない。多分、チンパンジーでは、1番染色体にある。

ATPAF1 ATP synthase mitochondrial F1 complex assembly factor 1 [ Pan troglodytes (chimpanzee) ]
https://www.ncbi.nlm.nih.gov/gene/456558

ヒトでも相同遺伝子が1番染色体にあり、ボノボの1番染色体にも相同遺伝子があるので、元々は、1番染色体にあった遺伝子のコピーが12番染色体に挿入されるということが、ボノボだけで起こったのだと思われる。これが、発現して、何かの機能を果たしているのか、偽遺伝子なのかは分からないけど。

全体としては、LASTZは期待した結果を出しているように思われる。


第二の問題として、アラインメント元の領域に重なりがある場合がある。ゲノムには、コピーされた配列が遠く離れた場所にあったりするので、同一の配列が、複数箇所にマッチする可能性はあるけど、分子時計として使う場合、変異の個数をカウントしたいので、どのアラインメントを使うかで、変異の個数が変わる可能性があって、嬉しくない。

対処としてはいろいろ考えられる。
(1)オーバーラップのあるアラインメント元を結合して、再度マッピングし直す
(2)一意にアラインメントされた連続配列のみを使う
(3)オーバーラップは小さいので、重複カウントを許容する

(1)は、面倒くさいので、今回はpass
(2)をやると、使用できる塩基数は、全体の10〜20%くらいになるようだった。これを使うと、なんか変なbiasが入りそうにも思える。
(3)は、オーバーラップしている配列の長さが、どれくらいあるか見ると、全体の1〜2%程度だったので、(2)よりも、こっちの方がいいかもしれない

とりあえず、(2)と(3)の2つの方法で、変異をカウントすることにした。


第三の問題として、変異として、一塩基置換だけでなく、欠失・挿入(indel)変異が結構ある。非常に長いindel変異があった場合は、単にアラインメントされないだけで済むけど、数bpとか数十bpとかのindelも結構ある。

indel変異が、どうやって生じるのか知らないけど、一塩基置換とは、違う機構で生じてるだろうから、同列に扱って、変異数をカウントするわけにもいかない。どうするのが正解か分からないけど、ここでは、indelの数と一塩基置換の数を別にカウントする。


そんな感じで集計したのが以下の3つの表。チンパンジーボノボの2番染色体は、2Aと2Bを結合したもの。

項目の内容は、以下の通り。
長さ:種1の染色体の長さ
N以外長:種1の染色体からNを除いた長さ
アライン長:アラインメントされた配列の長さの合計(オーバーラップしてる場合、重複カウントなし)
NA率:1 - アライン長/N以外長
mm数:アラインメントのmismatch数
gap数:アラインメントのgap数
延べアライン長:アラインメントされた配列の長さの合計(オーバーラップしてる場合、重複カウント)
mm率:mm数/延べアライン長
一意mm数:一意にmapされた領域のmismatch数
一意gap数:一意にmapされた領域のgap数
一意アライン長:一意にmapされた領域の長さ合計
一意mm率:一意mm数/一意アライン長

種1 種2 染色体 長さ(bp) N以外長(bp) アライン長(bp) NA率(%) mm数(bp) gap数(bp) 延べアライン長(bp) mm率(%) 一意mm数(bp) 一意gap数(bp) 一意アライン長(bp) 一意mm率(%)
hg38 panPan3 1 248956422 230481012 211326047 8.31 4011423 2490943 218939691 1.83 489230 327328 37384259 1.31
hg38 panPan3 2 242193529 240548228 216230598 10.11 3191827 2356796 218702748 1.46 606728 392000 46921712 1.29
hg38 panPan3 3 198295559 198100135 192513270 2.82 2734338 1915719 194161004 1.41 459272 290331 34845909 1.32
hg38 panPan3 4 190214555 189752667 178311882 6.03 2602568 1843202 179568850 1.45 432645 271535 31295942 1.38
hg38 panPan3 5 181538259 181265378 172566849 4.80 2513031 1839739 174245507 1.44 469853 305126 35746564 1.31
hg38 panPan3 6 170805979 170078522 164233097 3.44 2348255 1758045 165709615 1.42 446327 298054 33412246 1.34
hg38 panPan3 7 159345973 158970131 139096154 12.50 2190826 1751305 141239753 1.55 410932 276398 30816340 1.33
hg38 panPan3 8 145138636 144768136 134358784 7.19 2140239 1518162 135957257 1.57 365951 220580 26724157 1.37
hg38 panPan3 9 138394717 121790550 107461797 11.77 1644566 1230962 108897061 1.51 305591 191731 21337822 1.43
hg38 panPan3 10 133797422 133262962 124549728 6.54 1820572 1349855 125620922 1.45 288628 188972 21262369 1.36
hg38 panPan3 11 135086622 134533742 126993565 5.60 1931728 1415019 128783087 1.50 395402 254502 28504913 1.39
hg38 panPan3 12 133275309 133137816 127511615 4.23 2013237 1535997 129623090 1.55 292995 198646 22584098 1.30
hg38 panPan3 13 114364328 97983125 93979048 4.09 1423431 1083806 95045780 1.50 235901 154696 17526209 1.35
hg38 panPan3 14 107043718 90568149 85596710 5.49 1214793 902336 86162736 1.41 185828 117081 13386909 1.39
hg38 panPan3 15 101991189 84641325 74652459 11.80 1154603 862767 75716063 1.52 189245 118180 13694205 1.38
hg38 panPan3 16 90338345 81805943 58332032 28.69 1072360 857620 59483550 1.80 138167 92094 8829857 1.56
hg38 panPan3 17 83257441 82920204 73887034 10.89 1226625 1156821 75482801 1.63 122733 89702 9334517 1.31
hg38 panPan3 18 80373285 80089605 72816500 9.08 1075197 809119 73640452 1.46 192004 120683 14766732 1.30
hg38 panPan3 19 58617616 58440758 52197242 10.68 1287588 1278307 54212987 2.38 113730 78528 5422289 2.10
hg38 panPan3 20 64444167 63944257 57950327 9.37 923266 729540 58644249 1.57 131835 86749 8961738 1.47
hg38 panPan3 21 46709983 40088619 32948983 17.81 562624 476912 33358823 1.69 72473 49665 4339058 1.67
hg38 panPan3 22 50818468 39159777 30341016 22.52 580286 567784 31273295 1.86 59108 41820 3934839 1.50
hg38 panPan3 X 156040895 154893029 138882071 10.34 1725370 1335905 140678371 1.23 316883 220643 29799564 1.06
hg38 panPan3 All 3031042417 2911224070 2666736808 8.40 41388753 31066661 2705147692 1.53 6721461 4385044 500832248 1.34
種1 種2 染色体 長さ(bp) N以外長(bp) アライン長(bp) NA率(%) mm数(bp) gap数(bp) 延べアライン長(bp) mm率(%) 一意mm数(bp) 一意gap数(bp) 一意アライン長(bp) 一意mm率(%)
hg38 panTro6 1 248956422 230481012 215833532 6.36 3202777 2340222 218834662 1.46 488415 323251 38379383 1.27
hg38 panTro6 2 242193529 240548228 228187989 5.14 3325430 2401774 230629960 1.44 549332 350165 42362608 1.30
hg38 panTro6 3 198295559 198100135 192455019 2.85 2737275 1901600 194174363 1.41 476359 302644 36248026 1.31
hg38 panTro6 4 190214555 189752667 179552479 5.38 2614502 1807970 180753955 1.45 450252 294916 31780919 1.42
hg38 panTro6 5 181538259 181265378 155687512 14.11 2260392 1644746 157149191 1.44 395220 250928 29926537 1.32
hg38 panTro6 6 170805979 170078522 164878095 3.06 2316294 1707706 166067400 1.39 432293 286325 33170628 1.30
hg38 panTro6 7 159345973 158970131 145995918 8.16 2323815 1912622 148463967 1.57 357182 234234 26537796 1.35
hg38 panTro6 8 145138636 144768136 138870391 4.07 2238209 1565088 140704853 1.59 342273 205295 24943797 1.37
hg38 panTro6 9 138394717 121790550 108265834 11.10 1655840 1233137 109537762 1.51 296335 183730 20749369 1.43
hg38 panTro6 10 133797422 133262962 125735092 5.65 1879342 1441851 127223721 1.48 255187 162895 19738611 1.29
hg38 panTro6 11 135086622 134533742 127793622 5.01 1996211 1446584 129954022 1.54 342653 212423 22548279 1.52
hg38 panTro6 12 133275309 133137816 127583029 4.17 2013686 1566677 129715958 1.55 239415 164539 18981808 1.26
hg38 panTro6 13 114364328 97983125 92823728 5.27 1413254 1088623 94008472 1.50 222636 145908 16739471 1.33
hg38 panTro6 14 107043718 90568149 85881820 5.17 1241760 944185 86727424 1.43 191949 126862 14477916 1.33
hg38 panTro6 15 101991189 84641325 74907636 11.50 1102410 809997 75473089 1.46 206258 134672 15211413 1.36
hg38 panTro6 16 90338345 81805943 69133372 15.49 4264843 3162593 85151336 5.01 195438 125850 13101659 1.49
hg38 panTro6 17 83257441 82920204 71026365 14.34 1174975 1094492 72624100 1.62 129927 96927 9896992 1.31
hg38 panTro6 18 80373285 80089605 73276926 8.51 1081080 819001 74084370 1.46 168131 104444 12671686 1.33
hg38 panTro6 19 58617616 58440758 52454285 10.24 1522710 1432471 55626497 2.74 69999 56400 3469737 2.02
hg38 panTro6 20 64444167 63944257 58982787 7.76 997655 812384 60110754 1.66 117187 81681 7931760 1.48
hg38 panTro6 21 46709983 40088619 32938437 17.84 564768 483475 33406289 1.69 100002 69666 6680505 1.50
hg38 panTro6 22 50818468 39159777 32591471 16.77 634735 621430 33616521 1.89 56852 43958 3445051 1.65
hg38 panTro6 X 156040895 154893029 143952140 7.06 1771650 1467389 145587312 1.22 351165 242928 32901624 1.07
hg38 panTro6 All 3031042417 2911224070 2698807479 7.30 44333613 33706017 2749625978 1.61 6434460 4200641 481895575 1.34
種1 種2 染色体 長さ(bp) N以外長(bp) アライン長(bp) NA率(%) mm数(bp) gap数(bp) 延べアライン長(bp) mm率(%) 一意mm数(bp) 一意gap数(bp) 一意アライン長(bp) 一意mm率(%)
panPan3 panTro6 1 224621958 220997261 211408421 4.34 1242852 1223351 214165393 0.58 247715 215892 57048896 0.43
panPan3 panTro6 2 234328823 232081668 221068373 4.75 1174894 1131774 222935250 0.53 244639 207520 56180170 0.44
panPan3 panTro6 3 195577393 195047306 193641211 0.72 988899 918601 195204995 0.51 198744 161942 45762412 0.43
panPan3 panTro6 4 182437434 181719665 179826027 1.04 966998 940551 181370766 0.53 243455 197249 56676707 0.43
panPan3 panTro6 5 176502593 175897314 157332894 10.55 818305 789075 158740747 0.52 183147 149644 41996818 0.44
panPan3 panTro6 6 168932342 167194355 165212354 1.19 1128505 952755 168097063 0.67 215167 172122 46373059 0.46
panPan3 panTro6 7 150536359 148119694 144148669 2.68 1015752 1045487 146732140 0.69 146631 127817 31155278 0.47
panPan3 panTro6 8 141842281 140480805 135782485 3.34 1115386 1135376 139867990 0.80 167380 135248 35673626 0.47
panPan3 panTro6 9 109767803 109102898 107466461 1.50 698559 644809 109265604 0.64 108252 86810 25132551 0.43
panPan3 panTro6 10 128853861 127403410 125455656 1.53 712645 711007 126726439 0.56 125168 104413 28882031 0.43
panPan3 panTro6 11 129867894 128778196 127836374 0.73 777013 737757 130017666 0.60 126076 100038 29767584 0.42
panPan3 panTro6 12 131319602 130620582 128842824 1.36 869906 853405 130936288 0.66 99972 86042 22909330 0.44
panPan3 panTro6 13 95736914 95347524 94636041 0.75 602614 635899 96078485 0.63 98474 79991 22727732 0.43
panPan3 panTro6 14 87894197 87229111 86107277 1.29 480703 470890 86828669 0.55 117367 101607 26751421 0.44
panPan3 panTro6 15 80799215 77887030 76499433 1.78 589840 580985 78734716 0.75 86680 76662 19255098 0.45
panPan3 panTro6 16 71000456 68862913 65288186 5.19 529206 562812 66784252 0.79 63103 58611 13190471 0.48
panPan3 panTro6 17 77747126 76408544 71450496 6.49 558443 690618 73637454 0.76 49753 49783 10307593 0.48
panPan3 panTro6 18 74093087 73811721 73319584 0.67 427623 431573 74307311 0.58 67895 54653 15603773 0.44
panPan3 panTro6 19 55604062 54161911 51332629 5.22 725355 704605 53560123 1.35 18966 21133 2851849 0.67
panPan3 panTro6 20 59769695 59326525 58701181 1.05 420088 462338 59851436 0.70 51222 45986 11314431 0.45
panPan3 panTro6 21 33144400 32979067 32656727 0.98 349002 356870 34092161 1.02 30791 26047 6226697 0.49
panPan3 panTro6 22 31064846 30827669 30369603 1.49 269873 332729 31369400 0.86 17707 21580 3453695 0.51
panPan3 panTro6 X 146233785 142690712 138587829 2.88 623812 689899 139844759 0.45 143017 133816 42843965 0.33
panPan3 panTro6 All 2787676126 2756975881 2676970735 2.90 17086273 17003166 2719149107 0.63 2851321 2414606 652085187 0.44

一応、同一種で異なるバージョンのゲノム配列を比較すると、どうなるのかという結果も示しておく。ヒト同士、チンパンジー同士でも、当然、個体差はあるが、以下の結果にある差が、何に起因してるものかは知らない。

配列1 配列2 染色体 長さ(bp) N以外長(bp) アライン長(bp) NA率(%) mm数(bp) gap数(bp) 延べアライン長(bp) mm率(%) 一意mm数(bp) 一意gap数(bp) 一意アライン長(bp) 一意mm率(%)
hg19 hg38 All 3036303846 2835673565 2822164041 0.48 2492583 2055392 2852841368 0.09 54529 54025 1189501531 0.00
panTro3 panTro6 All 3120320700 2730903704 2639535394 3.35 5905860 11426105 2658755472 0.22 2919588 6947610 2212217864 0.13


ヒトvsチンパンジー、ヒトvsボノボは、よく似た結果となってる。ボノボチンパンジーが似てるので、当然だけど。

X染色体のミスマッチ率はやや低く、X染色体は変異が少ないという一般的な報告と一致している。19番染色体は、どの組み合わせでも、変異が多いように見える。これは、本当に、変異が多かったり少なかったりしてるのか、よく分からない。19番染色体は、hg19:hg38やpanTro3:panTro6の比較でも、ミスマッチ率が高い。

ミスマッチ数は、チンパンジーvsボノボと、ヒトvsチンパンジーでは、2.5倍弱の違いがある。時間経過と共に、NA率やミスマッチ数が一定率で増えていくとすれば、分岐時期が、その程度違うのだと考えられる。TIMETREEによると、複数の研究の予測分岐年代の中央値が、240万年と640万年で、比率は2.67だから、これらが概ね正解の可能性もある。

分子時計では、相同率が小さい場合は、多重置換(同じ箇所で複数回の置換が起こること)や復帰置換(同じ箇所で2回以上の置換が起こって、元の塩基に戻ること)によって、ミスマッチ数と分岐時期が比例するとは考えられなくなる。ヒトとチンパンジーボノボは、十分似てるので、このような影響は小さく、無視して差し支えないと思われる。



一般的に、ヒトとチンパンジーのゲノムは98%以上似ているとか聞くけど、確かにアラインメントされた領域での一致率は、それくらいある。一方で、アラインメントされてない領域が8%くらいある。hg38とpanTro6,panPan3では、そもそも、配列の全長が7〜8%ほど違うので、この差は、むしろ当然にも思える。ただ、この領域が、何なのかは気になる。

大きなNA率を持つ染色体をいくつか確認すると、16番染色体は、中央付近の16p11.1、16q11.1、16q11.2付近の領域が、ヒト固有らしいけど、アノテーションされてる遺伝子が全然ない空白地帯になってる。
Chr16:1-90.34M
https://www.ncbi.nlm.nih.gov/genome/gdv/browser/?context=genome&acc=GCF_000001405.39&chr=16

この付近に相当する領域が、他の類人猿にないのは確からしいが、ヒトでは、Nになってて配列が決定されてない部分も多くて、アノテーションできてないだけかもしれない。大体、8.5(Mb)程度は、Nになってて、この付近20(Mb)近くに及ぶ配列の相同領域が、チンパンジーボノボで確認できない。9番染色体のセントロメア付近にも同じような領域がある。

他に、13,14,15,21,22番染色体のp-arm端っこに似たような領域がある。これらは、アクロセントリック染色体というカテゴリーに分類され、Robertson型転座を起こすことで知られる。Robertson型転座の一般的説明では、これらの短椀がなくなっても、表現型は正常とされる。多分、これが根拠で、アクロセントリック染色体の短椀には、遺伝子が載ってないとか、重要な遺伝子がないとされている。

配列が決定されてない割合が高くて、アノテーションされた遺伝子もないけど、例外的に、21p12は、遺伝子がアノテーションされてる。これは、何らかの予測アルゴリズムによって、遺伝子コーディング領域と判定されただけのようで、本当に、遺伝子をコードしてるのかは分からない。
Chr21:1-46.71M
https://www.ncbi.nlm.nih.gov/genome/gdv/browser/genome/?id=GCF_000001405.39&chr=21

21番染色体のこの領域に相同な領域は、チンパンジーボノボの他の染色体上にも見つからなかったので、どこから来たのか謎。ゴリラにもないので、ヒトとチンパンジーボノボの系統が分岐した後、チンパンジーボノボが、これに相当する領域を失ったというわけでもなさそう。

とりあえず、全体として、200〜300(Mb)ほど、ヒト固有配列が存在してるように見える。今の所、これらの領域が特に重要だと考える理由はないっぽい。

そういうのとは別に、他の種では保存されてるのに、ヒトだけ変化が著しいhuman accelerated regionsというのも知られている。それが重要なのかは知らない。



TIMETREEに載ってる結果は、分子時計によるものだけど、分子進化速度一定という条件だけでは、分岐時期の相対年代しか決まらない。絶対年代を決めるために、化石年代に基づくcalibrationを利用してるのが普通じゃないかと思う。calibrationに使う基準年代は恣意的で、正しい方法とかはない。よく使われる標準的な年代はいくつかあるけど、それが正しくないと、多くの結果が共倒れになる。一方、仮に、分子進化の速度が一定なら、現代で、直接、変異率を測定してもいいはず。絶対的な分子進化の速度が測定できれば、化石年代に依存しない分岐時期推定ができるようになるはず。

一世代で、どれくらい新しくSNV(single nucleotide variant)が増えるか、理論的に知ることは難しいと思う。DNAポリメラーゼが、どれくらい複製ミスを起こすか程度なら、もしかしたら見積もれるかもしれない。細菌でも、複製ミスの校正機構があるので、実際のSNV獲得速度の予測は難しくなる。哺乳類とかになると、生殖細胞の分裂速度も種によって違うだろうが、何で決まってるのか分からない。

SNV増加速度が、種の存続を維持できる限界になっているみたいな条件(つまり、高すぎる変異率は有害変異増大のリスクがあり、低すぎる変異率は環境適応力低下のリスクがあるので、どっちかのリスクが、限界スレスレになるような変異率になってるかもしれない)が成立している可能性もあるけど、定かではないし、そういう観点から変異率を決定するのも難しそう。

なので、一世代で、どれくらいSNVが増えるか、実験的に調べるしかない。2010年頃から、こういう検証が可能になって、いくつか報告が出ている。

Fathers bequeath more mutations as they age
https://doi.org/10.1038/488439a

Rate of de novo mutations and the importance of father’s age to disease risk
https://doi.org/10.1038/nature11396

Similarities and differences in patterns of germline mutation between mice and humans
https://www.nature.com/articles/s41467-019-12023-w

"変異"/mutationと書いてるが、点変異以外に、挿入、欠失なども変異ではあるので、SNVという方が適切に思う。

最初の論文には、父親(の生殖細胞)から受け継がれる変異の方が多く、(現代では)平均して、父親から55個、母親から14個の変異(合計69個)を受け継いでて、また、父親の年齢が高いと、変異が急速に増えるとも書いてる。

2番目の論文には、父親の年齢と新生児の変異数のグラフが載ってて、"The number of mutations increases with father’s age with an estimated effect of 2.01 mutations per year"とある。

3番目の論文は、数字だけほしいなら、TABLE1を見るのがいいと思う。ヒトでは、世代あたりの新規変異数は、平均71個。" Mutation rate per genome per generation"は、1.22e-8となっている。ヒトゲノム配列の決定された長さが29.1e8(bp)で、染色体は2本ずつあるので、71/29.1e8/2=1.22e-8ってことだろう。一世代30年として計算された"Mutation rate per year"は、4.08e-10で、一年で平均2〜3個変異が増えるのに相当。

ついでに、マウスは、ヒトより大分変異が入る頻度が高いらしい。一世代で20個となっていて、マウスの一世代は3ヶ月とか言われるが、ここでは、一世代9ヶ月を仮定したと書いてある(マウスの飼育をしたことがないので、実際の感覚としてどうなのか分からないが)。それでも、ヒトの10倍くらいの速度で新規SNVを獲得していく見積もりになる。

進化的に遠い動物を見ると、ショウジョウバエの変異率の報告が2007年の論文に出ていて、Abstractには、変異率は、8.4e-9(/site/generation)だと書いてある。
Direct estimation of per nucleotide and genomic deleterious mutation rates in Drosophila
https://doi.org/10.1038/nature05388
ショウジョウバエのゲノムサイズは、200(Mb)程度で、染色体は2本ずつあるので、一世代当たり3個くらい変異が入る計算。ショウジョウバエは、実験室では、最大2ヶ月ほど生きるが、ここでの一世代が何を指してるのかは定かでない。一世代1.5ヶ月とすれば、ショウジョウバエのSNV獲得速度は、年間25個くらいだろう。マウスと大差ないってことになるけど、本当か?


以下、数百万年程度の短期間では、同じ箇所に変異が入るケースは十分少ないと考える。つまり、ある塩基配列に頻度αでランダムに置換が入った2つの配列を比較した場合、同一箇所に同じ変異が入る可能性もあるので、ミスマッチ率の期待値は\beta = 2\alpha - \dfrac{4\alpha^2}{3}となるが、αが小さければ、第二項は無視できる。また、点置換は、過去に一度起こった箇所に再度起こる可能性もあって、αは世代数や経過時間に厳密に比例するわけではないけど、その影響も無視する。

ヒトの世代あたりの新規変異数が、上の論文にある通り、平均71個で、一世代30年とすると、年平均2.4個程度の新規SNV獲得がある。そうして仮に、ヒトとチンパンジーボノボで、SNVが同程度の頻度で増えるなら、ミスマッチ数は、ゲノム全長は30億bpとして(染色体は2本あって、片方だけ見ると変異の数は半分になるので)年平均2.4bp/yearくらいで増加していくだろう。現在のミスマッチ数が、30億bpの1.5%と考えると、このミスマッチ数に到達するまで、約1900万年かかるという計算になる。つまり、ヒトとチンパンジーボノボの分岐年代が、そのあたりということ。これは、一世代30年に基づく計算なので、かなりざっくりしてはいる。仮に、一世代20年で、世代あたり変異数が71個だとすれば、分岐年代は、約1300万年前になる。

大分、単純な算数だけど、難しいモデルを使って得られる見積もりが信用できるかも分からない。それとは別に気になるのは、SNV検出の信頼性で、解析の方法を見る限り、取りこぼしたSNVがないか分からない。ただ、生データもないし、これに関しては、書いてることを信用するしかない。

また、これらは現代のデータであって、現代のヒトの生活は、野生とは大きく異なってるので、そのまま過去の数百万年に適用していいかも疑問がある。それに、マウスとヒトでは、SNV増加速度が大きく異なってるので、ヒトとチンパンジーボノボのSNV増加速度が、同程度かどうかも検証されるべきである。けど、チンパンジーボノボの計測は少ない。


チンパンジーで、一世代で生じる新規SNVを調べた最初の論文は、2014年のものだと思う。
Strong male bias drives germline mutation in chimpanzees
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4746749/
が、その論文で、変異率は、ヒトと、あまり変わらないと報告している。父親の年齢と変異数のグラフFig3(B)にある通り、ヒト同様、父親の年齢増加と共に、変異数も増加するらしい。父親の年齢増加による影響が、ヒトより大きいとも書いてるけど、標本数が少ないので、言い切るには根拠が弱い気もする。

チンパンジーも飼育下にあるものなので、野生なら違う数字が出るとかいう可能性もなくはない。この論文では、一世代で平均35の新規変異が検出できたが、そもそも、チンパンジーの生殖年齢が野生より若く、実験で使用できた常染色体の長さが、2360Mbだったことなどから、野生下では、もう少し多くの変異が入ると考えているらしい。

論文では、変異率を1.2e-8/bp/generationと書いてる。単位が"per basepair per generation"って分かりにくいと思うけど、1.2e-8/site/generationと同じ意味と思われる。野生チンパンジーの父母の平気年齢が、24.3歳と26.3歳なので、一世代の長さは25年くらいで、一年あたりの変異率は、4.8e-10(/site/year)くらいとなる。論文では、4.6e-10(/site/year)とかいう数字が出ているから、こっちを使おう。ヒトとチンパンジーの変異速度が、こんなものであれば、(ゲノム全長は30億bpとして)ミスマッチ数は、2.76bp/year程度の速度で増加する。

論文では、ヒトとチンパンジーの常染色体のdivesityを1.2%と計測してる(私は、X染色体も含めて1.6%くらいになってるけど、使用配列や条件が違うせいだろう)ので、ヒトとチンパンジーの分岐年代は1300万年前と見積もられている。diversityが、1.5%くらいなら、分岐時期は1630万年前となる。


2017年には、
京都大学霊長類研究所チンパンジー・アイ
https://www.pri.kyoto-u.ac.jp/sections/langint/ai/ja/friends/akira.html
らを対象とした計測がなされたらしい。

Direct estimation of de novo mutation rates in a chimpanzee parent-offspring trio by ultra-deep whole genome sequencing
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5666008/

が論文で、一年あたりの変異率は、6.2e-10(/site/year)とされている。標本数は少ないが、coverageが高い。ミスマッチ数増加速度にすると、3.72bp/yearで、ヒトとチンパンジーのdiversityが1.5%なら、分岐時期は1200万年前。子供は、父母が24歳の時に生まれたらしく、ターゲットになってるゲノム領域のサイズの違いを勘案すれば、得られた結果は、既に言及した2014年の報告と大きな齟齬はないと思う。

チンパンジー親子トリオ全ゲノム解析による世代間直接変異率の推定
https://doi.org/10.14907/primate.30.0_46_2

は論文に先立ってなされた学会発表じゃないかと思うけど、この時は、"2x10−8/site/generation という変異率の結果を得た"と書いてあって、論文では、1.48e-8(/site/generation)に下方修正されてる。

ともかく現時点では、直接測定した変異率から算出されるヒトとチンパンジーの分岐時期は、いくつかの要因で大きめの誤差が出るものの、見つかってる化石から予想されている時期と比べると、2倍程度の差があるということになる。

生物学者がどういう基準で種の区別をしてるのか何も知らないけど、遺伝型の分岐が始まっても、すぐに別種になるわけではない。例えば、地理的隔離が起きて、2つの集団が交流できない状態に置かれた場合、隔離された時点で分岐は始まるけど、暫く(多分、数十万年〜数百万年)の間は、別種か亜種か曖昧な状態にある。なので、分子生物学に基づく分岐時期の方が古くなるのは意外ではない。それでも、2倍近い開きは、ちょっと許容し難い気もする。

明確に、形態的な差が見られるまで、どのくらい時間がかかるのかは、何とも言えない。数百万年単位の時間になる場合もあるなら、この食い違いは矛盾ではないのかもしれない。だとすると、人類誕生の瞬間とかいうのが、点推定できるとか、せいぜい幅10万年くらいの幅で区間推定できるという考えの方が間違ってるってことかもしれない。



別の可能性として、ヒトやチンパンジーのSNV獲得速度が、昔は、もっと早かったということも考えられる。昔のSNV獲得速度を直接測定することはできないけど、チンパンジーボノボの平均的なSNV獲得速度が同程度だっただろうことは、ヒトvsチンパンジー、ヒトvsボノボで、ミスマッチ数が、あんまり変わらないことが、一つの証拠になると思う。

同様に、過去に、ヒトとチンパンジーボノボで、平均的なSNV増加速度が大きく違っていたかどうかは、ゴリラvsヒト、ゴリラvsチンパンジー、ゴリラvsボノボで、ゲノム配列の比較をして、ミスマッチ数が同程度であるかどうかを見ればいいと思われる。ヒトのSNV増加がチンパンジーボノボより遅いのであれば、ゴリラvsヒトでのミスマッチ数は、ゴリラvsチンパンジーのそれより少なくなるだろう。

それを、ヒトvsチンパンジー、ヒトvsボノボなどと同様にして、集計したのが以下の表。全ての染色体を総合した値だけ記載しておく。ゴリラの染色体再編成に気付いてなかったので、微妙に正しくないけど、ミスマッチ率に大きな影響はないと思う。

種1 種2 染色体 長さ(bp) N以外長(bp) アライン長(bp) NA率(%) mm数(bp) gap数(bp) 延べアライン長(bp) mm率(%) 一意mm数(bp) 一意gap数(bp) 一意アライン長(bp) 一意mm率(%)
hg38 gorGor6 All(誤) 3031042417 2911224070 2505541453 13.94 46389396 32032823 2529294557 1.83 8388576 5095767 488943692 1.72
panTro6 gorGor6 All(誤) 2806264745 2778203836 2458126908 11.52 45581086 29988783 2480919890 1.84 9303630 5366060 543123352 1.71
panPan3 gorGor6 All(誤) 2787676126 2756975881 2411986204 12.51 44802651 29484228 2435742153 1.84 8990493 5185914 525940481 1.71

ミスマッチ率に殆ど差がないので、おそらく、ヒト、チンパンジーボノボのSNVは、ほぼ同じ割合で増えてきたと考えられる。この割合が大きく変動して、たまたま、同程度のミスマッチ率になっているという可能性もなくはないけど、新規SNVの出現頻度は比較的安定していて、同程度のミスマッチ率になっていると考える方が自然に思われる。

ゴリラのSNV増加速度が、ヒト・チンパンジーボノボと同程度かは再び分からないが、それを知りたければ、今度は、オランウータンvsヒト、オランウータンvsゴリラなどでミスマッチ率を比較すればいいはず。

Revising the human mutation rate: implications for understanding human evolution
https://doi.org/10.1038/nrg3295
のFigure1を見ると、ゴリラ、チンパンジーの変異率は同程度だが、オランウータンやアカゲザルなどは、それより少し高頻度だと書いてある。

ヒト、ゴリラ、チンパンジーボノボとオランウータンのゲノム比較情報を集計してみると、以下のようになっていた。

種1 種2 染色体 長さ(bp) N以外長(bp) アライン長(bp) NA率(%) mm数(bp) gap数(bp) 延べアライン長(bp) mm率(%) 一意mm数(bp) 一意gap数(bp) 一意アライン長(bp) 一意mm率(%)
hg38 ponAbe3 All 3031042417 2911224070 2571366884 11.67 92428393 57288976 2608437771 3.54 15188373 8240948 456454886 3.33
gorGor6 ponAbe3 All(誤) 2757155739 2715359355 2369321035 12.74 84650232 49597010 2397492689 3.53 15192869 7948024 453217728 3.35
panTro6 ponAbe3 All 2806264745 2778203836 2496060105 10.16 89839276 54030407 2531232513 3.55 15402587 8189403 461144924 3.34
panPan3 ponAbe3 All 2787676126 2756975881 2480799795 10.02 89115234 53403694 2515549386 3.54 15563149 8267168 465299818 3.34

なんかミスったか心配になる程度に、ミスマッチ率が近い。染色体ごとに見ると、結構違いがあるけど、平均化すると、ほぼ同じ感じになる。ヒトとゴリラが分岐して結構経つのに、これくらい近い数字が出るということは、新規SNV出現頻度は、ヒトとチンパンジーが分岐する以前から、安定していたと考えるのが、自然に思える。過去に、ヒトのSNV獲得頻度の変動があったとすれば、チンパンジーボノボ、ゴリラなどでも、共通の影響を受けた可能性が高い。そのような変動があったとしても、この表からは、何の情報も引き出せない。

ヒトvsオランウータン、ゴリラvsオランウータンのmm率は、ヒトvsチンパンジーやヒトvsボノボの2.5倍弱。SNV獲得速度が、ヒトとオランウータンの系統で、ずっと一定だったなら、ヒト・オランウータン分岐年代と、ヒト・チンパンジーの分岐年代の比は、2.5倍程度になるはず。つまり、ヒト・チンパンジーの分岐が600万年前なら、ヒト・オランウータンの分岐は1300〜1500万年前とかいう計算になる。

SNV獲得速度が、ヒトとオランウータンで違うなら、この見積もりは妥当でなくなる。それを見るには、大型類人猿と近縁なテナガザルとの比較を見るというのが自然な流れだけど、テナガザルは、染色体数が大型類人猿と異なり、ゲノム配列も割とシャッフルされてるらしいので、ゲノム全体の比較も、大型類人猿同士の時より少し面倒になる。アカゲザルなんかの方が、むしろ対応関係は単純で、そっちを使えばいいかもしれないけど、それでも、大型類人猿のように、単純な1:1対応は作れないので、一旦、ここで打ち止め。

チンパンジー、ゴリラ、オランウータンの実物すら見たことないけど、若干の疑問はあるとはいえ、とりあえず、大型類人猿の系統関係が確認できてよかった。


話が逸れるけど、増殖のたびに変異が入るのは、生殖細胞以外の体細胞も同様である。生殖細胞以外での変異率は、どうなってるのか気になる。組織ごとに、幹細胞に入る点突然変異の数を調べた論文が、2016年に出ている。

Tissue-specific mutation accumulation in human adult stem cells during life
https://doi.org/10.1038/nature19768

途中までしか読んでないけど、Figure1を見る限り、結腸、小腸、肝臓について、それぞれ10〜20人程度の比較を行っていると思われる。結論は単純で、組織や年齢によらず、平均して、年間40個程度の変異が入るとしている。ヒト生殖細胞の変異が2〜3個/年だったのと比べると、相当に多い可能性がある。教科書的には、肝臓細胞は、年に一回程度分裂するらしい(大部分の時間は、G0期で細胞周期は停止している、とされている)。そうすると、肝臓では、一回の複製で、40個ほどコピーミスがあるということかもしれない。

Somatic mutagenesis in satellite cells associates with human skeletal muscle aging
https://doi.org/10.1038/s41467-018-03244-6

は、2018年の論文で、21〜78歳のヒトの骨格筋の幹細胞であるサテライト細胞に蓄積しているSNVを調べたらしい。Abstractしか見てないけど、高齢者の方が、変異が多く、変異の蓄積は、平均して13個/年だと書いてある。

40とは結構差があるけど、骨格筋はトレーニングによって増殖したりするわけだし、ゲノム複製一回あたりの変異の数がどうなってるかは分からない。

Clonal dynamics of haematopoiesis across the human lifespan
https://doi.org/10.1038/s41586-022-04786-y

は2022年出版で、主題は変異数を数えることではないけど、Abstractには、造血幹細胞ゲノムに、年平均17個の変異が入るとか書いてある。

組織ごとの細胞増殖速度とかは、よく分からないが、多くの組織で細胞分裂回数の目安としてテロメア長を使うことができる。テロメア長が年齢と共にどう変化するかは、多くの組織で測定されてる。例えば、2005年の総説

テロメア変化から老化を探る
https://www.jstage.jst.go.jp/article/faruawpsj/41/10/41_KJ00009718493/_article/-char/ja

の表1に、多くの測定値が載っている。これによると、肝臓では、年平均55,60,120bp短くなるという3つの報告があるらしい。テロメア長が一回の複製で50〜100bpくらい短くなってるという話を考えると、肝臓細胞が年に一回程度分裂するというのと整合的ではある。

Telomeres shorten at equivalent rates in somatic tissues of adults
https://doi.org/10.1038/ncomms2602

は、2013年の論文で、白血球、筋肉、皮膚、脂肪組織のデータがあり(Figure1)、一次関数でフィッティングすると、いずれの組織も、年平均でおよそ25bpずつ短くなってるらしい。測定は、TRF(telomere restriction fragment)法と呼ばれる古典的な方法による。上総説には、皮膚表皮で36bp/yrという数値が見られる。小腸および大腸粘膜は42bp/yrとなっている。測定データの精度が低くて、確定的なことは言えないけど、肝臓や小腸に見られる変異蓄積の多さは、分裂の頻度が高いことで説明できるのかもしれない。



元の話に戻る。上記の分岐年代推定は、一塩基置換に注目して算出している。それはそれでいいけど、ヒトと類人猿のゲノムを比較すると、それ以外の理由による変化も大きい。

ゲノムが変化する要因には、レトロトランスポゾンの転移や挿入、それからsegmental dupliactionなどが考えられている。segmental duplicationは、遺伝子重複を起こす場合がある。最近は、遺伝子重複やコピー数多型が、意外と沢山あることが示されつつある。ヒトの重複遺伝子の中には、ヒトとチンパンジーボノボが分岐した後に生じた(と思われる)ものも見つかってる。これらの遺伝子は、パラログとはいえ、ヒト固有の遺伝子ということになる。

ヒトのゲノム配列から、このような新規重複遺伝子の候補は列挙できると思うけど、現時点で、実際に発現しているかどうか確認されてるのは、ごく少数だと思う。見かけ上、沢山あるけど、実際に機能してるのは、10個くらいだったとかいうことも、今の所は、ありえるかもしれない。

Lineage-Specific Gene Duplication and Loss in Human and Great Ape Evolution
https://doi.org/10.1371/journal.pbio.0020207

は2004年の論文で、このような可能性を網羅的に検証しようとした初期のものだと思う。

以下の論文は、一部の遺伝子(全遺伝子の10%程度)は、ヒト同士であっても、コピー数バリアント(多型は、人口の1%以上に存在しないとダメとかいう定義があるけど、コピー数多型と同じようなもの)が見られるということが書いてある(後者の論文のFig3Bなども参照)

Diversity of human copy number variation and multicopy genes
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3020103/


ヒト固有の重複遺伝子で、よく調べられてるのは、神経系に影響する可能性のあるものが主っぽい。ARHGAP11Aの重複遺伝子ARHGAP11B、SRGAP2の重複遺伝子(SRGAP2B,SRGAP2C,SRGAP2Dなどと名付けられている)などは、神経系で何らかの働きをするらしい。これらのコピー数は、ヒトでも、個人差がある。

他に、Notch2NL遺伝子のコピー(Notch2NLA,Notch2NLB,Notch2NLC,Notch2NLR)は、ヒトの脳の容量増大に寄与したという仮説がある

Human-Specific NOTCH2NL Genes Affect Notch Signaling and Cortical Neurogenesis
https://doi.org/10.1016/j.cell.2018.03.051

Notch2NL遺伝子群も、コピー数が人によって違うらしく、Notch2NLRは、1コピーも持たない人が、14%いると書いてある(どういう母集団か確認してない)。Notch2NL遺伝子群は、ヒト、チンパンジーボノボ、ゴリラの共通祖先で、Notch2遺伝子の部分重複で生じ、チンパンジーやゴリラでは、偽遺伝子化してるが、ヒトでは、機能を持った遺伝子として働いてるらしい。



重複領域を、機械的に抽出できるか、実験しようと思って、試しに

lastz hg38/chr1.fa hg38/chr1.fa --chain --gfextend --gapped --step=20 --format=maf > hg38_vs_hg38_chr1.maf

とかやって、異なる領域に、アラインされたものを確認すると、1番染色体では、86対の相同性の高いセグメントが見つかった。100bpに満たない短い領域もあるけど、半分くらいは、100〜10000bpの範囲にあり、長い場合は、10万bp以上というのもある。

panTro6やponAbe3の1番染色体で、同じことをやると、hg38の場合と同程度の個数の相同領域対が見つかったが、10万bpを超えるものはなかった。これが、LASTZの問題なのか、ゲノム配列の質の問題なのか、実際に、ヒトでのみ、長い領域の重複が起きたのかは分からない。

hg38では、10万bp以上の相同領域が9対見つかり、25万bpを超える対も2つある(但し、これらは、ほぼ同一の場所なので、実質的には一対)けど、hg19でやった場合は、10万bpを超えるのは2対のみで、最も長い領域で12.5万bp程度。

ここに書いた方法で検出できた(一番染色体上の)相同領域の長さは、(コピー元とコピー先を合わせて)延べ4700kbp弱だった(ほとんど重なってる領域もあるけど、何も考えずに足してる)。これらの重複領域は、別に、ヒト固有のものとは限らないので、ヒト固有の重複領域かどうかは、別途確認していく必要がある。


ここでは、取れてほしいものが取れてるかだけ確認しておく。

1番染色体上には、Notch2とNotch2NL(A,B,C,R)遺伝子がある。この方法で、Notch2NLAを含む領域は検出できなかったけど、Notch2NLAとNotch2NLRを含む領域同士、NotchとNotch2NLCを含む領域同士の対応が取れてそうだった。まぁ、こんなんでも、そこそこうまくいくらしい。これらの遺伝子の位置は、以下のサイトを参照した。
NOTCH2
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2

NOTCH2NLA
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2NLA

NOTCH2NLB
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2NLB

NOTCH2NLC
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2NLC

NOTCH2NLR
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2NLR

染色体同士の比較だと、Notch2NLAが出てこなかったけど、Notch2NLAを含む8万bpちょっとの領域を切り出して、

lastz notch2nla.fa hg38/chr1.fa --chain --gfextend --gapped --step=20 --format=maf > notch2nla_vs_hg38_chr1.maf

みたいなことをすると、4つの相同領域が取れてる。どれも、6〜9万bpの長さで、Notch2を含む領域以外が取れてるっぽい。

これらの遺伝子は近くにあって、gene conversionによって、重複遺伝子間の相同性が維持されるようなことがあった(ある)と考えられているので、これらの遺伝子重複がいつ起きたか見積もるのは、簡単ではなさそう。

また、重複遺伝子が出現して、すぐに表現型が変化したとも限らない。表現型に反映されるには、遺伝子ができるだけでなく、発現の調節もされないといけない。長い間、偽遺伝子だったものが、ある時復活するということもありえる。




ボノボでは、別の染色体上に、遺伝子のコピーが挿入されている例を上で見たけど、ヒトにも同様の例はある。1番染色体上にあるNotch2NLAの近くには、HYDIN2というヒト固有の遺伝子があり、16番染色体にあった遺伝子HYDINから部分的な重複とgene fusionを経て形成されたものと予測されている。論文では、その出現は、約320万年前とされている(前提として、ヒトとチンパンジーの分岐年代を約600万年前と仮定している)。

The birth of a human-specific neural gene by incomplete duplication and gene fusion
https://doi.org/10.1186/s13059-017-1163-9

これも、機械的に抽出できるか実験する。

lastz hg38/chr1.fa hg38/chr16.fa --chain --gfextend --gapped --step=20 --format=maf > hg38_chr1_chr16.maf

として、1番染色体と16番染色体で、相同性の高い領域を探すと、10万bpを超える対が2つ見つかり、この2つは隣接しているので、一回の重複で生じたものかもしれない。そして、この領域は、HYDINやHYDIN2がある領域と重なっている。

この2つの相同領域対の全長は、1番染色体上で278kbp、ミスマッチ数の合計は1659で、ミスマッチ塩基の割合としては、大体、0.6%くらい。異なる染色体上にあるので、重複が起きた後、組み換えなどは起きなかったと考えてもいいだろう。

仮に、ヒトでSNVの増える頻度が、1.0e-9/site/yearだとすれば、このミスマッチ数が生じるまでにかかる時間は、1659/(2*278e3*1.0e-9)で、大体、300万年程度。元の論文より手抜きではあるが、論文の見積もりと、そんなに変わらなそうである。論文では、もう少し広い単一の領域を使って、チンパンジー、オランウータンのゲノムとのアラインメントも与えている。

論文の数字では、348kbpの領域に、分岐後、908と845の一塩基置換があったと書いている。この場合、ミスマッチ数は1753で、ヒトのSNV増加頻度が、1.0e-9/site/yearなら、このミスマッチ数が生じるのにかかる時間は、1753/(2*348e3*1.0e-9)で250万年程度。






最後に、20世紀〜21世紀初頭の"人類起源論"に関わる古生物学(古人類学)界隈の記述を中心に、いくつか集めてみた。

[1930年]人類の誕生地
https://doi.org/10.5026/jgeography.42.1

[1931年]人猿間の二動物
https://doi.org/10.5026/jgeography.43.187

放射年代測定以前の時代で、人類の起源が、アフリカ、アジア、ヨーロッパのどこにあるか議論されてたらしい。前者では、紀元前15000年前とか25000年前のヒトの制作物が発掘されたみたいな記述が散見されるが、人類自体の出現時期は言及されてない。後者も、更新世(約258万年前〜1万年前)という地質年代への言及はあるけど、具体的な年代の決定には至ってなかったのかもしれない。


[1951年]北京人類の失踪
https://doi.org/10.5026/jgeography.60.195
には、以下のようにある。北京原人の絶滅時期を75万年前としているけど、どうやって推定した年代なのかは不明。

この埃にまみれた眞鍮製の2個のトランクの中には今から75万年程以前に絶滅し,そして20世紀の初期に発掘せられ そしてまた第二次世界大戦の日本軍眞珠湾攻撃の直後再び行方不明となった原始人類の化石がおさめられてあるのである。
この失われた原人は北京人類(シナントロープス・ペキネンシス)と呼ばれるもので現在知られた祖先人類の中ではジャバの直立猿人とともに最古のものであり猿と人類との間では最も原始的なものと云われているのである

1960年代に、カリウム・アルゴン法による地質年代/化石年代の測定と、分子時計による分岐時期の推測が始まった。当時の分子時計は、タンパク質のアミノ酸配列に基づくもので、また化石年代をcalibrationに利用していた。

[1963年] Some Fallacies in the Study of Hominid Phylogeny
https://doi.org/10.1126/science.141.3584.879
この論文では、カリウム・アルゴン法の論文が、in pressとして引用されている(1964年に出版されたらしい)。本文中では、いくつかの化石記録から、

but most hominoid genera probably endured for at least 3 to 7 million years without much change of form.

という推測を述べている。


[1967年] Immunological Time Scale for Hominid Evolution
https://doi.org/10.1126/science.158.3805.1200

分子時計を用いた推定。分子生物学の結果ではあるが、ヒトと旧世界ザルの分岐時期を3000万年前と仮定した場合、ヒトと"African apes"の分岐時期は500万年前だと書いている。"African apes"と書いてるのは、ゴリラとチンパンジーのどちらが、ヒトに近縁なのか決定できなかったためらしい。実際、上で見たように、ゴリラとチンパンジーの分岐時期は比較的近い。


[1980年]東アフリカおよびエチオピアにおける最近の人類化石の諸発見
https://doi.org/10.1537/ase1911.88.1

カリウム ・アルゴン法により,この堆積物の年代は少なくとも359万年よりは古く,多分377万年ぐらいの古さを示している。 これらの化石はロサガムから出土した人類かどうか疑わしい顎化石(BEHRENSMEYER,1976)を除けば,東アフリカにおける最古の人類ということにな る。

[2003年]2つの人類起源論と人類のこれから
http://hdl.handle.net/10723/464

もっとも近縁のチンパンジーボノボとの共通祖先から分かれて最初の人類が誕生したのは、DNAの研究からおよそ500~700万年前だと推定されている。これに対して、一昨年東アフリカから見つかったオロリンと命名された化石は、約600万年前のものだと推定されている。もしこれが、人類直系の祖先だとすれば、「ミッシングリンク」は、もはや存在しないことになる。

[2009年]ケニア,ナカリでの古人類学調査
https://doi.org/10.1537/asj.117.111

大分慎重な書き方にはなってるが、

私も,従来の分子生物学による分岐年代推定値は新しすぎると考える。これまで,オランウータンの分岐を1300~1200万年前とする推定が多い。これは,オランウータンの祖先種とされるシバピテクスの初出年代1250万年前に近く,整合性があるように見えるが,そうではない。

それならば,分岐年代が1500万年前よりも新しいことは考えにくく,それに合わせゴリラ,チンパンジーの分岐年代も下がるはずであろう。

などの記述がある。

分子生物学の名誉のために、TIMETREEを見ると、ヒトとオランウータンの推定分岐年代は、60の報告が列挙されていて、中央値は1520万年前となっている。ヒトとチンパンジーボノボの分岐年代と同様、推定の幅は広く、820万年前としているものがある一方、3000万年前としているものもある。

上の方に書いた通り、大型類人猿のSNV獲得速度が全部等しく一定であり、かつ、ヒト・チンパンジーの分岐年代が600万年前であると仮定した場合、ヒト・オランウータンの分岐年代は、1300〜1500万年前くらいになる。TIMETREEでは、ヒト・サルの分岐年代、ヒト・オランウータンの分岐年代の中央値は、640万年前と1520万年前で、概ね、辻褄は合っている。

TIMETREEは、この論説が書かれた2009年以降の報告も含んでいるけど、2009年以降、予測分岐年代が顕著に後ろにシフトしたということも、なさそう。TIMETREEにあるのは、基本的に、一次文献で、これらの文献の引用数は多分バラバラだろうから、個人が何となく多いと感じる中央値とずれることは、あるかもしれない。どれくらい引用数に違いがあるのかとか、気にならなくもないけど、それはそのうち調べよう。