人類の起源
ふと、ヒトと類人猿のゲノムを比較したことがないので、やってみようと思った。
単にアラインメントするだけでは詰まらないので、人類と、チンパンジー、ボノボの分岐時期の推定に役立ちそうな指標を集計することにする。チンパンジーとボノボの分岐は、人類の分岐より後とされているので、ヒトとチンパンジーの"違い"、ヒトとボノボの"違い"は、同程度になっていると考えられる。
最初に、既存の報告を眺めておく。
TIMETREE
http://www.timetree.org/
というサイトによると、人類が、チンパンジー、ボノボとの共通祖先と分岐した時期は、79の研究に基づく中央値が640万年。信頼区間(?)は、510万年〜1180万年となっている(どういうモデルに基づいて計算された区間か知らないけど、あくまで多くの報告が、このあたりに集中しているというだけで、95%の確率で正しいとかいう類のものではないと思う)。
最も古い予測は、1億3900万年となっていて、多分、何かの間違い(?)。次点は1480万年。1480万年は、2012年の論文に書いてあるらしいので、それほど古い研究でもない。2010年以降の報告に限っても、550〜1480万年と、まだ幅は大きい。2010年以降の報告は30件あって、その中で、1000万年を超えるのは、(1億3900万年のも含めて)4件。とはいえ、少数派だから正しくないとは、当然言えない。
同じサイトで、チンパンジーとボノボの分岐を調べると、39の研究に基づく中央値が240万年で、信頼区間は238.9万年〜315.7万年前となっている。一番古い予測分岐年代は、610万年前で、一番新しい方は80万年前。日本語で調べると、チンパンジーとボノボ分岐年代は、80〜200万年前としているものが多く出てくるけど、典型的な見積もりとは言えないことになる。この見積もりが出回っている理由は分からない。
ついでに、チンパンジーとボノボは、現代でも、交配可能らしい。
Hybrids between common chimpanzees (Pan troglodytes) and pygmychimpanzees (Pan paniscus) in captivity
https://lirias.kuleuven.be/1914867
一般的に、種の分岐時期の推定法は、化石年代による方法と、分子時計による方法がある。化石年代による推定は、個人で追試するのはほぼ不可能。金と時間と発掘許可があったとしても、適当な化石が見つかるかは、運によるとところが大きい。一方、分子時計による推定は、公開されているゲノム配列を信用するなら、手の出しようはある。現在のところ、自力でゲノム配列をシーケンスするのは大変だが、金と許可があれば、原理的には、何とか出来なくはない。
分子時計は、1960年代に提案されたもので、最初は、タンパク質のアミノ酸配列を見ていた。1967年に、Vincent SarichとAllan Wilsonは、ヒトとチンパンジーの分岐時期を約500万年前と推定した。1977年に、サンガー法が考案されて、80年代には、個々の遺伝子の塩基配列やミトコンドリアの配列が比較されるようになった。
分子系統学とヒトの起原
https://doi.org/10.2142/biophys.28.119
という1988年の総説を見ると、ミトコンドリアの比較による議論が中心となっている。
2010年前後からは、多くの生物種でゲノム配列が決定されたし、コンピュータの性能も向上してたので、全ゲノム同士を比較することができるようになった。
進化の過程で、染色体は、割とよく切断したり、融合したりしているようで、哺乳類に限っても、染色体数は、最小で6から、最大で102まで幅がある。ヒトの場合、2番染色体は、かつては、2つの異なる染色体だったのが融合したと考えられていて、ヒト以外の類人猿は、ヒトより染色体が2本(一対)多く、昔の文献を見ると、チンパンジーの12,13番染色体と、ヒト2番染色体が対応してると書いてある。公開されてるゲノム配列では、分かりやすく、2A,2B染色体とされている。
染色体端部にはテロメア配列があるけど、ヒト2番染色体長腕2q13には、対向したテロメア反復配列の痕跡が見られる。
追記)あとから気付いたけど、ゴリラでは、他の大型類人猿には起こっていない染色体再編成が見られる。何が起こったのか正確にはよく分からないけど、ゴリラ5,17番染色体は、どちらも、ヒト5,17番染色体の一部を含む(5番染色体と17番染色体で環状になって切断でもしたのか?)。しかし、以下では、この再編成に気付かず、計算を進めてしまった。話の流れには影響ないので、そのままにしてある
ヒトと類人猿の場合は、染色体の対応が、よく取れるので、ゲノム全体のアラインメントをする。アラインメントには、LASTZというのを使うことにした。
LASTZ
https://github.com/lastz/lastz
make lastz_32でビルドされるLASTZ_32というのも入れておく。最新のバージョンは、1.04.15
ゲノム配列は、ヒト(hg38)、ボノボ(panPan3)、チンパンジー(panTro6)を使った。
hg38
https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/
panPan3
https://hgdownload.soe.ucsc.edu/goldenPath/panPan3/bigZips/
panTro6
https://hgdownload.soe.ucsc.edu/goldenPath/panTro6/bigZips/
ゴリラとオランウータンは、gorGor6とponAbe3が、現在の最新の配列。オランウータンは、スマトラ・オランウータン(Pongo abelii)や、ボルネオ・オランウータン(Pongo pygmaeus)などが区別されてるっぽい。テナガザルゲノムは、キタホオジロテナガザル(Nomascus leucogenys)のnomLeu3が存在する。
ダウンロードしたゲノム配列は、以下のようなコードで、染色体ごとに分割しておく。
import os def splitFasta(infile, outdir, prefix=""): assert(os.path.exists(outdir)) lines = [] cur_name = None for line in open(infile): if len(line.strip())==0: continue elif line.startswith(">"): if cur_name is not None: with open(os.path.join(outdir , "{0}.fa".format(cur_name)),"w") as fp: fp.write("".join(lines)) lines = [">" , prefix , line[1:]] cur_name = line.strip()[1:] else: lines.append( line ) if len(lines)>0: with open(os.path.join(outdir , "{0}.fa".format(cur_name)),"w") as fp: fp.write("".join(lines)) if __name__=="__main__": splitFasta("hg38.fa" , "hg38" , "hg38/") splitFasta("panPan3.fa" , "panPan3" , "panPan3/") splitFasta("panTro6.fa" , "panTro6" , "panTro6/")
cat <(echo ">panPan3/chr2") <(tail -n +2 panPan3/chr2A.fa) <(tail -n +2 panPan3/chr2B.fa) > panPan3/chr2.fa cat <(echo ">panTro6/chr2") <(tail -n +2 panTro6/chr2A.fa) <(tail -n +2 panTro6/chr2B.fa) > panTro6/chr2.fa
LASTZは、オプションの指定によって得られる結果が大きく変わる。今回は、とりあえず、可能な限り、頑張ってアラインメントしてもらうために、例えば、以下のようなコマンドを打った
for f in `ls hg38`;do lastz hg38/$f panPan3/$f --chain --gfextend --gapped --step=20 --format=maf > hg38_vs_panPan3_`basename $f .fa`.maf 2> /dev/null lastz hg38/$f panTro6/$f --chain --gfextend --gapped --step=20 --format=maf > hg38_vs_panTro6_`basename $f .fa`.maf 2> /dev/null lastz panPan3/$f panTro6/$f --chain --gfextend --gapped --step=20 --format=maf > panPan3_vs_panTro6_`basename $f .fa`.maf 2> /dev/null done
全ての染色体について、ヒトvsチンパンジー、ヒトvsボノボ、チンパンジーvsボノボのアラインメントを作成。
panTro6 vs hg38のアラインメントなんかは公開されてるっぽいのだけど、使用したオプションなどが分からないので、(同一条件で比較するために)全部やり直す。
https://hgdownload.soe.ucsc.edu/goldenPath/panTro6/vsHg38/
出力は、mafとかいうフォーマット。以下のような3行の連なりが沢山(数百〜数千個)出てくる。
a score=25092 s chr5 104915 302 + 181538259 GGTGGAGAAACACTGCACAGGGGGTGAGGGCTGTTCCAGTTCTGGTGTTCCCGTCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCTGG-TTCTGGTGTTCCCATCCTGAAGGTGGAAAAACAGTGCACAGTGGGTGAGGGCTGTTCTGGTTCTGGTGTTCCCGTCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCTGGTTTTGGTGTTCCCGTCCTGAAGGTGGAGAAACACTCCGCAGTGGGTGAGGGCTGTTCTGGGTTCTCATGCTCCTGTCTTGAAG s chr5 76020 302 + 176502593 GGTGGAGAAACACTCCACAGTGGGTGAGGGGTGTTCCAGTTCTGGTGTTCCCGTCCTGAAGGTGGAGAAACACTCCGCAGTGGGTGAGGGGTGTTCTGGGTTCTGGTGTTCCCATCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCTGGTTCTGGTGTTCCCATCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCTGGTTCTGGTGTTCCCATCCTGAAGGTGGAGAAACACTCCACAGTGGGTGAGGGCTGTTCT-GGTTCTGGTGTTCCCGTCCTAAAG
2行目は、1つ目の配列で、3行目が、2つ目の配列。完全に同一ではないが、よく似ていることは分かる。
結果を見ると、第一に、アラインメントされない領域が、割とある。ヒトvsチンパンジー、ヒトvsボノボだと、ヒトゲノムの5~10%がアラインメントされない(モノによっては、不明な塩基Nが結構含まれるが、除去して算出)。ボノボvsチンパンジーだと、アラインメントされない領域は、概ね5%未満の模様。
アラインメントされなかった配列の素性をいくつか調べると、CpGアイランドっぽいGC richな配列や謎の反復配列、レトロトランスポゾンLINE-1っぽいものがある。中には、遺伝子だと予測されてながら、他の種では、同じ場所に、相同遺伝子がないというケースもあった。ボノボの12番染色体には
LOC103786383 ATP synthase mitochondrial F1 complex assembly factor 1 [ Pan paniscus (pygmy chimpanzee) ]
https://www.ncbi.nlm.nih.gov/gene/103786383
があるけど、チンパンジーの12番染色体には、相同遺伝子がない。BLASTしてもhitしない。多分、チンパンジーでは、1番染色体にある。
ATPAF1 ATP synthase mitochondrial F1 complex assembly factor 1 [ Pan troglodytes (chimpanzee) ]
https://www.ncbi.nlm.nih.gov/gene/456558
ヒトでも相同遺伝子が1番染色体にあり、ボノボの1番染色体にも相同遺伝子があるので、元々は、1番染色体にあった遺伝子のコピーが12番染色体に挿入されるということが、ボノボだけで起こったのだと思われる。これが、発現して、何かの機能を果たしているのか、偽遺伝子なのかは分からないけど。
全体としては、LASTZは期待した結果を出しているように思われる。
第二の問題として、アラインメント元の領域に重なりがある場合がある。ゲノムには、コピーされた配列が遠く離れた場所にあったりするので、同一の配列が、複数箇所にマッチする可能性はあるけど、分子時計として使う場合、変異の個数をカウントしたいので、どのアラインメントを使うかで、変異の個数が変わる可能性があって、嬉しくない。
対処としてはいろいろ考えられる。
(1)オーバーラップのあるアラインメント元を結合して、再度マッピングし直す
(2)一意にアラインメントされた連続配列のみを使う
(3)オーバーラップは小さいので、重複カウントを許容する
(1)は、面倒くさいので、今回はpass
(2)をやると、使用できる塩基数は、全体の10〜20%くらいになるようだった。これを使うと、なんか変なbiasが入りそうにも思える。
(3)は、オーバーラップしている配列の長さが、どれくらいあるか見ると、全体の1〜2%程度だったので、(2)よりも、こっちの方がいいかもしれない
とりあえず、(2)と(3)の2つの方法で、変異をカウントすることにした。
第三の問題として、変異として、一塩基置換だけでなく、欠失・挿入(indel)変異が結構ある。非常に長いindel変異があった場合は、単にアラインメントされないだけで済むけど、数bpとか数十bpとかのindelも結構ある。
indel変異が、どうやって生じるのか知らないけど、一塩基置換とは、違う機構で生じてるだろうから、同列に扱って、変異数をカウントするわけにもいかない。どうするのが正解か分からないけど、ここでは、indelの数と一塩基置換の数を別にカウントする。
そんな感じで集計したのが以下の3つの表。チンパンジーとボノボの2番染色体は、2Aと2Bを結合したもの。
項目の内容は、以下の通り。
長さ:種1の染色体の長さ
N以外長:種1の染色体からNを除いた長さ
アライン長:アラインメントされた配列の長さの合計(オーバーラップしてる場合、重複カウントなし)
NA率:1 - アライン長/N以外長
mm数:アラインメントのmismatch数
gap数:アラインメントのgap数
延べアライン長:アラインメントされた配列の長さの合計(オーバーラップしてる場合、重複カウント)
mm率:mm数/延べアライン長
一意mm数:一意にmapされた領域のmismatch数
一意gap数:一意にmapされた領域のgap数
一意アライン長:一意にmapされた領域の長さ合計
一意mm率:一意mm数/一意アライン長
種1 | 種2 | 染色体 | 長さ(bp) | N以外長(bp) | アライン長(bp) | NA率(%) | mm数(bp) | gap数(bp) | 延べアライン長(bp) | mm率(%) | 一意mm数(bp) | 一意gap数(bp) | 一意アライン長(bp) | 一意mm率(%) |
hg38 | panPan3 | 1 | 248956422 | 230481012 | 211326047 | 8.31 | 4011423 | 2490943 | 218939691 | 1.83 | 489230 | 327328 | 37384259 | 1.31 |
hg38 | panPan3 | 2 | 242193529 | 240548228 | 216230598 | 10.11 | 3191827 | 2356796 | 218702748 | 1.46 | 606728 | 392000 | 46921712 | 1.29 |
hg38 | panPan3 | 3 | 198295559 | 198100135 | 192513270 | 2.82 | 2734338 | 1915719 | 194161004 | 1.41 | 459272 | 290331 | 34845909 | 1.32 |
hg38 | panPan3 | 4 | 190214555 | 189752667 | 178311882 | 6.03 | 2602568 | 1843202 | 179568850 | 1.45 | 432645 | 271535 | 31295942 | 1.38 |
hg38 | panPan3 | 5 | 181538259 | 181265378 | 172566849 | 4.80 | 2513031 | 1839739 | 174245507 | 1.44 | 469853 | 305126 | 35746564 | 1.31 |
hg38 | panPan3 | 6 | 170805979 | 170078522 | 164233097 | 3.44 | 2348255 | 1758045 | 165709615 | 1.42 | 446327 | 298054 | 33412246 | 1.34 |
hg38 | panPan3 | 7 | 159345973 | 158970131 | 139096154 | 12.50 | 2190826 | 1751305 | 141239753 | 1.55 | 410932 | 276398 | 30816340 | 1.33 |
hg38 | panPan3 | 8 | 145138636 | 144768136 | 134358784 | 7.19 | 2140239 | 1518162 | 135957257 | 1.57 | 365951 | 220580 | 26724157 | 1.37 |
hg38 | panPan3 | 9 | 138394717 | 121790550 | 107461797 | 11.77 | 1644566 | 1230962 | 108897061 | 1.51 | 305591 | 191731 | 21337822 | 1.43 |
hg38 | panPan3 | 10 | 133797422 | 133262962 | 124549728 | 6.54 | 1820572 | 1349855 | 125620922 | 1.45 | 288628 | 188972 | 21262369 | 1.36 |
hg38 | panPan3 | 11 | 135086622 | 134533742 | 126993565 | 5.60 | 1931728 | 1415019 | 128783087 | 1.50 | 395402 | 254502 | 28504913 | 1.39 |
hg38 | panPan3 | 12 | 133275309 | 133137816 | 127511615 | 4.23 | 2013237 | 1535997 | 129623090 | 1.55 | 292995 | 198646 | 22584098 | 1.30 |
hg38 | panPan3 | 13 | 114364328 | 97983125 | 93979048 | 4.09 | 1423431 | 1083806 | 95045780 | 1.50 | 235901 | 154696 | 17526209 | 1.35 |
hg38 | panPan3 | 14 | 107043718 | 90568149 | 85596710 | 5.49 | 1214793 | 902336 | 86162736 | 1.41 | 185828 | 117081 | 13386909 | 1.39 |
hg38 | panPan3 | 15 | 101991189 | 84641325 | 74652459 | 11.80 | 1154603 | 862767 | 75716063 | 1.52 | 189245 | 118180 | 13694205 | 1.38 |
hg38 | panPan3 | 16 | 90338345 | 81805943 | 58332032 | 28.69 | 1072360 | 857620 | 59483550 | 1.80 | 138167 | 92094 | 8829857 | 1.56 |
hg38 | panPan3 | 17 | 83257441 | 82920204 | 73887034 | 10.89 | 1226625 | 1156821 | 75482801 | 1.63 | 122733 | 89702 | 9334517 | 1.31 |
hg38 | panPan3 | 18 | 80373285 | 80089605 | 72816500 | 9.08 | 1075197 | 809119 | 73640452 | 1.46 | 192004 | 120683 | 14766732 | 1.30 |
hg38 | panPan3 | 19 | 58617616 | 58440758 | 52197242 | 10.68 | 1287588 | 1278307 | 54212987 | 2.38 | 113730 | 78528 | 5422289 | 2.10 |
hg38 | panPan3 | 20 | 64444167 | 63944257 | 57950327 | 9.37 | 923266 | 729540 | 58644249 | 1.57 | 131835 | 86749 | 8961738 | 1.47 |
hg38 | panPan3 | 21 | 46709983 | 40088619 | 32948983 | 17.81 | 562624 | 476912 | 33358823 | 1.69 | 72473 | 49665 | 4339058 | 1.67 |
hg38 | panPan3 | 22 | 50818468 | 39159777 | 30341016 | 22.52 | 580286 | 567784 | 31273295 | 1.86 | 59108 | 41820 | 3934839 | 1.50 |
hg38 | panPan3 | X | 156040895 | 154893029 | 138882071 | 10.34 | 1725370 | 1335905 | 140678371 | 1.23 | 316883 | 220643 | 29799564 | 1.06 |
hg38 | panPan3 | All | 3031042417 | 2911224070 | 2666736808 | 8.40 | 41388753 | 31066661 | 2705147692 | 1.53 | 6721461 | 4385044 | 500832248 | 1.34 |
種1 | 種2 | 染色体 | 長さ(bp) | N以外長(bp) | アライン長(bp) | NA率(%) | mm数(bp) | gap数(bp) | 延べアライン長(bp) | mm率(%) | 一意mm数(bp) | 一意gap数(bp) | 一意アライン長(bp) | 一意mm率(%) |
hg38 | panTro6 | 1 | 248956422 | 230481012 | 215833532 | 6.36 | 3202777 | 2340222 | 218834662 | 1.46 | 488415 | 323251 | 38379383 | 1.27 |
hg38 | panTro6 | 2 | 242193529 | 240548228 | 228187989 | 5.14 | 3325430 | 2401774 | 230629960 | 1.44 | 549332 | 350165 | 42362608 | 1.30 |
hg38 | panTro6 | 3 | 198295559 | 198100135 | 192455019 | 2.85 | 2737275 | 1901600 | 194174363 | 1.41 | 476359 | 302644 | 36248026 | 1.31 |
hg38 | panTro6 | 4 | 190214555 | 189752667 | 179552479 | 5.38 | 2614502 | 1807970 | 180753955 | 1.45 | 450252 | 294916 | 31780919 | 1.42 |
hg38 | panTro6 | 5 | 181538259 | 181265378 | 155687512 | 14.11 | 2260392 | 1644746 | 157149191 | 1.44 | 395220 | 250928 | 29926537 | 1.32 |
hg38 | panTro6 | 6 | 170805979 | 170078522 | 164878095 | 3.06 | 2316294 | 1707706 | 166067400 | 1.39 | 432293 | 286325 | 33170628 | 1.30 |
hg38 | panTro6 | 7 | 159345973 | 158970131 | 145995918 | 8.16 | 2323815 | 1912622 | 148463967 | 1.57 | 357182 | 234234 | 26537796 | 1.35 |
hg38 | panTro6 | 8 | 145138636 | 144768136 | 138870391 | 4.07 | 2238209 | 1565088 | 140704853 | 1.59 | 342273 | 205295 | 24943797 | 1.37 |
hg38 | panTro6 | 9 | 138394717 | 121790550 | 108265834 | 11.10 | 1655840 | 1233137 | 109537762 | 1.51 | 296335 | 183730 | 20749369 | 1.43 |
hg38 | panTro6 | 10 | 133797422 | 133262962 | 125735092 | 5.65 | 1879342 | 1441851 | 127223721 | 1.48 | 255187 | 162895 | 19738611 | 1.29 |
hg38 | panTro6 | 11 | 135086622 | 134533742 | 127793622 | 5.01 | 1996211 | 1446584 | 129954022 | 1.54 | 342653 | 212423 | 22548279 | 1.52 |
hg38 | panTro6 | 12 | 133275309 | 133137816 | 127583029 | 4.17 | 2013686 | 1566677 | 129715958 | 1.55 | 239415 | 164539 | 18981808 | 1.26 |
hg38 | panTro6 | 13 | 114364328 | 97983125 | 92823728 | 5.27 | 1413254 | 1088623 | 94008472 | 1.50 | 222636 | 145908 | 16739471 | 1.33 |
hg38 | panTro6 | 14 | 107043718 | 90568149 | 85881820 | 5.17 | 1241760 | 944185 | 86727424 | 1.43 | 191949 | 126862 | 14477916 | 1.33 |
hg38 | panTro6 | 15 | 101991189 | 84641325 | 74907636 | 11.50 | 1102410 | 809997 | 75473089 | 1.46 | 206258 | 134672 | 15211413 | 1.36 |
hg38 | panTro6 | 16 | 90338345 | 81805943 | 69133372 | 15.49 | 4264843 | 3162593 | 85151336 | 5.01 | 195438 | 125850 | 13101659 | 1.49 |
hg38 | panTro6 | 17 | 83257441 | 82920204 | 71026365 | 14.34 | 1174975 | 1094492 | 72624100 | 1.62 | 129927 | 96927 | 9896992 | 1.31 |
hg38 | panTro6 | 18 | 80373285 | 80089605 | 73276926 | 8.51 | 1081080 | 819001 | 74084370 | 1.46 | 168131 | 104444 | 12671686 | 1.33 |
hg38 | panTro6 | 19 | 58617616 | 58440758 | 52454285 | 10.24 | 1522710 | 1432471 | 55626497 | 2.74 | 69999 | 56400 | 3469737 | 2.02 |
hg38 | panTro6 | 20 | 64444167 | 63944257 | 58982787 | 7.76 | 997655 | 812384 | 60110754 | 1.66 | 117187 | 81681 | 7931760 | 1.48 |
hg38 | panTro6 | 21 | 46709983 | 40088619 | 32938437 | 17.84 | 564768 | 483475 | 33406289 | 1.69 | 100002 | 69666 | 6680505 | 1.50 |
hg38 | panTro6 | 22 | 50818468 | 39159777 | 32591471 | 16.77 | 634735 | 621430 | 33616521 | 1.89 | 56852 | 43958 | 3445051 | 1.65 |
hg38 | panTro6 | X | 156040895 | 154893029 | 143952140 | 7.06 | 1771650 | 1467389 | 145587312 | 1.22 | 351165 | 242928 | 32901624 | 1.07 |
hg38 | panTro6 | All | 3031042417 | 2911224070 | 2698807479 | 7.30 | 44333613 | 33706017 | 2749625978 | 1.61 | 6434460 | 4200641 | 481895575 | 1.34 |
種1 | 種2 | 染色体 | 長さ(bp) | N以外長(bp) | アライン長(bp) | NA率(%) | mm数(bp) | gap数(bp) | 延べアライン長(bp) | mm率(%) | 一意mm数(bp) | 一意gap数(bp) | 一意アライン長(bp) | 一意mm率(%) |
panPan3 | panTro6 | 1 | 224621958 | 220997261 | 211408421 | 4.34 | 1242852 | 1223351 | 214165393 | 0.58 | 247715 | 215892 | 57048896 | 0.43 |
panPan3 | panTro6 | 2 | 234328823 | 232081668 | 221068373 | 4.75 | 1174894 | 1131774 | 222935250 | 0.53 | 244639 | 207520 | 56180170 | 0.44 |
panPan3 | panTro6 | 3 | 195577393 | 195047306 | 193641211 | 0.72 | 988899 | 918601 | 195204995 | 0.51 | 198744 | 161942 | 45762412 | 0.43 |
panPan3 | panTro6 | 4 | 182437434 | 181719665 | 179826027 | 1.04 | 966998 | 940551 | 181370766 | 0.53 | 243455 | 197249 | 56676707 | 0.43 |
panPan3 | panTro6 | 5 | 176502593 | 175897314 | 157332894 | 10.55 | 818305 | 789075 | 158740747 | 0.52 | 183147 | 149644 | 41996818 | 0.44 |
panPan3 | panTro6 | 6 | 168932342 | 167194355 | 165212354 | 1.19 | 1128505 | 952755 | 168097063 | 0.67 | 215167 | 172122 | 46373059 | 0.46 |
panPan3 | panTro6 | 7 | 150536359 | 148119694 | 144148669 | 2.68 | 1015752 | 1045487 | 146732140 | 0.69 | 146631 | 127817 | 31155278 | 0.47 |
panPan3 | panTro6 | 8 | 141842281 | 140480805 | 135782485 | 3.34 | 1115386 | 1135376 | 139867990 | 0.80 | 167380 | 135248 | 35673626 | 0.47 |
panPan3 | panTro6 | 9 | 109767803 | 109102898 | 107466461 | 1.50 | 698559 | 644809 | 109265604 | 0.64 | 108252 | 86810 | 25132551 | 0.43 |
panPan3 | panTro6 | 10 | 128853861 | 127403410 | 125455656 | 1.53 | 712645 | 711007 | 126726439 | 0.56 | 125168 | 104413 | 28882031 | 0.43 |
panPan3 | panTro6 | 11 | 129867894 | 128778196 | 127836374 | 0.73 | 777013 | 737757 | 130017666 | 0.60 | 126076 | 100038 | 29767584 | 0.42 |
panPan3 | panTro6 | 12 | 131319602 | 130620582 | 128842824 | 1.36 | 869906 | 853405 | 130936288 | 0.66 | 99972 | 86042 | 22909330 | 0.44 |
panPan3 | panTro6 | 13 | 95736914 | 95347524 | 94636041 | 0.75 | 602614 | 635899 | 96078485 | 0.63 | 98474 | 79991 | 22727732 | 0.43 |
panPan3 | panTro6 | 14 | 87894197 | 87229111 | 86107277 | 1.29 | 480703 | 470890 | 86828669 | 0.55 | 117367 | 101607 | 26751421 | 0.44 |
panPan3 | panTro6 | 15 | 80799215 | 77887030 | 76499433 | 1.78 | 589840 | 580985 | 78734716 | 0.75 | 86680 | 76662 | 19255098 | 0.45 |
panPan3 | panTro6 | 16 | 71000456 | 68862913 | 65288186 | 5.19 | 529206 | 562812 | 66784252 | 0.79 | 63103 | 58611 | 13190471 | 0.48 |
panPan3 | panTro6 | 17 | 77747126 | 76408544 | 71450496 | 6.49 | 558443 | 690618 | 73637454 | 0.76 | 49753 | 49783 | 10307593 | 0.48 |
panPan3 | panTro6 | 18 | 74093087 | 73811721 | 73319584 | 0.67 | 427623 | 431573 | 74307311 | 0.58 | 67895 | 54653 | 15603773 | 0.44 |
panPan3 | panTro6 | 19 | 55604062 | 54161911 | 51332629 | 5.22 | 725355 | 704605 | 53560123 | 1.35 | 18966 | 21133 | 2851849 | 0.67 |
panPan3 | panTro6 | 20 | 59769695 | 59326525 | 58701181 | 1.05 | 420088 | 462338 | 59851436 | 0.70 | 51222 | 45986 | 11314431 | 0.45 |
panPan3 | panTro6 | 21 | 33144400 | 32979067 | 32656727 | 0.98 | 349002 | 356870 | 34092161 | 1.02 | 30791 | 26047 | 6226697 | 0.49 |
panPan3 | panTro6 | 22 | 31064846 | 30827669 | 30369603 | 1.49 | 269873 | 332729 | 31369400 | 0.86 | 17707 | 21580 | 3453695 | 0.51 |
panPan3 | panTro6 | X | 146233785 | 142690712 | 138587829 | 2.88 | 623812 | 689899 | 139844759 | 0.45 | 143017 | 133816 | 42843965 | 0.33 |
panPan3 | panTro6 | All | 2787676126 | 2756975881 | 2676970735 | 2.90 | 17086273 | 17003166 | 2719149107 | 0.63 | 2851321 | 2414606 | 652085187 | 0.44 |
一応、同一種で異なるバージョンのゲノム配列を比較すると、どうなるのかという結果も示しておく。ヒト同士、チンパンジー同士でも、当然、個体差はあるが、以下の結果にある差が、何に起因してるものかは知らない。
配列1 | 配列2 | 染色体 | 長さ(bp) | N以外長(bp) | アライン長(bp) | NA率(%) | mm数(bp) | gap数(bp) | 延べアライン長(bp) | mm率(%) | 一意mm数(bp) | 一意gap数(bp) | 一意アライン長(bp) | 一意mm率(%) |
hg19 | hg38 | All | 3036303846 | 2835673565 | 2822164041 | 0.48 | 2492583 | 2055392 | 2852841368 | 0.09 | 54529 | 54025 | 1189501531 | 0.00 |
panTro3 | panTro6 | All | 3120320700 | 2730903704 | 2639535394 | 3.35 | 5905860 | 11426105 | 2658755472 | 0.22 | 2919588 | 6947610 | 2212217864 | 0.13 |
ヒトvsチンパンジー、ヒトvsボノボは、よく似た結果となってる。ボノボとチンパンジーが似てるので、当然だけど。
X染色体のミスマッチ率はやや低く、X染色体は変異が少ないという一般的な報告と一致している。19番染色体は、どの組み合わせでも、変異が多いように見える。これは、本当に、変異が多かったり少なかったりしてるのか、よく分からない。19番染色体は、hg19:hg38やpanTro3:panTro6の比較でも、ミスマッチ率が高い。
ミスマッチ数は、チンパンジーvsボノボと、ヒトvsチンパンジーでは、2.5倍弱の違いがある。時間経過と共に、NA率やミスマッチ数が一定率で増えていくとすれば、分岐時期が、その程度違うのだと考えられる。TIMETREEによると、複数の研究の予測分岐年代の中央値が、240万年と640万年で、比率は2.67だから、これらが概ね正解の可能性もある。
分子時計では、相同率が小さい場合は、多重置換(同じ箇所で複数回の置換が起こること)や復帰置換(同じ箇所で2回以上の置換が起こって、元の塩基に戻ること)によって、ミスマッチ数と分岐時期が比例するとは考えられなくなる。ヒトとチンパンジー・ボノボは、十分似てるので、このような影響は小さく、無視して差し支えないと思われる。
一般的に、ヒトとチンパンジーのゲノムは98%以上似ているとか聞くけど、確かにアラインメントされた領域での一致率は、それくらいある。一方で、アラインメントされてない領域が8%くらいある。hg38とpanTro6,panPan3では、そもそも、配列の全長が7〜8%ほど違うので、この差は、むしろ当然にも思える。ただ、この領域が、何なのかは気になる。
大きなNA率を持つ染色体をいくつか確認すると、16番染色体は、中央付近の16p11.1、16q11.1、16q11.2付近の領域が、ヒト固有らしいけど、アノテーションされてる遺伝子が全然ない空白地帯になってる。
Chr16:1-90.34M
https://www.ncbi.nlm.nih.gov/genome/gdv/browser/?context=genome&acc=GCF_000001405.39&chr=16
この付近に相当する領域が、他の類人猿にないのは確からしいが、ヒトでは、Nになってて配列が決定されてない部分も多くて、アノテーションできてないだけかもしれない。大体、8.5(Mb)程度は、Nになってて、この付近20(Mb)近くに及ぶ配列の相同領域が、チンパンジーやボノボで確認できない。9番染色体のセントロメア付近にも同じような領域がある。
他に、13,14,15,21,22番染色体のp-arm端っこに似たような領域がある。これらは、アクロセントリック染色体というカテゴリーに分類され、Robertson型転座を起こすことで知られる。Robertson型転座の一般的説明では、これらの短椀がなくなっても、表現型は正常とされる。多分、これが根拠で、アクロセントリック染色体の短椀には、遺伝子が載ってないとか、重要な遺伝子がないとされている。
配列が決定されてない割合が高くて、アノテーションされた遺伝子もないけど、例外的に、21p12は、遺伝子がアノテーションされてる。これは、何らかの予測アルゴリズムによって、遺伝子コーディング領域と判定されただけのようで、本当に、遺伝子をコードしてるのかは分からない。
Chr21:1-46.71M
https://www.ncbi.nlm.nih.gov/genome/gdv/browser/genome/?id=GCF_000001405.39&chr=21
21番染色体のこの領域に相同な領域は、チンパンジー・ボノボの他の染色体上にも見つからなかったので、どこから来たのか謎。ゴリラにもないので、ヒトとチンパンジー・ボノボの系統が分岐した後、チンパンジー・ボノボが、これに相当する領域を失ったというわけでもなさそう。
とりあえず、全体として、200〜300(Mb)ほど、ヒト固有配列が存在してるように見える。今の所、これらの領域が特に重要だと考える理由はないっぽい。
そういうのとは別に、他の種では保存されてるのに、ヒトだけ変化が著しいhuman accelerated regionsというのも知られている。それが重要なのかは知らない。
TIMETREEに載ってる結果は、分子時計によるものだけど、分子進化速度一定という条件だけでは、分岐時期の相対年代しか決まらない。絶対年代を決めるために、化石年代に基づくcalibrationを利用してるのが普通じゃないかと思う。calibrationに使う基準年代は恣意的で、正しい方法とかはない。よく使われる標準的な年代はいくつかあるけど、それが正しくないと、多くの結果が共倒れになる。一方、仮に、分子進化の速度が一定なら、現代で、直接、変異率を測定してもいいはず。絶対的な分子進化の速度が測定できれば、化石年代に依存しない分岐時期推定ができるようになるはず。
一世代で、どれくらい新しくSNV(single nucleotide variant)が増えるか、理論的に知ることは難しいと思う。DNAポリメラーゼが、どれくらい複製ミスを起こすか程度なら、もしかしたら見積もれるかもしれない。細菌でも、複製ミスの校正機構があるので、実際のSNV獲得速度の予測は難しくなる。哺乳類とかになると、生殖細胞の分裂速度も種によって違うだろうが、何で決まってるのか分からない。
SNV増加速度が、種の存続を維持できる限界になっているみたいな条件(つまり、高すぎる変異率は有害変異増大のリスクがあり、低すぎる変異率は環境適応力低下のリスクがあるので、どっちかのリスクが、限界スレスレになるような変異率になってるかもしれない)が成立している可能性もあるけど、定かではないし、そういう観点から変異率を決定するのも難しそう。
なので、一世代で、どれくらいSNVが増えるか、実験的に調べるしかない。2010年頃から、こういう検証が可能になって、いくつか報告が出ている。
Fathers bequeath more mutations as they age
https://doi.org/10.1038/488439a
Rate of de novo mutations and the importance of father’s age to disease risk
https://doi.org/10.1038/nature11396
Similarities and differences in patterns of germline mutation between mice and humans
https://www.nature.com/articles/s41467-019-12023-w
"変異"/mutationと書いてるが、点変異以外に、挿入、欠失なども変異ではあるので、SNVという方が適切に思う。
最初の論文には、父親(の生殖細胞)から受け継がれる変異の方が多く、(現代では)平均して、父親から55個、母親から14個の変異(合計69個)を受け継いでて、また、父親の年齢が高いと、変異が急速に増えるとも書いてる。
2番目の論文には、父親の年齢と新生児の変異数のグラフが載ってて、"The number of mutations increases with father’s age with an estimated effect of 2.01 mutations per year"とある。
3番目の論文は、数字だけほしいなら、TABLE1を見るのがいいと思う。ヒトでは、世代あたりの新規変異数は、平均71個。" Mutation rate per genome per generation"は、1.22e-8となっている。ヒトゲノム配列の決定された長さが29.1e8(bp)で、染色体は2本ずつあるので、71/29.1e8/2=1.22e-8ってことだろう。一世代30年として計算された"Mutation rate per year"は、4.08e-10で、一年で平均2〜3個変異が増えるのに相当。
ついでに、マウスは、ヒトより大分変異が入る頻度が高いらしい。一世代で20個となっていて、マウスの一世代は3ヶ月とか言われるが、ここでは、一世代9ヶ月を仮定したと書いてある(マウスの飼育をしたことがないので、実際の感覚としてどうなのか分からないが)。それでも、ヒトの10倍くらいの速度で新規SNVを獲得していく見積もりになる。
進化的に遠い動物を見ると、ショウジョウバエの変異率の報告が2007年の論文に出ていて、Abstractには、変異率は、8.4e-9(/site/generation)だと書いてある。
Direct estimation of per nucleotide and genomic deleterious mutation rates in Drosophila
https://doi.org/10.1038/nature05388
ショウジョウバエのゲノムサイズは、200(Mb)程度で、染色体は2本ずつあるので、一世代当たり3個くらい変異が入る計算。ショウジョウバエは、実験室では、最大2ヶ月ほど生きるが、ここでの一世代が何を指してるのかは定かでない。一世代1.5ヶ月とすれば、ショウジョウバエのSNV獲得速度は、年間25個くらいだろう。マウスと大差ないってことになるけど、本当か?
以下、数百万年程度の短期間では、同じ箇所に変異が入るケースは十分少ないと考える。つまり、ある塩基配列に頻度αでランダムに置換が入った2つの配列を比較した場合、同一箇所に同じ変異が入る可能性もあるので、ミスマッチ率の期待値はとなるが、αが小さければ、第二項は無視できる。また、点置換は、過去に一度起こった箇所に再度起こる可能性もあって、αは世代数や経過時間に厳密に比例するわけではないけど、その影響も無視する。
ヒトの世代あたりの新規変異数が、上の論文にある通り、平均71個で、一世代30年とすると、年平均2.4個程度の新規SNV獲得がある。そうして仮に、ヒトとチンパンジー・ボノボで、SNVが同程度の頻度で増えるなら、ミスマッチ数は、ゲノム全長は30億bpとして(染色体は2本あって、片方だけ見ると変異の数は半分になるので)年平均2.4bp/yearくらいで増加していくだろう。現在のミスマッチ数が、30億bpの1.5%と考えると、このミスマッチ数に到達するまで、約1900万年かかるという計算になる。つまり、ヒトとチンパンジー・ボノボの分岐年代が、そのあたりということ。これは、一世代30年に基づく計算なので、かなりざっくりしてはいる。仮に、一世代20年で、世代あたり変異数が71個だとすれば、分岐年代は、約1300万年前になる。
大分、単純な算数だけど、難しいモデルを使って得られる見積もりが信用できるかも分からない。それとは別に気になるのは、SNV検出の信頼性で、解析の方法を見る限り、取りこぼしたSNVがないか分からない。ただ、生データもないし、これに関しては、書いてることを信用するしかない。
また、これらは現代のデータであって、現代のヒトの生活は、野生とは大きく異なってるので、そのまま過去の数百万年に適用していいかも疑問がある。それに、マウスとヒトでは、SNV増加速度が大きく異なってるので、ヒトとチンパンジー・ボノボのSNV増加速度が、同程度かどうかも検証されるべきである。けど、チンパンジーやボノボの計測は少ない。
チンパンジーで、一世代で生じる新規SNVを調べた最初の論文は、2014年のものだと思う。
Strong male bias drives germline mutation in chimpanzees
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4746749/
が、その論文で、変異率は、ヒトと、あまり変わらないと報告している。父親の年齢と変異数のグラフFig3(B)にある通り、ヒト同様、父親の年齢増加と共に、変異数も増加するらしい。父親の年齢増加による影響が、ヒトより大きいとも書いてるけど、標本数が少ないので、言い切るには根拠が弱い気もする。
チンパンジーも飼育下にあるものなので、野生なら違う数字が出るとかいう可能性もなくはない。この論文では、一世代で平均35の新規変異が検出できたが、そもそも、チンパンジーの生殖年齢が野生より若く、実験で使用できた常染色体の長さが、2360Mbだったことなどから、野生下では、もう少し多くの変異が入ると考えているらしい。
論文では、変異率を1.2e-8/bp/generationと書いてる。単位が"per basepair per generation"って分かりにくいと思うけど、1.2e-8/site/generationと同じ意味と思われる。野生チンパンジーの父母の平気年齢が、24.3歳と26.3歳なので、一世代の長さは25年くらいで、一年あたりの変異率は、4.8e-10(/site/year)くらいとなる。論文では、4.6e-10(/site/year)とかいう数字が出ているから、こっちを使おう。ヒトとチンパンジーの変異速度が、こんなものであれば、(ゲノム全長は30億bpとして)ミスマッチ数は、2.76bp/year程度の速度で増加する。
論文では、ヒトとチンパンジーの常染色体のdivesityを1.2%と計測してる(私は、X染色体も含めて1.6%くらいになってるけど、使用配列や条件が違うせいだろう)ので、ヒトとチンパンジーの分岐年代は1300万年前と見積もられている。diversityが、1.5%くらいなら、分岐時期は1630万年前となる。
2017年には、
京都大学霊長類研究所チンパンジー・アイ
https://www.pri.kyoto-u.ac.jp/sections/langint/ai/ja/friends/akira.html
らを対象とした計測がなされたらしい。
Direct estimation of de novo mutation rates in a chimpanzee parent-offspring trio by ultra-deep whole genome sequencing
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5666008/
が論文で、一年あたりの変異率は、6.2e-10(/site/year)とされている。標本数は少ないが、coverageが高い。ミスマッチ数増加速度にすると、3.72bp/yearで、ヒトとチンパンジーのdiversityが1.5%なら、分岐時期は1200万年前。子供は、父母が24歳の時に生まれたらしく、ターゲットになってるゲノム領域のサイズの違いを勘案すれば、得られた結果は、既に言及した2014年の報告と大きな齟齬はないと思う。
チンパンジー親子トリオ全ゲノム解析による世代間直接変異率の推定
https://doi.org/10.14907/primate.30.0_46_2
は論文に先立ってなされた学会発表じゃないかと思うけど、この時は、"2x10−8/site/generation という変異率の結果を得た"と書いてあって、論文では、1.48e-8(/site/generation)に下方修正されてる。
ともかく現時点では、直接測定した変異率から算出されるヒトとチンパンジーの分岐時期は、いくつかの要因で大きめの誤差が出るものの、見つかってる化石から予想されている時期と比べると、2倍程度の差があるということになる。
古生物学者がどういう基準で種の区別をしてるのか何も知らないけど、遺伝型の分岐が始まっても、すぐに別種になるわけではない。例えば、地理的隔離が起きて、2つの集団が交流できない状態に置かれた場合、隔離された時点で分岐は始まるけど、暫く(多分、数十万年〜数百万年)の間は、別種か亜種か曖昧な状態にある。なので、分子生物学に基づく分岐時期の方が古くなるのは意外ではない。それでも、2倍近い開きは、ちょっと許容し難い気もする。
明確に、形態的な差が見られるまで、どのくらい時間がかかるのかは、何とも言えない。数百万年単位の時間になる場合もあるなら、この食い違いは矛盾ではないのかもしれない。だとすると、人類誕生の瞬間とかいうのが、点推定できるとか、せいぜい幅10万年くらいの幅で区間推定できるという考えの方が間違ってるってことかもしれない。
別の可能性として、ヒトやチンパンジーのSNV獲得速度が、昔は、もっと早かったということも考えられる。昔のSNV獲得速度を直接測定することはできないけど、チンパンジーとボノボの平均的なSNV獲得速度が同程度だっただろうことは、ヒトvsチンパンジー、ヒトvsボノボで、ミスマッチ数が、あんまり変わらないことが、一つの証拠になると思う。
同様に、過去に、ヒトとチンパンジー・ボノボで、平均的なSNV増加速度が大きく違っていたかどうかは、ゴリラvsヒト、ゴリラvsチンパンジー、ゴリラvsボノボで、ゲノム配列の比較をして、ミスマッチ数が同程度であるかどうかを見ればいいと思われる。ヒトのSNV増加がチンパンジーやボノボより遅いのであれば、ゴリラvsヒトでのミスマッチ数は、ゴリラvsチンパンジーのそれより少なくなるだろう。
それを、ヒトvsチンパンジー、ヒトvsボノボなどと同様にして、集計したのが以下の表。全ての染色体を総合した値だけ記載しておく。ゴリラの染色体再編成に気付いてなかったので、微妙に正しくないけど、ミスマッチ率に大きな影響はないと思う。
種1 | 種2 | 染色体 | 長さ(bp) | N以外長(bp) | アライン長(bp) | NA率(%) | mm数(bp) | gap数(bp) | 延べアライン長(bp) | mm率(%) | 一意mm数(bp) | 一意gap数(bp) | 一意アライン長(bp) | 一意mm率(%) |
hg38 | gorGor6 | All(誤) | 3031042417 | 2911224070 | 2505541453 | 13.94 | 46389396 | 32032823 | 2529294557 | 1.83 | 8388576 | 5095767 | 488943692 | 1.72 |
panTro6 | gorGor6 | All(誤) | 2806264745 | 2778203836 | 2458126908 | 11.52 | 45581086 | 29988783 | 2480919890 | 1.84 | 9303630 | 5366060 | 543123352 | 1.71 |
panPan3 | gorGor6 | All(誤) | 2787676126 | 2756975881 | 2411986204 | 12.51 | 44802651 | 29484228 | 2435742153 | 1.84 | 8990493 | 5185914 | 525940481 | 1.71 |
ミスマッチ率に殆ど差がないので、おそらく、ヒト、チンパンジー、ボノボのSNVは、ほぼ同じ割合で増えてきたと考えられる。この割合が大きく変動して、たまたま、同程度のミスマッチ率になっているという可能性もなくはないけど、新規SNVの出現頻度は比較的安定していて、同程度のミスマッチ率になっていると考える方が自然に思われる。
ゴリラのSNV増加速度が、ヒト・チンパンジー・ボノボと同程度かは再び分からないが、それを知りたければ、今度は、オランウータンvsヒト、オランウータンvsゴリラなどでミスマッチ率を比較すればいいはず。
Revising the human mutation rate: implications for understanding human evolution
https://doi.org/10.1038/nrg3295
のFigure1を見ると、ゴリラ、チンパンジーの変異率は同程度だが、オランウータンやアカゲザルなどは、それより少し高頻度だと書いてある。
ヒト、ゴリラ、チンパンジー、ボノボとオランウータンのゲノム比較情報を集計してみると、以下のようになっていた。
種1 | 種2 | 染色体 | 長さ(bp) | N以外長(bp) | アライン長(bp) | NA率(%) | mm数(bp) | gap数(bp) | 延べアライン長(bp) | mm率(%) | 一意mm数(bp) | 一意gap数(bp) | 一意アライン長(bp) | 一意mm率(%) |
hg38 | ponAbe3 | All | 3031042417 | 2911224070 | 2571366884 | 11.67 | 92428393 | 57288976 | 2608437771 | 3.54 | 15188373 | 8240948 | 456454886 | 3.33 |
gorGor6 | ponAbe3 | All(誤) | 2757155739 | 2715359355 | 2369321035 | 12.74 | 84650232 | 49597010 | 2397492689 | 3.53 | 15192869 | 7948024 | 453217728 | 3.35 |
panTro6 | ponAbe3 | All | 2806264745 | 2778203836 | 2496060105 | 10.16 | 89839276 | 54030407 | 2531232513 | 3.55 | 15402587 | 8189403 | 461144924 | 3.34 |
panPan3 | ponAbe3 | All | 2787676126 | 2756975881 | 2480799795 | 10.02 | 89115234 | 53403694 | 2515549386 | 3.54 | 15563149 | 8267168 | 465299818 | 3.34 |
なんかミスったか心配になる程度に、ミスマッチ率が近い。染色体ごとに見ると、結構違いがあるけど、平均化すると、ほぼ同じ感じになる。ヒトとゴリラが分岐して結構経つのに、これくらい近い数字が出るということは、新規SNV出現頻度は、ヒトとチンパンジーが分岐する以前から、安定していたと考えるのが、自然に思える。過去に、ヒトのSNV獲得頻度の変動があったとすれば、チンパンジー、ボノボ、ゴリラなどでも、共通の影響を受けた可能性が高い。そのような変動があったとしても、この表からは、何の情報も引き出せない。
ヒトvsオランウータン、ゴリラvsオランウータンのmm率は、ヒトvsチンパンジーやヒトvsボノボの2.5倍弱。SNV獲得速度が、ヒトとオランウータンの系統で、ずっと一定だったなら、ヒト・オランウータン分岐年代と、ヒト・チンパンジーの分岐年代の比は、2.5倍程度になるはず。つまり、ヒト・チンパンジーの分岐が600万年前なら、ヒト・オランウータンの分岐は1300〜1500万年前とかいう計算になる。
SNV獲得速度が、ヒトとオランウータンで違うなら、この見積もりは妥当でなくなる。それを見るには、大型類人猿と近縁なテナガザルとの比較を見るというのが自然な流れだけど、テナガザルは、染色体数が大型類人猿と異なり、ゲノム配列も割とシャッフルされてるらしいので、ゲノム全体の比較も、大型類人猿同士の時より少し面倒になる。アカゲザルなんかの方が、むしろ対応関係は単純で、そっちを使えばいいかもしれないけど、それでも、大型類人猿のように、単純な1:1対応は作れないので、一旦、ここで打ち止め。
チンパンジー、ゴリラ、オランウータンの実物すら見たことないけど、若干の疑問はあるとはいえ、とりあえず、大型類人猿の系統関係が確認できてよかった。
話が逸れるけど、増殖のたびに変異が入るのは、生殖細胞以外の体細胞も同様である。生殖細胞以外での変異率は、どうなってるのか気になる。組織ごとに、幹細胞に入る点突然変異の数を調べた論文が、2016年に出ている。
Tissue-specific mutation accumulation in human adult stem cells during life
https://doi.org/10.1038/nature19768
途中までしか読んでないけど、Figure1を見る限り、結腸、小腸、肝臓について、それぞれ10〜20人程度の比較を行っていると思われる。結論は単純で、組織や年齢によらず、平均して、年間40個程度の変異が入るとしている。ヒト生殖細胞の変異が2〜3個/年だったのと比べると、相当に多い可能性がある。教科書的には、肝臓細胞は、年に一回程度分裂するらしい(大部分の時間は、G0期で細胞周期は停止している、とされている)。そうすると、肝臓では、一回の複製で、40個ほどコピーミスがあるということかもしれない。
Somatic mutagenesis in satellite cells associates with human skeletal muscle aging
https://doi.org/10.1038/s41467-018-03244-6
は、2018年の論文で、21〜78歳のヒトの骨格筋の幹細胞であるサテライト細胞に蓄積しているSNVを調べたらしい。Abstractしか見てないけど、高齢者の方が、変異が多く、変異の蓄積は、平均して13個/年だと書いてある。
40とは結構差があるけど、骨格筋はトレーニングによって増殖したりするわけだし、ゲノム複製一回あたりの変異の数がどうなってるかは分からない。
Clonal dynamics of haematopoiesis across the human lifespan
https://doi.org/10.1038/s41586-022-04786-y
は2022年出版で、主題は変異数を数えることではないけど、Abstractには、造血幹細胞ゲノムに、年平均17個の変異が入るとか書いてある。
組織ごとの細胞増殖速度とかは、よく分からないが、多くの組織で細胞分裂回数の目安としてテロメア長を使うことができる。テロメア長が年齢と共にどう変化するかは、多くの組織で測定されてる。例えば、2005年の総説
テロメア変化から老化を探る
https://www.jstage.jst.go.jp/article/faruawpsj/41/10/41_KJ00009718493/_article/-char/ja
の表1に、多くの測定値が載っている。これによると、肝臓では、年平均55,60,120bp短くなるという3つの報告があるらしい。テロメア長が一回の複製で50〜100bpくらい短くなってるという話を考えると、肝臓細胞が年に一回程度分裂するというのと整合的ではある。
Telomeres shorten at equivalent rates in somatic tissues of adults
https://doi.org/10.1038/ncomms2602
は、2013年の論文で、白血球、筋肉、皮膚、脂肪組織のデータがあり(Figure1)、一次関数でフィッティングすると、いずれの組織も、年平均でおよそ25bpずつ短くなってるらしい。測定は、TRF(telomere restriction fragment)法と呼ばれる古典的な方法による。上総説には、皮膚表皮で36bp/yrという数値が見られる。小腸および大腸粘膜は42bp/yrとなっている。測定データの精度が低くて、確定的なことは言えないけど、肝臓や小腸に見られる変異蓄積の多さは、分裂の頻度が高いことで説明できるのかもしれない。
元の話に戻る。上記の分岐年代推定は、一塩基置換に注目して算出している。それはそれでいいけど、ヒトと類人猿のゲノムを比較すると、それ以外の理由による変化も大きい。
ゲノムが変化する要因には、レトロトランスポゾンの転移や挿入、それからsegmental dupliactionなどが考えられている。segmental duplicationは、遺伝子重複を起こす場合がある。最近は、遺伝子重複やコピー数多型が、意外と沢山あることが示されつつある。ヒトの重複遺伝子の中には、ヒトとチンパンジー・ボノボが分岐した後に生じた(と思われる)ものも見つかってる。これらの遺伝子は、パラログとはいえ、ヒト固有の遺伝子ということになる。
ヒトのゲノム配列から、このような新規重複遺伝子の候補は列挙できると思うけど、現時点で、実際に発現しているかどうか確認されてるのは、ごく少数だと思う。見かけ上、沢山あるけど、実際に機能してるのは、10個くらいだったとかいうことも、今の所は、ありえるかもしれない。
Lineage-Specific Gene Duplication and Loss in Human and Great Ape Evolution
https://doi.org/10.1371/journal.pbio.0020207
は2004年の論文で、このような可能性を網羅的に検証しようとした初期のものだと思う。
以下の論文は、一部の遺伝子(全遺伝子の10%程度)は、ヒト同士であっても、コピー数バリアント(多型は、人口の1%以上に存在しないとダメとかいう定義があるけど、コピー数多型と同じようなもの)が見られるということが書いてある(後者の論文のFig3Bなども参照)
Diversity of human copy number variation and multicopy genes
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3020103/
ヒト固有の重複遺伝子で、よく調べられてるのは、神経系に影響する可能性のあるものが主っぽい。ARHGAP11Aの重複遺伝子ARHGAP11B、SRGAP2の重複遺伝子(SRGAP2B,SRGAP2C,SRGAP2Dなどと名付けられている)などは、神経系で何らかの働きをするらしい。これらのコピー数は、ヒトでも、個人差がある。
他に、Notch2NL遺伝子のコピー(Notch2NLA,Notch2NLB,Notch2NLC,Notch2NLR)は、ヒトの脳の容量増大に寄与したという仮説がある
Human-Specific NOTCH2NL Genes Affect Notch Signaling and Cortical Neurogenesis
https://doi.org/10.1016/j.cell.2018.03.051
Notch2NL遺伝子群も、コピー数が人によって違うらしく、Notch2NLRは、1コピーも持たない人が、14%いると書いてある(どういう母集団か確認してない)。Notch2NL遺伝子群は、ヒト、チンパンジー、ボノボ、ゴリラの共通祖先で、Notch2遺伝子の部分重複で生じ、チンパンジーやゴリラでは、偽遺伝子化してるが、ヒトでは、機能を持った遺伝子として働いてるらしい。
重複領域を、機械的に抽出できるか、実験しようと思って、試しに
lastz hg38/chr1.fa hg38/chr1.fa --chain --gfextend --gapped --step=20 --format=maf > hg38_vs_hg38_chr1.maf
とかやって、異なる領域に、アラインされたものを確認すると、1番染色体では、86対の相同性の高いセグメントが見つかった。100bpに満たない短い領域もあるけど、半分くらいは、100〜10000bpの範囲にあり、長い場合は、10万bp以上というのもある。
panTro6やponAbe3の1番染色体で、同じことをやると、hg38の場合と同程度の個数の相同領域対が見つかったが、10万bpを超えるものはなかった。これが、LASTZの問題なのか、ゲノム配列の質の問題なのか、実際に、ヒトでのみ、長い領域の重複が起きたのかは分からない。
hg38では、10万bp以上の相同領域が9対見つかり、25万bpを超える対も2つある(但し、これらは、ほぼ同一の場所なので、実質的には一対)けど、hg19でやった場合は、10万bpを超えるのは2対のみで、最も長い領域で12.5万bp程度。
ここに書いた方法で検出できた(一番染色体上の)相同領域の長さは、(コピー元とコピー先を合わせて)延べ4700kbp弱だった(ほとんど重なってる領域もあるけど、何も考えずに足してる)。これらの重複領域は、別に、ヒト固有のものとは限らないので、ヒト固有の重複領域かどうかは、別途確認していく必要がある。
ここでは、取れてほしいものが取れてるかだけ確認しておく。
1番染色体上には、Notch2とNotch2NL(A,B,C,R)遺伝子がある。この方法で、Notch2NLAを含む領域は検出できなかったけど、Notch2NLAとNotch2NLRを含む領域同士、NotchとNotch2NLCを含む領域同士の対応が取れてそうだった。まぁ、こんなんでも、そこそこうまくいくらしい。これらの遺伝子の位置は、以下のサイトを参照した。
NOTCH2
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2
NOTCH2NLA
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2NLA
NOTCH2NLB
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2NLB
NOTCH2NLC
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2NLC
NOTCH2NLR
https://www.genecards.org/cgi-bin/carddisp.pl?gene=NOTCH2NLR
染色体同士の比較だと、Notch2NLAが出てこなかったけど、Notch2NLAを含む8万bpちょっとの領域を切り出して、
lastz notch2nla.fa hg38/chr1.fa --chain --gfextend --gapped --step=20 --format=maf > notch2nla_vs_hg38_chr1.maf
みたいなことをすると、4つの相同領域が取れてる。どれも、6〜9万bpの長さで、Notch2を含む領域以外が取れてるっぽい。
これらの遺伝子は近くにあって、gene conversionによって、重複遺伝子間の相同性が維持されるようなことがあった(ある)と考えられているので、これらの遺伝子重複がいつ起きたか見積もるのは、簡単ではなさそう。
また、重複遺伝子が出現して、すぐに表現型が変化したとも限らない。表現型に反映されるには、遺伝子ができるだけでなく、発現の調節もされないといけない。長い間、偽遺伝子だったものが、ある時復活するということもありえる。
ボノボでは、別の染色体上に、遺伝子のコピーが挿入されている例を上で見たけど、ヒトにも同様の例はある。1番染色体上にあるNotch2NLAの近くには、HYDIN2というヒト固有の遺伝子があり、16番染色体にあった遺伝子HYDINから部分的な重複とgene fusionを経て形成されたものと予測されている。論文では、その出現は、約320万年前とされている(前提として、ヒトとチンパンジーの分岐年代を約600万年前と仮定している)。
The birth of a human-specific neural gene by incomplete duplication and gene fusion
https://doi.org/10.1186/s13059-017-1163-9
これも、機械的に抽出できるか実験する。
lastz hg38/chr1.fa hg38/chr16.fa --chain --gfextend --gapped --step=20 --format=maf > hg38_chr1_chr16.maf
として、1番染色体と16番染色体で、相同性の高い領域を探すと、10万bpを超える対が2つ見つかり、この2つは隣接しているので、一回の重複で生じたものかもしれない。そして、この領域は、HYDINやHYDIN2がある領域と重なっている。
この2つの相同領域対の全長は、1番染色体上で278kbp、ミスマッチ数の合計は1659で、ミスマッチ塩基の割合としては、大体、0.6%くらい。異なる染色体上にあるので、重複が起きた後、組み換えなどは起きなかったと考えてもいいだろう。
仮に、ヒトでSNVの増える頻度が、1.0e-9/site/yearだとすれば、このミスマッチ数が生じるまでにかかる時間は、1659/(2*278e3*1.0e-9)で、大体、300万年程度。元の論文より手抜きではあるが、論文の見積もりと、そんなに変わらなそうである。論文では、もう少し広い単一の領域を使って、チンパンジー、オランウータンのゲノムとのアラインメントも与えている。
論文の数字では、348kbpの領域に、分岐後、908と845の一塩基置換があったと書いている。この場合、ミスマッチ数は1753で、ヒトのSNV増加頻度が、1.0e-9/site/yearなら、このミスマッチ数が生じるのにかかる時間は、1753/(2*348e3*1.0e-9)で250万年程度。
最後に、20世紀〜21世紀初頭の"人類起源論"に関わる古生物学(古人類学)界隈の記述を中心に、いくつか集めてみた。
[1930年]人類の誕生地
https://doi.org/10.5026/jgeography.42.1
[1931年]人猿間の二動物
https://doi.org/10.5026/jgeography.43.187
放射年代測定以前の時代で、人類の起源が、アフリカ、アジア、ヨーロッパのどこにあるか議論されてたらしい。前者では、紀元前15000年前とか25000年前のヒトの制作物が発掘されたみたいな記述が散見されるが、人類自体の出現時期は言及されてない。後者も、更新世(約258万年前〜1万年前)という地質年代への言及はあるけど、具体的な年代の決定には至ってなかったのかもしれない。
[1951年]北京人類の失踪
https://doi.org/10.5026/jgeography.60.195
には、以下のようにある。北京原人の絶滅時期を75万年前としているけど、どうやって推定した年代なのかは不明。
この埃にまみれた眞鍮製の2個のトランクの中には今から75万年程以前に絶滅し,そして20世紀の初期に発掘せられ そしてまた第二次世界大戦の日本軍眞珠湾攻撃の直後再び行方不明となった原始人類の化石がおさめられてあるのである。
この失われた原人は北京人類(シナントロープス・ペキネンシス)と呼ばれるもので現在知られた祖先人類の中ではジャバの直立猿人とともに最古のものであり猿と人類との間では最も原始的なものと云われているのである
1960年代に、カリウム・アルゴン法による地質年代/化石年代の測定と、分子時計による分岐時期の推測が始まった。当時の分子時計は、タンパク質のアミノ酸配列に基づくもので、また化石年代をcalibrationに利用していた。
[1963年] Some Fallacies in the Study of Hominid Phylogeny
https://doi.org/10.1126/science.141.3584.879
この論文では、カリウム・アルゴン法の論文が、in pressとして引用されている(1964年に出版されたらしい)。本文中では、いくつかの化石記録から、
but most hominoid genera probably endured for at least 3 to 7 million years without much change of form.
という推測を述べている。
[1967年] Immunological Time Scale for Hominid Evolution
https://doi.org/10.1126/science.158.3805.1200
分子時計を用いた推定。分子生物学の結果ではあるが、ヒトと旧世界ザルの分岐時期を3000万年前と仮定した場合、ヒトと"African apes"の分岐時期は500万年前だと書いている。"African apes"と書いてるのは、ゴリラとチンパンジーのどちらが、ヒトに近縁なのか決定できなかったためらしい。実際、上で見たように、ゴリラとチンパンジーの分岐時期は比較的近い。
[1980年]東アフリカおよびエチオピアにおける最近の人類化石の諸発見
https://doi.org/10.1537/ase1911.88.1
カリウム ・アルゴン法により,この堆積物の年代は少なくとも359万年よりは古く,多分377万年ぐらいの古さを示している。 これらの化石はロサガムから出土した人類かどうか疑わしい顎化石(BEHRENSMEYER,1976)を除けば,東アフリカにおける最古の人類ということにな る。
[2003年]2つの人類起源論と人類のこれから
http://hdl.handle.net/10723/464
もっとも近縁のチンパンジーやボノボとの共通祖先から分かれて最初の人類が誕生したのは、DNAの研究からおよそ500~700万年前だと推定されている。これに対して、一昨年東アフリカから見つかったオロリンと命名された化石は、約600万年前のものだと推定されている。もしこれが、人類直系の祖先だとすれば、「ミッシングリンク」は、もはや存在しないことになる。
[2009年]ケニア,ナカリでの古人類学調査
https://doi.org/10.1537/asj.117.111
大分慎重な書き方にはなってるが、
私も,従来の分子生物学による分岐年代推定値は新しすぎると考える。これまで,オランウータンの分岐を1300~1200万年前とする推定が多い。これは,オランウータンの祖先種とされるシバピテクスの初出年代1250万年前に近く,整合性があるように見えるが,そうではない。
それならば,分岐年代が1500万年前よりも新しいことは考えにくく,それに合わせゴリラ,チンパンジーの分岐年代も下がるはずであろう。
などの記述がある。
分子生物学の名誉のために、TIMETREEを見ると、ヒトとオランウータンの推定分岐年代は、60の報告が列挙されていて、中央値は1520万年前となっている。ヒトとチンパンジー・ボノボの分岐年代と同様、推定の幅は広く、820万年前としているものがある一方、3000万年前としているものもある。
上の方に書いた通り、大型類人猿のSNV獲得速度が全部等しく一定であり、かつ、ヒト・チンパンジーの分岐年代が600万年前であると仮定した場合、ヒト・オランウータンの分岐年代は、1300〜1500万年前くらいになる。TIMETREEでは、ヒト・サルの分岐年代、ヒト・オランウータンの分岐年代の中央値は、640万年前と1520万年前で、概ね、辻褄は合っている。
TIMETREEは、この論説が書かれた2009年以降の報告も含んでいるけど、2009年以降、予測分岐年代が顕著に後ろにシフトしたということも、なさそう。TIMETREEにあるのは、基本的に、一次文献で、これらの文献の引用数は多分バラバラだろうから、個人が何となく多いと感じる中央値とずれることは、あるかもしれない。どれくらい引用数に違いがあるのかとか、気にならなくもないけど、それはそのうち調べよう。