SlideShare una empresa de Scribd logo
1 de 34
Descargar para leer sin conexión
 15(S):13-46
ª      现代人类学通讯                第三卷       2009 年    Communication on Contemporary Anthropology
                                                                                                    COM. on C. A. 3:e3, 2009
                                                                                               Vol. 3              研究报告




东亚人群线粒体 N 系单倍群的迁徙分化
陈致勇
中国恐龙网论坛, 上海 200085

摘要:线粒体 N 系单倍群是东亚人母系线粒体遗传 M、N 和 R 三大系统之一。本文在汇总大量亚洲东部族群线
粒体 N 系单倍群序列和数据的基础上,通过重建系统发生学关系,明确了东亚人的 N 世系(A、N9a、Y、N9b
等)直接源自北部湾地区,应为东南亚起源而非中亚起源。年代测算表明 N 系单倍群很可能在 5.0 万年前已到
达东南亚地区,在东亚大陆大规模扩张的时间大致始于 2.5-2.0 万年前。地理分析显示,华中地区是 N 系下
游单倍群 A、N9a 和 Y 扩散分化和集中分布的主要地区,暗示 N 系单倍群可能与苗瑶族系,特别是与古代的苗
蛮民族有着密切的联系。因而可将 N 系单倍群所属的史前族群视为“原始苗人”。但进一步的分析显示 N 系单
倍群的成分不仅存在于湖南苗族的母系遗传中,也大量流入了周边汉族和其他少数民族群体中。表明在母系
遗传上湖南苗族不是史前“原始苗人”的唯一直系后裔,而只是分享其母系遗传的众多后继者之一。
关键词:线粒体;N 系;单倍群;东亚;北部湾;迁徙;苗瑶

Migration and Diversification of Mitochondrial Haplogroup N
in East Asians
CHEN Zhiyong
China Dinasour Forum, Shanghai 200085 China

Abstract:Mitochondrial superhaplogroup N is one of the three dominant haplogroups M, N and R in the East Asians.
Here published sequences and data of haplogroup N in East Asia were collected and the phylogenesis was
reconstructured. The origin of the N lineage of East Asians (A, N9a, Y, N9b, etc.) was found to be beside Tonkin Bay,
not in Central Asia but in Southeast Asia. Time estimates suggested that superhaplogroup N most probably arrived in
Southeast Asia 50 thousand years ago, and started to expand in mainland of East Asia around 25-20 thousand years
ago. Geographic analyses showed that middle China was the diffusion center of the downstream haplogroups A, N9a,
and Y, indicating haplogroup N might be associated to Hmong-Mien, especially to the ancient “Miao Man”.
Therefore, the ancient population with the haplogroup N might be defined as “proto-Hmong”. Further analyses
showed that haplogroup N distributes not only in Hmong from Hunan but also in the neighboring Han Chinese and
other minorities. Present Hmong is not the only descendant of “proto-Hmong” but one of those descendant sharing
haplogroup N.
Key words: Mitochondria; Haplogroup N; East Asia; Tonkin Bay; Migration; Hmong-Mien


                                                                   系统性的分析。结果显示东亚线粒体 N 世系
前言                                                                 同样属于南方起源,东亚人的祖先主要由南
    笔者早先在研究东亚母系线粒体遗传                                               方(南亚和东亚南部)沿海路线迁徙而来。
地理分布时,    发现线粒体 M 系和 R 系的早期                                           此外,由于在不同族群融合时经常出现
类型都明确地显示出在中国南方集中分布的                                                性别偏向性,史前族群的大部分父系遗传结
迹象,表明均属于南方起源,与一些文献的                                                构经常被晚近时期强势民族的父系标记所掩
研究结果基本吻合[1,2]。但是对 N 系单倍群                                           盖。而母系遗传结构则忠实地记录了历史上
(A、N9a 和 Y 等)早期类型单倍群地理分布的                                          不同的移民层次,对于追寻远古族群的迁徙
研究却没能为追溯起源提供更多的线索,现                                                历史来说是非常理想和有效的工具。因此充
有文献对此也是语焉不详。笔者认为其中主                                                分、准确地解读东亚人母系线粒体遗传所携
要的问题在于对线粒体单倍群细分不够和研                                                带的丰富信息,将有助于我们最终破解东亚
究深入程度不够。因此广泛搜集亚洲东部 N                                               民族远古起源之谜。
系单倍群的序列和样本对其进行最为完整和

收稿日期:2009 年 3 月 8 日           修回日期:2009 年 4 月 21 日 联系人:陈致勇 nickchen1@vip.sina.com
2009 年 4 月 22 日        http://COMonCA.org.cn/Abs/2009/003.htm   13                  ©上海人类学学会 Shanghai Society of Anthropology
REPORT                                                                         COM. on C. A. 3:e3, 2009


                                                             共计 1173 条。其中 N*序列 41 条, 序列 552
                                                                                    A
材料与方法                                                        条,N9a 序列 296 条,Y 序列 199 条,N9b
样本的搜集                                                        序列 41 条,N21 序列 36 条,N22 序列 8 条。
    本次研究的序列和数据主要来自以往                                            另外,许多带有 16189 位点突变的序列
文献及 GenBank 数据库,来源详见附件。鉴                                     也极易在高变 1 区 16181-16193 片段上发生
于 N 系单倍群的起源地很可能在境外,而且                                        更多的关联突变。考虑到对分型价值不大,
分布范围远及东南亚岛屿、印度东北部、北                                          在主要分析中对上述片段中的插入、删除以
亚、北极等广大地区,因此本次研究在亚洲                                          及突变为 C 的颠换等非特征变异均予以排
东部范围内全面搜集蒙古人种各群体 N 系单                                        除。
倍群的高变 1 区序列和全序列数据,以及可
转化为序列的高变 1 区突变数据,用于分布                                        主要分析方法
频率分析。图 1 显示了本文主要数据采样点                                        1.全序列分析
的分布情况。                                                             对于线粒体 DNA 研究来说,最准确和
                                                             最有效的方法就是进行全序列的比对分析。
                                                             不过由于测试费用太高等原因,现在公开发
                                                             表的国内和东南亚的 mtDNA 全序列还很少。
                                                             所以目前主要还是采取高变 1 区分析为主、
                                                             全序列分析为辅的方式。
                                                             2.高变 1 区中接网络分析
                                                                   本次研究综合了多种分析方法。首先,
                                                             在参考有关文献根据 mtDNA 全序列研究所
                                                             得到的系统发生树的前提下,使用 Network
                                                             4.5.0.0 系统发生学软件构建线粒体高变 1 区
                                                             中接网络(Median-joining Network),Network
                                                             软件可以从纷繁复杂的序列数据中归纳出线
                                                             粒体单倍群的分化结构,并提供高频突变位
图 1. 本文数据主要采样点的位置分布图                                         点的信息。
Fig.1 Distribution of the population samples analyzed        3.单倍群发生频率的地理分布分析
in this paper.
                                                                   在充分分析中接网络和分类数据的基
数据预处理                                                        础上,再使用 Sufer 8.0 三维成像软件分别将
    首先从样本或可转换数据中筛选出包                                         研究对象的分型数据,包括主要分支、原始
含比较完整的高变 1 区特征突变的数据,用                                        类型和未定义类型的发生频率数据绘制成直
于分布频率和变异频率分析。对错误的数据                                          观的地理分布图。其中原始型和未定义类型
能采取两种处理方式:对于错误分型或未细                                          的频率分布图可以为我们提供此单倍群早期
分但特征突变特别清楚的数据进行重新分                                           分化和晚期扩散的重要信息。
型;对于突变数据明显有误且特征突变不清                                                本文所说的某线粒体单倍群的原始型,
晰 的 直 接 剔 除 。 而 后 使 用 CLC Free                               就是在高变 1 区特征上与系统发生树推导出
Workbench 4.5.1 生物信息软件将其中完整或                                 的单倍群祖型完全一致的单倍型。而未定义
基本完整的数据统一处理为 16024-16383 位                                   类型指的是在该单倍群的高变 1 区数据中剔
点、长度为 360bp 片段,用于高变 1 区中接                                    除原始型及其主要分支后余下的单倍型。
网络分析。对于没有分型的高变 1 区序列,                                        4.扩散效应分析
根据可靠的低突变位点或者联合多个位点特                                                在分析过程中笔者发现:由于人口数量
征进行最终确认,不能确认的予以排除。最                                          较少史前人类经常是整个族群一起迁移,沿
后选用的 N 系单倍群高变 1 区序列(或数据)                                     途通常只留下少量且不连续的痕迹;或者早



                                                        14
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                 研究报告


期迁徙事件遗留下来的少量痕迹可能受到后               显然,出现上述第一种情况的区域是早
期其他迁徙事件的冲刷和扭曲,这些都使我             期扩散中心的可能性很大。即使分布频率只
们难以对早期分化迁徙过程作出准确的判              留下很少的遗迹,我们仍然可以通过高变异
断。现有的分子人类学分析方法无法有效地             频率找到远古人群扩散的重要线索。
解决这个难题。为此笔者尝试使用一种新的
分析方法——扩散效应分析。原理在于不同             未定义单倍群的命名
的扩散模式会在地理分布和遗传分布上出现               在下面的分析中,为了避免在命名编号
不同的特征,我们可以综合这两方面的信息             的问题上与其他文献发生冲突,笔者对于已
推断出扩散模式、起始地点、迁移路线等重             有定义的亚单倍群将遵从最权威的命名,而
要结果。                            对未定名的亚单倍群只标注高变 1 区特征位
   这种分析需要一个新的指标来度量和             点,这样直观易懂而且不会引起歧义。
分析族群内部变异的积累程度,    可称之为“群
体内部变异频率”  。计算方法为:首先在作为
研究对象的某个单倍群高变 1 区数据中去除
                                结果和分析
原始型和所有或大或小的分支,筛选出无法             1.线粒体 N 单倍群
细分的样本,这些样本可以为我们提供各群                N 系单倍群在亚洲东部广大地区都有分
体内部遗传分化的信息。然后,统计出每个             布,在已定义分支中:A 和 N9a 主要分布在
采样群体中无法细分样本的特异突变位点的             东亚和北亚地区,N21 和 N22 分布在东南亚
总数(注意在相同位点上同时出现转换和颠             地区[3-5],N9b 分布在东北亚和西伯利亚远
换可计数 2 次) 用这个突变位点数除以该群
         。                      东滨海地区[6,7],而 Y 在东南亚、东亚和东
体的样本总数,就得到群体内部变异频率。             北亚地区都能找到。
   接下来将使用 Sufer 软件绘出群体内部           与上述已定义的下游单倍群不同的是,
分化度的地理分布图。对比某一单倍群分布             N 未定义类型的分布极为有限。在笔者所搜
频率和内部变异频率的地理分布图,会发现             集到的全部序列和数据中:N*集中分布于北
主要有三种情况出现:                      部湾地区,包括越南北部、中国广西自治区
  (1)某一区域内单倍群发生频率和变异频           和海南;也分布在中国南方地区和东南亚部
率都比较高。这通常是群体大规模扩散的迹             分地区;低频出现在中国北方少数地区。但
象。大规模扩散是一个长期的过程,人口大             在境外的北亚、中亚和北极地区一例都没有
量增殖带来遗传突变几率的增加,在较长的             发现。
时间跨度内群体内部必然有大量新的变异型
出现。                             1.1. N 单倍群高变 1 区中接网络
  (2)某一区域内的变异频率较高,而单倍                图 2 就是根据亚洲东部线粒体 N 系单倍
群发生频率不高。这可能是小群体迁徙的迹             群数据绘制的高变 1 区中接网络。笔者参考
象。在遗传漂变的作用下,新的变异类型有             以往文献中的系统发生树去除了其中冗余的
时会偶然获得在迁徙群体内部扩大其比例的             连线[2,8],排除了一些可能由高突变位点所
机会,迁徙距离越长则群体内部积累的变异             形成的网状拓扑结构。另外,笔者在数据中
越多。又称为瓶颈效应或奠基者效应。               发现 2 个可能属于西部欧亚 N 世系 N1c 和 W
  (3)某一区域内单倍群发生频率较高,而           的陕西样本 SHANNXI11、 SHANNXI13(陕西
变异频率不高。有可能是族群整体迁徙,群             标准拼写应为 Shaanxi,原文有误),也予以
体内部新产生的变异很难获得扩大比例的机             排除[9]。网络中还加入了 N 系在东亚的主要
会,导致变异频率没有显著增加。或者是晚             分支 A 和 N9a 的原始型样本,以便更清楚地
近时期环境和生存条件改善而导致短期内人             展现亚洲东部 N 系单倍群的全貌。不过笔者
口大量增长,但是由于某种原因只持续了较             没有在数据中找到真正的 Y 原始型,而 N9b
短的时间并未大规模扩散。                    原始型的高变 1 区特征太少,    极易与其他 N*



                           15
REPORT                                                                       COM. on C. A. 3:e3, 2009


混淆,所以 Y 和 N9b 的原始型都没有加入。                                  切来源,不过从北亚和北极地区未发现独立
    从 N 单倍群中接网络可以发现一些东亚                                   发展的 N*世系看,他们仍很可能属南方起
N 世系从南方起源的迹象:                                             源。
   (1)整个网络呈现“空心化”的结构。中                                        从网络中还可以看到,N 在东亚的主要
心节点特别小,   是由 1 个广东潮阳样本 STC8                               支系 A、N9a 主要分布在东亚大陆和北部湾
和 1 个印度尼西亚样本 PAD09 组成[4,10]。                              周边地区,     只有少数支系分布在东南亚地区。
由于笔者在构建网络时删除了一些高突变的                                           A*:直接与起始节点相连,另有一个与
位点,所以上述样本并不是 N*的原始类型,                                     之相连的海南疍家样本 DG12[11],这个样本
而是分别带有 16189 或 16311 位点突变的最                               有 16290 突变而缺少 16319 突变,因此难以
接近根部的类型。事实上真正的无高变区特                                       判断它是否属于未细分的带有 16319 回复突
征的 N*原始型在样本中没有找到。                                         变的 A 个体。
                                                              N9a* : 它 通 过 一 个 越 南 北 部 人 样 本
                                                          VN302 与起始节点相连。下文中的全序列分
                                                          析确定了 VN302 是个罕见的 Pre-N9a 个体,
                                                          笔者判断 N9a 是北部湾一带起源的单倍群。
                                                              N 在东南亚地区也分布着几个支系,其
                                                          中 N21、N22 和 N-16263,16274,16343,16357
                                                          很 可 能 是 东 南 亚 本 地 起 源 , 而 N-16111,
                                                          16172,16189,16362 似乎是北部湾地区起源。
                                                              N21:其高变 1 区特征是 16193 转换变
                                                          异。它是 N 在东南亚地区最大的分支,主要
                                                          分布在马来西亚、印尼、泰国部分地区,在
                                                          中国云南汉族中也发现一例 YUNNAN37[9]。
                                                          从高变 1 区特征看 2 个印尼人样本 PAL06、
                                                          BAL40 属于 N21 原始型[3,4]。N21 在马来半
图 2. 根据高变 1 区数据绘制的 N 单倍群简化中接网                             岛产生了一个人数众多的分支 N21-16223,
络 节点分色示意:红色—北部湾地区,绿色—中国                                   带有高变 1 区谱序 16193-16223- 16291。   泰国
南方,橙色—中国北方,蓝色—东南亚地区。
Fig.2     A simplified Median-joining Network of          和云南汉族的 N21 样本则属于带有 16182 转
haplogroup N based on mitochondrial HVS-1 Keys for        换变异的另一支系 N21-16182。
the colors: Red for the Tonkin Bay area, Green for
South China, Orange for North China, and Blue for
                                                              N22:这是个很小的单倍群,样本中包
Southeast Asia.                                           括 4 例马来土著人和 4 例印尼松巴岛人。其
                                                          中 2 个马来土著样本属于 N22 原始型。
   (2)在北部湾地区的 N*样本中,有一些与
                                                              N-16263,16274,16343,16357:图中标注
东南亚样本共享同一分支,也有与华南样本
                                                          为 N-16263,16274。这个未定义单倍群包括 7
的共存的情况出现。后面的进一步分析显示
                                                                         4
                                                          个印尼爪哇人、 个印尼邦加岛(Bangka)人和
北部湾的 N*更多地流向了东亚南部而不是
                                                          1 个泰国人 C075 样本。其中 1 个爪哇人和 4
东南亚地区。
                                                          个邦加岛人属于原始型。
   (3)数据中没有发现来自境外北亚和北极
                                                              N-16111,16172,16189,16362 :图中标注
地区的 N*样本。 在排除了可能源自西部欧亚
                                                          为 N-16111,16172。  这是个很小的未定义单倍
的 N 世系的样本后, 中国北方(也包括北方少
                                                          群,样本中包括 1 个广西拉珈人 MI459、1
数民族)的 N*样本共 5 例,比中国南方和北
                                                          个新疆乌兹别克人 Uzb26、1 个马来人和 4
部湾地区的样本少得多。在这 5 例样本中,
                                                          个印尼人[12,13]。其中只有拉珈人 MI459 属
有 2 个通过中国南方、北部湾或者东南亚的
                                                          于该单倍群的原始型,而 5 个东南亚的样本
节点与根部相连,可能是南方起源。只有 3
                                                          都属于带有 16311 转换突变的分支。因而此
个北方样本直接与根部相连,无法确定其确


                                                     16
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                研究报告


单倍群的起源地很可能在北部湾周边一带。                                       和澳洲 N 世系系统发生树的全面比对,没有
                                                          发现 VN9B 与以上世系共祖的迹象。有趣的
1.2. N*及 N9a 全序列分析                                        是,笔者发现 VN9B、西部欧亚的 W,以及
     在搜集到的亚洲东部地区 mtDNA 全序                                 澳洲土著 N12 的一个分支类型都带有编码区
列中,以日本的数据最多,而在 N*集中的东                                     5460 位点转换,不过从系统发生树看显然属
亚南部和中南半岛北部,全序列显得尤为稀                                       于发展中各自独立发生的并行突变[1,14]。
少和珍贵。笔者很幸运地在 GenBank 数据库                                      VN302(DQ834255):起初未发现此样本
中找到了越南科学技术学院用于病理研究的                                       具备 N9*的 5417 特征突变,笔者将其归为
10 个越南北部人全序列,分型结果显示其中                                     N*的未定义类型。但是进一步的比对发现它
存在许多古老类型。其中属于 N 系单倍群的                                     带有 N9a 的部分特征突变,        包括 150、12358、
样本有 3 个:  他们分属于 N*、 和 pre-N9a。
                   N9a                                    12372 和 16261 转换突变。从 Tanaka 等 2004
                                                          年论文中 N 的系统树看[6],       5417 是个高突变
                                                          率的编码区位点,       基本可以确定 VN302 属于
                                                          发生 5417 回复突变的 pre-N9a。笔者也考虑
                                                          过它是否可能属于发生了一系列回复突变的
                                                          N9a 个体,  不过 5231 属于突变率很低的位点,
                                                          而且 16257A 颠换再次发生回复的概率极小,
                                                          所以基本上可以排除这种可能性。
                                                              VN79 (DQ834258):此序列具备 N9a 的
                                                          所有特征。     除了 16261 和 16257A 突变外,  未
                                                          见其他高变 1 区位点突变,应该是较早的分
                                                          化类型。
                                                              需要指出的是:笔者发现上述 3 个越南
                                                          北部人全序列都存在编码区 14766 转换,还
                                                          有 VN302 和 VN79 样本在编码区上也存在相
                                                          同的 4856 转换。   从以往文献中 N 的系统发生
                                                          树看,14766、4856 位点不可能是 N 或 N9
                                                          下游分支的特征突变[2,8]。还有,在 VN9B
                                                          和 VN302 序列中存在一些很少见的突变为 G
                                                          的颠换。笔者认为这些奇怪的突变可能都是
                                                          测序错误造成的[15]。
                                                              图 3 是在参考有关文献系统树资料基础
                                                          上,按最可能的情形绘出的系统发生树。其
                                                          中还加入了那乃人 Nanai157(EU007856)和广
                                                          东湛江 GD7834 作为参考样本,以生成较完
                                                          整的分化树形[16,17]。尽管存在测序错误的
                                                          可能性,越南北部人全序列还是比较清晰地
                                                          展现了 N9a 的早期分化过程。从全序列分析
图 3. 根据越南北部人全序列绘制的 N*和 N9 系统发
生树 去除了与 MELAS 症有关的 3243A→G 突变和                            我们可以得出一个重要结论:越南北部存在
一些有疑问的突变。                                                 独立发展的 N*世系,      并且很可能是 N9 和 N9a
Fig.3 Phylogenesis of N* and N9 according to the
whole genome sequence of north Vietnamese samples.        的起源地。
The MELAS associated 3243A→G and some doubted
mutations were excluded.
                                                          1.3. N 未定义类型的地理分布
  VN9B(DQ826448):属于一个 MELAS 综
合症患者的 N*个体。经过与西部欧亚、印度


                                                     17
REPORT                                                                        COM. on C. A. 3:e3, 2009


                                                             话 个 体 PH126 和 2 个 湘 西 土 家 族 个 体
                                                             TUJIA0142、TUJIA0151[12,18]。
                                                                 N-16172,16291A,16298:此分支由江苏
                                                             人 JIANGSU16、上海人 SHANGHAI11 和福
                                                             建惠安人 STF4 共 3 个样本组成,       其中江苏和
                                                             上海样本还共享 16069 位点突变[9,10]。似乎
                                                             表明华东地区是 N-16172,16291A,16298 迁徙
                                                             的终点。
                                                                 图 5 是根据序列分析结果绘制的北部湾
                                                             地区 N*世系的扩散图。        可以看出:   N*扩散的
                                                             主要方向是向北进入东亚大陆而不是向南进
图 4. N 未定义类型发生频率地理分布图
Fig. 4 The frequency distributions of unclassified N*        入东南亚地区,而且主要分布于华南地区、
                                                             华中地区以及东部沿海部分地区。
    N 未定义类型集中分布在北部湾周边地
区(图 4)[11]。发生频率最高的族群是越南北                                     2. 线粒体 A 单倍群
部人 10.0%,广东潮阳人 5.3%。其次是广西                                        线粒体 A 单倍群是东亚 N 系单倍群中最
防城港高栏人 3.3%,  海南杞黎 2.9%、海南疍                                  大的分支。广泛分布在东亚、东北亚、北亚、
家 2.5%。N*在华中、华东、西北地区的部分                                      北极地区,A 的一些支系如也伴随着一些北
汉族群体中,以及内蒙鄂伦春族中都有少量                                          亚和乌拉尔族群的西迁一直分布到中亚、东
分布,发生频率在 1.0%-2.4%之间。此外在                                     欧和北欧部分地区。A2 在大约 1.4 万年前经
印尼巴东人(Padang)和马来西亚哥打基纳                                       北极白令海地区迁入美洲。A 在东南亚地区
巴卢人中也各发现 1 例。                                                的分布极为有限,除了泰国有一定比例的分
                                                             布外,也低频出现在印度东北部南亚语部族
                                                             中和马来人(Melayu)[4],但在东南亚岛屿和
                                                             台湾原住民族中均没有发现。笔者认为 A 单
                                                             倍群之所以在东南亚分布稀少,是因为在扩
                                                             张时受到其他单倍群的竞争,比如同属 N 系
                                                             分支而且早期扩散地点更靠南的 N9a 单倍
                                                             群。

                                                             2.1. A 单倍群高变 1 区中接网络
                                                                   图 6 是依据 A 单倍群高变 1 区数据绘制
                                                             的简化中接网络。为方便观察 A 网络的基本
                                                             架构,合并了一些细小的末端分支。图中以
图 5. 推测为北部湾起源的线粒体 N*单倍群支系扩
                                                             黑色标识的就是 A*网络的起始节点,        可以看
散示意图 椭圆形代表主要的扩散中心,下同。
Fig.5 Conjectural origin of mitochondrial haplogroup         到 A*产生了两个巨大的分支:       一支是主要在
N* beside Tonkin Bay and its diffusion. The ellipse          东亚大陆发展的 A4,      另一支是主要分布于中
stands for the origin area in this and the following
maps.                                                        国东南沿海、日本和韩国的 A5*。处于 A*左
                                                             上方的大节点就是 A4*,      它与 A*祖型只差一
   由于 N*记录了早期人类迁徙的宝贵信                                        步 16362 突变,但却产生出一个巨大的星形
息,笔者参照中接网络分析结果对 N*继续作                                        结构,表明在相对晚近时期曾发生过剧烈的
全面的细分,得到更多未定义的细小分支。                                          分化扩散。A*右上方稍小的节点是 A5a,以
   N-16381:这是个由低突变率 16381 位点                                 及它姊妹支系 A5b 和 A5c。鉴于 A 系单倍群
转换所确定的小分支,包括 1 个广西贺州平                                        的完整网络过于复杂,下面我们将把它拆分



                                                        18
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                             研究报告


成 A*(A5)和 A4 两部分来研究。                                     特征,无法确定其中是否存在个别 A5*早期
                                                         类型。
                                                           此外,在网络中还可以看到 A8 和其他
                                                         未命名的小分支,这些分支的数据携带着 A*
                                                         迁徙分化的重要信息。

                                                         2.3. A5 分支的地理分布
                                                              A5a:A5a 样本中绝大部分来自日本和朝
                                                         鲜半岛,以 16187 转换突变为特征。据本次
                                                         研究统计,内蒙古阿荣旗朝鲜族(近代北朝鲜
                                                         移民)最高发,48 个样本中就发现 4 例,发生
                                                         频 率 高 达 8.3% 。 以 下 依 次 为 日 本 中 部 人
                                                         6.1%, 日本南部宫崎县人 3.5%,    韩国人 3.3%。
                                                         但在阿伊努人中没有发现 A5a。
图 6. 线粒体 A 单倍群高变 1 区简化中接网络
Fig.6 A simplified Median-joining network of                  东亚大陆上的 A5a 样本极为罕见。笔者
mitochondrial haplogroup A based of HVS-1 motif          发现河南安阳人 STE36 带有 16187 特征突
                                                         变,  可能是 A5a 个体[10]。 还有孔庆鹏等 2006
                                                         年论文附件显示云南昆明人 YC29 属于 A5a,
2.2. A*和 A5 高变 1 区中接网络                                   从编码区特征看应为早期分支[8]。         有趣的是,
     在参考以往文献中系统发生树的基础                                    笔者发现河南 STE36 和韩国 Kor68 都发生了
上,笔者去除 A*和 A5 中接网络中一些高突                                  16223 回复突变,而云南 YC29 和韩国 K216
变率的位点数据(16189、16311 等)和冗余连                               共享 16270 突变[19]。这暗示 A5a 的起源地
线,得到了比较完整、清晰的高变 1 区中接                                    很可能是在中国境内,而不是日本和韩国。
网络图(图 7)。                                                     A5b:A5b 的高变 1 区特征是 16126 和
                                                         16235 位点转换。从高变 1 区数据看 A5b 似
                                                         乎存在两个主要分支。一个是 A5b 的早期类
                                                         型,最高发的是福建惠安人,发生频率为
                                                         2.7%,海南疍家 2.5%,其次是日本鸟取县人
                                                         2.1%和上海人 1.8%。另一个是 A5b-16234,
                                                         最高发的是广东南澳岛居民 3.6%,其次是湘
                                                         西土家族 3.1%、    福建莆田人 3.0%。  此外在新
                                                         疆回族、辽宁大连人、湘西苗族和韩国人中
                                                         也有发现(图 8)。
                                                              A5c:这是个很罕见的 A5 下游分支,高
图 7. 线粒体 A*和 A5 单倍群高变 1 区中接网络
Fig.7   A Median-joining network of mitochondrial
                                                         变 1 区特征为 16129 和 16213 转换。仅分布
haplogroup A* and A5 based on HVS-1 motif                在日本人、韩国人、琉球人、新巴尔虎旗蒙
                                                         古族,以及南西伯利亚的布里亚特人和汗尼
     可以看到,网络中的 A5 主要分为三个
                                                         干人(Khamnigan)中(图 8)。在安徽汉族中也
分支 A5a、A5b 和 A5c。在对日本的 mtDNA
                                                         发现 1 例 ANHUI19[9]。
全序列进行充分研究后,笔者发现其中 A5
样本都可以归结为上述三个亚单倍群,没有
A5*早期类型出现。   但对于来自亚洲其他地区
                                                         2.4. A*分支的地理分布
仅见高变 1 区数据的 A*样本来说, A5*祖
                      因
                                                              A-16234,16293C:这是以往文献中未见
型的形成只经过两步编码区突变(8563 和
                                                         命名的亚单倍群,由于它集中分布在云贵高
11536 转换),而没有出现可识别的高变 1 区


                                                    19
REPORT                                                                      COM. on C. A. 3:e3, 2009




图 8. 线粒体 A*和 A5 系单倍群发生频率地理分布图
Fig.8 Distributions of the mitochondrial haplogroups A* and A5 subgroups.

原的藏彝系民族中,因此可以确定是有着共                                          母系遗传中,而后再随着彝族迁徙再进入周
同起源的亚单倍群。其中云南西双版纳彝族                                          边族群的母系成分中的。
和贵州赫章县彝族最高发,       比例分别为 12.5%                                   A8:A8 的定义引自俄罗斯学者 Derenko
和 10%。在云南藏族、白族、普米族、纳西                                        等 2007 年论文[20]。文中以 2 个北亚全序列
族 以 及 西 藏藏族 中 的发生 频 率为                                       共享的 64、146、16242 位点突变来定义 A8。
2.2%-4.7%(图 8)。另外,在云南汉族、泰国                                   但是笔者在查找文献后发现, A2 定义中也
                                                                                 在
曼谷人、北疆蒙古族、以及印度东北部南亚                                          有同样的 64 和 146 两个高变 2 区并行突变,
语部族中各发现 1 例。 A-16234,16293C 的
                 从                                           只有高变 1 区 16242 突变频率最低。在
分布特点不难看出:它应该是首先进入彝族                                          Volodko 等 2008 年论文所给出系统树也显示


                                                        20
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                                研究报告


只有 16242 突变是识别此分支的可靠标记                                  化出去,日本、韩国的样本构成另一较长分
[21]。A8 最高发的族群是北西伯利亚的凯特                                 支,  日本 TC48 是由韩国 K245 的单倍型再经
人(Ket),发生频率为 10.0%。其次是堪察加                               146 突变所形成[6,19,22]。这个结果实际上追
半岛伊捷尔缅人(Itelmen)6.5%、托发拉尔人                              溯了日本和韩国的 A7 自中国西南部地区的
(Tofalar)5.2%和日本阿伊努人 2.0%(图 8)。在                        起源。
图瓦人、布里亚特人和韩国人中的发生频率                                          由于对 A*的原始型和未定义类型的频
较低,分别为 1.1%、0.3%、0.3%。从高变 1                             率分布研究没有得到最初起源和分化明确结
区数据分析,只有韩国人和阿伊努人的 A8                                    果,接下来笔者尝试运用扩散效应分析来提
是原始型,      表明 A8 早期分化的地点应该在韩                            取 A*早期分化的信息。
国和日本南部一带。
                                                        2.6. 线粒体 A*单倍群扩散效应分析
2.5. A 的原始型和未定义类型的地理分布
     A 原始型:据本次统计,A 原始型分布
频率最高的族群是广东潮阳人 5.3%,其次是
广西东北部的富川瑶族 3.2%和罗城仫佬族
2.6%,以及湖北汉族 2.4%和内蒙古阿荣旗朝
鲜族 2.1%(图 8)。 原始型在东亚的分布呈分
             A
散的点状,在江苏汉族、呼和浩特蒙古族、
广西拉珈人、泰国曼谷人、本土日本人、韩
国人中都有发现。
     A 未定义类型:A 的未定义类型比 A*原
始型的分布更广。最高发的族群是西藏藏族
8.6%,及广东南澳岛居民 7.1%。其次是上海
汉族 5.4%, 西双版纳白族 5.2%, 湖北武汉人
                                                        图 10. 线粒体 A 单倍群扩散效应分析图 蓝色显示
4.8%,以及内蒙古东部的蒙古族 4.2%。A*
                                                        发生频率分布,红色显示群体内部变异频率分布。
的未定义类型在日本人和韩国人中的频率不                                     Fig.10 Diffusion of the mitochondrial proto-A haplogroup.
高,大约在 0.2%-1.0%之间(图 8)。                                 Blue clines stand for the total frequency, and red clines
                                                        stand for the mutation rate within the population.
    值得注意的是,根据Metspalu等2007年论
文,  我们还在A未定义类型中找到了一个很小                                     图 10 是在 A 单倍群原始型发生频率上
的分支A7[2]。包括韩国、日本、武汉汉族样                                  叠加 A 单倍群群体内部变异频率得到的叠加
本各1例,见图9。                                               分析图。可以看到在中国境内单倍群分布频
                                                        率和内部变异频率重叠高发的区域有两个:
                                                        一是广西东北部地区,据统计这里内部变异
                                                        频率最高的族群是罗城仫佬族 7.4%,临近的
                                                        广东怀集标人更高达 8.8%;二是湖北东部地
                                                        区,武汉人的内部变异频率是 4.8%。 在境外,
图 9. 线粒体 A7 单倍群个体的分化树状图
                                                        日本南部和泰国南部地区也有重叠的次高发
Fig.9    Tree of the mitochondrial haplogroup A7
individuals.                                            区,日本宫崎县人的内部变异频率是 5.6%,
                                                        泰国曼谷人的变异频率是 3.0%,显然都不如
     他们都带有控制区特征谱序 16051—                                广西东北部和广东西部一带的变异频率高。
16129—16189—235。此外,论文附件提及云                              据此我们基本上可将 A 单倍群的最初分化地
南汉族 YN271 只有 16051 转换而未见 16129、                         点锁定在广西东北部一带。
16189 位点变异,可能是更早期的分支。从                                     从图中还可以发现一些有趣的现象。比
重构的网络来看:武汉样本 WH6956 较早分                                 如粤东沿海地区 A 原始型的频率很高,但是


                                                   21
REPORT                                                                               COM. on C. A. 3:e3, 2009


变异频率却不高,笔者起初无法理解,后来                                         析绘制的 A*和 A5 迁徙路线图。从重建的迁
在查阅了一些地理、气候资料时才偶然发现                                         徙路线来看,两者主体迁移路线基本相似,
这与冰期时“台湾浅滩”的存在有关(参见讨                                        很可能是从广西东北部地区开始,一部分进
论章节的内容)。此外,我们还能在云南西双                                        入粤东、闽南一带,另一部分迁移到华中地
版纳看到一个变异频率高发点,统计显示这                                         区而后分散开,再进入华北、日本和韩国。
里白族的内部变异频率高达 7.7%, A 原始
                  而                                         看起来似乎是伴随迁徙的单倍群。唯一的不
型的发生频率并不高, 说明其母系线粒体 A*                                      同点在于:A*的下游分支 A-16234,16293C
成分在历史上可能经历过瓶颈效应或是族群                                         还分布到藏彝系民族、北疆蒙古族和印度南
人口减少的事件,笔者推测这可以与云南复                                         亚语部族中。从年代测定结果来看,有可能
杂多变的地理与气候环境等原因有关。                                           是 较 晚 时 期 与 A4 的 西 迁 的 一 些 分 支 ( 如
                                                            A4-16274、A4-16124)一起分化出去的。
2.7. 推测的 A*和 A5 的迁徙路线
                                                            2.8. A4 的高变 1 区中接网络




图 11. 推测的线粒体 A*单倍群分支迁徙路线示意图
Fig.11 Conjectural migration routes of mitochondrial
haplogroup A*.                                              图 13. 线粒体 A4 单倍群高变 1 区中接网络
                                                            Fig.13 A Median-joining network of mitochondrial
                                                            haplogroup A4 based on HVS-1 motif

                                                                A4 单倍群高变 1 区的网络结构呈现为巨
                                                            大、单核的“太阳”形,这个核心向四周辐
                                                            射出众多大小不一的节点(图 13)。值得注意
                                                            的是,大部分节点与分化核心的突变距离不
                                                            超过两步,而且次级节点的分支较少,表明
                                                            A4 的主体分化应该发生在比较晚近的时期。
                                                                结合一些文献中基于 mtDNA 全序列所
                                                            给出的系统树,我们可以识别出北亚和北极
                                                            地区常见的亚单倍群 A4a、A4b、A2。另外,
                                                            在网络中还有其他几个未定名的亚单倍群。

图 12. 推测的线粒体 A5 单倍群分支迁徙路线示意
                                                            2.9. A4 的主要分支
图 虚线表示中间过程不太确定的路线,下同。
Fig.12 Conjectural migration routes of mitochondrial             A4-16274:A4-16274 是 A4 在中国境内
haplogroup A5. Broken lines stand for the uncertain         最大的支系,      主要集中在云南藏彝系民族中,
routes in this and the following maps.
                                                            其 中 频 率 最 高 的 是 怒 族 30.0% , 傈 僳 族
     图 11 和图 12 就是笔者综合多种数据分                                 16.2%,其次是普米族 8.3%和撒尼人(彝族支



                                                       22
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                     研究报告


系)6.5%。在湘西过山瑶中的频率是 4.2%,                          多出一步 16189 突变。主要发现于俄罗斯远
在云南、青海藏族中的比例为 3.6%-4.0%。                          东地区的埃文基人(5.6%)以及乌拉尔地区的
A4-16274 在华中、华东汉族中低频出现,发                          欧亚混血民族曼西人(3.4%),也低频存在于
生频率从 1.3%至 2.4%不等(图 14)。此外,在                      布里亚特人中(0.3%)。笔者从孔庆鹏等 2003
青海土族、云南傣族、江西汉族、广西平话                               年论文中也找到了与埃文基人、曼西人属于
人、北疆汉族和回族,以及南西伯利亚的图                               同一单倍型的 2 个鄂伦春人 A4b 样本 Oro13
瓦人和汗尼干人中也有发现。                                     和 Oro19[25], 无论从地理还是族源的接近性
     A4-16124:A4-16124 在西部藏彝系民族                   来看他们无疑是 A4b(图 14)。照此计算,鄂
中也比较常见,与 A4-16274 的分布特点非                          伦 春 人 A4b 发 生 频 率 应 为 4.5% 。 根 据
常相似,只是发生频率相对较低。最高发的                               Derenko 等 2007 年论文中的系统树,相距遥
是云南傈僳族,比例为 13.2%,其次是贵州                            远的埃文基人和曼西人 A4b 样本有着很近的
赫章县彝族 5.0%,        湖北汉族 4.0%,    云南撒尼             亲缘的关系,而布里亚特样本 Br442 反而最
人 3.2%,云南藏族 2.9%和西藏藏族 2.9%(图                      早分化出去[20]。     这可能反映了史前乌拉尔语
14)。另外在湘西苗族、云南傣族、云南汉族、                            部落穿越西伯利亚向西长途迁徙的历程。
江苏汉族中各发现 1 例。值得注意的是,大                                 A2: 的高变 1 区特征是 16111 位点转
                                                          A2
部分 A4-16124 样本都属于原始型,            只有湘西             换。在亚洲主要分布在北极白令海地区,是
苗族 MHN33 和西藏藏族 Tibet4651 属于特征                     N 系单倍群中迁徙最远的、唯一进入美洲的
谱 序 为            16093-16124-16290-16293T-        下游支系。根据以往的研究,A2 及其亚洲分
16319-16362 的单倍型[23,24]。     暗示 A4-16124          支 A2a、A2b 主要存在于楚克奇人、爱斯基
是在华中地区形成的,而且向西南地区的迁                               摩人及已消失的尤卡吉尔人的母系遗传中。
徙发生在较为晚近的时期。                                      统计表明 A2a 和 A2b 在楚克奇人中的发生频
     从 总 体 分 布 特 点 看 , A4-16124 和                 率分别为 33.7%和 13.9%,  在爱斯基摩各部落
A4-16274 很象是伴随迁徙的 A4 下游分支。                        中 的 频 率 分 别 为 16.7%-72.0% 和
两者的不同之处在于:A4-16274 的样本比                           18.0%-70.8%不等。   在堪察加半岛北部的科里
A4-16124 样本更多,而且一直向北扩展到南                          雅克人中也发现 1 例 A2b 样本 Krk39[20]。
西伯利亚的一些族群中。                                           A4-16129,16284:分布在几个相距遥远
     A4a:A4a 是 A4 祖型经 16249 位点转换                  的族群中,分别是印度东北部操南亚语的
产生的亚单倍群。主要分布在北亚族群中。                               Bhoi 人 4.9%[26],呼和浩特蒙古族 1.9%,泰
最高发的是青海蒙古族, 15 个样本中发现   在                         国清迈人 1.2%。所有的南亚 Bhoi 样本都属
2 例,发生频率达 13.3%(图 14)。在南西伯利                       于附加 16260 转换突变的同一单倍型,而泰
亚的布里亚特人和阿尔泰人、新疆乌兹别克                               国清迈样本全都共享 16136 转换变异,这似
人、俄罗斯人、日本人(ON125)中也有发现                            乎暗示 A4-16129,16284 在向泰国和印度东北
[6]。此外,笔者还在云南纳西族和江苏汉族                             部经历了显著的瓶颈效应。
中各找到 1 例带有 16249 突变的 A4 样本                            A4-16192:主要分布在内蒙正蓝旗蒙古
NAXI12、   JIANGSU28,   由于 16249 属于突变              族(6.3%),及俄罗斯阿尔泰共和国 Tubalar 人
率很低的位点,可以确认这 2 个样本应该也                             中(11.1%)。笔者以其中一个样本 Tub3 的全
是 A4a[9,18]。此外,Derenko 等 2007 年论文                 序列 EU482374 与系统树中同样具有 16192
中的北亚人 mtDNA 全序列系统树透露了更                            突变的 A2b 单倍群进行比对,结果发现两者
多的信息:布里亚特人和阿尔泰基什人                                 属于不同的 A4 分支[21]。
(Altaians-Kizhi)的 4 个 A4a 样本属于共享编码
区 4928 位点突变的同一支系,被命名为                             2.10. A4 原始型和未定义类型
A4a1;俄罗斯人和日本人的 A4a 个体则属于                               A4 原始型: A4 原始型分布范围很广,
早期分支[20]。                                         并且呈现相当离散的状态,表明早期分化历
     A4b:A4b 是个很小的群体,比 A4 祖型                      史已很久远。     从图 14 中可以看到分布最密集



                                             23
REPORT                                                                   COM. on C. A. 3:e3, 2009




图 14. 线粒体 A4 单倍群发生频率地理分布图
Fig.14 Distributions of the mitochondrial haplogroups A4.

的地区是在中国东南沿海和日本南部一带,                                         4.0%。A4 原始型也见于韩国人中(2.3%),但
这可能就是 A4 第一波扩张所及范围。其他分                                      在日本中部人中没有找到。值得注意的是,
布较多的地区在图中呈现为灰色,这些可能                                         A4 原始型出现在百越起源的上海马桥原住
是伴随 A4 其他分支迁徙的原始型所留下的                                       民中(5.9%),在 51 个阿伊努样本中也发现 1
遗传印迹。据本次研究的结果,A4 原始型最                                       例 A4 原始型。 这暗示 A4 早期扩张主要走沿
高发的是广东潮州人,发生频率为 8.3%。其                                      海路线而且年代十分久远。
次是西双版纳彝族 6.3%、福建莆田人 6.1%、                                       A4 未定义类型: A4 未定义类型主要集
贵州赫章县彝族 5.0%、和日本南部宫崎县人                                      中在内陆地区特别是华中地区。最高频率出



                                                       24
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                     研究报告


现在湖北恩施侗族中,高达 30%;以下依次                        迁徙的过程和 A*、 并没有没有什么不同。
                                                        A5
是 甘 肃 汉 族 15.6% 、 贵 州 沿 河 县 土 家 族            A4 原始型在中国北方和北亚地区的扩张范
10.3%、贵州赫章县彝族 10.0%、索约特人                     围和 A4 未定义类型基本重合,  因而很可能反
(Sojot,图瓦人的一支)10.0%,      青海藏族 8.9%。         映了晚近的迁徙事件。值得注意的是,有关
             A4
从分布图看, 未定义类型应该是先在华中                          文献的年代测定显示 A2 大约在 2.48 万年前
地区(准确地说是在湘鄂渝交界区域)扩散,                再        就从 A4 中分化出去[28]。可能由于族群整体
向西部藏彝走廊和西北地区扩张。 A4 原始        与                       A2
                                             迁徙的缘故, 在东亚大陆上基本没有留下
型在沿海地区集中分布的特点完全不同,表                          痕迹。因此很难确定它的迁移路线。
明很可能是较晚期的一次大规模扩散留下的
痕迹。
                   A4
     值得注意的是, 未定义类型还包括不
少细小分支,       其中一些有助于确定 A4 的分化
路线。
     A4-16104:其中包括 1 个韩国人 K358
和 2 个新巴尔虎旗蒙古族 Mg214、Mg216 样
本,显示了韩国人和东部蒙古族之间的联系
[19,25]。
     A4-16157:仅找到 2 例,由韩国 Kor83
和甘肃 GANSU03 组成。        结合 A4-16104 来分
析,韩国的 A4 主要来自中国北方[9,19]。
     A4-16179,16311:日本中部人 KA021 和
江苏人 JIANGSU15 都属于此单倍型。          上文中
还 提 到 过 日 本 人 ON125 和 江 苏 人
                                             图 15. 推测的线粒体 A4 单倍群分支早期迁徙路线
JIANGSU28 都属于 A4a[6,9]。显示日本中部                示意图 Fig.15 Conjectural early migration routes of
地区的 A4 个体很可能都源自华东地区。                         mitochondrial haplogroup A4.

     A4-16256: 包括西藏藏族 Tibet4664 和湘
西苗族 MHN66。显示西藏的 A4 来自自华中
地区[23,24]。
     A4-16216,16294 : 此 分 支 包 括 江 苏 人
JIANGSU43、贵州东北部土家族 T15、新疆
塔吉克族 Tjk19 和 Tjk18,及布里亚特人
br393[9,20,27]。不难看出这是一次自华中地
区开始的大规模人口扩张的印迹。这些样本
的 来 源 地 距 离 极 其 遥 远 , 暗 示 A4-16216,
16294 早在这次扩散事件之前就已产生。

2.11. A4 的迁徙路线
     图 15 和图 16 是笔者依据分析结果绘制                  图 16. 推测的线粒体 A4 单倍群分支晚期迁徙路线
                                             示意图
的 A4 迁徙图。图 15 示意了 A4 早期迁徙分                   Fig.16 Conjectural late migration routes of mitochondrial
化的情况。 祖型与 A*祖型只差一步高变 1
          A4                                 haplogroup A4.
区 16362 位点突变,   而且 A4 原始型主要分布
                                               图 16 显示了 A4 晚期自华中地区开始的
在东南沿海,这说明 A4 可能在 A*首次扩散
                                             大规模扩张。从重建的路线图看主要是向北
时已经产生出来,       其起源地点很可能和 A*一
                                             方迁徙。这次人口扩张可以说是遍地开花,
样是在广西东北部地区。总体来看,A4 早期
                                             产生了多个分化中心,并波及到北亚、东北


                                        25
REPORT                                                                     COM. on C. A. 3:e3, 2009


亚以及泰国和印度东北部地区。                                          N9a-r16261[3,4,29]。
  综上所述,A4 的早期扩散和 A*、A5 扩                                3.2. N9a 主要分支的地理分布
散的路线大体相似, 都集中在东南沿海一带,                                        N9a-16129(不含 N9a1): N9a-16129 是
所以早期伴随迁徙的可能性很大,而 A4*的                                   主要在大陆上扩散的 N9a 下游分支。最高发
大规模扩散无疑是更为晚近的事件。                                        的族群是台湾南部的排湾人和新疆喀什的哈
                                                        萨克人,发生频率都是 4.8%。其次是广西西
3.线粒体 N9 系单倍群                                           北部的布努瑶 4.0%,新疆喀什的塔吉克人
    N9 系单倍群主要包括 3 个下游分支,                                3.3%,和云南宁蒗普米族 2.8%。N9a-16129
N9a、Y 和 N9b。在最新的系统发生树中,这                                也存在于华中、华东、内蒙古等地区的部分
3 个下游分支仅共享 5417 转换突变,表明下                                族群中,发生频率从 1.5-2.4%不等(图 19)。
游单倍群在 N9 形成初期就分化出去。  在分布                                N9a-16129 低频出现于韩国人和日本人中,
特点上,N9 系的两大单倍群 N9a 和 Y 不仅                               频率分别为 0.7%和 0.3%,      但在东南亚地区没
在大陆上广泛分布而且在东南亚地区也很常                                     有发现。
见,这与主要分布在大陆上的 A 系单倍群明                                        N9a1: N9a1 是 N9a-16129 的下游分支,
显不同。 系中最小的分支 N9b 最早是在日
      N9                                                主要分布在华中和内蒙古东部地区。最高发
本人中发现的,不过笔者的研究表明 N9b 早                                  的族群是湖南西北部永顺土家族 6.7%和广东
期分化地点和最高发区域不是在日本,而是                                     连 南 八 排 瑶 5.7% , 其 次 是 浙 江 杭 州 汉 族
在远东滨海地区。                                                4.9%、内蒙赤峰汉族 4.4%、湖南江华过山瑶
                                                        4.2%、新巴尔虎旗蒙古族 4.2%、湖南长沙汉
3.1. N9a 单倍群中接网络分析                                      族 4.1%(图 19)。   N9a1 在广西、  广东沿海和华
                                                        东部分族群中,以及新疆伊犁乌兹别克人和
                                                        南西伯利亚图瓦人中也有发现,发生频率为
                                                        1.0%-3.4%。N9a1 也低频出现在日本人和韩
                                                        国人中,韩国人的发生频率为 0.9%,日本南
                                                        部鸟取县人为 1.1%,日本中部人为 0.3%。
                                                             N9a-16172 及其主要分支: 从孔庆鹏等
                                                        2006 年论文中可以看到 N9a-16172 分成 3 个
                                                        分支,    N9a2、N9a4 和 N9a5[8]。N9a4 和 N9a5
                                                        有明确的高变 1 区突变特征,因此能很清楚
                                                        地把它们划分出来。          但是 N9a2 原始型没有出
图 17. 线粒体 N9a 单倍群高变 1 区中接网络                             现可识别的高变 1 区特征,笔者将其归为
Fig.17 A Median-joining network of mitochondrial        N9a-16172。
haplogroup N9a based on HVS-1 motif
                                                             N9a-16172(不含 N9a4、N9a5): N9a-
    图 17 显示 N9a 有着比 A 系单倍群更多                            16172 在东亚的分布呈现极其离散的状态,
的主要分支和次级分支,显示了非常不同的                                     主要在广西和云南交界地区,海南、安徽、
群体分化历程。其中 N9a-16129 主要在大陆                               陕西和新疆伊犁(乌兹别克人)。N9a-16172 的
上分布,    可与 A4 类比,不过从图上看它几乎                              未定义类型主要分布在中国境内,也以很低
没有形成完整的星状结构。值得注意的是                                      的频率出现日本和韩国。广西西北部的田林
N9a-16129 的下游分支 N9a1 可能发生过规模                            壮族和瑶族中的分布频率大体在 3.1%-4.0%
不大的人口扩张。N9a-16172 主要分布在中                                之间,海南临高人和疍家人中频率分别为
国东南部沿海、日本、韩国等地,可与 A5                                    3.2% 和 2.5% , 其 他 族 群 中 的 发 生 频 率 从
类比。另外 N9a 的下游分支也出现东南亚地                                  1.2%-2.4%不等(图 19)。在日本和韩国人中的
区,包括主要分布在马来西亚和印度尼西亚                                     发生频率分别为 0.5%和 0.7%。
的 N9a6 , 以 及 在 台 湾 原 住 民 中 发 现 的                             N9a2 的分支 N9a2a、N9a2b 和 N9a2c 仅



                                                   26
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                   研究报告


出现在日本和韩国:这三种亚单倍群在日本                                           日本南部宫崎县人的发生频率是 1.0%,日本
都有发现,     在日本南部(鸟取、      宫崎)的总频率                              中部人的频率是 0.3%,        韩国人为 0.4%, 此外
为 1.0%-1.1%;在韩国的分布主要是 N9a2b,                                  在 内 蒙 赤 峰 汉 族 中 也 发 现 1 例
也发现 1 例 N9a2c 样本 K527,总频率为                                    NEIMENG45[9]。  在全部的 N9a5 样本中只有
2.6%[19]。                                                     1 例韩国样本 K250 有附加的 16046 转换突变
    N9a4:分布区域相当分散,高变 1 区谱                                     [19],显示 N9a5 的在东北亚地区的小范围扩
序是 16145-16172-16245-16257A-16261。最                           散是比较晚近的事件。
高发的族群是日本中南部静冈县人                                                   N9a6(含 N9a6a): N9a6 是参照 Hill 等
16.7%[30],其他族群中的频率都不高。在广                                      2006 年论文中的命名[4]。      从高变 1 区特征看,
西东北部富川县的瑶族和平话人的发生频率                                           它是 N9a 祖型再经一步 16292 转换突变所产
分别为 4.2%、3.4%,在粤东澄海人和粤西湛                                      生的亚单倍群。主要分布在东南亚地区,在
江人中的频率为 3.6%、3.3%(图 19)。另外                                    中国广西、云南、福建也可以找到它的踪迹。
N9a4 也低频出现在江苏南京、山东青岛、青                                        N9a6 最高发的族群是印尼苏门答腊巴东人
海藏族、韩国和日本中、西部地区,发生频                                           12.5%和广西金秀县壮族 11.1%,其次是印尼
率在 0.4%-2.0%之间。                                               邦加岛人 8.8%、云南西双版纳 3.8%(图 19)。
    根据高变 1 区特征,N9a4 又可细分为两                                    此外在越南南部(以美国加州越南移民数据
个分支:一支是原始型,仅存在于广东沿海                                           代替)、印尼苏拉威西、泰国清迈和曼谷各发
地区和日本;另一支带有 16092 位点突变的                                       现 1 例。
支系分布较广,在江苏、山东、广西、青海、                                              N9a6 的原始型在云南西双版纳的瑶族
韩国的 N9a4 样本都属于这种类型,          在日本仅                             和基诺族中共发现 3 例,越南南部人、印尼
见 1 例 PD053。对比发现 PD053 仅与韩国样                                  苏拉威西人各发现 1 例,而印尼苏门答腊的
本 K025 共享同一单倍型[6,19]。     这暗示 N9a4                            N9a6 个体全都属于带有 16189 位点转换的同
在历史上曾经发生两次扩张,而日本的 N9a4                                        一单倍型,    其他族群的 N9a6 样本都属于无法
样本主要来自第一次的扩散(图 18)。                                           细分的变异类型。
                                                                  N9a6 还有一个高变 1 区特征谱序为
                                                              16257A-16261-16292-16294 的 次 级 分 支
                                                              N9a6a 。 主 要 分 布 于 马 来 半 岛 , 在 塞 芒 人
                                                              (Semang)、塞诺伊人(Senoi)和土著马来人中
                                                              的发生频率分别为 8.0%、5.8%和 5.2%,此
图 18. 以高变 1 区数据绘制的线粒体 N9a4 亚单倍群                               外在福建南安,以及印尼的爪哇、苏拉威西、
分化树状图 分色示意为:                 橙色—广东,       蓝色—广西,              加里曼丹各发现 1 例 N9a6a 样本。N9a6a 的
浅紫色—华东地区,浅蓝色—青海,绿色—日本,
黄色—韩国。                                                        原始型绝大部分集中在马来半岛上。笔者注
Fig.18 Tree of the mitochondrial haplogroup N9a4              意到福建南安样本 STF13 还有额外的 16092、
individuals. Keys for the colors:orange for Guangdong,
                                                              16136 和 16192 位点变异,是所有 N9a6a 样
blue for Guangxi, purple for East China, cyan for
Qinghai, green for Japan, and yellow for Korea.               本中变异位点最多的,而且从高变 1 区特征
                                                              看与其他样本没有关联[10]。所以,N9a6a 的
  从图中还可以看到一个有趣的现象,即                                           分化存在两种可能性:一种是 N9a6a 最早产
距起源地最近的广西富川 N9a4 个体反而处                                        生于中国西南地区,        而后和 N9a6 一起向东南
在分化末端。最有可能的解释是:N9a4 早期                                        亚迁徙,而福建 STF13 属于早期境内分化的
类型在第一次扩散时就已分离出去,而起源                                           一支;另一种是 N9a6a 起源于东南亚地区,
地产生后来又出新的变异型,并发生了二次                                           而后扩散到福建一带。从 STF13 高变 1 区特
扩散。                                                           征与东南亚 N9a6a 样本特征差异较大来分
  N9a5:主要分布在日本和韩国,高变 1                                        析,笔者认为第一种可能性最大。
区谱序为 16172-16189-16209-16257A-16261,



                                                         27
REPORT                                                        COM. on C. A. 3:e3, 2009




 图 19. 线粒体 N9a 单倍群发生频率地理分布图
 Fig.19 Distributions of the mitochondrial haplogroups N9a.



                                                       28
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                    研究报告


     除了上述已定义的分支外,还有 2 个样                       在湘鄂渝交界以及湘粤交界地区有两处空
本 总 数 在 10 例 以 上 的 N9a 未 定 义 分 支               白,从位置看似乎是更晚期 A4 和 N9a1 的扩
N9a-r16261 和 N9a-16311,16390。                  张的结果。
     N9a-r16261: 主要发现于台湾原住民
中,并且只有一种单倍型。其特征是 16261
位点发生 T→C 回复突变,在高变 1 区只剩
一个可识别特征突变 16257A。          此分支在现居
台湾东部沿海地区的阿美族中最高发,发生
频率 7.1%。在东南部台东县的卑南族和中北
部的泰雅族,发生频率分别为 1.9%、1.8%。
值得一提的是,笔者发现梧州瑶 YWU02 和
湖南 Le874 样本也带有 16261 回复突变
[23,31]。这说明台湾的 N9a-r16261 分支并非
孤立存在,起源地点很可能就在湘粤桂交界
地区。
     N9a-16311,16390:此分支主要分布在广
西与贵州交界地区,最高发的群体是广西环                            图 20. 线粒体 N9a 单倍群原始型扩散层次分析图
                                               蓝色代表 N9a 原始型,红色代表 N9a 未定义类型。
江县毛南族 12.5%,其次是广西融水县五色                         Fig.20 Diffusion of the mitochondrial haplogroup N9a.
人 6.1%。此外,在贵州天柱县和广西三江县                         Blue stands for the ancestral type, and red for the
                                               unclassified type.
侗族、广西富川县和罗城县平话人,及广西
贺州壮族群体中也有发现,            频率在 1.3%-3.6%               笔者发现在空间分布上 N9a 的原始型和
之间。                                            未定义类型存在某种联系,当把两者的分布
                                               图叠加起来后(图 20),可以看到 N9a 的早期
3.3. N9a 的原始型和未定义类型的地理分布                       扩张痕迹被华中地区所发生的晚期扩张挤向
     N9a 原始型: N9a 的原始型的分布区域                    周边。这解释了 N9a 早期类型离散分布以及
极其分散。最高发的地点是在越南北部,在                            很少出现在华中地区的原因。N9a 未定义类
10 个样本中就有 1 例,发生频率 10.0%;在                     型主要由细小分支构成,显示 N9a 的起源历
临近越南的云南和广西也有分布,包括西双                            史相当古老。以下简要介绍这些小分支的情
版纳基诺族 5.6%和傣族 1.8%,        广西南部防城              况。
港高栏人 3.3%及西北部隆林俫人 3.3%;           在中                N9a*(16311):虽然 16311 位点是个高突
国东南和东部沿海地区呈带状分布,包括广                            变位点,无法确定是否有并行突变的情况,
东南澳人、福建南安人、上海人、山东青岛                            不过它的分布比较集中,所以笔者还是把它
人、  辽宁凤城人,    发生频率 1.8%-4.2%(图 19)。            视为单独的分支来分析。最高发的人群是靠
在青海西宁和四川维城汉族、湘西苗族中也                            近中越边境的广西崇左壮族和那坡夜郎人,
有发现,频率分别为 2.3%、1.4%和 1.0%。                     发生频率分别为 16.7%和 6.7%。其次是福建
另外 N9a 原始型在泰国清迈人和韩国人低频                         莆田人 2.8%,    云南文山苗族 2.6%,   越南中部
出现,频率为 0.4%和 0.1%。                             顺化京族 2.3%(图 19)。此外在广西金秀拉珈
     N9a 未定义类型: 在去除 N9a-16129、                 人、福建长汀客家人、湘西土家族、湖南长
N9a-16172、 N9a6、N9a-r16261 和 N9a-16311,        沙人、山东泰安人以及中都有发现,频率为
16390 等主要分支之后,笔者将余下的 N9a                       1.1-1.9%;也低频出现于泰国北部清迈人中,
样本归为未定义类型。         从图 19 可以看到未定                为 0.4%。总体看来,N9a*(16311)与 N9a 原
义类型的分布主要集中在越南和广西交界地                            始型在分布特点上比较接近,显示了 N9a 早
区、越南南部和华中地区,在华北地区和南                            期分化扩散的信息。即从广西和越南交界地
西伯利亚也有少量分布。此外,还可以看到                            区开始,沿南北两条主要的路线迁徙:一条


                                          29
REPORT                                                                      COM. on C. A. 3:e3, 2009


是走东北路线进入东亚腹地和东南沿海地                              显示出明确的扩散中心。为此笔者再次尝试
区;另一条路线是沿越南走廊向南迁移。                              扩散效应分析(图 21 和图 22)。
     N9a*(16189):在湖南西南部过山瑶、广
东怀集普标人、        广西田林汉族中各发现 1 例,
发生频率 2.9%-4.2%。在泰国北部清迈人中
低频存在,频率 0.4%。从分布地域看可能也
和 N9a*(16311)一样属于早期起源分支。             此外
在南西伯利亚阿尔泰人中也有发现,频率为
1.8%, 但不清楚与南方的 N9a*(16189)是否同
源。
     N9a-16184:这是个很小的分支。在广西
富川、贺州、武宣的平话人中各发现 1 例;
在富川的瑶族群体发现 3 例;在福建长汀客                           图 21. 线粒体 N9a-16129 单倍群扩散效应分析图。
家人中发现 1 例。这个结果显示了瑶族、平                           蓝色显示发生频率的分布,红色显示群体内部变异
                                                频率的分布。
话人和客家人在母系遗传方面的密切联系。                             Fig.21    Diffusion of the mitochondrial haplogroup
值得注意的是 N9a-16184 的原始型出现在广                       N9a-16129. Blue stands for the haplogroup frequency,
                                                and red for the mutation rate within the population.
西东北部富川、贺州地区的个体中,表明这
一带就是 N9a-16184 的起源和分化地点。
     N9a-16248,16311:这个分支存在于南西
伯 利 亚 托 发 拉 尔 人 (6.9%) 和 阿 尔 泰 人 中
(2.7%),从上述样本看只有一种单倍型。
     N9a-16291:这是个仅见于日韩的小分
支。在韩国人中发现 3 例,发生频率 0.4%;
在日本人中发现 1 例,频率 0.2%。
     N9a-16176:属于 2 个北部湾地区的个
体,越南北部人 Viet206 和海南杞黎 HL42,
其中越南样本属于 N9a-16176 原始型。可能
反映了海南原住民中的 N9a-16176 成分自越
                                                图 22. 线粒体 N9a1 单倍群扩散效应分析图 颜色
南北部起源的历史[11]。                                   示意与图 21 同。
     N9a-16111:由呼和浩特蒙古族 HHT34                   Fig.22 Diffusion of the mitochondrial haplogroup N9a1.
                                                Keys for the colors are the same as in Fig.21.
和日本中部人 PD0118 组成,表明两者的共
祖关系。不过两例样本都不是原始型,所以
                                                    N9a-16129: N9a-16129 原始型发生频
                                                              从
无法确定迁徙路线[6,32]。
                                                率和群体内部变异频率分布叠加图上可以看
     N9a-16051 : 仅 有 两 个 样 本 , 辽 宁 人
                                                到,N9a-16129 的扩散中心应该在湖北东部,
LIAONING13 和河北人 Le1014[9,31]。
                                                此外在云南东北部似乎还发生过一次小规模
     N9a-16166C,16173,r16261,16324 : 包 括
                                                的迁徙。
贵州仡佬族 G06 和湖北武汉人 WH6972,两
                                                N9a1:虽然从分布图上看 N9a1 最高发地点
个样本都不是原始型,似乎是在华中和西南
                                                在湖南南部,但是扩散效应分析却显示 N9a1
地区发展的小分支[22,27]。另外,此分支存
                                                的扩散中心更有可能在湖北东部。N9a1 叠加
在 16261 位点回复突变,所以不能排除是
                                                图还显示出三个次级扩散中心,分别是云南
N9a-r16261 次级分支的可能性。
                                                西双版纳、内蒙东部至辽宁南部及青海东北
                                                部地区。
3.4. N9a-16129 和 N9a1 扩散效应分析
      N9a-16129 和 N9a1 的频率分布图未能
                                                3.5. N9a 的迁徙路线


                                           30
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                            研究报告


  重建的路线图显示,N9a*自越南北部起                                       24。此外,N9a6 主要分布于东南亚地区,
源后,除少数支系向东南亚迁徙外,其主体                                         N9a-r16261 集中在台湾,两者的样本在中国
向北进入中国境内,见图 23。一部分向东迁                                       南方也有发现,因而迁徙过程比较清楚。
至粤东、闽南沿海一带,另一部分进入华中
地区,在湖北东部地区再次发生扩散。扩散                                         3.6. Y 单倍群中接网络分析
区域主要包括华北、华东地区,也波及到日
本和韩国。




                                                            图 25. 线粒体 Y 单倍群高变 1 区中接网络
                                                            Fig.25 A Median-joining network of mitochondrial
                                                            haplogroup Y based on HVS-1 motif

                                                                 图 25 展现了线粒体 Y 单倍群的中接网
                                                            络。由于 Y 下游分支的高变 1 区特征位点较
                                                            少, 因此保留了突变率较高的 16189 和 16311
                                                            位点以便区别 Y1a1 和 Y2。另外为了区分其
图 23. 推测的线粒体 N9a 单倍群部分分支迁徙路线
示意图 Fig.23 Conjectural migration routes of several          他一些分支,笔者还在中接网络中加入了
branches of mitochondrial haplogroup N9a.                   16384 和 16399 等位点的数据。
                                                                 值得一提的是,     笔者在 Y 的序列数据中
                                                            找到了不少发生回复突变的特征位点,包括
                                                            16126、16223、16231、16319 等。由于 Y 的
                                                            样本数比 A 和 N9a 的样本数少得多,这些回
                                                            复突变的存在给中接网络的构建增加了很大
                                                            的难度。以上中接网络是笔者根据系统树多
                                                            次调整所得到的最为准确的图形。
                                                                 可以看到 Y 中接网络的“空心化”特征
                                                            十分明显。经过一系列分析笔者最终确定在
                                                            样本中很可能不存在真正的 Y*根部类型。               起
图 24. 推测的线粒体 N9a-16129 和 N9a-16172 单倍
群分支迁徙路线示意图
                                                            初,笔者在有关序列中发现有 2 个湖南长沙
Fig.24 Conjectural migration routes of mitochondrial        样本 C208、C209 共享相同的高变 1 区突变
haplogroup N9a-16129 and N9a-16172.
                                                            特征 16126-16223-16231,很象是 Y 的原始
                                                            型。但是在后来的数据比对中,发现湖南个
    N9a 的主要分支 N9a-16129、N9a-16172、
                                                            体 C208 和天津个体 Le310 具有相同的高变 1
N9a6、N9a-r16261 等应该都是在北部湾一带
                                                            区特征 16126-16223-16231-16384[30,31]。鉴
分化出来的。    他们沿着大体相似的路线迁徙,
                                                            于 Le310 在原文中被细分为 Y1b,而又缺少
同样在湖北东部一带发生分化,向东迁入日
                                                            Y1 的 16266 突变特征,   可以确定 Le310 是带
本和韩国,向西直达新疆伊犁和喀什,见图
                                                            有 16266 回复的 Y1 下游分支 Y1-r16266。这

                                                       31
REPORT                                                                             COM. on C. A. 3:e3, 2009




图 26. 根据东亚和北亚人全序列绘制的 Y 单倍群系统发生树。未列出非特征的插入和删除变异。
Fig.26 Phylogenesis of the haplogroup Y according to the whole mitochondrial genome of East Asians and North
Asians. Non-specific insertions and deletions were not displayed.


样看来,   具有相同特征的湖南 C208 还有其他                               化细节和迁移路线提供了重要线索[8]。
2 个 湖 南 样 本 (C208 、 C209) 应 该 也 是                             Y1: 在系统树中可以看到,Y1 形成了
Y1-r16266[30]。在下文的分析中,笔者大体                               3 个主要分支 Y1a、Y1b 和 Y1-16399。Y1a
确定了 Y 的起源年代十分古老,         而且起源地                           的下游分支就是中接网络中标出的 Y1a1,沿
应该在北部湾一带而不是湖南。                                           用了 Derenko 等 2007 年论文中的定义[20]。
Y 的中接网络结构很简单,表明 Y 在扩张规                                   Y1b 的特征位点包括 10097、15221、15460,
模上比 A 和 N9a 小得多。   不过 Y 在亚洲的扩                            参考了 Tanaka 等 2004 年论文和孔庆鹏等
张范围却是最大的,向北到达北极地区,向                                      2006 年论文中的定义。Y1b 没有高变 1 区特
南则深入东南亚岛屿。从上述特点分析,Y                                      征突变,已知的全序列样本包括新疆汉族
应该比 A、N9a 有着更为久远的分化历史。Y                                  XJ8426 和日本人 KA097,  新疆汉族样本处于
只产生了两个主要的分支 Y1 和 Y2,        由于 Y1                        Y1b 根部位置,而日本 KA097 多出 3 个额外
在大陆上扩张而 Y2 主要在东南亚地区发展,                                   突变,显示日本的 Y1b 可能源自中国大陆
所以在数量和突变距离上 Y1 分支都大大超                                    [6,8]。此外,笔者在 Ji 等 2007 年论文中又发
过 Y2 分支。从高变 1 区特征还可以分辨出                                  现 3 个中国大陆个体属于 Y1b,包括四川人
Y1 的两个次级分支 Y1a1 和 Y1-16399。   Y1a1                       Le1261、广东人 Le1361 和天津人 Le310[31]。
主要分布在远东地区,其末端分支                                          Y1-16399 分支在中接网络中也可以看到,不
Y1a1-16292 主要分布在尼夫赫人和日本阿伊                                过全序列样本只有 1 个汗尼干人 Kam6,      所以
努人中。                                                     无法确定此分支编码区的特征位点[20]。
                                                              Y2:重庆綦江人 QJ183 处于根部位置,
3.7. Y 单倍群全序列分析                                          而青海汉族 QH9510、    汗尼干人 Kam2 和日本
     因 Y 单倍群的高变 1 区特征较少,笔者                               人 HN249 都是独立分化的个体。      只有日本人
尝试以的全序列数据构建系统发生树,见图                                      ND088 和布里亚特人 Br621 是共享 338 转换
26。完成后的 Y 系统树展现了更多的分支细                                   的同一分支[6,8,20]。笔者还找到了带有 338
节,笔者幸运地从全序列中找到了 Y1 和 Y2                                  位点突变的 2 个韩国样本 K335、K525,表明
的根部类型样本,内蒙达斡尔族 DW35 和重                                   这个 Y2 支系应该是在东北亚地区形成的[19]。
庆綦江县人 QJ183,这为确定 Y 单倍群的分                                 因没有高变 1 区特征出现,笔者把它暂命名


                                                    32
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                   研究报告


为 Y2a。遗憾的是,笔者没有在已发表文献                         仡佬族 G14 则共享 16176 突变[19,23,27,31]。
中找到东南亚地区的 Y2 全序列,所以无法确
定东南亚 Y2 的分类地位。                                3.9. Y1 的原始型和未定义类型
                                                   Y1 原始型: 图 27 显示,Y1 原始型在
3.8. Y 分支的地理分布                                东亚内陆的分布比较分散,但在中国南方呈
                  Y1
      研究结果显示, 主要分布在东亚、              东         现连续分布的状态。最高发的是广西东北部
北亚和远东滨海地区。 则主要分布在东南Y2                         三江侗族和湖南长沙人,频率分别为 2.8%和
亚族群和台湾原住民中,只以很低的频率出                           2.4%。在甘肃汉族、新疆汉族、新疆乌兹别
现在东亚、北亚和东北亚部分群体中。由于                           克族、内蒙东北部达斡尔族、南西伯利亚布
大量样本仅见高变 1 区数据,所以有一部分                         里亚特人、广西罗城平话人、福建长汀客家
缺乏高变 1 区特征的 Y1b 样本无法完全细分                      人中也有发现,发生频率在 1.1%-2.2%之间。
出来。                                                  Y1
                                              此外, 原始型在日本人和韩国人中低频存
     Y1a(含 Y1a1):在上文的全序列分析中,                  在,频率分别为 0.2%、0.4%。根据上述分布
笔者确定了 Ingman 等 2007 年论文数据中的                   特点来分析,      笔者推断 Y1 最早的分化地点很
蒙古人 Mg221 属于 Y1a 的原始型[16]。除此                  可能在广西境内。
之外,Y1a 主要分布在俄罗斯远东滨海地区                              Y1 未定义类型:与 Y1 原始型的分布不
的族群中,在北西伯利亚泰梅尔半岛的恩加                           同,Y1 未定义类型的高发区域比较连续。其
纳桑人(Nganasan)中也有分布。       笔者发现绝大              中有一条从湖南至闽粤沿海的高发带, Y1          在
多数 Y1a 样本都属于 Y1a1。      另有 4 个样本属             原始型的分布图上也可以看到,应该是早期
于带有 16304 突变的小分支 Y1a-16304,其                  迁徙留下的痕迹。在广东潮州人中最高发,
中远东地区乌德盖人和乌尔奇人各 2 例,频                         发生频率为 7.7%,其次是俄远东的乌德盖人
率为 4.3%和 2.3%。                                (Udegey)4.3%,广东汕头澄海人 3.7%,和西
      Y1a1 在 尼夫 赫 人 (Nivkh) 与 乌 尔 奇 人         双版纳哈尼族 3.0%(图 27)。 未定义类型在
                                                                   Y1
(Ulchi)最高发,发生频率分别为 39.3%、                     俄远东的乌尔奇人中的频率为 2.3%;在华北
29.9%;其次是恩加纳桑人 21.2%,阿伊努人                     的内蒙赤峰、辽宁凤城、山东泰安和青岛、
19.6%和科里雅克人(Koryak)13.6%。在伊捷                  陕西西安的汉族群体中也有发现,频率
尔缅人中的频率为 4.3%。从图 27 看,Y1a                     1.9%-2.6%; 在西南地区的云南会泽和四川维
分化和扩散地点是在俄罗斯境内阿穆尔河                            城汉族群体中的频率为 1.7%、1.4%;在广西
(黑龙江)下游一带。另外,Y1a1 中还可以划                       壮族中的频率为 1.2%。
分出一个末端分支 Y1a1-16292,多见于阿伊                           笔者发现在未定义类型还存在不少可
努人和尼夫赫人,        频率分别为 16.1%、    13.7%,        识别的细小分支,      有助于判断 Y1 的分化过程
在乌尔奇人和科里雅克人中也有少量发现。                           和迁徙路线。
不难看出阿伊努人的 Y1a1 成分中的应来自                             Y1-16325:广西壮族 ZH32 和广东澄海
远东族群的混杂。                                      人 STB2 样本共享 16325 转换,而且 STB2
     Y1-16399: Y1-16399 的地理分布呈现               比 ZH32 多一个 16051 突变,所以广东 STB2
离散的状态。最高发的族群是南西伯利亚的                           很可能源自广西[10,33]。
索约特人 3.3%和贵州东北部道真县仡佬族                              Y1-16218:陕西西安 SHANNXI29 和山
3.2%。Y1-16399 也低频出现在山东泰安人、                    东泰安 SD10347 样本是共享 16218 位点突变
湘西苗族、布里亚特人、汗尼干人、日本南                           的同一单倍型,表明属同一分支[9,34]。
部宫崎人和韩国人中,发生频率为                               Y1-16172 : 有 2 个 四 川 个 体 (Le 1261 、
0.9%-1.3%(图 27)。另外在北京和广东也各见                   SICHUAN43)共享 16172 转换突变。不过其
1 例(Le1200、Le1328)[31]。笔者还发现韩国                中的 Le1261 似乎并不带有 Y1 的 16266 突变
人 K401 和湘西苗族 MHN71 样本都带有相同                    特征。由于在原文中 Le1261 被划分为 Y1b,
的 16220C 颠换突变,而广东 Le1200 和贵州                  所以可以确定 Le1261 是发生 16266 回复突变



                                         33
REPORT                                                                            COM. on C. A. 3:e3, 2009


的 Y1 样本[9,31]。                                                  很可能源自华北地区[22,35]。
    Y1-r16266,16384 : 笔 者 发 现 湖 南 长 沙                                Y2:无论从变异特征还是从地理分布方
C208 和天津 Le310 样本共享 16384 转换。       并                           面分析,Y2 单倍群都有着不可思议的特性。
且两者都缺少 Y1 的 16266 突变特征。         考虑到                             比较一下 Y1 和 Y2 的特征位点可以发现:            在
Le310 在原文中被分型为 Y1b,而且 16384                                     编码区特征上,排除掉 5417 回复突变后,所
位点突变率很低,可以断定他们都是带有                                              有 Y2 样本还共享 5 个位点突变构成的谱序
16266 回复突变的 Y1 下游分支[30,31]。                                     (482-6941-7859-14914-15244);而 Y1 样本主
Y1-16193:山东青岛 QD8151 和 1 个图瓦个                                   要分为 Y1a 和 Y1b 分支,两者只共享 3834
体共享 16193 转换突变。表明图瓦人的 Y1                                        位点突变。在高变 1 区特征上,在全部 Y2




图 27. 线粒体 Y 单倍群发生频率地理分布图
Fig.27 Distributions of the mitochondrial haplogroups Y.



                                                           34
Haplogroup N research
Haplogroup N research
Haplogroup N research
Haplogroup N research
Haplogroup N research
Haplogroup N research
Haplogroup N research
Haplogroup N research
Haplogroup N research
Haplogroup N research
Haplogroup N research
Haplogroup N research

Más contenido relacionado

Destacado

Alec henriquez portfolio
Alec henriquez portfolioAlec henriquez portfolio
Alec henriquez portfolioAlec Henriquez
 
проблемное обучение
проблемное обучениепроблемное обучение
проблемное обучениеTschastschinaValja
 
Nouvelles interfaces tendances
Nouvelles interfaces   tendancesNouvelles interfaces   tendances
Nouvelles interfaces tendancesRemi Moebs
 
NoSQL CGN: CouchDB (11/2011)
NoSQL CGN: CouchDB (11/2011)NoSQL CGN: CouchDB (11/2011)
NoSQL CGN: CouchDB (11/2011)Sebastian Cohnen
 
Projet etablissement la maison des Titis Doudous à Drancy
Projet etablissement la maison des Titis Doudous à DrancyProjet etablissement la maison des Titis Doudous à Drancy
Projet etablissement la maison des Titis Doudous à DrancyMaison des Titis Doudous
 
Quiz Innovation Digitale
Quiz Innovation DigitaleQuiz Innovation Digitale
Quiz Innovation DigitaleRemi Moebs
 
Transformation digitale en 2 schémas
Transformation digitale en 2 schémasTransformation digitale en 2 schémas
Transformation digitale en 2 schémasRemi Moebs
 
Portfolio architecture
Portfolio architecturePortfolio architecture
Portfolio architectureduchene-sophie
 
Georgia’s and Kathy’s math final
Georgia’s and Kathy’s math finalGeorgia’s and Kathy’s math final
Georgia’s and Kathy’s math finalgeorgia
 
проблемное обучение
проблемное обучениепроблемное обучение
проблемное обучениеTschastschinaValja
 
ECM dans le Système d'Information, une vision urbanisée avec Alfresco
ECM dans le Système d'Information, une vision urbanisée avec AlfrescoECM dans le Système d'Information, une vision urbanisée avec Alfresco
ECM dans le Système d'Information, une vision urbanisée avec AlfrescoRemi Moebs
 
Portfolio architecture
Portfolio architecturePortfolio architecture
Portfolio architectureduchene-sophie
 
Techdays 2014 - Session spatialisation et gamification des interfaces
Techdays 2014 - Session spatialisation et gamification des interfacesTechdays 2014 - Session spatialisation et gamification des interfaces
Techdays 2014 - Session spatialisation et gamification des interfacesRemi Moebs
 

Destacado (18)

Alec henriquez portfolio
Alec henriquez portfolioAlec henriquez portfolio
Alec henriquez portfolio
 
проблемное обучение
проблемное обучениепроблемное обучение
проблемное обучение
 
Premiers pas
Premiers pasPremiers pas
Premiers pas
 
Nouvelles interfaces tendances
Nouvelles interfaces   tendancesNouvelles interfaces   tendances
Nouvelles interfaces tendances
 
NoSQL CGN: CouchDB (11/2011)
NoSQL CGN: CouchDB (11/2011)NoSQL CGN: CouchDB (11/2011)
NoSQL CGN: CouchDB (11/2011)
 
Projet etablissement la maison des Titis Doudous à Drancy
Projet etablissement la maison des Titis Doudous à DrancyProjet etablissement la maison des Titis Doudous à Drancy
Projet etablissement la maison des Titis Doudous à Drancy
 
Quiz Innovation Digitale
Quiz Innovation DigitaleQuiz Innovation Digitale
Quiz Innovation Digitale
 
Transformation digitale en 2 schémas
Transformation digitale en 2 schémasTransformation digitale en 2 schémas
Transformation digitale en 2 schémas
 
Caroline 15zola
Caroline 15zolaCaroline 15zola
Caroline 15zola
 
Aadhar
AadharAadhar
Aadhar
 
Урок "Meine Hobbys"
Урок "Meine Hobbys"Урок "Meine Hobbys"
Урок "Meine Hobbys"
 
Portfolio architecture
Portfolio architecturePortfolio architecture
Portfolio architecture
 
Georgia’s and Kathy’s math final
Georgia’s and Kathy’s math finalGeorgia’s and Kathy’s math final
Georgia’s and Kathy’s math final
 
проблемное обучение
проблемное обучениепроблемное обучение
проблемное обучение
 
ECM dans le Système d'Information, une vision urbanisée avec Alfresco
ECM dans le Système d'Information, une vision urbanisée avec AlfrescoECM dans le Système d'Information, une vision urbanisée avec Alfresco
ECM dans le Système d'Information, une vision urbanisée avec Alfresco
 
Portfolio architecture
Portfolio architecturePortfolio architecture
Portfolio architecture
 
Techdays 2014 - Session spatialisation et gamification des interfaces
Techdays 2014 - Session spatialisation et gamification des interfacesTechdays 2014 - Session spatialisation et gamification des interfaces
Techdays 2014 - Session spatialisation et gamification des interfaces
 
Aadhar
AadharAadhar
Aadhar
 

Haplogroup N research

  • 1.  15(S):13-46 ª 现代人类学通讯 第三卷 2009 年 Communication on Contemporary Anthropology COM. on C. A. 3:e3, 2009 Vol. 3 研究报告 东亚人群线粒体 N 系单倍群的迁徙分化 陈致勇 中国恐龙网论坛, 上海 200085 摘要:线粒体 N 系单倍群是东亚人母系线粒体遗传 M、N 和 R 三大系统之一。本文在汇总大量亚洲东部族群线 粒体 N 系单倍群序列和数据的基础上,通过重建系统发生学关系,明确了东亚人的 N 世系(A、N9a、Y、N9b 等)直接源自北部湾地区,应为东南亚起源而非中亚起源。年代测算表明 N 系单倍群很可能在 5.0 万年前已到 达东南亚地区,在东亚大陆大规模扩张的时间大致始于 2.5-2.0 万年前。地理分析显示,华中地区是 N 系下 游单倍群 A、N9a 和 Y 扩散分化和集中分布的主要地区,暗示 N 系单倍群可能与苗瑶族系,特别是与古代的苗 蛮民族有着密切的联系。因而可将 N 系单倍群所属的史前族群视为“原始苗人”。但进一步的分析显示 N 系单 倍群的成分不仅存在于湖南苗族的母系遗传中,也大量流入了周边汉族和其他少数民族群体中。表明在母系 遗传上湖南苗族不是史前“原始苗人”的唯一直系后裔,而只是分享其母系遗传的众多后继者之一。 关键词:线粒体;N 系;单倍群;东亚;北部湾;迁徙;苗瑶 Migration and Diversification of Mitochondrial Haplogroup N in East Asians CHEN Zhiyong China Dinasour Forum, Shanghai 200085 China Abstract:Mitochondrial superhaplogroup N is one of the three dominant haplogroups M, N and R in the East Asians. Here published sequences and data of haplogroup N in East Asia were collected and the phylogenesis was reconstructured. The origin of the N lineage of East Asians (A, N9a, Y, N9b, etc.) was found to be beside Tonkin Bay, not in Central Asia but in Southeast Asia. Time estimates suggested that superhaplogroup N most probably arrived in Southeast Asia 50 thousand years ago, and started to expand in mainland of East Asia around 25-20 thousand years ago. Geographic analyses showed that middle China was the diffusion center of the downstream haplogroups A, N9a, and Y, indicating haplogroup N might be associated to Hmong-Mien, especially to the ancient “Miao Man”. Therefore, the ancient population with the haplogroup N might be defined as “proto-Hmong”. Further analyses showed that haplogroup N distributes not only in Hmong from Hunan but also in the neighboring Han Chinese and other minorities. Present Hmong is not the only descendant of “proto-Hmong” but one of those descendant sharing haplogroup N. Key words: Mitochondria; Haplogroup N; East Asia; Tonkin Bay; Migration; Hmong-Mien 系统性的分析。结果显示东亚线粒体 N 世系 前言 同样属于南方起源,东亚人的祖先主要由南 笔者早先在研究东亚母系线粒体遗传 方(南亚和东亚南部)沿海路线迁徙而来。 地理分布时, 发现线粒体 M 系和 R 系的早期 此外,由于在不同族群融合时经常出现 类型都明确地显示出在中国南方集中分布的 性别偏向性,史前族群的大部分父系遗传结 迹象,表明均属于南方起源,与一些文献的 构经常被晚近时期强势民族的父系标记所掩 研究结果基本吻合[1,2]。但是对 N 系单倍群 盖。而母系遗传结构则忠实地记录了历史上 (A、N9a 和 Y 等)早期类型单倍群地理分布的 不同的移民层次,对于追寻远古族群的迁徙 研究却没能为追溯起源提供更多的线索,现 历史来说是非常理想和有效的工具。因此充 有文献对此也是语焉不详。笔者认为其中主 分、准确地解读东亚人母系线粒体遗传所携 要的问题在于对线粒体单倍群细分不够和研 带的丰富信息,将有助于我们最终破解东亚 究深入程度不够。因此广泛搜集亚洲东部 N 民族远古起源之谜。 系单倍群的序列和样本对其进行最为完整和 收稿日期:2009 年 3 月 8 日 修回日期:2009 年 4 月 21 日 联系人:陈致勇 nickchen1@vip.sina.com 2009 年 4 月 22 日 http://COMonCA.org.cn/Abs/2009/003.htm 13 ©上海人类学学会 Shanghai Society of Anthropology
  • 2. REPORT COM. on C. A. 3:e3, 2009 共计 1173 条。其中 N*序列 41 条, 序列 552 A 材料与方法 条,N9a 序列 296 条,Y 序列 199 条,N9b 样本的搜集 序列 41 条,N21 序列 36 条,N22 序列 8 条。 本次研究的序列和数据主要来自以往 另外,许多带有 16189 位点突变的序列 文献及 GenBank 数据库,来源详见附件。鉴 也极易在高变 1 区 16181-16193 片段上发生 于 N 系单倍群的起源地很可能在境外,而且 更多的关联突变。考虑到对分型价值不大, 分布范围远及东南亚岛屿、印度东北部、北 在主要分析中对上述片段中的插入、删除以 亚、北极等广大地区,因此本次研究在亚洲 及突变为 C 的颠换等非特征变异均予以排 东部范围内全面搜集蒙古人种各群体 N 系单 除。 倍群的高变 1 区序列和全序列数据,以及可 转化为序列的高变 1 区突变数据,用于分布 主要分析方法 频率分析。图 1 显示了本文主要数据采样点 1.全序列分析 的分布情况。 对于线粒体 DNA 研究来说,最准确和 最有效的方法就是进行全序列的比对分析。 不过由于测试费用太高等原因,现在公开发 表的国内和东南亚的 mtDNA 全序列还很少。 所以目前主要还是采取高变 1 区分析为主、 全序列分析为辅的方式。 2.高变 1 区中接网络分析 本次研究综合了多种分析方法。首先, 在参考有关文献根据 mtDNA 全序列研究所 得到的系统发生树的前提下,使用 Network 4.5.0.0 系统发生学软件构建线粒体高变 1 区 中接网络(Median-joining Network),Network 软件可以从纷繁复杂的序列数据中归纳出线 粒体单倍群的分化结构,并提供高频突变位 图 1. 本文数据主要采样点的位置分布图 点的信息。 Fig.1 Distribution of the population samples analyzed 3.单倍群发生频率的地理分布分析 in this paper. 在充分分析中接网络和分类数据的基 数据预处理 础上,再使用 Sufer 8.0 三维成像软件分别将 首先从样本或可转换数据中筛选出包 研究对象的分型数据,包括主要分支、原始 含比较完整的高变 1 区特征突变的数据,用 类型和未定义类型的发生频率数据绘制成直 于分布频率和变异频率分析。对错误的数据 观的地理分布图。其中原始型和未定义类型 能采取两种处理方式:对于错误分型或未细 的频率分布图可以为我们提供此单倍群早期 分但特征突变特别清楚的数据进行重新分 分化和晚期扩散的重要信息。 型;对于突变数据明显有误且特征突变不清 本文所说的某线粒体单倍群的原始型, 晰 的 直 接 剔 除 。 而 后 使 用 CLC Free 就是在高变 1 区特征上与系统发生树推导出 Workbench 4.5.1 生物信息软件将其中完整或 的单倍群祖型完全一致的单倍型。而未定义 基本完整的数据统一处理为 16024-16383 位 类型指的是在该单倍群的高变 1 区数据中剔 点、长度为 360bp 片段,用于高变 1 区中接 除原始型及其主要分支后余下的单倍型。 网络分析。对于没有分型的高变 1 区序列, 4.扩散效应分析 根据可靠的低突变位点或者联合多个位点特 在分析过程中笔者发现:由于人口数量 征进行最终确认,不能确认的予以排除。最 较少史前人类经常是整个族群一起迁移,沿 后选用的 N 系单倍群高变 1 区序列(或数据) 途通常只留下少量且不连续的痕迹;或者早 14
  • 3. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 期迁徙事件遗留下来的少量痕迹可能受到后 显然,出现上述第一种情况的区域是早 期其他迁徙事件的冲刷和扭曲,这些都使我 期扩散中心的可能性很大。即使分布频率只 们难以对早期分化迁徙过程作出准确的判 留下很少的遗迹,我们仍然可以通过高变异 断。现有的分子人类学分析方法无法有效地 频率找到远古人群扩散的重要线索。 解决这个难题。为此笔者尝试使用一种新的 分析方法——扩散效应分析。原理在于不同 未定义单倍群的命名 的扩散模式会在地理分布和遗传分布上出现 在下面的分析中,为了避免在命名编号 不同的特征,我们可以综合这两方面的信息 的问题上与其他文献发生冲突,笔者对于已 推断出扩散模式、起始地点、迁移路线等重 有定义的亚单倍群将遵从最权威的命名,而 要结果。 对未定名的亚单倍群只标注高变 1 区特征位 这种分析需要一个新的指标来度量和 点,这样直观易懂而且不会引起歧义。 分析族群内部变异的积累程度, 可称之为“群 体内部变异频率” 。计算方法为:首先在作为 研究对象的某个单倍群高变 1 区数据中去除 结果和分析 原始型和所有或大或小的分支,筛选出无法 1.线粒体 N 单倍群 细分的样本,这些样本可以为我们提供各群 N 系单倍群在亚洲东部广大地区都有分 体内部遗传分化的信息。然后,统计出每个 布,在已定义分支中:A 和 N9a 主要分布在 采样群体中无法细分样本的特异突变位点的 东亚和北亚地区,N21 和 N22 分布在东南亚 总数(注意在相同位点上同时出现转换和颠 地区[3-5],N9b 分布在东北亚和西伯利亚远 换可计数 2 次) 用这个突变位点数除以该群 。 东滨海地区[6,7],而 Y 在东南亚、东亚和东 体的样本总数,就得到群体内部变异频率。 北亚地区都能找到。 接下来将使用 Sufer 软件绘出群体内部 与上述已定义的下游单倍群不同的是, 分化度的地理分布图。对比某一单倍群分布 N 未定义类型的分布极为有限。在笔者所搜 频率和内部变异频率的地理分布图,会发现 集到的全部序列和数据中:N*集中分布于北 主要有三种情况出现: 部湾地区,包括越南北部、中国广西自治区 (1)某一区域内单倍群发生频率和变异频 和海南;也分布在中国南方地区和东南亚部 率都比较高。这通常是群体大规模扩散的迹 分地区;低频出现在中国北方少数地区。但 象。大规模扩散是一个长期的过程,人口大 在境外的北亚、中亚和北极地区一例都没有 量增殖带来遗传突变几率的增加,在较长的 发现。 时间跨度内群体内部必然有大量新的变异型 出现。 1.1. N 单倍群高变 1 区中接网络 (2)某一区域内的变异频率较高,而单倍 图 2 就是根据亚洲东部线粒体 N 系单倍 群发生频率不高。这可能是小群体迁徙的迹 群数据绘制的高变 1 区中接网络。笔者参考 象。在遗传漂变的作用下,新的变异类型有 以往文献中的系统发生树去除了其中冗余的 时会偶然获得在迁徙群体内部扩大其比例的 连线[2,8],排除了一些可能由高突变位点所 机会,迁徙距离越长则群体内部积累的变异 形成的网状拓扑结构。另外,笔者在数据中 越多。又称为瓶颈效应或奠基者效应。 发现 2 个可能属于西部欧亚 N 世系 N1c 和 W (3)某一区域内单倍群发生频率较高,而 的陕西样本 SHANNXI11、 SHANNXI13(陕西 变异频率不高。有可能是族群整体迁徙,群 标准拼写应为 Shaanxi,原文有误),也予以 体内部新产生的变异很难获得扩大比例的机 排除[9]。网络中还加入了 N 系在东亚的主要 会,导致变异频率没有显著增加。或者是晚 分支 A 和 N9a 的原始型样本,以便更清楚地 近时期环境和生存条件改善而导致短期内人 展现亚洲东部 N 系单倍群的全貌。不过笔者 口大量增长,但是由于某种原因只持续了较 没有在数据中找到真正的 Y 原始型,而 N9b 短的时间并未大规模扩散。 原始型的高变 1 区特征太少, 极易与其他 N* 15
  • 4. REPORT COM. on C. A. 3:e3, 2009 混淆,所以 Y 和 N9b 的原始型都没有加入。 切来源,不过从北亚和北极地区未发现独立 从 N 单倍群中接网络可以发现一些东亚 发展的 N*世系看,他们仍很可能属南方起 N 世系从南方起源的迹象: 源。 (1)整个网络呈现“空心化”的结构。中 从网络中还可以看到,N 在东亚的主要 心节点特别小, 是由 1 个广东潮阳样本 STC8 支系 A、N9a 主要分布在东亚大陆和北部湾 和 1 个印度尼西亚样本 PAD09 组成[4,10]。 周边地区, 只有少数支系分布在东南亚地区。 由于笔者在构建网络时删除了一些高突变的 A*:直接与起始节点相连,另有一个与 位点,所以上述样本并不是 N*的原始类型, 之相连的海南疍家样本 DG12[11],这个样本 而是分别带有 16189 或 16311 位点突变的最 有 16290 突变而缺少 16319 突变,因此难以 接近根部的类型。事实上真正的无高变区特 判断它是否属于未细分的带有 16319 回复突 征的 N*原始型在样本中没有找到。 变的 A 个体。 N9a* : 它 通 过 一 个 越 南 北 部 人 样 本 VN302 与起始节点相连。下文中的全序列分 析确定了 VN302 是个罕见的 Pre-N9a 个体, 笔者判断 N9a 是北部湾一带起源的单倍群。 N 在东南亚地区也分布着几个支系,其 中 N21、N22 和 N-16263,16274,16343,16357 很 可 能 是 东 南 亚 本 地 起 源 , 而 N-16111, 16172,16189,16362 似乎是北部湾地区起源。 N21:其高变 1 区特征是 16193 转换变 异。它是 N 在东南亚地区最大的分支,主要 分布在马来西亚、印尼、泰国部分地区,在 中国云南汉族中也发现一例 YUNNAN37[9]。 从高变 1 区特征看 2 个印尼人样本 PAL06、 BAL40 属于 N21 原始型[3,4]。N21 在马来半 图 2. 根据高变 1 区数据绘制的 N 单倍群简化中接网 岛产生了一个人数众多的分支 N21-16223, 络 节点分色示意:红色—北部湾地区,绿色—中国 带有高变 1 区谱序 16193-16223- 16291。 泰国 南方,橙色—中国北方,蓝色—东南亚地区。 Fig.2 A simplified Median-joining Network of 和云南汉族的 N21 样本则属于带有 16182 转 haplogroup N based on mitochondrial HVS-1 Keys for 换变异的另一支系 N21-16182。 the colors: Red for the Tonkin Bay area, Green for South China, Orange for North China, and Blue for N22:这是个很小的单倍群,样本中包 Southeast Asia. 括 4 例马来土著人和 4 例印尼松巴岛人。其 中 2 个马来土著样本属于 N22 原始型。 (2)在北部湾地区的 N*样本中,有一些与 N-16263,16274,16343,16357:图中标注 东南亚样本共享同一分支,也有与华南样本 为 N-16263,16274。这个未定义单倍群包括 7 的共存的情况出现。后面的进一步分析显示 4 个印尼爪哇人、 个印尼邦加岛(Bangka)人和 北部湾的 N*更多地流向了东亚南部而不是 1 个泰国人 C075 样本。其中 1 个爪哇人和 4 东南亚地区。 个邦加岛人属于原始型。 (3)数据中没有发现来自境外北亚和北极 N-16111,16172,16189,16362 :图中标注 地区的 N*样本。 在排除了可能源自西部欧亚 为 N-16111,16172。 这是个很小的未定义单倍 的 N 世系的样本后, 中国北方(也包括北方少 群,样本中包括 1 个广西拉珈人 MI459、1 数民族)的 N*样本共 5 例,比中国南方和北 个新疆乌兹别克人 Uzb26、1 个马来人和 4 部湾地区的样本少得多。在这 5 例样本中, 个印尼人[12,13]。其中只有拉珈人 MI459 属 有 2 个通过中国南方、北部湾或者东南亚的 于该单倍群的原始型,而 5 个东南亚的样本 节点与根部相连,可能是南方起源。只有 3 都属于带有 16311 转换突变的分支。因而此 个北方样本直接与根部相连,无法确定其确 16
  • 5. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 单倍群的起源地很可能在北部湾周边一带。 和澳洲 N 世系系统发生树的全面比对,没有 发现 VN9B 与以上世系共祖的迹象。有趣的 1.2. N*及 N9a 全序列分析 是,笔者发现 VN9B、西部欧亚的 W,以及 在搜集到的亚洲东部地区 mtDNA 全序 澳洲土著 N12 的一个分支类型都带有编码区 列中,以日本的数据最多,而在 N*集中的东 5460 位点转换,不过从系统发生树看显然属 亚南部和中南半岛北部,全序列显得尤为稀 于发展中各自独立发生的并行突变[1,14]。 少和珍贵。笔者很幸运地在 GenBank 数据库 VN302(DQ834255):起初未发现此样本 中找到了越南科学技术学院用于病理研究的 具备 N9*的 5417 特征突变,笔者将其归为 10 个越南北部人全序列,分型结果显示其中 N*的未定义类型。但是进一步的比对发现它 存在许多古老类型。其中属于 N 系单倍群的 带有 N9a 的部分特征突变, 包括 150、12358、 样本有 3 个: 他们分属于 N*、 和 pre-N9a。 N9a 12372 和 16261 转换突变。从 Tanaka 等 2004 年论文中 N 的系统树看[6], 5417 是个高突变 率的编码区位点, 基本可以确定 VN302 属于 发生 5417 回复突变的 pre-N9a。笔者也考虑 过它是否可能属于发生了一系列回复突变的 N9a 个体, 不过 5231 属于突变率很低的位点, 而且 16257A 颠换再次发生回复的概率极小, 所以基本上可以排除这种可能性。 VN79 (DQ834258):此序列具备 N9a 的 所有特征。 除了 16261 和 16257A 突变外, 未 见其他高变 1 区位点突变,应该是较早的分 化类型。 需要指出的是:笔者发现上述 3 个越南 北部人全序列都存在编码区 14766 转换,还 有 VN302 和 VN79 样本在编码区上也存在相 同的 4856 转换。 从以往文献中 N 的系统发生 树看,14766、4856 位点不可能是 N 或 N9 下游分支的特征突变[2,8]。还有,在 VN9B 和 VN302 序列中存在一些很少见的突变为 G 的颠换。笔者认为这些奇怪的突变可能都是 测序错误造成的[15]。 图 3 是在参考有关文献系统树资料基础 上,按最可能的情形绘出的系统发生树。其 中还加入了那乃人 Nanai157(EU007856)和广 东湛江 GD7834 作为参考样本,以生成较完 整的分化树形[16,17]。尽管存在测序错误的 可能性,越南北部人全序列还是比较清晰地 展现了 N9a 的早期分化过程。从全序列分析 图 3. 根据越南北部人全序列绘制的 N*和 N9 系统发 生树 去除了与 MELAS 症有关的 3243A→G 突变和 我们可以得出一个重要结论:越南北部存在 一些有疑问的突变。 独立发展的 N*世系, 并且很可能是 N9 和 N9a Fig.3 Phylogenesis of N* and N9 according to the whole genome sequence of north Vietnamese samples. 的起源地。 The MELAS associated 3243A→G and some doubted mutations were excluded. 1.3. N 未定义类型的地理分布 VN9B(DQ826448):属于一个 MELAS 综 合症患者的 N*个体。经过与西部欧亚、印度 17
  • 6. REPORT COM. on C. A. 3:e3, 2009 话 个 体 PH126 和 2 个 湘 西 土 家 族 个 体 TUJIA0142、TUJIA0151[12,18]。 N-16172,16291A,16298:此分支由江苏 人 JIANGSU16、上海人 SHANGHAI11 和福 建惠安人 STF4 共 3 个样本组成, 其中江苏和 上海样本还共享 16069 位点突变[9,10]。似乎 表明华东地区是 N-16172,16291A,16298 迁徙 的终点。 图 5 是根据序列分析结果绘制的北部湾 地区 N*世系的扩散图。 可以看出: N*扩散的 主要方向是向北进入东亚大陆而不是向南进 图 4. N 未定义类型发生频率地理分布图 Fig. 4 The frequency distributions of unclassified N* 入东南亚地区,而且主要分布于华南地区、 华中地区以及东部沿海部分地区。 N 未定义类型集中分布在北部湾周边地 区(图 4)[11]。发生频率最高的族群是越南北 2. 线粒体 A 单倍群 部人 10.0%,广东潮阳人 5.3%。其次是广西 线粒体 A 单倍群是东亚 N 系单倍群中最 防城港高栏人 3.3%, 海南杞黎 2.9%、海南疍 大的分支。广泛分布在东亚、东北亚、北亚、 家 2.5%。N*在华中、华东、西北地区的部分 北极地区,A 的一些支系如也伴随着一些北 汉族群体中,以及内蒙鄂伦春族中都有少量 亚和乌拉尔族群的西迁一直分布到中亚、东 分布,发生频率在 1.0%-2.4%之间。此外在 欧和北欧部分地区。A2 在大约 1.4 万年前经 印尼巴东人(Padang)和马来西亚哥打基纳 北极白令海地区迁入美洲。A 在东南亚地区 巴卢人中也各发现 1 例。 的分布极为有限,除了泰国有一定比例的分 布外,也低频出现在印度东北部南亚语部族 中和马来人(Melayu)[4],但在东南亚岛屿和 台湾原住民族中均没有发现。笔者认为 A 单 倍群之所以在东南亚分布稀少,是因为在扩 张时受到其他单倍群的竞争,比如同属 N 系 分支而且早期扩散地点更靠南的 N9a 单倍 群。 2.1. A 单倍群高变 1 区中接网络 图 6 是依据 A 单倍群高变 1 区数据绘制 的简化中接网络。为方便观察 A 网络的基本 架构,合并了一些细小的末端分支。图中以 图 5. 推测为北部湾起源的线粒体 N*单倍群支系扩 黑色标识的就是 A*网络的起始节点, 可以看 散示意图 椭圆形代表主要的扩散中心,下同。 Fig.5 Conjectural origin of mitochondrial haplogroup 到 A*产生了两个巨大的分支: 一支是主要在 N* beside Tonkin Bay and its diffusion. The ellipse 东亚大陆发展的 A4, 另一支是主要分布于中 stands for the origin area in this and the following maps. 国东南沿海、日本和韩国的 A5*。处于 A*左 上方的大节点就是 A4*, 它与 A*祖型只差一 由于 N*记录了早期人类迁徙的宝贵信 步 16362 突变,但却产生出一个巨大的星形 息,笔者参照中接网络分析结果对 N*继续作 结构,表明在相对晚近时期曾发生过剧烈的 全面的细分,得到更多未定义的细小分支。 分化扩散。A*右上方稍小的节点是 A5a,以 N-16381:这是个由低突变率 16381 位点 及它姊妹支系 A5b 和 A5c。鉴于 A 系单倍群 转换所确定的小分支,包括 1 个广西贺州平 的完整网络过于复杂,下面我们将把它拆分 18
  • 7. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 成 A*(A5)和 A4 两部分来研究。 特征,无法确定其中是否存在个别 A5*早期 类型。 此外,在网络中还可以看到 A8 和其他 未命名的小分支,这些分支的数据携带着 A* 迁徙分化的重要信息。 2.3. A5 分支的地理分布 A5a:A5a 样本中绝大部分来自日本和朝 鲜半岛,以 16187 转换突变为特征。据本次 研究统计,内蒙古阿荣旗朝鲜族(近代北朝鲜 移民)最高发,48 个样本中就发现 4 例,发生 频 率 高 达 8.3% 。 以 下 依 次 为 日 本 中 部 人 6.1%, 日本南部宫崎县人 3.5%, 韩国人 3.3%。 但在阿伊努人中没有发现 A5a。 图 6. 线粒体 A 单倍群高变 1 区简化中接网络 Fig.6 A simplified Median-joining network of 东亚大陆上的 A5a 样本极为罕见。笔者 mitochondrial haplogroup A based of HVS-1 motif 发现河南安阳人 STE36 带有 16187 特征突 变, 可能是 A5a 个体[10]。 还有孔庆鹏等 2006 年论文附件显示云南昆明人 YC29 属于 A5a, 2.2. A*和 A5 高变 1 区中接网络 从编码区特征看应为早期分支[8]。 有趣的是, 在参考以往文献中系统发生树的基础 笔者发现河南 STE36 和韩国 Kor68 都发生了 上,笔者去除 A*和 A5 中接网络中一些高突 16223 回复突变,而云南 YC29 和韩国 K216 变率的位点数据(16189、16311 等)和冗余连 共享 16270 突变[19]。这暗示 A5a 的起源地 线,得到了比较完整、清晰的高变 1 区中接 很可能是在中国境内,而不是日本和韩国。 网络图(图 7)。 A5b:A5b 的高变 1 区特征是 16126 和 16235 位点转换。从高变 1 区数据看 A5b 似 乎存在两个主要分支。一个是 A5b 的早期类 型,最高发的是福建惠安人,发生频率为 2.7%,海南疍家 2.5%,其次是日本鸟取县人 2.1%和上海人 1.8%。另一个是 A5b-16234, 最高发的是广东南澳岛居民 3.6%,其次是湘 西土家族 3.1%、 福建莆田人 3.0%。 此外在新 疆回族、辽宁大连人、湘西苗族和韩国人中 也有发现(图 8)。 A5c:这是个很罕见的 A5 下游分支,高 图 7. 线粒体 A*和 A5 单倍群高变 1 区中接网络 Fig.7 A Median-joining network of mitochondrial 变 1 区特征为 16129 和 16213 转换。仅分布 haplogroup A* and A5 based on HVS-1 motif 在日本人、韩国人、琉球人、新巴尔虎旗蒙 古族,以及南西伯利亚的布里亚特人和汗尼 可以看到,网络中的 A5 主要分为三个 干人(Khamnigan)中(图 8)。在安徽汉族中也 分支 A5a、A5b 和 A5c。在对日本的 mtDNA 发现 1 例 ANHUI19[9]。 全序列进行充分研究后,笔者发现其中 A5 样本都可以归结为上述三个亚单倍群,没有 A5*早期类型出现。 但对于来自亚洲其他地区 2.4. A*分支的地理分布 仅见高变 1 区数据的 A*样本来说, A5*祖 因 A-16234,16293C:这是以往文献中未见 型的形成只经过两步编码区突变(8563 和 命名的亚单倍群,由于它集中分布在云贵高 11536 转换),而没有出现可识别的高变 1 区 19
  • 8. REPORT COM. on C. A. 3:e3, 2009 图 8. 线粒体 A*和 A5 系单倍群发生频率地理分布图 Fig.8 Distributions of the mitochondrial haplogroups A* and A5 subgroups. 原的藏彝系民族中,因此可以确定是有着共 母系遗传中,而后再随着彝族迁徙再进入周 同起源的亚单倍群。其中云南西双版纳彝族 边族群的母系成分中的。 和贵州赫章县彝族最高发, 比例分别为 12.5% A8:A8 的定义引自俄罗斯学者 Derenko 和 10%。在云南藏族、白族、普米族、纳西 等 2007 年论文[20]。文中以 2 个北亚全序列 族 以 及 西 藏藏族 中 的发生 频 率为 共享的 64、146、16242 位点突变来定义 A8。 2.2%-4.7%(图 8)。另外,在云南汉族、泰国 但是笔者在查找文献后发现, A2 定义中也 在 曼谷人、北疆蒙古族、以及印度东北部南亚 有同样的 64 和 146 两个高变 2 区并行突变, 语部族中各发现 1 例。 A-16234,16293C 的 从 只有高变 1 区 16242 突变频率最低。在 分布特点不难看出:它应该是首先进入彝族 Volodko 等 2008 年论文所给出系统树也显示 20
  • 9. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 只有 16242 突变是识别此分支的可靠标记 化出去,日本、韩国的样本构成另一较长分 [21]。A8 最高发的族群是北西伯利亚的凯特 支, 日本 TC48 是由韩国 K245 的单倍型再经 人(Ket),发生频率为 10.0%。其次是堪察加 146 突变所形成[6,19,22]。这个结果实际上追 半岛伊捷尔缅人(Itelmen)6.5%、托发拉尔人 溯了日本和韩国的 A7 自中国西南部地区的 (Tofalar)5.2%和日本阿伊努人 2.0%(图 8)。在 起源。 图瓦人、布里亚特人和韩国人中的发生频率 由于对 A*的原始型和未定义类型的频 较低,分别为 1.1%、0.3%、0.3%。从高变 1 率分布研究没有得到最初起源和分化明确结 区数据分析,只有韩国人和阿伊努人的 A8 果,接下来笔者尝试运用扩散效应分析来提 是原始型, 表明 A8 早期分化的地点应该在韩 取 A*早期分化的信息。 国和日本南部一带。 2.6. 线粒体 A*单倍群扩散效应分析 2.5. A 的原始型和未定义类型的地理分布 A 原始型:据本次统计,A 原始型分布 频率最高的族群是广东潮阳人 5.3%,其次是 广西东北部的富川瑶族 3.2%和罗城仫佬族 2.6%,以及湖北汉族 2.4%和内蒙古阿荣旗朝 鲜族 2.1%(图 8)。 原始型在东亚的分布呈分 A 散的点状,在江苏汉族、呼和浩特蒙古族、 广西拉珈人、泰国曼谷人、本土日本人、韩 国人中都有发现。 A 未定义类型:A 的未定义类型比 A*原 始型的分布更广。最高发的族群是西藏藏族 8.6%,及广东南澳岛居民 7.1%。其次是上海 汉族 5.4%, 西双版纳白族 5.2%, 湖北武汉人 图 10. 线粒体 A 单倍群扩散效应分析图 蓝色显示 4.8%,以及内蒙古东部的蒙古族 4.2%。A* 发生频率分布,红色显示群体内部变异频率分布。 的未定义类型在日本人和韩国人中的频率不 Fig.10 Diffusion of the mitochondrial proto-A haplogroup. 高,大约在 0.2%-1.0%之间(图 8)。 Blue clines stand for the total frequency, and red clines stand for the mutation rate within the population. 值得注意的是,根据Metspalu等2007年论 文, 我们还在A未定义类型中找到了一个很小 图 10 是在 A 单倍群原始型发生频率上 的分支A7[2]。包括韩国、日本、武汉汉族样 叠加 A 单倍群群体内部变异频率得到的叠加 本各1例,见图9。 分析图。可以看到在中国境内单倍群分布频 率和内部变异频率重叠高发的区域有两个: 一是广西东北部地区,据统计这里内部变异 频率最高的族群是罗城仫佬族 7.4%,临近的 广东怀集标人更高达 8.8%;二是湖北东部地 区,武汉人的内部变异频率是 4.8%。 在境外, 图 9. 线粒体 A7 单倍群个体的分化树状图 日本南部和泰国南部地区也有重叠的次高发 Fig.9 Tree of the mitochondrial haplogroup A7 individuals. 区,日本宫崎县人的内部变异频率是 5.6%, 泰国曼谷人的变异频率是 3.0%,显然都不如 他们都带有控制区特征谱序 16051— 广西东北部和广东西部一带的变异频率高。 16129—16189—235。此外,论文附件提及云 据此我们基本上可将 A 单倍群的最初分化地 南汉族 YN271 只有 16051 转换而未见 16129、 点锁定在广西东北部一带。 16189 位点变异,可能是更早期的分支。从 从图中还可以发现一些有趣的现象。比 重构的网络来看:武汉样本 WH6956 较早分 如粤东沿海地区 A 原始型的频率很高,但是 21
  • 10. REPORT COM. on C. A. 3:e3, 2009 变异频率却不高,笔者起初无法理解,后来 析绘制的 A*和 A5 迁徙路线图。从重建的迁 在查阅了一些地理、气候资料时才偶然发现 徙路线来看,两者主体迁移路线基本相似, 这与冰期时“台湾浅滩”的存在有关(参见讨 很可能是从广西东北部地区开始,一部分进 论章节的内容)。此外,我们还能在云南西双 入粤东、闽南一带,另一部分迁移到华中地 版纳看到一个变异频率高发点,统计显示这 区而后分散开,再进入华北、日本和韩国。 里白族的内部变异频率高达 7.7%, A 原始 而 看起来似乎是伴随迁徙的单倍群。唯一的不 型的发生频率并不高, 说明其母系线粒体 A* 同点在于:A*的下游分支 A-16234,16293C 成分在历史上可能经历过瓶颈效应或是族群 还分布到藏彝系民族、北疆蒙古族和印度南 人口减少的事件,笔者推测这可以与云南复 亚语部族中。从年代测定结果来看,有可能 杂多变的地理与气候环境等原因有关。 是 较 晚 时 期 与 A4 的 西 迁 的 一 些 分 支 ( 如 A4-16274、A4-16124)一起分化出去的。 2.7. 推测的 A*和 A5 的迁徙路线 2.8. A4 的高变 1 区中接网络 图 11. 推测的线粒体 A*单倍群分支迁徙路线示意图 Fig.11 Conjectural migration routes of mitochondrial haplogroup A*. 图 13. 线粒体 A4 单倍群高变 1 区中接网络 Fig.13 A Median-joining network of mitochondrial haplogroup A4 based on HVS-1 motif A4 单倍群高变 1 区的网络结构呈现为巨 大、单核的“太阳”形,这个核心向四周辐 射出众多大小不一的节点(图 13)。值得注意 的是,大部分节点与分化核心的突变距离不 超过两步,而且次级节点的分支较少,表明 A4 的主体分化应该发生在比较晚近的时期。 结合一些文献中基于 mtDNA 全序列所 给出的系统树,我们可以识别出北亚和北极 地区常见的亚单倍群 A4a、A4b、A2。另外, 在网络中还有其他几个未定名的亚单倍群。 图 12. 推测的线粒体 A5 单倍群分支迁徙路线示意 2.9. A4 的主要分支 图 虚线表示中间过程不太确定的路线,下同。 Fig.12 Conjectural migration routes of mitochondrial A4-16274:A4-16274 是 A4 在中国境内 haplogroup A5. Broken lines stand for the uncertain 最大的支系, 主要集中在云南藏彝系民族中, routes in this and the following maps. 其 中 频 率 最 高 的 是 怒 族 30.0% , 傈 僳 族 图 11 和图 12 就是笔者综合多种数据分 16.2%,其次是普米族 8.3%和撒尼人(彝族支 22
  • 11. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 系)6.5%。在湘西过山瑶中的频率是 4.2%, 多出一步 16189 突变。主要发现于俄罗斯远 在云南、青海藏族中的比例为 3.6%-4.0%。 东地区的埃文基人(5.6%)以及乌拉尔地区的 A4-16274 在华中、华东汉族中低频出现,发 欧亚混血民族曼西人(3.4%),也低频存在于 生频率从 1.3%至 2.4%不等(图 14)。此外,在 布里亚特人中(0.3%)。笔者从孔庆鹏等 2003 青海土族、云南傣族、江西汉族、广西平话 年论文中也找到了与埃文基人、曼西人属于 人、北疆汉族和回族,以及南西伯利亚的图 同一单倍型的 2 个鄂伦春人 A4b 样本 Oro13 瓦人和汗尼干人中也有发现。 和 Oro19[25], 无论从地理还是族源的接近性 A4-16124:A4-16124 在西部藏彝系民族 来看他们无疑是 A4b(图 14)。照此计算,鄂 中也比较常见,与 A4-16274 的分布特点非 伦 春 人 A4b 发 生 频 率 应 为 4.5% 。 根 据 常相似,只是发生频率相对较低。最高发的 Derenko 等 2007 年论文中的系统树,相距遥 是云南傈僳族,比例为 13.2%,其次是贵州 远的埃文基人和曼西人 A4b 样本有着很近的 赫章县彝族 5.0%, 湖北汉族 4.0%, 云南撒尼 亲缘的关系,而布里亚特样本 Br442 反而最 人 3.2%,云南藏族 2.9%和西藏藏族 2.9%(图 早分化出去[20]。 这可能反映了史前乌拉尔语 14)。另外在湘西苗族、云南傣族、云南汉族、 部落穿越西伯利亚向西长途迁徙的历程。 江苏汉族中各发现 1 例。值得注意的是,大 A2: 的高变 1 区特征是 16111 位点转 A2 部分 A4-16124 样本都属于原始型, 只有湘西 换。在亚洲主要分布在北极白令海地区,是 苗族 MHN33 和西藏藏族 Tibet4651 属于特征 N 系单倍群中迁徙最远的、唯一进入美洲的 谱 序 为 16093-16124-16290-16293T- 下游支系。根据以往的研究,A2 及其亚洲分 16319-16362 的单倍型[23,24]。 暗示 A4-16124 支 A2a、A2b 主要存在于楚克奇人、爱斯基 是在华中地区形成的,而且向西南地区的迁 摩人及已消失的尤卡吉尔人的母系遗传中。 徙发生在较为晚近的时期。 统计表明 A2a 和 A2b 在楚克奇人中的发生频 从 总 体 分 布 特 点 看 , A4-16124 和 率分别为 33.7%和 13.9%, 在爱斯基摩各部落 A4-16274 很象是伴随迁徙的 A4 下游分支。 中 的 频 率 分 别 为 16.7%-72.0% 和 两者的不同之处在于:A4-16274 的样本比 18.0%-70.8%不等。 在堪察加半岛北部的科里 A4-16124 样本更多,而且一直向北扩展到南 雅克人中也发现 1 例 A2b 样本 Krk39[20]。 西伯利亚的一些族群中。 A4-16129,16284:分布在几个相距遥远 A4a:A4a 是 A4 祖型经 16249 位点转换 的族群中,分别是印度东北部操南亚语的 产生的亚单倍群。主要分布在北亚族群中。 Bhoi 人 4.9%[26],呼和浩特蒙古族 1.9%,泰 最高发的是青海蒙古族, 15 个样本中发现 在 国清迈人 1.2%。所有的南亚 Bhoi 样本都属 2 例,发生频率达 13.3%(图 14)。在南西伯利 于附加 16260 转换突变的同一单倍型,而泰 亚的布里亚特人和阿尔泰人、新疆乌兹别克 国清迈样本全都共享 16136 转换变异,这似 人、俄罗斯人、日本人(ON125)中也有发现 乎暗示 A4-16129,16284 在向泰国和印度东北 [6]。此外,笔者还在云南纳西族和江苏汉族 部经历了显著的瓶颈效应。 中各找到 1 例带有 16249 突变的 A4 样本 A4-16192:主要分布在内蒙正蓝旗蒙古 NAXI12、 JIANGSU28, 由于 16249 属于突变 族(6.3%),及俄罗斯阿尔泰共和国 Tubalar 人 率很低的位点,可以确认这 2 个样本应该也 中(11.1%)。笔者以其中一个样本 Tub3 的全 是 A4a[9,18]。此外,Derenko 等 2007 年论文 序列 EU482374 与系统树中同样具有 16192 中的北亚人 mtDNA 全序列系统树透露了更 突变的 A2b 单倍群进行比对,结果发现两者 多的信息:布里亚特人和阿尔泰基什人 属于不同的 A4 分支[21]。 (Altaians-Kizhi)的 4 个 A4a 样本属于共享编码 区 4928 位点突变的同一支系,被命名为 2.10. A4 原始型和未定义类型 A4a1;俄罗斯人和日本人的 A4a 个体则属于 A4 原始型: A4 原始型分布范围很广, 早期分支[20]。 并且呈现相当离散的状态,表明早期分化历 A4b:A4b 是个很小的群体,比 A4 祖型 史已很久远。 从图 14 中可以看到分布最密集 23
  • 12. REPORT COM. on C. A. 3:e3, 2009 图 14. 线粒体 A4 单倍群发生频率地理分布图 Fig.14 Distributions of the mitochondrial haplogroups A4. 的地区是在中国东南沿海和日本南部一带, 4.0%。A4 原始型也见于韩国人中(2.3%),但 这可能就是 A4 第一波扩张所及范围。其他分 在日本中部人中没有找到。值得注意的是, 布较多的地区在图中呈现为灰色,这些可能 A4 原始型出现在百越起源的上海马桥原住 是伴随 A4 其他分支迁徙的原始型所留下的 民中(5.9%),在 51 个阿伊努样本中也发现 1 遗传印迹。据本次研究的结果,A4 原始型最 例 A4 原始型。 这暗示 A4 早期扩张主要走沿 高发的是广东潮州人,发生频率为 8.3%。其 海路线而且年代十分久远。 次是西双版纳彝族 6.3%、福建莆田人 6.1%、 A4 未定义类型: A4 未定义类型主要集 贵州赫章县彝族 5.0%、和日本南部宫崎县人 中在内陆地区特别是华中地区。最高频率出 24
  • 13. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 现在湖北恩施侗族中,高达 30%;以下依次 迁徙的过程和 A*、 并没有没有什么不同。 A5 是 甘 肃 汉 族 15.6% 、 贵 州 沿 河 县 土 家 族 A4 原始型在中国北方和北亚地区的扩张范 10.3%、贵州赫章县彝族 10.0%、索约特人 围和 A4 未定义类型基本重合, 因而很可能反 (Sojot,图瓦人的一支)10.0%, 青海藏族 8.9%。 映了晚近的迁徙事件。值得注意的是,有关 A4 从分布图看, 未定义类型应该是先在华中 文献的年代测定显示 A2 大约在 2.48 万年前 地区(准确地说是在湘鄂渝交界区域)扩散, 再 就从 A4 中分化出去[28]。可能由于族群整体 向西部藏彝走廊和西北地区扩张。 A4 原始 与 A2 迁徙的缘故, 在东亚大陆上基本没有留下 型在沿海地区集中分布的特点完全不同,表 痕迹。因此很难确定它的迁移路线。 明很可能是较晚期的一次大规模扩散留下的 痕迹。 A4 值得注意的是, 未定义类型还包括不 少细小分支, 其中一些有助于确定 A4 的分化 路线。 A4-16104:其中包括 1 个韩国人 K358 和 2 个新巴尔虎旗蒙古族 Mg214、Mg216 样 本,显示了韩国人和东部蒙古族之间的联系 [19,25]。 A4-16157:仅找到 2 例,由韩国 Kor83 和甘肃 GANSU03 组成。 结合 A4-16104 来分 析,韩国的 A4 主要来自中国北方[9,19]。 A4-16179,16311:日本中部人 KA021 和 江苏人 JIANGSU15 都属于此单倍型。 上文中 还 提 到 过 日 本 人 ON125 和 江 苏 人 图 15. 推测的线粒体 A4 单倍群分支早期迁徙路线 JIANGSU28 都属于 A4a[6,9]。显示日本中部 示意图 Fig.15 Conjectural early migration routes of 地区的 A4 个体很可能都源自华东地区。 mitochondrial haplogroup A4. A4-16256: 包括西藏藏族 Tibet4664 和湘 西苗族 MHN66。显示西藏的 A4 来自自华中 地区[23,24]。 A4-16216,16294 : 此 分 支 包 括 江 苏 人 JIANGSU43、贵州东北部土家族 T15、新疆 塔吉克族 Tjk19 和 Tjk18,及布里亚特人 br393[9,20,27]。不难看出这是一次自华中地 区开始的大规模人口扩张的印迹。这些样本 的 来 源 地 距 离 极 其 遥 远 , 暗 示 A4-16216, 16294 早在这次扩散事件之前就已产生。 2.11. A4 的迁徙路线 图 15 和图 16 是笔者依据分析结果绘制 图 16. 推测的线粒体 A4 单倍群分支晚期迁徙路线 示意图 的 A4 迁徙图。图 15 示意了 A4 早期迁徙分 Fig.16 Conjectural late migration routes of mitochondrial 化的情况。 祖型与 A*祖型只差一步高变 1 A4 haplogroup A4. 区 16362 位点突变, 而且 A4 原始型主要分布 图 16 显示了 A4 晚期自华中地区开始的 在东南沿海,这说明 A4 可能在 A*首次扩散 大规模扩张。从重建的路线图看主要是向北 时已经产生出来, 其起源地点很可能和 A*一 方迁徙。这次人口扩张可以说是遍地开花, 样是在广西东北部地区。总体来看,A4 早期 产生了多个分化中心,并波及到北亚、东北 25
  • 14. REPORT COM. on C. A. 3:e3, 2009 亚以及泰国和印度东北部地区。 N9a-r16261[3,4,29]。 综上所述,A4 的早期扩散和 A*、A5 扩 3.2. N9a 主要分支的地理分布 散的路线大体相似, 都集中在东南沿海一带, N9a-16129(不含 N9a1): N9a-16129 是 所以早期伴随迁徙的可能性很大,而 A4*的 主要在大陆上扩散的 N9a 下游分支。最高发 大规模扩散无疑是更为晚近的事件。 的族群是台湾南部的排湾人和新疆喀什的哈 萨克人,发生频率都是 4.8%。其次是广西西 3.线粒体 N9 系单倍群 北部的布努瑶 4.0%,新疆喀什的塔吉克人 N9 系单倍群主要包括 3 个下游分支, 3.3%,和云南宁蒗普米族 2.8%。N9a-16129 N9a、Y 和 N9b。在最新的系统发生树中,这 也存在于华中、华东、内蒙古等地区的部分 3 个下游分支仅共享 5417 转换突变,表明下 族群中,发生频率从 1.5-2.4%不等(图 19)。 游单倍群在 N9 形成初期就分化出去。 在分布 N9a-16129 低频出现于韩国人和日本人中, 特点上,N9 系的两大单倍群 N9a 和 Y 不仅 频率分别为 0.7%和 0.3%, 但在东南亚地区没 在大陆上广泛分布而且在东南亚地区也很常 有发现。 见,这与主要分布在大陆上的 A 系单倍群明 N9a1: N9a1 是 N9a-16129 的下游分支, 显不同。 系中最小的分支 N9b 最早是在日 N9 主要分布在华中和内蒙古东部地区。最高发 本人中发现的,不过笔者的研究表明 N9b 早 的族群是湖南西北部永顺土家族 6.7%和广东 期分化地点和最高发区域不是在日本,而是 连 南 八 排 瑶 5.7% , 其 次 是 浙 江 杭 州 汉 族 在远东滨海地区。 4.9%、内蒙赤峰汉族 4.4%、湖南江华过山瑶 4.2%、新巴尔虎旗蒙古族 4.2%、湖南长沙汉 3.1. N9a 单倍群中接网络分析 族 4.1%(图 19)。 N9a1 在广西、 广东沿海和华 东部分族群中,以及新疆伊犁乌兹别克人和 南西伯利亚图瓦人中也有发现,发生频率为 1.0%-3.4%。N9a1 也低频出现在日本人和韩 国人中,韩国人的发生频率为 0.9%,日本南 部鸟取县人为 1.1%,日本中部人为 0.3%。 N9a-16172 及其主要分支: 从孔庆鹏等 2006 年论文中可以看到 N9a-16172 分成 3 个 分支, N9a2、N9a4 和 N9a5[8]。N9a4 和 N9a5 有明确的高变 1 区突变特征,因此能很清楚 地把它们划分出来。 但是 N9a2 原始型没有出 图 17. 线粒体 N9a 单倍群高变 1 区中接网络 现可识别的高变 1 区特征,笔者将其归为 Fig.17 A Median-joining network of mitochondrial N9a-16172。 haplogroup N9a based on HVS-1 motif N9a-16172(不含 N9a4、N9a5): N9a- 图 17 显示 N9a 有着比 A 系单倍群更多 16172 在东亚的分布呈现极其离散的状态, 的主要分支和次级分支,显示了非常不同的 主要在广西和云南交界地区,海南、安徽、 群体分化历程。其中 N9a-16129 主要在大陆 陕西和新疆伊犁(乌兹别克人)。N9a-16172 的 上分布, 可与 A4 类比,不过从图上看它几乎 未定义类型主要分布在中国境内,也以很低 没有形成完整的星状结构。值得注意的是 的频率出现日本和韩国。广西西北部的田林 N9a-16129 的下游分支 N9a1 可能发生过规模 壮族和瑶族中的分布频率大体在 3.1%-4.0% 不大的人口扩张。N9a-16172 主要分布在中 之间,海南临高人和疍家人中频率分别为 国东南部沿海、日本、韩国等地,可与 A5 3.2% 和 2.5% , 其 他 族 群 中 的 发 生 频 率 从 类比。另外 N9a 的下游分支也出现东南亚地 1.2%-2.4%不等(图 19)。在日本和韩国人中的 区,包括主要分布在马来西亚和印度尼西亚 发生频率分别为 0.5%和 0.7%。 的 N9a6 , 以 及 在 台 湾 原 住 民 中 发 现 的 N9a2 的分支 N9a2a、N9a2b 和 N9a2c 仅 26
  • 15. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 出现在日本和韩国:这三种亚单倍群在日本 日本南部宫崎县人的发生频率是 1.0%,日本 都有发现, 在日本南部(鸟取、 宫崎)的总频率 中部人的频率是 0.3%, 韩国人为 0.4%, 此外 为 1.0%-1.1%;在韩国的分布主要是 N9a2b, 在 内 蒙 赤 峰 汉 族 中 也 发 现 1 例 也发现 1 例 N9a2c 样本 K527,总频率为 NEIMENG45[9]。 在全部的 N9a5 样本中只有 2.6%[19]。 1 例韩国样本 K250 有附加的 16046 转换突变 N9a4:分布区域相当分散,高变 1 区谱 [19],显示 N9a5 的在东北亚地区的小范围扩 序是 16145-16172-16245-16257A-16261。最 散是比较晚近的事件。 高发的族群是日本中南部静冈县人 N9a6(含 N9a6a): N9a6 是参照 Hill 等 16.7%[30],其他族群中的频率都不高。在广 2006 年论文中的命名[4]。 从高变 1 区特征看, 西东北部富川县的瑶族和平话人的发生频率 它是 N9a 祖型再经一步 16292 转换突变所产 分别为 4.2%、3.4%,在粤东澄海人和粤西湛 生的亚单倍群。主要分布在东南亚地区,在 江人中的频率为 3.6%、3.3%(图 19)。另外 中国广西、云南、福建也可以找到它的踪迹。 N9a4 也低频出现在江苏南京、山东青岛、青 N9a6 最高发的族群是印尼苏门答腊巴东人 海藏族、韩国和日本中、西部地区,发生频 12.5%和广西金秀县壮族 11.1%,其次是印尼 率在 0.4%-2.0%之间。 邦加岛人 8.8%、云南西双版纳 3.8%(图 19)。 根据高变 1 区特征,N9a4 又可细分为两 此外在越南南部(以美国加州越南移民数据 个分支:一支是原始型,仅存在于广东沿海 代替)、印尼苏拉威西、泰国清迈和曼谷各发 地区和日本;另一支带有 16092 位点突变的 现 1 例。 支系分布较广,在江苏、山东、广西、青海、 N9a6 的原始型在云南西双版纳的瑶族 韩国的 N9a4 样本都属于这种类型, 在日本仅 和基诺族中共发现 3 例,越南南部人、印尼 见 1 例 PD053。对比发现 PD053 仅与韩国样 苏拉威西人各发现 1 例,而印尼苏门答腊的 本 K025 共享同一单倍型[6,19]。 这暗示 N9a4 N9a6 个体全都属于带有 16189 位点转换的同 在历史上曾经发生两次扩张,而日本的 N9a4 一单倍型, 其他族群的 N9a6 样本都属于无法 样本主要来自第一次的扩散(图 18)。 细分的变异类型。 N9a6 还有一个高变 1 区特征谱序为 16257A-16261-16292-16294 的 次 级 分 支 N9a6a 。 主 要 分 布 于 马 来 半 岛 , 在 塞 芒 人 (Semang)、塞诺伊人(Senoi)和土著马来人中 的发生频率分别为 8.0%、5.8%和 5.2%,此 图 18. 以高变 1 区数据绘制的线粒体 N9a4 亚单倍群 外在福建南安,以及印尼的爪哇、苏拉威西、 分化树状图 分色示意为: 橙色—广东, 蓝色—广西, 加里曼丹各发现 1 例 N9a6a 样本。N9a6a 的 浅紫色—华东地区,浅蓝色—青海,绿色—日本, 黄色—韩国。 原始型绝大部分集中在马来半岛上。笔者注 Fig.18 Tree of the mitochondrial haplogroup N9a4 意到福建南安样本 STF13 还有额外的 16092、 individuals. Keys for the colors:orange for Guangdong, 16136 和 16192 位点变异,是所有 N9a6a 样 blue for Guangxi, purple for East China, cyan for Qinghai, green for Japan, and yellow for Korea. 本中变异位点最多的,而且从高变 1 区特征 看与其他样本没有关联[10]。所以,N9a6a 的 从图中还可以看到一个有趣的现象,即 分化存在两种可能性:一种是 N9a6a 最早产 距起源地最近的广西富川 N9a4 个体反而处 生于中国西南地区, 而后和 N9a6 一起向东南 在分化末端。最有可能的解释是:N9a4 早期 亚迁徙,而福建 STF13 属于早期境内分化的 类型在第一次扩散时就已分离出去,而起源 一支;另一种是 N9a6a 起源于东南亚地区, 地产生后来又出新的变异型,并发生了二次 而后扩散到福建一带。从 STF13 高变 1 区特 扩散。 征与东南亚 N9a6a 样本特征差异较大来分 N9a5:主要分布在日本和韩国,高变 1 析,笔者认为第一种可能性最大。 区谱序为 16172-16189-16209-16257A-16261, 27
  • 16. REPORT COM. on C. A. 3:e3, 2009 图 19. 线粒体 N9a 单倍群发生频率地理分布图 Fig.19 Distributions of the mitochondrial haplogroups N9a. 28
  • 17. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 除了上述已定义的分支外,还有 2 个样 在湘鄂渝交界以及湘粤交界地区有两处空 本 总 数 在 10 例 以 上 的 N9a 未 定 义 分 支 白,从位置看似乎是更晚期 A4 和 N9a1 的扩 N9a-r16261 和 N9a-16311,16390。 张的结果。 N9a-r16261: 主要发现于台湾原住民 中,并且只有一种单倍型。其特征是 16261 位点发生 T→C 回复突变,在高变 1 区只剩 一个可识别特征突变 16257A。 此分支在现居 台湾东部沿海地区的阿美族中最高发,发生 频率 7.1%。在东南部台东县的卑南族和中北 部的泰雅族,发生频率分别为 1.9%、1.8%。 值得一提的是,笔者发现梧州瑶 YWU02 和 湖南 Le874 样本也带有 16261 回复突变 [23,31]。这说明台湾的 N9a-r16261 分支并非 孤立存在,起源地点很可能就在湘粤桂交界 地区。 N9a-16311,16390:此分支主要分布在广 西与贵州交界地区,最高发的群体是广西环 图 20. 线粒体 N9a 单倍群原始型扩散层次分析图 蓝色代表 N9a 原始型,红色代表 N9a 未定义类型。 江县毛南族 12.5%,其次是广西融水县五色 Fig.20 Diffusion of the mitochondrial haplogroup N9a. 人 6.1%。此外,在贵州天柱县和广西三江县 Blue stands for the ancestral type, and red for the unclassified type. 侗族、广西富川县和罗城县平话人,及广西 贺州壮族群体中也有发现, 频率在 1.3%-3.6% 笔者发现在空间分布上 N9a 的原始型和 之间。 未定义类型存在某种联系,当把两者的分布 图叠加起来后(图 20),可以看到 N9a 的早期 3.3. N9a 的原始型和未定义类型的地理分布 扩张痕迹被华中地区所发生的晚期扩张挤向 N9a 原始型: N9a 的原始型的分布区域 周边。这解释了 N9a 早期类型离散分布以及 极其分散。最高发的地点是在越南北部,在 很少出现在华中地区的原因。N9a 未定义类 10 个样本中就有 1 例,发生频率 10.0%;在 型主要由细小分支构成,显示 N9a 的起源历 临近越南的云南和广西也有分布,包括西双 史相当古老。以下简要介绍这些小分支的情 版纳基诺族 5.6%和傣族 1.8%, 广西南部防城 况。 港高栏人 3.3%及西北部隆林俫人 3.3%; 在中 N9a*(16311):虽然 16311 位点是个高突 国东南和东部沿海地区呈带状分布,包括广 变位点,无法确定是否有并行突变的情况, 东南澳人、福建南安人、上海人、山东青岛 不过它的分布比较集中,所以笔者还是把它 人、 辽宁凤城人, 发生频率 1.8%-4.2%(图 19)。 视为单独的分支来分析。最高发的人群是靠 在青海西宁和四川维城汉族、湘西苗族中也 近中越边境的广西崇左壮族和那坡夜郎人, 有发现,频率分别为 2.3%、1.4%和 1.0%。 发生频率分别为 16.7%和 6.7%。其次是福建 另外 N9a 原始型在泰国清迈人和韩国人低频 莆田人 2.8%, 云南文山苗族 2.6%, 越南中部 出现,频率为 0.4%和 0.1%。 顺化京族 2.3%(图 19)。此外在广西金秀拉珈 N9a 未定义类型: 在去除 N9a-16129、 人、福建长汀客家人、湘西土家族、湖南长 N9a-16172、 N9a6、N9a-r16261 和 N9a-16311, 沙人、山东泰安人以及中都有发现,频率为 16390 等主要分支之后,笔者将余下的 N9a 1.1-1.9%;也低频出现于泰国北部清迈人中, 样本归为未定义类型。 从图 19 可以看到未定 为 0.4%。总体看来,N9a*(16311)与 N9a 原 义类型的分布主要集中在越南和广西交界地 始型在分布特点上比较接近,显示了 N9a 早 区、越南南部和华中地区,在华北地区和南 期分化扩散的信息。即从广西和越南交界地 西伯利亚也有少量分布。此外,还可以看到 区开始,沿南北两条主要的路线迁徙:一条 29
  • 18. REPORT COM. on C. A. 3:e3, 2009 是走东北路线进入东亚腹地和东南沿海地 显示出明确的扩散中心。为此笔者再次尝试 区;另一条路线是沿越南走廊向南迁移。 扩散效应分析(图 21 和图 22)。 N9a*(16189):在湖南西南部过山瑶、广 东怀集普标人、 广西田林汉族中各发现 1 例, 发生频率 2.9%-4.2%。在泰国北部清迈人中 低频存在,频率 0.4%。从分布地域看可能也 和 N9a*(16311)一样属于早期起源分支。 此外 在南西伯利亚阿尔泰人中也有发现,频率为 1.8%, 但不清楚与南方的 N9a*(16189)是否同 源。 N9a-16184:这是个很小的分支。在广西 富川、贺州、武宣的平话人中各发现 1 例; 在富川的瑶族群体发现 3 例;在福建长汀客 图 21. 线粒体 N9a-16129 单倍群扩散效应分析图。 家人中发现 1 例。这个结果显示了瑶族、平 蓝色显示发生频率的分布,红色显示群体内部变异 频率的分布。 话人和客家人在母系遗传方面的密切联系。 Fig.21 Diffusion of the mitochondrial haplogroup 值得注意的是 N9a-16184 的原始型出现在广 N9a-16129. Blue stands for the haplogroup frequency, and red for the mutation rate within the population. 西东北部富川、贺州地区的个体中,表明这 一带就是 N9a-16184 的起源和分化地点。 N9a-16248,16311:这个分支存在于南西 伯 利 亚 托 发 拉 尔 人 (6.9%) 和 阿 尔 泰 人 中 (2.7%),从上述样本看只有一种单倍型。 N9a-16291:这是个仅见于日韩的小分 支。在韩国人中发现 3 例,发生频率 0.4%; 在日本人中发现 1 例,频率 0.2%。 N9a-16176:属于 2 个北部湾地区的个 体,越南北部人 Viet206 和海南杞黎 HL42, 其中越南样本属于 N9a-16176 原始型。可能 反映了海南原住民中的 N9a-16176 成分自越 图 22. 线粒体 N9a1 单倍群扩散效应分析图 颜色 南北部起源的历史[11]。 示意与图 21 同。 N9a-16111:由呼和浩特蒙古族 HHT34 Fig.22 Diffusion of the mitochondrial haplogroup N9a1. Keys for the colors are the same as in Fig.21. 和日本中部人 PD0118 组成,表明两者的共 祖关系。不过两例样本都不是原始型,所以 N9a-16129: N9a-16129 原始型发生频 从 无法确定迁徙路线[6,32]。 率和群体内部变异频率分布叠加图上可以看 N9a-16051 : 仅 有 两 个 样 本 , 辽 宁 人 到,N9a-16129 的扩散中心应该在湖北东部, LIAONING13 和河北人 Le1014[9,31]。 此外在云南东北部似乎还发生过一次小规模 N9a-16166C,16173,r16261,16324 : 包 括 的迁徙。 贵州仡佬族 G06 和湖北武汉人 WH6972,两 N9a1:虽然从分布图上看 N9a1 最高发地点 个样本都不是原始型,似乎是在华中和西南 在湖南南部,但是扩散效应分析却显示 N9a1 地区发展的小分支[22,27]。另外,此分支存 的扩散中心更有可能在湖北东部。N9a1 叠加 在 16261 位点回复突变,所以不能排除是 图还显示出三个次级扩散中心,分别是云南 N9a-r16261 次级分支的可能性。 西双版纳、内蒙东部至辽宁南部及青海东北 部地区。 3.4. N9a-16129 和 N9a1 扩散效应分析 N9a-16129 和 N9a1 的频率分布图未能 3.5. N9a 的迁徙路线 30
  • 19. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 重建的路线图显示,N9a*自越南北部起 24。此外,N9a6 主要分布于东南亚地区, 源后,除少数支系向东南亚迁徙外,其主体 N9a-r16261 集中在台湾,两者的样本在中国 向北进入中国境内,见图 23。一部分向东迁 南方也有发现,因而迁徙过程比较清楚。 至粤东、闽南沿海一带,另一部分进入华中 地区,在湖北东部地区再次发生扩散。扩散 3.6. Y 单倍群中接网络分析 区域主要包括华北、华东地区,也波及到日 本和韩国。 图 25. 线粒体 Y 单倍群高变 1 区中接网络 Fig.25 A Median-joining network of mitochondrial haplogroup Y based on HVS-1 motif 图 25 展现了线粒体 Y 单倍群的中接网 络。由于 Y 下游分支的高变 1 区特征位点较 少, 因此保留了突变率较高的 16189 和 16311 位点以便区别 Y1a1 和 Y2。另外为了区分其 图 23. 推测的线粒体 N9a 单倍群部分分支迁徙路线 示意图 Fig.23 Conjectural migration routes of several 他一些分支,笔者还在中接网络中加入了 branches of mitochondrial haplogroup N9a. 16384 和 16399 等位点的数据。 值得一提的是, 笔者在 Y 的序列数据中 找到了不少发生回复突变的特征位点,包括 16126、16223、16231、16319 等。由于 Y 的 样本数比 A 和 N9a 的样本数少得多,这些回 复突变的存在给中接网络的构建增加了很大 的难度。以上中接网络是笔者根据系统树多 次调整所得到的最为准确的图形。 可以看到 Y 中接网络的“空心化”特征 十分明显。经过一系列分析笔者最终确定在 样本中很可能不存在真正的 Y*根部类型。 起 图 24. 推测的线粒体 N9a-16129 和 N9a-16172 单倍 群分支迁徙路线示意图 初,笔者在有关序列中发现有 2 个湖南长沙 Fig.24 Conjectural migration routes of mitochondrial 样本 C208、C209 共享相同的高变 1 区突变 haplogroup N9a-16129 and N9a-16172. 特征 16126-16223-16231,很象是 Y 的原始 型。但是在后来的数据比对中,发现湖南个 N9a 的主要分支 N9a-16129、N9a-16172、 体 C208 和天津个体 Le310 具有相同的高变 1 N9a6、N9a-r16261 等应该都是在北部湾一带 区特征 16126-16223-16231-16384[30,31]。鉴 分化出来的。 他们沿着大体相似的路线迁徙, 于 Le310 在原文中被细分为 Y1b,而又缺少 同样在湖北东部一带发生分化,向东迁入日 Y1 的 16266 突变特征, 可以确定 Le310 是带 本和韩国,向西直达新疆伊犁和喀什,见图 有 16266 回复的 Y1 下游分支 Y1-r16266。这 31
  • 20. REPORT COM. on C. A. 3:e3, 2009 图 26. 根据东亚和北亚人全序列绘制的 Y 单倍群系统发生树。未列出非特征的插入和删除变异。 Fig.26 Phylogenesis of the haplogroup Y according to the whole mitochondrial genome of East Asians and North Asians. Non-specific insertions and deletions were not displayed. 样看来, 具有相同特征的湖南 C208 还有其他 化细节和迁移路线提供了重要线索[8]。 2 个 湖 南 样 本 (C208 、 C209) 应 该 也 是 Y1: 在系统树中可以看到,Y1 形成了 Y1-r16266[30]。在下文的分析中,笔者大体 3 个主要分支 Y1a、Y1b 和 Y1-16399。Y1a 确定了 Y 的起源年代十分古老, 而且起源地 的下游分支就是中接网络中标出的 Y1a1,沿 应该在北部湾一带而不是湖南。 用了 Derenko 等 2007 年论文中的定义[20]。 Y 的中接网络结构很简单,表明 Y 在扩张规 Y1b 的特征位点包括 10097、15221、15460, 模上比 A 和 N9a 小得多。 不过 Y 在亚洲的扩 参考了 Tanaka 等 2004 年论文和孔庆鹏等 张范围却是最大的,向北到达北极地区,向 2006 年论文中的定义。Y1b 没有高变 1 区特 南则深入东南亚岛屿。从上述特点分析,Y 征突变,已知的全序列样本包括新疆汉族 应该比 A、N9a 有着更为久远的分化历史。Y XJ8426 和日本人 KA097, 新疆汉族样本处于 只产生了两个主要的分支 Y1 和 Y2, 由于 Y1 Y1b 根部位置,而日本 KA097 多出 3 个额外 在大陆上扩张而 Y2 主要在东南亚地区发展, 突变,显示日本的 Y1b 可能源自中国大陆 所以在数量和突变距离上 Y1 分支都大大超 [6,8]。此外,笔者在 Ji 等 2007 年论文中又发 过 Y2 分支。从高变 1 区特征还可以分辨出 现 3 个中国大陆个体属于 Y1b,包括四川人 Y1 的两个次级分支 Y1a1 和 Y1-16399。 Y1a1 Le1261、广东人 Le1361 和天津人 Le310[31]。 主要分布在远东地区,其末端分支 Y1-16399 分支在中接网络中也可以看到,不 Y1a1-16292 主要分布在尼夫赫人和日本阿伊 过全序列样本只有 1 个汗尼干人 Kam6, 所以 努人中。 无法确定此分支编码区的特征位点[20]。 Y2:重庆綦江人 QJ183 处于根部位置, 3.7. Y 单倍群全序列分析 而青海汉族 QH9510、 汗尼干人 Kam2 和日本 因 Y 单倍群的高变 1 区特征较少,笔者 人 HN249 都是独立分化的个体。 只有日本人 尝试以的全序列数据构建系统发生树,见图 ND088 和布里亚特人 Br621 是共享 338 转换 26。完成后的 Y 系统树展现了更多的分支细 的同一分支[6,8,20]。笔者还找到了带有 338 节,笔者幸运地从全序列中找到了 Y1 和 Y2 位点突变的 2 个韩国样本 K335、K525,表明 的根部类型样本,内蒙达斡尔族 DW35 和重 这个 Y2 支系应该是在东北亚地区形成的[19]。 庆綦江县人 QJ183,这为确定 Y 单倍群的分 因没有高变 1 区特征出现,笔者把它暂命名 32
  • 21. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 为 Y2a。遗憾的是,笔者没有在已发表文献 仡佬族 G14 则共享 16176 突变[19,23,27,31]。 中找到东南亚地区的 Y2 全序列,所以无法确 定东南亚 Y2 的分类地位。 3.9. Y1 的原始型和未定义类型 Y1 原始型: 图 27 显示,Y1 原始型在 3.8. Y 分支的地理分布 东亚内陆的分布比较分散,但在中国南方呈 Y1 研究结果显示, 主要分布在东亚、 东 现连续分布的状态。最高发的是广西东北部 北亚和远东滨海地区。 则主要分布在东南Y2 三江侗族和湖南长沙人,频率分别为 2.8%和 亚族群和台湾原住民中,只以很低的频率出 2.4%。在甘肃汉族、新疆汉族、新疆乌兹别 现在东亚、北亚和东北亚部分群体中。由于 克族、内蒙东北部达斡尔族、南西伯利亚布 大量样本仅见高变 1 区数据,所以有一部分 里亚特人、广西罗城平话人、福建长汀客家 缺乏高变 1 区特征的 Y1b 样本无法完全细分 人中也有发现,发生频率在 1.1%-2.2%之间。 出来。 Y1 此外, 原始型在日本人和韩国人中低频存 Y1a(含 Y1a1):在上文的全序列分析中, 在,频率分别为 0.2%、0.4%。根据上述分布 笔者确定了 Ingman 等 2007 年论文数据中的 特点来分析, 笔者推断 Y1 最早的分化地点很 蒙古人 Mg221 属于 Y1a 的原始型[16]。除此 可能在广西境内。 之外,Y1a 主要分布在俄罗斯远东滨海地区 Y1 未定义类型:与 Y1 原始型的分布不 的族群中,在北西伯利亚泰梅尔半岛的恩加 同,Y1 未定义类型的高发区域比较连续。其 纳桑人(Nganasan)中也有分布。 笔者发现绝大 中有一条从湖南至闽粤沿海的高发带, Y1 在 多数 Y1a 样本都属于 Y1a1。 另有 4 个样本属 原始型的分布图上也可以看到,应该是早期 于带有 16304 突变的小分支 Y1a-16304,其 迁徙留下的痕迹。在广东潮州人中最高发, 中远东地区乌德盖人和乌尔奇人各 2 例,频 发生频率为 7.7%,其次是俄远东的乌德盖人 率为 4.3%和 2.3%。 (Udegey)4.3%,广东汕头澄海人 3.7%,和西 Y1a1 在 尼夫 赫 人 (Nivkh) 与 乌 尔 奇 人 双版纳哈尼族 3.0%(图 27)。 未定义类型在 Y1 (Ulchi)最高发,发生频率分别为 39.3%、 俄远东的乌尔奇人中的频率为 2.3%;在华北 29.9%;其次是恩加纳桑人 21.2%,阿伊努人 的内蒙赤峰、辽宁凤城、山东泰安和青岛、 19.6%和科里雅克人(Koryak)13.6%。在伊捷 陕西西安的汉族群体中也有发现,频率 尔缅人中的频率为 4.3%。从图 27 看,Y1a 1.9%-2.6%; 在西南地区的云南会泽和四川维 分化和扩散地点是在俄罗斯境内阿穆尔河 城汉族群体中的频率为 1.7%、1.4%;在广西 (黑龙江)下游一带。另外,Y1a1 中还可以划 壮族中的频率为 1.2%。 分出一个末端分支 Y1a1-16292,多见于阿伊 笔者发现在未定义类型还存在不少可 努人和尼夫赫人, 频率分别为 16.1%、 13.7%, 识别的细小分支, 有助于判断 Y1 的分化过程 在乌尔奇人和科里雅克人中也有少量发现。 和迁徙路线。 不难看出阿伊努人的 Y1a1 成分中的应来自 Y1-16325:广西壮族 ZH32 和广东澄海 远东族群的混杂。 人 STB2 样本共享 16325 转换,而且 STB2 Y1-16399: Y1-16399 的地理分布呈现 比 ZH32 多一个 16051 突变,所以广东 STB2 离散的状态。最高发的族群是南西伯利亚的 很可能源自广西[10,33]。 索约特人 3.3%和贵州东北部道真县仡佬族 Y1-16218:陕西西安 SHANNXI29 和山 3.2%。Y1-16399 也低频出现在山东泰安人、 东泰安 SD10347 样本是共享 16218 位点突变 湘西苗族、布里亚特人、汗尼干人、日本南 的同一单倍型,表明属同一分支[9,34]。 部宫崎人和韩国人中,发生频率为 Y1-16172 : 有 2 个 四 川 个 体 (Le 1261 、 0.9%-1.3%(图 27)。另外在北京和广东也各见 SICHUAN43)共享 16172 转换突变。不过其 1 例(Le1200、Le1328)[31]。笔者还发现韩国 中的 Le1261 似乎并不带有 Y1 的 16266 突变 人 K401 和湘西苗族 MHN71 样本都带有相同 特征。由于在原文中 Le1261 被划分为 Y1b, 的 16220C 颠换突变,而广东 Le1200 和贵州 所以可以确定 Le1261 是发生 16266 回复突变 33
  • 22. REPORT COM. on C. A. 3:e3, 2009 的 Y1 样本[9,31]。 很可能源自华北地区[22,35]。 Y1-r16266,16384 : 笔 者 发 现 湖 南 长 沙 Y2:无论从变异特征还是从地理分布方 C208 和天津 Le310 样本共享 16384 转换。 并 面分析,Y2 单倍群都有着不可思议的特性。 且两者都缺少 Y1 的 16266 突变特征。 考虑到 比较一下 Y1 和 Y2 的特征位点可以发现: 在 Le310 在原文中被分型为 Y1b,而且 16384 编码区特征上,排除掉 5417 回复突变后,所 位点突变率很低,可以断定他们都是带有 有 Y2 样本还共享 5 个位点突变构成的谱序 16266 回复突变的 Y1 下游分支[30,31]。 (482-6941-7859-14914-15244);而 Y1 样本主 Y1-16193:山东青岛 QD8151 和 1 个图瓦个 要分为 Y1a 和 Y1b 分支,两者只共享 3834 体共享 16193 转换突变。表明图瓦人的 Y1 位点突变。在高变 1 区特征上,在全部 Y2 图 27. 线粒体 Y 单倍群发生频率地理分布图 Fig.27 Distributions of the mitochondrial haplogroups Y. 34