复杂病的基因研究——策略及存在问题

www.cnkang.com 2007-1-15 9:41:00 中华康网

项坤三中华内分泌代谢杂志 2000年第1期第16卷述评

　　人类疾病的病因可归入遗传因素及环境因素两大类。在疾病发病的遗传因素中，单基因缺陷占主导地位且在家系成员中疾病传递符合孟德尔规律的为单基因病(monogenic disease)。由多个基因参与且在家系中不符合孟德尔规律的为多基因病(polygenic disease)。因后者的发病因素不单是多个基因，尚有环境因素参与，故又称为多因子病(multifactorial disease)。考虑到多因子病中多个基因及环境因素复杂的参与情况及相互作用，目前常称之为复杂病(complex disease)。各种复杂病在群体中的患病率常超过1%。许多人类常见病，以内分泌代谢病为例，如1型及2型糖尿病、血脂紊乱、肥胖、骨质疏松、自身免疫性甲状腺病均属复杂病范畴。复杂病是当前危害人类健康，致丧致残的最主要的原因。因此，长期以来复杂病一直是医学关注的问题。

　　复杂病的病因是医学研究中的难题。基因组(genome)(配子的DNA，含机体整套基因，包括从生到死进行生物学活动的基本信息，不但指导繁衍后代而且指导适应环境以延续生命)上数个基因的易感等位基因(allele)的组合构成复杂病的疾病易感性(susceptibility)。群体中具有复杂病遗传易感性的高危者的发病率即疾病外显性(penetrance)取决于生后环境因素影响的性质及程度。换言之，群体中存在复杂病遗传易感性但不发病或尚未发病的亚群。尚且，复杂病的遗传易感性不一定是对疾病表型本身(以糖尿病为例，则为血糖水平)的直接影响，而可仅是对疾病的中间性状(intermediate trait)(如胰岛素分泌及胰岛素水平)影响的间接后果。故解析复杂病的病因并非易事。

　　当前复杂病病因学研究多以基因组上随机DNA或基因的多态标记进行疾病与标记间的非亲源关系群体关联(population-based association)分析及家系连锁(family-based linkage)分析。人类世代传递时，生殖细胞减数分裂(meiosis)中父方与母方的同源染色体可发生交换/重组(cross-over/recombination)。染色体上标记位点与疾病位点间发生重组的机率取决于两位点间的距离。距离越近则在世代传递中重组机率越小，亦即染色体上两个紧密毗邻的位点一起传递给某个子代的机率高于两远隔的位点，此即连锁不平衡(linkage disequilibrium)。关联及连锁分析均依据此原理来发现与疾病呈连锁不平衡的多态标记，由此确认复杂病易感基因在染色体上的位置。

　　应用分子生物学手段进行复杂病群体关联分析已近20年，卓有成效但也困难重重。以糖尿病为例，应用群体关联分析不但毫无疑议地确认了HLA基因复合体是参与1型糖尿病的主效基因，且对其参与机制进行了较深入解析；相反，关联分析在2型糖尿病研究中收效较少。就应用候选基因的多态标记进行2型糖尿病群体关联分析而言，研究过的基因已不下二百个。无论国外或国内，各家研究结果很少有完全一致者。究其原因有三方面：(1)假阳性或假阴性：由样本的疾病、临床表现及/或种群确认不当以及样本数量不当所致。疾病或中间状态的确认有时并非易事。许多内分泌代谢常见病的诊断均是从临床角度出发即考虑对健康的危害性。据此在定量性状，如血糖、血脂、体重指数，胰岛素抵抗、骨密度水平等的群体连续分布曲线上划定疾病诊断分割点。此分割点反映的仅是当前人们对疾病的认识程度，随着其深化会不断修正。以此用于研究复杂病的基因缺陷则远非完善分组标准。其次，明显的种族分层(stratification)，即样本中存在亚群(subdivision，含有不同种群)或存在混合(admixture，种群间通婚)，是造成假阳性的主要原因。中国人即使在汉族中，亦已见到不同地区汉族人的DNA多态标记频率可有明显差异。但国内关联研究中，疾病组及对照组样本分别采自两个远隔地区的研究仍有报道。此外，国内目前的关联研究报道中，样本数一般偏小，影响显著性水平。(2)人工伪差：DNA多态标记检测技术并不复杂，但有时由于标记局部序列本身结构或引物设计、实验条件不当亦可能发生基因型判读错误。样本数据分析中很重要的是样本的群体代表性，其最低程度是不偏离Hardy-Weinberg平衡，国内忽视此项检验的研究报道亦时有所见。此外，进行多重比较时如对呈多等位基因的HLA复合体位点进行单个等位基因或单倍体型频率比较时，其结果一般应以等位基因数校正，国内研究有时亦见忽略。(3)真阳性随机事件：前已述及，非患者群体中存在复杂病易感亚群，因此从群体中随机抽出的各个样本就可能存在关联强弱不一的可能性。根据上述情况，在目前条件下进行复杂病关联研究时，应仔细设计方案包括样本临床资料正确确认、采用大样本、核实检测技术及正确使用数据处理方法等以提高研究结果的可靠性就非常重要。

　　应用家系连锁分析进行内分泌代谢病研究亦已10多年。早年主要用依赖遗传方式模式的参数性分析(model-based parametric analysis)方法，此多用于符合孟德尔传递律的单基因病。90年代开始以不依赖模式的非参数性分析(model-free nonparametric analysis)方法用于复杂病研究。1994年报道了首个使用人类全基因组上数百个随机DNA标记扫查的1型糖尿病家系患病同胞对非参数性分析结果，列出了全基因组上1型糖尿病的DNA相关位点。嗣后，应用同类分析方法对2型糖尿病、肥胖、血脂紊乱及格雷夫斯病等内分泌代谢复杂病亦进行了全基因组扫查。5年余的经验表明，与群体关联分析一样，各家结果亦难以重复。此在1型及2型糖尿病研究中已屡有所见。推测的原因很多，其中之一是连锁结果的显著性水平。应用数百个多态标记在一个样本中进行多重分析，如仍以P=0.05为统计学显著性界限，假阳性即一类错误率必将明显增高。因此，此类研究中显著性水平应“上浮”(upward adjusted)。例如，Lander及Kruglyak早在1995年在“复杂病连锁分析结果的解释及报道指南”中就已指出显著性水平“上浮”的必要性，认为LOD值≥3.6，相当于P≤2×10-5是此类研究的显著性分割点。尽管确切的显著意义分割点仍在讨论，但各家学者对分割点应予“上浮”以避免过多假阳性结果并无异义。

　　关联分析检出相关位点的能力(power)优于连锁分析。但如前述，用无亲缘关系群体研究则受到种群分层的干扰。90年代逐渐建立了可避免后者影响的家系关联分析方法。其代表为Spielman所创立的传递-连锁不平衡检验(transmission-disequilibrium test, TDT)。TDT基于杂合子亲代的任何DNA多态位点的两个等位基因传递给子代的机率应是随机的，即各为0.50。如果子代患者从亲代传得多态位点的等位基因的频率显著偏离0.50，则该标记可能与疾病或其中间性状位点处于连锁不平衡状态或该标记等位基因之一即疾病或中间性状位点。TDT不受群体分层影响，检出力高于连锁分析，可用于定性性状亦可用于定量性状分析。但是TDT要求收集患者的双亲标本，此对晚发的复杂病是个难题。为此，近年设计了数种由同胞基因型以计算机估测双亲基因型的算法。

　　人类基因组计划(human genome project, HGP)于1990年开始实施，预定为15年完成。由于研究技术及策略上的发展及进步，目前可望提前两年在2003年完成，并于2000年完成90% dNA测序但尚不连贯的工作草图(working draft)。即HGP的主要目标是确定人类基因组30亿DNA碱基对的序列，并译解出散在于基因组上的8万-10万个基因座位，即基因谱。HGP实施以来很重要的技术及策略上的进步是：(1)认识到基因组上的单核苷酸多态(single nucleostide polymorphism, SNP)的重要性，并将制定SNP谱。基因组上的DNA序列多态变异可分为三类，即碱基插入或缺失多态、串列重复序列数多态及SNP。已知的多态标记中85%为SNP。估计基因组上平均1　　000　　bp即可发现一个SNP，即总共约有SNP30万个。大多数SNP位于基因编码区之外，位于编码区的SNP称之为cSNP。cSNP碱基置换的结果如改变了氨基酸密码就可能会影响基因产物的功能，由此参与疾病或中间性状的形成。目前认为，复杂病的易感基因变异组合可能就蕴藏在cSNP中。事实上，SNP并非新发现的事物，近20年来复杂病病因研究中采用的许多候选基因标记大多为SNP，部份尚是cSNP。(2)DNA蕊片(DNA chips)或称DNA微列阵(DNA microarray)技术：其原理是基于点杂交技术。可在一张邮票样大小的载体上点上成千上万个DNA序列形成列阵，可研究基因表达谱、检出突变、确定个体的多态标记基因型等。将SNP及蕊片技术的结合，进行高效率、高密度标记全基因组复杂病关联研究已为时不远。HGP及HGP后时期对医学的全面影响尚难确切估量，但认为其将大大促进对复杂病的认识及改变目前对复杂病的防治面貌则是不会过份的。