【佳学基因检测】基因突变对疾病发生的影响分析:GWAS分析的技术
基因检测的科学依据来源:GWAS
全基因组关联研究 (GWAS)是以佳学基因为代表的基因解码机构所采用的一个客观获取基因位点的不同等位基因对人体健康、疾病与用药指导的相关性的一种研究方法。佳学基因GWAS在一个分析中可以测试许多基因组中的数十万个遗传变异,以发现与特定性状、疾病或生理功能具有统计相关性的变异。这种方法已经发现了与一系列性状和疾病具有强相关性基因位点,揭示了它们之间的相关性。并且随着 GWAS 样本量的增加,相关变异的数量预计将稳步增长。GWAS 结果具有广泛的应用,例如深入了解表型的潜在生物学、估计其遗传力、计算遗传相关性、进行临床风险预测、为药物开发计划提供信息以及推断风险因素与健康结果之间的潜在因果关系。佳学基因检测向介绍了 GWAS,解释了它们的统计基础以及它们是如何进行的,描述了最先进的方法并讨论了局限性和挑战,并简单说明了 GWAS 当前和未来的应用 结果。
基因解码技术之一:GWAS基因检测与分析方法介绍
全基因组关联研究 (GWAS) 旨在通过测试祖先相似但表型不同的个体之间遗传变异等位基因频率的差异来确定基因型与表型的关联。 GWAS 可以考虑人类基因组中的拷贝数变异或序列变异,尽管 GWAS 中最常研究的遗传变异是单核苷酸多态性 (SNP)。 GWAS 通常会报告相关 SNP 的块,这些 SNP 都显示出与感兴趣的性状(称为基因组风险位点)具有统计学意义的关联。 经过 15 年的 GWAS,许多复制的基因组风险位点与疾病和性状相关,例如肥胖的 FTO2 和自身免疫性疾病的 PTPN22。 这些结果有时为疾病生物学提供了线索; 例如,GWAS 表明 IL-12/IL-23 通路与克罗恩病的发展有关,这支持了随后针对 IL-12/IL-23 通路的药物的临床试验。
GWAS 的结果可用于一系列应用。 例如,与性状相关的遗传变异可以用作流行病学研究中的控制变量,以解释混杂的遗传群体差异。 此外,结果可用于根据个人的基因特征预测个人患身
心疾病的风险。 事实上,最近的一项研究表明,使用全基因组多基因风险评分 (PRS) 对冠状动脉疾病、心房颤动、2 型糖尿病、炎症性肠病和乳腺癌进行基因组风险预测可以识别疾病风险以及基于单基因风险预测策略 关于罕见的、高度渗透的突变。 基因组风险预测可能很快被允许用于临床,作为分层工具和基于遗传的生物标志物。
在佳学基因的GWAS:基因解码与基因检测系列技术介绍中,佳学基因为生物信息技术爱好者提供 GWAS 的全面概述,涵盖实际考虑因素,例如实验设计、稳健的数据分析和数据沉积、伦理意义和结果的可重复性。 佳学基因还提供有关如何使用 GWAS 后策略和功能性后续实验解释 GWAS 结果的方法学,以及如何应对 GWAS 的技术局限性和未来的挑战。
佳学基因GWAS基因检测:实验设计
GWAS 的实验工作流程涉及几个步骤,包括从一组个体中收集 DNA 和表型信息(例如疾病状态和年龄和性别等人口统计信息); 使用可用的 GWAS 阵列或测序策略对每个个体进行基因分型; 质量控制; 使用单倍型定分析和参考群体估算未分类的变异; 进行关联统计检验; 进行荟萃分析(可选); 寻求独立重复; 并通过进行多个 GWAS 后分析来解释结果(图 1)。 每一步都会引入可能的偏差和错误,因此在设计 GWAS 时需要仔细规划,并建议遵守标准化的质量控制和分析流程。 佳学基因检测在下面详细介绍这些步骤。 佳学基因提醒大家,在进行 GWAS 时可能出现的大多数问题,例如仔细选择参与者或质量控制所需的步骤,都适用于包含常见变异的 GWAS 和包含罕见变异的研究,例如全外显子组测序 (WES) 研究和全基因组测序 (WGS) 研究。以下部分涉及常见等位基因的分析,除非明确说明(专栏 1)。
佳学基因解码基础概念诠释:常见突变和罕见突变
全基因组关联研究 (GWAS) 通常需要使用微阵列对特定和预选的基因位点进行靶向基因分型,而全外显子组测序 (WES) 和全基因组测序 (WGS) 研究旨在捕获所有遗传变异。 严格来说,WES 和 WGS 研究也是 GWAS,尽管在文献中“GWAS”主要指的是常见变异的全基因组研究,有时被认为与 WGS 和 WES 研究分开。 将变异声明为常见或罕见是特定于人群的,不能在人群中推广。 通常,常见变异是那些次要等位基因频率超过 10% 的变异,尽管随着人群数值的增长,该阈值可能低至 1%,因为研究人员通常坚持最低次要等位基因计数; 例如,至少有 100 个人携带至少一份次要等位基因。 随着 WGS 和 WES 研究刚刚开始成熟,当前的分析方案可能需要扩展,以涵盖分析罕见变异时出现的特定问题,例如,控制群体分层或估算缺失基因型时。
基因解码GWAS的实施流程
选择研究人群
GWAS 通常需要非常大的样本量来识别可重现的全基因组显着关联,并且可以使用 CaTS或 GPC等软件工具中的功效计算来确定所需的样本量。 当要研究的性状是二分法时,研究设计可以包括案例和对照。或者当性状是定量时,可以包括对整个研究样本的定量测量。 此外,人们可以在基于人口的设计和基于家庭的设计之间进行选择。 GWAS 的数据资源和研究设计的选择取决于所需的样本量、实验问题和现有数据的可用性或收集新数据的难易程度。 GWAS 可以使用来自生物库或以疾病为中心或基于人群的队列等资源的数据,或通过直接面向消费者的研究来进行。拼凑足够大的数据集以针对复杂性状运行强大的 GWAS 需要大量的时间和金钱投资,这超出了大多数单个实验室的能力。 然而,有一些优秀的公共资源可以提供对具有基因型和表型信息的大型队列的访问,并且大多数 GWAS 都是使用这些预先存在的资源进行的。 即使在内部收集了新数据,这些数据通常也会与现有资源的数据进行共同分析; 当需要更精细的表型分析时,通常需要收集新数据。
对于所有研究设计,必须仔细考虑患者的入组策略,因为这些策略可能会在结果数据中引起对撞偏差和其他形式的偏差。 例如,英国生物银行等广泛使用的研究队列通过基于志愿者的策略招募参与者,这导致参与者平均比一般人群更健康、更富有且受教育程度更高。 此外,根据疾病状况从医院(例如 BioBank Japan)招募参与者的队列与从普通人群招募的队列具有不同的选择偏差。 不同的种族可以包括在同一研究中,只要考虑人口亚结构以避免假阳性结果。 具有详细临床措施的个体队列可能无法满足所需的样本量; 在这些情况下,可以使用更容易测量并且有更多数据的“代理”表型(例如,教育程度可以用作智力的代理,或者抑郁症状可以用作临床抑郁症的诊断的代表) 。
基因分型
个体的基因分型通常使用常见变异的微阵列或下一代测序方法( 如 WES 或 WGS, WES和WGS也包括罕见变异)来完成。 由于当前下一代测序的成本,基于微阵列的基因分型是获得 GWAS 基因型的最常用方法。 然而,基因分型平台的选择取决于许多因素,并且往往因为 GWAS 的目的而不同; 例如,在联合体主导的 GWAS 中,在同一基因分型平台上对所有个体队列进行基因分型通常是明智的。 理想情况下,WGS——几乎可以确定全基因组的每个基因型——优于 WES 和微阵列,并且随着低成本 WGS 技术的日益普及,预计将成为未来几年的首选方法。
数据处理
GWAS 的输入文件包括匿名的个人 ID 号、个人之间的家庭关系编码、性别、表型信息、协变量、所有调用的基因位点的基因型以及基因分型批次的信息。 输入数据后,从 GWAS 生成可靠的结果需要仔细的质量控制。 一些示例步骤包括移除稀有或单态变异、移除不在 Hardy-Weinberg 平衡中的变异、过滤队列中部分个体缺失的 SNP、识别和移除基因分型错误,以及确保表型与遗传匹配良好 数据,通常通过比较自我报告的性别与基于 X 和 Y 染色体的性别。 PLINK 等软件工具专为分析遗传数据而设计,可用于执行许多此类质量控制步骤(用于质量控制分析和 GWAS 其他阶段的其他软件在表 1 中进行了总结)。 一旦对 GWAS 阵列数据进行了样本和基因位点基因分型质量控制,变体通常会进行定相,并使用已排序的单倍型参考面板(例如 1000 基因组计划或 TOPMed21,22)进行估算,这涉及尚未进行直接分析的基因型的统计推断 (专栏 2)。 GWAS 联盟通常遵循执行质量控制步骤和推算的分析流程,使用例如 RICOPILI 或类似软件,或将其数据上传到运算服务器(例如,密歇根运算服务器或 TOPMed 运算服务器),这些标准化分晰流程已在这些服务器上运行 实施的。 由于遗传数据集通常很大并且分析管道可以并行运行,因此经常使用可以将作业分配给许多计算机的计算机集群或云环境。 为了以遵循数据保护规则的后勤可行方式实现遗传研究中典型的大样本量,上述步骤通常针对不同样本量的许多不同队列分别完成(参见全基因组关联荟萃分析 (GWAMA) 部分) .
表3 可应用于GWAS各阶段的开源工具
软件 |
用途 |
---|---|
质量控制 |
|
可用于质量控制的许多关键步骤,包括过滤不良 SNP(基于偏离 Hardy-Weinberg 平衡、基因分型检出率和次要等位基因频率)和不良个体(基于性别检查、基因分型检出率、样本检出率,杂合性和相关性检查) |
|
用于元分析输入的原始遗传数据和汇总统计数据的质量控制 |
|
原始基因分型数据的主成分分析;提供可用于校正人口分层的个体水平主成分 |
|
类似于SMARTPCA;随着样本量的增加,速度更快,更具可扩展性 |
|
分型 |
|
根据与祖先匹配的现有参考小组估算缺失的基因型;往往比其他分型工具使用更多的内存 |
|
根据与祖先匹配的现有参考小组估算缺失的基因型 |
|
根据与祖先匹配的现有参考小组估算缺失的基因型;Minimac 包括预定相,可加快分型时间 |
|
关联性分析 |
|
进行遗传关联的最广为人知的工具 |
|
遗传关联测试;适用于 IMPUTE2 |
|
基于线性混合模型的遗传关联检验 |
|
二元表型的遗传关联;分析非常大的样本(N > 100,000) |
|
基于用于混合模型关联测试的 BOLT-LMM 算法和用于方差成分分析的 BOLT-REML 算法的遗传关联测试(基于 SNP 的遗传力的划分和遗传相关性的估计) |
|
遗传关联测试;分析非常大的样本(N > 100,000);可以一次评估多种表型;快速且内存高效 |
|
连续表型的遗传关联;分析非常大的样本(N > 100,000);为英国生物银行 BGENv1.2 文件格式定制 |
|
混合模型遗传关联分析 |
|
统计精细映射 |
|
根据观察到的P值模式和连锁不平衡水平估计基因座中每个变异是因果关系的概率;允许任意数量的因果变异 |
|
使用 GWAS 汇总统计数据和功能基因组数据进行统计精细定位,以确定可能的因果变异的优先级 |
|
使用 GWAS 汇总统计数据和来自参考面板的连锁不平衡信息进行统计精细定位;基于前向选择模型的贝叶斯修正 |
|
使用 GWAS 汇总统计作为输入的统计精细映射;由于可能的因果 SNP,计算效应量和遗传力 |
|
荟萃分析 |
|
固定和随机效应荟萃分析;允许指定不同的遗传模型 |
|
使用 GWAS 汇总统计数据作为输入的加权荟萃分析 |
|
变异注释 |
|
遗传变异的功能注释及其对基因、转录本和蛋白质序列以及调控区域的影响 |
|
遗传变异的功能注释及其对基因、转录本和蛋白质序列以及调控区域的影响 |
|
遗传变异的功能注释及其对基因、转录本和蛋白质序列以及调控区域的影响;包括染色质相互作用信息并整合和可视化所有输出 |
|
富集或基因集分析 |
|
使用具有回归框架的竞争性测试进行基于基因和基因集的分析;允许测试自定义基因集,并包括用于基因集之间的条件和交互测试的选项 |
|
使用预测的基因功能对基因进行系统的优先排序和对富集途径的评估 |
|
基于 SNP 的分区遗传力分析显示功能相关 SNP 集的富集 |
|
QTL分析 |
|
分子QTL发现与分析;使用原始基因组(序列)数据作为输入 |
|
遗传相关性 |
|
使用汇总统计作为输入评估表型之间的遗传相关性;具有各种其他功能,包括基于 SNP 的分区遗传力和选择偏倚评估 |
|
使用原始基因型数据作为输入评估表型之间的遗传相关性 |
|
使用汇总统计作为输入评估表型之间的遗传相关性;具有各种其他功能,包括基于 SNP 的分区遗传力和选择偏倚评估 |
|
使用 GWAS 汇总统计评估局部遗传相关性 |
|
使用 GWAS 汇总统计评估基于局部 SNP 的遗传力和遗传相关性 |
|
使用 GWAS 汇总统计评估局部多变量遗传相关性 |
|
基于 GWAS 汇总统计的多变量遗传相关性评估 |
|
因果关系 |
|
基于遗传重叠的性状因果关系评估,使用 GWAS 汇总统计作为输入。 |
|
PRS分析 |
|
使用贝叶斯收缩法估计 SNP 的后验效应大小 |
|
使用贝叶斯收缩法估计 SNP 的后验效应大小 |
|
使用贝叶斯收缩法估计 SNP 的后验效应大小 |
|
使用P值阈值和聚集方法的 PRS 分析 |
|
TWAS |
|
通过基于参考数据预测功能/分子表型来执行 TWAS;使用 GWAS 汇总统计作为输入 |
|
根据转录数据对可能的致病基因进行优先排序;使用 GWAS 汇总统计作为输入 |
|
使用孟德尔随机化方法测试 SNP 性状关联是否由基因表达水平介导 |
在 GWAS 中必须仔细考虑和解释祖先和亲缘关系,实际上所有的遗传研究——特别是在来自不同背景的参与者的数据集中,以避免由于人口分层导致的假阳性或阴性遗传信号和有偏差的测试统计数据。 在 GWAS 中,这些信号可能导致高估基于 SNP 的遗传力和有偏见的 PRS。 它们也可能使孟德尔随机化研究的结果产生偏差。 病例和对照应按血统匹配以避免混淆; 例如,如果将案例定义为“经常使用筷子”并将对照定义为“不使用筷子”,则用于筷子使用的 GWAS 可能会导致案例更多地来自东亚人口而不是对照。 在这项研究中不考虑血统将确定在东亚人群中比其他人群更常见的变异之间的关联,例如特定人类白细胞抗原 (HLA) 等位基因的变异,不是因为这些变异有助于灵活性,而是因为文化习俗,在这种情况下 , 作为混杂因素。 GWAS 通常通过使用主成分分析的迭代过程来考虑祖先; 所有个体的基因型用于定义具有相似基因型的个体簇。 这样做首先是为了识别和排除异常值,然后计算主成分并将其作为协变量包含在后续的 GWAS 回归模型中。
- 统计阶段个体基因型
- 决定是否使用硬调用或权重来确定不确定性
- 选择合适的参考人群面板
- 将参考面板和目标人群转换为相同的基因组构建
- 检查链问题,解决不同平台之间的问题,可能会删除不明确的 SNP
- 检查异常次要等位基因频率和参考组与目标数据之间的连锁不平衡模式
- 针对选定的群体面板估算缺失的基因型,理想情况下使用集群计算资源来分配分析作业,或使用估算服务器
- 检查插补质量并可能删除插补错误的 SNP(例如,信息分数 <0.7 的 SNP)
关联性测试
遗传关联理论基于生物统计学模型(更多细节见补充说明)。 通常在 GWAS 中,线性或逻辑回归模型用于测试关联,具体取决于表型是连续的(例如身高、血压或体重指数)还是二元的(例如存在或不存在疾病)。 包括年龄、性别和血统等协变量以解释分层并避免人口因素的混杂影响,但需要注意的是,这可能会降低已确定样本中二元特征的统计功效。 包括一个额外的随机效应项——它在线性或逻辑混合模型中是个体特定的,以解释个体之间的遗传相关性——可以提高基因组发现的统计能力,并增加对分层的控制,但代价是需要更多的计算资源 (尽管 这个限制可以通过使用诸如 fastGWA之类的工具来解决)。 在进行 GWAS 时,应该注意物理上靠近的遗传变异的基因型并不是独立的,因为它们往往处于连锁不平衡状态; 在进行 GWAS 时也应考虑测试的这种依赖性。
GWAS 的线性回归模型可以写成如下:
其中,对于每个个体,Y 是表型值的向量,W 是包括截距项的协变量矩阵,α 是相应的效应大小向量,Xs 是 SNP s 处所有个体的基因型值向量,βs 是 遗传变异s对应的固定效应大小(也称为SNP效应大小),g是随机效应,捕捉其他SNP的多基因效应,e是残差的随机效应,σ2A 测量表型的加性遗传变异,ψ 为标准遗传关系矩阵,σ2e 测量残差,I 是单位矩阵。 在逻辑回归模型中,logit 链接函数用于二项式分布的病例-对照表型以模拟结果几率。
错误发现的计算处理
测试个体遗传变异与感兴趣的表型之间的数百万个关联需要严格的多重测试阈值以避免误报。 国际 HapMap 项目等研究表明,整个人类基因组平均约有 1000 万个独立的常见遗传变异,导致 Bonferroni 测试阈值为 P < 5 × 10–8(代表错误发现率为 0.05/106 )。 适当的阈值可能因人口而异; 例如,对于有效种群规模较大的种群,可能需要更严格的阈值,或者如果随着样本量的增加,GWAS 中包含的次要等位基因频率阈值会降低,因为次要等位基因频率低的变异通常不会与常见的连锁不平衡变体,因此增加了更大的多重测试负担。 身高、精神分裂症或 2 型糖尿病等复杂性状往往是高度多基因的,因此,许多影响很小的遗传变异会影响表型。 在这些情况下,赢家的诅咒很常见,接近发现阈值的效应量估计在初始 GWAS 中往往被高估。
比较发现队列和独立复制队列之间的效应大小是通过校准效应大小估计来解释错误发现和赢家诅咒的黄金标准。 理想情况下,在 GWAS 开始时考虑复制队列,并应提供足够的统计能力来纠正赢家的诅咒和多重测试; 然而,在 GWAS 之前,效果大小当然是未知的。 在比较发现队列和复制队列之间的效应大小时,应为每个队列使用效应统计和相应的误差项(例如,回归系数、比值比等),特别是不同的GWAS使用不同的软件进行执行时。 复制队列必须完全独立于发现队列,队列中的个体之间没有共享的个体或遗传关系。
全基因组关联荟萃分析
为了增加样本量,GWAS 通常通过联合协作进行,例如精神病学基因组学联合体、人体测量特征遗传调查 (GIANT) 联合体或全球脂质遗传学联合体,其中使用诸如此类的工具对来自多个队列的数据进行分析如 METAL、N-GWAMA 或 MA-GWAMA 以及质量控制分析流程,例如在 RICOPILI 或 EasyQC 中实施的分析流程。 有关特定于 GWAMA 的质量控制程序的详细说明,佳学基因解码建议读者参阅参考文献。 GWAMA 的关键步骤是首先确保各个队列遵循相同的预定义数据分析计划,使用统一的表型并以标准化方式传达他们的结果。 这可以包括将效应大小缩放到标准正态分布,因为表型测量值及其估计的绝对效应大小有时无法跨队列进行比较。 接下来,至少由两名独立分析师使用预定义的质量控制协议对提交的结果进行队列级别检查,并在各个队列中解决任何问题。 最后,对汇总统计数据进行荟萃分析。 Meta 分析可以使用固定效应模型(假设不同群组的误差方差相等)或随机效应模型来检验结果的异质性; 例如,测试一个或两个队列是否明显偏离其他队列。 结合所有队列的贡献,可以通过按样本大小或使用逆方差方法对每个队列的结果进行加权,从而更精确地估计 GWAS 中的效应大小和影响的显着性。 测序数据集可以识别罕见的变异,尽管目前的测序数据集通常力量不足,无法单独测试它们对表型的影响; 相反,它们的影响通常是综合衡量的,例如通过罕见变异负荷测试在基因或基因集中衡量。
GWAS 中使用的人群
基于人群的 GWAS
GWAS 中使用的遗传和表型观察通常来自基于人群的队列,其中假定个体是从人群中随机抽取的。 可以测试对应于连续或二元因变量的表型与基因分型或推算变体的关联。 一种常见的 GWAS 设计是病例对照研究,其中病例和对照分别根据某种表型的存在或不存在来定义。 在许多病例对照研究中,主动选择病例和对照队列,使得病例的频率与基于人群的频率不匹配,这应该反映在统计分析中; 例如,协变量调整需要额外考虑。 使用来自未知疾病状态的人群队列的对照可以允许在“对照”人群中以人群频率出现病例,尽管这对人群频率低于 1% 的疾病几乎没有影响。 或者,可以根据性别和血统主动将对照与病例相匹配。 如果该疾病的人群频率较低 (<20%),则后一种方法已被证明具有足够的效力和成本效益。 在统计力量增加和财政资源有限的情况下,通常首选主动招募病例和对照。
如果病例和对照未在同一芯片上一起进行基因分型,则在质量控制和后续分析期间必须付出额外的努力以最大程度地减少人工制品(例如,通过将基因分型批次添加为分析中的协变量)。 应该注意的是,尽管假设样本是从人群中随机抽取的,但在存在参与偏差和不匹配的社会人口因素的情况下,这种假设并非如此。
基于家庭的 GWAS
在 GWAS 的早期,经常使用使用一级亲属的基于家庭的关联测试,这在很大程度上是由于表型良好的双胞胎和其他家庭队列的可用性。 基于家庭的 GWAS 需要比不相关个体的 GWAS 更大的样本量,以达到相同的统计能力,但避免人口分层问题。 最近,由于对基于人群的 GWAS 中未校正分层的担忧增加,人们对进行家庭内部研究产生了新的兴趣。 家族内方法通常使用传递不平衡测试的变体来检查家族内等位基因的分离。 这种测试的各种形式可以应用于 PLINK,例如结合家庭内和家庭间关联的定量表型测试,尽管重要的是,只有家庭内部分不受人口分层的影响。 同样,基于线性混合模型的方法(例如 GEMMA、SAIGE 和 REGENIE)同时使用家庭内和家庭间信息,因此不能完全避免分层; 但是,如果有近亲,则可以包括在内以增加权力。 在 GWAS 中使用家族数据的一个好处是,它们可用于从等位基因对近亲家庭成员的间接影响中询问等位基因对个体表型的影响。 此外,利用来自非基因型家庭成员的表型信息——一种有时被称为 GWAS by proxy 的方法——已被证明可以显着提高某些性状的能力,特别是在研究需要收集大量数据集的迟发性疾病时。 具有挑战性的。 这里需要注意的是,GWAS by proxy 倾向于依赖自我报告的家族史,这可能并不总是准确的。
孤立的种群
在由于地理或文化障碍等创始人事件而变得孤立的人群中进行 GWAS 有一些优势,这些人群长期保持孤立,并限制了与邻近人群的基因流动。 一个关键的优势是,否则罕见的功能变异可能会在孤立的人群中以更高的频率出现,因此这些人群可以为此类变异的关联研究提供更多的力量。 孤立群体典型的长程连锁不平衡提高了插补的准确性和相对于类似规模的非孤立群体的功效,特别是如果来自孤立群体的少数个体被包含在参考小组 中。 由于孤立人群的高度相关性,通常使用基于线性混合模型的 GWAS 方法。 由于等位基因通过遗传瓶颈消失,孤立的种群往往具有较高的遗传同质性,这可以通过减少中性变异的数量来增加负荷测试的能力。 如果变异太罕见,孤立人群中的发现可能难以在其他人群中复制,尽管涉及相同基因的其他变异可以增加额外的支持; 例如,涉及撒丁岛人群中与甘油三酯水平相关的 APOA5 的变异可能得到其他欧洲人群中涉及心肌梗塞的变异的支持。
生物样本库
许多大型、开放获取的人口生物库可供研究人员使用。 生物库包含来自数千个基因分型个体的数据,这些个体通过问卷调查、实验室测量和/或与电子健康记录的链接进行了深入的表型分析,并且没有根据特定的疾病特征进行选择。 一个值得注意的例子是英国生物银行,它包括来自大约 500,000 个人的数据,并且已经启用了具有数百种数量特征的强大的 GWAS,包括人体测量特征、血细胞特征、代谢物、认知特征、脑成像特征和抑郁症状(如所述 在参考文献 82 中),以及增加常见疾病 GWAS 的样本量。
尽管生物样本库和双胞胎研究在历史上一直专注于欧洲血统的人群,但正在建立来自非欧洲血统的个人数据的大型生物样本库,并且许多新研究都是基于种族多样化的社区(表 2)(参见伦理挑战部分) 多样性相关问题的详细讨论)。 尽管 WES 数据已经可用于 50,000 名英国生物样本库参与者,但大多数生物样本库都使用了常见变异的估算基因型数据。 在接下来的几年中,将为所有英国生物样本库参与者生成 WES 和 WGS 数据,从而大大增强评估稀有变异作用的能力。
表2: 具有可用于研究的遗传和表型数据的生物样本库和基于人群的大型研究
数据集 |
祖先 |
---|---|
英国生物样本库 |
以白人为主的英国人 |
日本生物银行 |
日本人 |
中国嘉道理生物样本库 |
中国人 |
基因与健康 |
英国南亚人 |
H3非洲 |
不同的非洲血统 |
生物群落 |
多重血统(常驻纽约) |
TOPMed |
多重血统(美国) |
百万退伍军人计划 |
多重血统(美国) |
“我们所有人”倡议 |
多重血统(美国) |
23andMe |
多重血统(美国) |
GWAS分析结果
GWAS 分析的主要输出是 P 值、效应大小及其方向的列表,它们是从所有测试的遗传变异与感兴趣的表型的关联测试中生成的。 这些数据通常使用曼哈顿图和分位数-分位数图(图 2)进行可视化,使用 R 等软件工具或 FUMA 或 LocusZoom 等网络平台生成。 然后需要进一步分析来解释这个 P 值列表,确定最可能的因果变异、它们的功能解释和有意义的生物学途径中可能的收敛(图 3)。 我们在下面讨论这些 GWAS 后分析。
图 2:用于可视化 GWAS 结果的曼哈顿图和分位数-分位数图。
图 3:GWAS 功能跟进示意图。
统计精细映射
由于连锁不平衡,许多非因果变异与感兴趣的性状显着相关; 这些是否达到显着性阈值取决于它们与因果变异的相关程度和关联强度。 因此,GWAS 的输出集中在风险位点——一组相关的变异,它们都显示出与感兴趣的性状在统计学上显着的关联——连锁不平衡通常会阻止在没有进一步分析的情况下查明因果变异。
精细作图是一种计算机模拟过程,旨在根据观察到的连锁不平衡模式和关联统计,对 GWAS 识别的每个基因座中最有可能与目标表型产生因果关系的一组变异进行优先排序。 最简洁地解释区域关联信号的一组变体被定义为可信变体。 具有最显着关联的主要变体将被认为是最可信的因果变体,尽管在某些情况下最显着的关联可能是非因果关系。 例如,当一个基因座中存在多个独立的风险变异时,多个信号的组合可以将最重要的关联从因果变异转移到邻近的非因果变异。 这也可能由于变异基因型归因质量的异质性而发生,这会导致连锁不平衡中相邻变异之间关联信号统计的波动。
最简单的精细定位分析是区域变异的条件关联分析,它通过将前导变异作为基因型-表型回归模型中的协变量,根据基因座中的变异集调整区域关联信号。 当存在多个关联信号时,通常使用前向逐步选择,直到没有关联为止。 这种称为逐步条件分析的方法仅限于搜索潜在可信变体的所有组合模式。 这是因为每个迭代步骤中的变体搜索模式都强烈依赖于先前选择的变体集,并且前导初始步骤通常包括前导变体。 当没有完整的基因型数据时,可以使用 GCTA-COJO 软件对汇总统计数据进行条件关联分析。
几种复杂的精细映射方法基于贝叶斯模型,包括 CAVIAR、FINEMAP、PAINTOR 和 SuSIE。 这些方法通过使用先验概率分布或先验估计后验概率分布或后验来优化回归模型的变量选择。 使用贝叶斯模型优于条件关联分析的一个优势是,先验可以考虑附加信息,例如除了关联信号之外的插补准确性; 然而,使用贝叶斯建模输出的一组可信变体在不同方法中通常不一致,尤其是当基因座内存在多个独立关联信号时。 一般来说,随着独立信号数量的增加,正确检测可信变异集的统计能力会下降。
计算机精细定位可以找到可靠的变异,这些变异可以调节因果基因的表达模式和功能(SNP 到基因定位)或有助于目标表型的发展(SNP 到生物学定位)。 成功精细定位的一个基本原则是通过使用例如基于 WGS 的基因型插补参考面板来扩大评估的遗传变异的覆盖范围。 具有大样本量和/或包含其他类型的非 SNP 遗传变异(例如插入、缺失和拷贝数变异)的参考 panel 可以进一步扩大变异的覆盖范围以进行精细定位。 最近发布的具有详细变异注释的大规模 WGS 资源(例如 gnomAD 和 TOPMed 数据库,分别包含 >10,000 和 >90,000 个全基因组序列)可作为高分辨率精细定位的宝贵资源。 应该注意的是,当前的 WGS 技术并不总是能准确捕获结构变异和短串联重复序列。 此外,有几个区域基于 WGS 的插补估计基因型不准确,可能需要自定义插补方法来精细映射这些区域。 例如,对应于 HLA 复合体(也称为主要组织相容性复合体 (MHC))的基因组区域对于与免疫系统和传染病相关的各种人类特征具有高度多效性。 该区域复杂的连锁不平衡结构阻止了基于 WGS 的 SNP 插补明确确定其基因型。 HLA 参考面板的构建和针对 HLA 多态性的自定义插补方法,例如软件包 SNP2HLA (refs100,101,102)、HIBAG 和 HLA*IMP,提供了 HLA 变体-表型关联图的目录。 还报道了针对其他基因位点缺失变异的定制区域插补方法; 例如,用于杀伤细胞免疫球蛋白样受体 (KIR) 基因位点的 KIR*IMP 软件。 还存在用于线粒体基因组的特定资源。
将可信 SNP 优先于具有绝对连锁不平衡的高度相关 SNP 具有挑战性。 来自 GWAS 的炎症性肠病关联的精细定位表明,只有 12% 的基因座有一个候选因果变异,30% 的基因座有 1-5 个候选因果变异,而乳腺癌 GWAS 的精细定位显示出相似的数字。 可以通过将 SNP 的功能注释(例如,表达数量性状基因座 (eQTL) 或表观基因组基序)整合到贝叶斯精细定位模型的先验中来改进变异的优先级排序。 跨种族 GWAS 荟萃分析还可以帮助精细定位高度相关的 SNP,因为祖先之间连锁不平衡结构的差异可以缩小关联的区域窗口。
GWAS 的功能分析
进行 GWAS 的一个主要动机是使用已识别的关联来确定可遗传表型的生物学原因,并为研究潜在的治疗干预措施提供一个起点。 尽管 GWAS 已导致鉴定出数以千计的复杂性状相关遗传变异,并且精细定位提供了一组可靠的 SNP,但通常不容易推断出这些变异的生物学意义(有一些例外)。 精细定位后,由 GWAS 识别的基因座的完整机制剖析包括识别因果变异的直接影响(例如,对蛋白质或增强子功能)、受影响的基因或基因座中介导疾病关联的基因、 导致细胞和生理功能变化的下游网络或通路效应,以及所有这些效应的相关组织、细胞类型和细胞状态。 目前,只有少数基因座存在此信息,例如 FTO112 和 SORT1(参考文献 113)。 然而,已经开发出多种方法来推断 GWAS 识别的变异的分子效应。
确定受影响的基因
优先考虑可能受影响的基因可能是 GWAS 基因座功能解释中最关键的部分。 对于 2-3% 的 GWAS 基因座精细映射到编码变体,可以使用 ANNOVAR 或 VEP 等工具来推断它们对基因的潜在影响。 然而,绝大多数相关的、精细定位的 SNP 位于编码区之外,不影响蛋白质结构并且具有未知的调节功能。 基因座中的一个或多个致病基因——那些调节变化介导疾病关联的基因——通常是那些最接近关联信号的基因,尽管最近的一篇预印本文章表明情况并非总是如此。 识别遗传变异的调控靶基因的一种方法是分子数量性状基因座 (molQTL) 分析,它将遗传变异与特定的分子表型相关联; 例如,eQTL 分析识别与 RNA 表达相关的位点。 同样的方法可以应用于其他分子表型,例如剪接、染色质可及性或甲基化状态。 通过将此信息与 GWAS 结果相结合,可以将性状相关变异映射到它们可能在特定组织中调节的基因以及介导这些关联的分子过程。 全面、可访问的 QTL 目录可供社区使用; 例如,基因型-组织表达 (GTEx) 资源对 49 个组织的 eQTL 和剪接 QTL 进行了编目,eQTLGen 资源提供了血液中顺式-eQTL 和反式-eQTL 关联图以及来自 30,000 多个捐赠者的数据以及 eQTL 目录 正如最近的一篇预印本文章所报道的,已经编译了多个 eQTL 数据集。 eQTL 框架可以扩展到转录组范围的关联研究,其中基因表达水平被估算到来自 GWAS 的数据中并测试与性状的关联。
eQTL 和剪接 QTL 方法受到一些限制。 由于高度连锁不平衡中的任何非因果变异与真正的因果变异都可能显示与特征的统计关联,因此将功能或调节作用分配给变异并不自动意味着该变异是因果关系。 eQTL 应与 GWAS 数据集成,使用共定位方法来查明监管关联和疾病关联共享相同因果变异的位点。 此外,eQTL 通常会影响多个基因,因此,其他数据源或功能注释可用于确定那些介导疾病的基因的优先级。 最后,molQTL 目录缺乏来自许多相关组织的数据,来自特定细胞类型和分子表型的数据(表达和剪接除外)也很有限。 因此,尽管 molQTL 作图是为 GWAS 基因座背后的调控机制和靶基因创建假设的一种强大且流行的方法,但这种基因作图方法并不像编码变异的那些方法那样具有决定性(尽管应该注意的是,大多数可检测的编码变体 基因很少见)。
作为 molQTL 作图的替代方法,可以使用基于染色质构象捕获 (3C) 的方法将增强子中精细定位的 GWAS 变体与基因相关联,例如芯片上的染色体构象捕获 (4C)、染色体确认捕获碳拷贝 (5C) 和 高通量染色体构象捕获 (Hi-C),它定义了经常在空间上非常接近的染色质区域,并可能反映控制近端或远端基因的增强子-启动子环。 其他方法包括关联增强子和基因活动以及对增强子进行大规模实验扰动,尽管增强子-基因目录还远未完成。 仍然需要整合不同类型数据的方法,以便在 GWAS 位点对目标基因进行概率优先排序。
最近,用于基因组扰动的高度可扩展实验分析的开发扩展了功能基因组学工具包。 这些检测包括大规模平行监管检测,通过在单个实验中筛选数千个未转录或未翻译序列中的变异来测试合成监管序列的功能影响,以及允许将突变引入基因组和扰动监管元件活动的 CRISPR 技术。 这些方法越来越受欢迎,信息量也越来越大,但仍需要大量工作来提高数据的可扩展性和可解释性。 尽管不限于连锁不平衡中现有的遗传变异,但它们在很大程度上依赖于可能并不总是在体内概括细胞的细胞模型系统。 此外,来自人口和实验扰动的数据整合仍处于起步阶段。
确定调节途径和细胞效应
来自 GWAS 的任何给定性状的高度多基因信号会聚在有限数量的生物过程中,并且可以确定遗传变异的途径级效应并将其与细胞和生理功能联系起来。 实现这一目标的一种方法是使用 MAGMA 和 DEPICT 等工具测试从 GWAS 和 GWAS 后分析中确定的基因的收敛函数。 这些工具测试涉及特定生物途径或与特定组织、细胞类型、发育阶段或蛋白质网络相关的基因集,这些基因是所研究性状与该性状关联的推定的近端原因。 定义基因集的方式很关键; 例如,随机选择的一组基因在生物学上没有意义,而基于生物学注释创建的集合依赖于这些注释的准确性。 我们建议读者参考最近用于定义基因集的资源。 另一种方法是使用反式 molQTL 方法将遗传变异与分子变化相关联,以识别受 GWAS 基因座调控的远端基因。 trans-eQTL 已被证明在 GWAS 基因座中强烈富集,并有可能精确定位受 GWAS 基因座调节的远端基因,尽管这种方法需要来自大量样本的分子数据,并且分析和解释可能具有挑战性。 最后,基因的实验扰动以及随后的细胞表型分析正变得越来越具有可扩展性和信息量,可用于解释 GWAS 位点和基因。
考虑组织类型、细胞类型或细胞状态对于所有功能解释工作都是必不可少的,并且在分析网络效应时尤为重要,因为基因可能在不同的细胞环境中具有多效性。 例如,组织水平的分子数据可以混合特定细胞类型的信号,进一步复杂化解释或掩盖来自稀有细胞类型的真实信号。 因此,即将到来的单细胞和细胞类型特异性功能基因组数据集可能会推进 GWAS 解释。
GWAS的应用
上面,我们已经描述了 GWAS 如何能够查明统计相关的变异并用于理解这些变异在生物学环境中的作用。 GWAS 的结果还可用于预测疾病风险和了解性状的遗传结构等应用。 我们将在下面讨论 GWAS 的其中几个应用。
风险预测
PRS 通常用于使用独立发现队列的 GWAS 汇总统计来预测目标队列中的疾病风险(图 4)。 PRS 可用于识别疾病高危个体以进行临床干预,并提供比传统临床风险评分更多的信息以进行分层筛查。 它们被计算为风险等位基因的加权总分,权重基于 GWAS 的效应大小。 计算 PRS 的方法有很多种; 最简单和最实用的方法是修剪和阈值化,它涉及根据与性状的统计关联的 P 值来选择 SNP 的子集。 更复杂的方法包括那些对连锁不平衡结构进行建模、合并功能信息、根据全基因组混合比例权衡多个发现队列的结果并考虑其他类型的基因组或功能信息的方法; 这些方法可以通过改进边际效应大小的估计来提高 PRS 预测的准确性。 PRS 的准确性可以通过各种指标进行评估,指标的选择基于下游目标以及表型是连续的还是二元的。 如果发现 GWAS 和目标队列共享个人,则可以夸大准确性测量。 对于连续性状,由 PRS 解释的表型变异通常被量化为决定系数 (R2)。 在 GWAS 回归模型中计算 PRS 的影响时,通常包括年龄、性别和血统等协变量,通过比较两个模型中解释方差的差异来评估 PRS 的影响,可以这样写:
其中 H0 表示零假设中使用的模型,没有 PRS 的影响,H1 表示替代假设中使用的模型,该模型确实包括 PRS 对表型的影响,e 表示误差项。 可以执行比较这两个模型的方差分析以确定由 PRS 项具体解释的表型方差,而不是比较模型中包含的其他协变量。 对于二元性状,伪 R2 值通常使用逻辑回归模型计算。 为确保伪 R2 值在研究之间具有可比性并适当缩放,通常通过调整特征或疾病的流行程度在责任范围内解释这些值。 多基因评分的最大预测准确性取决于疾病的基于 SNP 的遗传力——所有 SNP 解释的表型变异的比例——而 PRS 分析的性能取决于疾病的多基因性和影响大小的大小 因果变异。 迄今为止,针对青光眼开发了一种性能最好的 PRS; 与得分分布最靠后的 90%154 相比,处于最高十分位的个人的风险增加了 4.2 倍。 评估 PRS 准确性的常用指标是接受者操作特征曲线 (AUC) 下的面积。 当目的是区分两组时,AUC 量化模型的性能。 对于表现最好的模型,必须设置一个阈值,将个人归类为高风险; 选择阈值是基于权衡假阳性与假阴性的成本和收益,因此是特定于上下文的并且通常是主观的(请参阅参考文献 155 以了解可以帮助选择阈值的软件)。 重要的是,AUC 或伪 R2 等指标不一定反映临床效用。 高 AUC 或比值比(发生暴露的事件的几率与没有暴露的几率)并不能保证高风险个体在分数分布的最高百分位数中富集 158; 一项将比值比转换为其他筛查性能指标的研究发现,在 5% 的假阳性率下,最近一项研究 7 中提出的冠状动脉疾病多基因评分将漏掉 85% 的疾病患者。 净重分类指数等重分类指标比比值比或 AUC 曲线更具有临床相关性,并且可以评估多基因评分在多大程度上改善了患者的重分类以及对现有临床风险预测因子的控制。
图 4:计算 PRS 所需步骤的概述
第 1 步:获得全基因组关联研究 (GWAS) 汇总统计数据,详细说明每个单核苷酸多态性 (SNP) 对感兴趣表型的影响。 第 2 步:一组个体的基因型数据参考 GWAS 汇总统计数据。 此处显示了四个个体的四个 SNP 的基因型数据。 第 3 步:通过对每个个体的所有风险等位基因的效应量求和,可以为每个个体计算多基因风险评分 (PRS)。 步骤 4:对计算出的 PRS 进行线性回归分析,以评估 PRS 对结果测量的影响。
PRSs 公平临床实施的一个障碍是它们的准确性随着 GWAS 发现队列和目标队列之间的祖先距离的增加而衰减。 由于大多数发现队列都是欧洲人,这通常会导致 PRS 的准确性随着祖先与欧洲的距离而降低。 这些差异的可预测基础可以通过诸如次要等位基因频率和种群间连锁不平衡等因素的差异来解释。 此外,即使在单个人口中,微妙的人口分层也会导致 PRS 估计基线值的区域偏差。 增加 GWAS 发现队列的多样性是提高所有人群 PRS 准确性的最有效方法,对目前在 GWAS 队列中代表性不足的人群最有益。
最近开发了多基因风险评分报告标准和多基因评分目录(PRS 数据库),以改善 PRS 的传播并鼓励其应用和转化为临床护理。 PRS 报告和沉积的这种持续标准化有望在未来提高 PRS 的可重复性。
了解性状遗传结构
确定一个性状的遗传结构包括估计因果变异的数量、它们相应的影响大小和频率,并允许估计遗传力,或可以用种群中的遗传变异解释的性状变异比例。 现代大规模人类遗传学数据集通常估计不相关个体的基因分型数据集中的遗传力。 有许多统计方法和计算工具可用于量化遗传力。 方法通常被描述为广义遗传力 (H2)——它测量由加性效应和显性效应解释的表型变异的分数——和狭义遗传力 (h2),它只考虑加性效应。 基于群体的方法可以使用个体水平的基因型和表型数据来估计基于 SNP 的遗传力; 例如,在全基因组复杂性状分析中实施的基于基因组的受限最大似然法将方差分量模型与基因组关系矩阵进行分区,从而允许在基因型相似性水平上回归表型相似性水平。 或者,连锁不平衡评分回归可用于从 GWAS 汇总统计数据和一组连锁不平衡评分中估计基于 SNP 的遗传力。 重要的是,基于 SNP 的遗传力仅测量由基因分型或估算的 SNP 的加性效应解释的方差。 最近一篇预印本文章中讨论的数据强调了在评估基于 SNP 的遗传力时包括罕见变异的重要性。 事实上,尽管常见变异对群体中基于 SNP 的遗传力贡献更大,但罕见变异仍会对个体产生巨大影响。 无论采用何种方法,重要的是遗传力都不是一个固定的实体,它会随着年龄、性别、社会因素、表型精度和其他复杂因素而变化。 祖先异质性也很重要,因为种群结构会夸大遗传力估计值。
虽然了解单个性状的遗传力可以提供信息,但了解多个性状之间的遗传关系通常更有用,因为 SNP 通常与许多有时看似无关的表型相关联。 连锁不平衡得分回归和全基因组复杂性状分析都可以估计遗传相关性,或者说明一个性状的遗传变异在多大程度上对另一个性状也很重要,前提是影响方向相同。 最近一篇预印本文章中的 superGNOVA、ρ-HESS 和 LAVA 等工具可以估计局部相关性,确定哪些特定基因组区域对相同或相反方向的相关表型产生遗传影响。 应在基于 SNP 的遗传力的背景下解释遗传相关性; 例如,如果相应表型的这些值较低,则预计遗传相关性不会在解释为什么两个性状在表型水平上相关时发挥主要作用。 此外,遗传相关性不提供有关两个性状之间因果关系的信息。 事实上,遗传相关性可能是由垂直多效性引起的,其中性状 A 导致性状 B; 水平多效性,其中一个变异直接影响两个性状; 连锁不平衡诱导的水平多效性,其中处于连锁不平衡的两个不同变体各自影响两个性状之一; 或多基因性诱导的多效性,其中多个变体影响两个特征和潜在模式是上述的混合。
孟德尔随机化可用于使用 GWAS 汇总统计评估不同表型之间的因果关系。 孟德尔随机化是一种流行病学技术,它使用遗传变异作为工具变量作为环境暴露的代理措施。 当随机对照试验不可行时,可以应用这些技术。 尽管孟德尔随机化是一个强大的设计,但有几个强有力的假设:用作工具变量的遗传变异需要与暴露相关联; 这些遗传变异不应与任何混杂变量相关联; 这些遗传变异仅通过它们对暴露的影响与结果相关。
再现性和数据沉积
大多数性状的 GWAS 需要大量(>10,000)样本量才能产生可重现的结果。 此类样本量只能通过协作和数据共享协议生成。 此外,可重复的结果取决于合理的研究设计和稳健的方法。 为了进一步发挥 GWAS 结果的实用性,需要报告最少的一组统计数据。 我们在下面讨论这些注意事项。
GWAS 中的协作和数据共享
推动 GWAS 成功的关键因素之一是对协作和数据共享的早期承诺。 1997 年,百慕大原则规定“由资助大规模人类测序的中心生成的所有人类基因组序列信息都应免费提供并为公共所有”。 这些原则在 2003 年劳德代尔堡协议中得到执行,该协议提议继续将基因组数据作为社区资源发布前发布,并建议建立一个责任体系,在该体系中,资助者、数据生成者和数据用户都有责任在发布之前促进基因组数据的负责任共享。出版前基因组数据的共享现在是基因组学研究项目资助的标准条件。 许多遗传学联盟和倡议的存在,例如精神病学基因组学联盟和最近成立的 COVID-19 宿主遗传学倡议都建立在这些初步协议的基础上,并由贡献者共享和汇总数据的意愿促成。 通过就数据治理的共享原则和实践达成一致,例如通过全球基因组学和健康联盟,尝试促进基因组数据库的互操作性,加强了研究人员共享和使用公开可用的基因组数据的能力。
数据保护越来越依赖于个人在共享或使用数据之前的具体同意。 在欧盟,通用数据保护条例引入了更多的隐私保护措施,对去识别化和同意提出了严格的要求,这使得国家内部和国家之间的基因组数据共享变得复杂。 其他司法管辖区,包括非洲的一些司法管辖区,也同样采取行动加强隐私保护。 为了解决对数据保护立法对研究影响的担忧,全球研究人员主张制定行为准则,以符合立法数据保护原则的方式共享基因组数据。 行为准则将鼓励基因组研究机构等数据控制者或处理者有效地应用数据保护条款,并允许他们以促进国内和国际数据传输的方式证明合规性。 迄今为止,此类行为准则的制定已被证明是时间和资源密集型的,而且尚不清楚隐私问题和研究数据共享之间的紧张关系将如何得到充分解决。 其他可能的解决方案是引入单独的隐私同意书,特别涵盖在研究中使用个人信息、为参与者准备数据隐私通知以及完成每个研究项目的数据隐私影响评估。 欧洲和北美的几所大学已经向研究人员发布了隐私文件准备指南,并且可以在线获取数据隐私文件的模板。
为了促进有效的合作并增加基因组数据的使用——尤其是在罕见情况下——基因组数据集的互操作性至关重要。 近年来,已采取措施开发允许互操作性的工具和方法。 这一目标的核心是科学数据管理和管理的 FAIR(可查找性、可访问性、互操作性、可重用性)原则,这些原则现在已成为许多 GWAS 的资助条件。
数据公平
与基因组数据共享相关的一个重要伦理挑战涉及确保研究人员的公平性。 一个关键的考虑因素是数据共享的方式可以为世界各地的研究人员提供平等的机会来分析和发布结果,包括较小机构的研究人员或位于低收入和中等收入国家的研究人员。 为了解决这些问题,埃博拉数据平台和 H3Africa 联盟等倡议确定了管理基因组学数据的原则和实践,以促进资源匮乏国家研究人员的公平,包括团结、互惠、透明和信任。 其他更广泛的担忧涉及减少对公开可用数据的有害使用和确保公共利益。 为了解决这些不同的问题,许多国际基因组研究合作已经转向使用治理框架。 最近对这些举措的分析发现了数据共享良好治理的五个关键功能,即治理框架支持数据访问、确保合法合规、支持适当的数据使用和减轻危害、促进基因组数据使用的公平性以及使用基因组数据 为了公共利益。
除了个人层面的数据共享之外,还有一种向 GWAS 汇总统计数据共享的演变。 GWAS Catalog 和 GWAS Atlas 等数据库允许轻松访问数千个性状的汇总统计数据(表 3)。 通过采用通用数据格式,例如最近提出的 GWAS-VCF 格式,可以进一步改进对 GWAS 汇总统计数据的访问和使用。 汇总统计数据应包括基因组构建、SNP ID 和位置、等位基因、链信息、效应大小和相关标准误差、P 值、测试统计数据、次要等位基因频率和样本大小。
表3 GWAS 汇总统计数据库
数据库 |
内容 |
---|---|
GWAS 论文中报告的 GWAS 汇总统计数据和 GWAS 主要 SNP |
|
英国生物银行 GWAS 汇总统计数据 |
|
英国生物银行 GWAS 汇总统计数据 |
|
收集公开可用的 GWAS 摘要统计数据,并进行后续的计算机分析 |
|
FinnGen 发布的 GWAS 汇总统计数据,FinnGen 是一个从芬兰多个来源收集生物样本的项目 |
|
美国国立卫生研究院资助的基因组学数据的公共存储库,包括 GWAS 汇总统计数据 |
|
GWAS 汇总数据集 |
|
日本生物银行的 GWAS 汇总统计数据和跨人群荟萃分析 |
GWAS 预注册
GWAS 的预注册可以提高重现性。 在预注册中,所有分析、变量、可用协议、数据集和分析决策都是在进行研究之前预先指定和记录的,以防止事后合理化和“HARKing”(在结果已知后进行假设),这可能会使统计推断无效 并提高 I 类错误率。 事实上,这些做法导致遗传关联研究缺乏可重复的结果。 如今,GWAS 通常以无假设的方式进行,无论结果如何,都会进行更正、报告和发布; 然而,后 GWAS 分析具有更多的研究人员自由度,并且如今比单纯的 GWAS 命中数更能决定发表。 因此,有问题的研究实践有更多的动机和可能性,预注册对这些分析的好处更大。 分析计划可以在预设暂停的情况下上传到开放科学框架。 在一种称为注册报告的格式中,同行评审发生在数据收集或分析之前,并且仅基于介绍和方法部分。 因此,发表取决于方法的严谨性,而不是结果,这有助于减少发表偏倚。 与预注册相比,注册报告会提交给提供此方案的特定期刊(更多详细信息可在开放科学框架注册报告资源中找到)。 预注册和注册报告主要用于数据生成研究,但也有利于对二手数据进行更常见的分析。
限制和优化
方法学上的困难
人群分组
尽管目前的方法可以解决不明人群分层问题,但它仍然会导致虚假或有偏见的关联——尤其是在多个队列的荟萃分析中。 在包括数千个低于全基因组显着性的 SNP 的多基因评分分析中,效果最为明显。 人口分层甚至可以发生在同质人口中; 例如,研究揭示了英国生物银行的人口分层和相关偏见,该银行主要由英国白人参与者组成。 由于目前校正分层影响的方法基于常见的变体,例如主成分分析或线性混合模型,因此当分析中包含许多罕见的变体时,它们是不够的,特别是当人口分层是由最近的人口变化驱动时。 基于家庭的关联研究可以避免分层,尽管与基于人群的研究相比,它们的功效往往不足。 可以在基于人群的 GWAS 中识别出显着的变异,并在基于家庭的研究中重新估计效应大小,以尝试获得不受人口结构混淆的估计值。 但是,如果原始 GWAS 中识别的主要 SNP 与环境相关,则此方法无法完全消除 PRS 数据中的种群分层。 需要进一步的工作来更好地校正 GWAS 和相关分析中的人口结构。 基于稀有变体或血统身份的主成分分析的方法可能适用于最近获得的种群亚结构的情况。
多基因性
当试图揭示潜在的生物学机制时,许多性状的极端多基因性可能会带来挑战,尤其是在数千个变异中每个变异对一个性状影响很小的情况下。 为了避免这些问题,WES 和 WGS 研究越来越多地被用于发现具有大效应的罕见变异——特别是来自外显子组测序的编码变异——其因果机制通常更容易阐明。 尚未报告所有性状的大效应的罕见变体,寻找数千种变体的影响的收敛仍然是与大效应的稀有变体无关的性状的最佳策略。 需要进一步的新方法来解决多基因性和促进将 GWAS 的发现转化为机械洞察力。 高多基因性还意味着患有相同疾病的个体可能具有独特的遗传图谱,这些图谱绘制了针对相同疾病的不同生物途径。 如果遗传异质性也与治疗敏感性有关,那么新疗法的开发应该考虑到这一点。 然而,由于大多数人都不知道应该如何对患者进行基因分层,这仍然是一个突出的挑战,因为治疗尚未完全适应相关的基因特征。
伦理挑战
除了可重复性和数据沉积部分讨论的数据保护和公平问题外,GWAS 还提出了与同意未来使用样本和数据、存储和重复使用样本和数据、隐私挑战以及与个体参与者共享数据相关的伦理问题。 在过去的十年中,研究人员和生物伦理学家之间的明显共识表明,寻求样本和数据存储许可以及未指定的未来使用许可的广泛和分层同意模型是合适的。 研究界也明显同意,如果研究参与者同意接受此类结果,则应将在医学上可行、与表型密切相关并可预测不太可能被诊断出的病症的个体基因研究结果反馈给研究参与者 ,尽管在资源稀缺的情况下这可能还不可能。
可以说,今天 GWAS 面临的主要伦理挑战与多样性和包容性问题有关,确保 GWAS 产生公平的机会来促进所有人的健康和福祉,无论种族、性别或地理位置如何。 这意味着,除其他因素外,要积极努力确保用于 GWAS 的样本和数据能够代表全球人口,并且基因组学劳动力是多样化的。 同样重要的是,世界不同地区的本土研究人员在设计适合本土基因组学的文化方法和实时跟踪 GWAS 多样性方面表现出的领导作用。
越来越多的 PRS 研究和临床应用提出了关于风险信息交流的问题,并提出了有关遗传决定论的问题,即性状不可避免和无法改变的看法。 首先,PRS 已被提议作为一种基于 GWAS 结果的胚胎选择手段,这已被证明是极具争议性的。 其次,遗传决定论可能导致患者或其家人蒙受耻辱。 强有力的社区参与和缓解策略的制定对于减轻污名化的可能性至关重要,确保研究团队具有高度的文化能力也是如此。 此外,研究人员不得耸人听闻或将他们的发现与贬义的刻板印象联系起来; 后者的一个例子是将研究结果与毛利人所谓的“战士倾向”联系起来。
最后,提供遗传风险概况或遗传祖先信息的公司直接面向消费者的实验室测试的增长有时科学有效性值得怀疑,而科学家或公司通过互联网招募参与者的招募做法引发了重要的伦理挑战,包括围绕科学证据、质量 知情同意过程、维护隐私和保密、利益分享安排以及与社会正义和公平相关的挑战。 在 GWAS 和商业利益交织在一起并且非常需要发展的情况下,很少有商定的国际准则或道德行为标准。
GWAS研究与应用展望
继 2006年第一个 GWAS 发布之后,大量与性状相关的变异以及对生物学的重要见解被揭示出来。 GWAS 的当前趋势包括越来越多的跨学科方法,涵盖统计学、数据科学、遗传学和分子生物学。 随着样本量达到超过 100 万参与者以及基因分型和测序成本的降低,GWAS 越来越多地使用 WES 和 WGS 来识别罕见变异,这可能解释复杂性状中遗传力缺失的大部分(然而,参见参考文献 246 参考文献 175 中对潜在方法问题的讨论)。 最小表型分析可能是一种具有成本效益且快速获得能力的方法,深度表型分析和项目级分析对于加深我们对不同症状而非诊断的理解变得越来越重要,诊断往往是症状的集合。 最后,GWAS 领域正在扩大,以通过纳入代表性不足的人群来更好地代表全球社区。
GWAS 可以改善目前的低成功率和增加药物开发所需的成本和时间。 药物开发项目的回顾性研究表明,针对 GWAS 疾病风险基因的研究因缺乏疗效而失败的可能性较小。 当针对孟德尔谱系研究确定的罕见变体时,药物发现工作特别成功; 例如,关键胆固醇代谢调节剂 PCSK9 抑制剂用于治疗高脂血症的适应症是受到罕见 PCSK9 功能丧失变异体的发现的启发。 从 GWAS 结果中识别药物靶标现在是一个很有前途的研究领域。 直接针对 GWAS 风险基因的蛋白质产物的化合物是药物再利用的有前途的候选者; 例如,类风湿性关节炎的 CDK4/CDK6 抑制剂。 Open Targets 等数据库和 GREP253 等软件——整合了 GWAS 风险基因、化合物和临床适应症之间的连接网络——应该加速将 GWAS 疾病风险基因整合到药物发现工作中。
复杂疾病的遗传学研究可能为治疗的临床应用提供信息。 用于测量治疗反应的 GWAS 可以允许根据遗传因素将个体分为反应者和非反应者。 此外,整合多组学数据并将新的机器学习方法应用于这些数据集可以进一步改善患者分层。 考虑到即使是美国收入最高的药物也只有四分之一到二十四分之一的患者受益,因此推动基于复杂疾病遗传学的个性化医疗在伦理和经济上似乎都是必要的。
最后,GWAS 结果现在被积极用于指导生物医学科学在遗传学家和特定领域分子生物学家之间进行新颖的跨学科合作。 国际常见病联盟汇集了学术界和工业界的众多资助者和科学家,旨在利用遗传疾病图谱获得对常见疾病的生物学和医学洞察力。 同样,BRAINSCAPEs 联盟的目标是通过设计和开展 GWAS 知情的功能性后续研究来弥合遗传学和神经生物学之间的差距。 因此,未来 15 年 GWAS 的承诺是获得对更精细表型的生物学洞察,将遗传学与生物学联系起来,开发基于遗传信息的药物治疗,改进临床风险预测,并确保这些对全球社会产生积极影响。
(责任编辑:佳学基因)