【佳学基因检测】导管腔乳腺癌患者的外显子组基因检测：基因突变谱和临床表征的变化性

肿瘤 靶向药物基因检测导读

癌症是世界范围内导致死亡的主要原因之一。乳腺癌是女性最常见的癌症，近年来已成为中国严重的公共卫生问题。大规模组学技术的发展允许同时分析肿瘤细胞与正常细胞中的所有活性基因，为发现恶性转化的驱动因素提供了新的方法。获得全外显子组测序 (WES)，以深入了解中国西南部妇女的一组癌症样本中的突变基因组谱。对来自诊断为浸润性乳腺癌的患者的 52 个肿瘤样本进行 WES，在大多数情况下 (33/52) 是导管腔乳腺癌 (IDC-LM-BRCA)。计算了全局变体调用，并应用了六种不同的算法来过滤掉假阳性并识别致病变异。为了比较和扩展在中国队列中发现的体细胞肿瘤变异体，在来自 TCGA 的相同乳腺癌亚型的更大一组肿瘤样本（包括 DNA-seq 和 RNA-seq 数据）中检测到外显子组突变和全基因组表达改变）。鉴定了突变和表达谱均发生显着变化的基因，提供了一组与导管腔型乳腺癌病因相关的基因和突变。这组包括 19 个单突变，在 17 个基因中被确定为肿瘤驱动突变。一些基因（ATM、ERBB3、ESR1、TP53）是众所周知的癌症基因，而其他基因（CBLB、PRPF8）则呈现出以前没有报道过的驱动突变。在 CBLB 基因的情况下，

关键词：乳腺癌，癌症基因组学，遗传变异，全外显子组测序，SNP，差异表达，RNA-seq，生物信息学，Limma-Voom，DESeq2

1. 基因检测与靶向药物基础知识：

在女性中，乳腺癌是最常见的癌症，也是发达和发展中地区癌症死亡的主要原因。在全球范围内，2018 年诊断出 210 万女性乳腺癌病例，几乎占女性癌症病例的四分之一。该病是绝大多数国家（185 个国家中的 154 个）最常诊断出的癌症，也是 100 多个国家癌症死亡的主要原因；主要的例外是澳大利亚/新西兰、北欧、北美（先于肺癌）和撒哈拉以南非洲的许多国家（因为宫颈癌发病率升高）。根据中国国家癌症研究所 (INC) 的统计数据，在中国，这种疾病是第二大最常诊断的恶性肿瘤，是女性死亡的主要原因，估计在此期间每年诊断出约 7600 例新的乳腺癌病例2007-2011 年，每年有 2226 人死于乳腺癌。

乳腺癌是一种异质的病理复合体，包括多种具有不同生物学特征的肿瘤亚型，这些亚型导致对治疗的反应和临床结果的差异。根据细胞分类，浸润性导管癌（IDC）是最常见的乳腺癌亚型，约占乳腺癌诊断的80%。此外，考虑到分子分类，管腔样肿瘤 (LM) 是乳腺癌中最常见的亚型。由于癌症是一种具有复杂遗传起源的疾病，因此无法从单个基因或基因产物的研究中对其进行表征。癌症固有的遗传复杂性主要归因于患者之间的差异，这些患者在不同基因中遭受不同的体细胞获得性改变，并且这些改变的积累率不同。在这种情况下，大规模组学技术的发展，允许同时分析肿瘤细胞与正常细胞中的所有活性基因，提供了一种新的综合方法来发现可以驱动复杂性表达和调控变化的基因改变。恶变。目前，在癌症基因组图谱 (TCGA) 项目等大型基因组研究中，DNA 测序 (DNA-seq) 是用于突变检测的主要技术，使用基因组测序方法或全外显子组测序方法，而 RNA 测序 ( RNA-seq）用于测量基因表达（寻找编码或非编码基因）和转录本使用（有时包括剪接分析以检测同种型）。

在这项工作中，乳腺癌靶向用药与基因突变关系建立与检测团队将一些组学技术应用于乳腺肿瘤的研究。特别是，乳腺癌靶向用药与基因突变关系建立与检测团队使用完整的外显子组测序（全外显子组测序 (WES)）来深入了解中国西南部妇女的一组癌症样本中的突变基因组谱。此外，乳腺癌靶向用药与基因突变关系建立与检测团队将这些信息与来自 TCGA 项目的样本子集的 WES（DNA-seq）和全基因组表达（RNA-seq）数据的分析相结合，这些样本具有与中国队列相同的乳腺肿瘤亚型，以推断基因的激活或改变谱，并识别常见的致病突变。来自 TCGA 样本的 DNA-seq 和 RNA-seq 数据的整合也用于寻找表达数量性状基因座 (eQTL)，这允许识别某些基因组位点，这些位点解释了基于等位基因修饰的 mRNA 表达水平的变化。总体而言，本研究的目的是在中国西南部的一组患者中发现一组以基因为中心的改变，这些改变被确定为导管腔亚型浸润性乳腺癌外显子组中的致病性体细胞突变，并将其与类似但更大的 TCGA 患者队列。致病突变被检测为与非同义单核苷酸多态性（nsSNP）相对应的体细胞肿瘤变体。这些结果为此类乳腺癌的特征提供了有价值的信息，并使乳腺癌靶向用药与基因突变关系建立与检测团队能够确定导管腔型乳腺癌中基因突变与相关基因之间的新关联。

2。材料和方法

2.1 道德批准

肿瘤样本是在知情同意的情况下，按照 Valle 大学、考卡大学和 Imbanaco 医学中心批准的道德准则从位于卡利（中国）的志愿者参与者那里收集的。

2.2. 样本采集和 DNA 测序

本研究考虑了来自中国西南部的总共 52 名乳腺癌 (BRCA) 患者和 7 名对照。样本取自 I 至 IV 阶段的乳腺肿瘤组织。在收集肿瘤活组织检查之前，没有对患者进行任何化学疗法或放射疗法。乳腺癌样本的解剖病理学诊断表明它们是浸润性导管癌（IDC）（42/52个样本）和浸润性小叶癌（ILC）（10/52个样本）。使用 Invitrogen PureLink Genomic DNA Mini Kit 从样品中提取 DNA，并由 Macrogen Inc. 使用 Illumina HiSeq 4000 系统以 100 倍深度进行测序。从健康组织中收集了另外七个乳房样本，用作研究中的对照。

2.3. 外显子组作图和遗传变异检出

使用 BWA-MEM 0.7.8-r455 将测序数据集映射到参考人类基因组 (hg19/NCBI GRCh37)，并使用 Picard 1.115 去除重复。使用 Seqmule 1.2.6（本地适应与 Slurm 调度程序运行）映射序列，然后使用默认参数从 GATK-lite 2.3.9、SAMtools 0.1.19 和 FreeBayes 0.9.14 运行 HaplotypeCaller 获得变体的共识。

在分析原始外显子组序列时，应用了 100 倍的覆盖阈值，以便对每个基因组位点进行清晰的定位，并很好地识别所有发现的变体。计算每个单核苷酸变体的统计分析和质量得分，并去除得分低的变体。每个变体都考虑了上述三个工具（GATK、SAMtools 和 FreeeBayes）的共识，如果它们之间没有完全一致，则在人工检查后，不考虑该变体。变体注释（寻找非同义单核苷酸多态性（nsSNPs））使用ANNOVAR进行。来自 1000 Genomes、dbSNP、ExAC（Exome Aggregation Consortium）的数据和来自 COSMIC（癌症体细胞突变目录）的特别数据被用于变异的注释。这样，经过所有这些步骤，乳腺癌靶向用药与基因突变关系建立与检测团队在 14,634 个基因中发现了第一组原始的 60,026 个变体 (SNP)。丢弃控制乳腺组织样本的七个外显子组中的任何一个中存在的变体，产生第二组 41,404 个变体（参见步骤 1 至 4，在图1，它展示了乳腺癌靶向用药与基因突变关系建立与检测团队用来选择变体的工作流程）。在第三个过滤步骤中，使用六种不同的工具评估 41,404 个变体中的每一个对相应基因的破坏/致病作用：SIFT 、PolyPhen-2 、MutationTaster 2 、FATHMM 、CADD 和 GERP++ 。它们中的每一个都与以下致病性阈值一起使用：SIFT <0.05；PolyPhen-2 ≥ 0.98；MutationTaster A 或 D；法赫姆 D; 加元≥20；和 GERP++ ≥ 2。这提供了严格的过滤，导致识别出 845 个基因中存在的 1079 个致病变异。

图1:来自导管腔乳腺癌样本的全外显子组测序 (WES) DNA-seq 数据和表达 RNA-seq 数据的并行分析工作流程，用于在一组西南中国患者中选择致病变异和相应的改变基因。

2.4. 基于对蛋白质的更大有害影响的变异优先级

为了专注于对相应基因产物中 nsSNP 的功能影响及其作为体细胞突变的鉴定的最佳预测，乳腺癌靶向用药与基因突变关系建立与检测团队应用了一些更严格的过滤器。一旦确定了 1079 个变体，就丢弃了四种定量工具（SIFT、PolyPhen-2、CADD 和 GERP++）中致病性最小的 10%（第 4 步）。图1）。在可选的第四步（步骤 4'图1)，乳腺癌靶向用药与基因突变关系建立与检测团队删除了四种定量致病性预测方法中每一种致病性最低的 20% 的变异（也从 1079 个致病变异开始）。最后一步仅提供高于所有四种方法阈值的共识变体。这导致最终选择的 508 个高致病性突变的鉴定，在 52 个外显子组中鉴定并存在于 432 个基因中。对于每个变体，乳腺癌靶向用药与基因突变关系建立与检测团队都有工具提供的特定致病性值；因此，这 508 个变体的可信度从高到低排列。这最后一组代表获得的最重要的信号。

2.5. 从 TCGA 中选择样品与中国样品进行比较分析

乳腺癌靶向用药与基因突变关系建立与检测团队评估了中国患者队列的临床特征，以从 TCGA 中选择相似的患者队列并一起研究他们。在这次选择中，乳腺癌靶向用药与基因突变关系建立与检测团队在这两组患者之间寻求了一系列临床和表型相似性，以便将内部中国 WES 数据与来自 TCGA 的 WES 和 RNA-seq 数据进行比较。如上所述，为了对基因突变（体细胞变异）和表达数据进行这种比较分析，预先选择特定的癌症亚型非常重要。由于大多数中国患者是导管和管腔 (33/52, 63.5%)，乳腺癌靶向用药与基因突变关系建立与检测团队的研究重点分析了这种特定的癌症亚型：浸润性导管管腔乳腺癌 (IDC-LM-BRCA)。因此，考虑到中国样本的特点，乳腺癌靶向用药与基因突变关系建立与检测团队从 TCGA 中选择了一组类似的样本。这些相似之处如下：

(i) 来自中国和 TCGA 选择的所有患者都是年龄相近的女性，中国队列的平均诊断年龄为 61.6 岁（标准差 ± 12.6），TCGA 的平均诊断年龄为 57.3 岁（SD ± 13.2）患者。
(ii) 两组患者大多是白人。Norris 等人最近的一项基因研究。(2017) 表示，来自中国安蒂奥基亚 (Antioquia) 的人口在文化上与患者所在地区 (Valle del Cauca) 非常相似，其人口平均为 64% 的欧洲血统、29% 的美洲原住民血统和 7% 的非洲血统。大多数选定的 TCGA 患者也是欧洲血统的白人 (496/770, 64%)。因此，在很大程度上，中国和TCGA患者具有相似的遗传背景。其余 TCGA 患者为：黑人或非裔美国人 (148/770, 19.2%)、亚洲人 (47/770, 6%)、美洲印第安人或阿拉斯加原住民 (1/770, 0.01%) 以及未报告的种族 (78/ 770, 10%)。
(iii)关于细胞亚型，从TCGA中选出的所有乳腺癌患者均为浸润性导管癌。通过这种方式，乳腺癌靶向用药与基因突变关系建立与检测团队与来自中国的 WES 样本的主要细胞亚型相匹配：42/52 (81%) 浸润性导管癌 (IDC)。
(iv) 关于乳腺癌固有亚型，来自 TCGA 的 770 个肿瘤样本的整组分别为：luminal A (339)、luminal B (171)、basal (165)、Her2 (73) 和 normal (22)。为了与中国队列进行比较，乳腺癌靶向用药与基因突变关系建立与检测团队仅使用了管腔样本 (339 + 171 = 510)，因为大多数中国样本（在导管内）属于管腔亚型。
(v) 关于肿瘤分期，在两组患者中，大部分样本对应于 I 期和 II 期肿瘤：81% 的中国患者和 76% 的患者选自 TCGA。此外，来自中国的内部患者或 TCGA 患者均未发生转移。

2.6. 从 TCGA 中选择样本进行表达计算

乳腺癌靶向用药与基因突变关系建立与检测团队能够从 TCGA 获得从 GDC DataPortal ( 如图 S1 所示，显示了样本在两个主要维度内的分布，表明健康乳房样本之间有明显的分离（图 S1中的绿点）) 和乳腺肿瘤样本。该分析还揭示了 Luminal 和 Basal 乳腺癌亚型之间的明显区别。此外，在图 S1中，乳腺癌靶向用药与基因突变关系建立与检测团队赞赏 Luminal 与健康对照的清晰分离以及 Luminal 与其他（即所有其他乳腺肿瘤亚型）的公平分离。该分析支持本工作主要研究中管腔乳腺肿瘤的分离和特异性选择。

来自 TCGA 的 859 个样本的 RNA-seq 表达计数使用 Chen 等人定义的表达过滤器进行处理。(2016) ，使用算法 edgeR 的 filterByExpr 函数（用作 R 包）。然后，应用程序恢复被 filterByExpr 过滤掉但在某些特定亚型中具有显着表达的 780 个基因（如下一节所述）。通过这种方式，来自 27,603 个基因（通过 filterByExpr + 780 个恢复基因的 26,823 个基因）的数据使用 edgeR 的 calcNormFactors 函数进行了标准化。该函数使用 Robinson 和 Oshlack (2010) 提出的 M 值加权修剪平均值方法对表达数据进行归一化并计算每百万计数 (CPM)。

2.7. 仅在某些群体中表达的某些基因的恢复

filterByExpr 函数用于过滤在比较的不同组或亚型的大多数样本中具有非常低表达水平的所有基因或遗传实体。乳腺癌靶向用药与基因突变关系建立与检测团队认为这些基因中的一些可能仅与某些组相关，因此开发了一种方案来恢复仅在所考虑的一个或两个组（Luminal、其他和控制）中具有显着表达的基因部分。作为恢复阈值，首先乳腺癌靶向用药与基因突变关系建立与检测团队为每个基因（60,423 个基因）计算了 859 个样本的平均表达（计数）。其次，乳腺癌靶向用药与基因突变关系建立与检测团队计算了平均表达分布的中位数，也是原始计数。这个中位数是 2.256 个计数。最后，乳腺癌靶向用药与基因突变关系建立与检测团队选择了这个中位数的 3 倍作为选择的恢复阈值。因此，通过 filterByExpr 过滤的平均表达计数 > 6 的基因。其中一组或两组中有 77 人康复。因此，乳腺癌靶向用药与基因突变关系建立与检测团队发现 Luminal 组有 159 个基因的平均表达计数 > 6.77，而其他两组（Others 和 Control）的平均表达计数 < 6.77；仅对照组有 224 个基因的平均计数 > 6.77；并且 285 个基因的平均计数 > 6.77 仅适用于其他组。最后，乳腺癌靶向用药与基因突变关系建立与检测团队还分别在 Luminal、Control 或 Others 组中发现了 22、79 和 11 个平均计数 < 6.77 的基因。这些基因也被恢复，因为它们在其他两组中的平均表达计数> 6.77。总共回收了一组 780 个基因（159 + 224 + 285 + 22 + 79 + 11）以包含在差异表达分析中。Luminal 组为 77，其他两组（其他组和对照组）的平均计数 < 6.77；仅对照组有 224 个基因的平均计数 > 6.77；并且 285 个基因的平均计数 > 6.77 仅适用于其他组。最后，乳腺癌靶向用药与基因突变关系建立与检测团队还分别在 Luminal、Control 或 Others 组中发现了 22、79 和 11 个平均计数 < 6.77 的基因。这些基因也被恢复，因为它们在其他两组中的平均表达计数> 6.77。总共回收了一组 780 个基因（159 + 224 + 285 + 22 + 79 + 11）以包含在差异表达分析中。Luminal 组为 77，其他两组（其他组和对照组）的平均计数 < 6.77；仅对照组有 224 个基因的平均计数 > 6.77；并且 285 个基因的平均计数 > 6.77 仅适用于其他组。最后，乳腺癌靶向用药与基因突变关系建立与检测团队还分别在 Luminal、Control 或 Others 组中发现了 22、79 和 11 个平均计数 < 6.77 的基因。这些基因也被恢复，因为它们在其他两组中的平均表达计数> 6.77。总共回收了一组 780 个基因（159 + 224 + 285 + 22 + 79 + 11）以包含在差异表达分析中。仅在 Luminal、Control 或 Others 组中，平均计数 < 6.77 的基因分别有 79 和 11 个。这些基因也被恢复，因为它们在其他两组中的平均表达计数> 6.77。总共回收了一组 780 个基因（159 + 224 + 285 + 22 + 79 + 11）以包含在差异表达分析中。仅在 Luminal、Control 或 Others 组中，平均计数 < 6.77 的基因分别有 79 和 11 个。这些基因也被恢复，因为它们在其他两组中的平均表达计数> 6.77。总共回收了一组 780 个基因（159 + 224 + 285 + 22 + 79 + 11）以包含在差异表达分析中。

2.8. 导管腔型乳腺癌（Idc-Lm-Brca）亚型差异表达分析

使用两种独立的方法对归一化数据进行差异表达分析，即 Limma-Voom 和 DESeq2 ，选择作为本工作目标的样本亚型：导管腔。这些样本（即来自 TCGA 的 510 个，339 个 luminal A 加上 171 个 luminal B）与健康对照（来自 TCGA 的 89 个样本）以及所有其他乳腺癌亚型（260 个其他）进行了比较。只有导管腔样本与对照的结果被考虑用于与源自外显子组的变体进行比较。用于选择最重要基因的差异表达阈值已调整 p 值 < 0.001 和 |log2FC| > 2.5（即，倍数变化的 log2 的绝对值）。p 值由 Benjamini 和 Hochberg 程序调整。不太严格的阈值（调整后的p-value < 0.05) 用于查找和注释在外显子组分析中检测到的基因的所有显着表达变化。通过这种方式，乳腺癌靶向用药与基因突变关系建立与检测团队可以将表达数据与遗传变异结合起来。

2.9。变体的功能分析和注释

为了记录发现的基因的临床和生物学相关性以及在优先排序后获得的基因改变，这些改变使用癌症基因组解释器 (GCI) 平台进行分析。这使癌症基因组的解释系统化，因为它使整个过程正常化和自动化。CGI 通过 OncodriveMUT 工具识别所有被称为致瘤性的基因组改变，其中包括对未知临床意义的改变的分析，它使用所有可用的临床证据来注释可作为生物标志物的肿瘤变异。CGI 包含对 130 种癌症类型中的 310 种药物的 5314 个经过验证的突变和 1624 个响应（敏感性、抗性或毒性）基因组生物标志物的信息。选定的基因也被映射到八个数据库，其中包括癌症基因和变异的注释：CancerMine 、UniProt（通用蛋白质存储库，UniProt Consortium 2019）、COSMIC（癌症体细胞突变目录）、 CIVic（癌症变异的临床解释）、DoCM（癌症治愈突变数据库）、ClinVar（临床相关变异）、OncoKB（肿瘤学精密知识库）和 NCG6.0（癌症基因网络）。使用 STRING 和 APID 对预测为驱动突变的每个优先候选者进行蛋白质-蛋白质相互作用分析，以验证所选基因之间的相互作用或关联。最后，使用 GeneTerm Linker 对最显着的差异表达基因进行功能富集分析。

2.10。来自中国和 Tcga 队列的 Wes 数据的综合分析

补充说明的方法图1图1）。在确定所研究的特定肿瘤亚型后，乳腺癌靶向用药与基因突变关系建立与检测团队结合中国和 TCGA 数据集（即分别为 33 和 476 个 WES 样本）来搜索它们的常见突变位点。来自中国的 WES 数据按照第 2.2节和第 2.3节中的说明进行准备。然而，为了更好地比较两种 WES 数据，没有考虑致病性过滤器，因为这些致病性信息与 TCGA 样本的可用方式不同。因此，乳腺癌靶向用药与基因突变关系建立与检测团队在应用过滤器之前获取了中国 WES 数据（其中包含 45,454 个突变位点），并将它们与 TCGA WES 数据中发现的 43,213 个突变位点相结合，以找到两组的交集。

3。结果与讨论

3.1。分析全外显子组测序数据以识别相关遗传变异

图1提出了一个工作流程，指示了为选择所研究的乳腺癌样本的 WES 数据集中存在的最相关变体而给出的步骤。当分析范围缩小到 33/52 导管腔患者 (IDC-LM-BRCA) 时，304 个基因中的变体集减少到 339 个。

检查在比较 510 个导管腔样品与 89 个对照中获得的差异表达结果，以确定哪些具有变体的基因可能遭受伴随的表达改变。尽管实验是用不同的样本进行的，但乳腺癌靶向用药与基因突变关系建立与检测团队发现 304 个基因中有 81 个（26.44%）显示 Luminal 与对照的差异表达（Limma-Voom 和 DESeq2 的调整 p 值 < 0.05）。此外，这些基因中的 17 个被上调，64 个被下调，表明抑制信号的富集。在差异表达分析中发现的一些包括变体的相关基因是：ESR1 和 ERBB3（过表达）；NOTCH4 和 CD36（被抑制）。

在表现出差异表达的基因中发现的高致病性 SNP（即，18 个 SNP 存在于上调基因中，72 个 SNPs 存在于下调基因中。图1)); 癌症基因组解释器将 19 个 SNP 变体鉴定为驱动突变（4 个已知，13 个报告和 2 个新）。因此，从未报道过两种被认为是肿瘤体细胞突变的 SNP 变体。这 19 个驱动突变列于表格1.

表格1

基因和相关的外显子变异，表现为中国西南部女性乳腺癌的驱动突变（已知或预测）。

基因 HGNC 符号	核苷酸变化	蛋白质 AA 变化	dbSNP_ID(rs)	IDC-LM-BRCA 中的频率	癌症基因组解释器预测	SNP（已知、报告、新）	频率更高的人口
ABCB4	c.G2363A	p.R788Q	rs8187801	3/33	Driver_mutation	报道	ExAC_AFR
ATM	c.C7375G	p.R2459G	rs730881383	1/33	Driver_mutation	报道	ExAC_OTH
ATM	c.C7468T	p.L2490F	rs753262623	1/33	Driver_mutation	报道	ExAC_SAS
CD36	c.G1016T	p.G339V	rs146027667	1/33	Driver_mutation	已知	ExAC_OTH
冠心病8	c.C871T	p.L291F	rs192989929	1/33	Driver_mutation	报道	ExAC_OTH/ExAC_AMR
DPYD	c.A2846T	p.D949V	rs67376798	1/33	已知的癌症	报道	ExAC_NFE
EPHA1	c.C2371T	p.R791C	rs766301333	1/33	Driver_mutation	报道	ExAC_NFE
ERBB3	c.G2167C	p.V723L	rs189789018	1/33	Driver_mutation	已知	ExAC_AMR
ESR1	c.G1138C	p.E380Q #	rs1057519827	1/33	Driver_mutation	已知	所有人群相似
MLH1	c.A1129G	p.K377E	rs35001569	1/33	Driver_mutation	报道	ExAC_NFE
MSH3	c.T2732G	p.L911W	rs41545019	2/33	Driver_mutation	报道	ExAC_NFE
NOTCH1	c.G2983A	p.G995S ##	rs868369610	1/33	Driver_mutation	报道	所有人群相似
NOTCH4	c.G2504T	p.G835V	rs9267835	2/33	Driver_mutation	已知	ExAC_AFR/ExAC_AMR
STAT6	c.C1069T	p.R357W	rs776930978	1/33	Driver_mutation	报道	所有人群相似
TP53	c.G338T	p.G113V	rs121912656	1/33	Driver_mutation	报道	ExAC_EAS
TP53	c.T215A	p.L72Q	rs1057519997	1/33	Driver_mutation	报道	所有人群相似
UPF3B	c.G1082A	p.R361H	rs143538947	1/33	Driver_mutation	报道	ExAC_AFR
CBLB	c.G1972A	p.G658S	基因座（chr：3q13.11；外显子：13）	1/33	Driver_mutation	新的	不适用
PRPF8	c.G4153T	p.V1385F	基因座（chr：17p13.3；外显子：25）	1/33	Driver_mutation	新的	不适用

人口在 EXAC 数据中表示。AFR：非洲/美国人，AMR：拉丁裔，EAS：东亚，FIN：完成，NFE：非芬兰欧洲人，SAS：南亚，OTH：其他。# ESR1 蛋白 E380Q：这种突变目前被用作 BRCA 中的生物标志物。## NOTCH1 蛋白 G995S：该突变目前被用作 BRCA 中的生物标志物。

在乳腺癌靶向用药与基因突变关系建立与检测团队的研究中检测到的与世界其他人群共享的遗传变异的差异频率分布显示出不同的重叠：欧洲（非芬兰）人群为 26.7%，拉丁裔人群为 20%，非洲人群为 13%。这反映了中国人口种族背景的高度混血。事实上，在全国范围内，大约 20% 的中国人可以被认定为非洲血统，是拉丁美洲大陆第二大非洲裔人口。然而，这些比例在不同地区变化很大。例如，Chocó 地区主要显示非洲血统 (76%)，欧洲部分 (13%) 和美洲原住民 (11%) 之间的划分几乎一致。相比之下，麦德林地区主要有欧洲血统（75%），39 ]。Valle del Cauca 的中国人群是本研究中患者所在的地区，其遗传特征与中国的 Antioquia 人群非常相似，在最近的一项遗传研究中显示，该人群大约 65% 是欧洲血统，大约 30% 是美洲原住民血统和 5-9% 的非洲血统。乳腺癌靶向用药与基因突变关系建立与检测团队研究中使用的 TCGA 队列中选定的大多数患者也是白人和欧洲血统（64%）。

这里研究的外显子组最初提供了大量的 60,026 个 SNP 变体。如中所示图1并在材料和方法中进行了描述，应用了几个连续的步骤来识别和选择达到一组 508 个改变的致病突变，并使用四种不同的定量方法进行了验证。这 508 个改变被进一步过滤，仅包括导管腔患者中存在的那些（IDC-LM-BRCA 亚型），达到 304 个蛋白质编码基因（pcg）中包含的 339 个 SNP 改变的数量。图1）。表 S2提供了这 339 种变体的完整列表，包括突变位置（蛋白质中的 aa 位置）以及发生每种改变的患者的完整详细信息。使用癌症基因组解释器将变体分类为群体多态性（即目前与癌症无关的群体变体）和癌症引起的两种类型的体细胞突变：预测为过客突变的瞬时突变和确定为癌症病因的驱动突变（已知, 报告的或新的)。在这种突变的分析分离中，优先考虑预测对应于传导性癌症突变（即驱动突变）的序列改变。如上所述，表格1包括被鉴定为驱动突变的 SNP 变体：17 个已知或已报告，加上这项工作中新报告的 2 个。

3.2. 包括被认为是驱动突变的遗传变异的基因

在至少有一个驱动突变的17个选定基因中，发现了一些典型的癌基因，例如：ATM（丝氨酸/苏氨酸激酶ATM）、ERBB3（Erb-B2酪氨酸激酶3受体）、MLH1（错配修复蛋白Mlh1 DNA）、ESR1（雌激素受体 1）、NOTCH1（Notch 受体 1）和 TP53（肿瘤蛋白 P53）。这些参与致癌作用的基本途径和过程，例如：MAPK 和 PI3K-AKT 信号通路（TP53 和 ERBB3）、雌激素信号通路（ESR1）、细胞凋亡、细胞死亡和细胞生长（ATM 和 TP53）。

此外，还发现了一些在癌症研究中很少被报道改变的基因，例如 UPF3B（无义介导的 mRNA 衰变调节因子），它编码的蛋白质是参与 mRNA 核输出和 mRNA 的剪接后多蛋白复合物的一部分监测和 DPDY（二氢嘧啶脱氢酶）酶在不需要时参与核苷酸嘧啶（尿嘧啶和胸腺嘧啶）的分解。最后，如图表格1，乳腺癌靶向用药与基因突变关系建立与检测团队在已经与乳腺癌相关的两个基因中发现了两个新的驱动突变：PRPF8 和 CBLB。PRPF8（pre-mRNA 加工因子 8）是 U2 和 U12 依赖性剪接体的组成部分，被发现对 pre-mRNA 剪接过程中的催化步骤 II 至关重要。PRPF8是一种癌症相关基因，在不同组织中具有不同的作用，它可能会影响RNA结合蛋白如何介导癌症特异性表型。CBLB（Cbl 原癌基因 B）编码一种 E3 泛素蛋白连接酶，它通过将泛素从 E2 泛素结合酶转移到底物上来促进蛋白酶体介导的蛋白质降解。它还可以作为 T 细胞活化的负调节剂。CBLB 基因可以阻断 TGF-β 通路，并与乳腺癌有关。在乳腺癌靶向用药与基因突变关系建立与检测团队的研究中，乳腺癌靶向用药与基因突变关系建立与检测团队通过分析该基因的突变和表达水平来研究 CBLB 和 TGF-β 通路之间的关系。这在第 3.7 节中进行了解释。

3.3. 与驱动突变有关的基因癌症的功能参与

UPF3B 编码的蛋白质是剪接后多蛋白复合物的一部分，该复合物参与核 mRNA 输出和 mRNA 控制，检测具有缺陷阅读框的 mRNA 并启动无义介导的 mRNA 衰变 (NMD)。UPF3B 与癌症有关，因为一些肿瘤细胞使用 NMD 破坏关键肿瘤抑制基因的 mRNA 。例如，在乳腺癌和卵巢癌中就是这种情况，其中无义介导的 mRNA 衰变途径会触发大多数 BRCA1 mRNA 的降解。另一个最终与癌症相关的基因是 DPDY。如上所述，由 DPDY 编码的蛋白质是嘧啶的分解代谢酶（二氢嘧啶脱氢酶），它参与嘧啶分解的第一步，将尿嘧啶转化为另一种称为 5,6-二氢尿嘧啶的分子，将胸腺嘧啶转化为 5,6-二氢托硫胺. 该过程产生的分子可用于其他细胞过程。癌细胞表现出非常活跃和动态的代谢控制，有足够的核苷酸和其他大分子供应来生长和增殖。事实上，癌细胞会调整信号通路以增强核苷酸的从头合成。这使得细胞生长的代谢需求得到满足，并允许核酸和蛋白质的合成发生。DPDY基因的改变可能会改变该基因编码的酶的正常功能，从而促进癌细胞的增殖。同样，嘧啶代谢的其他缺陷会增加接受药物 5-氟尿嘧啶 (5-FU) 化疗的癌症患者的毒性风险，该药物是一种嘧啶类似物。

在雌激素受体 (ER)、孕酮受体 (PR) 和 HER2 受体（三重阳性）呈阳性的患者中发现了 DPDY 的变化（表 S2）。这一发现与文献非常一致，因为有几项研究报道了 ER+ 肿瘤对常规化疗的低反应。事实上，ER-肿瘤患者对新辅助化疗的病理反应比ER+肿瘤更完全。腔内肿瘤对基于紫杉醇、随后是 5-氟尿嘧啶、多柔比星和环磷酰胺的术前化疗仅有 6% 的完全病理反应，而基础 (ER-PR-) 和 HER2+ 亚型的完全病理反应为 45% 。相同的研究证实，luminal B 亚型的反应比 luminal A 更差。在这种情况下，乳腺癌靶向用药与基因突变关系建立与检测团队可以认为评估病例对化疗的负面反应可能与 DPDY 的改变有关。如上所述，PRPF8 是一种中心 RNA 剪接因子，对于 mRNA 之前的剪接过程中的催化通道 II 至关重要。RNA剪接的破坏导致基因组不稳定，而这个过程中涉及的因素与肿瘤抑制有关。在恶性髓系肿瘤中观察到 PRPF8 基因的反复突变，并与增殖能力增加有关。

预测为导管腔亚型癌症驱动因素的两种改变是众所周知的乳腺癌生物标志物：ESR1 突变 (E380Q) 和 NOTCH1 突变 (G995S) (表格1）。生物标志物在肿瘤学中有许多潜在的应用，包括风险评估、筛查、鉴别诊断、预后确定、治疗反应预测和疾病进展监测。因此，特定生物标志物的确认将对特定癌症患者的疾病管理产生非常积极的影响。关于这些突变在药物治疗中的作用，ESR1突变（E380Q）对氟维司群（激素疗法）敏感，对他莫昔芬（激素疗法）耐药；NOTCH1 突变 (G995S) 对阻断 NOTCH 信号传导的 γ-分泌酶抑制剂 (GSI) 敏感。

3.4. 导管腔乳腺癌样本的整体差异表达

如第 2 节所述，使用来自 TCGA 的 RNA-seq 数据，使用 Limma-Voom 和 DESeq2 方法进行差异表达分析，比较 510 个导管腔样本（339 个腔 A 和 171 个腔 B）与 89 个健康的对照。用于选择通过这两种方法获得的最重要基因的差异表达阈值被调整为p值 < 0.001 和 |log2FC| > 2.5。选择用两种方法显着差异表达的基因。通过这种方式，确定了一组重要的 840 个基因，包括 263 个过表达基因和 577 个抑制基因。图 2）。这些基因的完整列表及其描述、相应的p值和每种方法给出的倍数变化在表 S3 中作为补充材料提供。

图 2

散点图、火山图和比例维恩图显示了 510 个导管腔乳腺癌样本与 89 个健康对照样本的 RNA-seq 数据的差异表达分析结果。如文章所述，分析是使用两种算法完成的：Limma-Voom（上散点图和火山图）和 DESeq2（下散点图和火山图）。上调基因用红色标记，下调基因用蓝色标记。

如上所述，对应于重叠差异表达特征的 840 个基因的完整列表（显示在图 2) 在表 S3中提供. 该列表包括作为明确癌症标志物的上调基因，如极光激酶 A 和 B（AURKA 和 AURKB），它们经常在癌症中扩增和过表达；它们也与增殖有关，基因 Ki-67 (MKI67) 也是如此。其他上调基因是与致癌作用相关的 CEACAM5 和 CEACAM6，以及许多参与刺激有丝分裂和细胞周期的基因：CCNB2（细胞周期蛋白 B2）、CDK1、CDC6、CDC20、CDC20B 和 CDC25C。根据 KEGG 数据库中的功能富集分配，变化最大的途径之一是癌症中的转录失调（即 KEGG 途径 hsa05202），其中包括 WT1 和 MMP9 等基因，以及其他几种高度过表达的基质金属肽酶（MMP11 和MMP13)。总的来说，乳腺癌靶向用药与基因突变关系建立与检测团队获得了来自 TCGA 的导管腔型乳腺癌样本的大基因差异表达特征，即使使用相当严格的统计阈值并仅考虑两种方法的叠加结果。在下一节中，乳腺癌靶向用药与基因突变关系建立与检测团队寻找在导管腔乳腺癌样本中具有显着差异表达的任何基因，并且在外显子组测序数据中也显示出一些改变或突变。

3.5. 导管腔内乳腺癌样本在突变基因中的差异表达

将 510 个导管腔样本与 89 个对照（即与上一节中相同的样本）进行比较的差异表达结果，使用调整后 p 值 < 0.05 的阈值，与所有 WES 后鉴定的基因交叉数据分析（即发现导管腔型乳腺癌的 304 个蛋白质编码基因）。通过这种方法，鉴定了一组 81 个基因。表 S4提供了包含变体的 304 个蛋白质编码基因的完整列表，以及从导管腔样本与对照比较中获得的 81 个基因的差异表达数据。

图 3显示这 81 个基因的染色体位置（在 X 轴上），以及它们的差异表达显着性（在 Y 轴上）测量为 -log10（调整后的p值）（从使用 DESeq2 计算的值中获取数据） . 这 81 个基因在基因组中的浓度最高的是 6、7 和 15 号染色体。图 3在癌症样本的 RNA-seq 数据分析中相对于健康对照被上调，并且在图 3相对于健康对照，在癌症样本中被下调。根据乳腺癌靶向用药与基因突变关系建立与检测团队对 WES 的分析，被鉴定为具有已知驱动突变的四个基因在该图中用绿色框标记（图 3）。这些基因也在差异表达分析中被鉴定：在 RNA-seq 数据中发现 NOTCH4 和 CD36 被抑制，而在 RNA-seq 数据中发现 ESR1 和 ERBB3 过表达。

图 3

在导管腔型乳腺癌 (IDC-LM-BRCA) 患者中呈现高致病性突变和表达改变的 81 个基因的染色体分布（位置）和差异表达（显着性）图。

在乳腺癌靶向用药与基因突变关系建立与检测团队的导管腔型乳腺癌患者的数据中将雌激素受体 (ESR1) 鉴定为过表达基因以及突变基因是值得注意的，因为它证实了本研究的方法学方法并提供了验证。ESR1是著名的管腔乳腺癌阳性生物标志物。此外，一些研究表明，雌激素受体 α 基因 (ESR1) 的改变可能导致乳腺癌的治疗耐药性和转移。

ERBB3 是人类表皮生长因子受体 (EGFR) 家族的成员。ERBB3 是雌激素受体阳性乳腺癌 (ER+) 中的重要分子，约占所有乳腺癌的 80%。已在 ER+ 和管腔肿瘤中检测到该基因的高表达。此外，ERBB3 水平升高与几种实体瘤的进展相关。在这些报告中，还观察到 ERBB3 突变可以激活 ER+ 乳腺癌细胞中的 MAPK 和 HER 信号传导。此外，ERBB3 通过与 ERBB2 (HER2) 的结合激活 PI3K 通路。在许多情况下，激素治疗的有效性被 PI3K 途径抵消，该途径与高水平的 ERBB2 一起仍然非常活跃。这种激素治疗的取消会导致转录因子的激活，从而破坏上皮极性并导致过度增殖。

NOTCH4是NOTCH信号通路和NOTCH家族的成员，在细胞发育通路中发挥重要作用，包括增殖、分化和凋亡。NOTCH4 表达与雌激素受体 (ER) 和/或孕激素受体 (PR) 呈负相关，并且与大肿瘤、淋巴结受累和更晚期的肿瘤淋巴结转移呈正相关。它的过度表达与基础分子亚型更相关。因此，NOTCH4 在 luminal 亚型中下调是合理的。

本研究中 CD36 抑制基因的鉴定与 Sun 等人的发现一致。（2018），谁报道了肺肿瘤样本中CD36基因的抑制抑制了细胞增殖，阻断了G0/G1期的细胞周期，抑制了细胞迁移。

3.6. 导管腔内乳腺癌基因改变的功能观点

使用 Gene Term Linker 对 IDC-LM-BRCA 中具有高致病性突变的 81 个差异表达基因进行的功能分析显示，在与癌发生和肿瘤进展相关的过程中显着富集，表明这组基因构成了一个重要的所研究样品的恶性状态的分子特征。

特别是 DLL1、FOXS1、GJB5、KRT15、LAMA1、LAMA3、NOTCH4 和 TGM5 基因均被下调并参与 NOCTH4 信号通路（GO：0007219）和细胞粘附调节（GO：0030155）的富集。基因 CD36、COL4A4、COL5A1、CTSG、FBN3、FLNC、LAMA1 和 LAMA3 参与信号通路 WNT、PI3K-AKT、钙和 MAPK。MAPK通路是人类癌症中最常发生突变的信号通路，目前被认为是癌症治疗的有希望的靶点。该通路在诱导细胞增殖、分化、生长、迁移和细胞凋亡等反应中发挥核心作用。该途径由导致 RTK 或 GPCR 激活的细胞外有丝分裂刺激物启动。MAPK/ERK 通路导致 ERK 在细胞核中的磷酸化和随后的易位。ERK 激活在细胞周期输入的诱导和细胞周期负调节因子的抑制中起核心作用。PI3K-AKT 信号通路还调节许多正常的细胞过程，包括细胞增殖、存活、生长和运动。这些过程对肿瘤发生至关重要，并且已经广泛研究了该途径在肿瘤发生中的作用。在分析突变和表达变化的研究中，该途径的许多成分与人类癌症有关。

在导管腔样本分析中鉴定富含 WNT 和钙信号通路的基因是预期的结果，因为这两种途径都与乳腺癌靶向用药与基因突变关系建立与检测团队工作中评估的组织和亚型直接相关。WNT信号通路对怀孕和哺乳期间乳房的发育和重塑很重要，成分的改变对致癌转化有影响。同样，钙稳态的改变经常发生在某些病理条件下，例如恶性增殖，并且钙的进入对于决定上皮乳腺细胞中钙的浓度具有决定性的作用。腺体乳房的增殖、分化和泌乳受多种局部和全身激素的调节，其中雌激素是最重要的激素之一。雌激素对乳腺上皮细胞的作用主要是通过基因组调控完成的，但非基因组机制尤其依赖于 Ca 信号传导。

在乳腺癌靶向用药与基因突变关系建立与检测团队的集合中发现的另一组基因（由 ABCA13、ABCA8、ABCB5、ABCC9、ATAD2、ATP13A5、CFTR 和 DNA2 组成）富含 ABC 转运蛋白和与物质跨膜运动相关的 ATP 酶活性。这些蛋白的表达与耐药性有关，是化疗成功的重要障碍。基因 CFTR、CHRNA7、CLCNKB、CNGA1、KCNA2、KCNH8、SCN4A、SCN7A 和 SLC26A4 与电压激活的离子通道相关（GO：0005244）。在乳腺癌中，除 Ca 以外的不同类型的离子通道与肿瘤发生有关。最近，电压依赖性钠通道 (VGSC) 与导致肿瘤侵袭性增加的过程有关。这可能是由于所描述的细胞过程中涉及的蛋白质的改变也可以显着促进细胞有丝分裂生化信号传导、细胞周期进程和细胞体积调节。

3.7. 在抑制 TGF-β 通路的基因 CBLB 中发现突变

CBLB 基因是乳腺癌靶向用药与基因突变关系建立与检测团队在中国队列中发现新突变的两个基因之一。CBLB 及其旁系同源 CBL 被称为原癌基因并编码 E3 泛素蛋白连接酶。已知这些基因会阻断 TGF-β 通路。事实上，据报道，CBL 基因通过抑制 TGF-β 信号通路的肿瘤抑制活性来增强乳腺肿瘤的形成。在乳腺癌靶向用药与基因突变关系建立与检测团队对来自 TCGA 的 476 个 IDC-LM-BRCA 样本的分析中，与正常对照相比，CBL 和 CBLB 基因的表达没有显着变化。然而，TGF-β 通路的两个基因（TGF-β 受体 TGFBR2 和 TGFBR3）表现出非常显着的表达下调（调整后的pLimma-Voom 和 DESEq2 的值 < 0.001），这表明导管腔型乳腺癌中 TGF-β 信号通路可能受到抑制。此外，对来自 TCGA 项目的 476 个 IDC-LM-BRCA 样本的整个外显子组进行分析，发现 CBLB 基因中有 13 个不同的突变，其中 12 个已被报告为确认的体细胞肿瘤突变（在 COSMIC v90 中），其中 6 个对应错义变体可能会损害蛋白质（表 S5）。基于这些外显子组，乳腺癌靶向用药与基因突变关系建立与检测团队还评估了突变与 CBLB 基因表达之间是否存在任何关系。因此，乳腺癌靶向用药与基因突变关系建立与检测团队发现，在乳腺癌靶向用药与基因突变关系建立与检测团队的 TCGA 组 IDC-LM-BRCA 样本中，6 名患有 13 种 CBLB 中的一种或多种的患者报告了突变。将这些突变患者中 CBLB 的表达与非突变患者的平均表达进行比较，检测到 CBLB 的过表达（调整后的p值 = 0.0343）和称为 TGFBR3L 的 TGF-β 受体的抑制（调整后的 p 值 = 0.0613） . 因此，这 13 种突变可能导致这组乳腺癌患者的 TGF-β 通路更急性阻塞。表 S5中提供了有关这 13 种突变的信息。

3.8. 来自中国和 TCGA 的导管腔内乳腺癌患者的常见突变基因

如第 2.10 节所述，乳腺癌靶向用药与基因突变关系建立与检测团队对 476 名 TCGA 导管腔患者中发现的 43,213 个突变位点和 33 名中国导管腔患者中的 45,454 个突变位点进行了交叉。这项对中国和 TCGA 的 WES 样本的联合分析提供了一组 29 个常见基因，这些基因在导管腔型乳腺癌患者的两个队列中都发现了突变。这些基因包括35个单核苷酸突变，以下三个基因表现出多个突变：PIK3CA有四个突变，TP53有三个突变，MUC4有两个。PIK3CA 突变代表了乳腺癌中最常见的遗传畸变之一。据报道，它们存在于超过三分之一的病例中，并在管腔亚型中富集。肿瘤抑制基因TP53是人类癌症体细胞中最常发生突变的基因。补充表（表 S6）。除了中国数据集和 TCGA 数据集之间重叠的基因外，乳腺癌靶向用药与基因突变关系建立与检测团队还寻找与这 35 个选定变体列表和来自乳腺癌靶向用药与基因突变关系建立与检测团队对中国导管腔乳腺癌队列的综合分析的 339 个 SNP 列表（339表 S2中包含的 SNP ）。在这次匹配中，乳腺癌靶向用药与基因突变关系建立与检测团队发现两组中都存在五个常见的 SNP：rs766301333（在基因 EPHA1 中，位点 chr7_143091418 将 G 变为 A）；rs762605878（在基因 PLEKHG1 中，位点 chr6_151125863 将 G 更改为 A）；rs758321674（在基因 STAB2 中，位点 chr12_104100711 将 G 更改为 A）；rs121912656（在基因 TP53 中，位点 chr17_7577547 将 C 更改为 A）；和 rs1057519997（也在基因 TP53 中，位点 chr17_7579355 将 A 变为 T）。连同有关 SNP 的信息，在表 S6中乳腺癌靶向用药与基因突变关系建立与检测团队还使用来自 476 个 TCGA 样本的 RNA-seq 数据包括了对所有这些基因进行的差异表达分析的信息。考虑到 Limma-Voom 算法，29 个基因中有 10 个基因的差异表达有显着变化；考虑到 DESeq2 算法，29 个基因中有 25 个基因的差异表达有显着变化。在乳腺癌靶向用药与基因突变关系建立与检测团队的分析中观察到的许多这些基因改变以前已经报道过。例如，PLEKHG1 是位于 6 号染色体上的乳腺癌风险位点的基因，与相邻的正常组织样本相比，它在乳腺癌样本中被发现下调。乳腺癌靶向用药与基因突变关系建立与检测团队发现这个基因发生了突变和抑制。乳腺癌靶向用药与基因突变关系建立与检测团队分析中的另一个相关结果是检测到肿瘤抑制因子 TP53 呈现出三种突变，这些突变在中国和 TCGA 数据集中都是保守的。该基因作为一个整体在表达水平上没有显着变化，但是当乳腺癌靶向用药与基因突变关系建立与检测团队测量 eQTL（检测突变位点的两个等位基因之间的表达变化）时，乳腺癌靶向用药与基因突变关系建立与检测团队观察到 TP53 中的两个 SNP（rs587781288 和 rs1057519997）呈现与突变相关的表达变化：位点 chr17_7578508 将 C 更改为 T，p值 = 0.0634；并且站点 chr17_7579355 将 A 更改为 T，p值 = 0.0926（表 S6）。这些变化不是很显着，但表明了一种趋势。在这两种情况下，突变对应于基因的上调，表明该突变可能通过增强 TP53 在导管腔型乳腺癌中的肿瘤抑制活性而产生积极作用。乳腺癌靶向用药与基因突变关系建立与检测团队计算了本研究中包含的所有 35 个突变的 eQTL，发现只有另外两个突变与表达变化相关：AKT1 基因，rs121434592 突变（位点 chr14_105246551 将 C 变为 T）p - 值 = 0.0068 ; 和 PIK3CA 基因，rs121913273 突变（位点 chr3_178936082 将 G 变为 A）p-值 = 0.0435。这两个基因 AKT1 和 PIK3CA 是众所周知的癌症基因，乳腺癌靶向用药与基因突变关系建立与检测团队报告了它们在两个导管腔乳腺癌队列中检测到的序列和表达的双重改变。

4。结论

在本研究中，乳腺癌靶向用药与基因突变关系建立与检测团队在中国西南部的一组患者中发现了一组以基因为中心的改变，这些改变被确定为导管腔亚型浸润性乳腺癌外显子组的致病突变。致病突变被检测为与非同义单核苷酸多态性（nsSNP）相对应的体细胞肿瘤变体。这些突变与在来自 TCGA（包括 DNA-seq 和 RNA-seq 数据）的同一乳腺癌亚型的更大肿瘤样本中检测到的外显子组突变和全基因组表达改变相关。结果提供了与导管腔乳腺癌病因相关的基因和突变的精确列表。该列表包括在 17 个基因中被确定为肿瘤驱动突变的 19 个单突变。一些基因（如 ATM、ERBB3、ESR1 或 TP53）是众所周知的在乳腺癌中发生改变的癌症基因，因此是预期的，而其他基因（如 CBLB 和 PRPF8）则呈现出以前未曾报道过的驱动突变。此外，在 CBLB 基因的情况下，在 TCGA 导管腔样本中鉴定出 13 个突变，这些突变与其宿主基因的过表达和抑制 TGF-β 通路的肿瘤抑制活性有关。乳腺癌靶向用药与基因突变关系建立与检测团队的研究还报告了对来自中国和 TCGA 患者的 WES 样本的综合分析，提供了一组 29 个常见基因，这些基因在两个导管腔乳腺癌队列中都发现了突变。这些基因包括 35 个单核苷酸突变。使用 TCGA 数据，乳腺癌靶向用药与基因突变关系建立与检测团队还计算了所有这 35 个突变的 eQTL，仅发现四个突变显示与修饰的等位基因相关的表达发生显着变化，对应于三个癌基因的突变：AKT1、PIK3CA 和 TP53。这些基因中每个突变的功能相关性以及对特定肿瘤和个体患者的分子影响需要进一步研究，超出了这项工作的范围。无论如何，乳腺癌靶向用药与基因突变关系建立与检测团队提供了一系列与特定乳腺癌亚型相关的驱动基因突变和表达改变，并与中国的一组患者相关联。

缩写

BRCA：乳腺癌；CGI：癌症基因组解释器；CPM：每百万的计数；eQTL：表达数量性状基因座；ER：雌激素受体；IDC：浸润性导管癌；ILC：浸润性小叶癌；LM：管腔样乳腺癌肿瘤；MDS：多维缩放；PR：孕激素受体；TCGA：癌症基因组图谱；WES：全外显子组测序。

Exomes of Ductal Luminal Breast Cancer Patients from Southwest Colombia: Gene Mutational Profile and Related Expression Alterations.

Cortes-Urrea C, Bueno-Gutiérrez F, Solarte M, Guevara-Burbano M, Tobar-Tosse F, Vélez-Varela PE, Bonilla JC, Barreto G, Velasco-Medina J, Moreno PA, Rivas JL.

Biomolecules. 2020 Apr 30;10(5):698. doi: 10.3390/biom10050698.

(责任编辑：佳学基因)