【佳学基因检测】基因解码如何使用UCSC/Ensembl数据库进行基因检测结果的分析
ANNOVAR 可以选择处理 UCSC 已知基因注释或 Ensembl 基因注释,这两种注释都比 RefSeq 更全面,包括许多注释不良或计算预测的基因。 下面显示了使用 UCSC 已知基因注释变体的示例:
[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -out ex1 -build hg19 example/ex1.avinput humandb/ -dbtype knownGene NOTICE: The --geneanno operation is set to ON by default NOTICE: Reading gene annotation from humandb/hg19_knownGene.txt ... Done with 78963 transcripts (including 18502 without coding sequence annotation) for 28495 unique genes NOTICE: Reading FASTA sequences from humandb/hg19_knownGeneMrna.fa ... Done with 45 sequences WARNING: A total of 43 sequences will be ignored due to lack of correct ORF annotation NOTICE: Finished gene-based annotation on 15 genetic variants in example/ex1.avinput NOTICE: Output files were written to ex1.variant_function, ex1.exonic_variant_function
转录本名称(在 ex1.exonic_variant_function 文件中)看起来像 uc002eg1.1 等,它们是 UCSC 基因标识符。
要使用 Ensembl 基因注释变体,请使用以下命令。 输出格式与上面描述的类似。 “ENSG”和“ENST”是注释基因和转录本的 Ensembl 标识符。
[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -out ex1 -build hg19 ex1.hg19.avinput humandb/ -dbtype ensGene
NOTICE: The --geneanno operation is set to ON by default
NOTICE: Reading gene annotation from humandb/hg19_ensGene.txt ... Done with 196501 transcripts (including 101155 without coding sequence annotation) for 57905 unique genes
NOTICE: Reading FASTA sequences from humandb/hg19_ensGeneMrna.fa ... Done with 20 sequences
WARNING: A total of 6780 sequences will be ignored due to lack of correct ORF annotation
NOTICE: Finished gene-based annotation on 15 genetic variants in example/ex1.avinput
NOTICE: Output files were written to ex1.variant_function, ex1.exonic_variant_function
由于输出仅包含 Ensembl 标识符,因此如果想将其翻译为基因同义词,可以下载 hg19 的此文件并自行使用两列文件进行翻译。
比较来自三个不同基因定义系统的程序消息(“Done with xxxtranscripts for yyy uniquegenes”),可以看到,Ensembl 注释了人类基因组中贼多数量的基因,而 RefSeq 注释了贼少数量的基因。
基因解码说明:从技术上讲,RefSeq 基因和 UCSC 基因是基于转录本的基因定义。 该数据库根据转录数据建立了基因模型,然后将基因模型同人类基因组序列进行比对。 相比之下,Ensemble Gene 和 Gencode Gene 是基于组装的基因定义,试图直接从人类基因组的参考序列构建基因的判断。 这两个数据分析方法从不同的角度出发,试图做同一件事:将基因测序获得的DNA序列给矛盾适当的基因名称。
然而,这两种分析方法会产生不同的分析结果。 例如,RefSeq 通过组装群体中的转录数据来构建基因模型,但参考人类基因组可能有一个等位基因是一个次要等位基因。 在这种情况下,获得的序列可能无法与基因组 100% 对齐,从而导致基因测序结果的 FASTA 文件与从全基因组序列(通过将外显子连接在一起)生成的 FASTA 文件之间存在差异。
由于这些原因,外显子变异的正确注释不能依赖于公共数据库中的cDNA序列,而只能基于基因组本身中实际的chr:start-end位点。 为此,基因解码针对几个特定基因组构建了FASTA序列,基因检测机构可以直接从ANNOVAR网站下载序列; 基因解码还提供程序 (retrieve_seq_from_fasta.pl) 来为未提供预构建文件的任何其他基因组构建 FASTA 序列。
由于这些原因,基因解码提供的文件中的 FASTA 序列可能与您从 RefSeq 获得的 FASTA 序列不同。 ANNOVAR 使用的序列是基于特定基因组构建和组装的“理论”序列,但 RefSeq 编译的 FASTA 序列是来自大型数据库的“观察到”序列,与特定组装版本没有任何关系。 它们可能具有相同的标识符,但它们是不同的东西。
- 【佳学基因检测】多种多样的基因检测?...
- 【佳学基因检测】人工智能加持下的基因检测有什么优势?...
- 【佳学基因检测】全基因组测序基因检测(WGS)在临床应用中优势、困难和前景...
- 【佳学基因检测】全基因组测序如何率先用于基因解码生物医学?...
- 【佳学基因检测】如何在实体瘤的基因检测中使用荧光原位杂交技术?...
- 【佳学基因检测】免疫组织化学 (IHC)、显色原位杂交 (CISH) 和荧光原位杂交 (FISH) 技术的比较...
- 【佳学基因检测】荧光原位杂交(FISH)在实体瘤诊断和个体化治疗中的应用...
- 【佳学基因检测】肿瘤基因检测为什么要纳入正常组织样本?...
- 【佳学基因检测】基因检测中的连锁分析:科研服务...
- 【佳学基因检测】心里所想直接以文字显示! 读心头盔问世 可翻译人类脑电波...
- 【佳学基因检测】基因解码器与生信一体机...
- 【佳学基因检测】可以进行基因筛查的新生儿遗传病种类及其技术...
- 【佳学基因检测】人类表型数据库(简称HPO)...
- 【佳学基因检测】基因解码基因检测如何构建专属数据库以增加正确性和检出率...
- 【佳学基因检测】基因测序结果如何通过GENECODE/CCDS进行解码检测...
- 【佳学基因检测】基因测序结果如何使用更新的Hg38数据库进行解码分析...
- 【佳学基因检测】基因解码如何使用UCSC/Ensembl数据库进行基因检测结果的分析...
- 【佳学基因检测】2023年诺贝尔医学奖,授予新冠病毒疫苗技术创新者!...
- 【佳学基因检测】非小细胞肺癌生物标志物的检测方法或技术...
- 【佳学基因检测】人体细胞年轻态的基因检测与评价方法...
- 【佳学基因检测】端粒长度与干细胞衰老基因检测...
- 【佳学基因检测】基因解码技术成份之基因型填充:Genotype Imputation...
- 【佳学基因检测】基因突变对疾病发生的影响分析:GWAS分析的技术...
- 【佳学基因检测】肺癌靶向药物塞普替尼selpercatinib (Retevmo)基因检测...
- 【佳学基因检测】LINUX文本文件的各种替代形式...
- 【佳学基因检测】如何从基因组序列文件中获取特定基因的全部序列、编码序列、启动子序列?...
- 【佳学基因检测】如何贮存用于基因序列比对的全部基因组序列?...
- 【佳学基因检测】基因解码如何构建人的标准基因序列数据库的?...
- 【佳学基因检测】人类基因组检测中罕见等位基因所导致的疾病严重程度分析与评估...
- 【佳学基因检测】基因检测数据库中的新发突变数据库denovo-db...
- 来了,就说两句!
-
- 最新评论 进入详细评论页>>