【佳学基因检测】基因解码如何构建人的标准基因序列数据库的?
人类标准基因数据库导读:
佳学基因通过编辑人类全基因测序数据,消除测序误差和个体特意性序列,为人类基因信息的每一个位点规范数字化坐标,再将人体组织结构和功能的组成成分的编码序列按照坐标、及其基因信息的传递方式注释清楚。在进行人的致病基因鉴定基因解码、用药指导基因解码等应用的过程中,先采用商用的高通量测序仪器,获得没有定位的基因片段序列。随后采用生物信息学工具,将片段化的基因序列与标准序列进行比对。将大部分正确的序列进行忽略,只显示出个体异常序列。再通过对个体异常序列生物学意义、在用药指导上的作用,致病性分析,从而获得基因检测报告。由此而知,佳学基因人类基因组标准序列是基因检测的参照序列。参照序列的完整性是基因检测完整性保证的第一步。
人类标准基因组数库的数据结构
人类标准基因组数据库的基础数据以文本文件的形式存储,通常含有refgene以区分其他数据库,同时含有版本号,以区分不同时期采用的不同形式。佳学基因在开发升级新的参照基因组时,常常编写版本转换程序,以确保基因解码过程的向前兼容。
字段名 | 数据样例 | SQL数据库数据形式 | 数据形式 | 描述说明 |
---|---|---|---|---|
bin | 2085 | smallint(5) unsigned | range | 索引字段,以加快大容量数据根据基因信息区进行索引。 |
name | NR_046630 | varchar(255) | values | 基因名称 (通常是转录本代码) |
chrom | chr3 | varchar(255) | values | 标准基因组的染色体坐代码或基因信息框架编号 |
strand | + | char(1) | values | +号和 -号被用来表示在所示区域内的基因信息存方方式 |
txStart | 196666747 | int(10) unsigned | range | 转录区域的起始坐标 (反义链上的终止坐标) |
txEnd | 196669405 | int(10) unsigned | range | 转录区域的终止坐标 (反义链上的起点坐标) |
cdsStart | 196669405 | int(10) unsigned | range | 编码区域的起始坐标 (反义链上的终点坐标) |
cdsEnd | 196669405 | int(10) unsigned | range | 编码区域的终点坐标 (反义链上的起点坐标) |
exonCount | 3 | int(10) unsigned | range | 外显子数目 |
exonStarts | 196666747,196667841,196669263, | longblob | 外显子起点坐标 (反义链上的终点坐标) | |
exonEnds | 196666995,196668013,196669405, | longblob | 外显子终点坐示 (反应链上的起点坐标) | |
score | 0 | int(11) | range | 评分 |
name2 | NCBP2-AS1 | varchar(255) | values | 其他基因名称 (比如GTF采用的基因编码) |
cdsStartStat | unk | enum('none', 'unk', 'incmpl', 'cmpl') | values | Status of CDS start annotation (none, unknown, incomplete, or complete) |
cdsEndStat | unk | enum('none', 'unk', 'incmpl', 'cmpl') | values | Status of CDS end annotation (none, unknown, incomplete, or complete) |
exonFrames | -1,-1,-1, | longblob | Exon frame {0,1,2}, or -1 if no frame for exon |
人类标准基因序列数据库数据展示
bin | name | chrom | strand | txStart | txEnd | cdsStart | cdsEnd | exonCount | exonStarts | exonEnds | score | name2 | cdsStartStat | cdsEndStat | exonFrames |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2085 | NR_046630 | chr3 | + | 196666747 | 196669405 | 196669405 | 196669405 | 3 | 196666747,196667841,196669263, | 196666995,196668013,196669405, | 0 | NCBP2-AS1 | unk | unk | -1,-1,-1, |
2051 | NR_046598 | chr3 | + | 192232810 | 192234362 | 192234362 | 192234362 | 2 | 192232810,192234269, | 192233297,192234362, | 0 | FGF12-AS2 | unk | unk | -1,-1, |
1312 | NR_046514 | chr13 | + | 95364969 | 95368199 | 95368199 | 95368199 | 2 | 95364969,95365891, | 95365647,95368199, | 0 | SOX21-AS1 | unk | unk | -1,-1, |
585 | NR_106918 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-1 | unk | unk | -1, |
585 | NR_107062 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-2 | unk | unk | -1, |
585 | NR_107063 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-3 | unk | unk | -1, |
585 | NR_128720 | chr1 | - | 17368 | 17436 | 17436 | 17436 | 1 | 17368, | 17436, | 0 | MIR6859-4 | unk | unk | -1, |
585 | NR_036051 | chr1 | + | 30365 | 30503 | 30503 | 30503 | 1 | 30365, | 30503, | 0 | MIR1302-2 | unk | unk | -1, |
585 | NR_036266 | chr1 | + | 30365 | 30503 | 30503 | 30503 | 1 | 30365, | 30503, | 0 | MIR1302-9 | unk | unk | -1, |
585 | NR_036267 | chr1 | + | 30365 | 30503 | 30503 | 30503 | 1 | 30365, | 30503, | 0 | MIR1302-10 | unk | unk |
-1, |
(责任编辑:佳学基因)