【佳学基因检测】基因解码如何构建人的标准基因序列数据库的？

人类标准基因数据库导读：

佳学基因通过编辑人类全基因测序数据，消除测序误差和个体特意性序列，为人类基因信息的每一个位点规范数字化坐标，再将人体组织结构和功能的组成成分的编码序列按照坐标、及其基因信息的传递方式注释清楚。在进行人的致病基因鉴定基因解码、用药指导基因解码等应用的过程中，先采用商用的高通量测序仪器，获得没有定位的基因片段序列。随后采用生物信息学工具，将片段化的基因序列与标准序列进行比对。将大部分正确的序列进行忽略，只显示出个体异常序列。再通过对个体异常序列生物学意义、在用药指导上的作用，致病性分析，从而获得基因检测报告。由此而知，佳学基因人类基因组标准序列是基因检测的参照序列。参照序列的完整性是基因检测完整性保证的第一步。

人类标准基因组数库的数据结构

人类标准基因组数据库的基础数据以文本文件的形式存储，通常含有refgene以区分其他数据库，同时含有版本号，以区分不同时期采用的不同形式。佳学基因在开发升级新的参照基因组时，常常编写版本转换程序，以确保基因解码过程的向前兼容。

字段名	数据样例	SQL数据库数据形式	数据形式	描述说明
bin	2085	smallint(5) unsigned	range	索引字段，以加快大容量数据根据基因信息区进行索引。
name	NR_046630	varchar(255)	values	基因名称 (通常是转录本代码)
chrom	chr3	varchar(255)	values	标准基因组的染色体坐代码或基因信息框架编号
strand	+	char(1)	values	+号和 -号被用来表示在所示区域内的基因信息存方方式
txStart	196666747	int(10) unsigned	range	转录区域的起始坐标 (反义链上的终止坐标)
txEnd	196669405	int(10) unsigned	range	转录区域的终止坐标 (反义链上的起点坐标）
cdsStart	196669405	int(10) unsigned	range	编码区域的起始坐标 (反义链上的终点坐标)
cdsEnd	196669405	int(10) unsigned	range	编码区域的终点坐标 (反义链上的起点坐标)
exonCount	3	int(10) unsigned	range	外显子数目
exonStarts	196666747,196667841,196669263,	longblob		外显子起点坐标 (反义链上的终点坐标)
exonEnds	196666995,196668013,196669405,	longblob		外显子终点坐示 (反应链上的起点坐标)
score	0	int(11)	range	评分
name2	NCBP2-AS1	varchar(255)	values	其他基因名称 (比如GTF采用的基因编码)
cdsStartStat	unk	enum('none', 'unk', 'incmpl', 'cmpl')	values	Status of CDS start annotation (none, unknown, incomplete, or complete)
cdsEndStat	unk	enum('none', 'unk', 'incmpl', 'cmpl')	values	Status of CDS end annotation (none, unknown, incomplete, or complete)
exonFrames	-1,-1,-1,	longblob		Exon frame {0,1,2}, or -1 if no frame for exon

人类标准基因序列数据库数据展示

bin	name	chrom	strand	txStart	txEnd	cdsStart	cdsEnd	exonCount	exonStarts	exonEnds	name2	cdsStartStat	cdsEndStat	exonFrames
2085	NR_046630	chr3	+	196666747	196669405	196669405	196669405	3	196666747,196667841,196669263,	196666995,196668013,196669405,	NCBP2-AS1	unk	unk	-1,-1,-1,
2051	NR_046598	chr3	+	192232810	192234362	192234362	192234362	2	192232810,192234269,	192233297,192234362,	FGF12-AS2	unk	unk	-1,-1,
1312	NR_046514	chr13	+	95364969	95368199	95368199	95368199	2	95364969,95365891,	95365647,95368199,	SOX21-AS1	unk	unk	-1,-1,
585	NR_106918	chr1	-	17368	17436	17436	17436	1	17368,	17436,	MIR6859-1	unk	unk	-1,
585	NR_107062	chr1	-	17368	17436	17436	17436	1	17368,	17436,	MIR6859-2	unk	unk	-1,
585	NR_107063	chr1	-	17368	17436	17436	17436	1	17368,	17436,	MIR6859-3	unk	unk	-1,
585	NR_128720	chr1	-	17368	17436	17436	17436	1	17368,	17436,	MIR6859-4	unk	unk	-1,
585	NR_036051	chr1	+	30365	30503	30503	30503	1	30365,	30503,	MIR1302-2	unk	unk	-1,
585	NR_036266	chr1	+	30365	30503	30503	30503	1	30365,	30503,	MIR1302-9	unk	unk	-1,
585	NR_036267	chr1	+	30365	30503	30503	30503	1	30365,	30503,	MIR1302-10	unk	unk	-1,

(责任编辑：佳学基因)