各数据库基因编号命名规则
1. NCBI RefSeq
编号样例:NM_025011, NR_130915.1, NR_130915
“NM_”, “XM_” : 编号的首字母常为 N 或者 X ,N 表示该数据是通过实验验证的,X 表示的是该数据是未经实验证实,通过生物信息学方法计算预测出的。
“NR_”, “NP_”, “NM_”:编号的第二各字母常为 R,P,M 表示该数据的类型。含义见下表
第二个字母 | 分子类型 | 含义 |
---|---|---|
C | Gene | 完整的基因组分子序列。如完整的质粒,完整的染色体等等 |
G | Gene | 不完整的基因组区域。 如某个单独的基因。 |
M | mRNA | mRNA, 成熟的转录本序列 |
P | Protein | 蛋白产物,氨基酸序列 |
R | RNA | 非编码的转录子序列, |
T,W,Z | Gene | 未完全注释的测序序列 |
- “NR_130915.1”, “XG_130915.2”: 编号小点后的数字代表的是版本信息。1为第一版的编号,2第二版编号。
2. Ensemble
编号样例:ENSMUST00000102830, ENSMUSG00000102830
Ense的编号一般为 ENS + [物种信息]
+ [数据分类]
物种信息: 因为物种比较多,这里只具常见的人类基因 ENS 和小鼠基因 ENSMUS
数据分类:见下表
字母 | 含义 |
---|---|
G | Gene |
T | Transcript |
P | Protein |