各数据库基因编号命名规则

1. NCBI RefSeq

编号样例:NM_025011, NR_130915.1, NR_130915

  1. “NM_”, “XM_” : 编号的首字母常为 N 或者 X ,N 表示该数据是通过实验验证的,X 表示的是该数据是未经实验证实,通过生物信息学方法计算预测出的。

  2. “NR_”, “NP_”, “NM_”:编号的第二各字母常为 R,P,M 表示该数据的类型。含义见下表

第二个字母 分子类型 含义
C Gene 完整的基因组分子序列。如完整的质粒,完整的染色体等等
G Gene 不完整的基因组区域。 如某个单独的基因。
M mRNA mRNA, 成熟的转录本序列
P Protein 蛋白产物,氨基酸序列
R RNA 非编码的转录子序列,
T,W,Z Gene 未完全注释的测序序列
  1. “NR_130915.1”, “XG_130915.2”: 编号小点后的数字代表的是版本信息。1为第一版的编号,2第二版编号。

2. Ensemble

编号样例:ENSMUST00000102830, ENSMUSG00000102830
Ense的编号一般为 ENS + [物种信息] + [数据分类]

  1. 物种信息: 因为物种比较多,这里只具常见的人类基因 ENS 和小鼠基因 ENSMUS

  2. 数据分类:见下表

字母 含义
G Gene
T Transcript
P Protein

参考连接

[1] 数据库命名规则介绍