您当前的位置:首页 > 电脑百科 > 数据库 > 百科

了解这些数据库命名规则

时间:2020-03-16 13:29:50  来源:  作者:

相信,基因信息检索涉及到我们每个科研实验人员每天的日常实验中,而用的多的几个数据库莫过于NCBI RefSeq,Ensemble,mirBase三个数据库。那这三个数据库中基因信息都是根据什么规则来命名的呢?

一、NCBI RefSeq

NCBI RefSeq(美国国立生物技术信息中心参考序列库)是目前世界上最具有权威性的序列数据库,该数据库中所有的数据是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、RNA等。

NCBI RefSeq的命名规则是以两个字母开头,后面跟“_”,然后是纯数字,常见的有“NM_”、“XM_”、“NR_”、“XR_”。有三点需要清楚:

1、“NM_”、“XM_”命名的记录代表的是编码基因,“NM_”对应“NP_”,“XM_”对应“XP_”;

2、“NR_”、“XR_”命名的记录代表的是非编码基因;

3、“XM_”,“XR_”通过计算机算法预测得到,而“NM_”和“NR_”都是有一定得实验数据支撑,但并不是说“XM_”和“XR_”就不存在于细胞中。NCBI RefSeq一直在更新,这些命名的记录代表的是一种状态,经常会碰到某个“XM_”记录被“NM_”代替,或者“NM_”记录由于缺少证据而从NCBI RefSeq删除。

更多命名含义如下图:

二、Ensemble

Ensembl基因组数据库项目是欧洲生物信息研究所和Wellcome Trust Sanger研究所之间的一个联合科学项目。Ensembl旨在为遗传学家,分子生物学家和其他研究我们自己的物种和其他脊椎动物和模式生物的基因组的研究人员提供集中资源。Ensembl是用于检索基因组注释信息的几种众所周知的基因组浏览器之一。我们在Ensembl中进行检索主要使用的是Ensembl Stable ID,也就是常说的Ensembl ID。Ensembl ID也是有自己的命名规则的,有几点需要清楚:

1、 Ensembl Stable ID是来源于Ensembl数据库的编号系统。它的命名由三部分组成:[species prefix][feature type prefix][a unique eleven digit number]. (根据不同物种设置的前缀+数据所指类型【例如,蛋白质,基因】+一段特定的数字),

2、 常见的物种前缀:ENS代表Homo sapiens (Human);ENSMUS代表Mus musculus (Mouse);ENSRNO代表Rattus norvegicus (Rat);

3、 常见的数据类型:字母“G”代表gene,比如小鼠基因就命名为ENSMUSG###########;字母“T”代表transcript,比如ENSMUST###########;字母“P”代表protein,比如ENSMUSP###########。

4、 有时有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号(例如:ENSG00000223972.5)。如果要查询ENSG00000223972.4,则需要去其他release中查找,目前已经更新到release 97。

三、miRbase

miRbase 是由曼彻斯特大学的研究人员开发的一个在线的miRNA数据库,该数据库中收录了来自200多个物种,接近4万个miRNA的信息,是最全面的miRNA数据库。microRNA(miRNA)是一类长度约为19-25nt的内源性非编码RNA,广泛参与基因转录后调控活动,其中多数miRNA具有高度序列保守性、表达时序性和组织特异性。有几点需要清楚:

1、 pri-miRNA, pre-miRNA 和 mature miRNA的概念:成熟的miRNAs是由较长的初级转录物经过一系列核酸酶的剪切加工而产生的,初级转录物称为pri-miRNA。pri-miRNA长度从几百到几千个碱基不等,带有5‘帽子和3’polyA尾巴,以及1到数个发夹径环结构。Pri-miRNA经剪切产生约70个碱基的miRNA前体,即pre-miRNA。pre-miRNA经进一步剪切,形成长度约为22个碱基的单链成熟miRNA;

2、 常见物种hsa,mmu和rno分别代表人,小鼠和大鼠;

3、 在mirbase数据库中,pre-miRNA用mir表示,mature miRNA用miR表示;

4、 绝大多数pre-miRNA可以产生两个mature miRNA,对应pre-miRNA茎环结构5‘和3‘序列的mature miRNA分别加后缀-5p和-3p以示区分,如rno-miR-325-5p和rno-miR-325-3p;

5、 位于基因组不同部位但产生同样的mature miRNA的pre-miRNA在序号后添加短线和阿拉伯数字以示区别,如hsa-mir-199a-1, hsa-mir-199a-2;

6、 高度同源的miRNA(microRNA)在数字后加上英文小写字母(a,b,c,)区分,如hsa-miR-34a,hsa-miR-34b,hsa-miR-34c等,通常他们的mature miRNA仅相差1-2个碱基,且他们的seed sequence相同,也就是说他们调控的靶基因相同;

7、 在一些miRNA与靶基因3UTR结合位点预测数据库有时会看到带有“*”的mature miRNA,比如hsa-miR-199a*,以前“*”表示对应的mature miRNA表达量低或者是次要产物,但是现在miRbase数据库已经取消这样的命名,即如果一个pre-miRNA有两个mature miRNA,用-5p和-3p以示区分。但是miRbase数据库会告知以前名称与现在名称的对应关系。

三个常用数据库的命名规则就到这里,了解数据命名规则特别是mirbase和Ensemble两个数据库可以很快速的知道基因信息对应的物种(比如人,小鼠,大鼠),数据类型(基因,转录本,蛋白),对于我们对信息准确与否的简单判断非常有帮助。



Tags:数据库命名   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
相信,基因信息检索涉及到我们每个科研实验人员每天的日常实验中,而用的多的几个数据库莫过于NCBI RefSeq,Ensemble,mirBase三个数据库。那这三个数据库中基因信息都是根据什么规...【详细内容】
2020-03-16  Tags: 数据库命名  点击:(87)  评论:(0)  加入收藏
▌简易百科推荐
1增1.1【插入单行】insert [into] <表名> (列名) values (列值)例:insert into Strdents (姓名,性别,出生日期) values (&#39;开心朋朋&#39;,&#39;男&#39;,&#39;1980/6/15&#3...【详细内容】
2021-12-27  快乐火车9d3    Tags:SQL   点击:(2)  评论:(0)  加入收藏
最近发现还有不少做开发的小伙伴,在写存储过程的时候,在参考已有的不同的写法时,往往很迷茫, 不知道各种写法孰优孰劣,该选用哪种写法,以及各种写法的优缺点,本文以一个简单的查询...【详细内容】
2021-12-23  linux上的码农    Tags:sql   点击:(9)  评论:(0)  加入收藏
《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的HasorDB 是一个全功能数据库访问工具,提供对象映射、丰...【详细内容】
2021-12-22  GitHub精选    Tags:HasorDB   点击:(5)  评论:(0)  加入收藏
作者丨Rafal Grzegorczyk译者丨陈骏策划丨孙淑娟【51CTO.com原创稿件】您是否还在手动对数据库执行各种脚本?您是否还在浪费时间去验证数据库脚本的正确性?您是否还需要将...【详细内容】
2021-12-22    51CTO  Tags:Liquibase   点击:(4)  评论:(0)  加入收藏
场景描述:由于生产环境的表比较复杂,字段很多。这里我们做下简化,只为说明今天要聊的问题。有两张表 tab1,tab2: tab1 数据如下: tab2 数据如下: 然后给你看下,我用来统计 name=&#3...【详细内容】
2021-12-20  Bald    Tags:SQL   点击:(7)  评论:(0)  加入收藏
前言知识无底,学海无涯,知识点虽然简单,但是比较多,所以将MySQL的基础写出来,方便自己以后查找,还有就是分享给大家。一、SQL简述1.SQL的概述Structure Query Language(结构化查...【详细内容】
2021-12-16  谣言止于独立思考    Tags:SQL基础   点击:(13)  评论:(0)  加入收藏
前言作为一名测试工程师,工作中在对测试结果进行数据比对的时候,或多或少要和数据库打交道的,要和数据库打交道,那么一些常用的 SQL 查询语法必须要掌握。最近有部分做测试小伙...【详细内容】
2021-12-14  柠檬班软件测试    Tags:SQL   点击:(15)  评论:(0)  加入收藏
话说C是面向内存的编程语言。数据要能存得进去,取得出来,且要考虑效率。不管是顺序存储还是链式存储,其寻址方式总是很重要。顺序存储是连续存储。同质结构的数组通过其索引表...【详细内容】
2021-12-08  小智雅汇    Tags:数据存储   点击:(18)  评论:(0)  加入收藏
概述DBConvert Studio 是一款强大的跨数据库迁移和同步软件,可在不同数据库格式之间转换数据库结构和数据。它将成熟、稳定、久经考验的 DBConvert 和 DBSync 核心与改进的现...【详细内容】
2021-11-17  雪竹聊运维    Tags:数据库   点击:(26)  评论:(0)  加入收藏
一、前言 大家好,我是小诚,《从0到1-全面深刻理解MySQL系列》已经来到第四章,这一章节的主要从一条SQL执行的开始,由浅入深的解析SQL语句由客户端到服务器的完整执行流程,最...【详细内容】
2021-11-09  woaker    Tags:SQL   点击:(35)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条