人类基因组在三大基因数据库中的不同版本

在数据分析中,经常需要下载物种的参考基因组序列,这时有很多数据库可以选择,比如NCBI, Ensembl, UCSC这三个通用的数据库,或者该物种特有的数据库,

比如模式生物拟南芥等有专门的数据库。

在NCBI, Ensembl 和 UCSC中对于同一个物种,编号不统一,在这里整理一下它们之间的关系,以人类基因组为例:

在NCBI中,对于不同的拼装版本,以NCBI Build Number 进行区分,而相同的版本之间又有微小的区别,以Version 表示不同的小版本,

在下面的连接中可以看到人类基因组之前的版本,

比如BUILD.36.1, NCBI Build Number 为36, Version 为1, 从BUILD 37.1 开始,又有了新的命名方式,GRCh37

有个CRC的组织(http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/),该组织是由EBI,NCBI等组织联合起来的学术团体,对基因组的不同拼装版本进行简短而统一的命名,h表示人类,37

表示版本号,对于同一个版本,会有小的修改,此时用p加上编号进行标识,比如Build 37.3 又命名为GRCh37.p5 ,p代表patch, 补丁;

目前比较常用的版本有GRCh37 和CRCh38 两个版本;

在Ensembl 中,有不同的release ,比如

人类基因组从release-76到release-83对应 GRCh38, 从release-55到release-75对应GRCh37

这个从命名方式可以看出来,以release-83为例:

人类基因组第一条染色体命名为 Homo_sapiens.GRCh38.dna.chromosome.1.fa.gz,其中的CRCh38就表示拼装的版本

在UCSC中,

hg38对应GRCh38

hg19对应GRCh37

还有一点需要注意的是, Ensembl下载下来的fasta序列, 其标识符中不包含chr,

比如人类基因组1号染色体,在UCSC和NCBI中下载下来的标识符为>chr1,而Ensembl 中为>1

时间: 02-13

人类基因组在三大基因数据库中的不同版本的相关文章

数据库基础知识:数据库中的约束和三大范式

一.数据库中的范式: 范式, 英文名称是 Normal Form,它是英国人 E.F.Codd(关系数据库的老祖宗)在上个世纪70年代提出关系数据库模型后总结出来的,范式是关系数据库理论的基础,也是我们在设计数据库结构过程中所要遵循的规则和指导方法,以下就是对这三个范式的基本介绍: 第一范式(1NF): 数据表中的每一列(字段),必须是不可拆分的最小单元,也就是确保每一列的原子性. 例如: userInfo: '山东省烟台市 1318162008' 依照第一范式必须拆分成            

Python操作三大主流数据库

第1章 数据库简介讲解数据库基本知识,关系型数据库和非关系型数据库的对比,非关系型数据库的分类以及其应用场景,最后介绍MySQL数据库.1-1 python操作三大主流数据库导学篇1-2 数据库简介(1)1-3 MySQL简介(1) 第2章 mysql基础介绍MySQL的安装及配置,使用Navicat 和 phpMyAdmin 进行图形化管理数据库.然后讲解SQL基础,重点包括建表.建库语句,新增.修改.删除.查询语句等重点知识.为了巩固基础,在此处安排了一个"设计新闻表"的实战.2-

MySQL数据库中的算术运算符

MySQL数据库中的算数运算符 MySQL数据库中的算术运算符 一.运算符的概述: 运算符在MySQL数据库中也是很重要的知识体,在执行sql语句的时候这个运算符对操作数据帮助很大.其中运算符的运用可以帮助你减省大量的时间,操作起来也比较灵活. 二.运算符 运算符主要包括"算数运算符"."比较运算符"."罗运算符"."位运算符"四大类,下面我们就一次学习一下. 1.算术运算符 算术运算符在sql语句的时候经常使用,例如对表的字

.net(C#)在Access数据库中执行sql脚本

自己写的一个工具类,主要是业务场景的需要. 主要有两个功能: ①执行包含sql语句的字符串 ②执行包含sql语句的文件 调用方式 1 /// <summary> 2 /// 执行sql语句 3 /// </summary> 4 /// <param name="sql">需要执行的sql语句</param> 5 public bool ExecuteSql(string sql, ref string errorMsg) 6 { 7 Se

Code First添加一个现有数据库中的表

描述 刚刚使用EF,还没搞明白,遇到下面问题,记录一下. 都说EF好用,一直也没用过,以前写代码都是ADO.NET,写起来费时费力还没什么大进展,如果能把这些事简化一下把精力放到逻辑或者更有用的地方岂不是更好.所以想使用EF.Code First,从字面的意思来看是先有代码后有数据库,通过Model来创建数据库,好像只能是通过Model来生成数据库,至少我接触2天以来是这样,项目已经开始一段时间了,数据库已经有一定的数据,虽然是测试数据,但也不想删掉,从新添加数据也是很烦人的事.想找到一种能够不

数据库中多条重复名字去重

2015-12-14 在做一个textbox下拉框时,需要显示数据库中存储的消息的种类.但是由于同一条消息是不断的在插入,所以造成了取消息名字不好取. 比如A方案有B和C两条消息,而且两条消息都是一直在插入,只是插入时间不一样,那么有两种方式: 一:只取出B和C消息的名字.可以用select distinct name from 表 二:不但要取出名字还要计算和之类的可以用SELECT name,sum(id) from 表 group by name; select name, id from

显示数据库中的存储过程__转

It's no easy trick to see stored procedures in a database programmatically with a scripting language like ASP. If you're using MS Access, you're out of luck. Access provides no way to see the actual meat of a stored procedure although you can get the

Java实现Excel导入数据库,数据库中的数据导入到Excel

实现的功能: Java实现Excel导入数据库,如果存在就更新 数据库中的数据导入到Excel 1.添加jxl.jar mysql-connector-java.1.7-bin.jar包到项目的lib目录下­ 2.Excel文件目录:D://book.xls 3.数据库名:javenforexcel 4.表名:stu 5.编写类:连接mysql的字符串方法.插入的方法.实体类­­ 表结构如下 : 连接数据库的工具类 package com.javen.db; import java.sql.Co

Mysql数据库中 User表权限字段说明全介绍

一:mysql权限表user字段详解: Select_priv.确定用户是否可以通过SELECT命令选择数据. Insert_priv.确定用户是否可以通过INSERT命令插入数据. Update_priv.确定用户是否可以通过UPDATE命令修改现有数据. Delete_priv.确定用户是否可以通过DELETE命令删除现有数据. Create_priv.确定用户是否可以创建新的数据库和表. Drop_priv.确定用户是否可以删除现有数据库和表. Reload_priv.确定用户是否可以执行