NCBI 资源介绍
本文目录:
NCBI(美国国立生物技术信息中心) 简介
NCBI 站点地图
NCBI癌症基因组研究
NCBI-Coffee Break
NCBI-基因和疾病
NCBI-UniGene
Cluster of Orthologous Groups of proteins( COG) 介绍
Gene Expression Omnibus ( GEO) 介绍
LocusLink介绍
关于RefSeq: NCBI参考序列
NCBI(美国国立生物技术信息中心)简介
介绍
理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。经过只有四个字母来代表DNA化学亚基的字母表, 出现了生命过程的语法, 其最复杂形式就是人类。阐明和使用这些字母来组成新的”单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝正确必须。挑战在于发现新的手段去处理这些数据的容量和复杂性, 而且为研究人员提供更好的便利来获得分析
和计算的工具, 以便推动对我们遗传之物和其在健康和疾病中角色的理解。
国立中心的建立
后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性, 发起了在1988年11月4日建立国立生物技术信息中心( NCBI) 的立法。NCBI是在NIH的国立医学图书馆( NLM) 的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的, 而且这能够建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务:
建立关于分子生物学, 生物化学, 和遗传学知识的存储和分析的自动系统
实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的, 先进方法的研究
加速生物技术研究者和医药治疗人员对数据库和软件的使用。
全世界范围内的生物技术信息收集的合作努力。
NCBI经过下面的计划来实现它的四项目的:
基本研究
NCBI有一个多学科的研究小组包括计算机科学家, 分子生物学家, 数学家, 生物化学家, 实验物理学家, 和结构生物学家, 集中于计算分子生物学的基本的和应用的研究。这些研究者不但仅在基础科学上做出重要贡献, 而且往往成为应用研究活动产生新方法的源泉。她们一起用数学和计算的方法研究在分子水平上的基本的生物医
学问题。这些问题包括基因的组织, 序列的分析, 和结构的预测。当前研究计划的一些代表是: 检测和分析基因组织, 重复序列形式, 蛋白domain和结构单元, 建立人类基因组的基因图谱, HIV感染的动力学数学模型, 数据库搜索中的序列错误影响的分析, 开发新的数据库搜索和多重序列对齐算法, 建立非冗余序列数据库, 序列相似性的统计显著性评估的数学模型, 和文本检索的矢量模型。另外, NCBI研究者还坚持推动与NIH内部其它研究所及许多科学院和政府的研究实验室的合作。
数据库和软件
在1992年10月, NCBI承担起对GenBank DNA序列数据库的责任。NCBI受过分子生物学高级训练的工作人员经过来自各个实验室递交的序列和同国际核酸序列数据库( EMBL和DDBJ) 交换数据建
立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。
GenBank是NIH遗传序列数据库, 一个所有能够公开获得的DNA 序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。
GenBank以指数形式增长, 核酸碱基数目大概每14个月就翻一个倍。最近, GenBank拥有来自47,000个物种的30亿个碱基。
孟德尔人类遗传( OMIM) , 三维蛋白质结构的分子模型数据库
( MMDB) , 唯一人类基因序列集合( UniGene) , 人类基因组基因图谱, 分类学浏览器, 同国立癌症研究所合作的癌症基因组剖析计划( CGAP) 。
Entrez是NCBI的为用户提供整合的访问序列, 定位, 分类, 和结构数据的搜索和检索系统。Entrez同时也提供序列和染色体图谱的图形视图。Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。这些数据库包括核酸序列, 蛋白序列, 大分子结构, 全基因组, 和经过PubMed检索的MEDLINE。Entrez的一个强大和独特的特点是检索相关的序列, 结构, 和参考文献的能力。杂志文献经过PubMed获得, PubMed是一个网络搜索界面, 能够提供对在MEDLINE上的九百万杂志引用的访问, 包含了链接到参与的出版商网络站点的全文文章。
BLAST是一个NCBI开发的序列相似搜索程序, 还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA 数据库执行序列搜索。NCBI提供的附加的软件工具有: 开放阅读框寻觅器( ORF Finder) , 电子PCR, 和序列提交工具, Sequin和BankIt。所有的NCBI数据库和软件工具能够从WWW或FTP来获得。NCBI还有E-mail服务器, 提供用文本搜索或序列相似搜索访问数据库一种可选方法。
教育和训练
NCBI经过赞助会议, 研讨会, 和系列演讲来培养在应用于分子生物学和遗传学的计算机领域的科学交流。一个科学访问学者项目已经成立, 来培养同外部科学家的合作。作为NIH内部的部分研究项目, 也提供博士后工作位置。
NCBI站点地图---关于Database的一般介绍
GenBank Overview
基本信息
什么是GenBank? GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区( CDS) 特征的注释, 还包括
氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织, 包括EMBL和DDBJ。
纪录样本- 关于GenBank的各个字段的详细描述, 以及同Entrez 搜索字段的交叉索引。
访问GenBank - 经过Entrez Nucleotides来查询。用accession number, 作者姓名, 物种, 基因/蛋白名字, 还有许多其它的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其它数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST 能够经过Query和BLAST服务器。另外一种选择是能够用FTP下载整个的GenBank和更新数据。
增长统计- 参见公布通知的2.2.6( 每个分类的统计) , 2.2.7( 每个物种的统计) , 2.2.8( GenBank增长) 小节。
公布通知, 最新- 最近和即将有的变化, GenBank的分类, 数据增长统计, GenBank的引用。
公布通知, 旧- 同上相同, 是过去公布的统计。
遗传密码- 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。
( 向) GenBank提交( 数据)