一文看懂NCBI的refseq.docx
《一文看懂NCBI的refseq.docx》由会员分享,可在线阅读,更多相关《一文看懂NCBI的refseq.docx(4页珍藏版)》请在第壹文秘上搜索。
1、一文看懂NCBl的refseq什么是参考序列RefSeq?NCBI的参考序列(RefSeq)计划,为多种生物提供序列的数据信息及相关资料,用于医学、基因功能和基因功能比较研究。RefSeq数据库中所有的数据是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、RNA等。RefSeq和genbank的数据有什么区别?genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。(建议抛弃不用)而RefSeq数据库被设计成每个人类位点挑出一个代
2、表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig.mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。refseq的ID大全NM开头的表示标准序列,MW表示预测的蛋白编码序列,NR一表示非编码蛋白的mRNA序列,AF开头的表示克隆序列,BC开头的表示模板序列,它的ID前缀的解释表格如下;ACCESSIONMOLECULEMETHODNOTE一些可供选择的注释的基因组序AC_123456GenomicMixed歹U,主要用来标记病毒和原核生物。AP123456ProteinMixedAC_标记序列对应的蛋白
3、产物。完整的基因组分子序列,标记的类NC_123456GenomicMixed别包括基因组、染色体、细胞器、质粒。不完整的基因组区域,提供NCBl基NG_123456GenomicMixed因组注释途径。比较有代表性有不转录的假基因或者那些很难自行化NOTEACCESSIONMOLECULEMETHODNMI23456M23456789 mRNA MixedNP23456W123456789 Protein MixedNR 123456RNA Mixed注释的基因组簇。转录产物序列;成熟mRNA转录本序 列。蛋白产物;主要是全长转录氨基酸 序列,但也有一些只有部分蛋白质 的部分氨基酸序列。非编
4、码的转录子序列,包括结构 RNAs,假基因转子等。NT 123456GenomicA + 4BAC或者鸟枪测序法的还未完全注AutoInated释的测序序列。NWl23456V的23456789 GenomicAutomatedBAC或者鸟枪测序法的还未完全注 释的测序序列。NZ_ABCD12345678GenomicAutomated收集的各种利用鸟枪法测序的测序 计划,ABCD代表的是计划的名称。XM23456m23456789 mRNAa +只转录产物;mRNA来自基因组注释,AUtOmated序列相当于基因组重叠群。XP23456H7123456789 Proteina .,八蛋白产物
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 看懂 NCBI refseq