表达序列分析.ppt
《表达序列分析.ppt》由会员分享,可在线阅读,更多相关《表达序列分析.ppt(41页珍藏版)》请在第壹文秘上搜索。
1、第七章 表达序列分析生物信息学生物信息学 表达序列标签表达序列标签(Expressed Sequence Tag,EST)是由大规模随机挑取的是由大规模随机挑取的cDNA cDNA 克隆克隆测序得到的组织或细胞基因组的表测序得到的组织或细胞基因组的表达序列标签达序列标签表达序列标签(EST)EST的概念p EST EST是指通过对是指通过对cDNA cDNA 文库文库随机随机挑取的克隆进行挑取的克隆进行大规模测序所获得的大规模测序所获得的cDNA cDNA 的的55或或33端序列,长端序列,长度一般为度一般为60 60 500 bp.500 bp.p EST EST 是基因的是基因的“窗口窗口
2、”,可代表生物体某种组织,可代表生物体某种组织某一时间的一个表达基因,故被称之为某一时间的一个表达基因,故被称之为“表达序列表达序列标记标记”EST 技术的形成和发展 p 上世纪上世纪8080年代,对年代,对cDNAcDNA序列进行大规模测序的想序列进行大规模测序的想法就曾提出,但反对者认为法就曾提出,但反对者认为cDNAcDNA序列缺少重要的基序列缺少重要的基因调控区域的信息。因调控区域的信息。p ESTEST技术应用的首次报道是技术应用的首次报道是Adams(1991)Adams(1991)等从三种等从三种人脑组织人脑组织cDNAcDNA文库随机挑取文库随机挑取609609个克隆进行测序个
3、克隆进行测序,得得到一组人脑组织的到一组人脑组织的ESTEST,分析结果表明其中,分析结果表明其中3636个代表个代表已知基因,已知基因,337337个代表未知基因。个代表未知基因。p 运用自动化测序技术运用自动化测序技术,大规模生产大规模生产EST EST 序列。序列。http:/www.ncbi.nlm.nih.gov/projects/dbEST/体内:翻译体外研究:反转录体外研究:反转录连接,转化连接,转化EST技术流程 非标准化的非标准化的cDNAcDNA文库的构建。文库的构建。经标准化或扣除杂交处理的经标准化或扣除杂交处理的cDNAcDNA文库。文库。A.cDNA文库构建cDNA文
4、库的构建B.序列测定及数据分析测序方向的原则ESTEST编码蛋白质的信息应满足同源序列编码蛋白质的信息应满足同源序列比较分析比较分析决定于用决定于用ESTEST来进行研究的目的来进行研究的目的测序方向的选择 55端端 55上游非翻译区较短且含有较多的调控信息。一般在寻找新上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用基因或研究基因差异表达时用55端端ESTEST较好,而且从较好,而且从55端测序端测序有利于将有利于将ESTEST拼接成较长的基因序列。拼接成较长的基因序列。33端端 33端端mRNAmRNA有一有一2020200bp200bp的的polyApolyA
5、结构,同时靠近结构,同时靠近ployAployA又有特又有特异性的非编码区,所以从异性的非编码区,所以从33端测得端测得ESTEST含有编码的信息较少,含有编码的信息较少,但研究非编码区有品种的特异性,可以作为但研究非编码区有品种的特异性,可以作为STSSTS标记标记 两端测序两端测序 获得更全面的信息。获得更全面的信息。(1)(1)去除低质量的序列去除低质量的序列(2)(2)应用应用BLASTBLAST、RepeatMaskerRepeatMasker或或CrossmatchCrossmatch遮蔽数据组中不遮蔽数据组中不属于表达的基因的赝象序列属于表达的基因的赝象序列(artifactua
6、l sequences)(artifactual sequences)。载体序列载体序列 重复序列重复序列污染序列污染序列 (如核糖体如核糖体RNARNA、细菌或其它物种的基因组、细菌或其它物种的基因组DNADNA等等)(3)(3)去除其中的镶嵌克隆:去除其中的镶嵌克隆:Back-to-back poly(A)+tails;Linker-Back-to-back poly(A)+tails;Linker-to-linker in middle of the sequence.to-linker in middle of the sequence.(4)(4)最后去除长度小于最后去除长度小于10
7、0bp100bp的序列。的序列。序列前处理 聚类的目的就是将来自同一个基因或同一个转录本的具有聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分重叠部分(overlapping)(overlapping)的的ESTsESTs整合至单一的簇整合至单一的簇(cluster)(cluster)中。中。聚类作用:聚类作用:v 产生较长的一致性序列产生较长的一致性序列(consensus sequence)(consensus sequence),用于注释。,用于注释。v 降低数据的冗余,纠正错误数据。降低数据的冗余,纠正错误数据。v 可以用于检测选择性剪切。可以用于检测选择性剪切。ESTsES
8、Ts聚类的数据库主要有三个:聚类的数据库主要有三个:v UniGene UniGene()v TIGR Gene Indices TIGR Gene Indices()v STACK STACK ESTs的聚类和拼接 loose clusteringloose clustering 产生的一致性序列比较长产生的一致性序列比较长 表达基因表达基因ESTsESTs数据的覆盖率高数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪接体含有同一基因不同的转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因的转录本每一类中可能包含旁系同源基因的转录本 序列的保真度低序列的保真度低 strin
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 表达 序列 分析