《不同光照条件转录组分析毒素合成相关基因.docx》由会员分享,可在线阅读,更多相关《不同光照条件转录组分析毒素合成相关基因.docx(10页珍藏版)》请在第壹文秘上搜索。
1、第四章不同光照条件转录组分析毒素合成相关基因痴囊腔菌素作为,利用转录组进行研究的意义,前人研究进展。1材料与方法1.I材料以花生疮痴病菌1.N-JH-CO1.为试验材料.对该病原菌进行不同光照处理,TO1.持续黑暗处理,T02光照处理。1.2 RN3提取和定量病原菌RNA的提取,采用TrOZi1.法并加以改良。在1%琼脂糖凝胶上检测RNA降解和污染.使用NanoPhO1.OnIeter分光光度计(IMP1.EN.CA,USA)检查RNA纯度”QubitRNAAssayKi(inQubit2.0F1.uronwtcr(1.ifeTechno1.ogies.CA.USA)测量RNA浓度。使用RNA
2、Nan。6000安捷伦牛.物分析仪2100系统的分析工具包(AgiIentTechnoIogies,CA.USA)。1.3 转录组测序的文库制备每个样品总量为3gRNA用作RNA样品制备物的输入材料。测序文库使用NEBNeXtUhraERNA1.ibraryPrepKitfor1.1.1.uminaK(NEB.USA)按照制造商的建议产生,并将索引代码添加到每个样品的属性序列中。简言之,使用聚-T宾聚连接的磁珠从总RNA中纯化mRNA.使用二价阳离子在高温卜.在NEBNcxtFirstStrandSynthesisReactionBuffer(5X)中进行裂解。第链CDNA使用随机六聚体引物和
3、M-MU1.V逆转录酶(RNaseHC合成。随后使用DNA聚合的I和RNA的H进行第二徒eDNA合成“鼎余的突出端通过外切核酸梅/聚合的活性转化成平端。将DNA片段3,末端腺甘酸化后,连接带有发夹环结构的NEBNcxt接头,准备杂交。为了选择长度优选为15()200bp的CDNA片段,使用AMPUreXP系统(BeckmanCou1.ter,Bever1.y.USA)纯化文库片段。然后使用31.USER梅NEB,USA),在PCR之前,在37C下使用大小选择的接头连接的CDNAI5分钟,然后在95C下5分钟。然后用PhusionHigh-Fide1.ityDNA聚合酹,Universa1.PC
4、R引物和IndeX(X)引物进行PCRe最后,纯化PCR产物(AMPUreXP系统),并在Agi1.entBioana1.yzer21(X)系统上评估文库质量。1.4 聚类和测序使用TruSeqPEC1.usterKitv3-cBot-HS(II1.umia)根据制造商的说明在CBo1.簌生成系统上进行索引编码样品的聚类。簇生成后,在I1.IUminaHiscq2000平台上对文库制备物进行测序,并产生配对末端读数。1.5质量控制fastq格式的原始数据(原始数据)首先通过内部per1.脚本进行处理,在这个步骤中,通过税除包含适配器的读取,从原始数据读取包含poy-N和低质量读取,获得干挣的数
5、据(干净的读取)。同时计算清洁数据的Q20,Q30,GC含量和序列重复度。所有的下游分析都基于高质量的清洁数据。16转录组装将所有库,样本的左边文件(read1.文件)合并成个大的IefJq文件,将正确的文件(read2文件)合并成一个大的right.fq文件使用Trinity(Grabherreta1.2011)基于Ieftft1.和right.fq完成转录组装,min_kmcr_cov默认设置为2,所有其他参数默认设置。1.7基因功能注释基因功能基丁以下数据库进行标注:NR(NCBI非冗余蛋白质序列);Pfam(蛋白质家族);KOG/COG/CggNOG(蛋白质的同源组群);SWiSS-P
6、m(手动注样和评论的蛋白质序列数据库):KEGG(京都基因和基因组百科全书):GO(基因本体)。1.8 差异表达分析在进行差异基因表达分析之前,对于每个测序文库,通过CdgCR程序包通过一个标度归一化因子来调整读取计数。两个样品的差异表达分析使用DEGSCq(2010)R包进行。使用q值调整P值(S1.Orey等,2003)。将qva1.ue1设置为显着差异表达的阀值。1.9 Go富集分析通过基于KO1.mogOrOV-SmirnoV测试的topGOR软件包实施差异表达基因(DEG)的基因本体论(GO),富集分析.1.10 KEGG途径富集分析KEGG(Kanehisaeta1.2(X)8)是
7、从分了水平的信息,特别是大规模的分子数据集,了解生物系统的细胞,生物体和生态系统等高级功能和用途的数据库资源通过基因组测序和其他高通量:实验技术(hup:vvv.gcnomcjpkcgg)我们使用KOBAS(Mao等人,2005)软件来测试KEGG途径中差异表达基因的统计富集。1.11 PPI(蛋白质蛋白质相互作用)DEG的序列是b1.ast(b1.astx)到相关物种的基因组(蛋白质相互作用存在于STRING数据库中:hup:Stringdb.o喀/)以获得这些DEG的预测PP1.然后在Cytoscapc中观察这些DEG的PP1.(ShannOn等人,2003).2结果1.6转录组装1.11
8、.1 序碱基质量值喊基质增值(QUmiIysCorC或Q-SCOrC)是碱基识别(BascCa1.Iing)出错的概率的整数映射。通常使用的Phred质量:评估公式为:Q-r=-1.*Og1.,P公式中,p为碱基识别出错的概率.下表给出r碱基质量值与碱基识别出错的概率的对应关系:表I城基质量值与碱基识别出错的概率的对应关系表裱基质值减基根别出错的概率碱基板别精度Q1.O1/1090%Q201/10099%Q301/100099.9%Q1.O1/1000099.99%破基质量值越高表明碱基识别越可靠,准确度越高.比如,对于底基质属值为Q20的碱基识别,100个碱基中有1个会识别出错,以此类推。1
9、.11.3 序质忌控制在进行后续分析之前,首先需要确保所用Reads有足够高的质址,以保证序列组装和后续分析的准确。另外,一般RawData中会有极少部分的RCadS带有测序引物、接头等人工序歹U,需要将其从ReadS中截除。具体测序数据痂量控制如下:(1)截除Rea小中的测序接头以及引物序列:(2)过浦低质域值数据,确保数据演量.1.11.4 序数据产出统计该项目各样品C1.eanData统计见下表:表2样品测序数据评估统计表Samp1.esBMK-IDKeadNumberBaseNumberGCContent%Q3039-黑暗TO1.25.583,2237.633.523.80255.20
10、%89.69%39-光照T()220,391,7356,088,548,75055.30%89.37%注:SamP1.es:样品信息单样品名称:BMK-1D:百迈客样品分析编号:ReadNumber:C1.eanData中PairYndReadS总数:BaseNumber:C1.eanDaIa总碱基数:GCContent:C1.eanDataGC量,即QCanData中G和C两种碱基占总碱基的百分比:炬Q30:QCanData质址值大于或等于30的碱基所占的百分比。1.1.2 组装结果统计组装共得到14,199条Unigene,Unigene的N50为2,629,组装完整性较高,具体的统计信息
11、见图和表JdqEnNua6cnQEoOA1.ength(nt)1.1.3 测序数据与组装结果的比对统计将各样品的C1.eanData与组装得到的TranSCriPt或Unigcnc库进行序列比对,比对结果统计见表4。比对到TranSCriPt或Unigene的ReadS称为MaPPedReads.MappedReads将用于后续的分析.表4测序数据与组装结果的比对统计表BMK-Ii)C1.eanKeadsMappedReadsMappedKatioTO1.25,583,22320,903,787si.71%T0220.391,73516,700.12281.90%注:BMK-ID:百迈客样品分
12、析编号:C1.eanReads:C1.eanReads数目,以双端计:MappedReads:MappedReads数目,以双端计;MappedRatio:MappedReads在C1.eanReads中所占的比例.1.3 转录组测序文康质量评估1.3.1 11RNA片段化随机性检验11)RNA片段化后的插入片段大小选择,可以理解为从HiRNA序列中独立随机地抽取子序列,如果样本量(mRNA数目越大、打断方式和时间控制得越合适,那么目的RNA每个部分被抽取到的可能性就越接近,即mRNA片段化随机性越高,mRNA上覆盖的RCadS越均匀。通过MaPPedReads在件Unigene上的位置分布,
13、模拟mRN片段化结果,检验nRNA片段化的随机程度,各样品MappedReads在nRNA转录本上的位理分布图如下:图8MaPPedReads在nRNA上的位以分布图1.3.2插入片段长度检脸插入片段长度的离散程度能直接反映出文库制备过程中切胶或陂珠纯化的效果。测序样品的插入片段长度模拟分布图如下:插入片段长度模拟分布图1.3.3 转录组测序数据饱和度检验充足的有效数据是信息分析准确的必耍条件。转录组测序检测到的基因数目与测序数据量成正相关性,即测序数据量越大,检测到的堆因数H越多。但一个物种的塘因数目是有限的,而I1.基因转录具有时间特异性和空间特异性,所以随着测存量的增加,检测到的基因数目
14、会趋于饱和.为了评估数据是否充足,需要杳看随若测序数据批的增加,新检测到的博因是否越来越少或没有,即检测到的基因数目是否趋于饱和。使用各样品的MaPPedReadS对检测到的基因数目的饱和情况进行模拟,绘制曲线图如下:图10转,代组刈序数据饱和改模拟图1.4 Unigene功能注薜使用B1.ASTi21软件将Unigene序列与NR1.21、Swiss-Prot1.1.1.GO、COG应、KoGIz1、eggNOG4.51.bKEGG数据库比札使用KQBAS2.0此得到Unigene在KEGG中的KEGGOrtho1.ogy结果,预测完Unigcnc的H基酸序列之后使用HMMER1.1.I1.
15、软件与Pfam1.U1.数据库比对,获得UnigCne的注释信息。NR数据库是NCB1.中的非冗余蛋白质数据库,包含了Swiss-ProtPIR(ProteinInformationResource)、PRFProteinResearchFoundation)、PDB(ProteinDataBank)蛋白质数据库及从GenBank和RefSeq的CDS数据翻译过来的蛋白质数据信息SWiSS-Prot数据库是由EB1.(欧洲生物信息学研究所)负贡维护的数据库,包含了仃相关参考文献且经过校对的蛋白质注释信息数据库,可信度很高.CoG(C1.ustei,SofOrtho1.ogousGroups)数据库是对基因产物进行同源分类的数据库,是个较早的识别直系同源基因的数据库,通过对多种生物的蛋白质序列大量比较而来的.KoG(euKaryoticOrtho1.ogousGroups)数据库针对真核生物,基于基因直系同源关系,结合进化关系将来自不同物种的同源基因分为不同的Ortho1.ogoUS簇,目前KOG有4852个分类。来自同一OrthO1.ogOUS的基因具有相同的功能,这样就可以将功能注糅直接继承给同一KOG簇的其他成员。CggNOG(v4