《生物信息學》復習
《《生物信息學》復習》由會員分享,可在線閱讀,更多相關(guān)《《生物信息學》復習(17頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、《生物信息學》先鋒版中譯本第二版科學出版社 打分政策:60%期末考試(70%掌握內(nèi)容、25%熟悉內(nèi)容、5%理解內(nèi)容)(請注意紅體與黑體字) A:生物信息學概述 1 .生物信息學:生物信息學是生物學和信息技術(shù)的結(jié)合,是現(xiàn)代科學的又一個分支學科,它利用計算機對大量生物數(shù)據(jù)進行分析處理。生物信息學把用于存儲和搜索數(shù)據(jù)的數(shù)據(jù)庫開 發(fā),與用于分析和確定大分子序列、結(jié)構(gòu)、表達模式和生化途徑等生物數(shù)據(jù)集之間的關(guān)系的 統(tǒng)計工具和算法的開發(fā)結(jié)合在一起。 |-數(shù)據(jù)庫 生物信息學主要由三大部分組成■算法與統(tǒng)計工具 一分析與解釋 測序策略:逐個克隆法、全基因組鳥槍法 計算機在生物信息學中的作用:生
2、物信息學需要計算機快速、可靠地執(zhí)行重復任務的能力 以及處理問題的能力。然而,生物信息學中涉及的許多問題仍需要專家的人工處理,同時原 始數(shù)據(jù)的完整性和質(zhì)量也很關(guān)鍵。 生物信息學課程范圍:使初學者理解生物信息學的基本原理,并獲得相應的應用能力。具體包括生物信息學的一些關(guān)鍵領(lǐng)域:數(shù)據(jù)庫使用、序列和結(jié)構(gòu)分析工具、注釋工具、表達分 析以及生化和分子途徑分析。 2 .2物信息學實例: ——數(shù)據(jù)庫界面Genbank/EMBL/DDBJ,Medline,SwissProt,PDB,… ——序列搜索與比對BLAST,FASTA,Clustal,MultAlin,DiAlign 基因搜索Gensc
3、an,GenomeScan,GeneMark,GRAIL 蛋白結(jié)構(gòu)域分析與鑒定pfam,BLOCKS,ProDom, ——基因調(diào)控元件的方t算機模式識別GibbsSampler,AlignACE,MEME 蛋白折疊預測PredictProtein,SwissModeler 生物信息學網(wǎng)站:包括生物信息學資源、各種數(shù)據(jù)庫和生物信息學分析工具的網(wǎng)站 3.五個必須知道的生物信息學網(wǎng)站:(詳細參考書本p9) NCBI(TheNationalCenterforBiotechnologyInformation)http://www.ncbi.nlm.nih.gov/ EBI(TheEurop
4、eanBioinformaticsInstitute)http://www.ebi.ac.uk/ TheCanadianBioinformaticsResourcehttp://www.cbr.nrc.ca/ SwissProt/ExPASy(SwissBioinformaticsResource)http://expasy.cbr.nrc.ca/sprot/ PDB(TheProteinDatabank)http://www.rcsb.org/PDB/ B:數(shù)據(jù)采集 一、DNA,RNA和蛋白質(zhì)測序 1 .DNA測序原理: DNA測序是采用全自動的鏈終止反應完成的,這一技術(shù)通過加
5、入限量的雙脫氧核甘酸來 產(chǎn)生有特定終止堿基的嵌套DNA片段。共有4種反應,每種代表DNA4個堿基中的一個,每個堿基分別帶有不同的熒光標記。DNA片段通過聚丙烯酰胺凝膠電泳(PAGE)分離,當每 個片段移動到凝膠的末端時可以通過掃描儀讀取序列。 2 .DNA序列類型: DNA序列來源主要有3種方式?;蚪MDNA直接來自基因組,包括基因和基因外核酸序列,真核生物的基因組DNA包含內(nèi)含子;cDNA由mRNA反轉(zhuǎn)錄而來,并且只對應于基因組中能表達的部分,它不包含內(nèi)含子;最后,重組DNA來自實驗室,包含克隆載體等人工 DNA分子。 3 .基因組測序策略: 一次讀段(oneread)只能用于
6、短的DNA分子(約800bp)測序,所以大的DNA分子,如基因組,必須首先將其打碎成片段?;蚪M測序可以分為兩種方式:霰彈法測序(shot-gunsequencing) 包括隨機DNA片段的生成,通過大量片段測序來覆蓋整個基因組;與之相反,克隆重疊群測序(clonecontigsequencing)包括亞克隆系統(tǒng)的產(chǎn)生及其測序。 4 .序列質(zhì)量控制: 通過在DNA雙鏈上進行多次讀段完成高質(zhì)量序列數(shù)據(jù)的測定??墒褂萌鏟hred等程序?qū)ψ? 初的跟蹤數(shù)據(jù)(tracedata)進行堿基識別和質(zhì)量判斷。載體序列和重復的DNA片段被屏蔽后,使用Phrap程序?qū)⑿蛄衅唇映芍丿B群(contigs),剩
7、下的不一致部分通過人工校對解決。 5 .單遍(Single-pass)測序: 低質(zhì)量的序列數(shù)據(jù)可以由單次讀段產(chǎn)生(單遍測序,single-passsequencing)。盡管不很準確, 但單遍序列如ESTs和GSSs,可以以低廉的價格快速大量地產(chǎn)生。 6 .RNA測序: 大部分RNA序列可以從相應的DNA序列推斷得到,但是需要用特殊的方法來識別被改變的核背,這些方法包括:生化實驗、核磁共振譜(NMRspectroscopy)、質(zhì)譜 7 .蛋白質(zhì)測序: 目前,大部分蛋白質(zhì)測序是通過質(zhì)譜(MS)技術(shù)進行的,應用這一技術(shù)可以通過測量真空中 離子的分子質(zhì)量/電荷比來計算精確的分子質(zhì)量。
8、軟離子化方法可以對蛋白質(zhì)這樣的大分 子進行質(zhì)譜分析。通過比較經(jīng)胰蛋白酶裂解而獲得的多肽片段的分子質(zhì)量與從數(shù)據(jù)庫中蛋白質(zhì)的虛擬消化(virtualdigest)預測而來的分子質(zhì)量的異同推斷序列。通過在碰撞室(collision cell)中產(chǎn)生的蛋白質(zhì)片段嵌套集合可以進行重新測序,并可通過單個氨基酸殘基計算不同長度片段間分子質(zhì)量的差異。 二、蛋白質(zhì)結(jié)構(gòu)的確定 1 .X-ray衍射晶體學: X衍射晶體學是一種通過精確定向的蛋白質(zhì)晶體的X射線衍射模式來確定蛋白質(zhì)結(jié)構(gòu)的方 法。這種方法中,X射線因晶體中原子的電子密度和空間方向的不同而發(fā)生散射,可用傅立 葉變換的數(shù)學方法從衍射數(shù)據(jù)中重構(gòu)電
9、子密度圖,以建立結(jié)構(gòu)模型。 2 .核磁共振譜: NMR是某些原子的一種屬性,即在外加磁場范圍內(nèi)原子通過吸收電磁輻射可以在不同的 磁狀態(tài)間轉(zhuǎn)換。吸收光譜的性質(zhì)受原子類型及其周圍化學性質(zhì)影響,所以NMRspectroscopy 可以區(qū)分不同的化學功能團。核磁共振譜也因空間上原子的接近而改變。NMR譜的分析可 以重建原子的三維構(gòu)型,產(chǎn)生一系列結(jié)構(gòu)模型。這一技術(shù)只適合小的可溶性蛋白的分析。 3 .其他方法: 對于大的不容易結(jié)晶的蛋白質(zhì),需要用其他的分析方法來推測結(jié)構(gòu),這包括X射線纖維衍 射、電子顯微鏡和CD光譜(circulardichroismspectroscopy)。 C:數(shù)據(jù)
10、庫一一內(nèi)容、結(jié)構(gòu)和注釋 一、文件格式 1 .三種常用序列格式: 常用核酸和蛋白序列格式:①NBRF/PIR格式文件名后綴為:.pir?;?seq ②FASTA格式文件名后綴為:.fasta ③GDE格式文件名后綴為gde 例: ID代碼:5H1B_CAVPO 序列登錄號:O08892 NBRF/PIR格式: >P1;5HT1B_CAVPO Guineapigserotoninreceptoraccession:O08892 MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT… FASTA格式: >5
11、HT1B_CAVPOO08892|guineapigserotoninreceptor MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT… GDE格式: %5HT1B_CAVPOO08892|guineapigserotoninreceptor MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT… 2 .比對序列文件: 可用下述常用格式中任何一種:NBRF/PIR,FASTA,GDE 多序列比對格式:MSF,PHYLIPandALN 3 .結(jié)
12、構(gòu)數(shù)據(jù)文件: 結(jié)構(gòu)數(shù)據(jù)用PDB格式的平面文件(flatAles)來維護,這類文件包含:正交的原子坐標值(X,Y,Z軸);注釋、說明和實驗細節(jié)。 NOTE:1、ATOM行以字符計數(shù),而不是以單詞計數(shù); 2、NMR文件沒有分辨率REMARK行。 二、已注釋的序列數(shù)據(jù)庫 1 .初級序列數(shù)據(jù)庫: 保存rawsequencedata,并對每個條目做了進——步的注釋:featuretable-propertiesofseq. 2 .輔助序列數(shù)據(jù)庫: 特別類型的序列數(shù)據(jù).eg.ESTs,GSSsandunfinishedgenomicseq.data 3 .序列提交:Sequence(序列
13、)一Internet(互聯(lián)網(wǎng))一NCBI/EMBL/DDBJ(數(shù)據(jù)庫) 4 .SWISS-PROT和TrEMBL: SWISS-PROT:收集了確認的蛋白質(zhì)序列及與結(jié)構(gòu)、功能和所屬蛋白質(zhì)家族有關(guān)的注釋信 息。 TrEMBL:翻譯了初級核酸數(shù)據(jù)庫中的編碼序列。TrEMBL中各條目的注釋不如 SWISS-PROT中的條目那樣詳細。 5 .數(shù)據(jù)庫杳詢: SearchingbySequencesimilarityfBLAST Text-basedSearchin尸EntrezorSRSaccessionnumber accessionnumber:提供基因及其產(chǎn)物的唯一標示號 D:
14、生物數(shù)據(jù)檢索 一、通過Entrez和DBGET/LinkDB進行數(shù)據(jù)檢索 1. 訪問分布數(shù)據(jù):利用專業(yè)的數(shù)據(jù)檢索工具Entrez,DBGET和SRS進行數(shù)據(jù)庫搜索 2. Entrez:Entrez可以用來搜索NCBI中集成的所有數(shù)據(jù)庫包括GenBank,OMIM以及文獻數(shù)據(jù)庫MEDLINE 3. NCBI和Entrez:Entrez—Alldatabases模式搜索,以文本是形式進行文本搜索:以單詞或邏輯短語為關(guān)鍵詞 4. DBGET/LinkDB DBGET/LinkDB:日本京都大學和人類基因組中心聯(lián)合開發(fā)的集成數(shù)據(jù)檢索系統(tǒng)。它整合了20數(shù)據(jù)庫并與KEGG相關(guān)聯(lián)。 LinD
15、B:isadatabaseoflinks,eachofwhichisrepresentedasabinaryrelationintheformof:dbname1:identifier1-->dbname2:identifier2 DBGET:haspowerfulcapabilitiestosearchagainstthisgraphobject Themolecularbiologydatabasesintheworldcanberetrieveduniformlybyspecifyingthecombinationofthedatabasenameandtheidentifier:d
16、bname:identifier Identifier:organism:gene三種搜索模式:bget,bfind,blink 二、使用SRS的數(shù)據(jù)檢索 1 .開源SRS:SRS由歐洲生物信息研究所開發(fā),其集成有80多個分子生物學數(shù)據(jù)庫。SRS 可下載和安裝在本地計算機上使用。 2 .使用SRS:SRS與Entrez和DBGET的數(shù)據(jù)分類的原理不同。 SRS的使用包括選擇一個或多個分組,在每一個選定的組中選擇一個或多個現(xiàn)有的數(shù)據(jù)庫。 查詢方式有兩種:標準模式、擴展模式。 3 .安裝SRS:SRS可以通過腳本語言ICARUS編程來查詢使用者自己的數(shù)據(jù)庫。 E:通過序列相似性標
17、準搜索序列數(shù)據(jù)庫(重難點章節(jié)) 一、以序列相似性標準搜索序列數(shù)據(jù)庫 1 .序列相似性搜索 1.1. 序列相似性搜索: 通過序列相似性來搜索數(shù)據(jù)庫,我們可以找到與所查詢序列相似的序列??梢杂眠@些找到的 序列信息來預測查詢序列的結(jié)構(gòu)或功能。依據(jù)相似性進行預測是生物信息學中強大而且廣泛使用的方法,其根本依據(jù)是分子進化。 當序列擁有一個共同的祖先序列時,它們往往在序列、結(jié)構(gòu)和生物學功能上具有相似性。 這很可能是生物信息學上最重要的思想,因為它使得我們可以進行預測。 查詢序列建詢序列的結(jié)榭 ,BLAST i IFASTA: 同蜘帽Hung -一一甯息 眄酸版幼仙g 1.2.
18、序列比對: 任何一對DNA序列都有一定程度的相似。 序列比對:是使相似度量化的第一步,用來區(qū)分偶然性的相似和真實的生物學關(guān)系。 比對結(jié)果:以變化(突變)、插入或缺失(indels或空位)來顯示序列之間的差異,這些差異可以用進化術(shù)語來說明。 insertions / SEQ1:AATTGAITGCGCATTTAAAGGG SEQ2:AACTGA…CGCATCTTAAGGG Gaps(ItideIs)onutation Indeb=lnsertion+deletion 1.3. 比對算法: 動態(tài)規(guī)劃算法(Dynamicprogrammingalgorithms)可以計算兩條序
19、列之間的最佳聯(lián)配。 兩個變體: Smith-Watermanalgorithm:localalign. Needleman-Wunschalgorithm:globalalign. 當序列不是全長關(guān)聯(lián)時局部比對是有效的。例如僅在某些特定功能域相似的蛋白質(zhì)序列, 或僅在外顯子區(qū)域關(guān)聯(lián)的DNA序列等。 Localalignment---BLAST 1.4. 比對打分和空位罰分: 用簡單的比對打分來測量相同匹配殘基的比例或數(shù)目。得從比對打分中扣去空位罰分,以保 證比對算法能得出有生物學意義的結(jié)果而沒有太多的空位。 Score:S=sum(si)+sum(xk) 空位罰分可以根據(jù)
20、預期的應用進行調(diào)整。有下述三種情況: 固定罰分:與空位長度無關(guān); 比例罰分:與空位長度成比例; 放射罰分:包括gapopening和gapextension兩部分罰分 Constant:x=u+vk,v=0 Proportional:x=u+vk,u=0 Affine:x=u+vk,u,vw0 kisthenumber(length)ofthelinkedgaps 例:SEQ1:AATTGATTGCGCATTTAAAGGG SEQ2:AACTGA…CGCATCTTAAGGG K=3 我們并不總是很清楚空位罰分常數(shù)u和v該采用什么值,這在某種程度上依賴于所比對的 序列的性
21、質(zhì)。 Closesequencerelationship:highergappenalties Distantrelationships:lowergappenalties 1.5. 序列相似性測量: 序列相似度可用比對算法、序列一致性百分率(percentagesequenceidentities)或更復雜的方法得出的分值來量化。 311-)1 y4電 6M 0Q a na 0.0 a 苗 0.Q a.a 0.0 a 674 00 函 0.0 國 00 MO a.a 逅 小皿 >< )I . L
22、 thescorefromthealignmentalgorithm: .fb』屯”《Qti手.工ji尸蚓*Rid/!I-iffiApi^rii) ■SiI*“114?西神:jtnhinftkpi.pniI RiinngMiAiW%方而有:Julhw”.fj 史上!上」1艮卦3|4!立1其L!U力¥41bliplifrfIcAltt'Cihil*lAEM1(frtjfnftiiI SEQ1:AATTGATTGCGCATTTAAAGGG SEQ2:AACTGA…CGCATCTTAAGGG percentagesequenceidentities:(16/22)x100=7
23、3%Note: 必須是在長的比對結(jié)果中找到的高比例一致,才有可能反映真正的生物學或進化關(guān)系。 對DNA序列來說,比對序列并使序列一致性百分率(即percentagesequenceidentities)最大化是合乎情理的。但對蛋自序列而言,則應該更多地考慮組成序列的單體的屬性。某些 氨基酸之間的替代比其他氨基酸更頻繁,所以,在蛋白序列比對算法中需要考慮這個因素。 1.6. 相似性和同源性: 任何序列之間均存在相似,但是僅當序列是從一個共同的祖先進化而來時,它們才是同源的。同源序列常常具有相似的生物學功能,但是基因復制的進化機制允許生物體有多余的基因 拷貝。這些多余的基因拷貝于是自由
24、地進化出新的功能,成為有不同功能的同源基因。 直系同源(orthologs):不同物種的兩個同源基因有相同的功能,就稱它們是直系同源; 旁系同源(paralogs):當同一或不同物種的兩個基因有不同的功能,就把它們稱為是旁系同源. 不同功能的同源基因的例子:溶解酶(lysozyme,一種酶)和a-乳白蛋白(a-lactalbumin, 一種哺乳動物調(diào)節(jié)蛋白)。這些蛋白質(zhì)有非常相似的序列,幾乎已肯定是同源的,但卻有極其不同的功能。 2 .氨基酸替換矩陣(難點) 2.1. 相同氨基酸數(shù)目的最大化: 比對蛋白質(zhì)序列從而使相同的氨基酸數(shù)目(即percentagesequenceident
25、ities最大化。其 中,每對匹配的相同氨基酸對比對分值的貢獻是1,不一致的氨基酸對對比對分值的貢獻是 0。(如下圖所示) ioooooogoooood - 1-^OOODOOOOnooGN — Doofloo 00-00 odoog L □ o o o o D o □ o o o o D o o A - IflooooooooooDODOOP - IDOO&ooon-DOOODaooflT lofl-OODOOOOOOO&ooooos Ion-.Do QDOOO QD oooo R-oo&r- cstpagkdeqhrkmilvfyw 這是對密切相關(guān)的序列進 行比對的好方法,但這并
26、不能揭示遠親之間的進化 關(guān)系。 2.2. 進化:因為要維持蛋白質(zhì)結(jié)構(gòu)和功能,所以編碼蛋白質(zhì)的序列的進化比基因組的大多數(shù) 其他部分的進化更為緩慢。一個例外是快速進化也可能發(fā)生在新近復制基因的多余拷貝中。 2.3. 允許的替換:進化中蛋白序列的變化往往包括相近屬性氨基酸間的替代,因為這樣才能 保持蛋白質(zhì)的結(jié)構(gòu)穩(wěn)定。 比如:同一進化家族的蛋白質(zhì)序列通常表現(xiàn)為有相似物理化學性質(zhì)的氨基酸間的替代。 2.4. 替換打分矩陣: 這些矩陣給進化中所有可能的氨基酸替換打分,分值越高,意味著替換的可能性越大。進行 序列比對的動態(tài)規(guī)劃算法可以采用從這些矩陣得到的分值來進行運算。E.g.BLOS
27、UM62and PAM250. PAM:AcceptedPointMutations(認可的點突變) PAM250:表示矩陣的進化距離是每100個殘基有250個氨基酸變化。 PAMn:n值越小,表示進化距離越短。 PAM250 C 3 T P A ij H D E Q H R K 12 0 M -5 I -3 L .6 0 i o □ D 0 -1 ■ 1 CF -i 0 ,2 0 -3 -3 -3 T 6 1 -1 -1 .1 0 0 0 4 -2 -2 .3 -1 -5 -3 -6 P 4 -3 -6 5 □
28、 I 0 -1 -2 0 1 -2 -2 -2 -4 -2 4 N -2 -6 -4 7 D 3制1 Seq2 : Positiafi score. Tolal alijgmgnL MILVKP-VVLKGDF3 MILLKP AI II RAEY- 656 2 56 0442 3 1 3 70 5COTB _ cf poati on scores) - (gap p5J - 1 = 53 4 2 4 -1 □ -2 -2 .3 -2 -2 -5 -4 5 Q 6 3 G -2 -3 -2 -A -4 2 R 5
29、 0 -2 .3 -2 -5 -4 -3 K 1 -t -5 I -1 -2 -2 -6 L V 9 7 0 F 10 0 17 Y W BLOSUM:blockssubstitutionmatrix BLOSUM62:用于構(gòu)造矩陣的blocks的最小序列一致性百分數(shù)至少為62%。 更小數(shù)字的BLOSUM矩陣表示更長的進化距離(BLOSUM50所代表的進化距離要比 BLOSUM62要長)。 Note:BLOSUM矩陣通常比PAM好用。 AminoAcidSubstitutions RIossum62Matrix 國 ? 工3口 5 1
30、2 1 口-1 3.2:: -3-4-3QQ-4口 FH3A dT J- J- o-Z-Z3 T -1一江與-343--IFM-2H 「-3-3々力 4-3 Blossum62 Note:一致氨基酸比對的分值也有差異,這反映了氨基酸在天然蛋白序列中的出現(xiàn)頻率的不 同。兩個相同的非常見氨基酸的比對(如W和W)要比兩個相同的常見氨基酸的比對更有 可能反映一個進化上有意義的比對。因此,相同的非常見氨基酸的比對具有更高的分值。 2.5. 意義:替換打分矩陣可以查找蛋白質(zhì)序列間較遠的親緣關(guān)系。 NOTE:蛋白序列比對比核酸序列比對更可能找到較遠的親緣關(guān)系。 2.
31、6. 可視化:點陣圖(Dotplots)-點陣圖是使序列相似性可視化并找到重復片段的一一個 非常好的方法。 3 .數(shù)據(jù)庫搜索:FASTA和BLAST: 3.1. 數(shù)據(jù)庫搜索:把查詢序列與數(shù)據(jù)庫中每條序列依次比對并返回最高分(最相似)序列,就能找到與查詢序列相近的序列。這可以通過動態(tài)規(guī)劃算法完成,但實際上常用的是更快的 近似方法。 3.2. 算法和軟件: BLAST和FASTA提供了非??焖俚男蛄袛?shù)據(jù)庫搜索途徑。與動態(tài)規(guī)劃不同,它們并不能 保證找到數(shù)據(jù)庫里每條序列的最佳可能比對,但實際上這對性能的影響通常來說是最小的。它們最初通過搜索短的一致或接近一致匹配的字母(word)片段,然
32、后再將這些片段延伸 到更長的匹配。 BLAST和FASTA都基于同樣的假設(shè),即高分值的比對結(jié)果可能含有短的一致或近似一致的序歹U片段(shortstretchesorwords)。 (1) BLAST:W(wordlength);T(thresholdscore);尋找長度為W比對得分>T的wordsJ 擴展這些words直到比對得分跌落到一定值,產(chǎn)生大量HSPs(high-scoringsegmentpairs)J 通過動態(tài)規(guī)劃比對好全部序列高打分區(qū)域,得出最終比對結(jié)果及其分值。 (2) FASTA:ktup;尋找完全匹配的長度為ktup的words 尋找含有高密度words匹
33、配的ungapped的序列比對;將其組裝成高分值的gapped的序列比對 通過動態(tài)規(guī)劃比對好全部序列高打分區(qū)域,得出最終比對結(jié)果及其分值。 3.3. 統(tǒng)計得分: 相似度記分的p值是指獲得至少與兩條無關(guān)序列間的偶然相似性一樣高的分值的概率。低p 值表明重要的匹配,這些匹配可能會有真實生物學意義。相關(guān)的E值是至少與所識別的相 似性記同樣高分值的偶然事件的期望頻率。兩序列間相似度的低p值對應于大數(shù)據(jù)庫搜索 的高E值。lowp-highE當E值很小的時候和p值很接近 3.4. 敏感性和特異性:敏感性衡量數(shù)據(jù)庫中真實生物序列關(guān)系的比例,該關(guān)系表現(xiàn)為擊中項(hit)。 特異性指的是對應于真
34、實生物學關(guān)系的擊中項的比例。這些測度量化了數(shù)據(jù)庫搜索策略的優(yōu)良度。 Sensitivity:Sn=ntp/(ntp+nfn)Specificity:Sp=ntp/(ntp+nfp) 注:(tp:truepositive;fn:falsenegative;fp:falsepositive) 改變E和p的默認值會導致這些互補的優(yōu)良度測量方法之間的平衡。 3.5. 數(shù)據(jù)庫類型: 數(shù)據(jù)庫和查詢序列可以是蛋白質(zhì)或核甘酸序列,不同種類的序列和組合有不同的查詢策略。 一般來說,如果使用編碼蛋白質(zhì)的核甘酸數(shù)據(jù)庫和/或?qū)⒉樵冃蛄蟹g成蛋白質(zhì)序列,搜索 會更加敏感。 BLASTandFASTApr
35、ograms ProgramnaineQuecysequenceDatabasetype BlastpProteinProtein BlastnNucleicacidNucleicacid BlastsNucleicacid(translated)protein TblastiiProteinNucleicacid(translated) TblastxNucleicacid(translated)Nucleicacid(translated) FastaProteinornucleicacidPiotcinornucleicacid TfastxProteinNucleica
36、cid(tianslaied) FastxNucleicacid(translated)Protein Jtraislated-meansthenucleicacidsequenceistranslatedtoproteininsixreadingframes 3.6. 可行例子和現(xiàn)有程序: BLASTattheNCBI、FASTAattheEBI——搜索許多一般用途的序列數(shù)據(jù)庫。 RESULTS:按Evalue排序 NOTE:必須檢查有關(guān)序列的比對結(jié)果以發(fā)現(xiàn)序列間相似的區(qū)域。 NCBI的BLAST網(wǎng)站:http://www.ncbi.nlm.nih.gov/BLAST/(建議自
37、己動手操作以加深理解) 4 .序列過濾: 4.1. 非特異性的序列相似: 一些類型的序列相似要比其他類型難揭示進化關(guān)系。 Examples:低組成復雜度區(qū)域間的相似,短的重復片段間的相似以及編碼普通結(jié)構(gòu)的蛋白序列(如卷曲螺旋)間的相似等。 4.2. 相似性搜索: 上述區(qū)域類型會降低相似性搜索結(jié)果的質(zhì)量,所以在搜索前常常要將其從搜索序列中過濾 掉。 SEGandDUST:detectandfilterlowcomplexitysequences; XNU:filtershortperiodrepeats; COILS:detectthepresenceofpotentialc
38、oiledcoilstructures. 5 .數(shù)據(jù)庫迭代搜索和PSI-BLAST 5.1. 尋找進化關(guān)系: 趨異進化可以使蛋白質(zhì)序列變得無法識別,但卻保持結(jié)構(gòu)和功能的相似。而BLAST和FASTA此類方法有時只能發(fā)現(xiàn)數(shù)據(jù)庫中的一小部分進化關(guān)系。有許多生物信息學搜索已經(jīng)著重于發(fā)現(xiàn)序列間的疏遠進化關(guān)系。 5.2. 數(shù)據(jù)庫的迭代搜索: PSI-BLAST是一種迭代的搜索方法,可以提高BLAST和FASTA的相似序列發(fā)現(xiàn)率。 每次迭代都發(fā)現(xiàn)一些中間序列,用來在接下去的迭代中尋找查詢序列的更多疏遠相關(guān)序列。 PSI-BLAST常??梢哉业奖菳LAST結(jié)果多達兩倍的進化關(guān)系。 PSI-B
39、LAST的潛在問題是存在不相關(guān)序列對迭代結(jié)果的污染,而其難點則與蛋白質(zhì)的結(jié)構(gòu)域的結(jié)構(gòu)有關(guān)。 F:多重序列比對:基因和蛋白家族(實驗四) 一、多序列比對和家族關(guān)系 1 .多序列比對:家族性蛋白質(zhì)和核甘酸序列的內(nèi)在關(guān)系可以用多序列比對來闡明。當所考察的序列不同時,保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學功能的關(guān)鍵殘基。多序列比對可 以揭示關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。與兩序列比對相比,多序列比對更富含進化保守 關(guān)系的信息,因此通常能告訴我們更多的信息。 2 .軟件:最著名的是ClustalW軟件包,2p://ftp-igbmc.u-strasbg.fr/pub/ClustalX. 3
40、.漸進比對:目前大多數(shù)程序使用漸進的比對方法,該方法有運行速度較快的優(yōu)點。該法以 兩序列比對來初步評價序列的相關(guān)性,并在這個基礎(chǔ)上構(gòu)建向?qū)洌╣uidetree);然后使用 向?qū)渲鸩教砑有蛄械奖葘χ?,從最密切相關(guān)的序列開始到距離最遠的序列結(jié)束。 漸進比對方法通常非常有效,但也存在一個問題,即比對過程中早期產(chǎn)生的比對錯誤不 能被矯正而是被凍結(jié)”在比對結(jié)果中。生物化學知識有時能夠提供正確的比對信息。當自動 產(chǎn)生的比對結(jié)果不太理想時,就需要軟件來人工編輯比對結(jié)果。 漸進比對過程中常用到幾種精練方法。例如在Clustal程序包中, 1)空位罰分發(fā)生變化以使空位插入更有可能發(fā)生在親水的環(huán)
41、狀區(qū)域; 2)根據(jù)比對序列的相關(guān)程度可以采用不同的氨基酸替換打分矩陣。 二、蛋白家族和模式數(shù)據(jù)庫 1 .蛋白家族:把序列分配到蛋白質(zhì)家族中是預測蛋白質(zhì)功能的一種非常有價值的方法。已開 發(fā)出許多方法來代表蛋白質(zhì)家族信息,這些方法存儲在二級蛋白質(zhì)家族數(shù)據(jù)庫中。 2 .一致序列:是把多序列比對的信息壓縮至單條序列。主要的缺點是除了在特定位置最常 見的殘基(>60%)之外,它們不能表示任伺概率信息。 一致序列的缺陷: 1)大量來自序列的不含一致殘基的信息被忽略掉,即使這些位點包含所允許的保守替換。 2 )一致序列的產(chǎn)生說明了任何蛋白家族的表示是有偏向的,這主要是由于來源的序列集是有偏
42、向的。 3 .數(shù)據(jù)庫: 1) PROSITE數(shù)據(jù)庫:包含與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。 數(shù)據(jù)庫是人工編排的,任何已知的假陽性或假陰性都會報道出來。 在PROSITE中,特殊的符號,包括方括號(如[LIVM])、波形括號(如{FD})和x(n)用來表示模式中每個位點可供選擇的殘基。 PROSITE模式的特點:它們長度比序列全長短得多;它們允許特定位置的替換。因此, 它們能夠發(fā)現(xiàn)家族中的遠親關(guān)系,也能夠幫助我們了解家族成員共有的結(jié)構(gòu)或功能信息。 PROSITE模式有很多缺點:首先,它們長度較短使得不相關(guān)序列中有假陽性的存在; 其次,雖然它們允許描述特定位
43、置的變化,但無法計算該變化的概率。 2) PRINTS和BLOCKS:它們用來自序列最保守區(qū)域的多序列比對的無空位片段(blocksormotifs)來表示蛋白質(zhì)家族。通過更多代表序列的信息,它們有可能比短PROSITE模式更為 敏感。 如果能匹配某特定家族相關(guān)motif的一個子集就意味著它們有發(fā)現(xiàn)剪接突變體、序列片 段以及代表亞家族的能力。兩者都已有基于WWW的數(shù)據(jù)庫搜索引擎。 這些數(shù)據(jù)庫中的motifs要比PROSITE模式覆蓋更大的序列區(qū)域。與PROSITE不同,序列中motifs的匹配通常要考慮氨基酸替換矩陣,因而對某一固定模式不要求嚴格的匹配。 因此,這種匹配更為敏感(可
44、以找到更多遠親關(guān)系)和更加特異(更少的假陽性出現(xiàn))。 三、蛋白結(jié)構(gòu)域家族 1 .結(jié)構(gòu)域家族:許多蛋白質(zhì)是由結(jié)構(gòu)域以模塊化的方式構(gòu)建的。因此蛋白質(zhì)家族的研究其實 是對蛋白質(zhì)結(jié)構(gòu)域家族的研究。Prodom是由自動方法產(chǎn)生的蛋白質(zhì)結(jié)構(gòu)域序列的數(shù)據(jù)庫, 這一數(shù)據(jù)庫來自于蛋白質(zhì)序列數(shù)據(jù)庫。 2 .序列輪廓:又稱為權(quán)重矩陣,它們表示完全的結(jié)構(gòu)域序列,是一種描述蛋白結(jié)構(gòu)域家族相關(guān)序列的方法。多序列比對中每個位點的氨基酸都有分值,并且特定位置插入或缺失的可能 性均有一定的衡量方法。序列輪廓可以被用作某些PROSITE數(shù)據(jù)庫條目中序列模式之外的 替代方法。 3 .隱馬爾可夫模型:這類模型是蛋白質(zhì)
45、結(jié)構(gòu)域家族序列的一種嚴格的統(tǒng)計模型,包括序列的 匹配,插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。 代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高,從其他家族中生成序列的概 率較低?,F(xiàn)在已有算法可以近似地得出從某特定家族模型中生成一條新的蛋白序列的概率,而且它們可以用來把新的蛋白序列歸類到某一蛋白家族中。 4 .網(wǎng)上資源:Pfam和SMART可以被用于蛋白質(zhì)結(jié)構(gòu)域家族的分析。Interpro聯(lián)合了PROSITE, PRINTS,Pfam,Prodom和SMART,從而形成了一個整合的資源。 G:系統(tǒng)發(fā)育學(實驗四)一、系統(tǒng)發(fā)育學、遺傳分類學和
46、存在論 1 .物種間的相似性和差異性可以被用來推斷進化關(guān)系(系統(tǒng)發(fā)育學)。這是因為,如果兩物 種非常相似,它們可能擁有一個新近的共同祖先。確定生物體間進化關(guān)系的科學分支即系統(tǒng) 發(fā)育學。三種方法:表現(xiàn)型分類法、遺傳分類法、進化分類法 系統(tǒng)發(fā)育分析:許多不同的特征能夠用于系統(tǒng)發(fā)育的分析中,但是核甘酸和蛋白質(zhì)序 列是最為常用的,因為它們?yōu)樗械纳问剿灿校ㄔ试S研究關(guān)系密切或疏遠的類別), 而且可以客觀地比較。序列間的相關(guān)性可以使用序列比對算法客觀地量化。這即是生物信息 學在系統(tǒng)發(fā)育學中所起的重要作用。序列系統(tǒng)發(fā)育分析背后的簡單原理是:兩條序列間相似 度越高,從一條序列變成另一條序
47、列所需要的突變就越少,因而它們擁有的共同祖先就越近。 然而,從這類分析得出的任何進化關(guān)系必須假定:所比較的序列存在不變的突變率并且沒有 差異選擇。但是這些條件實際上很難達到。二、構(gòu)建系統(tǒng)發(fā)育樹1.系統(tǒng)發(fā)育樹是一種顯示講化關(guān)系的簡單方法.物種由節(jié)點(nodes)表示,遺傳路徑由枝 (links)來表示。 系統(tǒng)發(fā)育樹可以從相似度表(similaritytables)或距離表(distancetables)中構(gòu)建 而來。這些表顯示了生物體中一套給定特征間的相似性,采用匹配的百分比(相似度表), 或者差異的百分比(距離表)來表示。三種建樹方法:距離矩陣法、最大簡約法、最大似然法 2 .建
48、樹軟件:PAUP(phylogeneticanalysisusingparsimony)、PHYLIP(phylogeneticinferencepackage) 3 .檢驗方法:一棵給定的樹不一定能準確地代表進化歷史。然而,數(shù)據(jù)的可靠性可以通過下述方法進彳T評估:1)如果不同方法構(gòu)建樹能得出同樣的結(jié)果,這可很好證明該樹是可信的。 2) Bootstrapping和jack-knifing方法:重新取樣并構(gòu)建更多的樹來評估。 三、大分子序列的進化 1 .DNA在進化過程中積累突變,導致了不同株系后代DNA、RNA和蛋白質(zhì)序列的分歧。 基于大分子序列間差異的系統(tǒng)發(fā)育樹被稱為分子系統(tǒng)發(fā)育
49、。 由于內(nèi)部突變率和選擇壓力的差異,不同大分子序列進化速率不同,使得對親緣關(guān)系較 近和較遠的生物體都可以進行系統(tǒng)發(fā)育分析 2 .大分子序列的選擇:對于密切相關(guān)的生物體,使用一種快速進化的分子如線粒體DNA比 較合適。對于有很大分歧的系統(tǒng)發(fā)育關(guān)系,則需要用高度保守的分子如核糖體RNA。 注意不要選擇不適當?shù)拇蠓肿有蛄衼斫忉屆黠@的系統(tǒng)發(fā)育關(guān)系。 H:序列注釋(實驗三) 一、基因組注釋原理 1 .注釋:這一術(shù)語是指從原始序列數(shù)據(jù)中獲得有用的生物學信息。這主要是指在基因組.DNA 中尋找基因和其他功能元件(結(jié)構(gòu)注釋),并給出這些序列的功能信息(功能注釋)。 由于基因結(jié)構(gòu)和基因組組織
50、的不同,原核生物和真核生物的基因組注釋涉及不同的問題。 2 .用計算機尋找基因:可以用計算機來預測基因組DNA上基因的位置。這可以通過信號自動檢測[尋找保守的模體(motif)]、內(nèi)容自動檢測(尋找序列背景類似基因的區(qū)域)和同源性搜索(尋找與以前已發(fā)現(xiàn)的基因序列相匹配的區(qū)域)等方法的組合來完成。然而,沒有一種 基因查找的方法是100%可靠的。 Signals是不連續(xù)的局部序列模體,如啟動子,剪切供體和受體位點,起始和終止密碼子,以及polyA尾位點。 Contents是不同長度的擴展序列,如編碼區(qū)、CpG島(CpGisland)等。 Homologies是已知基因之間的匹配,如代表基
51、因的表達序列標簽(ESTs)序列等。 3 .檢測ORFs(可讀框): ORF:一段較長(>300bp)的位于起始密碼子(usually,ATG)和終止密碼子(無義密碼子,TGA,TAGorTAA)之間的有義密碼子序列,在細菌基因組中,基因很少有內(nèi)含子的中斷。因此,檢測基因的有效途徑是對基因組序列進 行六個可讀框的翻譯并識別長白可讀框(ORF)。 4 .檢測Exons和Introns 在高等真核生物基因組中,基因呈分散狀分布,并被大量的長內(nèi)含子所中斷。外顯子太短,從而不能僅僅通過ORF搜索來發(fā)現(xiàn),所以需要采用包括外顯子檢測和內(nèi)容自動檢測、剪切 信號的識別這種組合方法,并結(jié)合cDNA序
52、列等輔助信息來構(gòu)建全長基因的模型。 二、注釋工具和資源 1 .基因預測軟件 基因預測程序使用從頭算預測(abinitiomethods)and/or同源搜索(homology searched來識別基因組DNA中的基因。NCBIORFfinder通過執(zhí)行六個可讀框的翻譯來識別ORFs。對于復雜的真核生物基因組,則需要更復雜的統(tǒng)計分析方法。 2 .測量預測準確性:沒有一個基因查找程序是100%精確的,所以較好的方法是使用幾個程 序來注釋相同的基因組序列。預測精度用敏感性(能正確預測真正的基因或外顯子)和特異 性(能正確排除假基因或假外顯子)來衡量。 3 .注釋流水線:處理從基因組
53、計劃中產(chǎn)生的大量數(shù)據(jù)的唯一途徑是使用連續(xù)的流水線一注釋 流水線飛速”注釋。 I:結(jié)構(gòu)生物信息學(實驗六) 一、蛋白結(jié)構(gòu)的概念模型 1 .結(jié)構(gòu)類型和概念模型 三種不同的蛋白結(jié)構(gòu)類型:纖維蛋白(如膠原質(zhì));球狀蛋白,它往往存在于如細胞質(zhì)和細 胞外液等水性溶劑中;內(nèi)在膜蛋白,它存在于生物膜的脂質(zhì)環(huán)境當中。 2 .球狀蛋白中,線性氨基酸多聚體折疊成球狀的緊湊形狀從而形成一種三維結(jié)構(gòu)。球狀蛋白在水性溶劑中往往是可溶的,其折疊受疏水效應控制,疏水效應使疏水氨基酸側(cè)鏈朝向蛋白質(zhì)的結(jié)構(gòu)核心,遠離溶劑。 3 .內(nèi)在膜蛋白是生物信號和跨膜運輸系統(tǒng)的關(guān)鍵元件。這些蛋白存在于生物脂質(zhì)膜中,遵循與球狀蛋
54、白不同的結(jié)構(gòu)原則。它們包含與跨膜片段(常常但不總是螺旋)有關(guān)的多條普 通的疏水氨基酸鏈,并由膜外水性環(huán)境中的更多親水回環(huán)連接。 4 .二、三、四級結(jié)構(gòu)概念: 1)球蛋白通常包含規(guī)則的二級結(jié)構(gòu)的元件,如a-helices(H)和3-strands(EorB). a-helices由每個氨基酸的主鏈上的C=O功能團和氨基酸沿著螺旋的四個殘基上的H-N 功能團之間的氫鍵來穩(wěn)定。 3-strands由主鏈上的殘基與多肽其他部分形成的鏈中的殘基連接形成的。這意味著單一3 鏈不能孤立地存在,它在空間上總是與至少另一條鏈相鄰。這種由連續(xù)的、空間上相鄰的、 以氫鍵相連的鏈形成的扭,曲的折疊結(jié)構(gòu)
55、被稱為3折疊片。 2)三級結(jié)構(gòu)是單一多肽鏈的完全三維原子結(jié)構(gòu)。它可以被看作是二級結(jié)構(gòu)元件的組合,二級元件之間由主要存在于蛋白質(zhì)表面的不規(guī)則回環(huán)(C,coils旌接。 3)幾種三級結(jié)構(gòu)可以組裝起來形成生物學功能上的四級結(jié)構(gòu)。 5 .結(jié)構(gòu)域:自然界通過組合獨立的組件單元或通常具有較簡單功能的結(jié)構(gòu)域創(chuàng)造了具有復雜 功能的蛋白質(zhì)。許多蛋白質(zhì)含有大量的結(jié)構(gòu)域,這些結(jié)構(gòu)域往往是混合類型的,如混合的內(nèi) 在膜和球結(jié)構(gòu)域。 6 .進化:球狀蛋白中的環(huán)的表面殘基要比疏水核心中的殘基進化更快。內(nèi)在膜蛋白中,進化最慢的是那些在跨膜結(jié)構(gòu)域中的殘基。 二、蛋白質(zhì)三維結(jié)構(gòu)與其功能的關(guān)系:蛋白質(zhì)依賴于其三維結(jié)構(gòu)
56、的形狀和關(guān)鍵功能域的性質(zhì) 來執(zhí)行生物功能。蛋白質(zhì)結(jié)構(gòu)的知識對于理解蛋白質(zhì)功能是關(guān)鍵的,這也是其在生物信息學 中有很大重要性的一個原因。 三、蛋白質(zhì)結(jié)構(gòu)和功能的進化(關(guān)系) 1 .結(jié)構(gòu)和功能約束:進化接受蛋白質(zhì)中氨基酸殘基發(fā)生的對蛋白質(zhì)結(jié)構(gòu)穩(wěn)定或蛋白功能來說中性或有利的變化。出于結(jié)構(gòu)或功能的需要,殘基可以被保留下來。當氨基酸殘基能獨特地 實現(xiàn)特定的結(jié)構(gòu)作用時,它們能被保留。這種情況常常出現(xiàn)在cysteine,glycineandproline. 2 .多序列比對:理解結(jié)構(gòu)怎樣進化有助于我們理解多序列比對。關(guān)鍵的結(jié)構(gòu)和功能殘基常常 是保守的。插入和缺失主要出現(xiàn)在親水的表面回環(huán)中,而不
57、是規(guī)則的二級結(jié)構(gòu)元件中。 這個效應可以在多序列比對中觀察到,比對結(jié)果往往是由對應于二級結(jié)構(gòu)元件的較保守殘 基和來自表面回環(huán)的不保守殘基交替組成的。 3 .整體蛋白質(zhì)折疊的進化:如果兩條自然出現(xiàn)的蛋白質(zhì)序列可以比對,并且80個以上的殘 基的比對顯示出25%以上的相似度,那么它們將共有同樣的基本結(jié)構(gòu)。 SanderandSchneider'srule: t(L)=290.15L-0.562(其中L指的是比對的長度,t指保證結(jié)構(gòu)相似所需的一致度百分比閾值。) 4 .結(jié)構(gòu)的保留:蛋白質(zhì)結(jié)構(gòu)往往被保留,甚至由于進化使序列改變到不能被識別時結(jié)構(gòu)仍被 保留。所以結(jié)構(gòu)知識是理解蛋白質(zhì)進化的一個
58、關(guān)鍵因素。 5 .功能的進化:雖然結(jié)構(gòu)往往被進化保留下來,功能卻會發(fā)生變化。有許多蛋白質(zhì),其序列 和結(jié)構(gòu)非常相似,但功能卻不相同。當功能發(fā)生變化,關(guān)鍵的功能殘基也變化了,多序列比 對常常能清楚地顯示出這一點。 四、結(jié)構(gòu)數(shù)據(jù)的獲取、展示和分析 1 .獲取數(shù)據(jù):通用搜索引擎:SRSandNCBI專業(yè)搜索引擎:RSCB:http:〃www.rcsb.org/pdb 2 .結(jié)構(gòu)的可視化:常用的觀察結(jié)構(gòu)數(shù)據(jù)的程序:RasMol; TOPS:http://www.tops.leeds.ac.uk 3 .結(jié)構(gòu)和功能位點的分析 PDBSum:包含了清晰的結(jié)構(gòu)數(shù)據(jù)摘要和對結(jié)構(gòu)數(shù)據(jù)庫每一條目的分
59、析,這些條目都可以通過訪問號來訪問,其提供的信息包括二級結(jié)構(gòu)、二硫鍵位置、配體結(jié)合位點、活性位點、關(guān)鍵殘基、分子間相互作用圖、折疊拓撲以及酶的EC號等信息。 SURFNET:該軟件能夠幫助確定蛋白表面潛在的功能位點,特別是酶的活性位點。然后考慮這些位點的結(jié)構(gòu)能揭示該新結(jié)構(gòu)的何種可能功能。預測蛋白表面任何潛在位點的實際功能 仍是目前生物信息學研究的一個前沿課題。 五、結(jié)構(gòu)比對 1 .要在關(guān)系非常疏遠的蛋白序列之間找到正確的、有生物學意義的比對是很難的,因為它們只含有極少比例的相同殘基。但在這種情況下,結(jié)構(gòu)信息能幫上忙,因為進化往往盡量少地改變結(jié)構(gòu)。疊加相似結(jié)構(gòu)的骨架以發(fā)現(xiàn)相同結(jié)構(gòu)殘基的過
60、程被稱為結(jié)構(gòu)比對。 2 .軟件:DALI:http://www.ebi.ac.uk/dali 3 .結(jié)構(gòu)相似性:結(jié)構(gòu)比對方法通常會創(chuàng)建衡量結(jié)構(gòu)相似度的尺度。最常見的衡量尺度是RMSD(rootmeansquaredifference),許多程序都用這個標準,它是指最佳結(jié)構(gòu)重疊中比對 殘基的a碳原子間位置的均方差。RMSD=[sum(di2)/N]0.5 4 .結(jié)構(gòu)相似性搜索:我們常常需要搜索序列數(shù)據(jù)庫以查詢某一序列的相似序列,同樣,有時我們也需要搜索結(jié)構(gòu)數(shù)據(jù)庫以查詢與某一結(jié)構(gòu)相似的結(jié)構(gòu),這也是很有意義的。 Web-basedsearchengines: DALI;SSAP;TOPS
61、;VASTandRCSB 六、已知三維結(jié)構(gòu)的蛋白分類:CATH和SCOP 1 .為什么要將蛋白質(zhì)進行結(jié)構(gòu)分類?蛋白質(zhì)結(jié)構(gòu)在進化中要比蛋白質(zhì)序列保守得多。因 此,根據(jù)結(jié)構(gòu)的標準對蛋白質(zhì)進行分類是把蛋白質(zhì)劃分為各種家族的最有效的方法,可以揭 示遠距離的進化關(guān)系。 蛋白質(zhì)結(jié)構(gòu)分類的方法主要依據(jù)序列比較方法和結(jié)構(gòu)比較方法。 2 .折疊或拓撲:所有的分類都是將具有同樣的整體折疊或拓撲的蛋白歸為一類。具有同樣的折疊或拓撲類型的蛋白質(zhì)或多或少地都含有同樣的SSEs(secondarystructureelements),以 同樣的方式相連接并位于同樣的相對空間位置。 CATH(拓撲)和SCO
62、P折疊水平把蛋白質(zhì)分成具有相同總體折疊的組。 3 .同源體與相似體:Homologs(homologousproteins)是從某一共同祖先趨異進化而來的蛋白,它們相互關(guān)聯(lián),并具有同樣的折疊。Analogs(analogousproteins)有同樣的折疊,但關(guān) 于共同祖先的其他證據(jù)卻不充分。 4 .Super-folds(超折疊)是指在進化中可能不止出現(xiàn)一次的蛋白質(zhì)折疊。普遍認為它們具 有物理化學性質(zhì)上的某種優(yōu)勢,在SCOP與CATH中它們以含有幾個同源超家族的折疊或 拓撲的形式存在。比如TIM桶和免疫球蛋白的折疊。 七、蛋白質(zhì)結(jié)構(gòu)預測簡介 1 .原因:結(jié)構(gòu)預測是有意義的,因為
63、通過實驗來確定結(jié)構(gòu)仍然要比通過實驗確定序列慢得多。 結(jié)構(gòu)預測幫助我們理解蛋白質(zhì)的功能和作用機制,對合理的藥物設(shè)計也是很有意義的。 Levinthal和Anfinsen的早期工作使得結(jié)構(gòu)預測成了又一個極有發(fā)展?jié)摿Φ目茖W領(lǐng)。 2 .什么是結(jié)構(gòu)預測:一般說來,結(jié)構(gòu)預測是指僅依據(jù)蛋白序列的信息來預測蛋白質(zhì)每個原子在三維空間中的相對位置。 結(jié)構(gòu)預測方法包括:比較建模法(comparativemodeling),折疊識別法(foldrecognition),二級結(jié)構(gòu)預測法(secondarystructureprediction),從頭預測法(abinitioprediction)以及跨膜片段預測
64、法(transmembranesegmentprediction)。 按理論基礎(chǔ)可分為: abinitioprediction:嘗試計算并最小化自由能,或得出一個合適的近似最小值的方法。knowledge-basedprediction:嘗試使用已知結(jié)構(gòu)數(shù)據(jù)庫中的信息來預測蛋白質(zhì)結(jié)構(gòu)。(comparativemodeling,foldrecognition). Blindtesting:CASP(CriticalAssessmentofStructurePrediction) 八、通過比較建模預測結(jié)構(gòu)(建模步驟) 1 .理論基礎(chǔ):在80個以上殘基的比對中,一致性達到25%以上的序列采
65、用的是相同的基本 結(jié)構(gòu)。這是比較建模預測的理論基礎(chǔ)。 2 .內(nèi)容:比較建模所必需的是目標序列和模板結(jié)構(gòu)序列之間的比對。從用戶的角度來看, 比對過程是比較建模法中最關(guān)鍵的步驟。因此,有必要從結(jié)構(gòu)和功能的角度來檢查比對結(jié) 果的有效性。 模板結(jié)構(gòu)可以通過標準的序列相似性搜索的方法來找到。該方法的主要限制是缺乏合適的模 板結(jié)構(gòu),但結(jié)構(gòu)基因組學計劃正在改變這個局面。 3 .過程:已知結(jié)構(gòu)(模板)作為結(jié)構(gòu)預測的基礎(chǔ)。這個過程從概念上看包括保守核心殘基的 定位、可變回環(huán)的模型化、側(cè)鏈的定位和優(yōu)化,以及模型的提煉。保守殘基和一些側(cè)鏈的 位置可以直接從模板結(jié)構(gòu)信息中推導出,可變回環(huán)的建模常利用
66、備件算法,對于側(cè)鏈的定位 也有精密的算法來獲得優(yōu)化包裹的疏水核心。 4 .精確性幾乎完全是由比對的質(zhì)量控制的。好的比對結(jié)果通過大多數(shù)主要軟件包將會產(chǎn)生精 確的結(jié)構(gòu)預測。在所有的結(jié)構(gòu)預測方法中,比較建模法建立的模型最精確。 精確性通常以預測結(jié)構(gòu)與目標序列真實結(jié)構(gòu)之間“碳原子位置距離的均方差(RMSD)來衡 量。低于1.0?的RMSD值說明預測結(jié)果非常好。 5 .現(xiàn)有資源:SWISS-MODEL:比較建模法 軟彳:SWISS-PDBVIEWER(http://www.expasy.ch/swissmod/SWISS-MODEL.html) 九、二級結(jié)構(gòu)預測(方法、原理、相應的軟件、預測策略) 1 .什么是二級結(jié)構(gòu)預測:當某一特定目標序列沒有合適的相關(guān)模板結(jié)構(gòu)時,可以考慮采用二 級結(jié)構(gòu)預測法。與比較建模法不同的是,該方法并不產(chǎn)生一個全原子三級結(jié)構(gòu)模型,而是對每個殘基二級結(jié)構(gòu)狀態(tài)進行預測,即預測該二級結(jié)構(gòu)是否是螺旋、鏈或延伸以及圈。這種預測有時也被稱為三狀態(tài)預測。 許多方法是基于二級結(jié)構(gòu)偏好的思想,這種偏好是用某一殘基對特定二級結(jié)構(gòu)偏好的數(shù)值來 反映的。早期的方法能達到
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)備采購常用的四種評標方法
- 車間員工管理須知(應知應會)
- 某公司設(shè)備維護保養(yǎng)工作規(guī)程
- 某企業(yè)潔凈車間人員進出管理規(guī)程
- 企業(yè)管理制度之5S管理的八個口訣
- 標準化班前會的探索及意義
- 某企業(yè)內(nèi)審員考試試題含答案
- 某公司環(huán)境保護考核管理制度
- 現(xiàn)場管理的定義
- 員工培訓程序
- 管理制度之生產(chǎn)廠長的職責與工作標準
- 某公司各級專業(yè)人員環(huán)保職責
- 企業(yè)管理制度:5S推進與改善工具
- XXX公司環(huán)境風險排查及隱患整改制度
- 生產(chǎn)車間基層管理要點及建議