《生物信息學(xué)》復(fù)習(xí)資料

上傳人:cjc****537 文檔編號:52463967 上傳時間:2022-02-08 格式:DOC 頁數(shù):16 大小:430.50KB
收藏 版權(quán)申訴 舉報 下載
《生物信息學(xué)》復(fù)習(xí)資料_第1頁
第1頁 / 共16頁
《生物信息學(xué)》復(fù)習(xí)資料_第2頁
第2頁 / 共16頁
《生物信息學(xué)》復(fù)習(xí)資料_第3頁
第3頁 / 共16頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《《生物信息學(xué)》復(fù)習(xí)資料》由會員分享,可在線閱讀,更多相關(guān)《《生物信息學(xué)》復(fù)習(xí)資料(16頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、《生物信息學(xué)》復(fù)習(xí)資料 《生物信息學(xué)》先鋒版 中譯本 第二版 科學(xué)出版社 打分政策:60% 期末考試(70%掌握內(nèi)容、25% 熟悉內(nèi)容、5% 理解內(nèi)容)(請注意紅體與黑體字) A: 生物信息學(xué)概述 1. 生物信息學(xué):生物信息學(xué)是生物學(xué)和信息技術(shù)的結(jié)合,是現(xiàn)代科學(xué)的又一個分支學(xué)科,它利用計算機對大量生物數(shù)據(jù)進行分析處理。生物信息學(xué)把用于存儲和搜索數(shù)據(jù)的數(shù)據(jù)庫開發(fā),與用于分析和確定大分子序列、結(jié)構(gòu)、表達模式和生化途徑等生物數(shù)據(jù)集之間的關(guān)系的統(tǒng)計工具和算法的開發(fā)結(jié)合在一起。 數(shù)據(jù)庫 生物信息學(xué)主要由三大部分組成

2、 算法與統(tǒng)計工具 分析與解釋 測序策略:逐個克隆法、全基因組鳥槍法 計算機在生物信息學(xué)中的作用:生物信息學(xué)需要計算機快速、可靠地執(zhí)行重復(fù)任務(wù)的能力以及處理問題的能力。然而,生物信息學(xué)中涉及的許多問題仍需要專家的人工處理,同時原始數(shù)據(jù)的完整性和質(zhì)量也很關(guān)鍵。 生物信息學(xué)課程范圍:使初學(xué)者理解生物信息學(xué)的基本原理,并獲得相應(yīng)的應(yīng)用能力。具體包括生物信息學(xué)的一些關(guān)鍵領(lǐng)域:數(shù)據(jù)庫使用、序列和結(jié)構(gòu)分析工具、注釋工具、表達分析以及生化和分子途徑分析 。 2. 生物信息學(xué)實例: ——數(shù)據(jù)庫界面Genbank/EMBL/DD

3、BJ, Medline, SwissProt, PDB, … ——序列搜索與比對BLAST, FASTA, Clustal, MultAlin, DiAlign ——基因搜索Genscan, GenomeScan, GeneMark, GRAIL ——蛋白結(jié)構(gòu)域分析與鑒定pfam, BLOCKS, ProDom, ——基因調(diào)控元件的計算機模式識別 Gibbs Sampler, AlignACE, MEME ——蛋白折疊預(yù)測PredictProtein, SwissModeler 生物信息學(xué)網(wǎng)站:包括生物信息學(xué)資源、各種數(shù)據(jù)庫和生物信息學(xué)分析工具的網(wǎng)站 3. 五個必須知道的生物

4、信息學(xué)網(wǎng)站:(詳細參考書本p9) NCBI (The National Center for Biotechnology Information)http://www.ncbi.nlm.nih.gov/ EBI (The European Bioinformatics Institute)http://www.ebi.ac.uk/ The Canadian Bioinformatics Resourcehttp://www.cbr.nrc.ca/ SwissProt/ExPASy (Swiss Bioinformatics Resource)http://expasy.cbr.nrc.

5、ca/sprot/ PDB (The Protein Databank)http://www.rcsb.org/PDB/ B: 數(shù)據(jù)采集 一、DNA, RNA 和蛋白質(zhì)測序 1. DNA 測序原理: DNA測序是采用全自動的鏈終止反應(yīng)完成的,這一技術(shù)通過加入限量的雙脫氧核苷酸來 產(chǎn)生有特定終止堿基的嵌套DNA片段。共有4種反應(yīng),每種代表DNA 4個堿基中的一個,每個堿基分別帶有不同的熒光標(biāo)記。DNA片段通過聚丙烯酰胺凝膠電泳(PAGE)分離,當(dāng)每個片段移動到凝膠的末端時可以通過掃描儀讀取序列。 2. DNA 序列類型: DNA序列來源主要有3種方式?;蚪MDNA直接來自基

6、因組,包括基因和基因外核酸序列,真核生物的基因組DNA包含內(nèi)含子;cDNA由mRNA反轉(zhuǎn)錄而來,并且只對應(yīng)于基因組中能表達的部分,它不包含內(nèi)含子;最后,重組DNA來自實驗室,包含克隆載體等人工DNA分子。 3. 基因組測序策略: 一次讀段(one read)只能用于短的DNA分子(約800bp)測序,所以大的DNA分子,如基因組,必須首先將其打碎成片段?;蚪M測序可以分為兩種方式:霰彈法測序(shot-gun sequencing)包括隨機DNA片段的生成,通過大量片段測序來覆蓋整個基因組;與之相反,克隆重疊群測序(clone contig sequencing)包括亞克隆系統(tǒng)的產(chǎn)生及其

7、測序。 4. 序列質(zhì)量控制: 通過在DNA雙鏈上進行多次讀段完成高質(zhì)量序列數(shù)據(jù)的測定??墒褂萌鏟hred等程序?qū)ψ畛醯母檾?shù)據(jù)(trace data)進行堿基識別和質(zhì)量判斷。載體序列和重復(fù)的DNA片段被屏蔽后,使用Phrap程序?qū)⑿蛄衅唇映芍丿B群(contigs),剩下的不一致部分通過人工校對解決。 5. 單遍(Single-pass)測序: 低質(zhì)量的序列數(shù)據(jù)可以由單次讀段產(chǎn)生(單遍測序,single-pass sequencing)。盡管不很準(zhǔn)確,但單遍序列如ESTs和GSSs,可以以低廉的價格快速大量地產(chǎn)生。 6. RNA 測序: 大部分RNA序列可以從相應(yīng)的DNA序列推斷得到

8、,但是需要用特殊的方法來識別被改變的核苷,這些方法包括:生化實驗、核磁共振譜( NMR spectroscopy)、質(zhì)譜 7. 蛋白質(zhì)測序: 目前,大部分蛋白質(zhì)測序是通過質(zhì)譜(MS)技術(shù)進行的,應(yīng)用這一技術(shù)可以通過測量真空中離子的分子質(zhì)量/電荷比來計算精確的分子質(zhì)量。軟離子化方法可以對蛋白質(zhì)這樣的大分子進行質(zhì)譜分析。通過比較經(jīng)胰蛋白酶裂解而獲得的多肽片段的分子質(zhì)量與從數(shù)據(jù)庫中蛋白質(zhì)的虛擬消化(virtual digest)預(yù)測而來的分子質(zhì)量的異同推斷序列。通過在碰撞室(collision cell)中產(chǎn)生的蛋白質(zhì)片段嵌套集合可以進行重新測序,并可通過單個氨基酸殘基計算不同長度片段間分子質(zhì)

9、量的差異。 二、蛋白質(zhì)結(jié)構(gòu)的確定 1. X-ray 衍射晶體學(xué): X衍射晶體學(xué)是一種通過精確定向的蛋白質(zhì)晶體的X射線衍射模式來確定蛋白質(zhì)結(jié)構(gòu)的方法。這種方法中,X射線因晶體中原子的電子密度和空間方向的不同而發(fā)生散射,可用傅立葉變換的數(shù)學(xué)方法從衍射數(shù)據(jù)中重構(gòu)電子密度圖,以建立結(jié)構(gòu)模型。 2. 核磁共振譜: NMR是某些原子的一種屬性,即在外加磁場范圍內(nèi)原子通過吸收電磁輻射可以在不同的磁狀態(tài)間轉(zhuǎn)換。吸收光譜的性質(zhì)受原子類型及其周圍化學(xué)性質(zhì)影響,所以NMR spectroscopy可以區(qū)分不同的化學(xué)功能團。核磁共振譜也因空間上原子的接近而改變。NMR譜的分析可以重建原子的三維構(gòu)型

10、,產(chǎn)生一系列結(jié)構(gòu)模型。這一技術(shù)只適合小的可溶性蛋白的分析。 3. 其他方法: 對于大的不容易結(jié)晶的蛋白質(zhì),需要用其他的分析方法來推測結(jié)構(gòu),這包括X射線纖維衍射、電子顯微鏡和CD光譜(circular dichroism spectroscopy) 。 C:數(shù)據(jù)庫——內(nèi)容、結(jié)構(gòu)和注釋 一、文件格式 1. 三種常用序列格式: 常用核酸和蛋白序列格式:①NBRF/PIR格式 文件名后綴為:.pir o或 .seq ②FASTA格式 文件名后綴為:.fasta ③GDE格式

11、文件名后綴為 gde 例: ID代碼: 5H1B_CAVPO 序列登錄號: O08892 NBRF/PIR格式: >P1; 5HT1B_CAVPO Guinea pig serotonin receptor accession: O08892 MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT... FASTA格式: >5HT1B_CAVPO O08892 | guinea pig serotonin receptor MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIA

12、LPWKVLLVVLLALIT... GDE格式: % 5HT1B_CAVPO O08892 | guinea pig serotonin receptor MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT... 2. 比對序列文件: 可用下述常用格式中任何一種: NBRF/PIR, FASTA,GDE 多序列比對格式:MSF, PHYLIP and ALN 3. 結(jié)構(gòu)數(shù)據(jù)文件: 結(jié)構(gòu)數(shù)據(jù)用PDB格式的平面文件(flat files)來維護,這類文件包含:正交的原子坐標(biāo)值(X, Y, Z軸);注釋、說明

13、和實驗細節(jié)。 NOTE:1、ATOM行以字符計數(shù),而不是以單詞計數(shù); 2、NMR文件沒有分辨率REMARK行。 二、已注釋的序列數(shù)據(jù)庫 1. 初級序列數(shù)據(jù)庫: 保存raw sequence data, 并對每個條目做了進一步的注釋: feature table---properties of seq. 2. 輔助序列數(shù)據(jù)庫: 特別類型的序列數(shù)據(jù). eg. ESTs, GSSs and unfinished genomic seq. data 3. 序列提交:Sequence(序列)→Internet(互聯(lián)網(wǎng))→NCBI/EMBL/DDBJ(數(shù)據(jù)庫) 4.

14、 SWISS-PROT 和 TrEMBL: SWISS-PROT: 收集了確認的蛋白質(zhì)序列及與結(jié)構(gòu)、功能和所屬蛋白質(zhì)家族有關(guān)的注釋信息 。 TrEMBL: 翻譯了初級核酸數(shù)據(jù)庫中的編碼序列。TrEMBL中各條目的注釋不如SWISS-PROT中的條目那樣詳細。 5. 數(shù)據(jù)庫查詢: Searching by Sequence similarity→BLAST Text-based Searching→Entrez or SRS accession number accession number:提供基因及其產(chǎn)物的唯一標(biāo)示號 D: 生物數(shù)據(jù)檢索 一、通過 Entrez 和DB

15、GET/LinkDB進行數(shù)據(jù)檢索 1. 訪問分布數(shù)據(jù):利用專業(yè)的數(shù)據(jù)檢索工具 Entrez, DBGET 和 SRS 進行數(shù)據(jù)庫搜索 2. Entrez:Entrez 可以用來搜索 NCBI 中集成的所有數(shù)據(jù)庫包括 GenBank, OMIM 以及文獻數(shù)據(jù)庫 MEDLINE 3. NCBI 和 Entrez:Entrez→All databases模式搜索,以文本是形式進行 文本搜索:以單詞或邏輯短語為關(guān)鍵詞 4. DBGET/LinkDB DBGET/ LinkDB : 日本京都大學(xué)和人類基因組中心聯(lián)合開發(fā)的集成數(shù)據(jù)檢索系統(tǒng)。它整合了20數(shù)據(jù)庫并與KEGG相關(guān)聯(lián)。 LinDB:

16、 is a database of links, each of which is represented as a binary relation in the form of: dbname1:identifier1 --> dbname2:identifier2 DBGET: has powerful capabilities to search against this graph object The molecular biology databases in the world can be retrieved uniformly by specifying the

17、 combination of the database name and the identifier: dbname:identifier Identifier:organism:gene 三種搜索模式:bget, bfind, blink 2、 使用 SRS 的數(shù)據(jù)檢索 1. 開源SRS:SRS 由歐洲生物信息研究所開發(fā),其集成有80多個分子生物學(xué)數(shù)據(jù)庫。SRS可下載和安裝在本地計算機上使用。 2. 使用 SRS :SRS 與 Entrez 和DBGET的數(shù)據(jù)分類的原理不同。 SRS的使用包括選擇一個或多個分組,在每一個選定的組中選擇一個或多個現(xiàn)有的數(shù)據(jù)庫。查詢方式有

18、兩種: 標(biāo)準(zhǔn)模式、 擴展模式。 3. 安裝 SRS :SRS 可以通過腳本語言ICARUS編程來查詢使用者自己的數(shù)據(jù)庫。 E: 通過序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫(重難點章節(jié)) 一、以序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫 1. 序列相似性搜索 1.1. 序列相似性搜索: 通過序列相似性來搜索數(shù)據(jù)庫,我們可以找到與所查詢序列相似的序列。可以用這些找到的序列信息來預(yù)測查詢序列的結(jié)構(gòu)或功能。依據(jù)相似性進行預(yù)測是生物信息學(xué)中強大而且廣泛使用的方法,其根本依據(jù)是分子進化。 當(dāng)序列擁有—個共同的祖先序列時,它們往往在序列、結(jié)構(gòu)和生物學(xué)功能上具有相似性。 這很可能是生物信息學(xué)上最重要的思想,因為

19、它使得我們可以進行預(yù)測。 1.2. 序列比對: 任何一對DNA序列都有一定程度的相似。 序列比對:是使相似度量化的第一步,用來區(qū)分偶然性的相似和真實的生物學(xué)關(guān)系。 比對結(jié)果:以變化(突變)、插入或缺失(indels或空位)來顯示序列之間的差異,這些差異可以用進化術(shù)語來說明。 1.3. 比對算法: 動態(tài)規(guī)劃算法(Dynamic programming algorithms)可以計算兩條序列之間的最佳聯(lián)配。 兩個變體: Smith-Waterman algorithm: local align. Needleman-Wunsch algorithm: global ali

20、gn. 當(dāng)序列不是全長關(guān)聯(lián)時局部比對是有效的。例如僅在某些特定功能域相似的蛋白質(zhì)序列,或僅在外顯子區(qū)域關(guān)聯(lián)的DNA序列等。 Local alignment---BLAST 1.4. 比對打分和空位罰分: 用簡單的比對打分來測量相同匹配殘基的比例或數(shù)目。得從比對打分中扣去空位罰分,以保證比對算法能得出有生物學(xué)意義的結(jié)果而沒有太多的空位。 Score: S = sum (si) + sum (xk) 空位罰分可以根據(jù)預(yù)期的應(yīng)用進行調(diào)整。有下述三種情況 : 固定罰分: 與空位長度無關(guān); 比例罰分:與空位長度成比例; 放射罰分: 包括 gap opening 和 gap exten

21、sion 兩部分罰分 Constant: x=u+vk, v=0 Proportional: x=u+vk, u=0 Affine: x=u+vk, u, v≠ 0 k is the number (length) of the linked gaps 例:SEQ1: AATTGATTGCGCATTTAAAGGG SEQ2: AACTGA - - - CGCATCTTAAGGG K=3 我們并不總是很清楚空位罰分常數(shù)u 和 v該采用什么值,這在某種程度上依賴于所比對的序列的性質(zhì)。 Close sequence relationship: higher gap pen

22、alties Distant relationships: lower gap penalties 1.5. 序列相似性測量: 序列相似度可用比對算法、序列一致性百分率( percentage sequence identities )或更復(fù)雜的方法得出的分值來量化。 SEQ1: AATTGATTGCGCATTTAAAGGG SEQ2: AACTGA - - - CGCATCTTAAGGG percentage sequence identities: (16/22) ×100=73% Note: 必須是在長的比對結(jié)果中找到的高比例一致,才有可能反映真正的生物學(xué)或進化關(guān)系。

23、 對DNA序列來說,比對序列并使序列一致性百分率(即percentage sequence identities )最大化是合乎情理的。但對蛋自序列而言,則應(yīng)該更多地考慮組成序列的單體的屬性。某些氨基酸之間的替代比其他氨基酸更頻繁,所以,在蛋白序列比對算法中需要考慮這個因素。 1.6. 相似性和同源性: 任何序列之間均存在相似,但是僅當(dāng)序列是從一個共同的祖先進化而來時,它們才是同源的。同源序列常常具有相似的生物學(xué)功能, 但是基因復(fù)制的進化機制允許生物體有多余的基因拷貝。這些多余的基因拷貝于是自由地進化出新的功能,成為有不同功能的同源基因。 直系同源(orthologs): 不同物種的兩

24、個同源基因有相同的功能,就稱它們是直系同源; 旁系同源(paralogs): 當(dāng)同一或不同物種的兩個基因有不同的功能,就把它們稱為是旁系同源. 不同功能的同源基因的例子:溶解酶(lysozyme,一種酶)和α-乳白蛋白(α-lactalbumin,一種哺乳動物調(diào)節(jié)蛋白)。這些蛋白質(zhì)有非常相似的序列,幾乎已肯定是同源的,但卻有極其不同的功能。 2. 氨基酸替換矩陣(難點) 2.1. 相同氨基酸數(shù)目的最大化: 比對蛋白質(zhì)序列從而使相同的氨基酸數(shù)目(即percentage sequence identities)最大化。其中,每對匹配的相同氨基酸對比對分值的貢獻是1,不一致的氨基酸對

25、對比對分值的貢獻是0。(如下圖所示) 這是對密切相關(guān)的序列進行比對的好方法,但這并不能揭示遠親之間的進化關(guān)系。 2.2. 進化:因為要維持蛋白質(zhì)結(jié)構(gòu)和功能,所以編碼蛋白質(zhì)的序列的進化比基因組的大多數(shù)其他部分的進化更為緩慢。一個例外是快速進化也可能發(fā)生在新近復(fù)制基因的多余拷貝中。 2.3. 允許的替換:進化中蛋白序列的變化往往包括相近屬性氨基酸間的替代,因為這樣才能保持蛋白質(zhì)的結(jié)構(gòu)穩(wěn)定。 比如:同一進化家族的蛋白質(zhì)序列通常表現(xiàn)為有相似物理化學(xué)性質(zhì)的氨基酸間的替代。 2.4. 替換打分矩陣: 這些矩陣給進化中所有可能的氨基酸替換打分,分值越高,意味著替換的可能性越大

26、。進行序列比對的動態(tài)規(guī)劃算法可以采用從這些矩陣得到的分值來進行運算。E.g. BLOSUM62 and PAM250. PAM: Accepted Point Mutations(認可的點突變) PAM250: 表示矩陣的進化距離是每100個殘基有250個氨基酸變化。 PAMn: n值越小,表示進化距離越短。 PAM250 BLOSUM: blocks substitution matrix BLOSUM62: 用于構(gòu)造矩陣的blocks的最小序列一致性百分數(shù)至少為 62%。 更小數(shù)字的BLOSUM矩陣表示更長的進化距離(BLOSUM50所代表的進化距離要比BLOSUM62要長)

27、。 Note: BLOSUM 矩陣通常比 PAM 好用。 Blossum62 Note: 一致氨基酸比對的分值也有差異,這反映了氨基酸在天然蛋白序列中的出現(xiàn)頻率的不同。兩個相同的非常見氨基酸的比對(如W和W)要比兩個相同的常見氨基酸的比對更有可能反映一個進化上有意義的比對。因此,相同的非常見氨基酸的比對具有更高的分值。 2.5. 意義:替換打分矩陣可以查找蛋白質(zhì)序列間較遠的親緣關(guān)系。 NOTE:蛋白序列比對比核酸序列比對更可能找到較遠的親緣關(guān)系。 2.6. 可視化:點陣圖(Dot plots)-點陣圖是使序列相似性可視化并找到重復(fù)片段的一一個非常好的方法。 3. 數(shù)據(jù)庫搜索

28、: FASTA 和 BLAST: 3.1. 數(shù)據(jù)庫搜索:把查詢序列與數(shù)據(jù)庫中每條序列依次比對并返回最高分(最相似)序列,就能找到與查詢序列相近的序列。這可以通過動態(tài)規(guī)劃算法完成,但實際上常用的是更快的近似方法。 3.2. 算法和軟件: BLAST 和 FASTA 提供了非常快速的序列數(shù)據(jù)庫搜索途徑。與動態(tài)規(guī)劃不同,它們并不能保證找到數(shù)據(jù)庫里每條序列的最佳可能比對,但實際上這對性能的影響通常來說是最小的。它們最初通過搜索短的一致或接近一致匹配的字母(word)片段,然后再將這些片段延伸到更長的匹配。 BLAST 和 FASTA 都基于同樣的假設(shè),即高分值的比對結(jié)果可能含有短的一致或近似一

29、致的序列片段(short stretches or words) 。 (1)BLAST: W (word length); T (threshold score); 尋找長度為W比對得分 > T 的words ↓ 擴展這些 words 直到比對得分跌落到一定值, 產(chǎn)生大量 HSPs (high-scoring segment pairs) ↓ 通過動態(tài)規(guī)劃比對好全部序列高打分區(qū)域, 得出最終比對結(jié)果及其分值。 (2)FASTA: ktup;

30、 尋找完全匹配的長度為ktup的 words ↓ 尋找含有高密度words 匹配的 ungapped 的序列比對 ; 將其組裝成高分值的 gapped 的序列比對 ↓ 通過動態(tài)規(guī)劃比對好全部序列高打分區(qū)域, 得出最終比對結(jié)果及其分值。 3.3. 統(tǒng)計得分: 相似度記分的p值是指獲得至少與兩條無關(guān)序列間的偶然相似性一樣高的分值的概率。低p值表明重要的匹配,這些匹配可能會有真實生物學(xué)意義。相關(guān)的E值是至少與所識別的相似性記同樣高分值的偶然事件的期望頻率。 兩序列間相似度的低p值對

31、應(yīng)于大數(shù)據(jù)庫搜索的高E值。low p→high E 當(dāng)E值很小的時候和p值很接近 3.4. 敏感性和特異性: 敏感性衡量數(shù)據(jù)庫中真實生物序列關(guān)系的比例,該關(guān)系表現(xiàn)為擊中項(hit)。 特異性指的是對應(yīng)于真實生物學(xué)關(guān)系的擊中項的比例。 這些測度量化了數(shù)據(jù)庫搜索策略的優(yōu)良度。 Sensitivity: Sn = ntp / (ntp + nfn ) Specificity: Sp = ntp / (ntp + nfp ) 注:(tp: true positive;fn: false negative;fp: false positive) 改變E和p的默認值會

32、導(dǎo)致這些互補的優(yōu)良度測量方法之間的平衡。 3.5. 數(shù)據(jù)庫類型: 數(shù)據(jù)庫和查詢序列可以是蛋白質(zhì)或核苷酸序列,不同種類的序列和組合有不同的查詢策略。一般來說,如果使用編碼蛋白質(zhì)的核苷酸數(shù)據(jù)庫和/或?qū)⒉樵冃蛄蟹g成蛋白質(zhì)序列,搜索會更加敏感。 3.6. 可行例子和現(xiàn)有程序: BLAST at the NCBI、FASTA at the EBI——搜索許多一般用途的序列數(shù)據(jù)庫。 RESULTS: 按E value 排序 NOTE: 必須檢查有關(guān)序列的比對結(jié)果以發(fā)現(xiàn)序列間相似的區(qū)域。 NCBI的BLAST網(wǎng)站:http://www.ncbi.nlm.nih.gov/BLAST/(建議

33、自己動手操作以加深理解) 4. 序列過濾: 4.1. 非特異性的序列相似: 一些類型的序列相似要比其他類型難揭示進化關(guān)系。 Examples: 低組成復(fù)雜度區(qū)域間的相似,短的重復(fù)片段間的相似以及編碼普通結(jié)構(gòu)的蛋白序列(如卷曲螺旋)間的相似等。 4.2. 相似性搜索: 上述區(qū)域類型會降低相似性搜索結(jié)果的質(zhì)量,所以在搜索前常常要將其從搜索序列中過濾掉。 SEG and DUST: detect and filter low complexity sequences; XNU: filter short period repeats; COILS: detect the pre

34、sence of potential coiled coil structures. 5. 數(shù)據(jù)庫迭代搜索和PSI-BLAST 5.1. 尋找進化關(guān)系: 趨異進化可以使蛋白質(zhì)序列變得無法識別,但卻保持結(jié)構(gòu)和功能的相似。而BLAST和FASTA此類方法有時只能發(fā)現(xiàn)數(shù)據(jù)庫中的一小部分進化關(guān)系。有許多生物信息學(xué)搜索已經(jīng)著重于發(fā)現(xiàn)序列間的疏遠進化關(guān)系。 5.2. 數(shù)據(jù)庫的迭代搜索: PSI-BLAST是一種迭代的搜索方法,可以提高BLAST和FASTA的相似序列發(fā)現(xiàn)率。 每次迭代都發(fā)現(xiàn)一些中間序列,用來在接下去的迭代中尋找查詢序列的更多疏遠相關(guān)序列。 PSI-BLAST常??梢哉业奖?/p>

35、BLAST結(jié)果多達兩倍的進化關(guān)系。 PSI-BLAST的潛在問題是存在不相關(guān)序列對迭代結(jié)果的污染,而其難點則與蛋白質(zhì)的結(jié)構(gòu)域的結(jié)構(gòu)有關(guān)。 F: 多重序列比對: 基因和蛋白家族(實驗四) 一、多序列比對和家族關(guān)系 1.多序列比對:家族性蛋白質(zhì)和核苷酸序列的內(nèi)在關(guān)系可以用多序列比對來闡明。當(dāng)所考察的序列不同時,保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學(xué)功能的關(guān)鍵殘基。多序列比對可以揭示關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。與兩序列比對相比,多序列比對更富含進化保守關(guān)系的信息,因此通常能告訴我們更多的信息。 2.軟件:最著名的是ClustalW 軟件包,ftp://ftp-igbmc.u-str

36、asbg.fr/pub/ClustalX. 3.漸進比對:目前大多數(shù)程序使用漸進的比對方法,該方法有運行速度較快的優(yōu)點。該法以兩序列比對來初步評價序列的相關(guān)性,并在這個基礎(chǔ)上構(gòu)建向?qū)洌╣uide tree);然后使用向?qū)渲鸩教砑有蛄械奖葘χ?,從最密切相關(guān)的序列開始到距離最遠的序列結(jié)束。 漸進比對方法通常非常有效,但也存在一個問題,即比對過程中早期產(chǎn)生的比對錯誤不能被矯正而是被“凍結(jié)”在比對結(jié)果中。生物化學(xué)知識有時能夠提供正確的比對信息。當(dāng)自動產(chǎn)生的比對結(jié)果不太理想時,就需要軟件來人工編輯比對結(jié)果。 漸進比對過程中常用到幾種精練方法。例如在Clustal程序包中, 1)空位罰

37、分發(fā)生變化以使空位插入更有可能發(fā)生在親水的環(huán)狀區(qū)域; 2)根據(jù)比對序列的相關(guān)程度可以采用不同的氨基酸替換打分矩陣。 二、蛋白家族和模式數(shù)據(jù)庫 1.蛋白家族:把序列分配到蛋白質(zhì)家族中是預(yù)測蛋白質(zhì)功能的一種非常有價值的方法。已開發(fā)出許多方法來代表蛋白質(zhì)家族信息,這些方法存儲在二級蛋白質(zhì)家族數(shù)據(jù)庫中。 2.一致序列:是把多序列比對的信息壓縮至單條序列。 主要的缺點是除了在特定位置最常見的殘基(>60%)之外,它們不能表示任伺概率信息。 一致序列的缺陷: 1)大量來自序列的不含一致殘基的信息被忽略掉,即使這些位點包含所允許的保守替換。 2)一致序列的產(chǎn)生說明了任何蛋白家族的表示是有偏

38、向的,這主要是由于來源的序列集是有偏向的。 3.數(shù)據(jù)庫: 1)PROSITE數(shù)據(jù)庫:包含與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。數(shù)據(jù)庫是人工編排的,任何已知的假陽性或假陰性都會報道出來。 在PROSITE中, 特殊的符號,包括方括號(如[LIVM])、波形括號(如{FD})和x(n)用來表示模式中每個位點可供選擇的殘基。 PROSITE 模式的特點:它們長度比序列全長短得多;它們允許特定位置的替換。因此,它們能夠發(fā)現(xiàn)家族中的遠親關(guān)系,也能夠幫助我們了解家族成員共有的結(jié)構(gòu)或功能信息。 PROSITE 模式有很多缺點:首先,它們長度較短使得不相關(guān)序列中有假陽性的存在;其

39、次,雖然它們允許描述特定位置的變化,但無法計算該變化的概率。 2)PRINTS和BLOCKS:它們用來自序列最保守區(qū)域的多序列比對的無空位片段(blocks or motifs)來表示蛋白質(zhì)家族。通過更多代表序列的信息,它們有可能比短PROSITE模式更為敏感。 如果能匹配某特定家族相關(guān)motif的一個子集就意味著它們有發(fā)現(xiàn)剪接突變體、序列片段以及代表亞家族的能力。兩者都已有基于WWW的數(shù)據(jù)庫搜索引擎。 這些數(shù)據(jù)庫中的motifs要比PROSITE模式覆蓋更大的序列區(qū)域。與PROSITE不同,序列中motifs的匹配通常要考慮氨基酸替換矩陣,因而對某一固定模式不要求嚴(yán)格的匹配。因

40、此,這種匹配更為敏感(可以找到更多遠親關(guān)系)和更加特異(更少的假陽性出現(xiàn))。 三、蛋白結(jié)構(gòu)域家族 1.結(jié)構(gòu)域家族:許多蛋白質(zhì)是由結(jié)構(gòu)域以模塊化的方式構(gòu)建的。因此蛋白質(zhì)家族的研究其實是對蛋白質(zhì)結(jié)構(gòu)域家族的研究。Prodom是由自動方法產(chǎn)生的蛋白質(zhì)結(jié)構(gòu)域序列的數(shù)據(jù)庫,這一數(shù)據(jù)庫來自于蛋白質(zhì)序列數(shù)據(jù)庫。 2.序列輪廓:又稱為權(quán)重矩陣,它們表示完全的結(jié)構(gòu)域序列,是一種描述蛋白結(jié)構(gòu)域家族相關(guān)序列的方法。多序列比對中每個位點的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法。序列輪廓可以被用作某些PROSITE數(shù)據(jù)庫條目中序列模式之外的替代方法。 3.隱馬爾可夫模型:這類模型是蛋白

41、質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計模型,包括序列的匹配,插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高,從其他家族中生成序列的概率較低?,F(xiàn)在已有算法可以近似地得出從某特定家族模型中生成一條新的蛋白序列的概率,而且它們可以用來把新的蛋白序列歸類到某一蛋白家族中。 4.網(wǎng)上資源:Pfam和SMART可以被用于蛋白質(zhì)結(jié)構(gòu)域家族的分析。Interpro聯(lián)合了PROSITE, PRINTS, Pfam, Prodom和SMART,從而形成了一個整合的資源。 G: 系統(tǒng)發(fā)育學(xué)(實驗四) 一、系統(tǒng)發(fā)育學(xué)、遺傳分類學(xué)和

42、存在論 1.物種間的相似性和差異性可以被用來推斷進化關(guān)系(系統(tǒng)發(fā)育學(xué))。這是因為,如果兩物種非常相似,它們可能擁有一個新近的共同祖先。確定生物體間進化關(guān)系的科學(xué)分支即系統(tǒng)發(fā)育學(xué)。三種方法:表現(xiàn)型分類法、遺傳分類法 、進化分類法 系統(tǒng)發(fā)育分析:許多不同的特征能夠用于系統(tǒng)發(fā)育的分析中,但是 核苷酸和蛋白質(zhì)序列是最為常用的,因為它們?yōu)樗械纳问剿灿校ㄔ试S研究關(guān)系密切或疏遠的類別),而且可以客觀地比較。序列間的相關(guān)性可以使用序列比對算法客觀地量化。這即是生物信息學(xué)在系統(tǒng)發(fā)育學(xué)中所起的重要作用。序列系統(tǒng)發(fā)育分析背后的簡單原理是:兩條序列間相似度越高,從一條序列變成另一條序列所需要的突變

43、就越少,因而它們擁有的共同祖先就越近。 然而,從這類分析得出的任何進化關(guān)系必須假定:所比較的序列存在不變的突變率并且沒有差異選擇。但是這些條件實際上很難達到。 二、構(gòu)建系統(tǒng)發(fā)育樹 1.系統(tǒng)發(fā)育樹是一種顯示進化關(guān)系的簡單方法,物種由節(jié)點(nodes)表示,遺傳路徑由枝(links)來表示。 系統(tǒng)發(fā)育樹可以從相似度表( similarity tables )或距離表( distance tables )中構(gòu)建而來。這些表顯示了生物體中一套給定特征間的相似性,采用匹配的百分比(相似度表),或者差異的百分比(距離表)來表示。 三種建樹方法:距離矩陣法、最大簡約法、最大似然法 2.建樹軟件:

44、PAUP (phylogenetic analysis using parsimony)、PHYLIP (phylogenetic inference package) 3.檢驗方法:一棵給定的樹不一定能準(zhǔn)確地代表進化歷史。然而,數(shù)據(jù)的可靠性可以通過下述方法進行評估:1)如果不同方法構(gòu)建樹能得出同樣的結(jié)果,這可很好證明該樹是可信的。2) Bootstrapping和jack-knifing方法:重新取樣并構(gòu)建更多的樹來評估。 三、大分子序列的進化 1. DNA在進化過程中積累突變,導(dǎo)致了不同株系后代DNA、RNA和蛋白質(zhì)序列的分歧。 基于大分子序列間差異的系統(tǒng)發(fā)育樹被稱為分子系統(tǒng)

45、發(fā)育。 由于內(nèi)部突變率和選擇壓力的差異,不同大分子序列進化速率不同,使得對親緣關(guān)系較近和較遠的生物體都可以進行系統(tǒng)發(fā)育分析 2.大分子序列的選擇:對于密切相關(guān)的生物體,使用一種快速進化的分子如線粒體DNA 比較合適。對于有很大分歧的系統(tǒng)發(fā)育關(guān)系,則需要用高度保守的分子如核糖體RNA。 注意不要選擇不適當(dāng)?shù)拇蠓肿有蛄衼斫忉屆黠@的系統(tǒng)發(fā)育關(guān)系。 H: 序列注釋(實驗三) 一、基因組注釋原理 1.注釋:這一術(shù)語是指從原始序列數(shù)據(jù)中獲得有用的生物學(xué)信息。這主要是指在基因組.DNA中尋找基因和其他功能元件(結(jié)構(gòu)注釋),并給出這些序列的功能信息(功能注釋)。 由于基因結(jié)構(gòu)和基因組組

46、織的不同,原核生物和真核生物的基因組注釋涉及不同的問題。 2.用計算機尋找基因:可以用計算機來預(yù)測基因組DNA上基因的位置。這可以通過信號自動檢測[尋找保守的模體(motif)]、內(nèi)容自動檢測(尋找序列背景類似基因的區(qū)域)和同源性搜索(尋找與以前已發(fā)現(xiàn)的基因序列相匹配的區(qū)域)等方法的組合來完成。然而,沒有一種基因查找的方法是100%可靠的。 Signals 是不連續(xù)的局部序列模體,如啟動子,剪切供體和受體位點,起始和終止密碼子,以及polyA尾位點。 Contents 是不同長度的擴展序列,如編碼區(qū)、CpG島 (CpG island )等。 Homologies 是已知基因之間

47、的匹配,如代表基因的表達序列標(biāo)簽(ESTs)序列等。 3.檢測 ORFs(可讀框): ORF: 一段較長(>300bp) 的位于 起始密碼子 (usually, ATG) 和 終止密碼子 (無義密碼子, TGA, TAG or TAA)之間的有義密碼子序列, 在細菌基因組中,基因很少有內(nèi)含子的中斷。因此,檢測基因的有效途徑是對基因組序列進行六個可讀框的翻譯并識別長的可讀框(ORF)。 4.檢測 Exons 和 Introns 在高等真核生物基因組中,基因呈分散狀分布,并被大量的長內(nèi)含子所中斷。外顯子太短,從而不能僅僅通過ORF搜索來發(fā)現(xiàn),所以需要采用包括外顯子檢測和內(nèi)容自動檢測、剪切

48、信號的識別這種組合方法,并結(jié)合cDNA序列等輔助信息來構(gòu)建全長基因的模型。 二、注釋工具和資源 1.基因預(yù)測軟件 基因預(yù)測程序使用從頭算預(yù)測 (ab initio methods) and/or 同源搜索(homology searches) 來識別基因組 DNA中的基因。NCBI ORF finder 通過執(zhí)行六個可讀框的翻譯來識別 ORFs。 對于復(fù)雜的真核生物基因組,則需要更復(fù)雜的統(tǒng)計分析方法。 2.測量預(yù)測準(zhǔn)確性:沒有一個基因查找程序是100%精確的,所以較好的方法是使用幾個程序來注釋相同的基因組序列。預(yù)測精度用敏感性(能正確預(yù)測真正的基因或外顯子)和特異性(能正確排除假基

49、因或假外顯子)來衡量。 3.注釋流水線:處理從基因組計劃中產(chǎn)生的大量數(shù)據(jù)的唯一途徑是使用連續(xù)的流水線---注釋流水線 “飛速”注釋。 I: 結(jié)構(gòu)生物信息學(xué)(實驗六) 一、蛋白結(jié)構(gòu)的概念模型 1.結(jié)構(gòu)類型和概念模型 三種不同的蛋白結(jié)構(gòu)類型:纖維蛋白(如膠原質(zhì));球狀蛋白,它往往存在于如細胞質(zhì)和細胞外液等水性溶劑中;內(nèi)在膜蛋白,它存在于生物膜的脂質(zhì)環(huán)境當(dāng)中。 2.球狀蛋白中,線性氨基酸多聚體折疊成球狀的緊湊形狀從而形成一種三維結(jié)構(gòu)。球狀蛋白在水性溶劑中往往是可溶的,其折疊受疏水效應(yīng)控制,疏水效應(yīng)使疏水氨基酸側(cè)鏈朝向蛋白質(zhì)的結(jié)構(gòu)核心,遠離溶劑。 3. 內(nèi)在膜蛋白是生物信號和跨膜運輸系

50、統(tǒng)的關(guān)鍵元件。這些蛋白存在于生物脂質(zhì)膜中,遵循與球狀蛋白不同的結(jié)構(gòu)原則。 它們包含與跨膜片段(常常但不總是螺旋)有關(guān)的多條普通的疏水氨基酸鏈,并由膜外水性環(huán)境中的更多親水回環(huán)連接。 4.二、三、四級結(jié)構(gòu)概念: 1)球蛋白通常包含規(guī)則的二級結(jié)構(gòu)的元件,如α-helices (H) 和 β-strands (E or B). α-helices 由每個氨基酸的主鏈上的 C=O功能團和氨基酸沿著螺旋的四個殘基上的H-N功能團之間的氫鍵來穩(wěn)定。 β-strands由主鏈上的殘基與多肽其他部分形成的鏈中的殘基連接形成的。這意味著單一β鏈不能孤立地存在,它在空間上總是與至少另一條鏈相鄰。這種由

51、連續(xù)的、空間上相鄰的、以氫鍵相連的鏈形成的扭,曲的折疊結(jié)構(gòu)被稱為β折疊片。 2)三級結(jié)構(gòu)是單一多肽鏈的完全三維原子結(jié)構(gòu)。它可以被看作是二級結(jié)構(gòu)元件的組合,二級元件之間由主要存在于蛋白質(zhì)表面的不規(guī)則回環(huán)(C,coils)連接。 3)幾種三級結(jié)構(gòu)可以組裝起來形成生物學(xué)功能上的四級結(jié)構(gòu)。 5.結(jié)構(gòu)域:自然界通過組合獨立的組件單元或通常具有較簡單功能的結(jié)構(gòu)域創(chuàng)造了具有復(fù)雜功能的蛋白質(zhì)。許多蛋白質(zhì)含有大量的結(jié)構(gòu)域,這些結(jié)構(gòu)域往往是混合類型的,如混合的內(nèi)在膜和球結(jié)構(gòu)域。 6.進化:球狀蛋白中的環(huán)的表面殘基要比疏水核心中的殘基進化更快。內(nèi)在膜蛋白中,進化最慢的是那些在跨膜結(jié)構(gòu)域中的殘基。 二

52、、蛋白質(zhì)三維結(jié)構(gòu)與其功能的關(guān)系:蛋白質(zhì)依賴于其三維結(jié)構(gòu)的形狀和關(guān)鍵功能域的性質(zhì)來執(zhí)行生物功能。蛋白質(zhì)結(jié)構(gòu)的知識對于理解蛋白質(zhì)功能是關(guān)鍵的,這也是其在生物信息學(xué)中有很大重要性的一個原因。 三、蛋白質(zhì)結(jié)構(gòu)和功能的進化(關(guān)系) 1.結(jié)構(gòu)和功能約束:進化接受蛋白質(zhì)中氨基酸殘基發(fā)生的對蛋白質(zhì)結(jié)構(gòu)穩(wěn)定或蛋白功能來說中性或有利的變化。出于結(jié)構(gòu)或功能的需要,殘基可以被保留下來。當(dāng)氨基酸殘基能獨特地實現(xiàn)特定的結(jié)構(gòu)作用時,它們能被保留。這種情況常常出現(xiàn)在 cysteine, glycine and proline. 2.多序列比對:理解結(jié)構(gòu)怎樣進化有助于我們理解多序列比對。關(guān)鍵的結(jié)構(gòu)和功能殘基常常是保守

53、的。插入和缺失主要出現(xiàn)在親水的表面回環(huán)中,而不是規(guī)則的二級結(jié)構(gòu)元件中。 這個效應(yīng)可以在多序列比對中觀察到,比對結(jié)果往往是由對應(yīng)于二級結(jié)構(gòu)元件的較保守殘基和來自表面回環(huán)的不保守殘基交替組成的。 3.整體蛋白質(zhì)折疊的進化:如果兩條自然出現(xiàn)的蛋白質(zhì)序列可以比對,并且80個以上的殘基的比對顯示出25%以上的相似度,那么它們將共有同樣的基本結(jié)構(gòu)。 Sander and Schneider’s rule: t (L) = 290.15L-0.562(其中L指的是比對的長度,t指保證結(jié)構(gòu)相似所需的一致度百分比閾值。) 4.結(jié)構(gòu)的保留:蛋白質(zhì)結(jié)構(gòu)往往被保留,甚至由于進化使序列改變到不能被識別時結(jié)構(gòu)

54、仍被保留。所以結(jié)構(gòu)知識是理解蛋白質(zhì)進化的—個關(guān)鍵因素。 5.功能的進化:雖然結(jié)構(gòu)往往被進化保留下來,功能卻會發(fā)生變化。有許多蛋白質(zhì),其序列和結(jié)構(gòu)非常相似,但功能卻不相同。當(dāng)功能發(fā)生變化,關(guān)鍵的功能殘基也變化了,多序列比對常常能清楚地顯示出這一點。 四、結(jié)構(gòu)數(shù)據(jù)的獲取、展示和分析 1.獲取數(shù)據(jù):通用搜索引擎: SRS and NCBI 專業(yè)搜索引擎:RSCB: http://www.rcsb.org/pdb 2.結(jié)構(gòu)的可視化:常用的觀察結(jié)構(gòu)數(shù)據(jù)的程序:RasMol; TOPS: http://www.to

55、ps.leeds.ac.uk 3.結(jié)構(gòu)和功能位點的分析 PDBSum: 包含了清晰的結(jié)構(gòu)數(shù)據(jù)摘要和對結(jié)構(gòu)數(shù)據(jù)庫每一條目的分析,這些條目都可以通過訪問號來訪問,其提供的信息包括二級結(jié)構(gòu)、二硫鍵位置、配體結(jié)合位點、活性位點、關(guān)鍵殘基、分子間相互作用圖、折疊拓撲以及酶的EC號等信息。 SURFNET: 該軟件能夠幫助確定蛋白表面潛在的功能位點,特別是酶的活性位點。然后考慮這些位點的結(jié)構(gòu)能揭示該新結(jié)構(gòu)的何種可能功能。預(yù)測蛋白表面任何潛在位點的實際功能仍是目前生物信息學(xué)研究的一個前沿課題。 五、結(jié)構(gòu)比對 1.要在關(guān)系非常疏遠的蛋白序列之間找到正確的、有生物學(xué)意義的比對是很難的,因為它們只含

56、有極少比例的相同殘基。但在這種情況下,結(jié)構(gòu)信息能幫上忙,因為進化往往盡量少地改變結(jié)構(gòu)。疊加相似結(jié)構(gòu)的骨架以發(fā)現(xiàn)相同結(jié)構(gòu)殘基的過程被稱為結(jié)構(gòu)比對。 2.軟件:DALI: http://www.ebi.ac.uk/dali 3.結(jié)構(gòu)相似性:結(jié)構(gòu)比對方法通常會創(chuàng)建衡量結(jié)構(gòu)相似度的尺度。最常見的衡量尺度是RMSD(root mean square difference),許多程序都用這個標(biāo)準(zhǔn),它是指最佳結(jié)構(gòu)重疊中比對殘基的α碳原子間位置的均方差。RMSD = [sum(di2)/N]0.5 4.結(jié)構(gòu)相似性搜索:我們常常需要搜索序列數(shù)據(jù)庫以查詢某一序列的相似序列,同樣,有時我們也需要搜索結(jié)構(gòu)數(shù)據(jù)庫

57、以查詢與某一結(jié)構(gòu)相似的結(jié)構(gòu),這也是很有意義的。 Web-based search engines: DALI; SSAP;TOPS;VAST and RCSB 六、已知三維結(jié)構(gòu)的蛋白分類: CATH 和 SCOP 1.為什么要將蛋白質(zhì)進行結(jié)構(gòu)分類? 蛋白質(zhì)結(jié)構(gòu)在進化中要比蛋白質(zhì)序列保守得多。因此,根據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)對蛋白質(zhì)進行分類是把蛋白質(zhì)劃分為各種家族的最有效的方法,可以揭示遠距離的進化關(guān)系。 蛋白質(zhì)結(jié)構(gòu)分類的方法主要依據(jù)序列比較方法和結(jié)構(gòu)比較方法。 2.折疊或拓撲:所有的分類都是將具有同樣的整體折疊或拓撲的蛋白歸為一類。具有同樣的折疊或拓撲類型的蛋白質(zhì)或多或少地都含有同樣的SS

58、Es(secondary structure elements),以同樣的方式相連接并位于同樣的相對空間位置。 CATH (拓撲)和SCOP折疊水平把蛋白質(zhì)分成具有相同總體折疊的組。 3.同源體與相似體:Homologs (homologous proteins) 是從某一共同祖先趨異進化而來的蛋白,它們相互關(guān)聯(lián),并具有同樣的折疊。 Analogs (analogous proteins) 有同樣的折疊,但關(guān)于共同祖先的其他證據(jù)卻不充分。 4. Super-folds (超折疊)是指在進化中可能不止出現(xiàn)一次的蛋白質(zhì)折疊。普遍認為它們具有物理化學(xué)性質(zhì)上的某種優(yōu)勢,在SCOP與CATH中它們

59、以含有幾個同源超家族的折疊或拓撲的形式存在。比如TIM桶和免疫球蛋白的折疊。 七、蛋白質(zhì)結(jié)構(gòu)預(yù)測簡介 1.原因:結(jié)構(gòu)預(yù)測是有意義的,因為通過實驗來確定結(jié)構(gòu)仍然要比通過實驗確定序列慢得多。結(jié)構(gòu)預(yù)測幫助我們理解蛋白質(zhì)的功能和作用機制,對合理的藥物設(shè)計也是很有意義的。Levinthal和Anfinsen的早期工作使得結(jié)構(gòu)預(yù)測成了又一個極有發(fā)展?jié)摿Φ目茖W(xué)領(lǐng)。 2.什么是結(jié)構(gòu)預(yù)測:一般說來,結(jié)構(gòu)預(yù)測是指僅依據(jù)蛋白序列的信息來預(yù)測蛋白質(zhì)每個原子在三維空間中的相對位置。 結(jié)構(gòu)預(yù)測方法包括:比較建模法(comparative modeling), 折疊識別法(fold recognition), 二級

60、結(jié)構(gòu)預(yù)測法(secondary structure prediction), 從頭預(yù)測法(ab initio prediction) 以及跨膜片段預(yù)測法( transmembrane segment prediction)。 按理論基礎(chǔ)可分為: ab initio prediction: 嘗試計算并最小化自由能,或得出一個合適的近似最小值的方法。 knowledge-based prediction: 嘗試使用已知結(jié)構(gòu)數(shù)據(jù)庫中的信息來預(yù)測蛋白質(zhì)結(jié)構(gòu)。 (comparative modeling, fold recognition). Blind testing: CASP (Crit

61、ical Assessment of Structure Prediction) 八、通過比較建模預(yù)測結(jié)構(gòu)(建模步驟) 1.理論基礎(chǔ):在80個以上殘基的比對中,一致性達到25%以上的序列采用的是相同的基本結(jié)構(gòu)。這是比較建模預(yù)測的理論基礎(chǔ)。 2.內(nèi)容:比較建模所必需的是目標(biāo)序列和模板結(jié)構(gòu)序列之間的比對。 從用戶的角度來看,比對過程是比較建模法中最關(guān)鍵的步驟。 因此,有必要從結(jié)構(gòu)和功能的角度來檢查比對結(jié)果的有效性。 模板結(jié)構(gòu)可以通過標(biāo)準(zhǔn)的序列相似性搜索的方法來找到。該方法的主要限制是缺乏合適的模板結(jié)構(gòu),但結(jié)構(gòu)基因組學(xué)計劃正在改變這個局面。 3.過程:已知結(jié)構(gòu)(模板)作為結(jié)構(gòu)預(yù)測的基礎(chǔ)

62、。這個過程從概念上看包括保守核心殘基的定位、可變回環(huán)的模型化、側(cè)鏈的定位和優(yōu)化,以及模型的提煉。保守殘基和一些側(cè)鏈的位置可以直接從模板結(jié)構(gòu)信息中推導(dǎo)出,可變回環(huán)的建模常利用備件算法,對于側(cè)鏈的定位也有精密的算法來獲得優(yōu)化包裹的疏水核心。 4.精確性幾乎完全是由比對的質(zhì)量控制的。好的比對結(jié)果通過大多數(shù)主要軟件包將會產(chǎn)生精確的結(jié)構(gòu)預(yù)測。在所有的結(jié)構(gòu)預(yù)測方法中,比較建模法建立的模型最精確。 精確性通常以預(yù)測結(jié)構(gòu)與目標(biāo)序列真實結(jié)構(gòu)之間α碳原子位置距離的均方差(RMSD)來衡量。低于1.0?的RMSD值說明預(yù)測結(jié)果非常好。 5.現(xiàn)有資源:SWISS-MODEL:比較建模法 軟件: SWISS-

63、PDBVIEWER (http://www.expasy.ch/swissmod/SWISS-MODEL.html) 九、二級結(jié)構(gòu)預(yù)測(方法、原理、相應(yīng)的軟件、預(yù)測策略) 1.什么是二級結(jié)構(gòu)預(yù)測:當(dāng)某一特定目標(biāo)序列沒有合適的相關(guān)模板結(jié)構(gòu)時,可以考慮采用二級結(jié)構(gòu)預(yù)測法。與比較建模法不同的是,該方法并不產(chǎn)生一個全原子三級結(jié)構(gòu)模型,而是對每個殘基二級結(jié)構(gòu)狀態(tài)進行預(yù)測,即預(yù)測該二級結(jié)構(gòu)是否是螺旋、鏈或延伸以及圈。這種預(yù)測有時也被稱為三狀態(tài)預(yù)測。 許多方法是基于二級結(jié)構(gòu)偏好的思想,這種偏好是用某一殘基對特定二級結(jié)構(gòu)偏好的數(shù)值來反映的。早期的方法能達到60%精確度。早期方法的例子有基于Chou-

64、Fasman法則的方法和基于信息論的GOR方法。 2.多序列信息:使用相關(guān)序列的多序列比對結(jié)果可以揭示某些特定二級結(jié)構(gòu)的保守模式,從而顯著地提高了二級結(jié)構(gòu)預(yù)測的精確度,使得目前這方面預(yù)測的精確度達到了66%左右。 3.現(xiàn)有技術(shù)方法的準(zhǔn)確率:目前的方法對蛋白質(zhì)正確預(yù)測的殘基比例高于70%。精確度的增加可能是由于越來越多的結(jié)構(gòu)數(shù)據(jù)和越來越高級的算法。必須牢記的一點是所有的二級結(jié)構(gòu)預(yù)測方法都已經(jīng)利用已知的蛋白結(jié)構(gòu)數(shù)據(jù)進行了“訓(xùn)練”,因此,這些方法特別偏好那些與“訓(xùn)練”蛋白質(zhì)相似的蛋白,而對其他蛋白,例如內(nèi)在膜蛋白,則預(yù)測效果較差。 4.跨膜片段的預(yù)測:內(nèi)在膜蛋白中的跨膜片段可以通過搜索跨越

65、脂質(zhì)膜的連續(xù)疏水殘基來進行預(yù)測。有些方法還預(yù)測跨膜片段的方向(進—出)或拓撲結(jié)構(gòu),但是這通常都不太準(zhǔn)確。 跨膜片段往往含有較高比例的疏水殘基,長度常常在20個殘基以上,對應(yīng)于6-7個跨膜螺旋的螺旋圈。這種相對較長的強烈疏水殘基系列在可溶性球蛋自中很少見。這意味著可以基于疏水殘基系列來進行預(yù)測。 Tools: TMPred, TMHMM and TopPred. 5.現(xiàn)有的工具:ExPASy (http://www.expasy.ch) 十、高級蛋白質(zhì)結(jié)構(gòu)預(yù)測與預(yù)測策略 1.折疊識別:折疊識別致力于檢測非常疏遠的結(jié)構(gòu)和進化關(guān)系。它能檢測出蛋白質(zhì)采取了某種已知折疊,即使該蛋白質(zhì)與任

66、何已知結(jié)構(gòu)的蛋白質(zhì)都沒有顯著的序列相似性(<25%)。通過使用序列和結(jié)構(gòu)信息,折疊識別方法通常試圖找出某已知折疊庫中最一致的折疊。折疊識別也叫做線程(threading)。 折疊識別的輸出通常是查詢序列與一條或多條已知其結(jié)構(gòu)的、與查詢序列關(guān)系疏遠的序列之間的比對。因此,通過使用通常的比較建模方法就可以得出被預(yù)測蛋白質(zhì)的全三維結(jié)構(gòu)。 2.從頭開始:這類方法試圖從基本原理預(yù)測蛋白質(zhì)結(jié)構(gòu),但是,與前面講述的比較建模、二級結(jié)構(gòu)預(yù)測和折疊識別等方法相比,從頭開始預(yù)測的方法目前還是不大有效。 3.預(yù)測策略: Step 1: 鑒定出該查詢序列中的任何特征。E.g. 潛在跨膜片段; 低組成復(fù)雜度; 卷曲螺旋(coiled coils); 已知結(jié)構(gòu)域或序列的整體結(jié)構(gòu)域 (通過Interpro); 其他相關(guān)序列和亞序列 (domains) (通過PSI-BLAST)。如果蛋白質(zhì)是多結(jié)構(gòu)域的,而且序列中結(jié)構(gòu)域的位置可以找出,那么分別預(yù)測每個結(jié)構(gòu)域?qū)苡杏谩? Step 2: 采取一個適當(dāng)?shù)念A(yù)測方法。 首選 comparative modeling,如果不成功, 則進行secondary stru

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲