《中國科技大學課件系列:《生物信息學》課件.ppt》由會員分享,可在線閱讀,更多相關《中國科技大學課件系列:《生物信息學》課件.ppt(72頁珍藏版)》請在裝配圖網上搜索。
1、生物信息學,第三章 序列比對 ,本章內容提要,第一節(jié):數(shù)學基礎:概率及概率模型 第二節(jié):雙序列比對算法的介紹 Dot matrix 動態(tài)規(guī)劃算法 (Needleman-Wunsch, Smith-Waterman算法) FASTA和BLAST算法 第三節(jié):打分矩陣及其含義 第四節(jié):多序列比對,第三節(jié) 打分矩陣及其含義,1,計分方法 2,Dayhoff: PAM系列矩陣 3,Henikoff: BLOSUM系列矩陣,1, 計分方法,匹配計分: UM矩陣(Unitary matrix) 相同的氨基酸記1分,否則記0分。 BLAST中核酸比對 結構域性質計分: SGM矩陣(Structure-Gen
2、etic Matrix) 主要根據(jù)氨基酸的結構和化學性質的相似程度來記分(如D和E,S和T,V和I有很高的相似性),同時還考慮密碼子之間相互轉換的難易程度。 可觀測變換計分: PAM矩陣 (Point Accepted Mutation) BLOSUM矩陣 (BLOcks SUbstitution Matrix),2, PAM系列矩陣,Margaret Dayhoff, 1978; 通過對物種進化的研究,根據(jù)一種氨基酸被另一種氨基酸替代的頻度而提出的,最常用的是PAM250; Accepted point mutation (PAM): 可接受的點突變,氨基酸的改變不顯著影響蛋白質的功能;,
3、PAM矩陣,71個蛋白質家族的1572種變化; 序列相似性 85%;,功能同源的蛋白質 通過中性進化,引入可接受的點突變; 進化模型: A. 基本假設:中性進化,Kimura,1968; B. 進化的對稱性: A-B = B-A; C. 擴展性:通過對較短時間內氨基酸替代關系的計算來計算較長時間的氨基酸替代關系;,PAM1矩陣,兩個蛋白質序列的1%氨基酸發(fā)生變化; 定義進化時間以氨基酸的變異比例為準,而不是時間;因為各個蛋白質家族進化的速度并不相等; PAM2 = PAM1*PAM1 PAM3 = (PAM1)3 PAM250= (PAM1)250,PAMn矩陣的構建,選取多個家族的相似性85
4、%的保守序列; 根據(jù)匹配計分進行多重比對(不含空位); 以比對結果構建進化樹,反映氨基酸替換關系; 計算每種氨基酸轉換成其它氨基酸的次數(shù); 計算每種氨基酸突變率; 計算每對氨基酸突變率,得到突變概率矩陣,將此矩陣自乘n次; 將突變概率矩陣轉化為PAMn矩陣。,例6:PAM矩陣的構建,已知3個蛋白質家族若干保守序列片段: 家族一:FKILK,F(xiàn)KIKK,F(xiàn)FILL,F(xiàn)FIKL 家族二:IIFFF, IIFIF , IKFFL , IKFIL 家族三: KIFKK,KIFLK,KLFKL,KLFLL 按Doyhoff方法構建PAM1與PAM2矩陣,Step1:多重比對,位置對齊,多重比對(不考慮空
5、位): 統(tǒng)計每種氨基酸出現(xiàn)的頻率; fi = 氨基酸i的數(shù)目/總氨基酸數(shù)目 fL = 12/60 = 0.2 ..,Step2:構建進化樹,最大簡約法 家族一: L和K間相互轉換次數(shù):N(LK) = 3 家族二,家族三 ,Step3:計算氨基酸間的轉換次數(shù),計算每種氨基酸轉換成其它氨基酸的次數(shù)。 假設兩種氨基酸間相互轉換一樣。 e.g. N(LK)= 3 + 0 + 3 = 6,Step4:計算各氨基酸相對突變率,每種氨基酸相對突變率mi i:第i種氨基酸; fi :每種氨基酸出現(xiàn)的頻率; mK = 8/(122 fK 100) = 0.0125 ,Step5:計算氨基酸i替換為j的突變
6、率,氨基酸i替換為j的突變率mij e.g. mKK = 1- mK = 0.9875 mKF = mF 1/4 = 0.001389 ,Step5:氨基酸一步轉移概率矩陣,氨基酸突變概率一步轉移概率矩陣M1ij,Step6: 計算PAM1計分矩陣,由突變率mij計算計分矩陣中的分值rij: 將rij = rji取平均值,再取整數(shù); (按先前假設, rij = rji) rKK = 10lg(mkk/ fk) = 5.6857 6 (rKF + rFK )/2 = -22.833 -23 ,Step6: PAM1計分矩陣結果,三個家族序列片段得到的PAM1計分矩陣:,Step7: 計算PAM
7、2計分矩陣,將氨基酸突變概率矩陣自乘一次,得到兩步轉移概率矩陣M2ij M2ij = M1ij M1ij 三個家族序列片段得到的PAM2計分矩陣:,PAM250矩陣,PAM250: 250%期望的突變; 蛋白質序列仍然有15-30%左右的相似性;,PAM250打分矩陣,打分矩陣的使用,PAM250: 15-30%的序列相似性; PAM120: 40%的序列相似性; PAM80: 50% PAM60: 60% 如何選擇最合適的矩陣? 多種嘗試,PAM矩陣的問題及改進,1. PAM系列矩陣存在的問題: A. 氨基酸的打分矩陣,不關心核酸; B. 進化模型的構建需要系統(tǒng)發(fā)育樹的分析,因此,成為一個
8、循環(huán)論證的問題:序列比對矩陣構建打分進行新的序列比對; C. 數(shù)據(jù)集很?。?2. 打分矩陣的改進 A. 選用大量的序列數(shù)據(jù),構建PAM矩陣; B. BLOSUM系列矩陣; C. 核酸的打分矩陣;,3, BLOSUM矩陣,最被廣泛使用的氨基酸打分矩陣; 根據(jù)蛋白質模塊數(shù)據(jù)庫BLOCKS中蛋白質序列的高度保守部分的比對而得到的,最常用的是BLOSUM62; BLOCK: 蛋白質家族保守的一段氨基酸,無gap,一般幾個至上百個氨基酸; Prosite家族:至少有一個BLOCK存在于該家族的所有蛋白質序列中; BLOSUM62: 序列的平均相似性為62%的BLOCK構建的打分矩陣;,BLOSUM62矩
9、陣構建步驟:,提取Prosite數(shù)據(jù)庫中504個家族的2萬多蛋白質序列,合并其中相似性62%的序列; 統(tǒng)計各BLOCK的氨基酸對數(shù)量f; 計算氨基酸對的出現(xiàn)頻率q; 計算每種氨基酸的期望頻率p; 計算氨基酸對出現(xiàn)的期望頻率e; 計算BLOSUM62矩陣分量rij,BLOSUM62打分矩陣,,BLOSUM 2. 基于多序列比對的結果構建進化樹; 3. 重新計算序列之間的距離,再用“漸進”算法進行多序列比對; 4. 重復上述步驟,直到結果不再發(fā)生改變?yōu)橹埂?(2) DIALIGN,1. 對所有序列進行兩兩之間的局部最優(yōu)化的比對; 2. 找到所有能夠匹配的部分M1;將重疊的、前后連續(xù)(consist
10、ency)的匹配部分連接起來(diagonals),為M2; 3. 將剩下的未比對的序列重新比對,再發(fā)現(xiàn)能夠匹配的部分,構成新M1,將consistency部分構成M2; 4. 重復上述步驟,直到結果收斂。,DIALIGN: 算法流程,3. 部分有向圖算法,激酶的多序列比對,4. 隱馬爾科夫模型: ProbCons,主要改進: 1. 所有序列的兩兩比對,通過profile HMM的方法進行雙序列比對; 2. 將漸進算法與迭代算法整合; 3. 目前,性能最優(yōu)。,5. 整合算法MUSCLE,算法分為三個部分,每個部分相對獨立; 1. Draft progressive: (1) 對兩條序列,計算距
11、離采用k-mer的思想; (2) 用UPGMA算法構建引導樹; (3) 使用漸進算法進行多序列比對; 優(yōu)點:兩條序列之間的距離不采用動態(tài)規(guī)劃算法進行比對,節(jié)省時間。,MUSCLE,2. Improved progressive: (1)基于k-mer得到的樹可能會產生次優(yōu)結果,因此,采用Kimura距離的方法對k-mer產生的樹重新計算距離矩陣; (2)重新用UPGMA構建進化樹; (3)使用漸進算法進行多序列比對;,3. Refinement: (1)隨機從進化樹上挑出一條邊,刪除; (2)得到兩組樹,對每組樹,計算profile; (3)將兩組profile進行比對; (4)如果最終得分提
12、高,保留結果,否則丟棄。,MUSCLE,MUSCLE的算法流程,MUSCLE: 使用指南,,,MUSCLE的使用,,多序列比對:性能檢驗,1. BAliBASE:基于蛋白質結構,將同一家族的蛋白質序列進行多序列比較。 2. 檢驗多序列比對工具的性能:是否能夠很好的重復BAliBASE中已明確的比對結果。,AMP結合酶的結構/序列比較,性能比較,ProbCons:目前綜合性能最好; T-Coffee:序列相似性高時最準確; DIALIGN: 序列相似性低時最準確; POA:性能接近T-Coffee和DIALIGN,速度最快; ClustalW/X: 最經典、被廣泛接受的工具; MUSCLE: 目前最流行的多序列比對工具;,運算時間比較,