中國(guó)科技大學(xué)課件系列:《生物信息學(xué)》.ppt

上傳人:max****ui 文檔編號(hào):17596457 上傳時(shí)間:2020-11-26 格式:PPT 頁數(shù):72 大?。?.04MB
收藏 版權(quán)申訴 舉報(bào) 下載
中國(guó)科技大學(xué)課件系列:《生物信息學(xué)》.ppt_第1頁
第1頁 / 共72頁
中國(guó)科技大學(xué)課件系列:《生物信息學(xué)》.ppt_第2頁
第2頁 / 共72頁
中國(guó)科技大學(xué)課件系列:《生物信息學(xué)》.ppt_第3頁
第3頁 / 共72頁

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《中國(guó)科技大學(xué)課件系列:《生物信息學(xué)》.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《中國(guó)科技大學(xué)課件系列:《生物信息學(xué)》.ppt(72頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、生物信息學(xué) 第三章 序列比對(duì) 本章內(nèi)容提要 第一節(jié):數(shù)學(xué)基礎(chǔ):概率及概率模型 第二節(jié):雙序列比對(duì)算法的介紹 Dot matrix 動(dòng)態(tài)規(guī)劃算法 (Needleman-Wunsch, Smith-Waterman算法 ) FASTA和 BLAST算法 第三節(jié):打分矩陣及其含義 第四節(jié):多序列比對(duì) 第三節(jié) 打分矩陣及其含義 1,計(jì)分方法 2, Dayhoff: PAM系列矩陣 3, Henikoff: BLOSUM系列矩陣 1, 計(jì)分方法 匹配計(jì)分: UM矩陣 (Unitary matrix) 相同的氨基酸記 1分,否則記 0分。 BLAST中核酸比對(duì)

2、 結(jié)構(gòu)域性質(zhì)計(jì)分: SGM矩陣 (Structure-Genetic Matrix) 主要根據(jù)氨基酸的結(jié)構(gòu)和化學(xué)性質(zhì)的相似程度 來記分 (如 D和 E, S和 T, V和 I有很高的相似性 ),同 時(shí)還考慮密碼子之間相互轉(zhuǎn)換的難易程度。 可觀測(cè)變換計(jì)分: PAM矩陣 (Point Accepted Mutation) BLOSUM矩陣 (BLOcks SUbstitution Matrix) 2, PAM系列矩陣 Margaret Dayhoff, 1978; 通過對(duì)物種進(jìn)化的研究,根據(jù)一種氨基酸被 另一種氨基酸替代的頻度而提出的,最常用 的是 PAM250; Accep

3、ted point mutation (PAM): 可接受 的點(diǎn)突變,氨基酸的改變不顯著影響蛋白質(zhì) 的功能; PAM矩陣 71個(gè)蛋白質(zhì)家族的 1572種變化; 序列相似性 85%; 功能同源的蛋白質(zhì) 通過中性進(jìn)化,引入 可接受的點(diǎn)突變; 進(jìn)化模型: A. 基本假設(shè):中性進(jìn)化, Kimura,1968; B. 進(jìn)化的對(duì)稱性 : A-B = B-A; C. 擴(kuò)展性:通過對(duì)較短時(shí)間內(nèi)氨基酸替代關(guān)系 的計(jì)算來計(jì)算較長(zhǎng)時(shí)間的氨基酸替代關(guān)系; PAM1矩陣 兩個(gè)蛋白質(zhì)序列的 1%氨基酸發(fā)生變化; 定義進(jìn)化時(shí)間以氨基酸的變異比例為準(zhǔn), 而不是時(shí)間;因?yàn)楦鱾€(gè)蛋白質(zhì)家族進(jìn)化的速

4、度并不相等; PAM2 = PAM1*PAM1 PAM3 = (PAM1)3 PAM250= (PAM1)250 PAMn矩陣的構(gòu)建 1. 選取多個(gè)家族的相似性 85%的保守序列; 2. 根據(jù)匹配計(jì)分進(jìn)行多重比對(duì) (不含空位 ); 3. 以比對(duì)結(jié)果構(gòu)建進(jìn)化樹,反映氨基酸替換關(guān) 系; 4. 計(jì)算每種氨基酸轉(zhuǎn)換成其它氨基酸的次數(shù); 5. 計(jì)算每種氨基酸突變率; 6. 計(jì)算每對(duì)氨基酸突變率,得到突變概率矩陣 ,將此矩陣自乘 n次; 7. 將突變概率矩陣轉(zhuǎn)化為 PAMn矩陣。 例 6: PAM矩陣的構(gòu)建 已知 3個(gè)蛋白質(zhì)家族若干保守序列片段: 家族一: FKIL

5、K, FKIKK, FFILL, FFIKL 家族二: IIFFF, IIFIF , IKFFL , IKFIL 家族三: KIFKK, KIFLK, KLFKL, KLFLL 按 Doyhoff方法構(gòu)建 PAM1與 PAM2矩陣 Step1:多重比對(duì) 位置對(duì)齊,多重比對(duì)(不考慮空位): 統(tǒng)計(jì)每種氨基酸出現(xiàn)的頻率; fi = 氨基酸 i的數(shù)目 /總氨基酸數(shù)目 fL = 12/60 = 0.2 .. 家族一 家族二 家族三 F K I L K I I F F F K I F K K F K I K K I I F I F K I F L K F F I L L I K F

6、F L K L F K L F F I K L I K F I L K L F L L Step2:構(gòu)建進(jìn)化樹 最大簡(jiǎn)約法 家族一 : L和 K間相互轉(zhuǎn)換次數(shù): N(LK) = 3 家族二,家族三 FKILK FKIKK FKIKK FFIKL FFILL FFIKL (LK) (KF)(LK) (LK) Step3:計(jì)算氨基酸間的轉(zhuǎn)換次數(shù) 計(jì)算每種氨基酸轉(zhuǎn)換成其它氨基酸的次數(shù)。 假設(shè)兩種氨基酸間相互轉(zhuǎn)換一樣。 e.g. N(LK)= 3 + 0 + 3 = 6 K F I L K 1 1 6 F 1 2 1 I 1 2 1 L 6 1 1 S

7、tep4:計(jì)算各 氨基酸 相對(duì)突變率 每種氨基酸相對(duì)突變率 mi i:第 i種氨基酸; fi :每種氨基酸出現(xiàn)的頻率; mK = 8/(12 2 fK 100) = 0.0125 1002 i i f im 總替換數(shù) 總共發(fā)生替換數(shù)氨基酸 Step5:計(jì)算氨基酸 i替換為 j的突變率 氨基酸 i替換為 j的突變率 mij e.g. mKK = 1- mK = 0.9875 mKF = mF 1/4 = 0.001389 iii i ij mmji j jim mji 1時(shí), 總共發(fā)生替換數(shù)氨基酸 相互替換的次數(shù)與氨基酸 時(shí), Step5:氨基酸一步

8、轉(zhuǎn)移概率矩陣 氨基酸突變概率 一步轉(zhuǎn)移概率矩陣 M1ij 原氨基酸 K F I L 替換氨 基酸 K 0.9875 0.001563 0.001563 0.009375 F 0.001389 0.994444 0.002778 0.001389 I 0.001786 0.003571 0.992857 0.001786 L 0.0125 0.002083 0.002083 0.983333 Step6: 計(jì)算 PAM1計(jì)分矩陣 由突變率 mij計(jì)算計(jì)分矩陣中的分值 rij: 將 rij = rji取平均值,再取整數(shù); (按先前假設(shè), rij = rji) rKK = 10l

9、g(mkk/ fk) = 5.6857 6 (rKF + rFK )/2 = -22.833 -23 )/lg (10 iijij fmr Step6: PAM1計(jì)分矩陣結(jié)果 三個(gè)家族序列片段得到的 PAM1計(jì)分矩陣: K F I L K 6 F -23 5 I -22 -19 6 L -13 -22 -20 7 Step7: 計(jì)算 PAM2計(jì)分矩陣 將氨基酸突變概率矩陣自乘一次,得到兩 步轉(zhuǎn)移概率矩陣 M2ij M2ij = M1ij M1ij 三個(gè)家族序列片段得到的 PAM2計(jì)分矩陣: K F I L K 6 F -20 5 I -19 -16 6 L

10、-10 -19 -18 7 PAM250矩陣 PAM250: 250%期望的突變; 蛋白質(zhì)序列仍然有 15-30%左右的相似性; PAM250打分 矩陣 打分矩陣的使用 PAM250: 15-30%的序列相似 性; PAM120: 40%的序列相似性; PAM80: 50% PAM60: 60% 如何選擇最合適的矩陣? 多種嘗試 PAM矩陣的問題及改進(jìn) 1. PAM系列矩陣存在的問題: A. 氨基酸的打分矩陣,不關(guān)心核酸; B. 進(jìn)化模型的構(gòu)建需要系統(tǒng)發(fā)育樹的分析,因 此,成為一個(gè)循環(huán)論證的問題:序列比對(duì) 矩 陣構(gòu)建 打分 進(jìn)行新的序列比對(duì); C. 數(shù)據(jù)集很

11、??; 2. 打分矩陣的改進(jìn) A. 選用大量的序列數(shù)據(jù),構(gòu)建 PAM矩陣; B. BLOSUM系列矩陣 ; C. 核酸的打分矩陣 ; 3, BLOSUM矩陣 最被廣泛使用的氨基酸打分矩陣 ; 根據(jù)蛋白質(zhì)模塊數(shù)據(jù)庫(kù) BLOCKS中蛋白質(zhì)序 列的高度保守部分的比對(duì)而得到的,最常用 的是 BLOSUM62; BLOCK: 蛋白質(zhì)家族保守的一段氨基酸,無 gap,一般幾個(gè)至上百個(gè)氨基酸; Prosite家族:至少有一個(gè) BLOCK存在于該 家族的所有蛋白質(zhì)序列中; BLOSUM62: 序列的平均相似性為 62%的 BLOCK構(gòu)建的打分矩陣; BLOSUM62矩陣構(gòu)建步驟: 1. 提取 P

12、rosite數(shù)據(jù)庫(kù)中 504個(gè)家族的 2萬多蛋 白質(zhì)序列,合并其中相似性 62%的序列; 2. 統(tǒng)計(jì)各 BLOCK的氨基酸對(duì)數(shù)量 f; 3. 計(jì)算氨基酸對(duì)的出現(xiàn)頻率 q; 4. 計(jì)算每種氨基酸的期望頻率 p; 5. 計(jì)算氨基酸對(duì)出現(xiàn)的期望頻率 e; 6. 計(jì)算 BLOSUM62矩陣分量 rij )/(lg2 2 eqr ij BLOSUM62打分矩陣 BLOSUM 2. 基于多序列比對(duì)的結(jié)果 構(gòu)建進(jìn)化樹; 3. 重新計(jì)算序列之間的距 離,再用 “ 漸進(jìn) ” 算法進(jìn)行 多序列比對(duì); 4. 重復(fù)上述步驟,直到結(jié) 果不再發(fā)生改變?yōu)橹埂? (2) DIALIGN 1. 對(duì)所有

13、序列進(jìn)行兩兩之間的局部最優(yōu)化的 比對(duì); 2. 找到所有能夠匹配的部分 M1;將重疊的 、前后連續(xù) (consistency)的匹配部分連接 起來 (diagonals),為 M2; 3. 將剩下的未比對(duì)的序列重新比對(duì),再發(fā)現(xiàn) 能夠匹配的部分,構(gòu)成新 M1,將 consistency部分構(gòu)成 M2; 4. 重復(fù)上述步驟,直到結(jié)果收斂。 DIALIGN: 算法流程 3. 部分有向圖算法 激酶的多序列比對(duì) 4. 隱馬爾科夫模型 : ProbCons 主要改進(jìn): 1. 所有序列的兩兩比對(duì),通過 profile HMM的 方法進(jìn)行雙序列比對(duì); 2. 將漸進(jìn)算法與迭代算法整合; 3.

14、目前,性能最優(yōu)。 5. 整合算法 MUSCLE 算法分為三個(gè)部分,每個(gè)部分相對(duì)獨(dú)立; 1. Draft progressive: (1) 對(duì)兩條序列,計(jì)算距離采用 k-mer的思想; (2) 用 UPGMA算法構(gòu)建引導(dǎo)樹; (3) 使用漸進(jìn)算法進(jìn)行多序列比對(duì); 優(yōu)點(diǎn):兩條序列之間的距離不采用動(dòng)態(tài)規(guī)劃 算法進(jìn)行比對(duì),節(jié)省時(shí)間。 MUSCLE 2. Improved progressive: (1)基于 k-mer得到的樹可能會(huì)產(chǎn)生次優(yōu)結(jié)果, 因此,采用 Kimura距離的方法對(duì) k-mer產(chǎn)生的 樹重新計(jì)算距離矩陣; (2)重新用 UPGMA構(gòu)建進(jìn)化樹; (3)使用漸進(jìn)算法

15、進(jìn)行多序列比對(duì); 3. Refinement: (1)隨機(jī)從進(jìn)化樹上挑出一條邊,刪除; (2)得到兩組樹,對(duì)每組樹,計(jì)算 profile; (3)將兩組 profile進(jìn)行比對(duì); (4)如果最終得分提高,保留結(jié)果,否則丟棄。 MUSCLE MUSCLE的算法流程 MUSCLE: 使用指南 MUSCLE的使用 多序列比對(duì):性能檢驗(yàn) 1. BAliBASE:基于蛋白質(zhì)結(jié)構(gòu),將同一家 族的蛋白質(zhì)序列進(jìn)行多序列比較。 2. 檢驗(yàn)多序列比對(duì)工具的性能:是否能夠很 好的重復(fù) BAliBASE中已明確的比對(duì)結(jié)果。 AMP結(jié)合酶的結(jié)構(gòu) /序列比較 性能比較 ProbCons:目前綜合性能最好; T-Coffee:序列相似性高時(shí)最準(zhǔn)確; DIALIGN: 序列相似性低時(shí)最準(zhǔn)確; POA:性能接近 T-Coffee和 DIALIGN,速 度最快; ClustalW/X: 最經(jīng)典、被廣泛接受的工具; MUSCLE: 目前最流行的多序列比對(duì)工具; 運(yùn)算時(shí)間比較

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲