生物信息學(xué)本科教學(xué)課件
生物信息學(xué)本科教學(xué)課件,生物信息學(xué),本科教學(xué)課件,生物,信息學(xué),本科,教學(xué),課件
序列對(duì)比和數(shù)據(jù)庫(kù)搜索序列對(duì)比和數(shù)據(jù)庫(kù)搜索主講教師:趙雨杰主講教師:趙雨杰作業(yè)郵箱作業(yè)郵箱序列對(duì)比和數(shù)據(jù)庫(kù)搜索序列對(duì)比和數(shù)據(jù)庫(kù)搜索序列對(duì)比和數(shù)據(jù)庫(kù)搜索序列對(duì)比和數(shù)據(jù)庫(kù)搜索概述概述概述概述克隆獲得的克隆獲得的序列序列g(shù)atttgttta ccgtgttgat ttgagaagcc ctgaagaaat ttttgaacat ggcttttcaagatttgttta ccgtgttgat ttgagaagcc ctgaagaaat ttttgaacat ggcttttcaactttaggtga tgtgagaaat ttctttgaac acattctctc cactaatttt ggtagaagctctttaggtga tgtgagaaat ttctttgaac acattctctc cactaatttt ggtagaagctattttatttc cacttcagaa acacccacag cagctattcg cttctttggt agctggttacattttatttc cacttcagaa acacccacag cagctattcg cttctttggt agctggttacgggaatatgt accagagcac cccagaaggg cttacttata tgaaattcgt gccgaccaacgggaatatgt accagagcac cccagaaggg cttacttata tgaaattcgt gccgaccaacacttttacaa tgcccgcgcc actggggaga acttgttaga tttaatgcgt caaagacaagacttttacaa tgcccgcgcc actggggaga acttgttaga tttaatgcgt caaagacaagtagtatttga ctctggtgat cgagaaatgg cacaaatggg aattagagct ttacgcactttagtatttga ctctggtgat cgagaaatgg cacaaatggg aattagagct ttacgcacttcctttgcgta tcaacgtgaa tggtttaccg atggtccaat tgcagcagct aatgtccgtacctttgcgta tcaacgtgaa tggtttaccg atggtccaat tgcagcagct aatgtccgta在生物學(xué)的研究中在生物學(xué)的研究中在生物學(xué)的研究中在生物學(xué)的研究中,有有有有一個(gè)最常用和最經(jīng)典的研究手一個(gè)最常用和最經(jīng)典的研究手一個(gè)最常用和最經(jīng)典的研究手一個(gè)最常用和最經(jīng)典的研究手段段段段,就是就是就是就是通過(guò)通過(guò)通過(guò)通過(guò)比較分析比較分析比較分析比較分析獲取有用的信息和知識(shí)。通過(guò)獲取有用的信息和知識(shí)。通過(guò)獲取有用的信息和知識(shí)。通過(guò)獲取有用的信息和知識(shí)。通過(guò)將研究對(duì)象相互比較來(lái)尋找對(duì)象可能具備的特性。將研究對(duì)象相互比較來(lái)尋找對(duì)象可能具備的特性。將研究對(duì)象相互比較來(lái)尋找對(duì)象可能具備的特性。將研究對(duì)象相互比較來(lái)尋找對(duì)象可能具備的特性。我們從核酸以及氨基酸的一級(jí)結(jié)構(gòu)層次分析序列的我們從核酸以及氨基酸的一級(jí)結(jié)構(gòu)層次分析序列的我們從核酸以及氨基酸的一級(jí)結(jié)構(gòu)層次分析序列的我們從核酸以及氨基酸的一級(jí)結(jié)構(gòu)層次分析序列的相同點(diǎn)和不同點(diǎn),以期能夠推測(cè)它們的相同點(diǎn)和不同點(diǎn),以期能夠推測(cè)它們的相同點(diǎn)和不同點(diǎn),以期能夠推測(cè)它們的相同點(diǎn)和不同點(diǎn),以期能夠推測(cè)它們的結(jié)構(gòu)、功能結(jié)構(gòu)、功能結(jié)構(gòu)、功能結(jié)構(gòu)、功能以及進(jìn)化以及進(jìn)化以及進(jìn)化以及進(jìn)化上的聯(lián)系。上的聯(lián)系。上的聯(lián)系。上的聯(lián)系。最常用的比較方法是序列對(duì)比,它為兩個(gè)或更多個(gè)最常用的比較方法是序列對(duì)比,它為兩個(gè)或更多個(gè)最常用的比較方法是序列對(duì)比,它為兩個(gè)或更多個(gè)最常用的比較方法是序列對(duì)比,它為兩個(gè)或更多個(gè)序列的殘基之間的相互關(guān)系提供了一個(gè)非常明確的序列的殘基之間的相互關(guān)系提供了一個(gè)非常明確的序列的殘基之間的相互關(guān)系提供了一個(gè)非常明確的序列的殘基之間的相互關(guān)系提供了一個(gè)非常明確的圖譜。通過(guò)比較兩個(gè)序列之間的相似區(qū)域和保守性圖譜。通過(guò)比較兩個(gè)序列之間的相似區(qū)域和保守性圖譜。通過(guò)比較兩個(gè)序列之間的相似區(qū)域和保守性圖譜。通過(guò)比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的對(duì)比是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,進(jìn)一步的對(duì)比是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,進(jìn)一步的對(duì)比是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,進(jìn)一步的對(duì)比是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的尋找這些有進(jìn)化關(guān)系的序列之間共同的尋找這些有進(jìn)化關(guān)系的序列之間共同的尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位保守區(qū)域、位保守區(qū)域、位保守區(qū)域、位點(diǎn)和圖譜點(diǎn)和圖譜點(diǎn)和圖譜點(diǎn)和圖譜,分析產(chǎn)生共同功能的序列模式。此外,還,分析產(chǎn)生共同功能的序列模式。此外,還,分析產(chǎn)生共同功能的序列模式。此外,還,分析產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來(lái)探索核酸序列可可以把蛋白質(zhì)序列與核酸序列相比來(lái)探索核酸序列可可以把蛋白質(zhì)序列與核酸序列相比來(lái)探索核酸序列可可以把蛋白質(zhì)序列與核酸序列相比來(lái)探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)相比,從而獲得蛋白質(zhì)相比,從而獲得蛋白質(zhì)相比,從而獲得蛋白質(zhì)空間結(jié)構(gòu)蛋白質(zhì)空間結(jié)構(gòu)蛋白質(zhì)空間結(jié)構(gòu)蛋白質(zhì)空間結(jié)構(gòu)的信息。的信息。的信息。的信息。序列對(duì)比和數(shù)據(jù)庫(kù)搜索原理序列對(duì)比和數(shù)據(jù)庫(kù)搜索原理主講教師:趙雨杰主講教師:趙雨杰生物物種之間存在進(jìn)化關(guān)系,我們對(duì)基因和蛋白質(zhì)生物物種之間存在進(jìn)化關(guān)系,我們對(duì)基因和蛋白質(zhì)生物物種之間存在進(jìn)化關(guān)系,我們對(duì)基因和蛋白質(zhì)生物物種之間存在進(jìn)化關(guān)系,我們對(duì)基因和蛋白質(zhì)序列進(jìn)行比較,從本質(zhì)上來(lái)講是同達(dá)爾文一樣,進(jìn)序列進(jìn)行比較,從本質(zhì)上來(lái)講是同達(dá)爾文一樣,進(jìn)序列進(jìn)行比較,從本質(zhì)上來(lái)講是同達(dá)爾文一樣,進(jìn)序列進(jìn)行比較,從本質(zhì)上來(lái)講是同達(dá)爾文一樣,進(jìn)行同樣的比較分析,只不過(guò)更加精細(xì),更加詳盡,行同樣的比較分析,只不過(guò)更加精細(xì),更加詳盡,行同樣的比較分析,只不過(guò)更加精細(xì),更加詳盡,行同樣的比較分析,只不過(guò)更加精細(xì),更加詳盡,如果兩個(gè)序列之間具有足夠的相似性,就推測(cè)二者如果兩個(gè)序列之間具有足夠的相似性,就推測(cè)二者如果兩個(gè)序列之間具有足夠的相似性,就推測(cè)二者如果兩個(gè)序列之間具有足夠的相似性,就推測(cè)二者可能有共同的進(jìn)化祖先,經(jīng)過(guò)序列內(nèi)殘基的替換、可能有共同的進(jìn)化祖先,經(jīng)過(guò)序列內(nèi)殘基的替換、可能有共同的進(jìn)化祖先,經(jīng)過(guò)序列內(nèi)殘基的替換、可能有共同的進(jìn)化祖先,經(jīng)過(guò)序列內(nèi)殘基的替換、殘基或序列片段的缺失以及序列重組等遺傳變異過(guò)殘基或序列片段的缺失以及序列重組等遺傳變異過(guò)殘基或序列片段的缺失以及序列重組等遺傳變異過(guò)殘基或序列片段的缺失以及序列重組等遺傳變異過(guò)程分別演化而來(lái)程分別演化而來(lái)程分別演化而來(lái)程分別演化而來(lái)。序列相似性和序列相似性和序列相似性和序列相似性和序列序列序列序列同源性是同源性是同源性是同源性是不同的不同的不同的不同的概念,概念,概念,概念,序列序列序列序列相似性相似性相似性相似性:序列:序列:序列:序列之間的相似程度是可以量之間的相似程度是可以量之間的相似程度是可以量之間的相似程度是可以量化的化的化的化的參數(shù)。參數(shù)。參數(shù)。參數(shù)。序列序列序列序列同源性同源性同源性同源性:序列:序列:序列:序列是否同源需要有進(jìn)化事實(shí)是否同源需要有進(jìn)化事實(shí)是否同源需要有進(jìn)化事實(shí)是否同源需要有進(jìn)化事實(shí)的驗(yàn)證。的驗(yàn)證。的驗(yàn)證。的驗(yàn)證。人和褐家鼠人和褐家鼠人和褐家鼠人和褐家鼠pancreatic secretory trypsin inhibitorpancreatic secretory trypsin inhibitor蛋白蛋白蛋白蛋白序列作對(duì)比,能形成二硫鍵的半胱氨酸殘基極為保守序列作對(duì)比,能形成二硫鍵的半胱氨酸殘基極為保守序列作對(duì)比,能形成二硫鍵的半胱氨酸殘基極為保守序列作對(duì)比,能形成二硫鍵的半胱氨酸殘基極為保守 gb|AAA41976.1|gb|AAA41976.1|(M27883)pancreatic secretory trypsin inhibitor type II precursor(M27883)pancreatic secretory trypsin inhibitor type II precursor Rattus norvegicus Rattus norvegicus Length=79 Length=79 Score=109 bits(272),Expect=6e-24 Score=109 bits(272),Expect=6e-24 Identities=53/79(67%),Positives=61/79(77%)Identities=53/79(67%),Positives=61/79(77%)Query:1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60Query:1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60 MKV IFLLSALALL+L+GNT A +G+A C N L GC+YDPVCGTDG TY NEC+L MKV IFLLSALALL+L+GNT A +G+A C N L GC+YDPVCGTDG TY NEC+LSbjct:1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL 60Sbjct:1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL 60Query:61 CFENRKRQTSILIQKSGPC 79Query:61 CFENRKRQTSILIQKSGPC 79 CFENRK TSI IQ+G C CFENRK TSI IQ+G CSbjct:61 CFENRKFGTSIRIQRRGLC 79Sbjct:61 CFENRKFGTSIRIQRRGLC 79在殘基在殘基在殘基在殘基-殘基對(duì)比中殘基對(duì)比中殘基對(duì)比中殘基對(duì)比中,某些,某些,某些,某些位置的氨基酸殘基相對(duì)于位置的氨基酸殘基相對(duì)于位置的氨基酸殘基相對(duì)于位置的氨基酸殘基相對(duì)于其它位置的殘基具有較高的保守性,這個(gè)信息揭示其它位置的殘基具有較高的保守性,這個(gè)信息揭示其它位置的殘基具有較高的保守性,這個(gè)信息揭示其它位置的殘基具有較高的保守性,這個(gè)信息揭示了某些殘基對(duì)于一個(gè)蛋白質(zhì)的結(jié)構(gòu)和功能是極為重了某些殘基對(duì)于一個(gè)蛋白質(zhì)的結(jié)構(gòu)和功能是極為重了某些殘基對(duì)于一個(gè)蛋白質(zhì)的結(jié)構(gòu)和功能是極為重了某些殘基對(duì)于一個(gè)蛋白質(zhì)的結(jié)構(gòu)和功能是極為重要的要的要的要的。處于。處于。處于。處于活性位點(diǎn)的殘基都是極為活性位點(diǎn)的殘基都是極為活性位點(diǎn)的殘基都是極為活性位點(diǎn)的殘基都是極為保守的。保守的。保守的。保守的。這些這些這些這些保守的殘基對(duì)于保持蛋白的結(jié)構(gòu)與功能非常重要,保守的殘基對(duì)于保持蛋白的結(jié)構(gòu)與功能非常重要,保守的殘基對(duì)于保持蛋白的結(jié)構(gòu)與功能非常重要,保守的殘基對(duì)于保持蛋白的結(jié)構(gòu)與功能非常重要,另一方面,由于歷史原因,某些保守位置對(duì)蛋白功另一方面,由于歷史原因,某些保守位置對(duì)蛋白功另一方面,由于歷史原因,某些保守位置對(duì)蛋白功另一方面,由于歷史原因,某些保守位置對(duì)蛋白功能并無(wú)太大的重要性。能并無(wú)太大的重要性。能并無(wú)太大的重要性。能并無(wú)太大的重要性。當(dāng)當(dāng)當(dāng)當(dāng)我我我我們們們們處處處處理理理理非非非非常常常常相相相相近近近近的的的的物物物物種種種種時(shí)時(shí)時(shí)時(shí)必必必必須須須須十十十十分分分分小小小小心心心心,因因因因?yàn)闉闉闉橄嘞嘞嘞嗨扑扑扑菩孕孕孕栽谠谠谠谀衬衬衬承┬┬┬┣榍榍榍闆r況況況下下下下更更更更多多多多地地地地是是是是歷歷歷歷史史史史的的的的反反反反映映映映而而而而不不不不是是是是功功功功能能能能的的的的反反反反映映映映,比比比比如如如如,mousemouse和和和和ratrat的的的的某某某某些些些些序序序序列列列列具具具具有有有有高高高高度度度度的的的的相相相相似似似似性性性性,可可可可能能能能僅僅僅僅僅僅僅僅是是是是因因因因?yàn)闉闉闉闆](méi)沒(méi)沒(méi)沒(méi)有有有有足足足足夠夠夠夠的的的的時(shí)時(shí)時(shí)時(shí)間間間間進(jìn)進(jìn)進(jìn)進(jìn)行行行行分分分分化而已化而已化而已化而已。盡管如此,系列對(duì)比仍然是從已知獲得未知的一個(gè)盡管如此,系列對(duì)比仍然是從已知獲得未知的一個(gè)盡管如此,系列對(duì)比仍然是從已知獲得未知的一個(gè)盡管如此,系列對(duì)比仍然是從已知獲得未知的一個(gè)十分有用的方法,比如通過(guò)比較一個(gè)新的蛋白同其十分有用的方法,比如通過(guò)比較一個(gè)新的蛋白同其十分有用的方法,比如通過(guò)比較一個(gè)新的蛋白同其十分有用的方法,比如通過(guò)比較一個(gè)新的蛋白同其它已經(jīng)經(jīng)過(guò)深入研究的蛋白,可以推斷這個(gè)未知蛋它已經(jīng)經(jīng)過(guò)深入研究的蛋白,可以推斷這個(gè)未知蛋它已經(jīng)經(jīng)過(guò)深入研究的蛋白,可以推斷這個(gè)未知蛋它已經(jīng)經(jīng)過(guò)深入研究的蛋白,可以推斷這個(gè)未知蛋白的結(jié)構(gòu)與功能的某些性質(zhì)白的結(jié)構(gòu)與功能的某些性質(zhì)白的結(jié)構(gòu)與功能的某些性質(zhì)白的結(jié)構(gòu)與功能的某些性質(zhì)。例如它們可能是酶的例如它們可能是酶的例如它們可能是酶的例如它們可能是酶的活性位點(diǎn)殘基,形成二硫鍵的半胱氨酸殘基,與配活性位點(diǎn)殘基,形成二硫鍵的半胱氨酸殘基,與配活性位點(diǎn)殘基,形成二硫鍵的半胱氨酸殘基,與配活性位點(diǎn)殘基,形成二硫鍵的半胱氨酸殘基,與配體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成特定結(jié)構(gòu)特定結(jié)構(gòu)特定結(jié)構(gòu)特定結(jié)構(gòu)motifmotif的殘基的殘基的殘基的殘基等。等。等。等。但并不是所有保守的殘基都一定是結(jié)構(gòu)功能重要的,但并不是所有保守的殘基都一定是結(jié)構(gòu)功能重要的,但并不是所有保守的殘基都一定是結(jié)構(gòu)功能重要的,但并不是所有保守的殘基都一定是結(jié)構(gòu)功能重要的,可能它們只是由于歷史的原因被保留下來(lái),而不是可能它們只是由于歷史的原因被保留下來(lái),而不是可能它們只是由于歷史的原因被保留下來(lái),而不是可能它們只是由于歷史的原因被保留下來(lái),而不是由于進(jìn)化壓力而保留下來(lái)。由于進(jìn)化壓力而保留下來(lái)。由于進(jìn)化壓力而保留下來(lái)。由于進(jìn)化壓力而保留下來(lái)。因此,如果兩個(gè)序列有因此,如果兩個(gè)序列有因此,如果兩個(gè)序列有因此,如果兩個(gè)序列有顯著的保守性,要確定二者具有共同的進(jìn)化歷史,顯著的保守性,要確定二者具有共同的進(jìn)化歷史,顯著的保守性,要確定二者具有共同的進(jìn)化歷史,顯著的保守性,要確定二者具有共同的進(jìn)化歷史,進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)和信息的支持。和信息的支持。和信息的支持。和信息的支持。通通通通過(guò)過(guò)過(guò)過(guò)大大大大量量量量實(shí)實(shí)實(shí)實(shí)驗(yàn)驗(yàn)驗(yàn)驗(yàn)和和和和序序序序列列列列對(duì)對(duì)對(duì)對(duì)比比比比的的的的分分分分析析析析,一一一一般般般般認(rèn)認(rèn)認(rèn)認(rèn)為為為為蛋蛋蛋蛋白白白白質(zhì)質(zhì)質(zhì)質(zhì)的的的的結(jié)結(jié)結(jié)結(jié)構(gòu)構(gòu)構(gòu)構(gòu)和和和和功功功功能能能能比比比比序序序序列列列列具具具具有有有有更更更更大大大大的的的的保保保保守守守守性性性性,因因因因此此此此粗粗粗粗略略略略的的的的說(shuō)說(shuō)說(shuō)說(shuō),如如如如果果果果序序序序列列列列之之之之間間間間的的的的相相相相似似似似性性性性超超超超過(guò)過(guò)過(guò)過(guò)30%30%,它它它它們們們們就就就就很很很很可可可可能能能能是是是是同同同同源源源源的的的的。必必必必須須須須指指指指出出出出的的的的是是是是,理理理理論論論論分分分分析析析析只只只只提提提提供供供供了了了了序序序序列列列列進(jìn)進(jìn)進(jìn)進(jìn)化化化化的的的的可可可可能能能能性性性性,不不不不能能能能夠夠夠夠僅僅僅僅僅僅僅僅是是是是通通通通過(guò)過(guò)過(guò)過(guò)比比比比較較較較分分分分析析析析這這這這一一一一判判判判據(jù)據(jù)據(jù)據(jù)來(lái)來(lái)來(lái)來(lái)斷斷斷斷定定定定結(jié)論是否正確,結(jié)論還必須經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證。結(jié)論是否正確,結(jié)論還必須經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證。結(jié)論是否正確,結(jié)論還必須經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證。結(jié)論是否正確,結(jié)論還必須經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證。早期的序列對(duì)比是全局的序列比較,但由于蛋白質(zhì)早期的序列對(duì)比是全局的序列比較,但由于蛋白質(zhì)早期的序列對(duì)比是全局的序列比較,但由于蛋白質(zhì)早期的序列對(duì)比是全局的序列比較,但由于蛋白質(zhì)具有的模塊性質(zhì),可能由于外顯子的交換而產(chǎn)生新具有的模塊性質(zhì),可能由于外顯子的交換而產(chǎn)生新具有的模塊性質(zhì),可能由于外顯子的交換而產(chǎn)生新具有的模塊性質(zhì),可能由于外顯子的交換而產(chǎn)生新蛋白質(zhì),因此局部對(duì)比會(huì)更加合理。通常用打分矩蛋白質(zhì),因此局部對(duì)比會(huì)更加合理。通常用打分矩蛋白質(zhì),因此局部對(duì)比會(huì)更加合理。通常用打分矩蛋白質(zhì),因此局部對(duì)比會(huì)更加合理。通常用打分矩陣描述序列兩兩對(duì)比,兩條序列分別作為矩陣的兩陣描述序列兩兩對(duì)比,兩條序列分別作為矩陣的兩陣描述序列兩兩對(duì)比,兩條序列分別作為矩陣的兩陣描述序列兩兩對(duì)比,兩條序列分別作為矩陣的兩維,矩陣點(diǎn)是兩維上對(duì)應(yīng)兩個(gè)殘基的相似性分?jǐn)?shù),維,矩陣點(diǎn)是兩維上對(duì)應(yīng)兩個(gè)殘基的相似性分?jǐn)?shù),維,矩陣點(diǎn)是兩維上對(duì)應(yīng)兩個(gè)殘基的相似性分?jǐn)?shù),維,矩陣點(diǎn)是兩維上對(duì)應(yīng)兩個(gè)殘基的相似性分?jǐn)?shù),分?jǐn)?shù)越高則說(shuō)明兩個(gè)殘基越相似。分?jǐn)?shù)越高則說(shuō)明兩個(gè)殘基越相似。分?jǐn)?shù)越高則說(shuō)明兩個(gè)殘基越相似。分?jǐn)?shù)越高則說(shuō)明兩個(gè)殘基越相似。序列對(duì)比問(wèn)題變成在矩陣?yán)飳ふ易罴褜?duì)比路徑,目序列對(duì)比問(wèn)題變成在矩陣?yán)飳ふ易罴褜?duì)比路徑,目序列對(duì)比問(wèn)題變成在矩陣?yán)飳ふ易罴褜?duì)比路徑,目序列對(duì)比問(wèn)題變成在矩陣?yán)飳ふ易罴褜?duì)比路徑,目前最有效的方法是前最有效的方法是前最有效的方法是前最有效的方法是Needleman-WunschNeedleman-WunschNeedleman-WunschNeedleman-Wunsch動(dòng)態(tài)規(guī)劃算法,動(dòng)態(tài)規(guī)劃算法,動(dòng)態(tài)規(guī)劃算法,動(dòng)態(tài)規(guī)劃算法,在此基礎(chǔ)上又改良產(chǎn)生了在此基礎(chǔ)上又改良產(chǎn)生了在此基礎(chǔ)上又改良產(chǎn)生了在此基礎(chǔ)上又改良產(chǎn)生了Smith-WatermanSmith-WatermanSmith-WatermanSmith-Waterman算法和算法和算法和算法和SIMSIMSIMSIM算法。在算法。在算法。在算法。在FASTAFASTAFASTAFASTA程序包中可以找到用動(dòng)態(tài)規(guī)劃算法進(jìn)程序包中可以找到用動(dòng)態(tài)規(guī)劃算法進(jìn)程序包中可以找到用動(dòng)態(tài)規(guī)劃算法進(jìn)程序包中可以找到用動(dòng)態(tài)規(guī)劃算法進(jìn)行序列對(duì)比的工具行序列對(duì)比的工具行序列對(duì)比的工具行序列對(duì)比的工具LALIGNLALIGNLALIGNLALIGN,它能給出多個(gè)不相互交,它能給出多個(gè)不相互交,它能給出多個(gè)不相互交,它能給出多個(gè)不相互交叉的最佳對(duì)比結(jié)果。叉的最佳對(duì)比結(jié)果。叉的最佳對(duì)比結(jié)果。叉的最佳對(duì)比結(jié)果。http:/www.ch.embnet.org/sohttp:/www.ch.embnet.org/software/LALIGN_form.htmlftware/LALIGN_form.html在進(jìn)行序列兩兩對(duì)比時(shí),有兩方面問(wèn)題直接影響相在進(jìn)行序列兩兩對(duì)比時(shí),有兩方面問(wèn)題直接影響相在進(jìn)行序列兩兩對(duì)比時(shí),有兩方面問(wèn)題直接影響相在進(jìn)行序列兩兩對(duì)比時(shí),有兩方面問(wèn)題直接影響相似性分值:似性分值:似性分值:似性分值:取代矩陣取代矩陣取代矩陣取代矩陣和和和和空位罰分空位罰分空位罰分空位罰分。粗糙的對(duì)比方法。粗糙的對(duì)比方法。粗糙的對(duì)比方法。粗糙的對(duì)比方法僅僅用相同僅僅用相同僅僅用相同僅僅用相同/不同來(lái)描述兩個(gè)殘基的關(guān)系,顯然這種不同來(lái)描述兩個(gè)殘基的關(guān)系,顯然這種不同來(lái)描述兩個(gè)殘基的關(guān)系,顯然這種不同來(lái)描述兩個(gè)殘基的關(guān)系,顯然這種方法無(wú)法描述殘基取代對(duì)結(jié)構(gòu)和功能的不同影響效方法無(wú)法描述殘基取代對(duì)結(jié)構(gòu)和功能的不同影響效方法無(wú)法描述殘基取代對(duì)結(jié)構(gòu)和功能的不同影響效方法無(wú)法描述殘基取代對(duì)結(jié)構(gòu)和功能的不同影響效果,纈氨酸對(duì)異亮氨酸的取代與谷氨酸對(duì)異亮氨酸果,纈氨酸對(duì)異亮氨酸的取代與谷氨酸對(duì)異亮氨酸果,纈氨酸對(duì)異亮氨酸的取代與谷氨酸對(duì)異亮氨酸果,纈氨酸對(duì)異亮氨酸的取代與谷氨酸對(duì)異亮氨酸的取代應(yīng)該給予不同的打分。的取代應(yīng)該給予不同的打分。的取代應(yīng)該給予不同的打分。的取代應(yīng)該給予不同的打分。因此如果用一個(gè)取代矩陣來(lái)描述氨基酸殘基兩兩取代因此如果用一個(gè)取代矩陣來(lái)描述氨基酸殘基兩兩取代因此如果用一個(gè)取代矩陣來(lái)描述氨基酸殘基兩兩取代因此如果用一個(gè)取代矩陣來(lái)描述氨基酸殘基兩兩取代的分值會(huì)大大提高對(duì)比的敏感性和生物學(xué)意義。雖然的分值會(huì)大大提高對(duì)比的敏感性和生物學(xué)意義。雖然的分值會(huì)大大提高對(duì)比的敏感性和生物學(xué)意義。雖然的分值會(huì)大大提高對(duì)比的敏感性和生物學(xué)意義。雖然針對(duì)不同的研究目標(biāo)和對(duì)象應(yīng)該構(gòu)建適宜的取代矩陣,針對(duì)不同的研究目標(biāo)和對(duì)象應(yīng)該構(gòu)建適宜的取代矩陣,針對(duì)不同的研究目標(biāo)和對(duì)象應(yīng)該構(gòu)建適宜的取代矩陣,針對(duì)不同的研究目標(biāo)和對(duì)象應(yīng)該構(gòu)建適宜的取代矩陣,但國(guó)際上常用的取代矩陣有但國(guó)際上常用的取代矩陣有但國(guó)際上常用的取代矩陣有但國(guó)際上常用的取代矩陣有PAMPAM和和和和BLOSUMBLOSUM等,它們等,它們等,它們等,它們來(lái)源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括來(lái)源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括來(lái)源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括來(lái)源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括PAM250PAM250、BLOSUM62BLOSUM62、BLOSUM90BLOSUM90、BLOSUM30BLOSUM30等。等。等。等??瘴涣P分空位罰分空位罰分空位罰分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影是為了補(bǔ)償插入和缺失對(duì)序列相似性的影是為了補(bǔ)償插入和缺失對(duì)序列相似性的影是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響,由于沒(méi)有什么合適的理論模型能很好地描述空響,由于沒(méi)有什么合適的理論模型能很好地描述空響,由于沒(méi)有什么合適的理論模型能很好地描述空響,由于沒(méi)有什么合適的理論模型能很好地描述空位問(wèn)題,因此空位罰分缺乏理論依據(jù)而更多的帶有位問(wèn)題,因此空位罰分缺乏理論依據(jù)而更多的帶有位問(wèn)題,因此空位罰分缺乏理論依據(jù)而更多的帶有位問(wèn)題,因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特色。一般的處理方法是用兩個(gè)罰分值,一個(gè)主觀特色。一般的處理方法是用兩個(gè)罰分值,一個(gè)主觀特色。一般的處理方法是用兩個(gè)罰分值,一個(gè)主觀特色。一般的處理方法是用兩個(gè)罰分值,一個(gè)對(duì)插入的第一個(gè)空位罰分,如對(duì)插入的第一個(gè)空位罰分,如對(duì)插入的第一個(gè)空位罰分,如對(duì)插入的第一個(gè)空位罰分,如10101515;另一個(gè)對(duì)空;另一個(gè)對(duì)空;另一個(gè)對(duì)空;另一個(gè)對(duì)空位的延伸罰分位的延伸罰分位的延伸罰分位的延伸罰分,對(duì)于,對(duì)于,對(duì)于,對(duì)于具體的對(duì)比問(wèn)題,采用不同的具體的對(duì)比問(wèn)題,采用不同的具體的對(duì)比問(wèn)題,采用不同的具體的對(duì)比問(wèn)題,采用不同的罰分方法會(huì)取得不同的效果。罰分方法會(huì)取得不同的效果。罰分方法會(huì)取得不同的效果。罰分方法會(huì)取得不同的效果。對(duì)于對(duì)比計(jì)算產(chǎn)生的分值,到底多大才能說(shuō)明兩對(duì)于對(duì)比計(jì)算產(chǎn)生的分值,到底多大才能說(shuō)明兩個(gè)序列是同源的,對(duì)此有統(tǒng)計(jì)學(xué)方法加以說(shuō)明,個(gè)序列是同源的,對(duì)此有統(tǒng)計(jì)學(xué)方法加以說(shuō)明,主要的思想是把具有相同長(zhǎng)度的隨機(jī)序列進(jìn)行對(duì)主要的思想是把具有相同長(zhǎng)度的隨機(jī)序列進(jìn)行對(duì)比,把分值與最初的對(duì)比分值相比,看看對(duì)比結(jié)比,把分值與最初的對(duì)比分值相比,看看對(duì)比結(jié)果是否具有顯著性果是否具有顯著性。相關(guān)的參數(shù)相關(guān)的參數(shù)E E代表隨機(jī)對(duì)比分值不低于實(shí)際對(duì)比分值代表隨機(jī)對(duì)比分值不低于實(shí)際對(duì)比分值的概率。對(duì)于嚴(yán)格的對(duì)比,的概率。對(duì)于嚴(yán)格的對(duì)比,E E值必須低于一定閾值才值必須低于一定閾值才能說(shuō)明對(duì)比的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,這樣能說(shuō)明對(duì)比的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生高對(duì)比得分的可能。就排除了由于偶然的因素產(chǎn)生高對(duì)比得分的可能。GenbankGenbankGenbankGenbank、SWISS-PROTSWISS-PROTSWISS-PROTSWISS-PROT等序列數(shù)據(jù)庫(kù)提供的序列搜索等序列數(shù)據(jù)庫(kù)提供的序列搜索等序列數(shù)據(jù)庫(kù)提供的序列搜索等序列數(shù)據(jù)庫(kù)提供的序列搜索服務(wù)都是以序列兩兩對(duì)比為基礎(chǔ)的。不同之處在于服務(wù)都是以序列兩兩對(duì)比為基礎(chǔ)的。不同之處在于服務(wù)都是以序列兩兩對(duì)比為基礎(chǔ)的。不同之處在于服務(wù)都是以序列兩兩對(duì)比為基礎(chǔ)的。不同之處在于為了提高搜索的速度和效率,通常的序列搜索算法為了提高搜索的速度和效率,通常的序列搜索算法為了提高搜索的速度和效率,通常的序列搜索算法為了提高搜索的速度和效率,通常的序列搜索算法都進(jìn)行了一定程度的優(yōu)化,如最常見(jiàn)的都進(jìn)行了一定程度的優(yōu)化,如最常見(jiàn)的都進(jìn)行了一定程度的優(yōu)化,如最常見(jiàn)的都進(jìn)行了一定程度的優(yōu)化,如最常見(jiàn)的FASTAFASTAFASTAFASTA工具和工具和工具和工具和BLASTBLASTBLASTBLAST工具。工具。工具。工具。FASTAFASTA是第一個(gè)被廣泛應(yīng)用的序列對(duì)比和搜索工具包,是第一個(gè)被廣泛應(yīng)用的序列對(duì)比和搜索工具包,是第一個(gè)被廣泛應(yīng)用的序列對(duì)比和搜索工具包,是第一個(gè)被廣泛應(yīng)用的序列對(duì)比和搜索工具包,包含若干個(gè)獨(dú)立的程序。包含若干個(gè)獨(dú)立的程序。包含若干個(gè)獨(dú)立的程序。包含若干個(gè)獨(dú)立的程序。FASTAFASTA為了提高序列搜索的速為了提高序列搜索的速為了提高序列搜索的速為了提高序列搜索的速度,會(huì)先建立序列片段的度,會(huì)先建立序列片段的度,會(huì)先建立序列片段的度,會(huì)先建立序列片段的“字典字典字典字典”,查詢序列先會(huì)在字,查詢序列先會(huì)在字,查詢序列先會(huì)在字,查詢序列先會(huì)在字典里搜索可能的匹配序列,字典中的序列長(zhǎng)度由典里搜索可能的匹配序列,字典中的序列長(zhǎng)度由典里搜索可能的匹配序列,字典中的序列長(zhǎng)度由典里搜索可能的匹配序列,字典中的序列長(zhǎng)度由ktupktup參參參參數(shù)控制,缺省的數(shù)控制,缺省的數(shù)控制,缺省的數(shù)控制,缺省的ktup=2ktup=2。FASTAFASTA的結(jié)果報(bào)告中會(huì)給出的結(jié)果報(bào)告中會(huì)給出的結(jié)果報(bào)告中會(huì)給出的結(jié)果報(bào)告中會(huì)給出每個(gè)搜索到的序列與查詢序列的最佳對(duì)比結(jié)果,以及這每個(gè)搜索到的序列與查詢序列的最佳對(duì)比結(jié)果,以及這每個(gè)搜索到的序列與查詢序列的最佳對(duì)比結(jié)果,以及這每個(gè)搜索到的序列與查詢序列的最佳對(duì)比結(jié)果,以及這個(gè)對(duì)比的統(tǒng)計(jì)學(xué)顯著性評(píng)估個(gè)對(duì)比的統(tǒng)計(jì)學(xué)顯著性評(píng)估個(gè)對(duì)比的統(tǒng)計(jì)學(xué)顯著性評(píng)估個(gè)對(duì)比的統(tǒng)計(jì)學(xué)顯著性評(píng)估E E值。值。值。值。FASTAFASTA工具包可以在工具包可以在工具包可以在工具包可以在大多提供下載服務(wù)的生物信息學(xué)站點(diǎn)上找到。大多提供下載服務(wù)的生物信息學(xué)站點(diǎn)上找到。大多提供下載服務(wù)的生物信息學(xué)站點(diǎn)上找到。大多提供下載服務(wù)的生物信息學(xué)站點(diǎn)上找到。http:/fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtmlBLAST程序簡(jiǎn)介程序簡(jiǎn)介主講教師:趙雨杰主講教師:趙雨杰BLASTBLAST程序簡(jiǎn)介程序簡(jiǎn)介程序簡(jiǎn)介程序簡(jiǎn)介BLASTBLAST是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,相比相比相比相比FASTAFASTA有更多改進(jìn),速度更快,并建立在嚴(yán)格有更多改進(jìn),速度更快,并建立在嚴(yán)格有更多改進(jìn),速度更快,并建立在嚴(yán)格有更多改進(jìn),速度更快,并建立在嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。用戶輸入網(wǎng)址:的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。用戶輸入網(wǎng)址:的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。用戶輸入網(wǎng)址:的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。用戶輸入網(wǎng)址:http:/www.ncbi.nlm.nih.gov/blasthttp:/www.ncbi.nlm.nih.gov/blast就可以進(jìn)入就可以進(jìn)入就可以進(jìn)入就可以進(jìn)入BLASTBLAST網(wǎng)頁(yè)。網(wǎng)頁(yè)。網(wǎng)頁(yè)。網(wǎng)頁(yè)。一、一、一、一、BLASTBLAST搜索主界面搜索主界面搜索主界面搜索主界面1 1、核酸數(shù)據(jù)庫(kù)搜索、核酸數(shù)據(jù)庫(kù)搜索、核酸數(shù)據(jù)庫(kù)搜索、核酸數(shù)據(jù)庫(kù)搜索 l l組合基因組檢索;組合基因組檢索;l l分為標(biāo)準(zhǔn)的核酸與核酸數(shù)據(jù)庫(kù)搜索;分為標(biāo)準(zhǔn)的核酸與核酸數(shù)據(jù)庫(kù)搜索;l lMEGABLASTMEGABLAST提供大量長(zhǎng)序列的比較;提供大量長(zhǎng)序列的比較;l l完全匹配的短序列搜索;完全匹配的短序列搜索;l l特殊搜索。特殊搜索。2 2、蛋白數(shù)據(jù)庫(kù)搜索、蛋白數(shù)據(jù)庫(kù)搜索、蛋白數(shù)據(jù)庫(kù)搜索、蛋白數(shù)據(jù)庫(kù)搜索 分為標(biāo)準(zhǔn)的蛋白與蛋白數(shù)據(jù)庫(kù)搜索;分為標(biāo)準(zhǔn)的蛋白與蛋白數(shù)據(jù)庫(kù)搜索;分為標(biāo)準(zhǔn)的蛋白與蛋白數(shù)據(jù)庫(kù)搜索;分為標(biāo)準(zhǔn)的蛋白與蛋白數(shù)據(jù)庫(kù)搜索;PSI-and PHI-PSI-and PHI-BLASTBLAST,其中,其中,其中,其中PSIPSI用于搜索證實(shí)遠(yuǎn)源進(jìn)化關(guān)系的存在用于搜索證實(shí)遠(yuǎn)源進(jìn)化關(guān)系的存在用于搜索證實(shí)遠(yuǎn)源進(jìn)化關(guān)系的存在用于搜索證實(shí)遠(yuǎn)源進(jìn)化關(guān)系的存在與否和進(jìn)一步獲取這個(gè)蛋白家族中的功能信息,而與否和進(jìn)一步獲取這個(gè)蛋白家族中的功能信息,而與否和進(jìn)一步獲取這個(gè)蛋白家族中的功能信息,而與否和進(jìn)一步獲取這個(gè)蛋白家族中的功能信息,而PHIPHI用于搜索蛋白基序用于搜索蛋白基序用于搜索蛋白基序用于搜索蛋白基序;DELTA-BLASTDELTA-BLAST用于快速用于快速用于快速用于快速結(jié)結(jié)結(jié)結(jié)構(gòu)域搜索;同樣構(gòu)域搜索;同樣構(gòu)域搜索;同樣構(gòu)域搜索;同樣包括蛋白的完全匹配的短序列搜索。包括蛋白的完全匹配的短序列搜索。包括蛋白的完全匹配的短序列搜索。包括蛋白的完全匹配的短序列搜索。3 3、已翻譯蛋白的、已翻譯蛋白的、已翻譯蛋白的、已翻譯蛋白的BLASTBLAST搜索搜索搜索搜索 包括:包括:包括:包括:blastxblastx SearchproteindatabaseusingatranslatednucleotidequerySearchproteindatabaseusingatranslatednucleotidequery tblastntblastn SearchtranslatednucleotidedatabaseusingaproteinSearchtranslatednucleotidedatabaseusingaproteinqueryquerytblastx tblastx SearchtranslatednucleotidedatabaseusingatranslatedSearchtranslatednucleotidedatabaseusingatranslatednucleotidequerynucleotidequery 4 4、保守區(qū)域的搜索:主要使用、保守區(qū)域的搜索:主要使用、保守區(qū)域的搜索:主要使用、保守區(qū)域的搜索:主要使用RPS-BLASTRPS-BLAST程程程程序完成。序完成。序完成。序完成。5 5、配對(duì)序列的兩兩比較:用于核酸和蛋白的兩、配對(duì)序列的兩兩比較:用于核酸和蛋白的兩、配對(duì)序列的兩兩比較:用于核酸和蛋白的兩、配對(duì)序列的兩兩比較:用于核酸和蛋白的兩兩比較分析。兩比較分析。兩比較分析。兩比較分析。6 6、針對(duì)特定數(shù)據(jù)庫(kù)的搜索:比如人類基因組、針對(duì)特定數(shù)據(jù)庫(kù)的搜索:比如人類基因組、針對(duì)特定數(shù)據(jù)庫(kù)的搜索:比如人類基因組、針對(duì)特定數(shù)據(jù)庫(kù)的搜索:比如人類基因組、微生物基因組等。微生物基因組等。微生物基因組等。微生物基因組等。三、三、三、三、BLASTBLAST搜索輸入序列格式:搜索輸入序列格式:搜索輸入序列格式:搜索輸入序列格式:(一)一)一)一)FASTAFASTA格式:格式:格式:格式:FASTAFASTA格式第一行是描述行,格式第一行是描述行,格式第一行是描述行,格式第一行是描述行,第一個(gè)字符必須是第一個(gè)字符必須是第一個(gè)字符必須是第一個(gè)字符必須是”字符;隨后的行是序列本身,字符;隨后的行是序列本身,字符;隨后的行是序列本身,字符;隨后的行是序列本身,一般每行序列不要超過(guò)一般每行序列不要超過(guò)一般每行序列不要超過(guò)一般每行序列不要超過(guò)8080個(gè)字符,各行之間不允許個(gè)字符,各行之間不允許個(gè)字符,各行之間不允許個(gè)字符,各行之間不允許有空行,回車符不會(huì)影響程序?qū)π蛄羞B續(xù)性的看法。有空行,回車符不會(huì)影響程序?qū)π蛄羞B續(xù)性的看法。有空行,回車符不會(huì)影響程序?qū)π蛄羞B續(xù)性的看法。有空行,回車符不會(huì)影響程序?qū)π蛄羞B續(xù)性的看法。序列由標(biāo)準(zhǔn)的序列由標(biāo)準(zhǔn)的序列由標(biāo)準(zhǔn)的序列由標(biāo)準(zhǔn)的IUB/IUPACIUB/IUPAC氨基酸和核酸代碼代表;氨基酸和核酸代碼代表;氨基酸和核酸代碼代表;氨基酸和核酸代碼代表;小寫(xiě)字符會(huì)全部轉(zhuǎn)換成大寫(xiě),序列可由基因庫(kù)中調(diào)小寫(xiě)字符會(huì)全部轉(zhuǎn)換成大寫(xiě),序列可由基因庫(kù)中調(diào)小寫(xiě)字符會(huì)全部轉(zhuǎn)換成大寫(xiě),序列可由基因庫(kù)中調(diào)小寫(xiě)字符會(huì)全部轉(zhuǎn)換成大寫(xiě),序列可由基因庫(kù)中調(diào)出,亦可自行輸入。出,亦可自行輸入。出,亦可自行輸入。出,亦可自行輸入。ll1 1核酸輸入代碼如下核酸輸入代碼如下核酸輸入代碼如下核酸輸入代碼如下:llA-adenosineA-adenosine(腺嘌呤)(腺嘌呤)(腺嘌呤)(腺嘌呤)M-A C(amino)M-A C(amino)氨基的氨基的氨基的氨基的llC-cytidine C-cytidine(胞嘧啶)(胞嘧啶)(胞嘧啶)(胞嘧啶)S-G C(strong)S-G C(strong)強(qiáng)的強(qiáng)的強(qiáng)的強(qiáng)的llG-guanine G-guanine (鳥(niǎo)嘌呤)(鳥(niǎo)嘌呤)(鳥(niǎo)嘌呤)(鳥(niǎo)嘌呤)W-A T(weak)W-A T(weak)弱的弱的弱的弱的 llT-thymidineT-thymidine(胸腺嘧啶)(胸腺嘧啶)(胸腺嘧啶)(胸腺嘧啶)B-G T C B-G T C llU-uridine U-uridine (尿嘧啶)(尿嘧啶)(尿嘧啶)(尿嘧啶)D-G A TD-G A TllR-G A(purine)R-G A(purine)嘌呤嘌呤嘌呤嘌呤 H-A C TH-A C TllY-T C(pyrimidine)Y-T C(pyrimidine)嘧啶嘧啶嘧啶嘧啶 V-G C AV-G C All K-G T(keto)K-G T(keto)酮基的酮基的酮基的酮基的 N-A G C T(any)N-A G C T(any)其中其中其中其中任任任任 何一個(gè)何一個(gè)何一個(gè)何一個(gè)gap of indeterminate length gap of indeterminate length 不明長(zhǎng)度的空位不明長(zhǎng)度的空位不明長(zhǎng)度的空位不明長(zhǎng)度的空位 (二)單純序列數(shù)據(jù)輸入格式:該格式無(wú)(二)單純序列數(shù)據(jù)輸入格式:該格式無(wú)(二)單純序列數(shù)據(jù)輸入格式:該格式無(wú)(二)單純序列數(shù)據(jù)輸入格式:該格式無(wú)FASTAFASTA描述定義行描述定義行描述定義行描述定義行亦可,是亦可,是亦可,是亦可,是GenBank/GenPeptGenBank/GenPept中的單純文本格式。如下:中的單純文本格式。如下:中的單純文本格式。如下:中的單純文本格式。如下:QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP 1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn 61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels 181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp(三)標(biāo)識(shí)符格式:(三)標(biāo)識(shí)符格式:(三)標(biāo)識(shí)符格式:(三)標(biāo)識(shí)符格式:通常只輸入通常只輸入通常只輸入通常只輸入NCBINCBI存取號(hào)、存取號(hào)版號(hào)或基因庫(kù)中的存取號(hào)、存取號(hào)版號(hào)或基因庫(kù)中的存取號(hào)、存取號(hào)版號(hào)或基因庫(kù)中的存取號(hào)、存取號(hào)版號(hào)或基因庫(kù)中的標(biāo)識(shí)符號(hào),如標(biāo)識(shí)符號(hào),如標(biāo)識(shí)符號(hào),如標(biāo)識(shí)符號(hào),如p01013,AAA68881.1,129295p01013,AAA68881.1,129295。亦可有。亦可有。亦可有。亦可有NCBINCBI中帶有分隔豎線的序列中帶有分隔豎線的序列中帶有分隔豎線的序列中帶有分隔豎線的序列標(biāo)識(shí)符。標(biāo)識(shí)符。標(biāo)識(shí)符。標(biāo)識(shí)符。相似性分析相似性分析相似性分析相似性分析待待待待檢檢檢檢核核核核酸酸酸酸序序序序列列列列或或或或蛋蛋蛋蛋白白白白序序序序列列列列與與與與整整整整個(gè)個(gè)個(gè)個(gè)現(xiàn)現(xiàn)現(xiàn)現(xiàn)有有有有核核核核酸酸酸酸序序序序列列列列數(shù)數(shù)數(shù)數(shù)據(jù)據(jù)據(jù)據(jù)庫(kù)或蛋白序列數(shù)據(jù)庫(kù)中庫(kù)或蛋白序列數(shù)據(jù)庫(kù)中庫(kù)或蛋白序列數(shù)據(jù)庫(kù)中庫(kù)或蛋白序列數(shù)據(jù)庫(kù)中的序列的序列的序列的序列進(jìn)行比對(duì)。進(jìn)行比對(duì)。進(jìn)行比對(duì)。進(jìn)行比對(duì)。E-cadherinE-cadherinBLAST程序程序主講教師:趙雨杰主講教師:趙雨杰核酸序列的兩兩比較核酸序列的兩兩比較核酸序列的兩兩比較核酸序列的兩兩比較 l l在在BLASTBLAST主主頁(yè)頁(yè)中中選選Pairwise Pairwise BLASTBLAST中中的的BLAST BLAST 2 2 SequencesSequences,進(jìn)進(jìn)入入兩兩兩兩比比較較界界面面,在在程程序序中中選選blastnblastn,分分別別輸輸入入兩兩個(gè)個(gè)基基因因的的標(biāo)標(biāo)識(shí)識(shí)符符或或FASTAFASTA格格式式的的序序列列,可可進(jìn)進(jìn)一一步步限限定定條條件件,然然后后點(diǎn)點(diǎn)擊擊AlignAlign按按紐紐即即可可提交,等待結(jié)果。提交,等待結(jié)果。三、蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)三、蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)三、蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)三、蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)蛋白質(zhì)兩兩比較蛋白質(zhì)兩兩比較蛋白質(zhì)兩兩比較蛋白質(zhì)兩兩比較1 1蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)比較:蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)比較:蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)比較:蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)比較:選選選選Protein BLASTProtein BLAST中中中中的的的的 Protein-Protein Protein-Protein BLASTblastpBLASTblastp與蛋白質(zhì)數(shù)據(jù)庫(kù)比較,輸入方法基本與蛋白質(zhì)數(shù)據(jù)庫(kù)比較,輸入方法基本與蛋白質(zhì)數(shù)據(jù)庫(kù)比較,輸入方法基本與蛋白質(zhì)數(shù)據(jù)庫(kù)比較,輸入方法基本與核酸比較相同,存取號(hào)或序列內(nèi)容必須是與核酸比較相同,存取號(hào)或序列內(nèi)容必須是與核酸比較相同,存取號(hào)或序列內(nèi)容必須是與核酸比較相同,存取號(hào)或序列內(nèi)容必須是蛋白質(zhì)的蛋白質(zhì)的蛋白質(zhì)的蛋白質(zhì)的。2 2蛋蛋蛋蛋白白白白質(zhì)質(zhì)質(zhì)質(zhì)的的的的兩兩兩兩兩兩兩兩比比比比較較較較:在在在在Pairwise Pairwise BLASTBLAST中中中中的的的的BLAST BLAST 2 2 SequencesSequences程程程程序序序序中中中中進(jìn)進(jìn)進(jìn)進(jìn)行行行行,在在在在程程程程序序序序中中中中選選選選blastpblastp,序序序序 列列列列 輸輸輸輸 入入入入 格格格格 式式式式 同同同同 上上上上。進(jìn)進(jìn)進(jìn)進(jìn) 一一一一 步步步步 點(diǎn)點(diǎn)點(diǎn)點(diǎn) 擊擊擊擊 Formatting Formatting OptionsOptions可可可可看詳細(xì)結(jié)果。看詳細(xì)結(jié)果??丛敿?xì)結(jié)果??丛敿?xì)結(jié)果。四、輸出結(jié)果的解釋四、輸出結(jié)果的解釋四、輸出結(jié)果的解釋四、輸出結(jié)果的解釋1 1結(jié)果總覽圖:通用于蛋白質(zhì)和核酸的結(jié)果表示。結(jié)果總覽圖:通用于蛋白質(zhì)和核酸的結(jié)果表示。結(jié)果總覽圖:通用于蛋白質(zhì)和核酸的結(jié)果表示。結(jié)果總覽圖:通用于蛋白質(zhì)和核酸的結(jié)果表示。圖中列了紅、粉、綠、藍(lán)、黑五種顏色,圖中列了紅、粉、綠、藍(lán)、黑五種顏色,圖中列了紅、粉、綠、藍(lán)、黑五種顏色,圖中列了紅、粉、綠、藍(lán)、黑五種顏色,紅色相似性紅色相似性紅色相似性紅色相似性性性性性最高,排在最上面,其它各種最高,排在最上面,其它各種最高,排在最上面,其它各種最高,排在最上面,其它各種顏色相似性逐漸顏色相似性逐漸顏色相似性逐漸顏色相似性逐漸降低;降低;降低;降低;各種顏色同源性逐漸降低;每條圖代表搜索各種顏色同源性逐漸降低;每條圖代表搜索各種顏色同源性逐漸降低;每條圖代表搜索各種顏色同源性逐漸降低;每條圖代表搜索蛋白質(zhì)或蛋白質(zhì)或蛋白質(zhì)或蛋白質(zhì)或核酸匹配核酸匹配核酸匹配核酸匹配的序列;如果出現(xiàn)陰影區(qū),其對(duì)應(yīng)的是二個(gè)的序列;如果出現(xiàn)陰影區(qū),其對(duì)應(yīng)的是二個(gè)的序列;如果出現(xiàn)陰影區(qū),其對(duì)應(yīng)的是二個(gè)的序列;如果出現(xiàn)陰影區(qū),其對(duì)應(yīng)的是二個(gè)或多個(gè)搜索數(shù)據(jù)庫(kù)相似序列中的非相似區(qū);鼠標(biāo)指在或多個(gè)搜索數(shù)據(jù)庫(kù)相似序列中的非相似區(qū);鼠標(biāo)指在或多個(gè)搜索數(shù)據(jù)庫(kù)相似序列中的非相似區(qū);鼠標(biāo)指在或多個(gè)搜索數(shù)據(jù)庫(kù)相似序列中的非相似區(qū);鼠標(biāo)指在哪條圖上,圖上面的框中會(huì)顯示匹配蛋白質(zhì)或核酸的哪條圖上,圖上面的框中會(huì)顯示匹配蛋白質(zhì)或核酸的哪條圖上,圖上面的框中會(huì)顯示匹配蛋白質(zhì)或核酸的哪條圖上,圖上面的框中會(huì)顯示匹配蛋白質(zhì)或核酸的名字;同一條圖內(nèi)的分離部分對(duì)應(yīng)于無(wú)關(guān)的采樣數(shù)。名字;同一條圖內(nèi)的分離部分對(duì)應(yīng)于無(wú)關(guān)的采樣數(shù)。名字;同一條圖內(nèi)的分離部分對(duì)應(yīng)于無(wú)關(guān)的采樣數(shù)。名字;同一條圖內(nèi)的分離部分對(duì)應(yīng)于無(wú)關(guān)的采樣數(shù)。2 2顯著性序列列表顯著性序列列表顯著性序列列表顯著性序列列表:最:最:最:最有顯著性(同源性最高)的有顯著性(同源性最高)的有顯著性(同源性最高)的有顯著性(同源性最高)的行排在最上面,其行排在最上面,其行排在最上面,其行排在最上面,其E E值最低,排列行按值最低,排列行按值最低,排列行按值最低,排列行按E E值增加排序;值增加排序;值增加排序;值增加排序;每行四部分描述內(nèi)容:每行四部分描述內(nèi)容:每行四部分描述內(nèi)容:每行四部分描述內(nèi)容:數(shù)據(jù)序列標(biāo)識(shí)符,數(shù)據(jù)序列標(biāo)識(shí)符,數(shù)據(jù)序列標(biāo)識(shí)符,數(shù)據(jù)序列標(biāo)識(shí)符,對(duì)該對(duì)該對(duì)該對(duì)該序列的簡(jiǎn)單描述,序列的簡(jiǎn)單描述,序列的簡(jiǎn)單描述,序列的簡(jiǎn)單描述,在每個(gè)數(shù)據(jù)庫(kù)中搜索得到的分在每個(gè)數(shù)據(jù)庫(kù)中搜索得到的分在每個(gè)數(shù)據(jù)庫(kù)中搜索得到的分在每個(gè)數(shù)據(jù)庫(kù)中搜索得到的分?jǐn)?shù)數(shù)數(shù)數(shù)E E值;點(diǎn)擊序列標(biāo)識(shí)符可以連接到值;點(diǎn)擊序列標(biāo)識(shí)符可以連接到值;點(diǎn)擊序列標(biāo)識(shí)符可以連接到值;點(diǎn)擊序列標(biāo)識(shí)符可以連接到GenBankGenBank;點(diǎn);點(diǎn);點(diǎn);點(diǎn)擊分?jǐn)?shù)可連接到對(duì)應(yīng)的相互比較的序列行。擊分?jǐn)?shù)可連接到對(duì)應(yīng)的相互比較的序列行。擊分?jǐn)?shù)可連接到對(duì)應(yīng)的相互比較的序列行。擊分?jǐn)?shù)可連接到對(duì)應(yīng)的相互比較的序列行。3 3行列比較:因申請(qǐng)者提交的要求行列可有不同的輸行列比較:因申請(qǐng)者提交的要求行列可有不同的輸行列比較:因申請(qǐng)者提交的要求行列可有不同的輸行列比較:因申請(qǐng)者提交的要求行列可有不同的輸出形式,系統(tǒng)默認(rèn)的是配對(duì)行列輸出格式,即查詢序列出形式,系統(tǒng)默認(rèn)的是配對(duì)行列輸出格式,即查詢序列出形式,系統(tǒng)默認(rèn)的是配對(duì)行列輸出格式,即查詢序列出形式,系統(tǒng)默認(rèn)的是配對(duì)行列輸出格式,即查詢序列與數(shù)據(jù)庫(kù)中匹配的序列垂直對(duì)應(yīng)。針對(duì)蛋白質(zhì)查詢而言,與數(shù)據(jù)庫(kù)中匹配的序列垂直對(duì)應(yīng)。針對(duì)蛋白質(zhì)查詢而言,與數(shù)據(jù)庫(kù)中匹配的序列垂直對(duì)應(yīng)。針對(duì)蛋白質(zhì)查詢而言,與數(shù)據(jù)庫(kù)中匹配的序列垂直對(duì)應(yīng)。針對(duì)蛋白質(zhì)查詢而言,相同的殘基排在二序列之間,用相同的殘基排在二序列之間,用相同的殘基排在二序列之間,用相同的殘基排在二序列之間,用“+”+”表示保守性殘基;表示保守性殘基;表示保守性殘基;表示保守性殘基;針對(duì)針對(duì)針對(duì)針對(duì)DNADNA而言,垂直線連接相同的堿基??瘴徊糠执矶?,垂直線連接相同的堿基。空位部分代表而言,垂直線連接相同的堿基??瘴徊糠执矶裕怪本€連接相同的堿基??瘴徊糠执聿樵冃蛄信c檢索匹配序列不一致。由于過(guò)濾作用,在低查詢序列與檢索匹配序列不一致。由于過(guò)濾作用,在低查詢序列與檢索匹配序列不一致。由于過(guò)濾作用,在低查詢序列與檢索匹配序列不一致。由于過(guò)濾作用,在低復(fù)雜區(qū)氨基酸查詢序列可以包含復(fù)雜區(qū)氨基酸查詢序列可以包含復(fù)雜區(qū)氨基酸查詢序列可以包含復(fù)雜區(qū)氨基酸查詢序列可以包含XsXs(核苷酸包含(核苷酸包含(核苷酸包含(核苷酸包含NsNs)。)。)。)。HPSsHPSs中可列出每個(gè)檢索數(shù)據(jù)庫(kù)中的多個(gè)行列。中可列出每個(gè)檢索數(shù)據(jù)庫(kù)中的多個(gè)行列。中可列出每個(gè)檢索數(shù)據(jù)庫(kù)中的多個(gè)行列。中可列出每個(gè)檢索數(shù)據(jù)庫(kù)中的多個(gè)行列。相關(guān)的參數(shù)相關(guān)的參數(shù)相關(guān)的參數(shù)相關(guān)的參數(shù)E E值代表隨機(jī)比較分值不低于實(shí)際比較值代表隨機(jī)比較分值不低于實(shí)際比較值代表隨機(jī)比較分值不低于實(shí)際比較值代表隨機(jī)比較分值不低于實(shí)際比較分值的概率。對(duì)于嚴(yán)格的比較,必須分值的概率。對(duì)于嚴(yán)格的比較,必須分值的概率。對(duì)于嚴(yán)格的比較,必須分值的概率。對(duì)于嚴(yán)格的比較,必須E E值低于一定值低于一定值低于一定值低于一定閾值才能說(shuō)明比較的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,閾值才能說(shuō)明比較的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,閾值才能說(shuō)明比較的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,閾值才能說(shuō)明比較的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生高比較得分的可這樣就排除了由于偶然的因素產(chǎn)生高比較得分的可這樣就排除了由于偶然的因素產(chǎn)生高比較得分的可這樣就排除了由于偶然的因素產(chǎn)生高比較得分的可能。具體界定值在搜索設(shè)置中界定,系統(tǒng)默認(rèn)為能。具體界定值在搜索設(shè)置中界定,系統(tǒng)默認(rèn)為能。具體界定值在搜索設(shè)置中界定,系統(tǒng)默認(rèn)為能。具體界定值在搜索設(shè)置中界定,系統(tǒng)默認(rèn)為1010,搜索的嚴(yán)謹(jǐn)度越高,搜索的嚴(yán)謹(jǐn)度越高,搜索的嚴(yán)謹(jǐn)度越高,搜索的嚴(yán)謹(jǐn)度越高,E E值越小值越小值越小值越小。若要比較短序列,獲得更多的信息,則可增加若要比較短序列,獲得更多的信息,則可增加若要比較短序列,獲得更多的信息,則可增加若要比較短序列,獲得更多的信息,則可增加E E值值值值到到到到10001000或更高;或降低字符大?。ɑ蚋?;或降低字符大?。ɑ蚋?;或降低字符大?。ɑ蚋撸换蚪档妥址笮。╓W),經(jīng)驗(yàn)之法),經(jīng)驗(yàn)之法),經(jīng)驗(yàn)之法),經(jīng)驗(yàn)之法是查詢序列至少是是查詢序列至少是是查詢序列至少是是查詢序列至少是WW的二倍;或禁止過(guò)濾功能的使的二倍;或禁止過(guò)濾功能的使的二倍;或禁止過(guò)濾功能的使的二倍;或禁止過(guò)濾功能的使用;或改變矩陣以優(yōu)化搜索序列。用;或改變矩陣以優(yōu)化搜索序列。用;或改變矩陣以優(yōu)化搜索序列。用;或改變矩陣以優(yōu)化搜索序列。PSI-BLAST程序簡(jiǎn)介程序簡(jiǎn)介主講教師:趙雨杰主講教師:趙雨杰PSI-BLASTPSI-BLAST程序簡(jiǎn)介程序簡(jiǎn)介程序簡(jiǎn)介程序簡(jiǎn)介PSI-BLASTPSI-BLAST的特色是每次用的特色是每次用的特色是每次用的特色是每次用profileprofile搜索數(shù)據(jù)庫(kù)后再利搜索數(shù)據(jù)庫(kù)后再利搜索數(shù)據(jù)庫(kù)后再利搜索數(shù)據(jù)庫(kù)后再利用搜索的結(jié)果重新構(gòu)建用搜索的結(jié)果重新構(gòu)建用搜索的結(jié)果重新構(gòu)建用搜索的結(jié)果重新構(gòu)建profileprofile,然后用新的,然后用新的,然后用新的,然后用新的profileprofile再再再再次搜索數(shù)據(jù)庫(kù),如此反復(fù)直至沒(méi)有新的結(jié)果產(chǎn)生為止。次搜索數(shù)據(jù)庫(kù),如此反復(fù)直至沒(méi)有新的結(jié)果產(chǎn)生為止。次搜索數(shù)據(jù)庫(kù),如此反復(fù)直至沒(méi)有新的結(jié)果產(chǎn)生為止。次搜索數(shù)據(jù)庫(kù),如此反復(fù)直至沒(méi)有新的結(jié)果產(chǎn)生為止。PSI-BLASTPSI-BLAST先用帶空位的先用帶空位的先用帶空位的先用帶空位的BLASTBLAST搜索數(shù)據(jù)庫(kù),將獲搜索數(shù)據(jù)庫(kù),將獲搜索數(shù)據(jù)庫(kù),將獲搜索數(shù)據(jù)庫(kù),將獲得的序列通過(guò)多序列比較來(lái)構(gòu)建第一個(gè)得的序列通過(guò)多序列比較來(lái)構(gòu)建第一個(gè)得的序列通過(guò)多序列比較來(lái)構(gòu)建第一個(gè)得的序列通過(guò)多序列比較來(lái)構(gòu)建第一個(gè)profileprofile。PSI-PSI-BLASTBLAST自然地拓展了自然地拓展了自然地拓展了自然地拓展了BLASTBLAST方法,能尋找蛋白質(zhì)序方法,能尋找蛋白質(zhì)序方法,能尋找蛋白質(zhì)序方法,能尋找蛋白質(zhì)序列中的隱含模式,有研究表明這種方法可以有效的找列中的隱含模式,有研究表明這種方法可以有效的找列中的隱含模式,有研究表明這種方法可以有效的找列中的隱含模式,有研究表明這種方法可以有效的找到很多序列差異較大而結(jié)構(gòu)功能相似的相關(guān)到很多序列差異較大而結(jié)構(gòu)功能相似的相關(guān)到很多序列差異較大而結(jié)構(gòu)功
收藏
編號(hào):73982957
類型:共享資源
大小:115.48MB
格式:ZIP
上傳時(shí)間:2022-04-12
35
積分
- 關(guān) 鍵 詞:
-
生物信息學(xué)
本科教學(xué)課件
生物
信息學(xué)
本科
教學(xué)
課件
- 資源描述:
-
生物信息學(xué)本科教學(xué)課件,生物信息學(xué),本科教學(xué)課件,生物,信息學(xué),本科,教學(xué),課件
展開(kāi)閱讀全文
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學(xué)習(xí)交流,未經(jīng)上傳用戶書(shū)面授權(quán),請(qǐng)勿作他用。