生物信息學(xué)本科教學(xué)課件
生物信息學(xué)本科教學(xué)課件,生物信息學(xué),本科教學(xué)課件,生物,信息學(xué),本科,教學(xué),課件
核酸序列的分析方法核酸序列的分析方法主講教師:趙雨杰主講教師:趙雨杰當(dāng)我們得到一個(gè)當(dāng)我們得到一個(gè)DNADNA序列時(shí),我們往往需要對(duì)該片段序列時(shí),我們往往需要對(duì)該片段進(jìn)行分析,確定它的功能區(qū)域、尋找調(diào)控區(qū)域、啟進(jìn)行分析,確定它的功能區(qū)域、尋找調(diào)控區(qū)域、啟動(dòng)子區(qū)域、編碼區(qū)域、預(yù)測其編碼蛋白,才是我們動(dòng)子區(qū)域、編碼區(qū)域、預(yù)測其編碼蛋白,才是我們研究研究DNADNA序列的目的。這需要對(duì)序列的目的。這需要對(duì)DNADNA功能模式進(jìn)行檢功能模式進(jìn)行檢測,單靠多個(gè)序列的比較不能完成上述任務(wù)。測,單靠多個(gè)序列的比較不能完成上述任務(wù)。就象人類的語言有多種表達(dá)形式,但每種語言都有一定就象人類的語言有多種表達(dá)形式,但每種語言都有一定的語法一樣,序列上基因的排布方式也有自己獨(dú)的語法一樣,序列上基因的排布方式也有自己獨(dú)特的規(guī)律,我們不妨稱之為基因語法。例如,啟動(dòng)子中特的規(guī)律,我們不妨稱之為基因語法。例如,啟動(dòng)子中的的TATATATA框、大多數(shù)內(nèi)含子都以框、大多數(shù)內(nèi)含子都以T T為為起始,末端為起始,末端為等,利用這些基因語法,人們設(shè)計(jì)了等,利用這些基因語法,人們設(shè)計(jì)了一些程序用于對(duì)一段未知序列上的基因進(jìn)行預(yù)測。一些程序用于對(duì)一段未知序列上的基因進(jìn)行預(yù)測。這些程序的基本步驟是:先尋找出整個(gè)這些程序的基本步驟是:先尋找出整個(gè)DNADNA序列上重序列上重復(fù)的和低復(fù)雜性的序列并把它們遮蔽起來,以利于復(fù)的和低復(fù)雜性的序列并把它們遮蔽起來,以利于進(jìn)行進(jìn)一步分析,再尋找基因以及與其相關(guān)的調(diào)控進(jìn)行進(jìn)一步分析,再尋找基因以及與其相關(guān)的調(diào)控區(qū)域區(qū)域。目前。目前網(wǎng)上提供了許多免費(fèi)和商用的分析工具,網(wǎng)上提供了許多免費(fèi)和商用的分析工具,用戶使用時(shí)要注意:這些工具雖很實(shí)用,但絕非完用戶使用時(shí)要注意:這些工具雖很實(shí)用,但絕非完全可靠。全可靠。當(dāng)前許多分析軟件開發(fā)者對(duì)功能域原型的描述來自當(dāng)前許多分析軟件開發(fā)者對(duì)功能域原型的描述來自DDBJ/EMBL/GenBankDDBJ/EMBL/GenBank等國際序列數(shù)據(jù)庫中對(duì)相應(yīng)功能等國際序列數(shù)據(jù)庫中對(duì)相應(yīng)功能域的描述,而這些數(shù)據(jù)庫中的描述本身的某些部分卻域的描述,而這些數(shù)據(jù)庫中的描述本身的某些部分卻來源于序列的分析應(yīng)用軟件的預(yù)測結(jié)果。所以,建議來源于序列的分析應(yīng)用軟件的預(yù)測結(jié)果。所以,建議用戶有必要將序列提呈給多個(gè)不同的軟件包加以分析,用戶有必要將序列提呈給多個(gè)不同的軟件包加以分析,以利用最佳的計(jì)算機(jī)技術(shù),得到較滿意的結(jié)果。以利用最佳的計(jì)算機(jī)技術(shù),得到較滿意的結(jié)果。真核基因編碼蛋白質(zhì)基因的結(jié)構(gòu)真核基因編碼蛋白質(zhì)基因的結(jié)構(gòu)DNADNA序列功能位點(diǎn)序列功能位點(diǎn)計(jì)算機(jī)進(jìn)行編碼基因識(shí)別時(shí)所需解決的問題計(jì)算機(jī)進(jìn)行編碼基因識(shí)別時(shí)所需解決的問題 一個(gè)全面的編碼基因搜索方案,無論是通過單個(gè)集一個(gè)全面的編碼基因搜索方案,無論是通過單個(gè)集成的程序?qū)崿F(xiàn),還是通過多個(gè)程序分步實(shí)現(xiàn),基本成的程序?qū)崿F(xiàn),還是通過多個(gè)程序分步實(shí)現(xiàn),基本的思路是相同的:的思路是相同的:1 1、通通常常如如果果一一個(gè)個(gè)序序列列中中某某一一區(qū)區(qū)域域出出現(xiàn)現(xiàn)重重復(fù)復(fù)序序列列,該該區(qū)域不大可能處于調(diào)控區(qū)域和編碼區(qū)域。區(qū)域不大可能處于調(diào)控區(qū)域和編碼區(qū)域。2 2、如果某一片段與其它基因或基因產(chǎn)物有序列相似、如果某一片段與其它基因或基因產(chǎn)物有序列相似性,該片段是外顯子的可能性極大。性,該片段是外顯子的可能性極大。3 3、一一段段序序列列上上存存在在著著統(tǒng)統(tǒng)計(jì)計(jì)的的規(guī)規(guī)則則性性,表表現(xiàn)現(xiàn)為為顯顯著著的的“密碼子偏好密碼子偏好”,是蛋白編碼區(qū)最明顯的標(biāo)志之一。,是蛋白編碼區(qū)最明顯的標(biāo)志之一。4 4、與模板模式相符可能指出、與模板模式相符可能指出DNADNA上功能性位點(diǎn)的位置。上功能性位點(diǎn)的位置。這類分析可以基于很簡單的模式(例如,眾所周知的這類分析可以基于很簡單的模式(例如,眾所周知的“TATA box”TATA box”和剪接點(diǎn)的保守序列)或基于相當(dāng)復(fù)雜和剪接點(diǎn)的保守序列)或基于相當(dāng)復(fù)雜的推理(例如,在后面將提到的啟動(dòng)子搜尋算法中)。的推理(例如,在后面將提到的啟動(dòng)子搜尋算法中)。在進(jìn)行編碼基因搜索時(shí)的基本步驟:在進(jìn)行編碼基因搜索時(shí)的基本步驟:1 1、尋找、尋找DNADNA序列中基因不可能出現(xiàn)的區(qū)域,并將此序列中基因不可能出現(xiàn)的區(qū)域,并將此遮蔽起來。遮蔽起來。2 2、在啟動(dòng)子區(qū)尋找一致的模式,找出轉(zhuǎn)錄因子識(shí)別、在啟動(dòng)子區(qū)尋找一致的模式,找出轉(zhuǎn)錄因子識(shí)別DNADNA結(jié)合區(qū)域。結(jié)合區(qū)域。3 3、尋找轉(zhuǎn)錄的起始密碼、終止密碼和剪切位點(diǎn)。、尋找轉(zhuǎn)錄的起始密碼、終止密碼和剪切位點(diǎn)。4 4、找出編碼區(qū)。然后將全部收集到的信息匯總整理、找出編碼區(qū)。然后將全部收集到的信息匯總整理成總體上盡可能連貫的譜圖。成總體上盡可能連貫的譜圖。核酸序列預(yù)測應(yīng)用軟件的開發(fā)者在編輯軟件時(shí),不核酸序列預(yù)測應(yīng)用軟件的開發(fā)者在編輯軟件時(shí),不少采用了神經(jīng)網(wǎng)絡(luò)系統(tǒng)和對(duì)密碼子偏好的檢測,對(duì)少采用了神經(jīng)網(wǎng)絡(luò)系統(tǒng)和對(duì)密碼子偏好的檢測,對(duì)這些概念的了解,有助于我們了解軟件的性質(zhì),以這些概念的了解,有助于我們了解軟件的性質(zhì),以便更好的應(yīng)用。便更好的應(yīng)用。進(jìn)行進(jìn)行不同的分析不同的分析時(shí)使用時(shí)使用不同的不同的軟件工具。注意:程軟件工具。注意:程序序適用的物種選擇和應(yīng)用范圍等。適用的物種選擇和應(yīng)用范圍等。神經(jīng)網(wǎng)絡(luò)系統(tǒng)神經(jīng)網(wǎng)絡(luò)系統(tǒng) 大多數(shù)計(jì)算程序都沿著固有的順序盲目地執(zhí)行命令,大多數(shù)計(jì)算程序都沿著固有的順序盲目地執(zhí)行命令,神經(jīng)網(wǎng)絡(luò)系統(tǒng)賦予計(jì)算過程神經(jīng)網(wǎng)絡(luò)系統(tǒng)賦予計(jì)算過程“學(xué)習(xí)學(xué)習(xí)”的能力以模仿的能力以模仿人類的學(xué)習(xí)。每個(gè)神經(jīng)網(wǎng)絡(luò)都包含一個(gè)輸入層和一人類的學(xué)習(xí)。每個(gè)神經(jīng)網(wǎng)絡(luò)都包含一個(gè)輸入層和一個(gè)輸出層。在輸入層和輸出層之間有若干個(gè)隱含層。個(gè)輸出層。在輸入層和輸出層之間有若干個(gè)隱含層。神經(jīng)網(wǎng)絡(luò)在應(yīng)用之前必須經(jīng)過一個(gè)學(xué)習(xí)過程。神經(jīng)網(wǎng)絡(luò)在應(yīng)用之前必須經(jīng)過一個(gè)學(xué)習(xí)過程。軟件學(xué)習(xí)過程即軟件學(xué)習(xí)過程即向網(wǎng)絡(luò)輸入一組訓(xùn)練數(shù)據(jù)集,一般向網(wǎng)絡(luò)輸入一組訓(xùn)練數(shù)據(jù)集,一般情況下包括已知結(jié)構(gòu)的序列及其相應(yīng)結(jié)構(gòu)。網(wǎng)絡(luò)通情況下包括已知結(jié)構(gòu)的序列及其相應(yīng)結(jié)構(gòu)。網(wǎng)絡(luò)通過加工這些信息,尋找序列在特定的上下文關(guān)系中過加工這些信息,尋找序列在特定的上下文關(guān)系中所能形成的結(jié)構(gòu)之間的微弱聯(lián)系。經(jīng)過訓(xùn)練后的神所能形成的結(jié)構(gòu)之間的微弱聯(lián)系。經(jīng)過訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)系統(tǒng)就能用來進(jìn)行查詢序列的預(yù)測。經(jīng)網(wǎng)絡(luò)系統(tǒng)就能用來進(jìn)行查詢序列的預(yù)測。密碼子偏好密碼子偏好 遺傳密碼具有簡并性,編碼蛋白質(zhì)的基因有偏好使遺傳密碼具有簡并性,編碼蛋白質(zhì)的基因有偏好使用某一密碼的傾向,稱之為密碼子偏好,這使編碼用某一密碼的傾向,稱之為密碼子偏好,這使編碼蛋白質(zhì)的基因具有編碼區(qū)規(guī)律性。編碼測度蛋白質(zhì)的基因具有編碼區(qū)規(guī)律性。編碼測度(coding measure)coding measure)就是用來總結(jié)計(jì)算這一規(guī)律性的就是用來總結(jié)計(jì)算這一規(guī)律性的方法。一般把計(jì)算結(jié)果用一個(gè)數(shù)或一個(gè)數(shù)列表示,方法。一般把計(jì)算結(jié)果用一個(gè)數(shù)或一個(gè)數(shù)列表示,如將密碼子出現(xiàn)頻率簡單列表就是編碼測度的一種。如將密碼子出現(xiàn)頻率簡單列表就是編碼測度的一種。編碼測度常用的方法 雙密碼子記數(shù)方法:兩個(gè)相同密碼子連在一起稱為密碼子對(duì),雙密碼子記數(shù)是統(tǒng)計(jì)密碼子對(duì)的出現(xiàn)頻率。直接周期性度量:同一核苷酸在相同距離重復(fù)出現(xiàn),成為周期,直接周期性度量是對(duì)此周期進(jìn)行統(tǒng)計(jì)。均一性對(duì)復(fù)雜性的測量:相同核苷酸聚集在一起的區(qū)域稱為同聚區(qū),該方法主要統(tǒng)計(jì)同聚區(qū)數(shù)。很多對(duì)蛋白編碼區(qū)的檢測方法把一個(gè)或幾個(gè)編碼測很多對(duì)蛋白編碼區(qū)的檢測方法把一個(gè)或幾個(gè)編碼測度方法組合起來運(yùn)用,組成一個(gè)判別式。根據(jù)判別度方法組合起來運(yùn)用,組成一個(gè)判別式。根據(jù)判別式得出一個(gè)較低分辨率的編碼區(qū)邊界的圖譜。編碼式得出一個(gè)較低分辨率的編碼區(qū)邊界的圖譜。編碼測度有測度有物種屬性物種屬性,在使用時(shí)應(yīng)注意。,在使用時(shí)應(yīng)注意。遮蔽重復(fù)序列遮蔽重復(fù)序列主講教師:趙雨杰主講教師:趙雨杰在原核、真核中都有重復(fù)出現(xiàn)的核苷酸序列,在原核、真核中都有重復(fù)出現(xiàn)的核苷酸序列,但在真核更普遍。重復(fù)序列有種屬特異性,基因組但在真核更普遍。重復(fù)序列有種屬特異性,基因組越大、重復(fù)序列含量愈豐富。雖然某些重復(fù)序列與越大、重復(fù)序列含量愈豐富。雖然某些重復(fù)序列與生物進(jìn)化有關(guān),有些重復(fù)序列可能發(fā)生在調(diào)控區(qū),生物進(jìn)化有關(guān),有些重復(fù)序列可能發(fā)生在調(diào)控區(qū),但在對(duì)核酸序列進(jìn)行基因預(yù)測的過程中,特別是在但在對(duì)核酸序列進(jìn)行基因預(yù)測的過程中,特別是在數(shù)據(jù)庫搜索中數(shù)據(jù)庫搜索中,重復(fù)序列常常會(huì)攪亂其它分析重復(fù)序列常常會(huì)攪亂其它分析 。在進(jìn)行任何真核生物序列的基因辨識(shí)分析之前在進(jìn)行任何真核生物序列的基因辨識(shí)分析之前,最好最好把散布和簡單的重復(fù)序列找出來并從序列中除去。把散布和簡單的重復(fù)序列找出來并從序列中除去。雖然這些重復(fù)序列可能正好覆蓋了由雖然這些重復(fù)序列可能正好覆蓋了由RNARNA聚合酶聚合酶轉(zhuǎn)轉(zhuǎn)錄的部分區(qū)域,但它們幾乎不會(huì)覆蓋啟動(dòng)子和外顯錄的部分區(qū)域,但它們幾乎不會(huì)覆蓋啟動(dòng)子和外顯子編碼區(qū)。這些重復(fù)序列的定位能為其它基因特征子編碼區(qū)。這些重復(fù)序列的定位能為其它基因特征的定位提供重要的反面信息。的定位提供重要的反面信息。大多用戶只是偶爾分析一個(gè)所得序列,不需要對(duì)大大多用戶只是偶爾分析一個(gè)所得序列,不需要對(duì)大量的序列進(jìn)行分析預(yù)測,對(duì)于重復(fù)序列的分析用電量的序列進(jìn)行分析預(yù)測,對(duì)于重復(fù)序列的分析用電子郵件或子郵件或WebWeb網(wǎng)頁的服務(wù)器就可以完成。目前有許多網(wǎng)頁的服務(wù)器就可以完成。目前有許多在線服務(wù)器,如在線服務(wù)器,如CENSORCENSOR(JurkaJurka等,等,19961996)與)與RepeatMaskerRepeatMasker(SmithSmith,19961996)就是這種能提供標(biāo)識(shí))就是這種能提供標(biāo)識(shí)和遮蔽分散和簡單重復(fù)序列的服務(wù)器。和遮蔽分散和簡單重復(fù)序列的服務(wù)器。CENSORCENSOR可以通過登陸可以通過登陸CENSORCENSOR網(wǎng)頁網(wǎng)頁(http:/www.girinst.org/censor/index.phphttp:/www.girinst.org/censor/index.php)進(jìn)入進(jìn)入CENSORCENSOR軟件使用頁面。軟件使用頁面。CENSORCENSOR可以接受可以接受遮蔽許多真核生物如:真菌、人類遮蔽許多真核生物如:真菌、人類、嚙齒動(dòng)物、魚類和嚙齒動(dòng)物、魚類和植物植物的重復(fù)序列的重復(fù)序列。CENSORCENSOR使用起使用起來非常簡單,查詢序列,選擇序列來源,如果缺省,來非常簡單,查詢序列,選擇序列來源,如果缺省,服務(wù)器就按人類的序列進(jìn)行計(jì)算,服務(wù)器就按人類的序列進(jìn)行計(jì)算,按按“Submit Submit SequenceSequence”完成完成查詢。查詢。以以HUMCKMM1HUMCKMM1為例運(yùn)行為例運(yùn)行CENSORCENSOR得到的輸出結(jié)果得到的輸出結(jié)果 gi|180579|gb|M21487.1|HUMCKMM1 Human muscle creatine kinase gene(CKMM),5 flank gi|180579|gb|M21487.1|HUMCKMM1 Human muscle creatine kinase gene(CKMM),5 flank GGATCCTTCCTCCTTGGCCTCCCAAAGTGCTGGGATTACAGGTGTGAGCCACTGCACCTGGCCTATTACC GGATCCTTCCTCCTTGGCCTCCCAAAGTGCTGGGATTACAGGTGTGAGCCACTGCACCTGGCCTATTACC CTTCTCAGGCTCTGGAGTCCATCCTTCTGCTCTGTCTCCCTCAGTTCAATTGTTTTTTGTTTTTTGTTTT CTTCTCAGGCTCTGGAGTCCATCCTTCTGCTCTGTCTCCCTCAGTTCAATTGTTTTTTGTTTTTTGTTTT TTTTTTAGACACAGTCTCGCTCTGTCACCAAGGCTGGAGTGCAGCAGTGCGATCACAGCTCACCGCAGCC TCACCTCCCAGGCTCAAGTGATCCTCCCATCTCGGCCTCTGAGTAGCTGAGACTATAGGTGTGTCCACAT TTTTTTAGACACAGTCTCGCTCTGTCACCAAGGCTGGAGTGCAGCAGTGCGATCACAGCTCACCGCAGCC TCACCTCCCAGGCTCAAGTGATCCTCCCATCTCGGCCTCTGAGTAGCTGAGACTATAGGTGTGTCCACAT GTCCGGCTAATTTTTGTATTTTTAGTAGAGACAGGGTTTCACCGCGTTGGCCAGGGTGGTCTTGAACTCC TGAGCTCAAGCAATCCTCCTGCCTCAGCCTCCTTGTTTTGATTTTTAGATCCCACAAATAACTTGTGATG GTCCGGCTAATTTTTGTATTTTTAGTAGAGACAGGGTTTCACCGCGTTGGCCAGGGTGGTCTTGAACTCC TGAGCTCAAGCAATCCTCCTGCCTCAGCCTCCTTGTTTTGATTTTTAGATCCCACAAATAACTTGTGATG TTTGTCTTTCTATACCTGGTTCATTTAACATTTTCTTTTTCTTTTCTTTTCTTTTTTTTTTTTTTTGTGA GACTGAGTCTTGCTCTGTCACTCAGGCTGGAGGGCAATGGTGCATCTCAGCTCACTGCAACCTCCACCTC TTTGTCTTTCTATACCTGGTTCATTTAACATTTTCTTTTTCTTTTCTTTTCTTTTTTTTTTTTTTTGTGA GACTGAGTCTTGCTCTGTCACTCAGGCTGGAGGGCAATGGTGCATCTCAGCTCACTGCAACCTCCACCTC CTAGGTTCAAGCAATTCTTATGCCTCAGCCTCCTGGCTAGCTGGGATTACAGGCGTGTGTCACCATGCCA GGCTAATTTTTGTACTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTTGAACTCCTGGC CTAGGTTCAAGCAATTCTTATGCCTCAGCCTCCTGGCTAGCTGGGATTACAGGCGTGTGTCACCATGCCA GGCTAATTTTTGTACTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTTGAACTCCTGGC CTCAAGTGATCCACCCGCCTCCGCCTCTGCCTCCCAAAGTGCTGGGATTACGGGCCTGAGCCACTGTGCC CGGCCCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCAT CTCAAGTGATCCACCCGCCTCCGCCTCTGCCTCCCAAAGTGCTGGGATTACGGGCCTGAGCCACTGTGCC CGGCCCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCAT GGGTCTGCTCCTGTCTCCCCTCCAACCTCATCTTCTTCCTCCCACTCTCTCCTTGGCCCCATCTGCTCCA GTCCCCTGGCCTCCTTCCTGTCTGTCCTCAGATGTGCCCAGCCATTCTCACCTCAGCGCCTTTGCACCTG GGGTCTGCTCCTGTCTCCCCTCCAACCTCATCTTCTTCCTCCCACTCTCTCCTTGGCCCCATCTGCTCCA GTCCCCTGGCCTCCTTCCTGTCTGTCCTCAGATGTGCCCAGCCATTCTCACCTCAGCGCCTTTGCACCTG CTGTTCCCCCCAGAGCCGCACATGGCTGGCTCCCTGTTCTCCTTCAGGTCTCTGCTCAGATGTCATCTTC CCAAAGAGGCCTGCCTCGACCTCCCCTGCTGCTGTGCCGTCCCCTCATCTGTGACCCTCTTGCACTATCA CTGTTCCCCCCAGAGCCGCACATGGCTGGCTCCCTGTTCTCCTTCAGGTCTCTGCTCAGATGTCATCTTC CCAAAGAGGCCTGCCTCGACCTCCCCTGCTGCTGTGCCGTCCCCTCATCTGTGACCCTCTTGCACTATCA CCTCCAGGACGGCGGGGGTTTTGTGTTTTGTTGTAGCCTCAGGAAGTGCCTGATAGATCCCTGTTTCGAG ACCAGTTCCATTTGGTTTTCTGGGCCTCAGTTTCCGTAACCGTGAAGGAGACCCTCGGCAATCTGAGCTT CCTCCAGGACGGCGGGGGTTTTGTGTTTTGTTGTAGCCTCAGGAAGTGCCTGATAGATCCCTGTTTCGAG ACCAGTTCCATTTGGTTTTCTGGGCCTCAGTTTCCGTAACCGTGAAGGAGACCCTCGGCAATCTGAGCTT GCTGGGAAAGGGCTGGGCCCCATGTAAATATTTCTAAAGCACCCCTCTCCCCTCCCCCCTCAGATCAGGA GTCTGAGGGAGAGGCACAGAGGCTCCCTTTCTCTAAGCCAGTCCTCACCTGCCTAAGAAGATGTGAAGGA GCTGGGAAAGGGCTGGGCCCCATGTAAATATTTCTAAAGCACCCCTCTCCCCTCCCCCCTCAGATCAGGA GTCTGAGGGAGAGGCACAGAGGCTCCCTTTCTCTAAGCCAGTCCTCACCTGCCTAAGAAGATGTGAAGGA GACCCAGGAGACCCTGGGATAGGGAGGAACTCAGAGGGAAGGGACATTCTTTTCTTCGTCGCAATCCTGG GAGCTCCCTGGAGGAGGAGACCCGATCAGCCTGCAATCCTGGCGCGTCCCAGGAGGAGAAAGCGGCTTCC GACCCAGGAGACCCTGGGATAGGGAGGAACTCAGAGGGAAGGGACATTCTTTTCTTCGTCGCAATCCTGG GAGCTCCCTGGAGGAGGAGACCCGATCAGCCTGCAATCCTGGCGCGTCCCAGGAGGAGAAAGCGGCTTCC TCTATACTGTACTCTCCTCCACAGAACCCCCCTCTCAGCCCTGGAAGTCCTTGCTCACAGCCGAGGCGCC GAGAGCGCTTGCTCTGCCCAGATCTCGGCGAGTCTGCGCCCGCGCTCTGAACGGCGTCGCTGCCCAGCCC TCTATACTGTACTCTCCTCCACAGAACCCCCCTCTCAGCCCTGGAAGTCCTTGCTCACAGCCGAGGCGCC GAGAGCGCTTGCTCTGCCCAGATCTCGGCGAGTCTGCGCCCGCGCTCTGAACGGCGTCGCTGCCCAGCCC CCTTCCCCGGGAGGTGGGAGCGGCCACCCAGGGCCCCGTGGCTGCCCTTGTAAGGAGGCGAGGCCGAGGA CACCCGAGACGCCCGGTTATAATTAACCAGGACACGTGGCGAACCCCCCTCCAACACCTGCCCCCGAACC CCTTCCCCGGGAGGTGGGAGCGGCCACCCAGGGCCCCGTGGCTGCCCTTGTAAGGAGGCGAGGCCGAGGA CACCCGAGACGCCCGGTTATAATTAACCAGGACACGTGGCGAACCCCCCTCCAACACCTGCCCCCGAACC CCCCCATACCCAGCGCCTCGGGTCTCGGCCTTTGCGGCAGAGGAGACAGCAAAGCGCCCTCTAAAAATAA CTCCTTTCCCGGCGACCGAGACCCTCCCTGTCCCCGCACAGCGAAATCTCCCAGTGGCACCGAGGGGGCG CCCCCATACCCAGCGCCTCGGGTCTCGGCCTTTGCGGCAGAGGAGACAGCAAAGCGCCCTCTAAAAATAA CTCCTTTCCCGGCGACCGAGACCCTCCCTGTCCCCGCACAGCGAAATCTCCCAGTGGCACCGAGGGGGCG AGGGTTAAGTGGGGGGGAGGGTGACCACCGCCTCCCACCCTTGCCCTGAGTTTGAATCTCTCCAACTCAG CCAGCCTCAGTTTCCCCTCCACTCAGTCCCTAGGAGGAAGGGGCGCCCAAGCGGGTTTCTGGGGTTAGAC AGGGTTAAGTGGGGGGGAGGGTGACCACCGCCTCCCACCCTTGCCCTGAGTTTGAATCTCTCCAACTCAG CCAGCCTCAGTTTCCCCTCCACTCAGTCCCTAGGAGGAAGGGGCGCCCAAGCGGGTTTCTGGGGTTAGAC TGCCCTCCATTGCAATTGGTCCTTCTCCCGGCCTCTGCTTCCTCCAGCTCACAGGGTATCTGCTCCTCCT GGAGCCACACCTTGGTTCCCCGAGGTGCCGCTGGGACTCGGGTAGGGGTGAGGGCCCAGGGGCGACAGGG TGCCCTCCATTGCAATTGGTCCTTCTCCCGGCCTCTGCTTCCTCCAGCTCACAGGGTATCTGCTCCTCCT GGAGCCACACCTTGGTTCCCCGAGGTGCCGCTGGGACTCGGGTAGGGGTGAGGGCCCAGGGGCGACAGGG GGAGCCGAGGGCCACAGGAAGGGCTGGTGGCTGAAGGAGACTCAGGGGCCAGGGGACGGTGGCTTCTACG TGCTTGGGACGTTCCCAGCCACCGTCCCATGTTCCCGGCGGGGGCCAGCTGTCCCCACCGCCAGCCCAAC GGAGCCGAGGGCCACAGGAAGGGCTGGTGGCTGAAGGAGACTCAGGGGCCAGGGGACGGTGGCTTCTACG TGCTTGGGACGTTCCCAGCCACCGTCCCATGTTCCCGGCGGGGGCCAGCTGTCCCCACCGCCAGCCCAAC TCAGCACTTGGTTAGGGTATCAGCTTGGTGGGGGCGTGAGCCCAGCCCTGGGGCGCTCAGCCCATACAAG GCCATGGGGCTGGGCGCAAAGCATGCCTGGGTTCAGGGTGGGTATGGTGCCGGAGCAGGGAGGTGAGAGG TCAGCACTTGGTTAGGGTATCAGCTTGGTGGGGGCGTGAGCCCAGCCCTGGGGCGCTCAGCCCATACAAG GCCATGGGGCTGGGCGCAAAGCATGCCTGGGTTCAGGGTGGGTATGGTGCCGGAGCAGGGAGGTGAGAGG CTCAGCTGCCCTCCAGAACTCCTCCCTGGGGACAACCCCTCCCAGCCAATAGCACAGCCTAGGTCCCCCT ATATAAGGCCACGGCTGCTGGCCCTTCCTTTGGGTCAGTGTCACCTCCAGGATACAGACAGCCCCCCTTC CTCAGCTGCCCTCCAGAACTCCTCCCTGGGGACAACCCCTCCCAGCCAATAGCACAGCCTAGGTCCCCCT ATATAAGGCCACGGCTGCTGGCCCTTCCTTTGGGTCAGTGTCACCTCCAGGATACAGACAGCCCCCCTTC AGCCCAGCCCAGCCAGGTACTGCACGGGGCGGGAATCTGGGTGGGGGCCAGAGTAGGGGATTTCTGTGGG TGCTAGAGGCTTGGCTTGGGAAAGGGTCTGTGTGTCACCCCTTGCTCCACCAACATCCTCCTATACAAAG AGCCCAGCCCAGCCAGGTACTGCACGGGGCGGGAATCTGGGTGGGGGCCAGAGTAGGGGATTTCTGTGGG TGCTAGAGGCTTGGCTTGGGAAAGGGTCTGTGTGTCACCCCTTGCTCCACCAACATCCTCCTATACAAAG GCAGGTCGGTGCGTGGGAAGGTTGACCCTTGTGTGTCTGGGAGGCCCCTCCATCTGTGAGGCTGCCTGAA CCCCCACTGGGACCTGTGATTTCTGCGGCACAG GCAGGTCGGTGCGTGGGAAGGTTGACCCTTGTGTGTCTGGGAGGCCCCTCCATCTGTGAGGCTGCCTGAA CCCCCACTGGGACCTGTGATTTCTGCGGCACAG REPEATMASKER WEB SERVERREPEATMASKER WEB SERVER在線重復(fù)序列遮蔽工具,用戶可以登陸在線重復(fù)序列遮蔽工具,用戶可以登陸(http:/www.repeatmasker.orghttp:/www.repeatmasker.org/)在線應(yīng)用,)在線應(yīng)用,注意:在使用注意:在使用REPATMASKER WEB SERVERREPATMASKER WEB SERVER時(shí),輸入序時(shí),輸入序 列要采用列要采用FASTAFASTA格式,否則不予以受理。格式,否則不予以受理。如果要對(duì)大量序列進(jìn)行分析,就有必要在本地安裝分析軟件,如果要對(duì)大量序列進(jìn)行分析,就有必要在本地安裝分析軟件,本地分析也大大增強(qiáng)了保密性。從因特網(wǎng)上可以得到本地分析也大大增強(qiáng)了保密性。從因特網(wǎng)上可以得到XBLASTXBLAST(ClaverieClaverie,19961996)(ftp:/ftp.x.org/contrib/games/xblast-ftp:/ftp.x.org/contrib/games/xblast-2.6.sound.tar.gz2.6.sound.tar.gz)(不要與(不要與BLASTXBLASTX混淆)的源程序。許多重復(fù)序列能從由混淆)的源程序。許多重復(fù)序列能從由J.JukaJ.Juka收集的收集的RepbaseRepbase中得到。中得到。DNA翻譯翻譯主講教師:趙雨杰主講教師:趙雨杰在進(jìn)行在進(jìn)行DNADNA序列的研究中,把序列的研究中,把DNADNA(或(或RNARNA)按所有可)按所有可能的閱讀框(能的閱讀框(+1+1、+2+2、+3+3、-1-1、-2-2、-3-3)翻譯成可)翻譯成可能的蛋白質(zhì)序列、再對(duì)得到的候選蛋白序列做進(jìn)一能的蛋白質(zhì)序列、再對(duì)得到的候選蛋白序列做進(jìn)一步分析,對(duì)步分析,對(duì)DNADNA序列上基因的辯識(shí)很有幫助。序列上基因的辯識(shí)很有幫助。因特網(wǎng)上提供了一些免費(fèi)翻譯工具,因特網(wǎng)上提供了一些免費(fèi)翻譯工具,DNA-DNA-proteinprotein(http:/cn.expasy.org/http:/cn.expasy.org/)就是其一。這)就是其一。這些應(yīng)用程序先尋找出所有可能的翻譯蛋白,然后再些應(yīng)用程序先尋找出所有可能的翻譯蛋白,然后再到數(shù)據(jù)庫對(duì)候選蛋白進(jìn)行列隊(duì)比較,找出可能性較到數(shù)據(jù)庫對(duì)候選蛋白進(jìn)行列隊(duì)比較,找出可能性較大的蛋白序列。由于列隊(duì)比較中存在重復(fù)序列的干大的蛋白序列。由于列隊(duì)比較中存在重復(fù)序列的干擾,所以建議在進(jìn)行擾,所以建議在進(jìn)行DNA-DNA-蛋白翻譯之前最好先遮蔽蛋白翻譯之前最好先遮蔽重復(fù)序列。重復(fù)序列。Translate toolTranslate tool是是ExPASyExPASy上提供的翻譯工具。用戶可以直接登上提供的翻譯工具。用戶可以直接登陸其陸其WebWeb(http:/www.expasy.org/tools/dna.htmlhttp:/www.expasy.org/tools/dna.html)頁面,)頁面,在輸入框中輸入查詢序列即可。最后給出在輸入框中輸入查詢序列即可。最后給出6 6種閱讀框的翻譯結(jié)種閱讀框的翻譯結(jié)果。下面是以果。下面是以Homo sapiens phenylethanolamine N-Homo sapiens phenylethanolamine N-methyltransferase(PNMT),transcript variant 1,mRNAmethyltransferase(PNMT),transcript variant 1,mRNA為為例進(jìn)行翻譯,其中一個(gè)閱讀框輸出的結(jié)果。例進(jìn)行翻譯,其中一個(gè)閱讀框輸出的結(jié)果。要想該閱讀框輸出的詳細(xì)結(jié)果,用戶可以點(diǎn)擊輸出要想該閱讀框輸出的詳細(xì)結(jié)果,用戶可以點(diǎn)擊輸出蛋白序列上的蛋氨酸或蛋白序列上的蛋氨酸或“stop”stop”后面的氨基酸,就后面的氨基酸,就會(huì)出現(xiàn)會(huì)出現(xiàn)SWISSSPROTSWISSSPROT上已有的相應(yīng)的蛋白及相關(guān)信息,上已有的相應(yīng)的蛋白及相關(guān)信息,用戶可以將這些蛋白相互比較,選出合適的結(jié)果。用戶可以將這些蛋白相互比較,選出合適的結(jié)果。待分析核酸序列的數(shù)據(jù)庫搜索待分析核酸序列的數(shù)據(jù)庫搜索主講教師:趙雨杰主講教師:趙雨杰遮蔽重復(fù)序列后,對(duì)所查詢的序列進(jìn)行下一步分析遮蔽重復(fù)序列后,對(duì)所查詢的序列進(jìn)行下一步分析的最簡單和實(shí)用的方法就是進(jìn)行數(shù)據(jù)庫搜索,找出的最簡單和實(shí)用的方法就是進(jìn)行數(shù)據(jù)庫搜索,找出是否有相同或相似基因。數(shù)據(jù)庫中相似基因搜索是是否有相同或相似基因。數(shù)據(jù)庫中相似基因搜索是應(yīng)用最廣泛的編碼蛋白基因的辯識(shí)方法,目前完整應(yīng)用最廣泛的編碼蛋白基因的辯識(shí)方法,目前完整的基因搜索服務(wù)正把數(shù)據(jù)庫搜索包含進(jìn)來作為分析的基因搜索服務(wù)正把數(shù)據(jù)庫搜索包含進(jìn)來作為分析的一部分,但在某些情況下用戶需要自己完成。的一部分,但在某些情況下用戶需要自己完成。對(duì)對(duì) 于于 一一 段段 mRNAmRNA、cDNAcDNA序序 列列,用用 戶戶 可可 使使 用用“DNA-DNA-PROTAIN”PROTAIN”應(yīng)應(yīng)用用程程序序,以以六六種種可可能能的的閱閱讀讀框框翻翻譯譯成成蛋蛋白白質(zhì)質(zhì),并并把把結(jié)結(jié)果果作作為為查查詢詢序序列列進(jìn)進(jìn)行行蛋蛋白白質(zhì)質(zhì)同同源源性性比比較較和和進(jìn)進(jìn)行行各各種種功功能能性性數(shù)數(shù)據(jù)據(jù)庫庫的的搜搜索索。數(shù)數(shù)據(jù)據(jù)庫庫搜搜索索對(duì)對(duì)我我們們了了解解查查詢詢序序列列很很有有幫幫助助,如如果果找找到到一一個(gè)個(gè)已已知知的的同同源源序序列列,不不僅僅就就此此序序列列上上可可能能存存在在的的基基因因有有所所了了解解,而而且且還還可可以應(yīng)用軟件預(yù)測查詢序列中可能的外顯子。以應(yīng)用軟件預(yù)測查詢序列中可能的外顯子。尋找同源產(chǎn)物時(shí)應(yīng)注意:新發(fā)現(xiàn)的蛋白大約只有一尋找同源產(chǎn)物時(shí)應(yīng)注意:新發(fā)現(xiàn)的蛋白大約只有一半能在已有數(shù)據(jù)庫中找到同源蛋白。蛋白序列中表半能在已有數(shù)據(jù)庫中找到同源蛋白。蛋白序列中表現(xiàn)高度同源性的部分(現(xiàn)高度同源性的部分(ACRACR)都已被發(fā)現(xiàn),并能在當(dāng))都已被發(fā)現(xiàn),并能在當(dāng)前數(shù)據(jù)庫中找到,新發(fā)現(xiàn)的基因中的前數(shù)據(jù)庫中找到,新發(fā)現(xiàn)的基因中的20%-50%20%-50%包含一包含一個(gè)數(shù)據(jù)庫中已有描述的個(gè)數(shù)據(jù)庫中已有描述的ACRACR,低表達(dá)的基因比中等或,低表達(dá)的基因比中等或高度表達(dá)的基因包含高度表達(dá)的基因包含ACRACR序列的可能性更小。序列的可能性更小。探測探測DNADNA中的功能性位點(diǎn)中的功能性位點(diǎn) 主講教師:趙雨杰主講教師:趙雨杰在對(duì)查詢序列進(jìn)行完重復(fù)序列的遮蔽和數(shù)據(jù)庫搜在對(duì)查詢序列進(jìn)行完重復(fù)序列的遮蔽和數(shù)據(jù)庫搜索后,識(shí)別索后,識(shí)別DNADNA序列上可能的功能位點(diǎn),例如轉(zhuǎn)錄序列上可能的功能位點(diǎn),例如轉(zhuǎn)錄因子結(jié)合位點(diǎn)與內(nèi)含子因子結(jié)合位點(diǎn)與內(nèi)含子-外顯子的接頭位點(diǎn),對(duì)基外顯子的接頭位點(diǎn),對(duì)基因識(shí)別的進(jìn)一步推進(jìn)有很大的幫助,并可以提高因識(shí)別的進(jìn)一步推進(jìn)有很大的幫助,并可以提高預(yù)測的精度。預(yù)測的精度。一般歸納出這些位點(diǎn)位置的方法是找到所謂的保守一般歸納出這些位點(diǎn)位置的方法是找到所謂的保守序列,再從找到的所有可能的位點(diǎn)中判別真正的位序列,再從找到的所有可能的位點(diǎn)中判別真正的位點(diǎn)。許多計(jì)算工具、采用位置點(diǎn)。許多計(jì)算工具、采用位置權(quán)重算法(權(quán)重算法(PWMPWM)等較)等較為復(fù)雜的判別技術(shù)對(duì)識(shí)別的功能性位點(diǎn)進(jìn)行判別,為復(fù)雜的判別技術(shù)對(duì)識(shí)別的功能性位點(diǎn)進(jìn)行判別,以增大預(yù)測精度。以增大預(yù)測精度。啟動(dòng)子啟動(dòng)子要在一個(gè)要在一個(gè)DNADNA序列上準(zhǔn)確找出一組外顯子,尋找啟動(dòng)序列上準(zhǔn)確找出一組外顯子,尋找啟動(dòng)子是非常必要的。啟動(dòng)子是子是非常必要的。啟動(dòng)子是DNADNA分子可以與分子可以與RNARNA聚合酶聚合酶特異結(jié)合的部位,也就是使轉(zhuǎn)錄開始的部位。在基因特異結(jié)合的部位,也就是使轉(zhuǎn)錄開始的部位。在基因表達(dá)的調(diào)控中,轉(zhuǎn)錄的起始是個(gè)關(guān)鍵。常常某個(gè)基因表達(dá)的調(diào)控中,轉(zhuǎn)錄的起始是個(gè)關(guān)鍵。常常某個(gè)基因是否應(yīng)當(dāng)表達(dá)決定于在特定的啟動(dòng)子起始過程。是否應(yīng)當(dāng)表達(dá)決定于在特定的啟動(dòng)子起始過程。啟動(dòng)子一般可分為兩類啟動(dòng)子一般可分為兩類:(1)(1)一類是一類是RNARNA聚合酶可以直接識(shí)別的啟動(dòng)子。聚合酶可以直接識(shí)別的啟動(dòng)子。(2)(2)另一類啟動(dòng)子在和聚合酶結(jié)合時(shí)需要有蛋白質(zhì)另一類啟動(dòng)子在和聚合酶結(jié)合時(shí)需要有蛋白質(zhì)輔助因子的存在。這種蛋白質(zhì)因子能夠識(shí)別與該啟輔助因子的存在。這種蛋白質(zhì)因子能夠識(shí)別與該啟動(dòng)子順序相鄰或甚至重疊的動(dòng)子順序相鄰或甚至重疊的DNADNA順序。順序。啟動(dòng)子處的核苷酸順序具有特異的形狀,大多數(shù)啟啟動(dòng)子處的核苷酸順序具有特異的形狀,大多數(shù)啟動(dòng)子均有共同順序動(dòng)子均有共同順序(consensus sequence)(consensus sequence),-35-35區(qū)區(qū)“AATGTGTGGAAT”TATAAATGTGTGGAAT”TATA盒,盒,-70-80bp-70-80bp“GCCTCAATCT”CAAT“GCCTCAATCT”CAAT盒(真核生物),盒(真核生物),-10-10區(qū)區(qū)“TTGACATATATT”PribnowTTGACATATATT”Pribnow盒盒(原核生物原核生物)。不少啟。不少啟動(dòng)子計(jì)算程序通過尋找這些啟動(dòng)子特殊的結(jié)構(gòu)和啟動(dòng)子計(jì)算程序通過尋找這些啟動(dòng)子特殊的結(jié)構(gòu)和啟動(dòng)子和轉(zhuǎn)錄因子結(jié)合的特性來識(shí)別啟動(dòng)子。動(dòng)子和轉(zhuǎn)錄因子結(jié)合的特性來識(shí)別啟動(dòng)子。WebGene WebGene 上的上的HCtata:Hamming-Clustering Method HCtata:Hamming-Clustering Method for TATA Signal Prediction in Eukaryotic for TATA Signal Prediction in Eukaryotic Genes(hhttp:/r.it/webgene/)Genes(hhttp:/r.it/webgene/)提供了提供了TATA boxTATA box尋找服務(wù),該程序先采用了數(shù)字網(wǎng)絡(luò)系統(tǒng)尋找服務(wù),該程序先采用了數(shù)字網(wǎng)絡(luò)系統(tǒng)找到可能的找到可能的TATA boxTATA box,然后再用神經(jīng)網(wǎng)絡(luò)系統(tǒng)作出,然后再用神經(jīng)網(wǎng)絡(luò)系統(tǒng)作出最后判斷。最后判斷。軟件作者軟件作者使用了真核啟動(dòng)子數(shù)據(jù)庫中(使用了真核啟動(dòng)子數(shù)據(jù)庫中(EPDEPD)12521252個(gè)個(gè)條目作為訓(xùn)練集,并輸入一系列的真核植物基因來?xiàng)l目作為訓(xùn)練集,并輸入一系列的真核植物基因來驗(yàn)證預(yù)測的準(zhǔn)確性。用戶可以登陸其網(wǎng)頁完成啟動(dòng)驗(yàn)證預(yù)測的準(zhǔn)確性。用戶可以登陸其網(wǎng)頁完成啟動(dòng)子子預(yù)測。以預(yù)測。以人類磷酸丙酮酸水合酶基因序列人類磷酸丙酮酸水合酶基因序列(X56832X56832)為查詢序列用)為查詢序列用HCtataHCtata進(jìn)行進(jìn)行預(yù)測。預(yù)測。內(nèi)含子剪接位點(diǎn)內(nèi)含子剪接位點(diǎn)RNARNA的的剪剪接接就就是是要要把把斷斷裂裂基基因因的的轉(zhuǎn)轉(zhuǎn)錄錄本本中中的的內(nèi)內(nèi)含含子子除除去去。剪剪接接連連接接點(diǎn)點(diǎn)(splicing(splicing junctions)junctions)是是指指在在切切斷斷和和重重接接位位點(diǎn)點(diǎn)處處的的兩兩旁旁的的順順序序。在在內(nèi)內(nèi)含含子子左左側(cè)側(cè)的的連連接接點(diǎn)點(diǎn)稱稱為為供供體體(donor)(donor),在在內(nèi)內(nèi)含含子子右右側(cè)側(cè)的的稱稱為為受受體體(acceptor)(acceptor)。在在細(xì)細(xì)胞胞核核的的結(jié)結(jié)構(gòu)構(gòu)基基因因(即即編編碼碼多多肽肽的的基基因因)中中的的所所有有內(nèi)內(nèi)含含子子在在外外顯顯子子-內(nèi)內(nèi)含含子子連連接接處處均均有有GTGT.AG.AG的的共共同同順順序序。較較詳詳細(xì)細(xì)的的共共同同順順序序如如下下,供供體體位位點(diǎn)點(diǎn)受受體體位位點(diǎn)點(diǎn):外外顯顯子子.AGGTAAGT.AGGTAAGT.內(nèi)內(nèi)含含子子.Py10CAG.Py10CAG.外外顯顯子子箭頭表示切斷的鍵。這些還是較短的共同順序,存在箭頭表示切斷的鍵。這些還是較短的共同順序,存在于幾乎所有的真核生物中。于幾乎所有的真核生物中。由于存在多種剪接機(jī)制,以及調(diào)控下的交替剪接,已有的程序中由于存在多種剪接機(jī)制,以及調(diào)控下的交替剪接,已有的程序中預(yù)測精度也有待提高。一些復(fù)合基因預(yù)測程序中包含剪接位點(diǎn)的預(yù)測精度也有待提高。一些復(fù)合基因預(yù)測程序中包含剪接位點(diǎn)的預(yù)測。另外預(yù)測。另外WebGeneWebGene上提供專門的剪接位點(diǎn)預(yù)測服務(wù),用戶可通上提供專門的剪接位點(diǎn)預(yù)測服務(wù),用戶可通過過WebGeneWebGene首頁首頁 (http:/r.it/webgene/http:/r.it/webgene/)登陸)登陸或直接登陸或直接登陸SpliceviewSpliceview(http:/r.it/webgene/wwwspliceview.htmlhttp:/r.it/webgene/wwwspliceview.html)輸出結(jié)果包括兩部分,以表格形式列出的供體和受輸出結(jié)果包括兩部分,以表格形式列出的供體和受體可能的位點(diǎn)和相應(yīng)的外顯子、內(nèi)含子以及所給的體可能的位點(diǎn)和相應(yīng)的外顯子、內(nèi)含子以及所給的可能性位點(diǎn)分值;以示意圖形式表示的整個(gè)查詢序可能性位點(diǎn)分值;以示意圖形式表示的整個(gè)查詢序列上供體和受體可能的位點(diǎn)所在的位置。列上供體和受體可能的位點(diǎn)所在的位置。起始密碼子起始密碼子翻譯的起始位點(diǎn)對(duì)真核生物,如果轉(zhuǎn)錄起始位點(diǎn)已翻譯的起始位點(diǎn)對(duì)真核生物,如果轉(zhuǎn)錄起始位點(diǎn)已知,并且沒有內(nèi)含子打斷知,并且沒有內(nèi)含子打斷55翻譯區(qū)的話,可以在大翻譯區(qū)的話,可以在大多數(shù)情況下定位起始密碼子。原核生物一般沒有剪多數(shù)情況下定位起始密碼子。原核生物一般沒有剪接過程,但在開放閱讀框中找到正確的起始密碼子接過程,但在開放閱讀框中找到正確的起始密碼子仍很困難仍很困難。這種情況下,由于多順反操縱子的存在,啟動(dòng)子定這種情況下,由于多順反操縱子的存在,啟動(dòng)子定位雖然有用,但不象在真核生物中那樣起關(guān)鍵作用。位雖然有用,但不象在真核生物中那樣起關(guān)鍵作用。對(duì)于原核生物,關(guān)鍵是核糖體結(jié)合位點(diǎn)的可靠定位。對(duì)于原核生物,關(guān)鍵是核糖體結(jié)合位點(diǎn)的可靠定位。Web GeneWeb Gene上的上的AUG_EVALUATORAUG_EVALUATOR提供了起始密碼所在位提供了起始密碼所在位點(diǎn)探測服務(wù),用戶可通過點(diǎn)探測服務(wù),用戶可通過WebGeneWebGene首頁首頁 (http:/r.it/webgene/http:/r.it/webgene/)選擇)選擇AUGAUG。終止信號(hào)終止信號(hào) DNADNA中有轉(zhuǎn)錄終止信號(hào),稱為終止子,在終止子處,中有轉(zhuǎn)錄終止信號(hào),稱為終止子,在終止子處,RNARNA聚合酶停止其聚合作用,將新生聚合酶停止其聚合作用,將新生RNARNA鏈釋出,并鏈釋出,并離開模板離開模板DNADNA。在某些位點(diǎn)處,終止需要一種輔助蛋。在某些位點(diǎn)處,終止需要一種輔助蛋白質(zhì),即白質(zhì),即因子,但在其他位點(diǎn)處,核心酶本身即因子,但在其他位點(diǎn)處,核心酶本身即可終止轉(zhuǎn)錄。可終止轉(zhuǎn)錄。不依賴不依賴因子的終止子有兩個(gè)特征因子的終止子有兩個(gè)特征:1DNA1DNA順序有雙重對(duì)稱順序有雙重對(duì)稱(dyad)(dyad)。2DNA2DNA模板鏈中有一串約模板鏈中有一串約6 6個(gè)個(gè)A A,轉(zhuǎn)錄為,轉(zhuǎn)錄為RNA3RNA3端的端的U U。雙重對(duì)稱的意義在于其轉(zhuǎn)錄本能形成發(fā)夾結(jié)構(gòu)。體外雙重對(duì)稱的意義在于其轉(zhuǎn)錄本能形成發(fā)夾結(jié)構(gòu)。體外實(shí)驗(yàn)顯示,如果摻入其他堿基以阻止發(fā)夾形成時(shí),終實(shí)驗(yàn)顯示,如果摻入其他堿基以阻止發(fā)夾形成時(shí),終止即不發(fā)生。止即不發(fā)生。通常只要有一個(gè)核苷酸的改變破壞了規(guī)則的雙螺旋通常只要有一個(gè)核苷酸的改變破壞了規(guī)則的雙螺旋的莖時(shí),即可破壞終止子的功能。對(duì)終止子突變的的莖時(shí),即可破壞終止子的功能。對(duì)終止子突變的分析亦顯示分析亦顯示DNADNA模板上多聚模板上多聚dAdA順序的重要性。如將此順序的重要性。如將此序列中的一個(gè)堿基換掉,或除去部分序列序列中的一個(gè)堿基換掉,或除去部分序列(缺失缺失)都都可使終止子失活。多腺苷酸化和翻譯終止信號(hào)雖然可使終止子失活。多腺苷酸化和翻譯終止信號(hào)雖然看上去沒有基因起始信號(hào)那么重要,但這些信號(hào)也看上去沒有基因起始信號(hào)那么重要,但這些信號(hào)也能幫助劃分基因的范圍。能幫助劃分基因的范圍。許多復(fù)合基因預(yù)測程序中包括許多復(fù)合基因預(yù)測程序中包括PolyAPolyA的預(yù)測,的預(yù)測,WebGeneWebGene上的上的HCpolya HCpolya 提供提供了單獨(dú)的了單獨(dú)的PolyAPolyA預(yù)測程序,它運(yùn)用預(yù)測程序,它運(yùn)用數(shù)字網(wǎng)絡(luò)系統(tǒng)首先預(yù)測出可能的數(shù)字網(wǎng)絡(luò)系統(tǒng)首先預(yù)測出可能的PolyAPolyA位點(diǎn),然后運(yùn)位點(diǎn),然后運(yùn)用神經(jīng)網(wǎng)絡(luò)系統(tǒng),從用神經(jīng)網(wǎng)絡(luò)系統(tǒng),從EMBLEMBL上抽取了上抽取了10001000個(gè)個(gè)PolyAPolyA信號(hào)信號(hào)實(shí)例作為訓(xùn)練集。實(shí)例作為訓(xùn)練集。HCpolyaHCpolya的具體應(yīng)用與的具體應(yīng)用與WebGeneWebGene上的上的其它應(yīng)用程序相同。用戶直接登陸其網(wǎng)頁輸入查詢序其它應(yīng)用程序相同。用戶直接登陸其網(wǎng)頁輸入查詢序列即可。列即可。其他特征信號(hào)的探測對(duì)推進(jìn)基因的識(shí)別也有幫其他特征信號(hào)的探測對(duì)推進(jìn)基因的識(shí)別也有幫助,如助,如CpGCpG島的預(yù)測等。用戶可上島的預(yù)測等。用戶可上WebGeneWebGene網(wǎng)頁網(wǎng)頁進(jìn)行預(yù)測進(jìn)行預(yù)測。用戶。用戶可以登陸選擇相應(yīng)的程序進(jìn)行可以登陸選擇相應(yīng)的程序進(jìn)行預(yù)測。預(yù)測。CpGCpG島:島:CpGCpG島島(CpG island)(CpG island)一詞是用來描述哺乳動(dòng)一詞是用來描述哺乳動(dòng)物基因組物基因組DNADNA中的一部分序列,其特點(diǎn)是胞嘧啶中的一部分序列,其特點(diǎn)是胞嘧啶(C)(C)與鳥嘌呤與鳥嘌呤(G)(G)的總和超過的總和超過4 4種堿基總和的種堿基總和的50%50%,即每,即每1010個(gè)核苷酸約出現(xiàn)一次雙核苷酸序列個(gè)核苷酸約出現(xiàn)一次雙核苷酸序列CGCG。具有這種特。具有這種特點(diǎn)的序列僅占基因組點(diǎn)的序列僅占基因組DNADNA總量的總量的10%10%左右左右。從已知的從已知的DNADNA序列統(tǒng)計(jì)發(fā)現(xiàn),幾乎所有的管家基因序列統(tǒng)計(jì)發(fā)現(xiàn),幾乎所有的管家基因(House-Keeping gene)(House-Keeping gene)及約占及約占40%40%的組織特異性基因的組織特異性基因的的5 5末端末端含有含有CpGCpG島,其序列可能包括基因轉(zhuǎn)錄的島,其序列可能包括基因轉(zhuǎn)錄的啟動(dòng)子及第一個(gè)外顯子。因此,在大規(guī)模啟動(dòng)子及第一個(gè)外顯子。因此,在大規(guī)模DNADNA測序計(jì)測序計(jì)劃中,每發(fā)現(xiàn)一個(gè)劃中,每發(fā)現(xiàn)一個(gè)CpGCpG島,則預(yù)示可能在此存在基因島,則預(yù)示可能在此存在基因。復(fù)合基因分析程序復(fù)合基因分析程序 GenebuilderGenebuilder主講教師:趙雨杰主講教師:趙雨杰復(fù)合基因分析程序復(fù)合基因分析程序復(fù)合復(fù)合基因分析程序就是把若干個(gè)分析基因特征的程基因分析程序就是把若干個(gè)分析基因特征的程序結(jié)合在一起,對(duì)查詢序列進(jìn)行綜合分析,先遮蔽序結(jié)合在一起,對(duì)查詢序列進(jìn)行綜合分析,先遮蔽重復(fù)序列,找出可能的信號(hào)區(qū),再進(jìn)行同源序列搜重復(fù)序列,找出可能的信號(hào)區(qū),再進(jìn)行同源序列搜索。然后,對(duì)相應(yīng)打分函數(shù)進(jìn)行優(yōu)化,以確定外顯索。然后,對(duì)相應(yīng)打分函數(shù)進(jìn)行優(yōu)化,以確定外顯子,并給出與所有現(xiàn)有數(shù)據(jù)最一致的可能基因子,并給出與所有現(xiàn)有數(shù)據(jù)最一致的可能基因結(jié)構(gòu)。結(jié)構(gòu)。最后不僅給出查詢序列上的外顯子可能的位置,而最后不僅給出查詢序列上的外顯子可能的位置,而且給出查詢序列上的且給出查詢序列上的cDNAcDNA及其編碼蛋白序列。這對(duì)及其編碼蛋白序列。這對(duì)我們尋找可能的基因,確定其編碼蛋白,研究它們我們尋找可能的基因,確定其編碼蛋白,研究它們的生物學(xué)意義有很大的幫助。的生物學(xué)意義有很大的幫助。最初的計(jì)算機(jī)輔助基因識(shí)別程序主要處理識(shí)別基因最初的計(jì)算機(jī)輔助基因識(shí)別程序主要處理識(shí)別基因的分離特征,如前面所介紹的,單獨(dú)識(shí)別剪切位點(diǎn),的分離特征,如前面所介紹的,單獨(dú)識(shí)別剪切位點(diǎn),單獨(dú)分析啟動(dòng)子的位點(diǎn),或只識(shí)別不涉及信號(hào)的編單獨(dú)分析啟動(dòng)子的位點(diǎn),或只識(shí)別不涉及信號(hào)的編碼區(qū)的規(guī)律性等。但是,如果一個(gè)剪接位點(diǎn)將一段碼區(qū)的規(guī)律性等。但是,如果一個(gè)剪接位點(diǎn)將一段編碼區(qū)隔斷,那它有助于檢測時(shí)在一邊尋找編碼區(qū),編碼區(qū)隔斷,那它有助于檢測時(shí)在一邊尋找編碼區(qū),而在另一邊尋找非編碼區(qū)而在另一邊尋找非編碼區(qū)。這說明綜合考慮待定特征的整體一致性能顯著提高這說明綜合考慮待定特征的整體一致性能顯著提高預(yù)測的精度。例如,在單獨(dú)的外顯子預(yù)測程序中,預(yù)測的精度。例如,在單獨(dú)的外顯子預(yù)測程序中,有的程序長度在有的程序長度在50bp50bp以下的外顯子往往被遺漏,但以下的外顯子往往被遺漏,但如果使用復(fù)合基因分析程序,在分析中加上一個(gè)簡如果使用復(fù)合基因分析程序,在分析中加上一個(gè)簡單的剪接和框架邏輯分析后就能檢測出來。單的剪接和框架邏輯分析后就能檢測出來。http:/r.it/webgene/genebuilder.htmlGenebuilderGenebuilder通過不同的方法檢測查詢序列上的功能通過不同的方法檢測查詢序列上的功能性位點(diǎn)和編碼區(qū)域,在預(yù)測過程中結(jié)合性位點(diǎn)和編碼區(qū)域,在預(yù)測過程中結(jié)合ESTEST數(shù)據(jù)庫搜數(shù)據(jù)庫搜索和蛋白質(zhì)同源性比較,用動(dòng)態(tài)的方法得到可能的索和蛋白質(zhì)同源性比較,用動(dòng)態(tài)的方法得到可能的基因結(jié)構(gòu),該程序設(shè)置了若干參數(shù)預(yù)測和精選可能基因結(jié)構(gòu),該程序設(shè)置了若干參數(shù)預(yù)測和精選可能的基因結(jié)構(gòu)。由于加入了預(yù)測出的外顯子與相關(guān)蛋的基因結(jié)構(gòu)。由于加入了預(yù)測出的外顯子與相關(guān)蛋白的同源性比較這一步,預(yù)測的精度大大提高。而白的同源性比較這一步,預(yù)測的精度大大提高。而且,在較低同源性的情況下,且,在較低同源性的情況下,GenebuilderGenebuilder仍能較準(zhǔn)仍能較準(zhǔn)確的預(yù)測出可能基因結(jié)構(gòu)。確的預(yù)測出可能基因結(jié)構(gòu)。通過檢驗(yàn),通過檢驗(yàn),GenebuilderGenebuilder的的敏感度達(dá)的的敏感度達(dá)0.890.89,特異性,特異性達(dá)達(dá)0.910.91,總的相關(guān)系數(shù)為,總的相關(guān)系數(shù)為0.880.88。該程序的優(yōu)點(diǎn)是,。該程序的優(yōu)點(diǎn)是,用戶輸入一個(gè)查詢序列,該程序不僅預(yù)測出可能的用戶輸入一個(gè)查詢序列,該程序不僅預(yù)測出可能的編碼區(qū)位置片段,編碼的蛋白肽段,編碼區(qū)位置片段,編碼的蛋白肽段,CpG CpG islandisland,而且而且給出給出TATA boxTATA box位點(diǎn)、位點(diǎn)、PolyAPolyA位置、轉(zhuǎn)錄因子以及位置、轉(zhuǎn)錄因子以及同源性比較結(jié)果等。用戶不需分別應(yīng)用不同的程序同源性比較結(jié)果等。用戶不需分別應(yīng)用不同的程序預(yù)測就能得到綜合的結(jié)果。預(yù)測就能得到綜合的結(jié)果。GenebuilderGenebuilder應(yīng)用起來很簡單,用戶通過登陸其應(yīng)用起來很簡單,用戶通過登陸其WebWeb頁面,選擇相應(yīng)參數(shù),是否選擇剪接位點(diǎn)、同源蛋頁面,選擇相應(yīng)參數(shù),是否選擇剪接位點(diǎn)、同源蛋白、白、TATA boxTATA box等項(xiàng),然后輸入查詢序列,點(diǎn)擊等項(xiàng),然后輸入查詢序列,點(diǎn)擊start start analysisanalysis即可完成查詢。輸出的結(jié)果可以選擇即可完成查詢。輸出的結(jié)果可以選擇e
收藏
編號(hào):73982957
類型:共享資源
大小:115.48MB
格式:ZIP
上傳時(shí)間:2022-04-12
35
積分
- 關(guān) 鍵 詞:
-
生物信息學(xué)
本科教學(xué)課件
生物
信息學(xué)
本科
教學(xué)
課件
- 資源描述:
-
生物信息學(xué)本科教學(xué)課件,生物信息學(xué),本科教學(xué)課件,生物,信息學(xué),本科,教學(xué),課件
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學(xué)習(xí)交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。