生物信息學本科教學課件
生物信息學本科教學課件,生物信息學,本科教學課件,生物,信息學,本科,教學,課件
核酸序列的分析方法核酸序列的分析方法主講教師:趙雨杰主講教師:趙雨杰當我們得到一個當我們得到一個DNADNA序列時,我們往往需要對該片段序列時,我們往往需要對該片段進行分析,確定它的功能區(qū)域、尋找調(diào)控區(qū)域、啟進行分析,確定它的功能區(qū)域、尋找調(diào)控區(qū)域、啟動子區(qū)域、編碼區(qū)域、預測其編碼蛋白,才是我們動子區(qū)域、編碼區(qū)域、預測其編碼蛋白,才是我們研究研究DNADNA序列的目的。這需要對序列的目的。這需要對DNADNA功能模式進行檢功能模式進行檢測,單靠多個序列的比較不能完成上述任務。測,單靠多個序列的比較不能完成上述任務。就象人類的語言有多種表達形式,但每種語言都有一定就象人類的語言有多種表達形式,但每種語言都有一定的語法一樣,序列上基因的排布方式也有自己獨的語法一樣,序列上基因的排布方式也有自己獨特的規(guī)律,我們不妨稱之為基因語法。例如,啟動子中特的規(guī)律,我們不妨稱之為基因語法。例如,啟動子中的的TATATATA框、大多數(shù)內(nèi)含子都以框、大多數(shù)內(nèi)含子都以T T為為起始,末端為起始,末端為等,利用這些基因語法,人們設計了等,利用這些基因語法,人們設計了一些程序用于對一段未知序列上的基因進行預測。一些程序用于對一段未知序列上的基因進行預測。這些程序的基本步驟是:先尋找出整個這些程序的基本步驟是:先尋找出整個DNADNA序列上重序列上重復的和低復雜性的序列并把它們遮蔽起來,以利于復的和低復雜性的序列并把它們遮蔽起來,以利于進行進一步分析,再尋找基因以及與其相關的調(diào)控進行進一步分析,再尋找基因以及與其相關的調(diào)控區(qū)域區(qū)域。目前。目前網(wǎng)上提供了許多免費和商用的分析工具,網(wǎng)上提供了許多免費和商用的分析工具,用戶使用時要注意:這些工具雖很實用,但絕非完用戶使用時要注意:這些工具雖很實用,但絕非完全可靠。全可靠。當前許多分析軟件開發(fā)者對功能域原型的描述來自當前許多分析軟件開發(fā)者對功能域原型的描述來自DDBJ/EMBL/GenBankDDBJ/EMBL/GenBank等國際序列數(shù)據(jù)庫中對相應功能等國際序列數(shù)據(jù)庫中對相應功能域的描述,而這些數(shù)據(jù)庫中的描述本身的某些部分卻域的描述,而這些數(shù)據(jù)庫中的描述本身的某些部分卻來源于序列的分析應用軟件的預測結果。所以,建議來源于序列的分析應用軟件的預測結果。所以,建議用戶有必要將序列提呈給多個不同的軟件包加以分析,用戶有必要將序列提呈給多個不同的軟件包加以分析,以利用最佳的計算機技術,得到較滿意的結果。以利用最佳的計算機技術,得到較滿意的結果。真核基因編碼蛋白質(zhì)基因的結構真核基因編碼蛋白質(zhì)基因的結構DNADNA序列功能位點序列功能位點計算機進行編碼基因識別時所需解決的問題計算機進行編碼基因識別時所需解決的問題 一個全面的編碼基因搜索方案,無論是通過單個集一個全面的編碼基因搜索方案,無論是通過單個集成的程序實現(xiàn),還是通過多個程序分步實現(xiàn),基本成的程序實現(xiàn),還是通過多個程序分步實現(xiàn),基本的思路是相同的:的思路是相同的:1 1、通通常常如如果果一一個個序序列列中中某某一一區(qū)區(qū)域域出出現(xiàn)現(xiàn)重重復復序序列列,該該區(qū)域不大可能處于調(diào)控區(qū)域和編碼區(qū)域。區(qū)域不大可能處于調(diào)控區(qū)域和編碼區(qū)域。2 2、如果某一片段與其它基因或基因產(chǎn)物有序列相似、如果某一片段與其它基因或基因產(chǎn)物有序列相似性,該片段是外顯子的可能性極大。性,該片段是外顯子的可能性極大。3 3、一一段段序序列列上上存存在在著著統(tǒng)統(tǒng)計計的的規(guī)規(guī)則則性性,表表現(xiàn)現(xiàn)為為顯顯著著的的“密碼子偏好密碼子偏好”,是蛋白編碼區(qū)最明顯的標志之一。,是蛋白編碼區(qū)最明顯的標志之一。4 4、與模板模式相符可能指出、與模板模式相符可能指出DNADNA上功能性位點的位置。上功能性位點的位置。這類分析可以基于很簡單的模式(例如,眾所周知的這類分析可以基于很簡單的模式(例如,眾所周知的“TATA box”TATA box”和剪接點的保守序列)或基于相當復雜和剪接點的保守序列)或基于相當復雜的推理(例如,在后面將提到的啟動子搜尋算法中)。的推理(例如,在后面將提到的啟動子搜尋算法中)。在進行編碼基因搜索時的基本步驟:在進行編碼基因搜索時的基本步驟:1 1、尋找、尋找DNADNA序列中基因不可能出現(xiàn)的區(qū)域,并將此序列中基因不可能出現(xiàn)的區(qū)域,并將此遮蔽起來。遮蔽起來。2 2、在啟動子區(qū)尋找一致的模式,找出轉錄因子識別、在啟動子區(qū)尋找一致的模式,找出轉錄因子識別DNADNA結合區(qū)域。結合區(qū)域。3 3、尋找轉錄的起始密碼、終止密碼和剪切位點。、尋找轉錄的起始密碼、終止密碼和剪切位點。4 4、找出編碼區(qū)。然后將全部收集到的信息匯總整理、找出編碼區(qū)。然后將全部收集到的信息匯總整理成總體上盡可能連貫的譜圖。成總體上盡可能連貫的譜圖。核酸序列預測應用軟件的開發(fā)者在編輯軟件時,不核酸序列預測應用軟件的開發(fā)者在編輯軟件時,不少采用了神經(jīng)網(wǎng)絡系統(tǒng)和對密碼子偏好的檢測,對少采用了神經(jīng)網(wǎng)絡系統(tǒng)和對密碼子偏好的檢測,對這些概念的了解,有助于我們了解軟件的性質(zhì),以這些概念的了解,有助于我們了解軟件的性質(zhì),以便更好的應用。便更好的應用。進行進行不同的分析不同的分析時使用時使用不同的不同的軟件工具。注意:程軟件工具。注意:程序序適用的物種選擇和應用范圍等。適用的物種選擇和應用范圍等。神經(jīng)網(wǎng)絡系統(tǒng)神經(jīng)網(wǎng)絡系統(tǒng) 大多數(shù)計算程序都沿著固有的順序盲目地執(zhí)行命令,大多數(shù)計算程序都沿著固有的順序盲目地執(zhí)行命令,神經(jīng)網(wǎng)絡系統(tǒng)賦予計算過程神經(jīng)網(wǎng)絡系統(tǒng)賦予計算過程“學習學習”的能力以模仿的能力以模仿人類的學習。每個神經(jīng)網(wǎng)絡都包含一個輸入層和一人類的學習。每個神經(jīng)網(wǎng)絡都包含一個輸入層和一個輸出層。在輸入層和輸出層之間有若干個隱含層。個輸出層。在輸入層和輸出層之間有若干個隱含層。神經(jīng)網(wǎng)絡在應用之前必須經(jīng)過一個學習過程。神經(jīng)網(wǎng)絡在應用之前必須經(jīng)過一個學習過程。軟件學習過程即軟件學習過程即向網(wǎng)絡輸入一組訓練數(shù)據(jù)集,一般向網(wǎng)絡輸入一組訓練數(shù)據(jù)集,一般情況下包括已知結構的序列及其相應結構。網(wǎng)絡通情況下包括已知結構的序列及其相應結構。網(wǎng)絡通過加工這些信息,尋找序列在特定的上下文關系中過加工這些信息,尋找序列在特定的上下文關系中所能形成的結構之間的微弱聯(lián)系。經(jīng)過訓練后的神所能形成的結構之間的微弱聯(lián)系。經(jīng)過訓練后的神經(jīng)網(wǎng)絡系統(tǒng)就能用來進行查詢序列的預測。經(jīng)網(wǎng)絡系統(tǒng)就能用來進行查詢序列的預測。密碼子偏好密碼子偏好 遺傳密碼具有簡并性,編碼蛋白質(zhì)的基因有偏好使遺傳密碼具有簡并性,編碼蛋白質(zhì)的基因有偏好使用某一密碼的傾向,稱之為密碼子偏好,這使編碼用某一密碼的傾向,稱之為密碼子偏好,這使編碼蛋白質(zhì)的基因具有編碼區(qū)規(guī)律性。編碼測度蛋白質(zhì)的基因具有編碼區(qū)規(guī)律性。編碼測度(coding measure)coding measure)就是用來總結計算這一規(guī)律性的就是用來總結計算這一規(guī)律性的方法。一般把計算結果用一個數(shù)或一個數(shù)列表示,方法。一般把計算結果用一個數(shù)或一個數(shù)列表示,如將密碼子出現(xiàn)頻率簡單列表就是編碼測度的一種。如將密碼子出現(xiàn)頻率簡單列表就是編碼測度的一種。編碼測度常用的方法 雙密碼子記數(shù)方法:兩個相同密碼子連在一起稱為密碼子對,雙密碼子記數(shù)是統(tǒng)計密碼子對的出現(xiàn)頻率。直接周期性度量:同一核苷酸在相同距離重復出現(xiàn),成為周期,直接周期性度量是對此周期進行統(tǒng)計。均一性對復雜性的測量:相同核苷酸聚集在一起的區(qū)域稱為同聚區(qū),該方法主要統(tǒng)計同聚區(qū)數(shù)。很多對蛋白編碼區(qū)的檢測方法把一個或幾個編碼測很多對蛋白編碼區(qū)的檢測方法把一個或幾個編碼測度方法組合起來運用,組成一個判別式。根據(jù)判別度方法組合起來運用,組成一個判別式。根據(jù)判別式得出一個較低分辨率的編碼區(qū)邊界的圖譜。編碼式得出一個較低分辨率的編碼區(qū)邊界的圖譜。編碼測度有測度有物種屬性物種屬性,在使用時應注意。,在使用時應注意。遮蔽重復序列遮蔽重復序列主講教師:趙雨杰主講教師:趙雨杰在原核、真核中都有重復出現(xiàn)的核苷酸序列,在原核、真核中都有重復出現(xiàn)的核苷酸序列,但在真核更普遍。重復序列有種屬特異性,基因組但在真核更普遍。重復序列有種屬特異性,基因組越大、重復序列含量愈豐富。雖然某些重復序列與越大、重復序列含量愈豐富。雖然某些重復序列與生物進化有關,有些重復序列可能發(fā)生在調(diào)控區(qū),生物進化有關,有些重復序列可能發(fā)生在調(diào)控區(qū),但在對核酸序列進行基因預測的過程中,特別是在但在對核酸序列進行基因預測的過程中,特別是在數(shù)據(jù)庫搜索中數(shù)據(jù)庫搜索中,重復序列常常會攪亂其它分析重復序列常常會攪亂其它分析 。在進行任何真核生物序列的基因辨識分析之前在進行任何真核生物序列的基因辨識分析之前,最好最好把散布和簡單的重復序列找出來并從序列中除去。把散布和簡單的重復序列找出來并從序列中除去。雖然這些重復序列可能正好覆蓋了由雖然這些重復序列可能正好覆蓋了由RNARNA聚合酶聚合酶轉轉錄的部分區(qū)域,但它們幾乎不會覆蓋啟動子和外顯錄的部分區(qū)域,但它們幾乎不會覆蓋啟動子和外顯子編碼區(qū)。這些重復序列的定位能為其它基因特征子編碼區(qū)。這些重復序列的定位能為其它基因特征的定位提供重要的反面信息。的定位提供重要的反面信息。大多用戶只是偶爾分析一個所得序列,不需要對大大多用戶只是偶爾分析一個所得序列,不需要對大量的序列進行分析預測,對于重復序列的分析用電量的序列進行分析預測,對于重復序列的分析用電子郵件或子郵件或WebWeb網(wǎng)頁的服務器就可以完成。目前有許多網(wǎng)頁的服務器就可以完成。目前有許多在線服務器,如在線服務器,如CENSORCENSOR(JurkaJurka等,等,19961996)與)與RepeatMaskerRepeatMasker(SmithSmith,19961996)就是這種能提供標識)就是這種能提供標識和遮蔽分散和簡單重復序列的服務器。和遮蔽分散和簡單重復序列的服務器。CENSORCENSOR可以通過登陸可以通過登陸CENSORCENSOR網(wǎng)頁網(wǎng)頁(http:/www.girinst.org/censor/index.phphttp:/www.girinst.org/censor/index.php)進入進入CENSORCENSOR軟件使用頁面。軟件使用頁面。CENSORCENSOR可以接受可以接受遮蔽許多真核生物如:真菌、人類遮蔽許多真核生物如:真菌、人類、嚙齒動物、魚類和嚙齒動物、魚類和植物植物的重復序列的重復序列。CENSORCENSOR使用起使用起來非常簡單,查詢序列,選擇序列來源,如果缺省,來非常簡單,查詢序列,選擇序列來源,如果缺省,服務器就按人類的序列進行計算,服務器就按人類的序列進行計算,按按“Submit Submit SequenceSequence”完成完成查詢。查詢。以以HUMCKMM1HUMCKMM1為例運行為例運行CENSORCENSOR得到的輸出結果得到的輸出結果 gi|180579|gb|M21487.1|HUMCKMM1 Human muscle creatine kinase gene(CKMM),5 flank gi|180579|gb|M21487.1|HUMCKMM1 Human muscle creatine kinase gene(CKMM),5 flank GGATCCTTCCTCCTTGGCCTCCCAAAGTGCTGGGATTACAGGTGTGAGCCACTGCACCTGGCCTATTACC GGATCCTTCCTCCTTGGCCTCCCAAAGTGCTGGGATTACAGGTGTGAGCCACTGCACCTGGCCTATTACC CTTCTCAGGCTCTGGAGTCCATCCTTCTGCTCTGTCTCCCTCAGTTCAATTGTTTTTTGTTTTTTGTTTT CTTCTCAGGCTCTGGAGTCCATCCTTCTGCTCTGTCTCCCTCAGTTCAATTGTTTTTTGTTTTTTGTTTT TTTTTTAGACACAGTCTCGCTCTGTCACCAAGGCTGGAGTGCAGCAGTGCGATCACAGCTCACCGCAGCC TCACCTCCCAGGCTCAAGTGATCCTCCCATCTCGGCCTCTGAGTAGCTGAGACTATAGGTGTGTCCACAT TTTTTTAGACACAGTCTCGCTCTGTCACCAAGGCTGGAGTGCAGCAGTGCGATCACAGCTCACCGCAGCC TCACCTCCCAGGCTCAAGTGATCCTCCCATCTCGGCCTCTGAGTAGCTGAGACTATAGGTGTGTCCACAT GTCCGGCTAATTTTTGTATTTTTAGTAGAGACAGGGTTTCACCGCGTTGGCCAGGGTGGTCTTGAACTCC TGAGCTCAAGCAATCCTCCTGCCTCAGCCTCCTTGTTTTGATTTTTAGATCCCACAAATAACTTGTGATG GTCCGGCTAATTTTTGTATTTTTAGTAGAGACAGGGTTTCACCGCGTTGGCCAGGGTGGTCTTGAACTCC TGAGCTCAAGCAATCCTCCTGCCTCAGCCTCCTTGTTTTGATTTTTAGATCCCACAAATAACTTGTGATG TTTGTCTTTCTATACCTGGTTCATTTAACATTTTCTTTTTCTTTTCTTTTCTTTTTTTTTTTTTTTGTGA GACTGAGTCTTGCTCTGTCACTCAGGCTGGAGGGCAATGGTGCATCTCAGCTCACTGCAACCTCCACCTC TTTGTCTTTCTATACCTGGTTCATTTAACATTTTCTTTTTCTTTTCTTTTCTTTTTTTTTTTTTTTGTGA GACTGAGTCTTGCTCTGTCACTCAGGCTGGAGGGCAATGGTGCATCTCAGCTCACTGCAACCTCCACCTC CTAGGTTCAAGCAATTCTTATGCCTCAGCCTCCTGGCTAGCTGGGATTACAGGCGTGTGTCACCATGCCA GGCTAATTTTTGTACTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTTGAACTCCTGGC CTAGGTTCAAGCAATTCTTATGCCTCAGCCTCCTGGCTAGCTGGGATTACAGGCGTGTGTCACCATGCCA GGCTAATTTTTGTACTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTTGAACTCCTGGC CTCAAGTGATCCACCCGCCTCCGCCTCTGCCTCCCAAAGTGCTGGGATTACGGGCCTGAGCCACTGTGCC CGGCCCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCAT CTCAAGTGATCCACCCGCCTCCGCCTCTGCCTCCCAAAGTGCTGGGATTACGGGCCTGAGCCACTGTGCC CGGCCCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCAT GGGTCTGCTCCTGTCTCCCCTCCAACCTCATCTTCTTCCTCCCACTCTCTCCTTGGCCCCATCTGCTCCA GTCCCCTGGCCTCCTTCCTGTCTGTCCTCAGATGTGCCCAGCCATTCTCACCTCAGCGCCTTTGCACCTG GGGTCTGCTCCTGTCTCCCCTCCAACCTCATCTTCTTCCTCCCACTCTCTCCTTGGCCCCATCTGCTCCA GTCCCCTGGCCTCCTTCCTGTCTGTCCTCAGATGTGCCCAGCCATTCTCACCTCAGCGCCTTTGCACCTG CTGTTCCCCCCAGAGCCGCACATGGCTGGCTCCCTGTTCTCCTTCAGGTCTCTGCTCAGATGTCATCTTC CCAAAGAGGCCTGCCTCGACCTCCCCTGCTGCTGTGCCGTCCCCTCATCTGTGACCCTCTTGCACTATCA CTGTTCCCCCCAGAGCCGCACATGGCTGGCTCCCTGTTCTCCTTCAGGTCTCTGCTCAGATGTCATCTTC CCAAAGAGGCCTGCCTCGACCTCCCCTGCTGCTGTGCCGTCCCCTCATCTGTGACCCTCTTGCACTATCA CCTCCAGGACGGCGGGGGTTTTGTGTTTTGTTGTAGCCTCAGGAAGTGCCTGATAGATCCCTGTTTCGAG ACCAGTTCCATTTGGTTTTCTGGGCCTCAGTTTCCGTAACCGTGAAGGAGACCCTCGGCAATCTGAGCTT CCTCCAGGACGGCGGGGGTTTTGTGTTTTGTTGTAGCCTCAGGAAGTGCCTGATAGATCCCTGTTTCGAG ACCAGTTCCATTTGGTTTTCTGGGCCTCAGTTTCCGTAACCGTGAAGGAGACCCTCGGCAATCTGAGCTT GCTGGGAAAGGGCTGGGCCCCATGTAAATATTTCTAAAGCACCCCTCTCCCCTCCCCCCTCAGATCAGGA GTCTGAGGGAGAGGCACAGAGGCTCCCTTTCTCTAAGCCAGTCCTCACCTGCCTAAGAAGATGTGAAGGA GCTGGGAAAGGGCTGGGCCCCATGTAAATATTTCTAAAGCACCCCTCTCCCCTCCCCCCTCAGATCAGGA GTCTGAGGGAGAGGCACAGAGGCTCCCTTTCTCTAAGCCAGTCCTCACCTGCCTAAGAAGATGTGAAGGA GACCCAGGAGACCCTGGGATAGGGAGGAACTCAGAGGGAAGGGACATTCTTTTCTTCGTCGCAATCCTGG GAGCTCCCTGGAGGAGGAGACCCGATCAGCCTGCAATCCTGGCGCGTCCCAGGAGGAGAAAGCGGCTTCC GACCCAGGAGACCCTGGGATAGGGAGGAACTCAGAGGGAAGGGACATTCTTTTCTTCGTCGCAATCCTGG GAGCTCCCTGGAGGAGGAGACCCGATCAGCCTGCAATCCTGGCGCGTCCCAGGAGGAGAAAGCGGCTTCC TCTATACTGTACTCTCCTCCACAGAACCCCCCTCTCAGCCCTGGAAGTCCTTGCTCACAGCCGAGGCGCC GAGAGCGCTTGCTCTGCCCAGATCTCGGCGAGTCTGCGCCCGCGCTCTGAACGGCGTCGCTGCCCAGCCC TCTATACTGTACTCTCCTCCACAGAACCCCCCTCTCAGCCCTGGAAGTCCTTGCTCACAGCCGAGGCGCC GAGAGCGCTTGCTCTGCCCAGATCTCGGCGAGTCTGCGCCCGCGCTCTGAACGGCGTCGCTGCCCAGCCC CCTTCCCCGGGAGGTGGGAGCGGCCACCCAGGGCCCCGTGGCTGCCCTTGTAAGGAGGCGAGGCCGAGGA CACCCGAGACGCCCGGTTATAATTAACCAGGACACGTGGCGAACCCCCCTCCAACACCTGCCCCCGAACC CCTTCCCCGGGAGGTGGGAGCGGCCACCCAGGGCCCCGTGGCTGCCCTTGTAAGGAGGCGAGGCCGAGGA CACCCGAGACGCCCGGTTATAATTAACCAGGACACGTGGCGAACCCCCCTCCAACACCTGCCCCCGAACC CCCCCATACCCAGCGCCTCGGGTCTCGGCCTTTGCGGCAGAGGAGACAGCAAAGCGCCCTCTAAAAATAA CTCCTTTCCCGGCGACCGAGACCCTCCCTGTCCCCGCACAGCGAAATCTCCCAGTGGCACCGAGGGGGCG CCCCCATACCCAGCGCCTCGGGTCTCGGCCTTTGCGGCAGAGGAGACAGCAAAGCGCCCTCTAAAAATAA CTCCTTTCCCGGCGACCGAGACCCTCCCTGTCCCCGCACAGCGAAATCTCCCAGTGGCACCGAGGGGGCG AGGGTTAAGTGGGGGGGAGGGTGACCACCGCCTCCCACCCTTGCCCTGAGTTTGAATCTCTCCAACTCAG CCAGCCTCAGTTTCCCCTCCACTCAGTCCCTAGGAGGAAGGGGCGCCCAAGCGGGTTTCTGGGGTTAGAC AGGGTTAAGTGGGGGGGAGGGTGACCACCGCCTCCCACCCTTGCCCTGAGTTTGAATCTCTCCAACTCAG CCAGCCTCAGTTTCCCCTCCACTCAGTCCCTAGGAGGAAGGGGCGCCCAAGCGGGTTTCTGGGGTTAGAC TGCCCTCCATTGCAATTGGTCCTTCTCCCGGCCTCTGCTTCCTCCAGCTCACAGGGTATCTGCTCCTCCT GGAGCCACACCTTGGTTCCCCGAGGTGCCGCTGGGACTCGGGTAGGGGTGAGGGCCCAGGGGCGACAGGG TGCCCTCCATTGCAATTGGTCCTTCTCCCGGCCTCTGCTTCCTCCAGCTCACAGGGTATCTGCTCCTCCT GGAGCCACACCTTGGTTCCCCGAGGTGCCGCTGGGACTCGGGTAGGGGTGAGGGCCCAGGGGCGACAGGG GGAGCCGAGGGCCACAGGAAGGGCTGGTGGCTGAAGGAGACTCAGGGGCCAGGGGACGGTGGCTTCTACG TGCTTGGGACGTTCCCAGCCACCGTCCCATGTTCCCGGCGGGGGCCAGCTGTCCCCACCGCCAGCCCAAC GGAGCCGAGGGCCACAGGAAGGGCTGGTGGCTGAAGGAGACTCAGGGGCCAGGGGACGGTGGCTTCTACG TGCTTGGGACGTTCCCAGCCACCGTCCCATGTTCCCGGCGGGGGCCAGCTGTCCCCACCGCCAGCCCAAC TCAGCACTTGGTTAGGGTATCAGCTTGGTGGGGGCGTGAGCCCAGCCCTGGGGCGCTCAGCCCATACAAG GCCATGGGGCTGGGCGCAAAGCATGCCTGGGTTCAGGGTGGGTATGGTGCCGGAGCAGGGAGGTGAGAGG TCAGCACTTGGTTAGGGTATCAGCTTGGTGGGGGCGTGAGCCCAGCCCTGGGGCGCTCAGCCCATACAAG GCCATGGGGCTGGGCGCAAAGCATGCCTGGGTTCAGGGTGGGTATGGTGCCGGAGCAGGGAGGTGAGAGG CTCAGCTGCCCTCCAGAACTCCTCCCTGGGGACAACCCCTCCCAGCCAATAGCACAGCCTAGGTCCCCCT ATATAAGGCCACGGCTGCTGGCCCTTCCTTTGGGTCAGTGTCACCTCCAGGATACAGACAGCCCCCCTTC CTCAGCTGCCCTCCAGAACTCCTCCCTGGGGACAACCCCTCCCAGCCAATAGCACAGCCTAGGTCCCCCT ATATAAGGCCACGGCTGCTGGCCCTTCCTTTGGGTCAGTGTCACCTCCAGGATACAGACAGCCCCCCTTC AGCCCAGCCCAGCCAGGTACTGCACGGGGCGGGAATCTGGGTGGGGGCCAGAGTAGGGGATTTCTGTGGG TGCTAGAGGCTTGGCTTGGGAAAGGGTCTGTGTGTCACCCCTTGCTCCACCAACATCCTCCTATACAAAG AGCCCAGCCCAGCCAGGTACTGCACGGGGCGGGAATCTGGGTGGGGGCCAGAGTAGGGGATTTCTGTGGG TGCTAGAGGCTTGGCTTGGGAAAGGGTCTGTGTGTCACCCCTTGCTCCACCAACATCCTCCTATACAAAG GCAGGTCGGTGCGTGGGAAGGTTGACCCTTGTGTGTCTGGGAGGCCCCTCCATCTGTGAGGCTGCCTGAA CCCCCACTGGGACCTGTGATTTCTGCGGCACAG GCAGGTCGGTGCGTGGGAAGGTTGACCCTTGTGTGTCTGGGAGGCCCCTCCATCTGTGAGGCTGCCTGAA CCCCCACTGGGACCTGTGATTTCTGCGGCACAG REPEATMASKER WEB SERVERREPEATMASKER WEB SERVER在線重復序列遮蔽工具,用戶可以登陸在線重復序列遮蔽工具,用戶可以登陸(http:/www.repeatmasker.orghttp:/www.repeatmasker.org/)在線應用,)在線應用,注意:在使用注意:在使用REPATMASKER WEB SERVERREPATMASKER WEB SERVER時,輸入序時,輸入序 列要采用列要采用FASTAFASTA格式,否則不予以受理。格式,否則不予以受理。如果要對大量序列進行分析,就有必要在本地安裝分析軟件,如果要對大量序列進行分析,就有必要在本地安裝分析軟件,本地分析也大大增強了保密性。從因特網(wǎng)上可以得到本地分析也大大增強了保密性。從因特網(wǎng)上可以得到XBLASTXBLAST(ClaverieClaverie,19961996)(ftp:/ftp.x.org/contrib/games/xblast-ftp:/ftp.x.org/contrib/games/xblast-2.6.sound.tar.gz2.6.sound.tar.gz)(不要與(不要與BLASTXBLASTX混淆)的源程序。許多重復序列能從由混淆)的源程序。許多重復序列能從由J.JukaJ.Juka收集的收集的RepbaseRepbase中得到。中得到。DNA翻譯翻譯主講教師:趙雨杰主講教師:趙雨杰在進行在進行DNADNA序列的研究中,把序列的研究中,把DNADNA(或(或RNARNA)按所有可)按所有可能的閱讀框(能的閱讀框(+1+1、+2+2、+3+3、-1-1、-2-2、-3-3)翻譯成可)翻譯成可能的蛋白質(zhì)序列、再對得到的候選蛋白序列做進一能的蛋白質(zhì)序列、再對得到的候選蛋白序列做進一步分析,對步分析,對DNADNA序列上基因的辯識很有幫助。序列上基因的辯識很有幫助。因特網(wǎng)上提供了一些免費翻譯工具,因特網(wǎng)上提供了一些免費翻譯工具,DNA-DNA-proteinprotein(http:/cn.expasy.org/http:/cn.expasy.org/)就是其一。這)就是其一。這些應用程序先尋找出所有可能的翻譯蛋白,然后再些應用程序先尋找出所有可能的翻譯蛋白,然后再到數(shù)據(jù)庫對候選蛋白進行列隊比較,找出可能性較到數(shù)據(jù)庫對候選蛋白進行列隊比較,找出可能性較大的蛋白序列。由于列隊比較中存在重復序列的干大的蛋白序列。由于列隊比較中存在重復序列的干擾,所以建議在進行擾,所以建議在進行DNA-DNA-蛋白翻譯之前最好先遮蔽蛋白翻譯之前最好先遮蔽重復序列。重復序列。Translate toolTranslate tool是是ExPASyExPASy上提供的翻譯工具。用戶可以直接登上提供的翻譯工具。用戶可以直接登陸其陸其WebWeb(http:/www.expasy.org/tools/dna.htmlhttp:/www.expasy.org/tools/dna.html)頁面,)頁面,在輸入框中輸入查詢序列即可。最后給出在輸入框中輸入查詢序列即可。最后給出6 6種閱讀框的翻譯結種閱讀框的翻譯結果。下面是以果。下面是以Homo sapiens phenylethanolamine N-Homo sapiens phenylethanolamine N-methyltransferase(PNMT),transcript variant 1,mRNAmethyltransferase(PNMT),transcript variant 1,mRNA為為例進行翻譯,其中一個閱讀框輸出的結果。例進行翻譯,其中一個閱讀框輸出的結果。要想該閱讀框輸出的詳細結果,用戶可以點擊輸出要想該閱讀框輸出的詳細結果,用戶可以點擊輸出蛋白序列上的蛋氨酸或蛋白序列上的蛋氨酸或“stop”stop”后面的氨基酸,就后面的氨基酸,就會出現(xiàn)會出現(xiàn)SWISSSPROTSWISSSPROT上已有的相應的蛋白及相關信息,上已有的相應的蛋白及相關信息,用戶可以將這些蛋白相互比較,選出合適的結果。用戶可以將這些蛋白相互比較,選出合適的結果。待分析核酸序列的數(shù)據(jù)庫搜索待分析核酸序列的數(shù)據(jù)庫搜索主講教師:趙雨杰主講教師:趙雨杰遮蔽重復序列后,對所查詢的序列進行下一步分析遮蔽重復序列后,對所查詢的序列進行下一步分析的最簡單和實用的方法就是進行數(shù)據(jù)庫搜索,找出的最簡單和實用的方法就是進行數(shù)據(jù)庫搜索,找出是否有相同或相似基因。數(shù)據(jù)庫中相似基因搜索是是否有相同或相似基因。數(shù)據(jù)庫中相似基因搜索是應用最廣泛的編碼蛋白基因的辯識方法,目前完整應用最廣泛的編碼蛋白基因的辯識方法,目前完整的基因搜索服務正把數(shù)據(jù)庫搜索包含進來作為分析的基因搜索服務正把數(shù)據(jù)庫搜索包含進來作為分析的一部分,但在某些情況下用戶需要自己完成。的一部分,但在某些情況下用戶需要自己完成。對對 于于 一一 段段 mRNAmRNA、cDNAcDNA序序 列列,用用 戶戶 可可 使使 用用“DNA-DNA-PROTAIN”PROTAIN”應應用用程程序序,以以六六種種可可能能的的閱閱讀讀框框翻翻譯譯成成蛋蛋白白質(zhì)質(zhì),并并把把結結果果作作為為查查詢詢序序列列進進行行蛋蛋白白質(zhì)質(zhì)同同源源性性比比較較和和進進行行各各種種功功能能性性數(shù)數(shù)據(jù)據(jù)庫庫的的搜搜索索。數(shù)數(shù)據(jù)據(jù)庫庫搜搜索索對對我我們們了了解解查查詢詢序序列列很很有有幫幫助助,如如果果找找到到一一個個已已知知的的同同源源序序列列,不不僅僅就就此此序序列列上上可可能能存存在在的的基基因因有有所所了了解解,而而且且還還可可以應用軟件預測查詢序列中可能的外顯子。以應用軟件預測查詢序列中可能的外顯子。尋找同源產(chǎn)物時應注意:新發(fā)現(xiàn)的蛋白大約只有一尋找同源產(chǎn)物時應注意:新發(fā)現(xiàn)的蛋白大約只有一半能在已有數(shù)據(jù)庫中找到同源蛋白。蛋白序列中表半能在已有數(shù)據(jù)庫中找到同源蛋白。蛋白序列中表現(xiàn)高度同源性的部分(現(xiàn)高度同源性的部分(ACRACR)都已被發(fā)現(xiàn),并能在當)都已被發(fā)現(xiàn),并能在當前數(shù)據(jù)庫中找到,新發(fā)現(xiàn)的基因中的前數(shù)據(jù)庫中找到,新發(fā)現(xiàn)的基因中的20%-50%20%-50%包含一包含一個數(shù)據(jù)庫中已有描述的個數(shù)據(jù)庫中已有描述的ACRACR,低表達的基因比中等或,低表達的基因比中等或高度表達的基因包含高度表達的基因包含ACRACR序列的可能性更小。序列的可能性更小。探測探測DNADNA中的功能性位點中的功能性位點 主講教師:趙雨杰主講教師:趙雨杰在對查詢序列進行完重復序列的遮蔽和數(shù)據(jù)庫搜在對查詢序列進行完重復序列的遮蔽和數(shù)據(jù)庫搜索后,識別索后,識別DNADNA序列上可能的功能位點,例如轉錄序列上可能的功能位點,例如轉錄因子結合位點與內(nèi)含子因子結合位點與內(nèi)含子-外顯子的接頭位點,對基外顯子的接頭位點,對基因識別的進一步推進有很大的幫助,并可以提高因識別的進一步推進有很大的幫助,并可以提高預測的精度。預測的精度。一般歸納出這些位點位置的方法是找到所謂的保守一般歸納出這些位點位置的方法是找到所謂的保守序列,再從找到的所有可能的位點中判別真正的位序列,再從找到的所有可能的位點中判別真正的位點。許多計算工具、采用位置點。許多計算工具、采用位置權重算法(權重算法(PWMPWM)等較)等較為復雜的判別技術對識別的功能性位點進行判別,為復雜的判別技術對識別的功能性位點進行判別,以增大預測精度。以增大預測精度。啟動子啟動子要在一個要在一個DNADNA序列上準確找出一組外顯子,尋找啟動序列上準確找出一組外顯子,尋找啟動子是非常必要的。啟動子是子是非常必要的。啟動子是DNADNA分子可以與分子可以與RNARNA聚合酶聚合酶特異結合的部位,也就是使轉錄開始的部位。在基因特異結合的部位,也就是使轉錄開始的部位。在基因表達的調(diào)控中,轉錄的起始是個關鍵。常常某個基因表達的調(diào)控中,轉錄的起始是個關鍵。常常某個基因是否應當表達決定于在特定的啟動子起始過程。是否應當表達決定于在特定的啟動子起始過程。啟動子一般可分為兩類啟動子一般可分為兩類:(1)(1)一類是一類是RNARNA聚合酶可以直接識別的啟動子。聚合酶可以直接識別的啟動子。(2)(2)另一類啟動子在和聚合酶結合時需要有蛋白質(zhì)另一類啟動子在和聚合酶結合時需要有蛋白質(zhì)輔助因子的存在。這種蛋白質(zhì)因子能夠識別與該啟輔助因子的存在。這種蛋白質(zhì)因子能夠識別與該啟動子順序相鄰或甚至重疊的動子順序相鄰或甚至重疊的DNADNA順序。順序。啟動子處的核苷酸順序具有特異的形狀,大多數(shù)啟啟動子處的核苷酸順序具有特異的形狀,大多數(shù)啟動子均有共同順序動子均有共同順序(consensus sequence)(consensus sequence),-35-35區(qū)區(qū)“AATGTGTGGAAT”TATAAATGTGTGGAAT”TATA盒,盒,-70-80bp-70-80bp“GCCTCAATCT”CAAT“GCCTCAATCT”CAAT盒(真核生物),盒(真核生物),-10-10區(qū)區(qū)“TTGACATATATT”PribnowTTGACATATATT”Pribnow盒盒(原核生物原核生物)。不少啟。不少啟動子計算程序通過尋找這些啟動子特殊的結構和啟動子計算程序通過尋找這些啟動子特殊的結構和啟動子和轉錄因子結合的特性來識別啟動子。動子和轉錄因子結合的特性來識別啟動子。WebGene WebGene 上的上的HCtata:Hamming-Clustering Method HCtata:Hamming-Clustering Method for TATA Signal Prediction in Eukaryotic for TATA Signal Prediction in Eukaryotic Genes(hhttp:/r.it/webgene/)Genes(hhttp:/r.it/webgene/)提供了提供了TATA boxTATA box尋找服務,該程序先采用了數(shù)字網(wǎng)絡系統(tǒng)尋找服務,該程序先采用了數(shù)字網(wǎng)絡系統(tǒng)找到可能的找到可能的TATA boxTATA box,然后再用神經(jīng)網(wǎng)絡系統(tǒng)作出,然后再用神經(jīng)網(wǎng)絡系統(tǒng)作出最后判斷。最后判斷。軟件作者軟件作者使用了真核啟動子數(shù)據(jù)庫中(使用了真核啟動子數(shù)據(jù)庫中(EPDEPD)12521252個個條目作為訓練集,并輸入一系列的真核植物基因來條目作為訓練集,并輸入一系列的真核植物基因來驗證預測的準確性。用戶可以登陸其網(wǎng)頁完成啟動驗證預測的準確性。用戶可以登陸其網(wǎng)頁完成啟動子子預測。以預測。以人類磷酸丙酮酸水合酶基因序列人類磷酸丙酮酸水合酶基因序列(X56832X56832)為查詢序列用)為查詢序列用HCtataHCtata進行進行預測。預測。內(nèi)含子剪接位點內(nèi)含子剪接位點RNARNA的的剪剪接接就就是是要要把把斷斷裂裂基基因因的的轉轉錄錄本本中中的的內(nèi)內(nèi)含含子子除除去去。剪剪接接連連接接點點(splicing(splicing junctions)junctions)是是指指在在切切斷斷和和重重接接位位點點處處的的兩兩旁旁的的順順序序。在在內(nèi)內(nèi)含含子子左左側側的的連連接接點點稱稱為為供供體體(donor)(donor),在在內(nèi)內(nèi)含含子子右右側側的的稱稱為為受受體體(acceptor)(acceptor)。在在細細胞胞核核的的結結構構基基因因(即即編編碼碼多多肽肽的的基基因因)中中的的所所有有內(nèi)內(nèi)含含子子在在外外顯顯子子-內(nèi)內(nèi)含含子子連連接接處處均均有有GTGT.AG.AG的的共共同同順順序序。較較詳詳細細的的共共同同順順序序如如下下,供供體體位位點點受受體體位位點點:外外顯顯子子.AGGTAAGT.AGGTAAGT.內(nèi)內(nèi)含含子子.Py10CAG.Py10CAG.外外顯顯子子箭頭表示切斷的鍵。這些還是較短的共同順序,存在箭頭表示切斷的鍵。這些還是較短的共同順序,存在于幾乎所有的真核生物中。于幾乎所有的真核生物中。由于存在多種剪接機制,以及調(diào)控下的交替剪接,已有的程序中由于存在多種剪接機制,以及調(diào)控下的交替剪接,已有的程序中預測精度也有待提高。一些復合基因預測程序中包含剪接位點的預測精度也有待提高。一些復合基因預測程序中包含剪接位點的預測。另外預測。另外WebGeneWebGene上提供專門的剪接位點預測服務,用戶可通上提供專門的剪接位點預測服務,用戶可通過過WebGeneWebGene首頁首頁 (http:/r.it/webgene/http:/r.it/webgene/)登陸)登陸或直接登陸或直接登陸SpliceviewSpliceview(http:/r.it/webgene/wwwspliceview.htmlhttp:/r.it/webgene/wwwspliceview.html)輸出結果包括兩部分,以表格形式列出的供體和受輸出結果包括兩部分,以表格形式列出的供體和受體可能的位點和相應的外顯子、內(nèi)含子以及所給的體可能的位點和相應的外顯子、內(nèi)含子以及所給的可能性位點分值;以示意圖形式表示的整個查詢序可能性位點分值;以示意圖形式表示的整個查詢序列上供體和受體可能的位點所在的位置。列上供體和受體可能的位點所在的位置。起始密碼子起始密碼子翻譯的起始位點對真核生物,如果轉錄起始位點已翻譯的起始位點對真核生物,如果轉錄起始位點已知,并且沒有內(nèi)含子打斷知,并且沒有內(nèi)含子打斷55翻譯區(qū)的話,可以在大翻譯區(qū)的話,可以在大多數(shù)情況下定位起始密碼子。原核生物一般沒有剪多數(shù)情況下定位起始密碼子。原核生物一般沒有剪接過程,但在開放閱讀框中找到正確的起始密碼子接過程,但在開放閱讀框中找到正確的起始密碼子仍很困難仍很困難。這種情況下,由于多順反操縱子的存在,啟動子定這種情況下,由于多順反操縱子的存在,啟動子定位雖然有用,但不象在真核生物中那樣起關鍵作用。位雖然有用,但不象在真核生物中那樣起關鍵作用。對于原核生物,關鍵是核糖體結合位點的可靠定位。對于原核生物,關鍵是核糖體結合位點的可靠定位。Web GeneWeb Gene上的上的AUG_EVALUATORAUG_EVALUATOR提供了起始密碼所在位提供了起始密碼所在位點探測服務,用戶可通過點探測服務,用戶可通過WebGeneWebGene首頁首頁 (http:/r.it/webgene/http:/r.it/webgene/)選擇)選擇AUGAUG。終止信號終止信號 DNADNA中有轉錄終止信號,稱為終止子,在終止子處,中有轉錄終止信號,稱為終止子,在終止子處,RNARNA聚合酶停止其聚合作用,將新生聚合酶停止其聚合作用,將新生RNARNA鏈釋出,并鏈釋出,并離開模板離開模板DNADNA。在某些位點處,終止需要一種輔助蛋。在某些位點處,終止需要一種輔助蛋白質(zhì),即白質(zhì),即因子,但在其他位點處,核心酶本身即因子,但在其他位點處,核心酶本身即可終止轉錄??山K止轉錄。不依賴不依賴因子的終止子有兩個特征因子的終止子有兩個特征:1DNA1DNA順序有雙重對稱順序有雙重對稱(dyad)(dyad)。2DNA2DNA模板鏈中有一串約模板鏈中有一串約6 6個個A A,轉錄為,轉錄為RNA3RNA3端的端的U U。雙重對稱的意義在于其轉錄本能形成發(fā)夾結構。體外雙重對稱的意義在于其轉錄本能形成發(fā)夾結構。體外實驗顯示,如果摻入其他堿基以阻止發(fā)夾形成時,終實驗顯示,如果摻入其他堿基以阻止發(fā)夾形成時,終止即不發(fā)生。止即不發(fā)生。通常只要有一個核苷酸的改變破壞了規(guī)則的雙螺旋通常只要有一個核苷酸的改變破壞了規(guī)則的雙螺旋的莖時,即可破壞終止子的功能。對終止子突變的的莖時,即可破壞終止子的功能。對終止子突變的分析亦顯示分析亦顯示DNADNA模板上多聚模板上多聚dAdA順序的重要性。如將此順序的重要性。如將此序列中的一個堿基換掉,或除去部分序列序列中的一個堿基換掉,或除去部分序列(缺失缺失)都都可使終止子失活。多腺苷酸化和翻譯終止信號雖然可使終止子失活。多腺苷酸化和翻譯終止信號雖然看上去沒有基因起始信號那么重要,但這些信號也看上去沒有基因起始信號那么重要,但這些信號也能幫助劃分基因的范圍。能幫助劃分基因的范圍。許多復合基因預測程序中包括許多復合基因預測程序中包括PolyAPolyA的預測,的預測,WebGeneWebGene上的上的HCpolya HCpolya 提供提供了單獨的了單獨的PolyAPolyA預測程序,它運用預測程序,它運用數(shù)字網(wǎng)絡系統(tǒng)首先預測出可能的數(shù)字網(wǎng)絡系統(tǒng)首先預測出可能的PolyAPolyA位點,然后運位點,然后運用神經(jīng)網(wǎng)絡系統(tǒng),從用神經(jīng)網(wǎng)絡系統(tǒng),從EMBLEMBL上抽取了上抽取了10001000個個PolyAPolyA信號信號實例作為訓練集。實例作為訓練集。HCpolyaHCpolya的具體應用與的具體應用與WebGeneWebGene上的上的其它應用程序相同。用戶直接登陸其網(wǎng)頁輸入查詢序其它應用程序相同。用戶直接登陸其網(wǎng)頁輸入查詢序列即可。列即可。其他特征信號的探測對推進基因的識別也有幫其他特征信號的探測對推進基因的識別也有幫助,如助,如CpGCpG島的預測等。用戶可上島的預測等。用戶可上WebGeneWebGene網(wǎng)頁網(wǎng)頁進行預測進行預測。用戶。用戶可以登陸選擇相應的程序進行可以登陸選擇相應的程序進行預測。預測。CpGCpG島:島:CpGCpG島島(CpG island)(CpG island)一詞是用來描述哺乳動一詞是用來描述哺乳動物基因組物基因組DNADNA中的一部分序列,其特點是胞嘧啶中的一部分序列,其特點是胞嘧啶(C)(C)與鳥嘌呤與鳥嘌呤(G)(G)的總和超過的總和超過4 4種堿基總和的種堿基總和的50%50%,即每,即每1010個核苷酸約出現(xiàn)一次雙核苷酸序列個核苷酸約出現(xiàn)一次雙核苷酸序列CGCG。具有這種特。具有這種特點的序列僅占基因組點的序列僅占基因組DNADNA總量的總量的10%10%左右左右。從已知的從已知的DNADNA序列統(tǒng)計發(fā)現(xiàn),幾乎所有的管家基因序列統(tǒng)計發(fā)現(xiàn),幾乎所有的管家基因(House-Keeping gene)(House-Keeping gene)及約占及約占40%40%的組織特異性基因的組織特異性基因的的5 5末端末端含有含有CpGCpG島,其序列可能包括基因轉錄的島,其序列可能包括基因轉錄的啟動子及第一個外顯子。因此,在大規(guī)模啟動子及第一個外顯子。因此,在大規(guī)模DNADNA測序計測序計劃中,每發(fā)現(xiàn)一個劃中,每發(fā)現(xiàn)一個CpGCpG島,則預示可能在此存在基因島,則預示可能在此存在基因。復合基因分析程序復合基因分析程序 GenebuilderGenebuilder主講教師:趙雨杰主講教師:趙雨杰復合基因分析程序復合基因分析程序復合復合基因分析程序就是把若干個分析基因特征的程基因分析程序就是把若干個分析基因特征的程序結合在一起,對查詢序列進行綜合分析,先遮蔽序結合在一起,對查詢序列進行綜合分析,先遮蔽重復序列,找出可能的信號區(qū),再進行同源序列搜重復序列,找出可能的信號區(qū),再進行同源序列搜索。然后,對相應打分函數(shù)進行優(yōu)化,以確定外顯索。然后,對相應打分函數(shù)進行優(yōu)化,以確定外顯子,并給出與所有現(xiàn)有數(shù)據(jù)最一致的可能基因子,并給出與所有現(xiàn)有數(shù)據(jù)最一致的可能基因結構。結構。最后不僅給出查詢序列上的外顯子可能的位置,而最后不僅給出查詢序列上的外顯子可能的位置,而且給出查詢序列上的且給出查詢序列上的cDNAcDNA及其編碼蛋白序列。這對及其編碼蛋白序列。這對我們尋找可能的基因,確定其編碼蛋白,研究它們我們尋找可能的基因,確定其編碼蛋白,研究它們的生物學意義有很大的幫助。的生物學意義有很大的幫助。最初的計算機輔助基因識別程序主要處理識別基因最初的計算機輔助基因識別程序主要處理識別基因的分離特征,如前面所介紹的,單獨識別剪切位點,的分離特征,如前面所介紹的,單獨識別剪切位點,單獨分析啟動子的位點,或只識別不涉及信號的編單獨分析啟動子的位點,或只識別不涉及信號的編碼區(qū)的規(guī)律性等。但是,如果一個剪接位點將一段碼區(qū)的規(guī)律性等。但是,如果一個剪接位點將一段編碼區(qū)隔斷,那它有助于檢測時在一邊尋找編碼區(qū),編碼區(qū)隔斷,那它有助于檢測時在一邊尋找編碼區(qū),而在另一邊尋找非編碼區(qū)而在另一邊尋找非編碼區(qū)。這說明綜合考慮待定特征的整體一致性能顯著提高這說明綜合考慮待定特征的整體一致性能顯著提高預測的精度。例如,在單獨的外顯子預測程序中,預測的精度。例如,在單獨的外顯子預測程序中,有的程序長度在有的程序長度在50bp50bp以下的外顯子往往被遺漏,但以下的外顯子往往被遺漏,但如果使用復合基因分析程序,在分析中加上一個簡如果使用復合基因分析程序,在分析中加上一個簡單的剪接和框架邏輯分析后就能檢測出來。單的剪接和框架邏輯分析后就能檢測出來。http:/r.it/webgene/genebuilder.htmlGenebuilderGenebuilder通過不同的方法檢測查詢序列上的功能通過不同的方法檢測查詢序列上的功能性位點和編碼區(qū)域,在預測過程中結合性位點和編碼區(qū)域,在預測過程中結合ESTEST數(shù)據(jù)庫搜數(shù)據(jù)庫搜索和蛋白質(zhì)同源性比較,用動態(tài)的方法得到可能的索和蛋白質(zhì)同源性比較,用動態(tài)的方法得到可能的基因結構,該程序設置了若干參數(shù)預測和精選可能基因結構,該程序設置了若干參數(shù)預測和精選可能的基因結構。由于加入了預測出的外顯子與相關蛋的基因結構。由于加入了預測出的外顯子與相關蛋白的同源性比較這一步,預測的精度大大提高。而白的同源性比較這一步,預測的精度大大提高。而且,在較低同源性的情況下,且,在較低同源性的情況下,GenebuilderGenebuilder仍能較準仍能較準確的預測出可能基因結構。確的預測出可能基因結構。通過檢驗,通過檢驗,GenebuilderGenebuilder的的敏感度達的的敏感度達0.890.89,特異性,特異性達達0.910.91,總的相關系數(shù)為,總的相關系數(shù)為0.880.88。該程序的優(yōu)點是,。該程序的優(yōu)點是,用戶輸入一個查詢序列,該程序不僅預測出可能的用戶輸入一個查詢序列,該程序不僅預測出可能的編碼區(qū)位置片段,編碼的蛋白肽段,編碼區(qū)位置片段,編碼的蛋白肽段,CpG CpG islandisland,而且而且給出給出TATA boxTATA box位點、位點、PolyAPolyA位置、轉錄因子以及位置、轉錄因子以及同源性比較結果等。用戶不需分別應用不同的程序同源性比較結果等。用戶不需分別應用不同的程序預測就能得到綜合的結果。預測就能得到綜合的結果。GenebuilderGenebuilder應用起來很簡單,用戶通過登陸其應用起來很簡單,用戶通過登陸其WebWeb頁面,選擇相應參數(shù),是否選擇剪接位點、同源蛋頁面,選擇相應參數(shù),是否選擇剪接位點、同源蛋白、白、TATA boxTATA box等項,然后輸入查詢序列,點擊等項,然后輸入查詢序列,點擊start start analysisanalysis即可完成查詢。輸出的結果可以選擇即可完成查詢。輸出的結果可以選擇e
收藏
編號:73982957
類型:共享資源
大小:115.48MB
格式:ZIP
上傳時間:2022-04-12
35
積分
- 關 鍵 詞:
-
生物信息學
本科教學課件
生物
信息學
本科
教學
課件
- 資源描述:
-
生物信息學本科教學課件,生物信息學,本科教學課件,生物,信息學,本科,教學,課件
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。