《生物信息學(xué)》復(fù)習(xí)資料

上傳人：cjc****537 文檔編號(hào)：52463967 上傳時(shí)間：2022-02-08 格式：DOC 頁(yè)數(shù)：16 大?。?30.50KB

收藏版權(quán)申訴舉報(bào) 下載

第1頁(yè) / 共16頁(yè)

第2頁(yè) / 共16頁(yè)

第3頁(yè) / 共16頁(yè)

下載文檔到電腦，查找使用更方便

10 積分

下載資源

還剩頁(yè)未讀，繼續(xù)閱讀

資源描述：

《《生物信息學(xué)》復(fù)習(xí)資料》由會(huì)員分享，可在線閱讀，更多相關(guān)《《生物信息學(xué)》復(fù)習(xí)資料（16頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、《生物信息學(xué)》復(fù)習(xí)資料《生物信息學(xué)》先鋒版中譯本第二版科學(xué)出版社打分政策:60% 期末考試（70%掌握內(nèi)容、25% 熟悉內(nèi)容、5% 理解內(nèi)容）（請(qǐng)注意紅體與黑體字） A: 生物信息學(xué)概述 1. 生物信息學(xué)：生物信息學(xué)是生物學(xué)和信息技術(shù)的結(jié)合，是現(xiàn)代科學(xué)的又一個(gè)分支學(xué)科，它利用計(jì)算機(jī)對(duì)大量生物數(shù)據(jù)進(jìn)行分析處理。生物信息學(xué)把用于存儲(chǔ)和搜索數(shù)據(jù)的數(shù)據(jù)庫(kù)開(kāi)發(fā)，與用于分析和確定大分子序列、結(jié)構(gòu)、表達(dá)模式和生化途徑等生物數(shù)據(jù)集之間的關(guān)系的統(tǒng)計(jì)工具和算法的開(kāi)發(fā)結(jié)合在一起。數(shù)據(jù)庫(kù) 生物信息學(xué)主要由三大部分組成

2、算法與統(tǒng)計(jì)工具分析與解釋測(cè)序策略：逐個(gè)克隆法、全基因組鳥(niǎo)槍法計(jì)算機(jī)在生物信息學(xué)中的作用：生物信息學(xué)需要計(jì)算機(jī)快速、可靠地執(zhí)行重復(fù)任務(wù)的能力以及處理問(wèn)題的能力。然而，生物信息學(xué)中涉及的許多問(wèn)題仍需要專家的人工處理，同時(shí)原始數(shù)據(jù)的完整性和質(zhì)量也很關(guān)鍵。生物信息學(xué)課程范圍：使初學(xué)者理解生物信息學(xué)的基本原理，并獲得相應(yīng)的應(yīng)用能力。具體包括生物信息學(xué)的一些關(guān)鍵領(lǐng)域：數(shù)據(jù)庫(kù)使用、序列和結(jié)構(gòu)分析工具、注釋工具、表達(dá)分析以及生化和分子途徑分析。 2. 生物信息學(xué)實(shí)例： ——數(shù)據(jù)庫(kù)界面Genbank/EMBL/DD

3、BJ, Medline, SwissProt, PDB, … ——序列搜索與比對(duì)BLAST, FASTA, Clustal, MultAlin, DiAlign ——基因搜索Genscan, GenomeScan, GeneMark, GRAIL ——蛋白結(jié)構(gòu)域分析與鑒定pfam, BLOCKS, ProDom, ——基因調(diào)控元件的計(jì)算機(jī)模式識(shí)別 Gibbs Sampler, AlignACE, MEME ——蛋白折疊預(yù)測(cè)PredictProtein, SwissModeler 生物信息學(xué)網(wǎng)站：包括生物信息學(xué)資源、各種數(shù)據(jù)庫(kù)和生物信息學(xué)分析工具的網(wǎng)站 3. 五個(gè)必須知道的生物

4、信息學(xué)網(wǎng)站：（詳細(xì)參考書(shū)本p9） NCBI (The National Center for Biotechnology Information)http://www.ncbi.nlm.nih.gov/ EBI (The European Bioinformatics Institute)http://www.ebi.ac.uk/ The Canadian Bioinformatics Resourcehttp://www.cbr.nrc.ca/ SwissProt/ExPASy (Swiss Bioinformatics Resource)http://expasy.cbr.nrc.

5、ca/sprot/ PDB (The Protein Databank)http://www.rcsb.org/PDB/ B: 數(shù)據(jù)采集一、DNA, RNA 和蛋白質(zhì)測(cè)序 1. DNA 測(cè)序原理： DNA測(cè)序是采用全自動(dòng)的鏈終止反應(yīng)完成的，這一技術(shù)通過(guò)加入限量的雙脫氧核苷酸來(lái) 產(chǎn)生有特定終止堿基的嵌套DNA片段。共有4種反應(yīng)，每種代表DNA 4個(gè)堿基中的一個(gè)，每個(gè)堿基分別帶有不同的熒光標(biāo)記。DNA片段通過(guò)聚丙烯酰胺凝膠電泳(PAGE)分離，當(dāng)每個(gè)片段移動(dòng)到凝膠的末端時(shí)可以通過(guò)掃描儀讀取序列。 2. DNA 序列類型： DNA序列來(lái)源主要有3種方式?；蚪MDNA直接來(lái)自基

6、因組，包括基因和基因外核酸序列，真核生物的基因組DNA包含內(nèi)含子；cDNA由mRNA反轉(zhuǎn)錄而來(lái)，并且只對(duì)應(yīng)于基因組中能表達(dá)的部分，它不包含內(nèi)含子；最后，重組DNA來(lái)自實(shí)驗(yàn)室，包含克隆載體等人工DNA分子。 3. 基因組測(cè)序策略：一次讀段(one read)只能用于短的DNA分子(約800bp)測(cè)序，所以大的DNA分子，如基因組，必須首先將其打碎成片段?；蚪M測(cè)序可以分為兩種方式：霰彈法測(cè)序(shot-gun sequencing)包括隨機(jī)DNA片段的生成，通過(guò)大量片段測(cè)序來(lái)覆蓋整個(gè)基因組；與之相反，克隆重疊群測(cè)序（clone contig sequencing）包括亞克隆系統(tǒng)的產(chǎn)生及其

7、測(cè)序。 4. 序列質(zhì)量控制：通過(guò)在DNA雙鏈上進(jìn)行多次讀段完成高質(zhì)量序列數(shù)據(jù)的測(cè)定?？墒褂萌鏟hred等程序?qū)ψ畛醯母檾?shù)據(jù)(trace data)進(jìn)行堿基識(shí)別和質(zhì)量判斷。載體序列和重復(fù)的DNA片段被屏蔽后，使用Phrap程序?qū)⑿蛄衅唇映芍丿B群(contigs)，剩下的不一致部分通過(guò)人工校對(duì)解決。 5. 單遍（Single-pass）測(cè)序：低質(zhì)量的序列數(shù)據(jù)可以由單次讀段產(chǎn)生（單遍測(cè)序，single-pass sequencing）。盡管不很準(zhǔn)確，但單遍序列如ESTs和GSSs，可以以低廉的價(jià)格快速大量地產(chǎn)生。 6. RNA 測(cè)序：大部分RNA序列可以從相應(yīng)的DNA序列推斷得到

8、，但是需要用特殊的方法來(lái)識(shí)別被改變的核苷，這些方法包括：生化實(shí)驗(yàn)、核磁共振譜( NMR spectroscopy)、質(zhì)譜 7. 蛋白質(zhì)測(cè)序：目前，大部分蛋白質(zhì)測(cè)序是通過(guò)質(zhì)譜(MS)技術(shù)進(jìn)行的，應(yīng)用這一技術(shù)可以通過(guò)測(cè)量真空中離子的分子質(zhì)量／電荷比來(lái)計(jì)算精確的分子質(zhì)量。軟離子化方法可以對(duì)蛋白質(zhì)這樣的大分子進(jìn)行質(zhì)譜分析。通過(guò)比較經(jīng)胰蛋白酶裂解而獲得的多肽片段的分子質(zhì)量與從數(shù)據(jù)庫(kù)中蛋白質(zhì)的虛擬消化(virtual digest)預(yù)測(cè)而來(lái)的分子質(zhì)量的異同推斷序列。通過(guò)在碰撞室(collision cell)中產(chǎn)生的蛋白質(zhì)片段嵌套集合可以進(jìn)行重新測(cè)序，并可通過(guò)單個(gè)氨基酸殘基計(jì)算不同長(zhǎng)度片段間分子質(zhì)

9、量的差異。二、蛋白質(zhì)結(jié)構(gòu)的確定 1. X-ray 衍射晶體學(xué)： X衍射晶體學(xué)是一種通過(guò)精確定向的蛋白質(zhì)晶體的X射線衍射模式來(lái)確定蛋白質(zhì)結(jié)構(gòu)的方法。這種方法中，X射線因晶體中原子的電子密度和空間方向的不同而發(fā)生散射，可用傅立葉變換的數(shù)學(xué)方法從衍射數(shù)據(jù)中重構(gòu)電子密度圖，以建立結(jié)構(gòu)模型。 2. 核磁共振譜： NMR是某些原子的一種屬性，即在外加磁場(chǎng)范圍內(nèi)原子通過(guò)吸收電磁輻射可以在不同的磁狀態(tài)間轉(zhuǎn)換。吸收光譜的性質(zhì)受原子類型及其周圍化學(xué)性質(zhì)影響，所以NMR spectroscopy可以區(qū)分不同的化學(xué)功能團(tuán)。核磁共振譜也因空間上原子的接近而改變。NMR譜的分析可以重建原子的三維構(gòu)型

10、，產(chǎn)生一系列結(jié)構(gòu)模型。這一技術(shù)只適合小的可溶性蛋白的分析。 3. 其他方法：對(duì)于大的不容易結(jié)晶的蛋白質(zhì)，需要用其他的分析方法來(lái)推測(cè)結(jié)構(gòu)，這包括X射線纖維衍射、電子顯微鏡和CD光譜(circular dichroism spectroscopy) 。 C:數(shù)據(jù)庫(kù)——內(nèi)容、結(jié)構(gòu)和注釋一、文件格式 1. 三種常用序列格式：常用核酸和蛋白序列格式：①NBRF/PIR格式文件名后綴為：.pir o或 .seq ②FASTA格式文件名后綴為：.fasta ③GDE格式

11、文件名后綴為 gde 例： ID代碼: 5H1B_CAVPO 序列登錄號(hào): O08892 NBRF/PIR格式: >P1; 5HT1B_CAVPO Guinea pig serotonin receptor accession: O08892 MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT... FASTA格式: >5HT1B_CAVPO O08892 | guinea pig serotonin receptor MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIA

12、LPWKVLLVVLLALIT... GDE格式: % 5HT1B_CAVPO O08892 | guinea pig serotonin receptor MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT... 2. 比對(duì)序列文件：可用下述常用格式中任何一種： NBRF/PIR, FASTA,GDE 多序列比對(duì)格式：MSF, PHYLIP and ALN 3. 結(jié)構(gòu)數(shù)據(jù)文件：結(jié)構(gòu)數(shù)據(jù)用PDB格式的平面文件(flat files)來(lái)維護(hù)，這類文件包含：正交的原子坐標(biāo)值（X, Y, Z軸）；注釋、說(shuō)明

13、和實(shí)驗(yàn)細(xì)節(jié)。 NOTE：1、ATOM行以字符計(jì)數(shù)，而不是以單詞計(jì)數(shù)； 2、NMR文件沒(méi)有分辨率REMARK行。二、已注釋的序列數(shù)據(jù)庫(kù) 1. 初級(jí)序列數(shù)據(jù)庫(kù)：保存raw sequence data, 并對(duì)每個(gè)條目做了進(jìn)一步的注釋： feature table---properties of seq. 2. 輔助序列數(shù)據(jù)庫(kù)：特別類型的序列數(shù)據(jù). eg. ESTs, GSSs and unfinished genomic seq. data 3. 序列提交：Sequence（序列）→Internet（互聯(lián)網(wǎng)）→NCBI/EMBL/DDBJ（數(shù)據(jù)庫(kù)） 4.

14、 SWISS-PROT 和 TrEMBL： SWISS-PROT: 收集了確認(rèn)的蛋白質(zhì)序列及與結(jié)構(gòu)、功能和所屬蛋白質(zhì)家族有關(guān)的注釋信息。 TrEMBL: 翻譯了初級(jí)核酸數(shù)據(jù)庫(kù)中的編碼序列。TrEMBL中各條目的注釋不如SWISS-PROT中的條目那樣詳細(xì)。 5. 數(shù)據(jù)庫(kù)查詢： Searching by Sequence similarity→BLAST Text-based Searching→Entrez or SRS accession number accession number：提供基因及其產(chǎn)物的唯一標(biāo)示號(hào) D: 生物數(shù)據(jù)檢索一、通過(guò) Entrez 和DB

15、GET/LinkDB進(jìn)行數(shù)據(jù)檢索 1. 訪問(wèn)分布數(shù)據(jù)：利用專業(yè)的數(shù)據(jù)檢索工具 Entrez, DBGET 和 SRS 進(jìn)行數(shù)據(jù)庫(kù)搜索 2. Entrez：Entrez 可以用來(lái)搜索 NCBI 中集成的所有數(shù)據(jù)庫(kù)包括 GenBank, OMIM 以及文獻(xiàn)數(shù)據(jù)庫(kù) MEDLINE 3. NCBI 和 Entrez：Entrez→All databases模式搜索，以文本是形式進(jìn)行文本搜索：以單詞或邏輯短語(yǔ)為關(guān)鍵詞 4. DBGET/LinkDB DBGET/ LinkDB : 日本京都大學(xué)和人類基因組中心聯(lián)合開(kāi)發(fā)的集成數(shù)據(jù)檢索系統(tǒng)。它整合了20數(shù)據(jù)庫(kù)并與KEGG相關(guān)聯(lián)。 LinDB:

16、 is a database of links, each of which is represented as a binary relation in the form of: dbname1:identifier1 --> dbname2:identifier2 DBGET: has powerful capabilities to search against this graph object The molecular biology databases in the world can be retrieved uniformly by specifying the

17、 combination of the database name and the identifier: dbname:identifier Identifier：organism:gene 三種搜索模式：bget, bfind, blink 2、使用 SRS 的數(shù)據(jù)檢索 1. 開(kāi)源SRS：SRS 由歐洲生物信息研究所開(kāi)發(fā)，其集成有80多個(gè)分子生物學(xué)數(shù)據(jù)庫(kù)。SRS可下載和安裝在本地計(jì)算機(jī)上使用。 2. 使用 SRS ：SRS 與 Entrez 和DBGET的數(shù)據(jù)分類的原理不同。 SRS的使用包括選擇一個(gè)或多個(gè)分組，在每一個(gè)選定的組中選擇一個(gè)或多個(gè)現(xiàn)有的數(shù)據(jù)庫(kù)。查詢方式有

18、兩種: 標(biāo)準(zhǔn)模式、擴(kuò)展模式。 3. 安裝 SRS ：SRS 可以通過(guò)腳本語(yǔ)言ICARUS編程來(lái)查詢使用者自己的數(shù)據(jù)庫(kù)。 E: 通過(guò)序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫(kù)（重難點(diǎn)章節(jié)）一、以序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫(kù) 1. 序列相似性搜索 1.1. 序列相似性搜索：通過(guò)序列相似性來(lái)搜索數(shù)據(jù)庫(kù)，我們可以找到與所查詢序列相似的序列。可以用這些找到的序列信息來(lái)預(yù)測(cè)查詢序列的結(jié)構(gòu)或功能。依據(jù)相似性進(jìn)行預(yù)測(cè)是生物信息學(xué)中強(qiáng)大而且廣泛使用的方法，其根本依據(jù)是分子進(jìn)化。當(dāng)序列擁有—個(gè)共同的祖先序列時(shí)，它們往往在序列、結(jié)構(gòu)和生物學(xué)功能上具有相似性。這很可能是生物信息學(xué)上最重要的思想，因?yàn)?/p>

19、它使得我們可以進(jìn)行預(yù)測(cè)。 1.2. 序列比對(duì)：任何一對(duì)DNA序列都有一定程度的相似。序列比對(duì)：是使相似度量化的第一步，用來(lái)區(qū)分偶然性的相似和真實(shí)的生物學(xué)關(guān)系。比對(duì)結(jié)果：以變化（突變）、插入或缺失（indels或空位）來(lái)顯示序列之間的差異，這些差異可以用進(jìn)化術(shù)語(yǔ)來(lái)說(shuō)明。 1.3. 比對(duì)算法：動(dòng)態(tài)規(guī)劃算法（Dynamic programming algorithms）可以計(jì)算兩條序列之間的最佳聯(lián)配。兩個(gè)變體: Smith-Waterman algorithm: local align. Needleman-Wunsch algorithm: global ali

20、gn. 當(dāng)序列不是全長(zhǎng)關(guān)聯(lián)時(shí)局部比對(duì)是有效的。例如僅在某些特定功能域相似的蛋白質(zhì)序列，或僅在外顯子區(qū)域關(guān)聯(lián)的DNA序列等。 Local alignment---BLAST 1.4. 比對(duì)打分和空位罰分：用簡(jiǎn)單的比對(duì)打分來(lái)測(cè)量相同匹配殘基的比例或數(shù)目。得從比對(duì)打分中扣去空位罰分，以保證比對(duì)算法能得出有生物學(xué)意義的結(jié)果而沒(méi)有太多的空位。 Score: S = sum (si) + sum (xk) 空位罰分可以根據(jù)預(yù)期的應(yīng)用進(jìn)行調(diào)整。有下述三種情況：固定罰分: 與空位長(zhǎng)度無(wú)關(guān)；比例罰分:與空位長(zhǎng)度成比例；放射罰分: 包括 gap opening 和 gap exten

21、sion 兩部分罰分 Constant: x=u+vk, v=0 Proportional: x=u+vk, u=0 Affine: x=u+vk, u, v≠ 0 k is the number (length) of the linked gaps 例：SEQ1: AATTGATTGCGCATTTAAAGGG SEQ2: AACTGA - - - CGCATCTTAAGGG K=3 我們并不總是很清楚空位罰分常數(shù)u 和 v該采用什么值，這在某種程度上依賴于所比對(duì)的序列的性質(zhì)。 Close sequence relationship: higher gap pen

22、alties Distant relationships: lower gap penalties 1.5. 序列相似性測(cè)量：序列相似度可用比對(duì)算法、序列一致性百分率（ percentage sequence identities ）或更復(fù)雜的方法得出的分值來(lái)量化。 SEQ1: AATTGATTGCGCATTTAAAGGG SEQ2: AACTGA - - - CGCATCTTAAGGG percentage sequence identities: (16/22) ×100=73% Note：必須是在長(zhǎng)的比對(duì)結(jié)果中找到的高比例一致，才有可能反映真正的生物學(xué)或進(jìn)化關(guān)系。

23、對(duì)DNA序列來(lái)說(shuō)，比對(duì)序列并使序列一致性百分率（即percentage sequence identities ）最大化是合乎情理的。但對(duì)蛋自序列而言，則應(yīng)該更多地考慮組成序列的單體的屬性。某些氨基酸之間的替代比其他氨基酸更頻繁，所以，在蛋白序列比對(duì)算法中需要考慮這個(gè)因素。 1.6. 相似性和同源性：任何序列之間均存在相似，但是僅當(dāng)序列是從一個(gè)共同的祖先進(jìn)化而來(lái)時(shí)，它們才是同源的。同源序列常常具有相似的生物學(xué)功能, 但是基因復(fù)制的進(jìn)化機(jī)制允許生物體有多余的基因拷貝。這些多余的基因拷貝于是自由地進(jìn)化出新的功能，成為有不同功能的同源基因。直系同源（orthologs）: 不同物種的兩

24、個(gè)同源基因有相同的功能，就稱它們是直系同源; 旁系同源（paralogs）: 當(dāng)同一或不同物種的兩個(gè)基因有不同的功能，就把它們稱為是旁系同源. 不同功能的同源基因的例子：溶解酶（lysozyme，一種酶）和α-乳白蛋白（α-lactalbumin，一種哺乳動(dòng)物調(diào)節(jié)蛋白）。這些蛋白質(zhì)有非常相似的序列，幾乎已肯定是同源的，但卻有極其不同的功能。 2. 氨基酸替換矩陣（難點(diǎn)） 2.1. 相同氨基酸數(shù)目的最大化：比對(duì)蛋白質(zhì)序列從而使相同的氨基酸數(shù)目（即percentage sequence identities）最大化。其中，每對(duì)匹配的相同氨基酸對(duì)比對(duì)分值的貢獻(xiàn)是1，不一致的氨基酸對(duì)

25、對(duì)比對(duì)分值的貢獻(xiàn)是0。（如下圖所示）這是對(duì)密切相關(guān)的序列進(jìn)行比對(duì)的好方法，但這并不能揭示遠(yuǎn)親之間的進(jìn)化關(guān)系。 2.2. 進(jìn)化：因?yàn)橐S持蛋白質(zhì)結(jié)構(gòu)和功能，所以編碼蛋白質(zhì)的序列的進(jìn)化比基因組的大多數(shù)其他部分的進(jìn)化更為緩慢。一個(gè)例外是快速進(jìn)化也可能發(fā)生在新近復(fù)制基因的多余拷貝中。 2.3. 允許的替換：進(jìn)化中蛋白序列的變化往往包括相近屬性氨基酸間的替代，因?yàn)檫@樣才能保持蛋白質(zhì)的結(jié)構(gòu)穩(wěn)定。比如：同一進(jìn)化家族的蛋白質(zhì)序列通常表現(xiàn)為有相似物理化學(xué)性質(zhì)的氨基酸間的替代。 2.4. 替換打分矩陣：這些矩陣給進(jìn)化中所有可能的氨基酸替換打分，分值越高，意味著替換的可能性越大

26、。進(jìn)行序列比對(duì)的動(dòng)態(tài)規(guī)劃算法可以采用從這些矩陣得到的分值來(lái)進(jìn)行運(yùn)算。E.g. BLOSUM62 and PAM250. PAM: Accepted Point Mutations（認(rèn)可的點(diǎn)突變） PAM250: 表示矩陣的進(jìn)化距離是每100個(gè)殘基有250個(gè)氨基酸變化。 PAMn: n值越小，表示進(jìn)化距離越短。 PAM250 BLOSUM: blocks substitution matrix BLOSUM62: 用于構(gòu)造矩陣的blocks的最小序列一致性百分?jǐn)?shù)至少為 62%。更小數(shù)字的BLOSUM矩陣表示更長(zhǎng)的進(jìn)化距離（BLOSUM50所代表的進(jìn)化距離要比BLOSUM62要長(zhǎng)）

27、。 Note: BLOSUM 矩陣通常比 PAM 好用。 Blossum62 Note: 一致氨基酸比對(duì)的分值也有差異，這反映了氨基酸在天然蛋白序列中的出現(xiàn)頻率的不同。兩個(gè)相同的非常見(jiàn)氨基酸的比對(duì)（如W和W）要比兩個(gè)相同的常見(jiàn)氨基酸的比對(duì)更有可能反映一個(gè)進(jìn)化上有意義的比對(duì)。因此，相同的非常見(jiàn)氨基酸的比對(duì)具有更高的分值。 2.5. 意義：替換打分矩陣可以查找蛋白質(zhì)序列間較遠(yuǎn)的親緣關(guān)系。 NOTE：蛋白序列比對(duì)比核酸序列比對(duì)更可能找到較遠(yuǎn)的親緣關(guān)系。 2.6. 可視化：點(diǎn)陣圖（Dot plots）-點(diǎn)陣圖是使序列相似性可視化并找到重復(fù)片段的一一個(gè)非常好的方法。 3. 數(shù)據(jù)庫(kù)搜索

28、: FASTA 和 BLAST： 3.1. 數(shù)據(jù)庫(kù)搜索：把查詢序列與數(shù)據(jù)庫(kù)中每條序列依次比對(duì)并返回最高分（最相似）序列，就能找到與查詢序列相近的序列。這可以通過(guò)動(dòng)態(tài)規(guī)劃算法完成，但實(shí)際上常用的是更快的近似方法。 3.2. 算法和軟件： BLAST 和 FASTA 提供了非?？焖俚男蛄袛?shù)據(jù)庫(kù)搜索途徑。與動(dòng)態(tài)規(guī)劃不同，它們并不能保證找到數(shù)據(jù)庫(kù)里每條序列的最佳可能比對(duì)，但實(shí)際上這對(duì)性能的影響通常來(lái)說(shuō)是最小的。它們最初通過(guò)搜索短的一致或接近一致匹配的字母（word）片段，然后再將這些片段延伸到更長(zhǎng)的匹配。 BLAST 和 FASTA 都基于同樣的假設(shè)，即高分值的比對(duì)結(jié)果可能含有短的一致或近似一

29、致的序列片段（short stretches or words) 。（1）BLAST: W (word length); T (threshold score); 尋找長(zhǎng)度為W比對(duì)得分 > T 的words ↓ 擴(kuò)展這些 words 直到比對(duì)得分跌落到一定值, 產(chǎn)生大量 HSPs (high-scoring segment pairs) ↓ 通過(guò)動(dòng)態(tài)規(guī)劃比對(duì)好全部序列高打分區(qū)域，得出最終比對(duì)結(jié)果及其分值。（2）FASTA: ktup;

30、尋找完全匹配的長(zhǎng)度為ktup的 words ↓ 尋找含有高密度words 匹配的 ungapped 的序列比對(duì) ; 將其組裝成高分值的 gapped 的序列比對(duì) ↓ 通過(guò)動(dòng)態(tài)規(guī)劃比對(duì)好全部序列高打分區(qū)域，得出最終比對(duì)結(jié)果及其分值。 3.3. 統(tǒng)計(jì)得分：相似度記分的p值是指獲得至少與兩條無(wú)關(guān)序列間的偶然相似性一樣高的分值的概率。低p值表明重要的匹配，這些匹配可能會(huì)有真實(shí)生物學(xué)意義。相關(guān)的E值是至少與所識(shí)別的相似性記同樣高分值的偶然事件的期望頻率。兩序列間相似度的低p值對(duì)

31、應(yīng)于大數(shù)據(jù)庫(kù)搜索的高E值。low p→high E 當(dāng)E值很小的時(shí)候和p值很接近 3.4. 敏感性和特異性：敏感性衡量數(shù)據(jù)庫(kù)中真實(shí)生物序列關(guān)系的比例，該關(guān)系表現(xiàn)為擊中項(xiàng)（hit）。特異性指的是對(duì)應(yīng)于真實(shí)生物學(xué)關(guān)系的擊中項(xiàng)的比例。這些測(cè)度量化了數(shù)據(jù)庫(kù)搜索策略的優(yōu)良度。 Sensitivity: Sn = ntp / (ntp + nfn ) Specificity: Sp = ntp / (ntp + nfp ) 注：（tp: true positive；fn: false negative；fp: false positive）改變E和p的默認(rèn)值會(huì)

32、導(dǎo)致這些互補(bǔ)的優(yōu)良度測(cè)量方法之間的平衡。 3.5. 數(shù)據(jù)庫(kù)類型：數(shù)據(jù)庫(kù)和查詢序列可以是蛋白質(zhì)或核苷酸序列，不同種類的序列和組合有不同的查詢策略。一般來(lái)說(shuō)，如果使用編碼蛋白質(zhì)的核苷酸數(shù)據(jù)庫(kù)和／或?qū)⒉樵冃蛄蟹g成蛋白質(zhì)序列，搜索會(huì)更加敏感。 3.6. 可行例子和現(xiàn)有程序： BLAST at the NCBI、FASTA at the EBI——搜索許多一般用途的序列數(shù)據(jù)庫(kù)。 RESULTS: 按E value 排序 NOTE: 必須檢查有關(guān)序列的比對(duì)結(jié)果以發(fā)現(xiàn)序列間相似的區(qū)域。 NCBI的BLAST網(wǎng)站：http://www.ncbi.nlm.nih.gov/BLAST/（建議

33、自己動(dòng)手操作以加深理解） 4. 序列過(guò)濾： 4.1. 非特異性的序列相似：一些類型的序列相似要比其他類型難揭示進(jìn)化關(guān)系。 Examples: 低組成復(fù)雜度區(qū)域間的相似，短的重復(fù)片段間的相似以及編碼普通結(jié)構(gòu)的蛋白序列（如卷曲螺旋）間的相似等。 4.2. 相似性搜索：上述區(qū)域類型會(huì)降低相似性搜索結(jié)果的質(zhì)量，所以在搜索前常常要將其從搜索序列中過(guò)濾掉。 SEG and DUST: detect and filter low complexity sequences; XNU: filter short period repeats; COILS: detect the pre

34、sence of potential coiled coil structures. 5. 數(shù)據(jù)庫(kù)迭代搜索和PSI-BLAST 5.1. 尋找進(jìn)化關(guān)系：趨異進(jìn)化可以使蛋白質(zhì)序列變得無(wú)法識(shí)別，但卻保持結(jié)構(gòu)和功能的相似。而B(niǎo)LAST和FASTA此類方法有時(shí)只能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的一小部分進(jìn)化關(guān)系。有許多生物信息學(xué)搜索已經(jīng)著重于發(fā)現(xiàn)序列間的疏遠(yuǎn)進(jìn)化關(guān)系。 5.2. 數(shù)據(jù)庫(kù)的迭代搜索： PSI-BLAST是一種迭代的搜索方法，可以提高BLAST和FASTA的相似序列發(fā)現(xiàn)率。每次迭代都發(fā)現(xiàn)一些中間序列，用來(lái)在接下去的迭代中尋找查詢序列的更多疏遠(yuǎn)相關(guān)序列。 PSI-BLAST常常可以找到比

35、BLAST結(jié)果多達(dá)兩倍的進(jìn)化關(guān)系。 PSI-BLAST的潛在問(wèn)題是存在不相關(guān)序列對(duì)迭代結(jié)果的污染，而其難點(diǎn)則與蛋白質(zhì)的結(jié)構(gòu)域的結(jié)構(gòu)有關(guān)。 F: 多重序列比對(duì): 基因和蛋白家族（實(shí)驗(yàn)四）一、多序列比對(duì)和家族關(guān)系 1.多序列比對(duì)：家族性蛋白質(zhì)和核苷酸序列的內(nèi)在關(guān)系可以用多序列比對(duì)來(lái)闡明。當(dāng)所考察的序列不同時(shí)，保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學(xué)功能的關(guān)鍵殘基。多序列比對(duì)可以揭示關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。與兩序列比對(duì)相比，多序列比對(duì)更富含進(jìn)化保守關(guān)系的信息，因此通常能告訴我們更多的信息。 2.軟件：最著名的是ClustalW 軟件包，ftp://ftp-igbmc.u-str

36、asbg.fr/pub/ClustalX. 3.漸進(jìn)比對(duì)：目前大多數(shù)程序使用漸進(jìn)的比對(duì)方法，該方法有運(yùn)行速度較快的優(yōu)點(diǎn)。該法以兩序列比對(duì)來(lái)初步評(píng)價(jià)序列的相關(guān)性，并在這個(gè)基礎(chǔ)上構(gòu)建向?qū)?shù)（guide tree）；然后使用向?qū)?shù)逐步添加序列到比對(duì)中，從最密切相關(guān)的序列開(kāi)始到距離最遠(yuǎn)的序列結(jié)束。漸進(jìn)比對(duì)方法通常非常有效，但也存在一個(gè)問(wèn)題，即比對(duì)過(guò)程中早期產(chǎn)生的比對(duì)錯(cuò)誤不能被矯正而是被“凍結(jié)”在比對(duì)結(jié)果中。生物化學(xué)知識(shí)有時(shí)能夠提供正確的比對(duì)信息。當(dāng)自動(dòng)產(chǎn)生的比對(duì)結(jié)果不太理想時(shí)，就需要軟件來(lái)人工編輯比對(duì)結(jié)果。漸進(jìn)比對(duì)過(guò)程中常用到幾種精練方法。例如在Clustal程序包中， 1）空位罰

37、分發(fā)生變化以使空位插入更有可能發(fā)生在親水的環(huán)狀區(qū)域； 2）根據(jù)比對(duì)序列的相關(guān)程度可以采用不同的氨基酸替換打分矩陣。二、蛋白家族和模式數(shù)據(jù)庫(kù) 1.蛋白家族：把序列分配到蛋白質(zhì)家族中是預(yù)測(cè)蛋白質(zhì)功能的一種非常有價(jià)值的方法。已開(kāi)發(fā)出許多方法來(lái)代表蛋白質(zhì)家族信息，這些方法存儲(chǔ)在二級(jí)蛋白質(zhì)家族數(shù)據(jù)庫(kù)中。 2.一致序列：是把多序列比對(duì)的信息壓縮至單條序列。主要的缺點(diǎn)是除了在特定位置最常見(jiàn)的殘基（>60%）之外，它們不能表示任伺概率信息。一致序列的缺陷： 1）大量來(lái)自序列的不含一致殘基的信息被忽略掉，即使這些位點(diǎn)包含所允許的保守替換。 2）一致序列的產(chǎn)生說(shuō)明了任何蛋白家族的表示是有偏

38、向的，這主要是由于來(lái)源的序列集是有偏向的。 3.數(shù)據(jù)庫(kù)： 1）PROSITE數(shù)據(jù)庫(kù)：包含與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。數(shù)據(jù)庫(kù)是人工編排的，任何已知的假陽(yáng)性或假陰性都會(huì)報(bào)道出來(lái)。在PROSITE中, 特殊的符號(hào)，包括方括號(hào)（如[LIVM])、波形括號(hào)（如{FD}）和x(n)用來(lái)表示模式中每個(gè)位點(diǎn)可供選擇的殘基。 PROSITE 模式的特點(diǎn)：它們長(zhǎng)度比序列全長(zhǎng)短得多;它們?cè)试S特定位置的替換。因此，它們能夠發(fā)現(xiàn)家族中的遠(yuǎn)親關(guān)系，也能夠幫助我們了解家族成員共有的結(jié)構(gòu)或功能信息。 PROSITE 模式有很多缺點(diǎn)：首先，它們長(zhǎng)度較短使得不相關(guān)序列中有假陽(yáng)性的存在;其

39、次，雖然它們?cè)试S描述特定位置的變化，但無(wú)法計(jì)算該變化的概率。 2）PRINTS和BLOCKS：它們用來(lái)自序列最保守區(qū)域的多序列比對(duì)的無(wú)空位片段(blocks or motifs)來(lái)表示蛋白質(zhì)家族。通過(guò)更多代表序列的信息，它們有可能比短PROSITE模式更為敏感。如果能匹配某特定家族相關(guān)motif的一個(gè)子集就意味著它們有發(fā)現(xiàn)剪接突變體、序列片段以及代表亞家族的能力。兩者都已有基于WWW的數(shù)據(jù)庫(kù)搜索引擎。這些數(shù)據(jù)庫(kù)中的motifs要比PROSITE模式覆蓋更大的序列區(qū)域。與PROSITE不同，序列中motifs的匹配通常要考慮氨基酸替換矩陣，因而對(duì)某一固定模式不要求嚴(yán)格的匹配。因

40、此，這種匹配更為敏感（可以找到更多遠(yuǎn)親關(guān)系）和更加特異（更少的假陽(yáng)性出現(xiàn)）。三、蛋白結(jié)構(gòu)域家族 1.結(jié)構(gòu)域家族：許多蛋白質(zhì)是由結(jié)構(gòu)域以模塊化的方式構(gòu)建的。因此蛋白質(zhì)家族的研究其實(shí)是對(duì)蛋白質(zhì)結(jié)構(gòu)域家族的研究。Prodom是由自動(dòng)方法產(chǎn)生的蛋白質(zhì)結(jié)構(gòu)域序列的數(shù)據(jù)庫(kù)，這一數(shù)據(jù)庫(kù)來(lái)自于蛋白質(zhì)序列數(shù)據(jù)庫(kù)。 2.序列輪廓：又稱為權(quán)重矩陣，它們表示完全的結(jié)構(gòu)域序列，是一種描述蛋白結(jié)構(gòu)域家族相關(guān)序列的方法。多序列比對(duì)中每個(gè)位點(diǎn)的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法。序列輪廓可以被用作某些PROSITE數(shù)據(jù)庫(kù)條目中序列模式之外的替代方法。 3.隱馬爾可夫模型：這類模型是蛋白

41、質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計(jì)模型，包括序列的匹配，插入和缺失狀態(tài)，并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來(lái)生成蛋白質(zhì)序列。代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高，從其他家族中生成序列的概率較低?，F(xiàn)在已有算法可以近似地得出從某特定家族模型中生成一條新的蛋白序列的概率，而且它們可以用來(lái)把新的蛋白序列歸類到某一蛋白家族中。 4.網(wǎng)上資源：Pfam和SMART可以被用于蛋白質(zhì)結(jié)構(gòu)域家族的分析。Interpro聯(lián)合了PROSITE, PRINTS, Pfam, Prodom和SMART，從而形成了一個(gè)整合的資源。 G: 系統(tǒng)發(fā)育學(xué)（實(shí)驗(yàn)四）一、系統(tǒng)發(fā)育學(xué)、遺傳分類學(xué)和

42、存在論 1.物種間的相似性和差異性可以被用來(lái)推斷進(jìn)化關(guān)系（系統(tǒng)發(fā)育學(xué)）。這是因?yàn)椋绻麅晌锓N非常相似，它們可能擁有一個(gè)新近的共同祖先。確定生物體間進(jìn)化關(guān)系的科學(xué)分支即系統(tǒng)發(fā)育學(xué)。三種方法：表現(xiàn)型分類法、遺傳分類法、進(jìn)化分類法系統(tǒng)發(fā)育分析：許多不同的特征能夠用于系統(tǒng)發(fā)育的分析中，但是核苷酸和蛋白質(zhì)序列是最為常用的，因?yàn)樗鼈優(yōu)樗械纳问剿灿校ㄔ试S研究關(guān)系密切或疏遠(yuǎn)的類別），而且可以客觀地比較。序列間的相關(guān)性可以使用序列比對(duì)算法客觀地量化。這即是生物信息學(xué)在系統(tǒng)發(fā)育學(xué)中所起的重要作用。序列系統(tǒng)發(fā)育分析背后的簡(jiǎn)單原理是：兩條序列間相似度越高，從一條序列變成另一條序列所需要的突變

43、就越少，因而它們擁有的共同祖先就越近。然而，從這類分析得出的任何進(jìn)化關(guān)系必須假定：所比較的序列存在不變的突變率并且沒(méi)有差異選擇。但是這些條件實(shí)際上很難達(dá)到。二、構(gòu)建系統(tǒng)發(fā)育樹(shù) 1.系統(tǒng)發(fā)育樹(shù)是一種顯示進(jìn)化關(guān)系的簡(jiǎn)單方法，物種由節(jié)點(diǎn)（nodes）表示，遺傳路徑由枝（links）來(lái)表示。系統(tǒng)發(fā)育樹(shù)可以從相似度表（ similarity tables ）或距離表（ distance tables ）中構(gòu)建而來(lái)。這些表顯示了生物體中一套給定特征間的相似性，采用匹配的百分比（相似度表），或者差異的百分比（距離表）來(lái)表示。三種建樹(shù)方法：距離矩陣法、最大簡(jiǎn)約法、最大似然法 2.建樹(shù)軟件：

44、PAUP (phylogenetic analysis using parsimony)、PHYLIP (phylogenetic inference package) 3.檢驗(yàn)方法：一棵給定的樹(shù)不一定能準(zhǔn)確地代表進(jìn)化歷史。然而，數(shù)據(jù)的可靠性可以通過(guò)下述方法進(jìn)行評(píng)估：1）如果不同方法構(gòu)建樹(shù)能得出同樣的結(jié)果，這可很好證明該樹(shù)是可信的。2） Bootstrapping和jack-knifing方法:重新取樣并構(gòu)建更多的樹(shù)來(lái)評(píng)估。三、大分子序列的進(jìn)化 1. DNA在進(jìn)化過(guò)程中積累突變，導(dǎo)致了不同株系后代DNA、RNA和蛋白質(zhì)序列的分歧。基于大分子序列間差異的系統(tǒng)發(fā)育樹(shù)被稱為分子系統(tǒng)

45、發(fā)育。由于內(nèi)部突變率和選擇壓力的差異，不同大分子序列進(jìn)化速率不同，使得對(duì)親緣關(guān)系較近和較遠(yuǎn)的生物體都可以進(jìn)行系統(tǒng)發(fā)育分析 2.大分子序列的選擇：對(duì)于密切相關(guān)的生物體，使用一種快速進(jìn)化的分子如線粒體DNA 比較合適。對(duì)于有很大分歧的系統(tǒng)發(fā)育關(guān)系，則需要用高度保守的分子如核糖體RNA。注意不要選擇不適當(dāng)?shù)拇蠓肿有蛄衼?lái)解釋明顯的系統(tǒng)發(fā)育關(guān)系。 H: 序列注釋（實(shí)驗(yàn)三）一、基因組注釋原理 1.注釋：這一術(shù)語(yǔ)是指從原始序列數(shù)據(jù)中獲得有用的生物學(xué)信息。這主要是指在基因組.DNA中尋找基因和其他功能元件（結(jié)構(gòu)注釋），并給出這些序列的功能信息（功能注釋）。由于基因結(jié)構(gòu)和基因組組

46、織的不同，原核生物和真核生物的基因組注釋涉及不同的問(wèn)題。 2.用計(jì)算機(jī)尋找基因：可以用計(jì)算機(jī)來(lái)預(yù)測(cè)基因組DNA上基因的位置。這可以通過(guò)信號(hào)自動(dòng)檢測(cè)[尋找保守的模體(motif)]、內(nèi)容自動(dòng)檢測(cè)（尋找序列背景類似基因的區(qū)域）和同源性搜索（尋找與以前已發(fā)現(xiàn)的基因序列相匹配的區(qū)域）等方法的組合來(lái)完成。然而，沒(méi)有一種基因查找的方法是100%可靠的。 Signals 是不連續(xù)的局部序列模體，如啟動(dòng)子，剪切供體和受體位點(diǎn)，起始和終止密碼子，以及polyA尾位點(diǎn)。 Contents 是不同長(zhǎng)度的擴(kuò)展序列，如編碼區(qū)、CpG島 (CpG island )等。 Homologies 是已知基因之間

47、的匹配，如代表基因的表達(dá)序列標(biāo)簽(ESTs)序列等。 3.檢測(cè) ORFs（可讀框）： ORF: 一段較長(zhǎng)（>300bp）的位于起始密碼子 (usually, ATG) 和終止密碼子 (無(wú)義密碼子, TGA, TAG or TAA)之間的有義密碼子序列，在細(xì)菌基因組中，基因很少有內(nèi)含子的中斷。因此，檢測(cè)基因的有效途徑是對(duì)基因組序列進(jìn)行六個(gè)可讀框的翻譯并識(shí)別長(zhǎng)的可讀框(ORF)。 4.檢測(cè) Exons 和 Introns 在高等真核生物基因組中，基因呈分散狀分布，并被大量的長(zhǎng)內(nèi)含子所中斷。外顯子太短，從而不能僅僅通過(guò)ORF搜索來(lái)發(fā)現(xiàn)，所以需要采用包括外顯子檢測(cè)和內(nèi)容自動(dòng)檢測(cè)、剪切

48、信號(hào)的識(shí)別這種組合方法，并結(jié)合cDNA序列等輔助信息來(lái)構(gòu)建全長(zhǎng)基因的模型。二、注釋工具和資源 1.基因預(yù)測(cè)軟件基因預(yù)測(cè)程序使用從頭算預(yù)測(cè) （ab initio methods） and/or 同源搜索（homology searches）來(lái)識(shí)別基因組 DNA中的基因。NCBI ORF finder 通過(guò)執(zhí)行六個(gè)可讀框的翻譯來(lái)識(shí)別 ORFs。對(duì)于復(fù)雜的真核生物基因組，則需要更復(fù)雜的統(tǒng)計(jì)分析方法。 2.測(cè)量預(yù)測(cè)準(zhǔn)確性：沒(méi)有一個(gè)基因查找程序是100%精確的，所以較好的方法是使用幾個(gè)程序來(lái)注釋相同的基因組序列。預(yù)測(cè)精度用敏感性（能正確預(yù)測(cè)真正的基因或外顯子）和特異性（能正確排除假基

49、因或假外顯子）來(lái)衡量。 3.注釋流水線：處理從基因組計(jì)劃中產(chǎn)生的大量數(shù)據(jù)的唯一途徑是使用連續(xù)的流水線---注釋流水線 “飛速”注釋。 I: 結(jié)構(gòu)生物信息學(xué)（實(shí)驗(yàn)六）一、蛋白結(jié)構(gòu)的概念模型 1.結(jié)構(gòu)類型和概念模型三種不同的蛋白結(jié)構(gòu)類型：纖維蛋白（如膠原質(zhì)）；球狀蛋白，它往往存在于如細(xì)胞質(zhì)和細(xì)胞外液等水性溶劑中；內(nèi)在膜蛋白，它存在于生物膜的脂質(zhì)環(huán)境當(dāng)中。 2.球狀蛋白中，線性氨基酸多聚體折疊成球狀的緊湊形狀從而形成一種三維結(jié)構(gòu)。球狀蛋白在水性溶劑中往往是可溶的，其折疊受疏水效應(yīng)控制，疏水效應(yīng)使疏水氨基酸側(cè)鏈朝向蛋白質(zhì)的結(jié)構(gòu)核心，遠(yuǎn)離溶劑。 3. 內(nèi)在膜蛋白是生物信號(hào)和跨膜運(yùn)輸系

50、統(tǒng)的關(guān)鍵元件。這些蛋白存在于生物脂質(zhì)膜中，遵循與球狀蛋白不同的結(jié)構(gòu)原則。它們包含與跨膜片段（常常但不總是螺旋）有關(guān)的多條普通的疏水氨基酸鏈，并由膜外水性環(huán)境中的更多親水回環(huán)連接。 4.二、三、四級(jí)結(jié)構(gòu)概念： 1）球蛋白通常包含規(guī)則的二級(jí)結(jié)構(gòu)的元件，如α-helices (H) 和 β-strands (E or B). α-helices 由每個(gè)氨基酸的主鏈上的 C＝O功能團(tuán)和氨基酸沿著螺旋的四個(gè)殘基上的H-N功能團(tuán)之間的氫鍵來(lái)穩(wěn)定。 β-strands由主鏈上的殘基與多肽其他部分形成的鏈中的殘基連接形成的。這意味著單一β鏈不能孤立地存在，它在空間上總是與至少另一條鏈相鄰。這種由

51、連續(xù)的、空間上相鄰的、以氫鍵相連的鏈形成的扭，曲的折疊結(jié)構(gòu)被稱為β折疊片。 2）三級(jí)結(jié)構(gòu)是單一多肽鏈的完全三維原子結(jié)構(gòu)。它可以被看作是二級(jí)結(jié)構(gòu)元件的組合，二級(jí)元件之間由主要存在于蛋白質(zhì)表面的不規(guī)則回環(huán)(C，coils)連接。 3）幾種三級(jí)結(jié)構(gòu)可以組裝起來(lái)形成生物學(xué)功能上的四級(jí)結(jié)構(gòu)。 5.結(jié)構(gòu)域：自然界通過(guò)組合獨(dú)立的組件單元或通常具有較簡(jiǎn)單功能的結(jié)構(gòu)域創(chuàng)造了具有復(fù)雜功能的蛋白質(zhì)。許多蛋白質(zhì)含有大量的結(jié)構(gòu)域，這些結(jié)構(gòu)域往往是混合類型的，如混合的內(nèi)在膜和球結(jié)構(gòu)域。 6.進(jìn)化：球狀蛋白中的環(huán)的表面殘基要比疏水核心中的殘基進(jìn)化更快。內(nèi)在膜蛋白中，進(jìn)化最慢的是那些在跨膜結(jié)構(gòu)域中的殘基。二

52、、蛋白質(zhì)三維結(jié)構(gòu)與其功能的關(guān)系：蛋白質(zhì)依賴于其三維結(jié)構(gòu)的形狀和關(guān)鍵功能域的性質(zhì)來(lái)執(zhí)行生物功能。蛋白質(zhì)結(jié)構(gòu)的知識(shí)對(duì)于理解蛋白質(zhì)功能是關(guān)鍵的，這也是其在生物信息學(xué)中有很大重要性的一個(gè)原因。三、蛋白質(zhì)結(jié)構(gòu)和功能的進(jìn)化（關(guān)系） 1.結(jié)構(gòu)和功能約束：進(jìn)化接受蛋白質(zhì)中氨基酸殘基發(fā)生的對(duì)蛋白質(zhì)結(jié)構(gòu)穩(wěn)定或蛋白功能來(lái)說(shuō)中性或有利的變化。出于結(jié)構(gòu)或功能的需要，殘基可以被保留下來(lái)。當(dāng)氨基酸殘基能獨(dú)特地實(shí)現(xiàn)特定的結(jié)構(gòu)作用時(shí)，它們能被保留。這種情況常常出現(xiàn)在 cysteine, glycine and proline. 2.多序列比對(duì)：理解結(jié)構(gòu)怎樣進(jìn)化有助于我們理解多序列比對(duì)。關(guān)鍵的結(jié)構(gòu)和功能殘基常常是保守

53、的。插入和缺失主要出現(xiàn)在親水的表面回環(huán)中，而不是規(guī)則的二級(jí)結(jié)構(gòu)元件中。這個(gè)效應(yīng)可以在多序列比對(duì)中觀察到，比對(duì)結(jié)果往往是由對(duì)應(yīng)于二級(jí)結(jié)構(gòu)元件的較保守殘基和來(lái)自表面回環(huán)的不保守殘基交替組成的。 3.整體蛋白質(zhì)折疊的進(jìn)化：如果兩條自然出現(xiàn)的蛋白質(zhì)序列可以比對(duì)，并且80個(gè)以上的殘基的比對(duì)顯示出25%以上的相似度，那么它們將共有同樣的基本結(jié)構(gòu)。 Sander and Schneider’s rule: t (L) = 290.15L-0.562（其中L指的是比對(duì)的長(zhǎng)度，t指保證結(jié)構(gòu)相似所需的一致度百分比閾值。） 4.結(jié)構(gòu)的保留：蛋白質(zhì)結(jié)構(gòu)往往被保留，甚至由于進(jìn)化使序列改變到不能被識(shí)別時(shí)結(jié)構(gòu)

54、仍被保留。所以結(jié)構(gòu)知識(shí)是理解蛋白質(zhì)進(jìn)化的—個(gè)關(guān)鍵因素。 5.功能的進(jìn)化：雖然結(jié)構(gòu)往往被進(jìn)化保留下來(lái)，功能卻會(huì)發(fā)生變化。有許多蛋白質(zhì)，其序列和結(jié)構(gòu)非常相似，但功能卻不相同。當(dāng)功能發(fā)生變化，關(guān)鍵的功能殘基也變化了，多序列比對(duì)常常能清楚地顯示出這一點(diǎn)。四、結(jié)構(gòu)數(shù)據(jù)的獲取、展示和分析 1.獲取數(shù)據(jù)：通用搜索引擎: SRS and NCBI 專業(yè)搜索引擎:RSCB: http://www.rcsb.org/pdb 2.結(jié)構(gòu)的可視化：常用的觀察結(jié)構(gòu)數(shù)據(jù)的程序:RasMol; TOPS: http://www.to

55、ps.leeds.ac.uk 3.結(jié)構(gòu)和功能位點(diǎn)的分析 PDBSum: 包含了清晰的結(jié)構(gòu)數(shù)據(jù)摘要和對(duì)結(jié)構(gòu)數(shù)據(jù)庫(kù)每一條目的分析，這些條目都可以通過(guò)訪問(wèn)號(hào)來(lái)訪問(wèn)，其提供的信息包括二級(jí)結(jié)構(gòu)、二硫鍵位置、配體結(jié)合位點(diǎn)、活性位點(diǎn)、關(guān)鍵殘基、分子間相互作用圖、折疊拓?fù)湟约懊傅腅C號(hào)等信息。 SURFNET: 該軟件能夠幫助確定蛋白表面潛在的功能位點(diǎn)，特別是酶的活性位點(diǎn)。然后考慮這些位點(diǎn)的結(jié)構(gòu)能揭示該新結(jié)構(gòu)的何種可能功能。預(yù)測(cè)蛋白表面任何潛在位點(diǎn)的實(shí)際功能仍是目前生物信息學(xué)研究的一個(gè)前沿課題。五、結(jié)構(gòu)比對(duì) 1.要在關(guān)系非常疏遠(yuǎn)的蛋白序列之間找到正確的、有生物學(xué)意義的比對(duì)是很難的，因?yàn)樗鼈冎缓?/p>

56、有極少比例的相同殘基。但在這種情況下，結(jié)構(gòu)信息能幫上忙，因?yàn)檫M(jìn)化往往盡量少地改變結(jié)構(gòu)。疊加相似結(jié)構(gòu)的骨架以發(fā)現(xiàn)相同結(jié)構(gòu)殘基的過(guò)程被稱為結(jié)構(gòu)比對(duì)。 2.軟件：DALI: http://www.ebi.ac.uk/dali 3.結(jié)構(gòu)相似性：結(jié)構(gòu)比對(duì)方法通常會(huì)創(chuàng)建衡量結(jié)構(gòu)相似度的尺度。最常見(jiàn)的衡量尺度是RMSD（root mean square difference），許多程序都用這個(gè)標(biāo)準(zhǔn)，它是指最佳結(jié)構(gòu)重疊中比對(duì)殘基的α碳原子間位置的均方差。RMSD = [sum(di2)/N]0.5 4.結(jié)構(gòu)相似性搜索：我們常常需要搜索序列數(shù)據(jù)庫(kù)以查詢某一序列的相似序列，同樣，有時(shí)我們也需要搜索結(jié)構(gòu)數(shù)據(jù)庫(kù)

57、以查詢與某一結(jié)構(gòu)相似的結(jié)構(gòu)，這也是很有意義的。 Web-based search engines: DALI; SSAP;TOPS;VAST and RCSB 六、已知三維結(jié)構(gòu)的蛋白分類: CATH 和 SCOP 1.為什么要將蛋白質(zhì)進(jìn)行結(jié)構(gòu)分類? 蛋白質(zhì)結(jié)構(gòu)在進(jìn)化中要比蛋白質(zhì)序列保守得多。因此，根據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)對(duì)蛋白質(zhì)進(jìn)行分類是把蛋白質(zhì)劃分為各種家族的最有效的方法，可以揭示遠(yuǎn)距離的進(jìn)化關(guān)系。蛋白質(zhì)結(jié)構(gòu)分類的方法主要依據(jù)序列比較方法和結(jié)構(gòu)比較方法。 2.折疊或拓?fù)洌核械姆诸惗际菍⒕哂型瑯拥恼w折疊或拓?fù)涞牡鞍讱w為一類。具有同樣的折疊或拓?fù)漕愋偷牡鞍踪|(zhì)或多或少地都含有同樣的SS

58、Es（secondary structure elements），以同樣的方式相連接并位于同樣的相對(duì)空間位置。 CATH （拓?fù)洌┖蚐COP折疊水平把蛋白質(zhì)分成具有相同總體折疊的組。 3.同源體與相似體：Homologs (homologous proteins) 是從某一共同祖先趨異進(jìn)化而來(lái)的蛋白，它們相互關(guān)聯(lián)，并具有同樣的折疊。 Analogs (analogous proteins) 有同樣的折疊，但關(guān)于共同祖先的其他證據(jù)卻不充分。 4. Super-folds （超折疊）是指在進(jìn)化中可能不止出現(xiàn)一次的蛋白質(zhì)折疊。普遍認(rèn)為它們具有物理化學(xué)性質(zhì)上的某種優(yōu)勢(shì)，在SCOP與CATH中它們

59、以含有幾個(gè)同源超家族的折疊或拓?fù)涞男问酱嬖?。比如TIM桶和免疫球蛋白的折疊。七、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)簡(jiǎn)介 1.原因：結(jié)構(gòu)預(yù)測(cè)是有意義的，因?yàn)橥ㄟ^(guò)實(shí)驗(yàn)來(lái)確定結(jié)構(gòu)仍然要比通過(guò)實(shí)驗(yàn)確定序列慢得多。結(jié)構(gòu)預(yù)測(cè)幫助我們理解蛋白質(zhì)的功能和作用機(jī)制，對(duì)合理的藥物設(shè)計(jì)也是很有意義的。Levinthal和Anfinsen的早期工作使得結(jié)構(gòu)預(yù)測(cè)成了又一個(gè)極有發(fā)展?jié)摿Φ目茖W(xué)領(lǐng)。 2.什么是結(jié)構(gòu)預(yù)測(cè)：一般說(shuō)來(lái)，結(jié)構(gòu)預(yù)測(cè)是指僅依據(jù)蛋白序列的信息來(lái)預(yù)測(cè)蛋白質(zhì)每個(gè)原子在三維空間中的相對(duì)位置。結(jié)構(gòu)預(yù)測(cè)方法包括：比較建模法（comparative modeling）, 折疊識(shí)別法（fold recognition）, 二級(jí)

60、結(jié)構(gòu)預(yù)測(cè)法（secondary structure prediction）, 從頭預(yù)測(cè)法（ab initio prediction）以及跨膜片段預(yù)測(cè)法（ transmembrane segment prediction）。按理論基礎(chǔ)可分為: ab initio prediction: 嘗試計(jì)算并最小化自由能，或得出一個(gè)合適的近似最小值的方法。 knowledge-based prediction: 嘗試使用已知結(jié)構(gòu)數(shù)據(jù)庫(kù)中的信息來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。 (comparative modeling, fold recognition). Blind testing: CASP (Crit

61、ical Assessment of Structure Prediction) 八、通過(guò)比較建模預(yù)測(cè)結(jié)構(gòu)（建模步驟） 1.理論基礎(chǔ)：在80個(gè)以上殘基的比對(duì)中，一致性達(dá)到25%以上的序列采用的是相同的基本結(jié)構(gòu)。這是比較建模預(yù)測(cè)的理論基礎(chǔ)。 2.內(nèi)容：比較建模所必需的是目標(biāo)序列和模板結(jié)構(gòu)序列之間的比對(duì)。從用戶的角度來(lái)看，比對(duì)過(guò)程是比較建模法中最關(guān)鍵的步驟。因此，有必要從結(jié)構(gòu)和功能的角度來(lái)檢查比對(duì)結(jié)果的有效性。模板結(jié)構(gòu)可以通過(guò)標(biāo)準(zhǔn)的序列相似性搜索的方法來(lái)找到。該方法的主要限制是缺乏合適的模板結(jié)構(gòu)，但結(jié)構(gòu)基因組學(xué)計(jì)劃正在改變這個(gè)局面。 3.過(guò)程：已知結(jié)構(gòu)（模板）作為結(jié)構(gòu)預(yù)測(cè)的基礎(chǔ)

62、。這個(gè)過(guò)程從概念上看包括保守核心殘基的定位、可變回環(huán)的模型化、側(cè)鏈的定位和優(yōu)化，以及模型的提煉。保守殘基和一些側(cè)鏈的位置可以直接從模板結(jié)構(gòu)信息中推導(dǎo)出，可變回環(huán)的建模常利用備件算法，對(duì)于側(cè)鏈的定位也有精密的算法來(lái)獲得優(yōu)化包裹的疏水核心。 4.精確性幾乎完全是由比對(duì)的質(zhì)量控制的。好的比對(duì)結(jié)果通過(guò)大多數(shù)主要軟件包將會(huì)產(chǎn)生精確的結(jié)構(gòu)預(yù)測(cè)。在所有的結(jié)構(gòu)預(yù)測(cè)方法中，比較建模法建立的模型最精確。精確性通常以預(yù)測(cè)結(jié)構(gòu)與目標(biāo)序列真實(shí)結(jié)構(gòu)之間α碳原子位置距離的均方差（RMSD）來(lái)衡量。低于1.0?的RMSD值說(shuō)明預(yù)測(cè)結(jié)果非常好。 5.現(xiàn)有資源：SWISS-MODEL：比較建模法軟件: SWISS-

63、PDBVIEWER (http://www.expasy.ch/swissmod/SWISS-MODEL.html) 九、二級(jí)結(jié)構(gòu)預(yù)測(cè)（方法、原理、相應(yīng)的軟件、預(yù)測(cè)策略） 1.什么是二級(jí)結(jié)構(gòu)預(yù)測(cè)：當(dāng)某一特定目標(biāo)序列沒(méi)有合適的相關(guān)模板結(jié)構(gòu)時(shí)，可以考慮采用二級(jí)結(jié)構(gòu)預(yù)測(cè)法。與比較建模法不同的是，該方法并不產(chǎn)生一個(gè)全原子三級(jí)結(jié)構(gòu)模型，而是對(duì)每個(gè)殘基二級(jí)結(jié)構(gòu)狀態(tài)進(jìn)行預(yù)測(cè)，即預(yù)測(cè)該二級(jí)結(jié)構(gòu)是否是螺旋、鏈或延伸以及圈。這種預(yù)測(cè)有時(shí)也被稱為三狀態(tài)預(yù)測(cè)。許多方法是基于二級(jí)結(jié)構(gòu)偏好的思想，這種偏好是用某一殘基對(duì)特定二級(jí)結(jié)構(gòu)偏好的數(shù)值來(lái)反映的。早期的方法能達(dá)到60%精確度。早期方法的例子有基于Chou-

64、Fasman法則的方法和基于信息論的GOR方法。 2.多序列信息：使用相關(guān)序列的多序列比對(duì)結(jié)果可以揭示某些特定二級(jí)結(jié)構(gòu)的保守模式，從而顯著地提高了二級(jí)結(jié)構(gòu)預(yù)測(cè)的精確度，使得目前這方面預(yù)測(cè)的精確度達(dá)到了66%左右。 3.現(xiàn)有技術(shù)方法的準(zhǔn)確率：目前的方法對(duì)蛋白質(zhì)正確預(yù)測(cè)的殘基比例高于70%。精確度的增加可能是由于越來(lái)越多的結(jié)構(gòu)數(shù)據(jù)和越來(lái)越高級(jí)的算法。必須牢記的一點(diǎn)是所有的二級(jí)結(jié)構(gòu)預(yù)測(cè)方法都已經(jīng)利用已知的蛋白結(jié)構(gòu)數(shù)據(jù)進(jìn)行了“訓(xùn)練”，因此，這些方法特別偏好那些與“訓(xùn)練”蛋白質(zhì)相似的蛋白，而對(duì)其他蛋白，例如內(nèi)在膜蛋白，則預(yù)測(cè)效果較差。 4.跨膜片段的預(yù)測(cè)：內(nèi)在膜蛋白中的跨膜片段可以通過(guò)搜索跨越

65、脂質(zhì)膜的連續(xù)疏水殘基來(lái)進(jìn)行預(yù)測(cè)。有些方法還預(yù)測(cè)跨膜片段的方向（進(jìn)—出）或拓?fù)浣Y(jié)構(gòu)，但是這通常都不太準(zhǔn)確。跨膜片段往往含有較高比例的疏水殘基，長(zhǎng)度常常在20個(gè)殘基以上，對(duì)應(yīng)于6-7個(gè)跨膜螺旋的螺旋圈。這種相對(duì)較長(zhǎng)的強(qiáng)烈疏水殘基系列在可溶性球蛋自中很少見(jiàn)。這意味著可以基于疏水殘基系列來(lái)進(jìn)行預(yù)測(cè)。 Tools: TMPred, TMHMM and TopPred. 5.現(xiàn)有的工具：ExPASy (http://www.expasy.ch) 十、高級(jí)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)與預(yù)測(cè)策略 1.折疊識(shí)別：折疊識(shí)別致力于檢測(cè)非常疏遠(yuǎn)的結(jié)構(gòu)和進(jìn)化關(guān)系。它能檢測(cè)出蛋白質(zhì)采取了某種已知折疊，即使該蛋白質(zhì)與任

66、何已知結(jié)構(gòu)的蛋白質(zhì)都沒(méi)有顯著的序列相似性（<25%）。通過(guò)使用序列和結(jié)構(gòu)信息，折疊識(shí)別方法通常試圖找出某已知折疊庫(kù)中最一致的折疊。折疊識(shí)別也叫做線程(threading)。折疊識(shí)別的輸出通常是查詢序列與一條或多條已知其結(jié)構(gòu)的、與查詢序列關(guān)系疏遠(yuǎn)的序列之間的比對(duì)。因此，通過(guò)使用通常的比較建模方法就可以得出被預(yù)測(cè)蛋白質(zhì)的全三維結(jié)構(gòu)。 2.從頭開(kāi)始：這類方法試圖從基本原理預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，但是，與前面講述的比較建模、二級(jí)結(jié)構(gòu)預(yù)測(cè)和折疊識(shí)別等方法相比，從頭開(kāi)始預(yù)測(cè)的方法目前還是不大有效。 3.預(yù)測(cè)策略： Step 1: 鑒定出該查詢序列中的任何特征。E.g. 潛在跨膜片段; 低組成復(fù)雜度; 卷曲螺旋（coiled coils）; 已知結(jié)構(gòu)域或序列的整體結(jié)構(gòu)域 (通過(guò)Interpro); 其他相關(guān)序列和亞序列 (domains) (通過(guò)PSI-BLAST)。如果蛋白質(zhì)是多結(jié)構(gòu)域的，而且序列中結(jié)構(gòu)域的位置可以找出，那么分別預(yù)測(cè)每個(gè)結(jié)構(gòu)域?qū)?huì)很有用。 Step 2: 采取一個(gè)適當(dāng)?shù)念A(yù)測(cè)方法。首選 comparative modeling，如果不成功, 則進(jìn)行secondary stru

展開(kāi)閱讀全文

溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

點(diǎn)擊下載此資源

《生物信息學(xué)》復(fù)習(xí)資料

最新文檔

相關(guān)資源

相關(guān)搜索