《生物信息學(xué)》復(fù)習(xí)

上傳人：奇異文檔編號(hào)：62491224 上傳時(shí)間：2022-03-15 格式：DOCX 頁(yè)數(shù)：17 大?。?46.63KB

收藏版權(quán)申訴舉報(bào) 下載

第1頁(yè) / 共17頁(yè)

第2頁(yè) / 共17頁(yè)

第3頁(yè) / 共17頁(yè)

下載文檔到電腦，查找使用更方便

12 積分

下載資源

還剩頁(yè)未讀，繼續(xù)閱讀

資源描述：

《《生物信息學(xué)》復(fù)習(xí)》由會(huì)員分享，可在線閱讀，更多相關(guān)《《生物信息學(xué)》復(fù)習(xí)（17頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、《生物信息學(xué)》先鋒版中譯本第二版科學(xué)出版社打分政策：60%期末考試(70%掌握內(nèi)容、25%熟悉內(nèi)容、5%理解內(nèi)容)(請(qǐng)注意紅體與黑體字) A：生物信息學(xué)概述 1 .生物信息學(xué)：生物信息學(xué)是生物學(xué)和信息技術(shù)的結(jié)合，是現(xiàn)代科學(xué)的又一個(gè)分支學(xué)科，它利用計(jì)算機(jī)對(duì)大量生物數(shù)據(jù)進(jìn)行分析處理。生物信息學(xué)把用于存儲(chǔ)和搜索數(shù)據(jù)的數(shù)據(jù)庫(kù)開發(fā)，與用于分析和確定大分子序列、結(jié)構(gòu)、表達(dá)模式和生化途徑等生物數(shù)據(jù)集之間的關(guān)系的統(tǒng)計(jì)工具和算法的開發(fā)結(jié)合在一起。 |-數(shù)據(jù)庫(kù) 生物信息學(xué)主要由三大部分組成■算法與統(tǒng)計(jì)工具一分析與解釋測(cè)序策略：逐個(gè)克隆法、全基因組鳥槍法計(jì)算機(jī)在生物信息學(xué)中的作用：生

2、物信息學(xué)需要計(jì)算機(jī)快速、可靠地執(zhí)行重復(fù)任務(wù)的能力以及處理問題的能力。然而，生物信息學(xué)中涉及的許多問題仍需要專家的人工處理，同時(shí)原始數(shù)據(jù)的完整性和質(zhì)量也很關(guān)鍵。生物信息學(xué)課程范圍：使初學(xué)者理解生物信息學(xué)的基本原理，并獲得相應(yīng)的應(yīng)用能力。具體包括生物信息學(xué)的一些關(guān)鍵領(lǐng)域：數(shù)據(jù)庫(kù)使用、序列和結(jié)構(gòu)分析工具、注釋工具、表達(dá)分析以及生化和分子途徑分析。 2 .2物信息學(xué)實(shí)例： ——數(shù)據(jù)庫(kù)界面Genbank/EMBL/DDBJ,Medline,SwissProt,PDB,… ——序列搜索與比對(duì)BLAST,FASTA,Clustal,MultAlin,DiAlign 基因搜索Gensc

3、an,GenomeScan,GeneMark,GRAIL 蛋白結(jié)構(gòu)域分析與鑒定pfam,BLOCKS,ProDom, ——基因調(diào)控元件的方t算機(jī)模式識(shí)別GibbsSampler,AlignACE,MEME 蛋白折疊預(yù)測(cè)PredictProtein,SwissModeler 生物信息學(xué)網(wǎng)站：包括生物信息學(xué)資源、各種數(shù)據(jù)庫(kù)和生物信息學(xué)分析工具的網(wǎng)站 3.五個(gè)必須知道的生物信息學(xué)網(wǎng)站：(詳細(xì)參考書本p9) NCBI(TheNationalCenterforBiotechnologyInformation)http://www.ncbi.nlm.nih.gov/ EBI(TheEurop

4、eanBioinformaticsInstitute)http://www.ebi.ac.uk/ TheCanadianBioinformaticsResourcehttp://www.cbr.nrc.ca/ SwissProt/ExPASy(SwissBioinformaticsResource)http://expasy.cbr.nrc.ca/sprot/ PDB(TheProteinDatabank)http://www.rcsb.org/PDB/ B:數(shù)據(jù)采集一、DNA,RNA和蛋白質(zhì)測(cè)序 1 .DNA測(cè)序原理： DNA測(cè)序是采用全自動(dòng)的鏈終止反應(yīng)完成的，這一技術(shù)通過加

5、入限量的雙脫氧核甘酸來(lái) 產(chǎn)生有特定終止堿基的嵌套DNA片段。共有4種反應(yīng)，每種代表DNA4個(gè)堿基中的一個(gè)，每個(gè)堿基分別帶有不同的熒光標(biāo)記。DNA片段通過聚丙烯酰胺凝膠電泳(PAGE)分離，當(dāng)每個(gè)片段移動(dòng)到凝膠的末端時(shí)可以通過掃描儀讀取序列。 2 .DNA序列類型： DNA序列來(lái)源主要有3種方式?；蚪MDNA直接來(lái)自基因組，包括基因和基因外核酸序列，真核生物的基因組DNA包含內(nèi)含子；cDNA由mRNA反轉(zhuǎn)錄而來(lái)，并且只對(duì)應(yīng)于基因組中能表達(dá)的部分，它不包含內(nèi)含子；最后，重組DNA來(lái)自實(shí)驗(yàn)室，包含克隆載體等人工 DNA分子。 3 .基因組測(cè)序策略：一次讀段(oneread)只能用于

6、短的DNA分子(約800bp)測(cè)序，所以大的DNA分子，如基因組，必須首先將其打碎成片段?；蚪M測(cè)序可以分為兩種方式：霰彈法測(cè)序(shot-gunsequencing) 包括隨機(jī)DNA片段的生成，通過大量片段測(cè)序來(lái)覆蓋整個(gè)基因組；與之相反，克隆重疊群測(cè)序(clonecontigsequencing)包括亞克隆系統(tǒng)的產(chǎn)生及其測(cè)序。 4 .序列質(zhì)量控制：通過在DNA雙鏈上進(jìn)行多次讀段完成高質(zhì)量序列數(shù)據(jù)的測(cè)定?？墒褂萌鏟hred等程序?qū)ψ? 初的跟蹤數(shù)據(jù)(tracedata)進(jìn)行堿基識(shí)別和質(zhì)量判斷。載體序列和重復(fù)的DNA片段被屏蔽后，使用Phrap程序?qū)⑿蛄衅唇映芍丿B群(contigs),剩

7、下的不一致部分通過人工校對(duì)解決。 5 .單遍(Single-pass)測(cè)序：低質(zhì)量的序列數(shù)據(jù)可以由單次讀段產(chǎn)生(單遍測(cè)序，single-passsequencing)。盡管不很準(zhǔn)確，但單遍序列如ESTs和GSSs,可以以低廉的價(jià)格快速大量地產(chǎn)生。 6 .RNA測(cè)序：大部分RNA序列可以從相應(yīng)的DNA序列推斷得到，但是需要用特殊的方法來(lái)識(shí)別被改變的核背，這些方法包括：生化實(shí)驗(yàn)、核磁共振譜(NMRspectroscopy)、質(zhì)譜 7 .蛋白質(zhì)測(cè)序：目前，大部分蛋白質(zhì)測(cè)序是通過質(zhì)譜(MS)技術(shù)進(jìn)行的，應(yīng)用這一技術(shù)可以通過測(cè)量真空中離子的分子質(zhì)量/電荷比來(lái)計(jì)算精確的分子質(zhì)量。

8、軟離子化方法可以對(duì)蛋白質(zhì)這樣的大分子進(jìn)行質(zhì)譜分析。通過比較經(jīng)胰蛋白酶裂解而獲得的多肽片段的分子質(zhì)量與從數(shù)據(jù)庫(kù)中蛋白質(zhì)的虛擬消化(virtualdigest)預(yù)測(cè)而來(lái)的分子質(zhì)量的異同推斷序列。通過在碰撞室(collision cell)中產(chǎn)生的蛋白質(zhì)片段嵌套集合可以進(jìn)行重新測(cè)序，并可通過單個(gè)氨基酸殘基計(jì)算不同長(zhǎng)度片段間分子質(zhì)量的差異。二、蛋白質(zhì)結(jié)構(gòu)的確定 1 .X-ray衍射晶體學(xué): X衍射晶體學(xué)是一種通過精確定向的蛋白質(zhì)晶體的X射線衍射模式來(lái)確定蛋白質(zhì)結(jié)構(gòu)的方法。這種方法中，X射線因晶體中原子的電子密度和空間方向的不同而發(fā)生散射，可用傅立葉變換的數(shù)學(xué)方法從衍射數(shù)據(jù)中重構(gòu)電

9、子密度圖，以建立結(jié)構(gòu)模型。 2 .核磁共振譜： NMR是某些原子的一種屬性，即在外加磁場(chǎng)范圍內(nèi)原子通過吸收電磁輻射可以在不同的磁狀態(tài)間轉(zhuǎn)換。吸收光譜的性質(zhì)受原子類型及其周圍化學(xué)性質(zhì)影響，所以NMRspectroscopy 可以區(qū)分不同的化學(xué)功能團(tuán)。核磁共振譜也因空間上原子的接近而改變。NMR譜的分析可以重建原子的三維構(gòu)型，產(chǎn)生一系列結(jié)構(gòu)模型。這一技術(shù)只適合小的可溶性蛋白的分析。 3 .其他方法：對(duì)于大的不容易結(jié)晶的蛋白質(zhì)，需要用其他的分析方法來(lái)推測(cè)結(jié)構(gòu)，這包括X射線纖維衍射、電子顯微鏡和CD光譜(circulardichroismspectroscopy)。 C:數(shù)據(jù)

10、庫(kù)一一內(nèi)容、結(jié)構(gòu)和注釋一、文件格式 1 .三種常用序列格式：常用核酸和蛋白序列格式：①NBRF/PIR格式文件名后綴為：.pir。或.seq ②FASTA格式文件名后綴為：.fasta ③GDE格式文件名后綴為gde 例： ID代碼：5H1B_CAVPO 序列登錄號(hào)：O08892 NBRF/PIR格式： >P1;5HT1B_CAVPO Guineapigserotoninreceptoraccession:O08892 MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT… FASTA格式： >5

11、HT1B_CAVPOO08892|guineapigserotoninreceptor MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT… GDE格式： %5HT1B_CAVPOO08892|guineapigserotoninreceptor MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT… 2 .比對(duì)序列文件：可用下述常用格式中任何一種：NBRF/PIR,FASTA,GDE 多序列比對(duì)格式：MSF,PHYLIPandALN 3 .結(jié)

12、構(gòu)數(shù)據(jù)文件：結(jié)構(gòu)數(shù)據(jù)用PDB格式的平面文件（flatAles）來(lái)維護(hù)，這類文件包含：正交的原子坐標(biāo)值（X,Y,Z軸）；注釋、說(shuō)明和實(shí)驗(yàn)細(xì)節(jié)。 NOTE:1、ATOM行以字符計(jì)數(shù)，而不是以單詞計(jì)數(shù)； 2、NMR文件沒有分辨率REMARK行。二、已注釋的序列數(shù)據(jù)庫(kù) 1 .初級(jí)序列數(shù)據(jù)庫(kù)：保存rawsequencedata,并對(duì)每個(gè)條目做了進(jìn)——步的注釋：featuretable-propertiesofseq. 2 .輔助序列數(shù)據(jù)庫(kù)：特別類型的序列數(shù)據(jù).eg.ESTs,GSSsandunfinishedgenomicseq.data 3 .序列提交：Sequence（序列

13、）一Internet（互聯(lián)網(wǎng)）一NCBI/EMBL/DDBJ（數(shù)據(jù)庫(kù)） 4 .SWISS-PROT和TrEMBL: SWISS-PROT:收集了確認(rèn)的蛋白質(zhì)序列及與結(jié)構(gòu)、功能和所屬蛋白質(zhì)家族有關(guān)的注釋信息。 TrEMBL:翻譯了初級(jí)核酸數(shù)據(jù)庫(kù)中的編碼序列。TrEMBL中各條目的注釋不如 SWISS-PROT中的條目那樣詳細(xì)。 5 .數(shù)據(jù)庫(kù)杳詢： SearchingbySequencesimilarityfBLAST Text-basedSearchin尸EntrezorSRSaccessionnumber accessionnumber：提供基因及其產(chǎn)物的唯一標(biāo)示號(hào) D:

14、生物數(shù)據(jù)檢索一、通過Entrez和DBGET/LinkDB進(jìn)行數(shù)據(jù)檢索 1. 訪問分布數(shù)據(jù)：利用專業(yè)的數(shù)據(jù)檢索工具Entrez,DBGET和SRS進(jìn)行數(shù)據(jù)庫(kù)搜索 2. Entrez:Entrez可以用來(lái)搜索NCBI中集成的所有數(shù)據(jù)庫(kù)包括GenBank,OMIM以及文獻(xiàn)數(shù)據(jù)庫(kù)MEDLINE 3. NCBI和Entrez：Entrez—Alldatabases模式搜索，以文本是形式進(jìn)行文本搜索：以單詞或邏輯短語(yǔ)為關(guān)鍵詞 4. DBGET/LinkDB DBGET/LinkDB:日本京都大學(xué)和人類基因組中心聯(lián)合開發(fā)的集成數(shù)據(jù)檢索系統(tǒng)。它整合了20數(shù)據(jù)庫(kù)并與KEGG相關(guān)聯(lián)。 LinD

15、B:isadatabaseoflinks,eachofwhichisrepresentedasabinaryrelationintheformof:dbname1:identifier1-->dbname2:identifier2 DBGET:haspowerfulcapabilitiestosearchagainstthisgraphobject Themolecularbiologydatabasesintheworldcanberetrieveduniformlybyspecifyingthecombinationofthedatabasenameandtheidentifier:d

16、bname:identifier Identifier:organism:gene三種搜索模式：bget,bfind,blink 二、使用SRS的數(shù)據(jù)檢索 1 .開源SRS:SRS由歐洲生物信息研究所開發(fā)，其集成有80多個(gè)分子生物學(xué)數(shù)據(jù)庫(kù)。SRS 可下載和安裝在本地計(jì)算機(jī)上使用。 2 .使用SRS:SRS與Entrez和DBGET的數(shù)據(jù)分類的原理不同。 SRS的使用包括選擇一個(gè)或多個(gè)分組，在每一個(gè)選定的組中選擇一個(gè)或多個(gè)現(xiàn)有的數(shù)據(jù)庫(kù)。查詢方式有兩種：標(biāo)準(zhǔn)模式、擴(kuò)展模式。 3 .安裝SRS:SRS可以通過腳本語(yǔ)言ICARUS編程來(lái)查詢使用者自己的數(shù)據(jù)庫(kù)。 E:通過序列相似性標(biāo)

17、準(zhǔn)搜索序列數(shù)據(jù)庫(kù)（重難點(diǎn)章節(jié)）一、以序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫(kù) 1 .序列相似性搜索 1.1. 序列相似性搜索：通過序列相似性來(lái)搜索數(shù)據(jù)庫(kù)，我們可以找到與所查詢序列相似的序列。可以用這些找到的序列信息來(lái)預(yù)測(cè)查詢序列的結(jié)構(gòu)或功能。依據(jù)相似性進(jìn)行預(yù)測(cè)是生物信息學(xué)中強(qiáng)大而且廣泛使用的方法，其根本依據(jù)是分子進(jìn)化。當(dāng)序列擁有一個(gè)共同的祖先序列時(shí)，它們往往在序列、結(jié)構(gòu)和生物學(xué)功能上具有相似性。這很可能是生物信息學(xué)上最重要的思想，因?yàn)樗沟梦覀兛梢赃M(jìn)行預(yù)測(cè)。查詢序列建詢序列的結(jié)榭 ,BLAST i IFASTA：同蜘帽Hung -一一甯息眄酸版幼仙g 1.2.

18、序列比對(duì)：任何一對(duì)DNA序列都有一定程度的相似。序列比對(duì)：是使相似度量化的第一步，用來(lái)區(qū)分偶然性的相似和真實(shí)的生物學(xué)關(guān)系。比對(duì)結(jié)果：以變化（突變）、插入或缺失（indels或空位）來(lái)顯示序列之間的差異，這些差異可以用進(jìn)化術(shù)語(yǔ)來(lái)說(shuō)明。 insertions / SEQ1:AATTGAITGCGCATTTAAAGGG SEQ2:AACTGA…CGCATCTTAAGGG Gaps(ItideIs)onutation Indeb=lnsertion+deletion 1.3. 比對(duì)算法：動(dòng)態(tài)規(guī)劃算法(Dynamicprogrammingalgorithms)可以計(jì)算兩條序

19、列之間的最佳聯(lián)配。兩個(gè)變體： Smith-Watermanalgorithm:localalign. Needleman-Wunschalgorithm:globalalign. 當(dāng)序列不是全長(zhǎng)關(guān)聯(lián)時(shí)局部比對(duì)是有效的。例如僅在某些特定功能域相似的蛋白質(zhì)序列，或僅在外顯子區(qū)域關(guān)聯(lián)的DNA序列等。 Localalignment---BLAST 1.4. 比對(duì)打分和空位罰分：用簡(jiǎn)單的比對(duì)打分來(lái)測(cè)量相同匹配殘基的比例或數(shù)目。得從比對(duì)打分中扣去空位罰分，以保證比對(duì)算法能得出有生物學(xué)意義的結(jié)果而沒有太多的空位。 Score:S=sum(si)+sum(xk) 空位罰分可以根據(jù)

20、預(yù)期的應(yīng)用進(jìn)行調(diào)整。有下述三種情況：固定罰分：與空位長(zhǎng)度無(wú)關(guān)；比例罰分：與空位長(zhǎng)度成比例；放射罰分：包括gapopening和gapextension兩部分罰分 Constant:x=u+vk,v=0 Proportional:x=u+vk,u=0 Affine:x=u+vk,u,vw0 kisthenumber(length)ofthelinkedgaps 例：SEQ1:AATTGATTGCGCATTTAAAGGG SEQ2:AACTGA…CGCATCTTAAGGG K=3 我們并不總是很清楚空位罰分常數(shù)u和v該采用什么值，這在某種程度上依賴于所比對(duì)的序列的性

21、質(zhì)。 Closesequencerelationship:highergappenalties Distantrelationships:lowergappenalties 1.5. 序列相似性測(cè)量：序列相似度可用比對(duì)算法、序列一致性百分率(percentagesequenceidentities)或更復(fù)雜的方法得出的分值來(lái)量化。 311-)1 y4電 6M 0Q a na 0.0 a 苗 0.Q a.a 0.0 a 674 00 函 0.0 國(guó) 00 MO a.a 逅小皿 >< )I . L

22、 thescorefromthealignmentalgorithm: .fb』屯”《Qti手.工ji尸蚓*Rid/！I-iffiApi^rii) ■SiI*“114？西神：jtnhinftkpi.pniI RiinngMiAiW%方而有：Julhw”.fj 史上！上」1艮卦3|4!立1其L!U力￥41bliplifrfIcAltt'Cihil*lAEM1(frtjfnftiiI SEQ1:AATTGATTGCGCATTTAAAGGG SEQ2:AACTGA…CGCATCTTAAGGG percentagesequenceidentities:（16/22）x100=7

23、3%Note：必須是在長(zhǎng)的比對(duì)結(jié)果中找到的高比例一致，才有可能反映真正的生物學(xué)或進(jìn)化關(guān)系。對(duì)DNA序列來(lái)說(shuō)，比對(duì)序列并使序列一致性百分率（即percentagesequenceidentities）最大化是合乎情理的。但對(duì)蛋自序列而言，則應(yīng)該更多地考慮組成序列的單體的屬性。某些氨基酸之間的替代比其他氨基酸更頻繁，所以，在蛋白序列比對(duì)算法中需要考慮這個(gè)因素。 1.6. 相似性和同源性: 任何序列之間均存在相似，但是僅當(dāng)序列是從一個(gè)共同的祖先進(jìn)化而來(lái)時(shí)，它們才是同源的。同源序列常常具有相似的生物學(xué)功能，但是基因復(fù)制的進(jìn)化機(jī)制允許生物體有多余的基因拷貝。這些多余的基因拷貝于是自由

24、地進(jìn)化出新的功能，成為有不同功能的同源基因。直系同源（orthologs）:不同物種的兩個(gè)同源基因有相同的功能，就稱它們是直系同源；旁系同源（paralogs）:當(dāng)同一或不同物種的兩個(gè)基因有不同的功能，就把它們稱為是旁系同源. 不同功能的同源基因的例子：溶解酶（lysozyme,一種酶）和a-乳白蛋白（a-lactalbumin, 一種哺乳動(dòng)物調(diào)節(jié)蛋白）。這些蛋白質(zhì)有非常相似的序列，幾乎已肯定是同源的，但卻有極其不同的功能。 2 .氨基酸替換矩陣（難點(diǎn)） 2.1. 相同氨基酸數(shù)目的最大化：比對(duì)蛋白質(zhì)序列從而使相同的氨基酸數(shù)目（即percentagesequenceident

25、ities最大化。其中，每對(duì)匹配的相同氨基酸對(duì)比對(duì)分值的貢獻(xiàn)是1,不一致的氨基酸對(duì)對(duì)比對(duì)分值的貢獻(xiàn)是 0。（如下圖所示） ioooooogoooood - 1-^OOODOOOOnooGN — Doofloo 00-00 odoog L □ o o o o D o □ o o o o D o o A - IflooooooooooDODOOP - IDOO&ooon-DOOODaooflT lofl-OODOOOOOOO&ooooos Ion-.Do QDOOO QD oooo R-oo&r- cstpagkdeqhrkmilvfyw 這是對(duì)密切相關(guān)的序列進(jìn) 行比對(duì)的好方法，但這并

26、不能揭示遠(yuǎn)親之間的進(jìn)化關(guān)系。 2.2. 進(jìn)化：因?yàn)橐S持蛋白質(zhì)結(jié)構(gòu)和功能，所以編碼蛋白質(zhì)的序列的進(jìn)化比基因組的大多數(shù) 其他部分的進(jìn)化更為緩慢。一個(gè)例外是快速進(jìn)化也可能發(fā)生在新近復(fù)制基因的多余拷貝中。 2.3. 允許的替換：進(jìn)化中蛋白序列的變化往往包括相近屬性氨基酸間的替代，因?yàn)檫@樣才能保持蛋白質(zhì)的結(jié)構(gòu)穩(wěn)定。比如：同一進(jìn)化家族的蛋白質(zhì)序列通常表現(xiàn)為有相似物理化學(xué)性質(zhì)的氨基酸間的替代。 2.4. 替換打分矩陣：這些矩陣給進(jìn)化中所有可能的氨基酸替換打分，分值越高，意味著替換的可能性越大。進(jìn)行序列比對(duì)的動(dòng)態(tài)規(guī)劃算法可以采用從這些矩陣得到的分值來(lái)進(jìn)行運(yùn)算。E.g.BLOS

27、UM62and PAM250. PAM:AcceptedPointMutations（認(rèn)可的點(diǎn)突變） PAM250:表示矩陣的進(jìn)化距離是每100個(gè)殘基有250個(gè)氨基酸變化。 PAMn:n值越小，表示進(jìn)化距離越短。 PAM250 C 3 T P A ij H D E Q H R K 12 0 M -5 I -3 L .6 0 i o □ D 0 -1 ■ 1 CF -i 0 ,2 0 -3 -3 -3 T 6 1 -1 -1 .1 0 0 0 4 -2 -2 .3 -1 -5 -3 -6 P 4 -3 -6 5 □

28、 I 0 -1 -2 0 1 -2 -2 -2 -4 -2 4 N -2 -6 -4 7 D 3制1 Seq2 : Positiafi score. Tolal alijgmgnL MILVKP-VVLKGDF3 MILLKP AI II RAEY- 656 2 56 0442 3 1 3 70 5COTB _ cf poati on scores) - (gap p5J - 1 = 53 4 2 4 -1 □ -2 -2 .3 -2 -2 -5 -4 5 Q 6 3 G -2 -3 -2 -A -4 2 R 5

29、 0 -2 .3 -2 -5 -4 -3 K 1 -t -5 I -1 -2 -2 -6 L V 9 7 0 F 10 0 17 Y W BLOSUM:blockssubstitutionmatrix BLOSUM62:用于構(gòu)造矩陣的blocks的最小序列一致性百分?jǐn)?shù)至少為62%。更小數(shù)字的BLOSUM矩陣表示更長(zhǎng)的進(jìn)化距離（BLOSUM50所代表的進(jìn)化距離要比 BLOSUM62要長(zhǎng)）。 Note:BLOSUM矩陣通常比PAM好用。 AminoAcidSubstitutions RIossum62Matrix 國(guó) ? 工3口 5 1

30、2 1 口-1 3.2:: -3-4-3QQ-4口 FH3A dT J- J- o-Z-Z3 T -1一江與-343--IFM-2H 「-3-3々力 4-3 Blossum62 Note:一致氨基酸比對(duì)的分值也有差異，這反映了氨基酸在天然蛋白序列中的出現(xiàn)頻率的不同。兩個(gè)相同的非常見氨基酸的比對(duì)(如W和W)要比兩個(gè)相同的常見氨基酸的比對(duì)更有可能反映一個(gè)進(jìn)化上有意義的比對(duì)。因此，相同的非常見氨基酸的比對(duì)具有更高的分值。 2.5. 意義：替換打分矩陣可以查找蛋白質(zhì)序列間較遠(yuǎn)的親緣關(guān)系。 NOTE:蛋白序列比對(duì)比核酸序列比對(duì)更可能找到較遠(yuǎn)的親緣關(guān)系。 2.

31、6. 可視化：點(diǎn)陣圖(Dotplots)-點(diǎn)陣圖是使序列相似性可視化并找到重復(fù)片段的一一個(gè) 非常好的方法。 3 .數(shù)據(jù)庫(kù)搜索：FASTA和BLAST: 3.1. 數(shù)據(jù)庫(kù)搜索：把查詢序列與數(shù)據(jù)庫(kù)中每條序列依次比對(duì)并返回最高分(最相似)序列，就能找到與查詢序列相近的序列。這可以通過動(dòng)態(tài)規(guī)劃算法完成，但實(shí)際上常用的是更快的近似方法。 3.2. 算法和軟件: BLAST和FASTA提供了非?？焖俚男蛄袛?shù)據(jù)庫(kù)搜索途徑。與動(dòng)態(tài)規(guī)劃不同，它們并不能保證找到數(shù)據(jù)庫(kù)里每條序列的最佳可能比對(duì)，但實(shí)際上這對(duì)性能的影響通常來(lái)說(shuō)是最小的。它們最初通過搜索短的一致或接近一致匹配的字母(word)片段，然

32、后再將這些片段延伸到更長(zhǎng)的匹配。 BLAST和FASTA都基于同樣的假設(shè)，即高分值的比對(duì)結(jié)果可能含有短的一致或近似一致的序歹U片段(shortstretchesorwords)。 (1) BLAST:W(wordlength);T(thresholdscore);尋找長(zhǎng)度為W比對(duì)得分＞T的wordsJ 擴(kuò)展這些words直到比對(duì)得分跌落到一定值，產(chǎn)生大量HSPs(high-scoringsegmentpairs)J 通過動(dòng)態(tài)規(guī)劃比對(duì)好全部序列高打分區(qū)域，得出最終比對(duì)結(jié)果及其分值。 (2) FASTA:ktup;尋找完全匹配的長(zhǎng)度為ktup的words 尋找含有高密度words匹

33、配的ungapped的序列比對(duì)；將其組裝成高分值的gapped的序列比對(duì) 通過動(dòng)態(tài)規(guī)劃比對(duì)好全部序列高打分區(qū)域，得出最終比對(duì)結(jié)果及其分值。 3.3. 統(tǒng)計(jì)得分：相似度記分的p值是指獲得至少與兩條無(wú)關(guān)序列間的偶然相似性一樣高的分值的概率。低p 值表明重要的匹配，這些匹配可能會(huì)有真實(shí)生物學(xué)意義。相關(guān)的E值是至少與所識(shí)別的相似性記同樣高分值的偶然事件的期望頻率。兩序列間相似度的低p值對(duì)應(yīng)于大數(shù)據(jù)庫(kù)搜索的高E值。lowp-highE當(dāng)E值很小的時(shí)候和p值很接近 3.4. 敏感性和特異性：敏感性衡量數(shù)據(jù)庫(kù)中真實(shí)生物序列關(guān)系的比例，該關(guān)系表現(xiàn)為擊中項(xiàng)(hit)。特異性指的是對(duì)應(yīng)于真

34、實(shí)生物學(xué)關(guān)系的擊中項(xiàng)的比例。這些測(cè)度量化了數(shù)據(jù)庫(kù)搜索策略的優(yōu)良度。 Sensitivity:Sn=ntp/(ntp+nfn)Specificity:Sp=ntp/(ntp+nfp) 注：(tp:truepositive；fn:falsenegative；fp:falsepositive) 改變E和p的默認(rèn)值會(huì)導(dǎo)致這些互補(bǔ)的優(yōu)良度測(cè)量方法之間的平衡。 3.5. 數(shù)據(jù)庫(kù)類型：數(shù)據(jù)庫(kù)和查詢序列可以是蛋白質(zhì)或核甘酸序列，不同種類的序列和組合有不同的查詢策略。一般來(lái)說(shuō)，如果使用編碼蛋白質(zhì)的核甘酸數(shù)據(jù)庫(kù)和/或?qū)⒉樵冃蛄蟹g成蛋白質(zhì)序列，搜索會(huì)更加敏感。 BLASTandFASTApr

35、ograms ProgramnaineQuecysequenceDatabasetype BlastpProteinProtein BlastnNucleicacidNucleicacid BlastsNucleicacid(translated)protein TblastiiProteinNucleicacid(translated) TblastxNucleicacid(translated)Nucleicacid(translated) FastaProteinornucleicacidPiotcinornucleicacid TfastxProteinNucleica

36、cid(tianslaied) FastxNucleicacid(translated)Protein Jtraislated-meansthenucleicacidsequenceistranslatedtoproteininsixreadingframes 3.6. 可行例子和現(xiàn)有程序： BLASTattheNCBI、FASTAattheEBI——搜索許多一般用途的序列數(shù)據(jù)庫(kù)。 RESULTS:按Evalue排序 NOTE:必須檢查有關(guān)序列的比對(duì)結(jié)果以發(fā)現(xiàn)序列間相似的區(qū)域。 NCBI的BLAST網(wǎng)站：http://www.ncbi.nlm.nih.gov/BLAST/(建議自

37、己動(dòng)手操作以加深理解) 4 .序列過濾： 4.1. 非特異性的序列相似：一些類型的序列相似要比其他類型難揭示進(jìn)化關(guān)系。 Examples:低組成復(fù)雜度區(qū)域間的相似，短的重復(fù)片段間的相似以及編碼普通結(jié)構(gòu)的蛋白序列(如卷曲螺旋)間的相似等。 4.2. 相似性搜索：上述區(qū)域類型會(huì)降低相似性搜索結(jié)果的質(zhì)量，所以在搜索前常常要將其從搜索序列中過濾掉。 SEGandDUST:detectandfilterlowcomplexitysequences; XNU:filtershortperiodrepeats; COILS:detectthepresenceofpotentialc

38、oiledcoilstructures. 5 .數(shù)據(jù)庫(kù)迭代搜索和PSI-BLAST 5.1. 尋找進(jìn)化關(guān)系：趨異進(jìn)化可以使蛋白質(zhì)序列變得無(wú)法識(shí)別，但卻保持結(jié)構(gòu)和功能的相似。而BLAST和FASTA此類方法有時(shí)只能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的一小部分進(jìn)化關(guān)系。有許多生物信息學(xué)搜索已經(jīng)著重于發(fā)現(xiàn)序列間的疏遠(yuǎn)進(jìn)化關(guān)系。 5.2. 數(shù)據(jù)庫(kù)的迭代搜索： PSI-BLAST是一種迭代的搜索方法，可以提高BLAST和FASTA的相似序列發(fā)現(xiàn)率。每次迭代都發(fā)現(xiàn)一些中間序列，用來(lái)在接下去的迭代中尋找查詢序列的更多疏遠(yuǎn)相關(guān)序列。 PSI-BLAST常?？梢哉业奖菳LAST結(jié)果多達(dá)兩倍的進(jìn)化關(guān)系。 PSI-B

39、LAST的潛在問題是存在不相關(guān)序列對(duì)迭代結(jié)果的污染，而其難點(diǎn)則與蛋白質(zhì)的結(jié)構(gòu)域的結(jié)構(gòu)有關(guān)。 F:多重序列比對(duì)：基因和蛋白家族（實(shí)驗(yàn)四）一、多序列比對(duì)和家族關(guān)系 1 .多序列比對(duì)：家族性蛋白質(zhì)和核甘酸序列的內(nèi)在關(guān)系可以用多序列比對(duì)來(lái)闡明。當(dāng)所考察的序列不同時(shí)，保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學(xué)功能的關(guān)鍵殘基。多序列比對(duì)可以揭示關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。與兩序列比對(duì)相比，多序列比對(duì)更富含進(jìn)化保守關(guān)系的信息，因此通常能告訴我們更多的信息。 2 .軟件:最著名的是ClustalW軟件包，2p://ftp-igbmc.u-strasbg.fr/pub/ClustalX. 3

40、.漸進(jìn)比對(duì)：目前大多數(shù)程序使用漸進(jìn)的比對(duì)方法，該方法有運(yùn)行速度較快的優(yōu)點(diǎn)。該法以兩序列比對(duì)來(lái)初步評(píng)價(jià)序列的相關(guān)性，并在這個(gè)基礎(chǔ)上構(gòu)建向?qū)洌╣uidetree）；然后使用向?qū)渲鸩教砑有蛄械奖葘?duì)中，從最密切相關(guān)的序列開始到距離最遠(yuǎn)的序列結(jié)束。漸進(jìn)比對(duì)方法通常非常有效，但也存在一個(gè)問題，即比對(duì)過程中早期產(chǎn)生的比對(duì)錯(cuò)誤不能被矯正而是被凍結(jié)”在比對(duì)結(jié)果中。生物化學(xué)知識(shí)有時(shí)能夠提供正確的比對(duì)信息。當(dāng)自動(dòng) 產(chǎn)生的比對(duì)結(jié)果不太理想時(shí)，就需要軟件來(lái)人工編輯比對(duì)結(jié)果。漸進(jìn)比對(duì)過程中常用到幾種精練方法。例如在Clustal程序包中， 1）空位罰分發(fā)生變化以使空位插入更有可能發(fā)生在親水的環(huán)

41、狀區(qū)域； 2）根據(jù)比對(duì)序列的相關(guān)程度可以采用不同的氨基酸替換打分矩陣。二、蛋白家族和模式數(shù)據(jù)庫(kù) 1 .蛋白家族：把序列分配到蛋白質(zhì)家族中是預(yù)測(cè)蛋白質(zhì)功能的一種非常有價(jià)值的方法。已開發(fā)出許多方法來(lái)代表蛋白質(zhì)家族信息，這些方法存儲(chǔ)在二級(jí)蛋白質(zhì)家族數(shù)據(jù)庫(kù)中。 2 .一致序列：是把多序列比對(duì)的信息壓縮至單條序列。主要的缺點(diǎn)是除了在特定位置最常見的殘基（＞60%）之外，它們不能表示任伺概率信息。一致序列的缺陷： 1）大量來(lái)自序列的不含一致殘基的信息被忽略掉，即使這些位點(diǎn)包含所允許的保守替換。 2 ）一致序列的產(chǎn)生說(shuō)明了任何蛋白家族的表示是有偏向的，這主要是由于來(lái)源的序列集是有偏

42、向的。 3 .數(shù)據(jù)庫(kù)： 1） PROSITE數(shù)據(jù)庫(kù)：包含與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。數(shù)據(jù)庫(kù)是人工編排的，任何已知的假陽(yáng)性或假陰性都會(huì)報(bào)道出來(lái)。在PROSITE中，特殊的符號(hào)，包括方括號(hào)（如［LIVM］）、波形括號(hào)（如｛FD｝）和x（n）用來(lái)表示模式中每個(gè)位點(diǎn)可供選擇的殘基。 PROSITE模式的特點(diǎn)：它們長(zhǎng)度比序列全長(zhǎng)短得多；它們?cè)试S特定位置的替換。因此，它們能夠發(fā)現(xiàn)家族中的遠(yuǎn)親關(guān)系，也能夠幫助我們了解家族成員共有的結(jié)構(gòu)或功能信息。 PROSITE模式有很多缺點(diǎn)：首先，它們長(zhǎng)度較短使得不相關(guān)序列中有假陽(yáng)性的存在；其次，雖然它們?cè)试S描述特定位

43、置的變化，但無(wú)法計(jì)算該變化的概率。 2） PRINTS和BLOCKS：它們用來(lái)自序列最保守區(qū)域的多序列比對(duì)的無(wú)空位片段（blocksormotifs）來(lái)表示蛋白質(zhì)家族。通過更多代表序列的信息，它們有可能比短PROSITE模式更為敏感。如果能匹配某特定家族相關(guān)motif的一個(gè)子集就意味著它們有發(fā)現(xiàn)剪接突變體、序列片段以及代表亞家族的能力。兩者都已有基于WWW的數(shù)據(jù)庫(kù)搜索引擎。這些數(shù)據(jù)庫(kù)中的motifs要比PROSITE模式覆蓋更大的序列區(qū)域。與PROSITE不同，序列中motifs的匹配通常要考慮氨基酸替換矩陣，因而對(duì)某一固定模式不要求嚴(yán)格的匹配。因此，這種匹配更為敏感（可

44、以找到更多遠(yuǎn)親關(guān)系）和更加特異（更少的假陽(yáng)性出現(xiàn)）。三、蛋白結(jié)構(gòu)域家族 1 .結(jié)構(gòu)域家族：許多蛋白質(zhì)是由結(jié)構(gòu)域以模塊化的方式構(gòu)建的。因此蛋白質(zhì)家族的研究其實(shí) 是對(duì)蛋白質(zhì)結(jié)構(gòu)域家族的研究。Prodom是由自動(dòng)方法產(chǎn)生的蛋白質(zhì)結(jié)構(gòu)域序列的數(shù)據(jù)庫(kù)，這一數(shù)據(jù)庫(kù)來(lái)自于蛋白質(zhì)序列數(shù)據(jù)庫(kù)。 2 .序列輪廓：又稱為權(quán)重矩陣，它們表示完全的結(jié)構(gòu)域序列，是一種描述蛋白結(jié)構(gòu)域家族相關(guān)序列的方法。多序列比對(duì)中每個(gè)位點(diǎn)的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法。序列輪廓可以被用作某些PROSITE數(shù)據(jù)庫(kù)條目中序列模式之外的替代方法。 3 .隱馬爾可夫模型：這類模型是蛋白質(zhì)

45、結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計(jì)模型，包括序列的匹配，插入和缺失狀態(tài)，并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來(lái)生成蛋白質(zhì)序列。代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高，從其他家族中生成序列的概率較低?，F(xiàn)在已有算法可以近似地得出從某特定家族模型中生成一條新的蛋白序列的概率，而且它們可以用來(lái)把新的蛋白序列歸類到某一蛋白家族中。 4 .網(wǎng)上資源：Pfam和SMART可以被用于蛋白質(zhì)結(jié)構(gòu)域家族的分析。Interpro聯(lián)合了PROSITE, PRINTS,Pfam,Prodom和SMART,從而形成了一個(gè)整合的資源。 G:系統(tǒng)發(fā)育學(xué)（實(shí)驗(yàn)四）一、系統(tǒng)發(fā)育學(xué)、遺傳分類學(xué)和

46、存在論 1 .物種間的相似性和差異性可以被用來(lái)推斷進(jìn)化關(guān)系（系統(tǒng)發(fā)育學(xué)）。這是因?yàn)?，如果兩? 種非常相似，它們可能擁有一個(gè)新近的共同祖先。確定生物體間進(jìn)化關(guān)系的科學(xué)分支即系統(tǒng) 發(fā)育學(xué)。三種方法：表現(xiàn)型分類法、遺傳分類法、進(jìn)化分類法系統(tǒng)發(fā)育分析：許多不同的特征能夠用于系統(tǒng)發(fā)育的分析中，但是核甘酸和蛋白質(zhì)序列是最為常用的，因?yàn)樗鼈優(yōu)樗械纳问剿灿校ㄔ试S研究關(guān)系密切或疏遠(yuǎn)的類別），而且可以客觀地比較。序列間的相關(guān)性可以使用序列比對(duì)算法客觀地量化。這即是生物信息學(xué)在系統(tǒng)發(fā)育學(xué)中所起的重要作用。序列系統(tǒng)發(fā)育分析背后的簡(jiǎn)單原理是：兩條序列間相似度越高，從一條序列變成另一條序

47、列所需要的突變就越少，因而它們擁有的共同祖先就越近。然而，從這類分析得出的任何進(jìn)化關(guān)系必須假定：所比較的序列存在不變的突變率并且沒有差異選擇。但是這些條件實(shí)際上很難達(dá)到。二、構(gòu)建系統(tǒng)發(fā)育樹1.系統(tǒng)發(fā)育樹是一種顯示講化關(guān)系的簡(jiǎn)單方法.物種由節(jié)點(diǎn)（nodes）表示，遺傳路徑由枝（links）來(lái)表示。系統(tǒng)發(fā)育樹可以從相似度表（similaritytables）或距離表（distancetables）中構(gòu)建而來(lái)。這些表顯示了生物體中一套給定特征間的相似性，采用匹配的百分比（相似度表），或者差異的百分比（距離表）來(lái)表示。三種建樹方法：距離矩陣法、最大簡(jiǎn)約法、最大似然法 2 .建

48、樹軟件：PAUP（phylogeneticanalysisusingparsimony）、PHYLIP（phylogeneticinferencepackage） 3 .檢驗(yàn)方法：一棵給定的樹不一定能準(zhǔn)確地代表進(jìn)化歷史。然而，數(shù)據(jù)的可靠性可以通過下述方法進(jìn)彳T評(píng)估：1）如果不同方法構(gòu)建樹能得出同樣的結(jié)果，這可很好證明該樹是可信的。 2） Bootstrapping和jack-knifing方法:重新取樣并構(gòu)建更多的樹來(lái)評(píng)估。三、大分子序列的進(jìn)化 1 .DNA在進(jìn)化過程中積累突變，導(dǎo)致了不同株系后代DNA、RNA和蛋白質(zhì)序列的分歧。基于大分子序列間差異的系統(tǒng)發(fā)育樹被稱為分子系統(tǒng)發(fā)育

49、。由于內(nèi)部突變率和選擇壓力的差異，不同大分子序列進(jìn)化速率不同，使得對(duì)親緣關(guān)系較近和較遠(yuǎn)的生物體都可以進(jìn)行系統(tǒng)發(fā)育分析 2 .大分子序列的選擇：對(duì)于密切相關(guān)的生物體，使用一種快速進(jìn)化的分子如線粒體DNA比較合適。對(duì)于有很大分歧的系統(tǒng)發(fā)育關(guān)系，則需要用高度保守的分子如核糖體RNA。注意不要選擇不適當(dāng)?shù)拇蠓肿有蛄衼?lái)解釋明顯的系統(tǒng)發(fā)育關(guān)系。 H:序列注釋（實(shí)驗(yàn)三）一、基因組注釋原理 1 .注釋：這一術(shù)語(yǔ)是指從原始序列數(shù)據(jù)中獲得有用的生物學(xué)信息。這主要是指在基因組.DNA 中尋找基因和其他功能元件（結(jié)構(gòu)注釋），并給出這些序列的功能信息（功能注釋）。由于基因結(jié)構(gòu)和基因組組織

50、的不同，原核生物和真核生物的基因組注釋涉及不同的問題。 2 .用計(jì)算機(jī)尋找基因：可以用計(jì)算機(jī)來(lái)預(yù)測(cè)基因組DNA上基因的位置。這可以通過信號(hào)自動(dòng)檢測(cè)［尋找保守的模體（motif）］、內(nèi)容自動(dòng)檢測(cè)（尋找序列背景類似基因的區(qū)域）和同源性搜索（尋找與以前已發(fā)現(xiàn)的基因序列相匹配的區(qū)域）等方法的組合來(lái)完成。然而，沒有一種基因查找的方法是100%可靠的。 Signals是不連續(xù)的局部序列模體，如啟動(dòng)子，剪切供體和受體位點(diǎn)，起始和終止密碼子，以及polyA尾位點(diǎn)。 Contents是不同長(zhǎng)度的擴(kuò)展序列，如編碼區(qū)、CpG島（CpGisland）等。 Homologies是已知基因之間的匹配，如代表基

51、因的表達(dá)序列標(biāo)簽（ESTs）序列等。 3 .檢測(cè)ORFs（可讀框）： ORF:一段較長(zhǎng)（＞300bp）的位于起始密碼子（usually,ATG）和終止密碼子（無(wú)義密碼子，TGA,TAGorTAA）之間的有義密碼子序列，在細(xì)菌基因組中，基因很少有內(nèi)含子的中斷。因此，檢測(cè)基因的有效途徑是對(duì)基因組序列進(jìn) 行六個(gè)可讀框的翻譯并識(shí)別長(zhǎng)白可讀框（ORF）。 4 .檢測(cè)Exons和Introns 在高等真核生物基因組中，基因呈分散狀分布，并被大量的長(zhǎng)內(nèi)含子所中斷。外顯子太短，從而不能僅僅通過ORF搜索來(lái)發(fā)現(xiàn)，所以需要采用包括外顯子檢測(cè)和內(nèi)容自動(dòng)檢測(cè)、剪切信號(hào)的識(shí)別這種組合方法，并結(jié)合cDNA序

52、列等輔助信息來(lái)構(gòu)建全長(zhǎng)基因的模型。二、注釋工具和資源 1 .基因預(yù)測(cè)軟件基因預(yù)測(cè)程序使用從頭算預(yù)測(cè)（abinitiomethods）and/or同源搜索（homology searched來(lái)識(shí)別基因組DNA中的基因。NCBIORFfinder通過執(zhí)行六個(gè)可讀框的翻譯來(lái)識(shí)別ORFs。對(duì)于復(fù)雜的真核生物基因組，則需要更復(fù)雜的統(tǒng)計(jì)分析方法。 2 .測(cè)量預(yù)測(cè)準(zhǔn)確性：沒有一個(gè)基因查找程序是100%精確的，所以較好的方法是使用幾個(gè)程序來(lái)注釋相同的基因組序列。預(yù)測(cè)精度用敏感性（能正確預(yù)測(cè)真正的基因或外顯子）和特異性（能正確排除假基因或假外顯子）來(lái)衡量。 3 .注釋流水線：處理從基因組

53、計(jì)劃中產(chǎn)生的大量數(shù)據(jù)的唯一途徑是使用連續(xù)的流水線一注釋流水線飛速”注釋。 I：結(jié)構(gòu)生物信息學(xué)（實(shí)驗(yàn)六）一、蛋白結(jié)構(gòu)的概念模型 1 .結(jié)構(gòu)類型和概念模型三種不同的蛋白結(jié)構(gòu)類型：纖維蛋白（如膠原質(zhì)）；球狀蛋白，它往往存在于如細(xì)胞質(zhì)和細(xì) 胞外液等水性溶劑中；內(nèi)在膜蛋白，它存在于生物膜的脂質(zhì)環(huán)境當(dāng)中。 2 .球狀蛋白中，線性氨基酸多聚體折疊成球狀的緊湊形狀從而形成一種三維結(jié)構(gòu)。球狀蛋白在水性溶劑中往往是可溶的，其折疊受疏水效應(yīng)控制，疏水效應(yīng)使疏水氨基酸側(cè)鏈朝向蛋白質(zhì)的結(jié)構(gòu)核心，遠(yuǎn)離溶劑。 3 .內(nèi)在膜蛋白是生物信號(hào)和跨膜運(yùn)輸系統(tǒng)的關(guān)鍵元件。這些蛋白存在于生物脂質(zhì)膜中，遵循與球狀蛋

54、白不同的結(jié)構(gòu)原則。它們包含與跨膜片段（常常但不總是螺旋）有關(guān)的多條普通的疏水氨基酸鏈，并由膜外水性環(huán)境中的更多親水回環(huán)連接。 4 .二、三、四級(jí)結(jié)構(gòu)概念： 1）球蛋白通常包含規(guī)則的二級(jí)結(jié)構(gòu)的元件，如a-helices（H）和3-strands（EorB）. a-helices由每個(gè)氨基酸的主鏈上的C=O功能團(tuán)和氨基酸沿著螺旋的四個(gè)殘基上的H-N 功能團(tuán)之間的氫鍵來(lái)穩(wěn)定。 3-strands由主鏈上的殘基與多肽其他部分形成的鏈中的殘基連接形成的。這意味著單一3 鏈不能孤立地存在，它在空間上總是與至少另一條鏈相鄰。這種由連續(xù)的、空間上相鄰的、以氫鍵相連的鏈形成的扭，曲的折疊結(jié)構(gòu)

55、被稱為3折疊片。 2）三級(jí)結(jié)構(gòu)是單一多肽鏈的完全三維原子結(jié)構(gòu)。它可以被看作是二級(jí)結(jié)構(gòu)元件的組合，二級(jí)元件之間由主要存在于蛋白質(zhì)表面的不規(guī)則回環(huán)（C,coils旌接。 3）幾種三級(jí)結(jié)構(gòu)可以組裝起來(lái)形成生物學(xué)功能上的四級(jí)結(jié)構(gòu)。 5 .結(jié)構(gòu)域：自然界通過組合獨(dú)立的組件單元或通常具有較簡(jiǎn)單功能的結(jié)構(gòu)域創(chuàng)造了具有復(fù)雜功能的蛋白質(zhì)。許多蛋白質(zhì)含有大量的結(jié)構(gòu)域，這些結(jié)構(gòu)域往往是混合類型的，如混合的內(nèi) 在膜和球結(jié)構(gòu)域。 6 .進(jìn)化：球狀蛋白中的環(huán)的表面殘基要比疏水核心中的殘基進(jìn)化更快。內(nèi)在膜蛋白中，進(jìn)化最慢的是那些在跨膜結(jié)構(gòu)域中的殘基。二、蛋白質(zhì)三維結(jié)構(gòu)與其功能的關(guān)系：蛋白質(zhì)依賴于其三維結(jié)構(gòu)

56、的形狀和關(guān)鍵功能域的性質(zhì) 來(lái)執(zhí)行生物功能。蛋白質(zhì)結(jié)構(gòu)的知識(shí)對(duì)于理解蛋白質(zhì)功能是關(guān)鍵的，這也是其在生物信息學(xué) 中有很大重要性的一個(gè)原因。三、蛋白質(zhì)結(jié)構(gòu)和功能的進(jìn)化（關(guān)系） 1 .結(jié)構(gòu)和功能約束：進(jìn)化接受蛋白質(zhì)中氨基酸殘基發(fā)生的對(duì)蛋白質(zhì)結(jié)構(gòu)穩(wěn)定或蛋白功能來(lái)說(shuō)中性或有利的變化。出于結(jié)構(gòu)或功能的需要，殘基可以被保留下來(lái)。當(dāng)氨基酸殘基能獨(dú)特地實(shí)現(xiàn)特定的結(jié)構(gòu)作用時(shí)，它們能被保留。這種情況常常出現(xiàn)在cysteine,glycineandproline. 2 .多序列比對(duì)：理解結(jié)構(gòu)怎樣進(jìn)化有助于我們理解多序列比對(duì)。關(guān)鍵的結(jié)構(gòu)和功能殘基常常是保守的。插入和缺失主要出現(xiàn)在親水的表面回環(huán)中，而不

57、是規(guī)則的二級(jí)結(jié)構(gòu)元件中。這個(gè)效應(yīng)可以在多序列比對(duì)中觀察到，比對(duì)結(jié)果往往是由對(duì)應(yīng)于二級(jí)結(jié)構(gòu)元件的較保守殘基和來(lái)自表面回環(huán)的不保守殘基交替組成的。 3 .整體蛋白質(zhì)折疊的進(jìn)化：如果兩條自然出現(xiàn)的蛋白質(zhì)序列可以比對(duì)，并且80個(gè)以上的殘基的比對(duì)顯示出25%以上的相似度，那么它們將共有同樣的基本結(jié)構(gòu)。 SanderandSchneider'srule: t（L）=290.15L-0.562（其中L指的是比對(duì)的長(zhǎng)度，t指保證結(jié)構(gòu)相似所需的一致度百分比閾值。） 4 .結(jié)構(gòu)的保留：蛋白質(zhì)結(jié)構(gòu)往往被保留，甚至由于進(jìn)化使序列改變到不能被識(shí)別時(shí)結(jié)構(gòu)仍被保留。所以結(jié)構(gòu)知識(shí)是理解蛋白質(zhì)進(jìn)化的一個(gè)

58、關(guān)鍵因素。 5 .功能的進(jìn)化：雖然結(jié)構(gòu)往往被進(jìn)化保留下來(lái)，功能卻會(huì)發(fā)生變化。有許多蛋白質(zhì)，其序列和結(jié)構(gòu)非常相似，但功能卻不相同。當(dāng)功能發(fā)生變化，關(guān)鍵的功能殘基也變化了，多序列比對(duì)常常能清楚地顯示出這一點(diǎn)。四、結(jié)構(gòu)數(shù)據(jù)的獲取、展示和分析 1 .獲取數(shù)據(jù)：通用搜索引擎：SRSandNCBI專業(yè)搜索引擎：RSCB:http:〃www.rcsb.org/pdb 2 .結(jié)構(gòu)的可視化：常用的觀察結(jié)構(gòu)數(shù)據(jù)的程序：RasMol; TOPS:http://www.tops.leeds.ac.uk 3 .結(jié)構(gòu)和功能位點(diǎn)的分析 PDBSum:包含了清晰的結(jié)構(gòu)數(shù)據(jù)摘要和對(duì)結(jié)構(gòu)數(shù)據(jù)庫(kù)每一條目的分

59、析，這些條目都可以通過訪問號(hào)來(lái)訪問，其提供的信息包括二級(jí)結(jié)構(gòu)、二硫鍵位置、配體結(jié)合位點(diǎn)、活性位點(diǎn)、關(guān)鍵殘基、分子間相互作用圖、折疊拓?fù)湟约懊傅腅C號(hào)等信息。 SURFNET:該軟件能夠幫助確定蛋白表面潛在的功能位點(diǎn)，特別是酶的活性位點(diǎn)。然后考慮這些位點(diǎn)的結(jié)構(gòu)能揭示該新結(jié)構(gòu)的何種可能功能。預(yù)測(cè)蛋白表面任何潛在位點(diǎn)的實(shí)際功能仍是目前生物信息學(xué)研究的一個(gè)前沿課題。五、結(jié)構(gòu)比對(duì) 1 .要在關(guān)系非常疏遠(yuǎn)的蛋白序列之間找到正確的、有生物學(xué)意義的比對(duì)是很難的，因?yàn)樗鼈冎缓袠O少比例的相同殘基。但在這種情況下，結(jié)構(gòu)信息能幫上忙，因?yàn)檫M(jìn)化往往盡量少地改變結(jié)構(gòu)。疊加相似結(jié)構(gòu)的骨架以發(fā)現(xiàn)相同結(jié)構(gòu)殘基的過

60、程被稱為結(jié)構(gòu)比對(duì)。 2 .軟件:DALI:http://www.ebi.ac.uk/dali 3 .結(jié)構(gòu)相似性：結(jié)構(gòu)比對(duì)方法通常會(huì)創(chuàng)建衡量結(jié)構(gòu)相似度的尺度。最常見的衡量尺度是RMSD(rootmeansquaredifference),許多程序都用這個(gè)標(biāo)準(zhǔn)，它是指最佳結(jié)構(gòu)重疊中比對(duì) 殘基的a碳原子間位置的均方差。RMSD=[sum(di2)/N]0.5 4 .結(jié)構(gòu)相似性搜索：我們常常需要搜索序列數(shù)據(jù)庫(kù)以查詢某一序列的相似序列，同樣，有時(shí)我們也需要搜索結(jié)構(gòu)數(shù)據(jù)庫(kù)以查詢與某一結(jié)構(gòu)相似的結(jié)構(gòu)，這也是很有意義的。 Web-basedsearchengines: DALI;SSAP;TOPS

61、;VASTandRCSB 六、已知三維結(jié)構(gòu)的蛋白分類：CATH和SCOP 1 .為什么要將蛋白質(zhì)進(jìn)行結(jié)構(gòu)分類？蛋白質(zhì)結(jié)構(gòu)在進(jìn)化中要比蛋白質(zhì)序列保守得多。因此，根據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)對(duì)蛋白質(zhì)進(jìn)行分類是把蛋白質(zhì)劃分為各種家族的最有效的方法，可以揭示遠(yuǎn)距離的進(jìn)化關(guān)系。蛋白質(zhì)結(jié)構(gòu)分類的方法主要依據(jù)序列比較方法和結(jié)構(gòu)比較方法。 2 .折疊或拓?fù)洌核械姆诸惗际菍⒕哂型瑯拥恼w折疊或拓?fù)涞牡鞍讱w為一類。具有同樣的折疊或拓?fù)漕愋偷牡鞍踪|(zhì)或多或少地都含有同樣的SSEs(secondarystructureelements),以同樣的方式相連接并位于同樣的相對(duì)空間位置。 CATH(拓?fù)?和SCO

62、P折疊水平把蛋白質(zhì)分成具有相同總體折疊的組。 3 .同源體與相似體：Homologs(homologousproteins)是從某一共同祖先趨異進(jìn)化而來(lái)的蛋白，它們相互關(guān)聯(lián)，并具有同樣的折疊。Analogs(analogousproteins)有同樣的折疊，但關(guān) 于共同祖先的其他證據(jù)卻不充分。 4 .Super-folds(超折疊)是指在進(jìn)化中可能不止出現(xiàn)一次的蛋白質(zhì)折疊。普遍認(rèn)為它們具有物理化學(xué)性質(zhì)上的某種優(yōu)勢(shì)，在SCOP與CATH中它們以含有幾個(gè)同源超家族的折疊或拓?fù)涞男问酱嬖?。比如TIM桶和免疫球蛋白的折疊。七、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)簡(jiǎn)介 1 .原因：結(jié)構(gòu)預(yù)測(cè)是有意義的，因?yàn)?/p>

63、通過實(shí)驗(yàn)來(lái)確定結(jié)構(gòu)仍然要比通過實(shí)驗(yàn)確定序列慢得多。結(jié)構(gòu)預(yù)測(cè)幫助我們理解蛋白質(zhì)的功能和作用機(jī)制，對(duì)合理的藥物設(shè)計(jì)也是很有意義的。 Levinthal和Anfinsen的早期工作使得結(jié)構(gòu)預(yù)測(cè)成了又一個(gè)極有發(fā)展?jié)摿Φ目茖W(xué)領(lǐng)。 2 .什么是結(jié)構(gòu)預(yù)測(cè)：一般說(shuō)來(lái)，結(jié)構(gòu)預(yù)測(cè)是指僅依據(jù)蛋白序列的信息來(lái)預(yù)測(cè)蛋白質(zhì)每個(gè)原子在三維空間中的相對(duì)位置。結(jié)構(gòu)預(yù)測(cè)方法包括：比較建模法(comparativemodeling),折疊識(shí)別法(foldrecognition),二級(jí)結(jié)構(gòu)預(yù)測(cè)法(secondarystructureprediction),從頭預(yù)測(cè)法(abinitioprediction)以及跨膜片段預(yù)測(cè)

64、法(transmembranesegmentprediction)。按理論基礎(chǔ)可分為： abinitioprediction:嘗試計(jì)算并最小化自由能，或得出一個(gè)合適的近似最小值的方法。knowledge-basedprediction:嘗試使用已知結(jié)構(gòu)數(shù)據(jù)庫(kù)中的信息來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。(comparativemodeling,foldrecognition). Blindtesting:CASP(CriticalAssessmentofStructurePrediction) 八、通過比較建模預(yù)測(cè)結(jié)構(gòu)(建模步驟) 1 .理論基礎(chǔ)：在80個(gè)以上殘基的比對(duì)中，一致性達(dá)到25%以上的序列采

65、用的是相同的基本結(jié)構(gòu)。這是比較建模預(yù)測(cè)的理論基礎(chǔ)。 2 .內(nèi)容：比較建模所必需的是目標(biāo)序列和模板結(jié)構(gòu)序列之間的比對(duì)。從用戶的角度來(lái)看，比對(duì)過程是比較建模法中最關(guān)鍵的步驟。因此，有必要從結(jié)構(gòu)和功能的角度來(lái)檢查比對(duì)結(jié) 果的有效性。模板結(jié)構(gòu)可以通過標(biāo)準(zhǔn)的序列相似性搜索的方法來(lái)找到。該方法的主要限制是缺乏合適的模板結(jié)構(gòu)，但結(jié)構(gòu)基因組學(xué)計(jì)劃正在改變這個(gè)局面。 3 .過程：已知結(jié)構(gòu)(模板)作為結(jié)構(gòu)預(yù)測(cè)的基礎(chǔ)。這個(gè)過程從概念上看包括保守核心殘基的定位、可變回環(huán)的模型化、側(cè)鏈的定位和優(yōu)化，以及模型的提煉。保守殘基和一些側(cè)鏈的位置可以直接從模板結(jié)構(gòu)信息中推導(dǎo)出，可變回環(huán)的建模常利用

66、備件算法，對(duì)于側(cè)鏈的定位也有精密的算法來(lái)獲得優(yōu)化包裹的疏水核心。 4 .精確性幾乎完全是由比對(duì)的質(zhì)量控制的。好的比對(duì)結(jié)果通過大多數(shù)主要軟件包將會(huì)產(chǎn)生精確的結(jié)構(gòu)預(yù)測(cè)。在所有的結(jié)構(gòu)預(yù)測(cè)方法中，比較建模法建立的模型最精確。精確性通常以預(yù)測(cè)結(jié)構(gòu)與目標(biāo)序列真實(shí)結(jié)構(gòu)之間“碳原子位置距離的均方差(RMSD)來(lái)衡量。低于1.0?的RMSD值說(shuō)明預(yù)測(cè)結(jié)果非常好。 5 .現(xiàn)有資源：SWISS-MODEL:比較建模法軟彳:SWISS-PDBVIEWER(http://www.expasy.ch/swissmod/SWISS-MODEL.html) 九、二級(jí)結(jié)構(gòu)預(yù)測(cè)(方法、原理、相應(yīng)的軟件、預(yù)測(cè)策略) 1 .什么是二級(jí)結(jié)構(gòu)預(yù)測(cè)：當(dāng)某一特定目標(biāo)序列沒有合適的相關(guān)模板結(jié)構(gòu)時(shí)，可以考慮采用二級(jí)結(jié)構(gòu)預(yù)測(cè)法。與比較建模法不同的是，該方法并不產(chǎn)生一個(gè)全原子三級(jí)結(jié)構(gòu)模型，而是對(duì)每個(gè)殘基二級(jí)結(jié)構(gòu)狀態(tài)進(jìn)行預(yù)測(cè)，即預(yù)測(cè)該二級(jí)結(jié)構(gòu)是否是螺旋、鏈或延伸以及圈。這種預(yù)測(cè)有時(shí)也被稱為三狀態(tài)預(yù)測(cè)。許多方法是基于二級(jí)結(jié)構(gòu)偏好的思想，這種偏好是用某一殘基對(duì)特定二級(jí)結(jié)構(gòu)偏好的數(shù)值來(lái) 反映的。早期的方法能達(dá)到

展開閱讀全文

溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

點(diǎn)擊下載此資源

《生物信息學(xué)》復(fù)習(xí)

最新文檔

相關(guān)資源

相關(guān)搜索