《生物信息學(xué)》學(xué)生復(fù)習(xí)資料
《《生物信息學(xué)》學(xué)生復(fù)習(xí)資料》由會員分享,可在線閱讀,更多相關(guān)《《生物信息學(xué)》學(xué)生復(fù)習(xí)資料(13頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、《生物信息學(xué)》復(fù)習(xí)資料 陳芳 宋東光 教材:《生物信息學(xué)簡明教程》(鐘揚編) 1 緒論 分子生物學(xué)與計算機、信息科學(xué)的結(jié)合-生物信息學(xué)(Bioinformatics); Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules. 生物信息學(xué)及其分支學(xué)科 分子生物信息學(xué)(molecular informati
2、cs)-即狹義的生物信息學(xué),指應(yīng)用信息技術(shù)儲存和分析基因組測序所產(chǎn)生的分子序列及其相關(guān)數(shù)據(jù); 生物信息學(xué)(bioinformatics)-廣義的生物信息學(xué)指生命科學(xué)與數(shù)學(xué)、計算機科學(xué)和信息科學(xué)等交叉形成的一門邊緣學(xué)科,對各種生物信息(主要是分子生物學(xué)信息)的獲取、儲存、處理、分析和闡釋;生物信息學(xué)是廣義的計算生物學(xué)的分支,在為生物學(xué)系統(tǒng)建模中應(yīng)用了量化分析技術(shù); 計算分子生物學(xué)(computational molecular biology)-開發(fā)和使用數(shù)學(xué)和計算機技術(shù)以幫助解決分子生物學(xué)中的問題,側(cè)重于發(fā)展理論模型和有效算法; 分子計算(molecular computing)-
3、將DNA作為一種信息儲存器,應(yīng)用PCR技術(shù)和生物芯片等來進行計算。 生物信息學(xué)的主要目的不是分子發(fā)展最精致的算法,其目的是發(fā)現(xiàn)生物體以怎樣的方式生存。 生物信息學(xué)和計算生物學(xué)研究包括從生物系統(tǒng)的性質(zhì)抽象出為數(shù)學(xué)或物理模型,到實現(xiàn)數(shù)據(jù)分析的新算法,以及開發(fā)數(shù)據(jù)庫和訪問數(shù)據(jù)庫的Web工具。 生物信息學(xué)的功能是表示、存儲和分布數(shù)據(jù)。開發(fā)從數(shù)據(jù)中發(fā)現(xiàn)知識的分析工具處于第二位。 生物信息學(xué)發(fā)展階段與研究方向 前基因組時代-數(shù)據(jù)庫建立、檢索工具的開發(fā)和蛋白質(zhì)序列分析; 基因組時代-基因?qū)ふ液妥R別、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立如EST數(shù)據(jù)庫及電子克隆等; 后基因組時代-大規(guī)?;?/p>
4、組分析、蛋白質(zhì)組分析、各種數(shù)據(jù)的比較和整合。 面臨的主要挑戰(zhàn): 1)互操作的生物信息系統(tǒng)及相關(guān)數(shù)據(jù)挖掘技術(shù); 2)發(fā)展揭示大規(guī)模數(shù)據(jù)集合不同組分間關(guān)系的統(tǒng)計分析方法和優(yōu)化算法; 3)開發(fā)數(shù)據(jù)轉(zhuǎn)換工具,建立預(yù)測模型; 4)開發(fā)微陣列和基因芯片等新技術(shù)的數(shù)據(jù)分析工具。 我國生物信息學(xué)研究的發(fā)展方向 建立國家生物醫(yī)學(xué)數(shù)據(jù)庫與服務(wù)系統(tǒng) 人類基因組的信息結(jié)構(gòu)分析 功能基因組相關(guān)信息分析 研究遺傳密碼起源與生物進化(尤其是分子進化)的過程與機制 生物信息學(xué)基本方法與前沿技術(shù) 基本方法 1)建立生物數(shù)據(jù)庫 2)數(shù)據(jù)庫檢索 3)序列分析 4)統(tǒng)計模型 5)
5、算法 前沿技術(shù) 1)數(shù)據(jù)管理技術(shù) 2)數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與數(shù)據(jù)庫中的知識發(fā)現(xiàn)技術(shù) 3)圖像處理與可視化技術(shù) 生物信息學(xué)的應(yīng)用 生物信息的經(jīng)濟價值與生物信息學(xué)市場 基因組分析 基因芯片 藥物開發(fā) 其他應(yīng)用領(lǐng)域 生物信息學(xué)的主要研究領(lǐng)域及其應(yīng)用前景 生物信息學(xué)(bioinformatics)-廣義的生物信息學(xué)指生命科學(xué)與數(shù)學(xué)、計算機科學(xué)和信息科學(xué)等交叉形成的一門邊緣學(xué)科,對各種生物信息(主要是分子生物學(xué)信息)的獲取、儲存、處理、分析和闡釋;生物信息學(xué)是廣義的計算生物學(xué)的分支,在為生物學(xué)系統(tǒng)建模中應(yīng)用了量化分析技術(shù); 生物信息學(xué)發(fā)展階段與研究方向 前基因組時
6、代-數(shù)據(jù)庫建立、檢索工具的開發(fā)和蛋白質(zhì)序列分析; 基因組時代-基因?qū)ふ液妥R別、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立如EST數(shù)據(jù)庫及電子克隆等; 后基因組時代-大規(guī)模基因組分析、蛋白質(zhì)組分析、各種數(shù)據(jù)的比較和整合。 面臨的主要挑戰(zhàn): 1)互操作的生物信息系統(tǒng)及相關(guān)數(shù)據(jù)挖掘技術(shù); 2)發(fā)展揭示大規(guī)模數(shù)據(jù)集合不同組分間關(guān)系的統(tǒng)計分析方法和優(yōu)化算法; 3)開發(fā)數(shù)據(jù)轉(zhuǎn)換工具,建立預(yù)測模型; 4)開發(fā)微陣列和基因芯片等新技術(shù)的數(shù)據(jù)分析工具。 我國生物信息學(xué)研究的發(fā)展方向 建立國家生物醫(yī)學(xué)數(shù)據(jù)庫與服務(wù)系統(tǒng) 人類基因組的信息結(jié)構(gòu)分析 功能基因組相關(guān)信息分析 研究遺傳密碼起源與生物進化(
7、尤其是分子進化)的過程與機制 生物信息學(xué)的應(yīng)用前景 生物信息的經(jīng)濟價值與生物信息學(xué)市場 基因組分析 基因芯片 藥物開發(fā) 其他應(yīng)用領(lǐng)域 2 生物信息學(xué)的計算機基礎(chǔ) 數(shù)據(jù)管理與數(shù)據(jù)庫技術(shù) 數(shù)據(jù)庫是以一種能夠保存持久并可以被操作的方式來保存的數(shù)據(jù)集合。包括文本文件、電子數(shù)據(jù)表格和圖象。 數(shù)據(jù)庫系統(tǒng)由一個數(shù)據(jù)庫和周圍的環(huán)境,包括軟件、操作系統(tǒng)、硬件和使用它的用戶所組成。 計算機網(wǎng)絡(luò)與Internet 計算機網(wǎng)絡(luò)是為了資源共享和信息交流的目的而互相連接起來的計算機的集合。 互聯(lián)網(wǎng)絡(luò)(Internetwork)是指通過中間設(shè)備連接的多個網(wǎng)絡(luò)的集合,形成覆蓋范圍更廣的計算
8、機網(wǎng)絡(luò)。 網(wǎng)絡(luò)分類 根據(jù)距離分類: 局域網(wǎng)(LAN, Local Area Network)-連接小范圍內(nèi)的計算機,一般系統(tǒng)覆蓋半徑為幾百米到幾公里,是隨著PC機的發(fā)展而發(fā)展起來的;廣域網(wǎng)(WAN, Wide Area Network)可以連接地理位置比較分散的計算機, Internet是最大的WAN,連接了不同大洲的數(shù)百萬個網(wǎng)絡(luò). 介于二者的是城域網(wǎng)(MAN, Metropolitan Area Network). Internet提供的服務(wù) Telnet: 主機遠(yuǎn)程登錄; FTP: 文件傳輸; Email: 電子郵件; Usenet: 新聞組; WWW: 萬維網(wǎng). 數(shù)
9、據(jù)倉庫和數(shù)據(jù)挖掘 Data warehouse: 面向主題的、集成的、持久的、歷史的數(shù)據(jù)集合。從各種數(shù)據(jù)資源中獲得原始數(shù)據(jù)→按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層→按綜合決策要求形成綜合數(shù)據(jù)層→由時間機制轉(zhuǎn)為歷史數(shù)據(jù)層; KDD: knowledge discovery in database, 從數(shù)據(jù)中發(fā)現(xiàn)有用信息和模式的過程,包括數(shù)據(jù)選擇-預(yù)處理-轉(zhuǎn)換-數(shù)據(jù)挖掘-解釋或評價-knowledge; Datamining:利用算法對KDD過程獲得的信息和模式進行提取,對隱藏信息進行預(yù)測性的或描述性的模型匹配.數(shù)據(jù)挖掘的基本技術(shù)包括分類(classification), 回歸(regres
10、sion), 時序分析(time series analysis), 預(yù)測(prediciton), 聚類(clustering), 概括(summarization), 關(guān)聯(lián)(association), 順序發(fā)現(xiàn)(sequence discovery)等. 3 生物信息學(xué)資源與數(shù)據(jù)挖掘 生物信息學(xué)資源 基因組信息 蛋白質(zhì)信息 整合生物學(xué)信息 分子數(shù)據(jù)挖掘工具 序列相似性查詢軟件-BLAST 序列查詢和模式識別 數(shù)據(jù)挖掘工具 生物信息學(xué)資源 查找科學(xué)文獻(xiàn) 幾乎每種主要的期刊都有自己的Web站點,網(wǎng)上也有很多文獻(xiàn)數(shù)據(jù)庫,如NCBI的Medline
11、數(shù)據(jù)庫(PubMed)等。 PubMed介紹 PubMed系統(tǒng)是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的用于檢索MEDLINE、Pre-MEDLINE數(shù)據(jù)庫的網(wǎng)上檢索系統(tǒng)(aaancbi.nlm.nih.gov/entrez)。 MEDLINE是美國國立醫(yī)學(xué)圖書館(U.S.National Library of Medicine)最重要的書目文摘數(shù)據(jù)庫,內(nèi)容涉及醫(yī)學(xué)、護理學(xué)、牙科學(xué)、獸醫(yī)學(xué)、衛(wèi)生保健和基礎(chǔ)醫(yī)學(xué)。收錄了全世界70多個國家和地區(qū)的4000余種生物醫(yī)學(xué)期刊,現(xiàn)有書目文摘條目1000萬余條,時間起自1966年。雖然是世界范圍的,但是大多數(shù)記錄是從英語資料(87%)或有英文摘要
12、(72%)的文獻(xiàn)中獲得的。 PubMed使用以關(guān)鍵詞為基礎(chǔ)的搜索策略,允許邏輯運算符AND/OR/NOT,用戶可以使用Mesh(Medical Subject Heading)查找。Mesh是一個標(biāo)準(zhǔn)詞庫,可用來幫助查找用不同名稱代表同一概念的文獻(xiàn)??捎肕esh瀏覽器查詢相關(guān)的Mesh詞。 基因組信息 DNA測序 雙脫氧測序(ddNTPs)(Sanger 1977) 自動測序(熒光標(biāo)記引物) 毛細(xì)管測序: 提高100倍(2005) 基因組測序 1)YAC, BAC(>100Kb)文庫-> 作圖找到重疊片段,測序 2)鳥槍法測序: 對所有克隆進行測序然后通過計算機進行
13、片段重疊連接。 cDNA文庫測序: ESTs(expressed sequence tags). 提交序列到數(shù)據(jù)庫 BankIt: submit to GenBank by Web Sequin: local PC program -> GenBank Email: gbsub@ncbi.nlm.nih.gov GenBank GenBank是美國國立衛(wèi)生研究院(NIH)維護的基因序列數(shù)據(jù)庫,匯集并注釋了所有公開的核酸以及蛋白質(zhì)序列。每個記錄代表了一個單獨的、連續(xù)的、帶有注釋的DNA或RNA片段。這些文件按類別分為幾組:有些按照系統(tǒng)發(fā)生學(xué)劃分,另外一些則按照生成這些序列數(shù)據(jù)
14、的技術(shù)方法劃分。目前GenBank中所有的記錄均來自于最初整理向DNA序列數(shù)據(jù)庫的直接提交。這些整理將序列數(shù)據(jù)作為論文的一部分來發(fā)表,或?qū)?shù)據(jù)直接公開。GenBank由位于馬里蘭州Bethesda的美國國立衛(wèi)生研究院下屬國立生物技術(shù)信息中心(NCBI)建立,與日本DNA數(shù)據(jù)庫(DDBJ)以及歐洲生物信息研究院的歐洲分子生物學(xué)實驗室核苷酸數(shù)據(jù)庫(EMBL)一起,都是國際核苷酸序列數(shù)據(jù)庫合作的成員。所有這三個中心都可以獨立地接受數(shù)據(jù)提交,而三個中心之間則逐日交換信息,并整理相同的充分詳細(xì)的數(shù)據(jù)庫向公眾開放 分類檢索:用accession number,整理姓名,物種,基因/蛋白名字,還有許多其他
15、的文本術(shù)語來查詢。 同源性(homology):定性。同源序列指從某一共同祖先經(jīng)趨異進化而形成得不同序列。 相似性(similariy)::定量。通過序列比對過程中用來描述檢測序列和目標(biāo)序列之間相同DNA堿基或氨基酸殘基序列所占比例的高低。 相似性檢索:用BLAST來在GenBank和其他數(shù)據(jù)庫中進行序列相似搜索。用E-mail來訪問Entrez和BLAST可以通過Query和BLAST服務(wù)器。 用FTP下載整個的GenBank和更新數(shù)據(jù)。 序列格式 GenBank flatfile (GBFF) 是GenBank數(shù)據(jù)庫的基本信息單位. GBFF可以分成三個部分,頭部包含關(guān)于整個記
16、錄的信息(描述符)。第二部分包含了注釋這一記錄的特性,第三部分是核苷酸序列自身。 蛋白質(zhì)信息 蛋白質(zhì)序列和結(jié)構(gòu)分為3個層次:氨基酸序列-一級數(shù)據(jù)庫,基序(motif)-二級數(shù)據(jù)庫, 結(jié)構(gòu)域(domain)-結(jié)構(gòu)數(shù)據(jù)庫。二級和三級數(shù)據(jù)庫為Derived Databases。 蛋白質(zhì)數(shù)據(jù)庫先于核苷酸數(shù)據(jù)庫。在60年代初,Dayhoff和他的同事們收集了所有當(dāng)時已知的氨基酸序列,這就是“蛋白質(zhì)序列與結(jié)構(gòu)圖冊” 。這一蛋白質(zhì)數(shù)據(jù)庫后來成為PIR(Protein Information Resource). 一級數(shù)據(jù)庫記錄了實驗結(jié)果,以及一些初步的解釋。在DNA序列記錄中的一種常見的注釋是編碼序
17、列(CDS).大多數(shù)蛋白質(zhì)序列都不是直接由實驗確定的,而是通過DNA序列得到的。蛋白質(zhì)一級數(shù)據(jù)庫主要包括:PIR, MIPS, SWISS-PROT, TrEMBL, NRDB, OWL, MIPSX等。 二級數(shù)據(jù)庫(Secondary DB或Pattern DB): 包括PROSITE, PRINTS, Pfam, BLOCKS, IDENITIFY等。 三級數(shù)據(jù)庫: 包括SCOP,CATH,PDBsum等。 分子數(shù)據(jù)挖掘工具 大量的序列和文獻(xiàn)數(shù)據(jù)必須經(jīng)過人工或計算機的處理分析才能提取出有用的信息,因而近年來數(shù)據(jù)挖掘技術(shù)的應(yīng)用在基因表達(dá)分析等領(lǐng)域得到了廣泛的開展。數(shù)據(jù)挖掘不同于傳統(tǒng)的
18、數(shù)據(jù)庫查詢語言,數(shù)據(jù)庫的數(shù)據(jù)須經(jīng)過調(diào)整以利于進行知識挖掘,提取的結(jié)果不是數(shù)據(jù)庫中的元數(shù)據(jù),因此,數(shù)據(jù)挖掘采用多種算法去完成一定的任務(wù),可以對隱藏信息進行預(yù)測性的或描述性的模型匹配。 數(shù)據(jù)挖掘的基本技術(shù)包括分類(classification), 回歸(regression), 時序分析(time series analysis), 預(yù)測(prediciton), 聚類(clustering), 概括(summarization), 關(guān)聯(lián)(association), 順序發(fā)現(xiàn)(sequence discovery)等。 序列相似性查詢軟件 Global similar algorithms
19、which optimize overall alignment between two sequences (dynamic programming) Local similar algorithms which see only relatively conserved pieces of sequence (FASTA, BLAST) BLAST: Basic Local Alignment Search Tool BLASTN, BLASTP, BLASTX, tBLASTN, tBLASTP blastn:核酸序列對核酸庫的比對,直接比較核酸序列的同源性。 blastp:
20、蛋白序列與蛋白庫做比對,直接比對蛋白序列的同源性。 blastx:核酸序列對蛋白庫的比對,先將核酸序列翻譯成蛋白序列(根據(jù)相位可以翻譯為6種可能的蛋白序列),然后再與蛋白庫做比對。 tblastn:蛋白序列對核酸庫的比對,將庫中的核酸翻譯成蛋白序列,然后進行比對。 tblastx:核酸序列對核酸庫在蛋白級別的比對,將庫和待查序列都翻譯成蛋白序列,然后對蛋白序列進行比對。 4 DNA序列分析 基因結(jié)構(gòu)與DNA序列分析 EST分析 cDNA文庫 EST數(shù)據(jù)庫 EST聚類分析 電子克隆全長cDNA 序列比對分析 全局和局部排列 CLUSTAL軟件 基因結(jié)構(gòu)與D
21、NA序列分析 電子克隆cDNA全長序列 Virtual cloning: 利用重疊EST序列通過計算機EST數(shù)據(jù)庫搜索進行拼接獲得全長cDNA. 通常使用BLAST進行檢索,然后進行重疊片段拼接。 Sequence alignment 序列比對是比較兩個(pair-wise alignment)或多個序列(multiple sequence alignment)找出單一字符或字符模式在序列中處于相同的順序。 將兩序列排成兩行,相同字符按列對齊,錯配字符亦可按列或以空格對齊。很容易對齊的序列認(rèn)為是相似的(similiar). 全局比對(global alignment): 用于比
22、較十分相似且長度幾乎相等的序列,比對大部分堿基. 局部比對(local aligment):比較序列中的最高密度配對字符,獲得一個或多個亞比對順序(subalignment), 用于比較有部分相似的序列,其他部分不相似、長度不同、或具有保守區(qū)段或結(jié)構(gòu)域的序列。 序列比對的重要性 序列比對用于發(fā)現(xiàn)生物序列的功能、結(jié)構(gòu)和進化的信息,獲得最佳比對(optimal alignment)才能做到. 很相似的序列往往可能具有相同的功能,如DNA分子的調(diào)控作用,蛋白質(zhì)分子的相似生化功能或三維結(jié)構(gòu)。來自不同生物相似的兩個序列可能具有相同的祖先序列,或稱為同源的。 新的基因進化認(rèn)為是通過基因復(fù)制(gen
23、e duplication)產(chǎn)生前后兩個拷貝并發(fā)生突變,極少的機會其中的一個拷貝的新突變功能上可能更有利,然后沿不同途徑進化,形成的兩個基因家族仍是相關(guān)的且很相似因為具有共同的祖先,由于基因重排(gene rearrangement)會引起蛋白質(zhì)結(jié)構(gòu)域進行重新配對而導(dǎo)致形成更復(fù)雜的蛋白質(zhì)其進化關(guān)系可能難以辨認(rèn)。 Orthologs(垂直進化-直系同源): 具有共同祖先及功能的同源基因但找不到基因如何復(fù)制的證據(jù)(有復(fù)制證據(jù)而同源基因來自一個具有相同功能的拷貝時亦稱Orthologs); Paralogs(平行進化-并系同源): 復(fù)制產(chǎn)生的兩個拷貝及其各自進化的后裔; Analogous(類
24、似): 不具有相同祖先但通過獨立進化途徑而聚合了相同的功能稱為聚合進化(convergent evolution), 如chymotrypsin和subtilisin的空間結(jié)構(gòu)和折疊完全不同但其活性部位具有相似的結(jié)構(gòu)特征; Xenologous(外源的-異同源): 通過基因水平轉(zhuǎn)移(共生、病毒轉(zhuǎn)導(dǎo))而產(chǎn)生的相似序列。 Dot Matrix序列比對 點陣比對方法應(yīng)作為序列比對的首選,因為它可以很快反映序列的插入/缺失和正向/反向重復(fù)。但多數(shù)程序(DOTTER, DNA Strider, DOTPLOT, COMPARE)不能很好確切的表示比對。比對采用對角線來比對兩個序列,用滑動窗口來過濾
25、隨機的配對,窗口大小可以改變。 Dynamic Programming許多計算機科學(xué)的問題都可以簡化為通過圖表尋求最優(yōu)路徑,對每一種路徑都有必要對其進行某種意義上的打分,通常是對沿這一途徑的每一步的增量進行加和. 假定相同殘基加正分,有插入或缺失的殘基就加負(fù)分(扣分)根據(jù)這一定義,最合適的比對方法會得到最高分,也就是我們尋找的最佳路徑。 動態(tài)規(guī)劃的思想是這樣的,如果一條路徑終止于最佳路徑上的一點,那么這條路徑本身就是起點到這個中間點的最佳路徑,即任何一個終止于最佳路徑上的一點的次級路徑必然就是終止于這一點的最佳路徑本身.這樣,最佳路徑就可以通過把各個最佳的次級路徑連接而成。 Needle
26、man-Wunsch算法:最佳比對必然對每個序列都由始至終,就是說從搜索空間的左上角直至右下角。換句話說,它搜索全程比對。 Smith&Waterman算法:把尋找K種最好的但不相互交叉的比對方式為目標(biāo),尋求局部比對時可能會發(fā)現(xiàn)若干個重要的比對。 PAM記分矩陣 序列比較往往希望找到序列的共同祖先是如何經(jīng)過突變和選擇的。基本的突變過程認(rèn)為是取代(substitutions)-序列中的殘基改變,以及插入或缺失(insertions and deletions). 自然選擇過程篩選突變因而某些突變比其他較為常見。 PAM120, PAM80,PAM60分別用來比對序列間有40%,50%及6
27、0%相似性。PAM250用來比較較遠(yuǎn)如只有14~27%相似性的蛋白質(zhì)較合適。 用PAM矩陣進行比對可以統(tǒng)計地區(qū)分偶然或具有生物學(xué)意義的比對。通常不需要先知道序列相似程度,而無空格比對在使用合適PAM矩陣時達(dá)到最佳。有時可以使用幾種矩陣的組合,或使用一個矩陣而調(diào)整打分的參數(shù)可以比對相距較遠(yuǎn)序列(主要用于數(shù)據(jù)庫搜索)。 PAM矩陣比一些簡單的矩陣可能更遜色如基于側(cè)鏈化學(xué)基團的矩陣,而且PAM用于構(gòu)建進化樹關(guān)系方面不理想。BLOSUM矩陣用于比較較遠(yuǎn)蛋白質(zhì)序列更為有用,因為其基于大量蛋白質(zhì)的數(shù)據(jù)。 BLOSUM取代矩陣 BLOSUM62取代矩陣(Blocks amino acid subst
28、itution matrices)基于大量約2000種保守氨基酸patterns(blocks,來自Prosite數(shù)據(jù)庫)中出現(xiàn)的氨基酸取代而獲得的記分矩陣(Henikoff 1992)。 60%相同的patterns獲得的稱為BLOSUM60, 80%相同的稱為BLOSUM80. BLOSUM62代表了信息含量與數(shù)據(jù)大小的平衡,即聚類比率升高,區(qū)分真實與偶然的比對的能力亦提高。 PAM模型用于追溯蛋白質(zhì)的進化途徑,而BLOSUM模型用于發(fā)現(xiàn)保守結(jié)構(gòu)域。 同源性分析中常常要通過多序列比對來找出序列之間的相互關(guān)系,和blast的局部匹配搜索不同,多序列比對大多都是采用全局比對的算法。 C
29、lustal的漸進比對:在比對過程中,先對所有的序列進行兩兩比對并計算它們相似性分值,然后根據(jù)相似性分值將它們分成若干組,并在每組之間進行比對,計算相似性分值。根據(jù)相似性分值繼續(xù)分組比對,直到得到最終比對結(jié)果。在比對過程中,相似性程度較高的序列先進行比對而距離較遠(yuǎn)的序列添加在后面。 CLUSTAL是一種漸進的比對方法,先將多個序列兩兩比對構(gòu)建距離矩陣,反映序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導(dǎo)樹,對關(guān)系密切的序列進行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對,直到所有序列都被加入為止。 世界上最權(quán)威的三大生物數(shù)據(jù)平臺 GenBank數(shù)據(jù)庫:19
30、79年 歐洲分子生物學(xué)實驗室(EMBL):1982年 日本核酸序列數(shù)據(jù)庫(DDBJ): 1984年 5 分子系統(tǒng)發(fā)育分析 分子進化的基本概念 核酸或蛋白質(zhì)譜系的系統(tǒng)發(fā)育分析是推測同一譜系是如何通過進化而來的。序列的進化關(guān)系可以描述為樹的分枝,枝條反應(yīng)進化關(guān)系遠(yuǎn)近,很相似的兩個序列放在鄰近并由共同祖先分枝連接。這個進化樹描述了同一譜系的進化關(guān)系,包括了分子進化(基因樹)、物種進化以及分子進化和物種進化的綜合。 同源性 當(dāng)兩個序列具有進化關(guān)系時,兩序列同源(homologous). 類群(group) 祖先類群(ancestral group) 單系類群(mon
31、ophyletic group) 并系/復(fù)系類群(paraphyletic/polyphyletic group) 內(nèi)/外類群(ingroup/outgroup) 姊妹群(sister group) 基因組復(fù)雜性與系統(tǒng)發(fā)育分析 進行系統(tǒng)發(fā)育分析時,需考慮大多數(shù)基因組的起源是很復(fù)雜的,基因組的部分可能是通過正常生殖循環(huán)垂直進化的,其他部分可能由遺傳物質(zhì)的水平轉(zhuǎn)移如病毒、DNA轉(zhuǎn)化、共生和其他轉(zhuǎn)移機制而來的。 進行發(fā)育樹分析時,選擇的基因應(yīng)該在所有生物體中出現(xiàn)且在多數(shù)物種中可以通過序列保守性來辨認(rèn),同時有足夠的序列變異將不同生物體劃分為相同系統(tǒng)發(fā)育的類群,另外最好該基因不處在選擇
32、壓力下即不易丟失變異. 符合以上條件的序列只有小rRNA亞基和線粒體序列。其他基因家族的系統(tǒng)發(fā)育分析則復(fù)雜些因而提出了不同的模型。 進化樹: 是一個反映生物體或不同生物體的某些基因的進化關(guān)系的二維圖。進化樹均是二分樹(binary),分開的序列稱為類群(taxa),是系統(tǒng)發(fā)育樹的明確單位。樹由向外伸展的枝條或葉片代表taxa,節(jié)點和枝干代表taxa間的關(guān)系。每個節(jié)點代表基因經(jīng)過分開的進化途徑進入兩個不同生殖隔離的物種。枝干長度代表序列的差異數(shù)目. 建樹方法常用的有: maximum parsimony(簡約法), distance(距離法), maximum likelihood(最大似然
33、法). Maximum parsimony method(MP, 最大簡約法) 也稱最小進化法(minimum evolution method),通過減少產(chǎn)生序列觀察差異的步驟來預(yù)測進化樹。多序列比對是必要的,利用盡可能少比對序列上各個位置的改變預(yù)測發(fā)育樹,并找到最好的發(fā)育樹。主要用于序列數(shù)較少且很相似的序列。 Distance method(距離法) 距離法根據(jù)一組序列中的每對序列差異的數(shù)目產(chǎn)生發(fā)育樹。具有最小差異的序列對稱為“鄰居(neighbors)”,它們在樹上的同一節(jié)點或具有相同祖先,分別以樹枝表示。距離法找到組內(nèi)最近的鄰居的方法亦是multiple sequence a
34、lignment使用的第一步。距離法最早由Feng&Doolittle (1991)提出,可以同時產(chǎn)生蛋白質(zhì)序列的比對和發(fā)育樹。CLUSTALW程序利用neighbor-joining distance method,PAUP和PHYLIP亦有使用距離法獲得發(fā)育樹。 Distance method將序列間距離相加以獲得樹枝長度,樹枝上的改變數(shù)目對應(yīng)于序列間的距離。 Fitch & Margoliash Method F&M(1987)使用距離表(distance table),將序列以3個一組進行處理計算分枝長度預(yù)測發(fā)育樹. 樹枝長度亦是加性的, 對于短樹枝樹來說是最準(zhǔn)確的。較長樹枝則
35、降低可靠性。 Neighbor-joining method(NJ, 鄰接法) NJ法與FM法相似但利用不同算法找出序列對,用于預(yù)測不同譜系進化速率不同時的發(fā)育樹比較可靠。首先計算序列間的距離然后計算樹枝長度總和,獲得星狀樹,求得總和最小的樹的兩個序列即可以認(rèn)為是鄰居. UPGMA(算術(shù)平均不加權(quán)對群法) UPGMA(unweighted pair group method with arithmetic mean)是聚類常用的方法。UPGMA認(rèn)為樹枝的改變速率是一個常數(shù)其距離近乎相等(ultrametric)。將序列配對或聚類的方法很多且各異,通常首先計算最相關(guān)的序列將其樹枝長
36、度(branch length)平均,再與另一序列或cluster平均,直到所有序列都進行了計算并得到樹根。當(dāng)樹枝的突變率不一致時得到的樹容易出錯。 選擇外類群(outgroup) 如果已知某些序列相關(guān)程度較遠(yuǎn),可以將其加在最后接近樹根,這樣可以提高預(yù)測的準(zhǔn)確性。這些序列稱為外類群。但是,外類群序列必須與其他序列密切相關(guān),又與其他序列保持顯著的差異(其他序列本身則較近)。 將序列相似性轉(zhuǎn)換成距離分值 大多數(shù)序列比對只是確定序列間的相似程度而不是距離, 最簡單的打分體系即相似性(similarity)描述了序列比對中匹配的位置而距離為不匹配位置的數(shù)目,是可以通過轉(zhuǎn)換為另一個序列的位置
37、。說明這些改變是共同祖先序列分枝產(chǎn)生的。 Maximum likelihood approach(ML, 最大似然法) ML利用概率計算找出差異序列的最佳發(fā)育樹。ML分析多序列比對的每個列,考慮所有可能的樹,因而只能對少數(shù)序列有效。對于每個樹,引起序列變異的序列改變或突變是要考慮的,由于出現(xiàn)新突變的頻率是很低的,因而需要更多的突變樹才能與數(shù)據(jù)吻合的樹是不太可能的。 進化樹構(gòu)建的主要方法、各自的原理及優(yōu)缺點 距離建樹方法:利用雙重序列比對的差異程度進行建樹; 最大簡約法:進化往往會走最短的路-----DNA序列發(fā)生的堿基替換數(shù)量最少 最大似然法:進化會走可能性最大的路
38、1)距離建樹方法(非加權(quán)組平均法UPGMA,相鄰歸并法Neighbor-joining, NJ(優(yōu)點:快速),F(xiàn)itch-Margoliash(FM)( 優(yōu)點:允許OTU(操作分類單位)間存在不同的進化速率)) 原理:根據(jù)雙重序列比對的差異程度(距離) 優(yōu)點:使用序列進化模型、計算強度較小 缺點:屏蔽了真實的特征符數(shù)據(jù)。 2)最大簡約法 原理:最能反映進化歷史的樹具有最短的樹長(tree length),即進化步數(shù)(性狀在系統(tǒng)樹中狀態(tài)改變的次數(shù))最少。即:DNA序列發(fā)生的堿基替換數(shù)最少。 3)最大似然法 原理:首先選定一個進化模型,計算該模型下,各種分支樹產(chǎn)生現(xiàn)有數(shù)據(jù)的可能性。具
39、有最大可能性的系統(tǒng)樹為最優(yōu)。即一個樹的似然性(likelihood)等于每一個性狀的似然性之和或每一個性狀的似然性對數(shù)之和。 優(yōu)點:完全基于統(tǒng)計,在每組序列比對中考慮了每個核苷酸替換的概率,使用越來越普遍 缺點:計算量非常大,缺乏普遍適用的替換模型(不同的替換模型給出不同的結(jié)果) 基因進化樹與物種進化樹的區(qū)別 基因樹(gene tree): 基于一種或少數(shù)幾種同源基因(蛋白)的比較分析而構(gòu)建的系統(tǒng)發(fā)生樹,其實質(zhì)是基因的進化歷史。 物種樹(species tree):綜合考察物種多方面的進化證據(jù)而構(gòu)建的系統(tǒng)發(fā)生樹。物種樹一般最好是從多個基因數(shù)據(jù)的分析中得到。例如最近的一項的研究表明,高
40、等植物進化研究需要采用100種不同的基因來構(gòu)建物種樹,才有較高的可信度。 6 基因組分析 Introduction 自90年代全基因組測序如微生物、酵母(Saccharomyces cerevisiae)、秀麗線蟲(Caenorhabditis elegans)、擬南芥菜(Arabidopsis thaliana)、果蠅(Drosophila)和人類(Homo sapiens)開展以來,生物信息學(xué)的一個主要任務(wù)即是進行全基因組分析。其他的基因組計劃亦已開展。 經(jīng)典遺傳學(xué)和分子生物學(xué)只是研究某個單一基因的作用、對其測序并預(yù)測其功能或?qū)ζ浔磉_(dá)進行控制。而獲得基因組全序列則可以鑒定控制代謝
41、、細(xì)胞分化和發(fā)育、動植物病理過程等的重要基因及其相關(guān)基因。 多年來對模式生物E.coli, S. cerevisiae, A. thaliana, D. melangogaster的遺傳和生化研究已積累了大量的關(guān)于基因結(jié)構(gòu)和功能的信息,老鼠Mus musculus則是研究人類基因的主要動物模型因其在進化上密切相關(guān)。 Prokaryotic genomes: 原核基因組測序前提: 1)已進行過很好的生物學(xué)分析,如E.coli;2)為重要的人類病原菌;3)具有發(fā)育樹重要性(rRNA-Archaea, Bacteria, Eukarya)。 Eukaryotic genomes 真核基
42、因組特點:順序重復(fù)(sequence repeats): 5-200bp,衛(wèi)星DNA, 端粒和著絲粒DNA,小衛(wèi)星DNA(minisatellites, 25bp),微衛(wèi)星DNA(micro~, 4bp或更少)。 轉(zhuǎn)座因子(transposable elements, TEs): 從一個染色體移到另一染色體,其不斷增加數(shù)目可占基因組的很大部分。 Retroposons: SINEs(short interspersed nuclear elements, 80~300bp) & LINEs(long interspersed nuclear elements, 6~8kbp)。人類一個
43、典型的SINEs即Alu(1.2 million copies), 一個LINE1(593,000 copies, 14.6%)。 脊椎動物染色體具有長的區(qū)段(>300bp)其富含GC,重復(fù), 基因密集稱為isochores(等容線),亦即基因組由特異的確定(distinct)區(qū)段組成。如人和鼠有富含AT并有較多的Alu或B1/B2(SINEs),以及具有高基因密度的富含GC區(qū)段。 真核生物基因結(jié)構(gòu) 內(nèi)含子: 蛋白質(zhì)編碼基因均有不同長度和數(shù)目的內(nèi)含子插入且位置一般是固定的,酵母很少整個基因組僅含239個內(nèi)含子,而人類基因可能含100個內(nèi)含子占基因長度的95%。 Comparat
44、ive genomics 比較基因組學(xué)包括對原核和真核生物的基因數(shù)目、基因容量、基因位置進行比較分析,全基因組序列的獲得可以將其編碼的蛋白質(zhì),蛋白質(zhì)組與其他物種比較。 序列比較可以獲得基因關(guān)系的信息-具有相同功能和進化歷史,稱為orthologs。如果一套基因歸屬一組并集中在染色體的特定位置, 且另一物種的一套相似基因亦歸于一組, 則它們具有相同進化歷史。 Horizontal Gene Transfer(HT) 垂直傳遞(vertical transmission): 大多數(shù)物種的基因組由父母的染色體傳遞給子代。 基因水平轉(zhuǎn)移(horizontal transfer-HT
45、, or lateral transfer): 從其他物種獲得遺傳物質(zhì)-典型例子如線粒體和葉綠體的內(nèi)共生。HT不經(jīng)常發(fā)生,有時經(jīng)歷了上千萬年。 基因的功能分析(Functional classification) Gene annotation: 精確基因注釋是基因組分析重要的第一步,注釋通常是通過數(shù)據(jù)庫相似性搜索找到與已知功能序列的顯著比對。不很顯著的匹配只能作為一種假設(shè)的預(yù)測并作為一種功能的假說(MAGPIE, GENEQUIZ)。 功能注釋: 同一物種內(nèi)很相似基因稱為paralogous序列通常具有相關(guān)的生物學(xué)功能。說明paralogs通過gene duplication其中
46、一個拷貝保留原來的功能而另一拷貝在進化壓力下經(jīng)過選擇獲得了新的功能但不太遠(yuǎn)。E.coli的90%以上基因初步歸于8個相關(guān)的組包括enzymes, transport elements, regulators, membranes, structural elements, protein factors, leader peptides and carriers. Gene Ontology(GO)分類: molecular functions, biological processes, and cellular components Global Gene Regulation M
47、icroarray analysis: 了解基因在細(xì)胞周期、發(fā)育時期、環(huán)境脅迫下誘導(dǎo)表達(dá)或抑制的情況,在相同條件下表達(dá)的升或降的基因系列其常常是相關(guān)的。Microchip將物種的所有基因制備成寡核苷酸探針鋪于80x80載玻片上(也可以直接合成于載玻片上,密度達(dá)到1 million/cm2),然后與標(biāo)記的cDNA雜交,標(biāo)記的量可反映基因表達(dá)情況。 獲得共表達(dá)基因序列芯片結(jié)果后,進一步分析這些基因的啟動子區(qū)段找出保守模式并推測哪些轉(zhuǎn)錄因子參與基因表達(dá)的調(diào)節(jié)。 基因芯片(gene chip),又稱DNA微陣列(microarray),是由大量cDNA或寡核苷酸探針密集排列所形成的探針陣列,其工
48、作的基本原理是通過雜交檢測信息。 7 蛋白質(zhì)組分析 蛋白質(zhì)組-一個基因組所編碼的全部蛋白質(zhì)成分。 蛋白質(zhì)組分析的主要內(nèi)容有: 1)蛋白質(zhì)組作圖、蛋白質(zhì)組成分鑒定、蛋白質(zhì)組數(shù)據(jù)庫構(gòu)建、新型蛋白質(zhì)發(fā)掘、蛋白質(zhì)差異顯示、同工型(isoform)比較;2)功能基因組計劃、基因產(chǎn)物識別、基因功能鑒定、基因調(diào)控機制分析;3)重要生命活動的分子機制;4)醫(yī)學(xué)靶分子尋找與分析;5)疾病診斷。 蛋白質(zhì)組分析技術(shù) 技術(shù)路線:主要包括樣品制備、圖象分析、蛋白質(zhì)成分分析與鑒定。 數(shù)據(jù)處理:氨基酸分析、肽質(zhì)指紋圖譜(PMF)、氨基酸分析與PMF聯(lián)合、序列標(biāo)簽途徑、N端EDMAN降解蛋白與微量測序
49、、蛋白質(zhì)內(nèi)肽微量測序、MS(MALDI-TOF, ESI)微量測序、“LADDER”測序等。 2-DE雙向電泳技術(shù) 2-DE-蛋白質(zhì)組研究中分離復(fù)雜蛋白質(zhì)混合物的核心技術(shù),能夠同時分離成千蛋白質(zhì)。 2-DE的分辨率取決于在兩維上的長度,與有效的分離面積成正比。 重復(fù)性是限制2-DE廣泛應(yīng)用的主要問題。自動化、凝膠圖像分析等仍待提高。 蛋白質(zhì)鑒定的質(zhì)譜方法 蛋白質(zhì)鑒定途徑 Edman測序法在80年代中期出現(xiàn)自動化蛋白質(zhì)測序儀后成為蛋白質(zhì)鑒定的主要方法-N端逐步降解,對每步釋放的衍生化氨基酸進行反相HPLC分離、UV檢測。電泳分離蛋白質(zhì)電轉(zhuǎn)印到PVDF膜再進行Edman測序
50、分析,但N端封閉后則不能進行測序,可選擇中間肽段測序。 MS(mass spectrometry)質(zhì)譜分析 通過質(zhì)譜數(shù)據(jù)與序列數(shù)據(jù)庫相關(guān)分析鑒定蛋白質(zhì): 蛋白質(zhì)的氨基酸組成、氨基酸序列、蛋白質(zhì)和肽段的質(zhì)量以及肽碎片的質(zhì)量。分子的精確質(zhì)量可以用MS快速、靈敏、高精度地測定。MS只限于檢測能夠形成離子并被送入真空系統(tǒng)的分子的質(zhì)量-電噴霧電離(ESI, 1989)和基質(zhì)輔助激光解吸/電離(MALDI , 1998)技術(shù)的發(fā)明使得質(zhì)譜可用于分析生物大分子如蛋白質(zhì)、核酸和糖類。 domain, fold, motif31、蛋白質(zhì)的各級結(jié)構(gòu)的定義 Domain: 指具有特定且相對獨立的三維立體結(jié)
51、構(gòu)、而且能夠獨立完成某種功能的蛋白質(zhì)的一部分,但有時候也泛指蛋白質(zhì)序列的一部分。 Fold: 蛋白質(zhì)基本三維結(jié)構(gòu),包括:(1) 二級結(jié)構(gòu)元件(2)元件之間的順序連接(3)元件之間的相對空間位置 Motif:模體,在DNA或蛋白質(zhì)序列上保守的短片段,或蛋白質(zhì)結(jié)構(gòu)上普遍存在的保守立體結(jié)構(gòu)元件。 一級結(jié)構(gòu):氨基酸序列; 二級結(jié)構(gòu):局部多肽鏈借助氫鍵排成特有的規(guī)則結(jié)構(gòu);如α螺旋,β-折疊等等 三級結(jié)構(gòu):由遠(yuǎn)程肽段折疊而產(chǎn)生,一般指多肽鏈的獨立折疊單位經(jīng)多重盤繞、折疊形成由各種次級鍵維持的球狀結(jié)構(gòu)。簡單蛋白質(zhì)的三維空間結(jié)構(gòu),或復(fù)雜蛋白質(zhì)亞基的三維空間結(jié)構(gòu)。 四級結(jié)構(gòu):由若干亞基組裝成復(fù)雜蛋白
52、 蛋白質(zhì)家族、蛋白質(zhì)超家族 蛋白質(zhì)家族(family): are groups of proteins that demonstrate sequence homology or have similar sequences.(一般成員之間的序列相似性超過40-50%以上,進化上可能共同起源于同一祖先蛋白)。主要是從量上面講,即序列相似性很強的一系列蛋白質(zhì) 蛋白質(zhì)超家族(superfamily):Consist of proteins that have similar folding motifs but do not exhibit sequence similarity.成員之間的
53、幾乎不存在序列相似性,但在結(jié)構(gòu)組成上有相似的折疊模體構(gòu)成。主要是從性上面講,即序列功能、結(jié)構(gòu)很相似,但序列卻不相似的一類蛋白質(zhì) 蛋白質(zhì)折疊過程中的關(guān)鍵作用力 1)氫鍵(hydrogen bond):N-H和O-H等具有很大的偶極矩,H核裸露而帶正電荷,而與電負(fù)性強的原子之間的靜電吸引。在穩(wěn)定蛋白質(zhì)的結(jié)構(gòu)中起著極其重要的作用。 2)范德華力(vanderWaals force):作用力較弱,包括:定向效應(yīng)、誘導(dǎo)效應(yīng)和分散效應(yīng) 3)疏水作用(hydrophobic interaction)(熵效應(yīng)):在水溶液中,蛋白質(zhì)分子的疏水基團或側(cè)鏈為避開水分子,而被迫埋藏與蛋白質(zhì)分子的內(nèi)部,并彼此相互接近,構(gòu)成疏水內(nèi)核。 4)離子鍵:它是帶正電荷與帶負(fù)電荷基團之間的一種靜電相互作用。 5)二硫鍵:二硫鍵是由蛋白質(zhì)的兩個半胱氨酸之間配對形成的一種共價鍵。二硫鍵的形成是蛋白質(zhì)折疊過程中的重要步驟,其形成動力學(xué)影響蛋白質(zhì)折疊的速率和途徑,它的錯誤配對是影響蛋白質(zhì)多肽鏈正確折疊的重要原因。二硫鍵的存在對于維持蛋白質(zhì)空間結(jié)構(gòu)穩(wěn)定性,保持其生理活性具有至關(guān)重要的意義。 友情提示:部分文檔來自網(wǎng)絡(luò)整理,供您參考!文檔可復(fù)制、編制,期待您的好評與關(guān)注! 13 / 13
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)備采購常用的四種評標(biāo)方法
- 車間員工管理須知(應(yīng)知應(yīng)會)
- 某公司設(shè)備維護保養(yǎng)工作規(guī)程
- 某企業(yè)潔凈車間人員進出管理規(guī)程
- 企業(yè)管理制度之5S管理的八個口訣
- 標(biāo)準(zhǔn)化班前會的探索及意義
- 某企業(yè)內(nèi)審員考試試題含答案
- 某公司環(huán)境保護考核管理制度
- 現(xiàn)場管理的定義
- 員工培訓(xùn)程序
- 管理制度之生產(chǎn)廠長的職責(zé)與工作標(biāo)準(zhǔn)
- 某公司各級專業(yè)人員環(huán)保職責(zé)
- 企業(yè)管理制度:5S推進與改善工具
- XXX公司環(huán)境風(fēng)險排查及隱患整改制度
- 生產(chǎn)車間基層管理要點及建議