《生物信息學(xué)》學(xué)生復(fù)習(xí)資料
《《生物信息學(xué)》學(xué)生復(fù)習(xí)資料》由會(huì)員分享,可在線閱讀,更多相關(guān)《《生物信息學(xué)》學(xué)生復(fù)習(xí)資料(13頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、《生物信息學(xué)》復(fù)習(xí)資料 陳芳 宋東光 教材:《生物信息學(xué)簡明教程》(鐘揚(yáng)編) 1 緒論 分子生物學(xué)與計(jì)算機(jī)、信息科學(xué)的結(jié)合-生物信息學(xué)(Bioinformatics); Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules. 生物信息學(xué)及其分支學(xué)科 分子生物信息學(xué)(molecular informati
2、cs)-即狹義的生物信息學(xué),指應(yīng)用信息技術(shù)儲(chǔ)存和分析基因組測(cè)序所產(chǎn)生的分子序列及其相關(guān)數(shù)據(jù); 生物信息學(xué)(bioinformatics)-廣義的生物信息學(xué)指生命科學(xué)與數(shù)學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等交叉形成的一門邊緣學(xué)科,對(duì)各種生物信息(主要是分子生物學(xué)信息)的獲取、儲(chǔ)存、處理、分析和闡釋;生物信息學(xué)是廣義的計(jì)算生物學(xué)的分支,在為生物學(xué)系統(tǒng)建模中應(yīng)用了量化分析技術(shù); 計(jì)算分子生物學(xué)(computational molecular biology)-開發(fā)和使用數(shù)學(xué)和計(jì)算機(jī)技術(shù)以幫助解決分子生物學(xué)中的問題,側(cè)重于發(fā)展理論模型和有效算法; 分子計(jì)算(molecular computing)-
3、將DNA作為一種信息儲(chǔ)存器,應(yīng)用PCR技術(shù)和生物芯片等來進(jìn)行計(jì)算。 生物信息學(xué)的主要目的不是分子發(fā)展最精致的算法,其目的是發(fā)現(xiàn)生物體以怎樣的方式生存。 生物信息學(xué)和計(jì)算生物學(xué)研究包括從生物系統(tǒng)的性質(zhì)抽象出為數(shù)學(xué)或物理模型,到實(shí)現(xiàn)數(shù)據(jù)分析的新算法,以及開發(fā)數(shù)據(jù)庫和訪問數(shù)據(jù)庫的Web工具。 生物信息學(xué)的功能是表示、存儲(chǔ)和分布數(shù)據(jù)。開發(fā)從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的分析工具處于第二位。 生物信息學(xué)發(fā)展階段與研究方向 前基因組時(shí)代-數(shù)據(jù)庫建立、檢索工具的開發(fā)和蛋白質(zhì)序列分析; 基因組時(shí)代-基因?qū)ふ液妥R(shí)別、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立如EST數(shù)據(jù)庫及電子克隆等; 后基因組時(shí)代-大規(guī)模基因
4、組分析、蛋白質(zhì)組分析、各種數(shù)據(jù)的比較和整合。 面臨的主要挑戰(zhàn): 1)互操作的生物信息系統(tǒng)及相關(guān)數(shù)據(jù)挖掘技術(shù); 2)發(fā)展揭示大規(guī)模數(shù)據(jù)集合不同組分間關(guān)系的統(tǒng)計(jì)分析方法和優(yōu)化算法; 3)開發(fā)數(shù)據(jù)轉(zhuǎn)換工具,建立預(yù)測(cè)模型; 4)開發(fā)微陣列和基因芯片等新技術(shù)的數(shù)據(jù)分析工具。 我國生物信息學(xué)研究的發(fā)展方向 建立國家生物醫(yī)學(xué)數(shù)據(jù)庫與服務(wù)系統(tǒng) 人類基因組的信息結(jié)構(gòu)分析 功能基因組相關(guān)信息分析 研究遺傳密碼起源與生物進(jìn)化(尤其是分子進(jìn)化)的過程與機(jī)制 生物信息學(xué)基本方法與前沿技術(shù) 基本方法 1)建立生物數(shù)據(jù)庫 2)數(shù)據(jù)庫檢索 3)序列分析 4)統(tǒng)計(jì)模型 5)
5、算法 前沿技術(shù) 1)數(shù)據(jù)管理技術(shù) 2)數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)技術(shù) 3)圖像處理與可視化技術(shù) 生物信息學(xué)的應(yīng)用 生物信息的經(jīng)濟(jì)價(jià)值與生物信息學(xué)市場(chǎng) 基因組分析 基因芯片 藥物開發(fā) 其他應(yīng)用領(lǐng)域 生物信息學(xué)的主要研究領(lǐng)域及其應(yīng)用前景 生物信息學(xué)(bioinformatics)-廣義的生物信息學(xué)指生命科學(xué)與數(shù)學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等交叉形成的一門邊緣學(xué)科,對(duì)各種生物信息(主要是分子生物學(xué)信息)的獲取、儲(chǔ)存、處理、分析和闡釋;生物信息學(xué)是廣義的計(jì)算生物學(xué)的分支,在為生物學(xué)系統(tǒng)建模中應(yīng)用了量化分析技術(shù); 生物信息學(xué)發(fā)展階段與研究方向 前基因組時(shí)
6、代-數(shù)據(jù)庫建立、檢索工具的開發(fā)和蛋白質(zhì)序列分析; 基因組時(shí)代-基因?qū)ふ液妥R(shí)別、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立如EST數(shù)據(jù)庫及電子克隆等; 后基因組時(shí)代-大規(guī)?;蚪M分析、蛋白質(zhì)組分析、各種數(shù)據(jù)的比較和整合。 面臨的主要挑戰(zhàn): 1)互操作的生物信息系統(tǒng)及相關(guān)數(shù)據(jù)挖掘技術(shù); 2)發(fā)展揭示大規(guī)模數(shù)據(jù)集合不同組分間關(guān)系的統(tǒng)計(jì)分析方法和優(yōu)化算法; 3)開發(fā)數(shù)據(jù)轉(zhuǎn)換工具,建立預(yù)測(cè)模型; 4)開發(fā)微陣列和基因芯片等新技術(shù)的數(shù)據(jù)分析工具。 我國生物信息學(xué)研究的發(fā)展方向 建立國家生物醫(yī)學(xué)數(shù)據(jù)庫與服務(wù)系統(tǒng) 人類基因組的信息結(jié)構(gòu)分析 功能基因組相關(guān)信息分析 研究遺傳密碼起源與生物進(jìn)化(
7、尤其是分子進(jìn)化)的過程與機(jī)制 生物信息學(xué)的應(yīng)用前景 生物信息的經(jīng)濟(jì)價(jià)值與生物信息學(xué)市場(chǎng) 基因組分析 基因芯片 藥物開發(fā) 其他應(yīng)用領(lǐng)域 2 生物信息學(xué)的計(jì)算機(jī)基礎(chǔ) 數(shù)據(jù)管理與數(shù)據(jù)庫技術(shù) 數(shù)據(jù)庫是以一種能夠保存持久并可以被操作的方式來保存的數(shù)據(jù)集合。包括文本文件、電子數(shù)據(jù)表格和圖象。 數(shù)據(jù)庫系統(tǒng)由一個(gè)數(shù)據(jù)庫和周圍的環(huán)境,包括軟件、操作系統(tǒng)、硬件和使用它的用戶所組成。 計(jì)算機(jī)網(wǎng)絡(luò)與Internet 計(jì)算機(jī)網(wǎng)絡(luò)是為了資源共享和信息交流的目的而互相連接起來的計(jì)算機(jī)的集合。 互聯(lián)網(wǎng)絡(luò)(Internetwork)是指通過中間設(shè)備連接的多個(gè)網(wǎng)絡(luò)的集合,形成覆蓋范圍更廣的計(jì)算
8、機(jī)網(wǎng)絡(luò)。 網(wǎng)絡(luò)分類 根據(jù)距離分類: 局域網(wǎng)(LAN, Local Area Network)-連接小范圍內(nèi)的計(jì)算機(jī),一般系統(tǒng)覆蓋半徑為幾百米到幾公里,是隨著PC機(jī)的發(fā)展而發(fā)展起來的;廣域網(wǎng)(WAN, Wide Area Network)可以連接地理位置比較分散的計(jì)算機(jī), Internet是最大的WAN,連接了不同大洲的數(shù)百萬個(gè)網(wǎng)絡(luò). 介于二者的是城域網(wǎng)(MAN, Metropolitan Area Network). Internet提供的服務(wù) Telnet: 主機(jī)遠(yuǎn)程登錄; FTP: 文件傳輸; Email: 電子郵件; Usenet: 新聞組; WWW: 萬維網(wǎng). 數(shù)
9、據(jù)倉庫和數(shù)據(jù)挖掘 Data warehouse: 面向主題的、集成的、持久的、歷史的數(shù)據(jù)集合。從各種數(shù)據(jù)資源中獲得原始數(shù)據(jù)→按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層→按綜合決策要求形成綜合數(shù)據(jù)層→由時(shí)間機(jī)制轉(zhuǎn)為歷史數(shù)據(jù)層; KDD: knowledge discovery in database, 從數(shù)據(jù)中發(fā)現(xiàn)有用信息和模式的過程,包括數(shù)據(jù)選擇-預(yù)處理-轉(zhuǎn)換-數(shù)據(jù)挖掘-解釋或評(píng)價(jià)-knowledge; Datamining:利用算法對(duì)KDD過程獲得的信息和模式進(jìn)行提取,對(duì)隱藏信息進(jìn)行預(yù)測(cè)性的或描述性的模型匹配.數(shù)據(jù)挖掘的基本技術(shù)包括分類(classification), 回歸(regres
10、sion), 時(shí)序分析(time series analysis), 預(yù)測(cè)(prediciton), 聚類(clustering), 概括(summarization), 關(guān)聯(lián)(association), 順序發(fā)現(xiàn)(sequence discovery)等. 3 生物信息學(xué)資源與數(shù)據(jù)挖掘 生物信息學(xué)資源 基因組信息 蛋白質(zhì)信息 整合生物學(xué)信息 分子數(shù)據(jù)挖掘工具 序列相似性查詢軟件-BLAST 序列查詢和模式識(shí)別 數(shù)據(jù)挖掘工具 生物信息學(xué)資源 查找科學(xué)文獻(xiàn) 幾乎每種主要的期刊都有自己的Web站點(diǎn),網(wǎng)上也有很多文獻(xiàn)數(shù)據(jù)庫,如NCBI的Medline
11、數(shù)據(jù)庫(PubMed)等。 PubMed介紹 PubMed系統(tǒng)是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的用于檢索MEDLINE、Pre-MEDLINE數(shù)據(jù)庫的網(wǎng)上檢索系統(tǒng)(aaancbi.nlm.nih.gov/entrez)。 MEDLINE是美國國立醫(yī)學(xué)圖書館(U.S.National Library of Medicine)最重要的書目文摘數(shù)據(jù)庫,內(nèi)容涉及醫(yī)學(xué)、護(hù)理學(xué)、牙科學(xué)、獸醫(yī)學(xué)、衛(wèi)生保健和基礎(chǔ)醫(yī)學(xué)。收錄了全世界70多個(gè)國家和地區(qū)的4000余種生物醫(yī)學(xué)期刊,現(xiàn)有書目文摘條目1000萬余條,時(shí)間起自1966年。雖然是世界范圍的,但是大多數(shù)記錄是從英語資料(87%)或有英文摘要
12、(72%)的文獻(xiàn)中獲得的。 PubMed使用以關(guān)鍵詞為基礎(chǔ)的搜索策略,允許邏輯運(yùn)算符AND/OR/NOT,用戶可以使用Mesh(Medical Subject Heading)查找。Mesh是一個(gè)標(biāo)準(zhǔn)詞庫,可用來幫助查找用不同名稱代表同一概念的文獻(xiàn)??捎肕esh瀏覽器查詢相關(guān)的Mesh詞。 基因組信息 DNA測(cè)序 雙脫氧測(cè)序(ddNTPs)(Sanger 1977) 自動(dòng)測(cè)序(熒光標(biāo)記引物) 毛細(xì)管測(cè)序: 提高100倍(2005) 基因組測(cè)序 1)YAC, BAC(>100Kb)文庫-> 作圖找到重疊片段,測(cè)序 2)鳥槍法測(cè)序: 對(duì)所有克隆進(jìn)行測(cè)序然后通過計(jì)算機(jī)進(jìn)行
13、片段重疊連接。 cDNA文庫測(cè)序: ESTs(expressed sequence tags). 提交序列到數(shù)據(jù)庫 BankIt: submit to GenBank by Web Sequin: local PC program -> GenBank Email: gbsub@ncbi.nlm.nih.gov GenBank GenBank是美國國立衛(wèi)生研究院(NIH)維護(hù)的基因序列數(shù)據(jù)庫,匯集并注釋了所有公開的核酸以及蛋白質(zhì)序列。每個(gè)記錄代表了一個(gè)單獨(dú)的、連續(xù)的、帶有注釋的DNA或RNA片段。這些文件按類別分為幾組:有些按照系統(tǒng)發(fā)生學(xué)劃分,另外一些則按照生成這些序列數(shù)據(jù)
14、的技術(shù)方法劃分。目前GenBank中所有的記錄均來自于最初整理向DNA序列數(shù)據(jù)庫的直接提交。這些整理將序列數(shù)據(jù)作為論文的一部分來發(fā)表,或?qū)?shù)據(jù)直接公開。GenBank由位于馬里蘭州Bethesda的美國國立衛(wèi)生研究院下屬國立生物技術(shù)信息中心(NCBI)建立,與日本DNA數(shù)據(jù)庫(DDBJ)以及歐洲生物信息研究院的歐洲分子生物學(xué)實(shí)驗(yàn)室核苷酸數(shù)據(jù)庫(EMBL)一起,都是國際核苷酸序列數(shù)據(jù)庫合作的成員。所有這三個(gè)中心都可以獨(dú)立地接受數(shù)據(jù)提交,而三個(gè)中心之間則逐日交換信息,并整理相同的充分詳細(xì)的數(shù)據(jù)庫向公眾開放 分類檢索:用accession number,整理姓名,物種,基因/蛋白名字,還有許多其他
15、的文本術(shù)語來查詢。 同源性(homology):定性。同源序列指從某一共同祖先經(jīng)趨異進(jìn)化而形成得不同序列。 相似性(similariy)::定量。通過序列比對(duì)過程中用來描述檢測(cè)序列和目標(biāo)序列之間相同DNA堿基或氨基酸殘基序列所占比例的高低。 相似性檢索:用BLAST來在GenBank和其他數(shù)據(jù)庫中進(jìn)行序列相似搜索。用E-mail來訪問Entrez和BLAST可以通過Query和BLAST服務(wù)器。 用FTP下載整個(gè)的GenBank和更新數(shù)據(jù)。 序列格式 GenBank flatfile (GBFF) 是GenBank數(shù)據(jù)庫的基本信息單位. GBFF可以分成三個(gè)部分,頭部包含關(guān)于整個(gè)記
16、錄的信息(描述符)。第二部分包含了注釋這一記錄的特性,第三部分是核苷酸序列自身。 蛋白質(zhì)信息 蛋白質(zhì)序列和結(jié)構(gòu)分為3個(gè)層次:氨基酸序列-一級(jí)數(shù)據(jù)庫,基序(motif)-二級(jí)數(shù)據(jù)庫, 結(jié)構(gòu)域(domain)-結(jié)構(gòu)數(shù)據(jù)庫。二級(jí)和三級(jí)數(shù)據(jù)庫為Derived Databases。 蛋白質(zhì)數(shù)據(jù)庫先于核苷酸數(shù)據(jù)庫。在60年代初,Dayhoff和他的同事們收集了所有當(dāng)時(shí)已知的氨基酸序列,這就是“蛋白質(zhì)序列與結(jié)構(gòu)圖冊(cè)” 。這一蛋白質(zhì)數(shù)據(jù)庫后來成為PIR(Protein Information Resource). 一級(jí)數(shù)據(jù)庫記錄了實(shí)驗(yàn)結(jié)果,以及一些初步的解釋。在DNA序列記錄中的一種常見的注釋是編碼序
17、列(CDS).大多數(shù)蛋白質(zhì)序列都不是直接由實(shí)驗(yàn)確定的,而是通過DNA序列得到的。蛋白質(zhì)一級(jí)數(shù)據(jù)庫主要包括:PIR, MIPS, SWISS-PROT, TrEMBL, NRDB, OWL, MIPSX等。 二級(jí)數(shù)據(jù)庫(Secondary DB或Pattern DB): 包括PROSITE, PRINTS, Pfam, BLOCKS, IDENITIFY等。 三級(jí)數(shù)據(jù)庫: 包括SCOP,CATH,PDBsum等。 分子數(shù)據(jù)挖掘工具 大量的序列和文獻(xiàn)數(shù)據(jù)必須經(jīng)過人工或計(jì)算機(jī)的處理分析才能提取出有用的信息,因而近年來數(shù)據(jù)挖掘技術(shù)的應(yīng)用在基因表達(dá)分析等領(lǐng)域得到了廣泛的開展。數(shù)據(jù)挖掘不同于傳統(tǒng)的
18、數(shù)據(jù)庫查詢語言,數(shù)據(jù)庫的數(shù)據(jù)須經(jīng)過調(diào)整以利于進(jìn)行知識(shí)挖掘,提取的結(jié)果不是數(shù)據(jù)庫中的元數(shù)據(jù),因此,數(shù)據(jù)挖掘采用多種算法去完成一定的任務(wù),可以對(duì)隱藏信息進(jìn)行預(yù)測(cè)性的或描述性的模型匹配。 數(shù)據(jù)挖掘的基本技術(shù)包括分類(classification), 回歸(regression), 時(shí)序分析(time series analysis), 預(yù)測(cè)(prediciton), 聚類(clustering), 概括(summarization), 關(guān)聯(lián)(association), 順序發(fā)現(xiàn)(sequence discovery)等。 序列相似性查詢軟件 Global similar algorithms
19、which optimize overall alignment between two sequences (dynamic programming) Local similar algorithms which see only relatively conserved pieces of sequence (FASTA, BLAST) BLAST: Basic Local Alignment Search Tool BLASTN, BLASTP, BLASTX, tBLASTN, tBLASTP blastn:核酸序列對(duì)核酸庫的比對(duì),直接比較核酸序列的同源性。 blastp:
20、蛋白序列與蛋白庫做比對(duì),直接比對(duì)蛋白序列的同源性。 blastx:核酸序列對(duì)蛋白庫的比對(duì),先將核酸序列翻譯成蛋白序列(根據(jù)相位可以翻譯為6種可能的蛋白序列),然后再與蛋白庫做比對(duì)。 tblastn:蛋白序列對(duì)核酸庫的比對(duì),將庫中的核酸翻譯成蛋白序列,然后進(jìn)行比對(duì)。 tblastx:核酸序列對(duì)核酸庫在蛋白級(jí)別的比對(duì),將庫和待查序列都翻譯成蛋白序列,然后對(duì)蛋白序列進(jìn)行比對(duì)。 4 DNA序列分析 基因結(jié)構(gòu)與DNA序列分析 EST分析 cDNA文庫 EST數(shù)據(jù)庫 EST聚類分析 電子克隆全長cDNA 序列比對(duì)分析 全局和局部排列 CLUSTAL軟件 基因結(jié)構(gòu)與D
21、NA序列分析 電子克隆cDNA全長序列 Virtual cloning: 利用重疊EST序列通過計(jì)算機(jī)EST數(shù)據(jù)庫搜索進(jìn)行拼接獲得全長cDNA. 通常使用BLAST進(jìn)行檢索,然后進(jìn)行重疊片段拼接。 Sequence alignment 序列比對(duì)是比較兩個(gè)(pair-wise alignment)或多個(gè)序列(multiple sequence alignment)找出單一字符或字符模式在序列中處于相同的順序。 將兩序列排成兩行,相同字符按列對(duì)齊,錯(cuò)配字符亦可按列或以空格對(duì)齊。很容易對(duì)齊的序列認(rèn)為是相似的(similiar). 全局比對(duì)(global alignment): 用于比
22、較十分相似且長度幾乎相等的序列,比對(duì)大部分堿基. 局部比對(duì)(local aligment):比較序列中的最高密度配對(duì)字符,獲得一個(gè)或多個(gè)亞比對(duì)順序(subalignment), 用于比較有部分相似的序列,其他部分不相似、長度不同、或具有保守區(qū)段或結(jié)構(gòu)域的序列。 序列比對(duì)的重要性 序列比對(duì)用于發(fā)現(xiàn)生物序列的功能、結(jié)構(gòu)和進(jìn)化的信息,獲得最佳比對(duì)(optimal alignment)才能做到. 很相似的序列往往可能具有相同的功能,如DNA分子的調(diào)控作用,蛋白質(zhì)分子的相似生化功能或三維結(jié)構(gòu)。來自不同生物相似的兩個(gè)序列可能具有相同的祖先序列,或稱為同源的。 新的基因進(jìn)化認(rèn)為是通過基因復(fù)制(gen
23、e duplication)產(chǎn)生前后兩個(gè)拷貝并發(fā)生突變,極少的機(jī)會(huì)其中的一個(gè)拷貝的新突變功能上可能更有利,然后沿不同途徑進(jìn)化,形成的兩個(gè)基因家族仍是相關(guān)的且很相似因?yàn)榫哂泄餐淖嫦?,由于基因重?gene rearrangement)會(huì)引起蛋白質(zhì)結(jié)構(gòu)域進(jìn)行重新配對(duì)而導(dǎo)致形成更復(fù)雜的蛋白質(zhì)其進(jìn)化關(guān)系可能難以辨認(rèn)。 Orthologs(垂直進(jìn)化-直系同源): 具有共同祖先及功能的同源基因但找不到基因如何復(fù)制的證據(jù)(有復(fù)制證據(jù)而同源基因來自一個(gè)具有相同功能的拷貝時(shí)亦稱Orthologs); Paralogs(平行進(jìn)化-并系同源): 復(fù)制產(chǎn)生的兩個(gè)拷貝及其各自進(jìn)化的后裔; Analogous(類
24、似): 不具有相同祖先但通過獨(dú)立進(jìn)化途徑而聚合了相同的功能稱為聚合進(jìn)化(convergent evolution), 如chymotrypsin和subtilisin的空間結(jié)構(gòu)和折疊完全不同但其活性部位具有相似的結(jié)構(gòu)特征; Xenologous(外源的-異同源): 通過基因水平轉(zhuǎn)移(共生、病毒轉(zhuǎn)導(dǎo))而產(chǎn)生的相似序列。 Dot Matrix序列比對(duì) 點(diǎn)陣比對(duì)方法應(yīng)作為序列比對(duì)的首選,因?yàn)樗梢院芸旆从承蛄械牟迦?缺失和正向/反向重復(fù)。但多數(shù)程序(DOTTER, DNA Strider, DOTPLOT, COMPARE)不能很好確切的表示比對(duì)。比對(duì)采用對(duì)角線來比對(duì)兩個(gè)序列,用滑動(dòng)窗口來過濾
25、隨機(jī)的配對(duì),窗口大小可以改變。 Dynamic Programming許多計(jì)算機(jī)科學(xué)的問題都可以簡化為通過圖表尋求最優(yōu)路徑,對(duì)每一種路徑都有必要對(duì)其進(jìn)行某種意義上的打分,通常是對(duì)沿這一途徑的每一步的增量進(jìn)行加和. 假定相同殘基加正分,有插入或缺失的殘基就加負(fù)分(扣分)根據(jù)這一定義,最合適的比對(duì)方法會(huì)得到最高分,也就是我們尋找的最佳路徑。 動(dòng)態(tài)規(guī)劃的思想是這樣的,如果一條路徑終止于最佳路徑上的一點(diǎn),那么這條路徑本身就是起點(diǎn)到這個(gè)中間點(diǎn)的最佳路徑,即任何一個(gè)終止于最佳路徑上的一點(diǎn)的次級(jí)路徑必然就是終止于這一點(diǎn)的最佳路徑本身.這樣,最佳路徑就可以通過把各個(gè)最佳的次級(jí)路徑連接而成。 Needle
26、man-Wunsch算法:最佳比對(duì)必然對(duì)每個(gè)序列都由始至終,就是說從搜索空間的左上角直至右下角。換句話說,它搜索全程比對(duì)。 Smith&Waterman算法:把尋找K種最好的但不相互交叉的比對(duì)方式為目標(biāo),尋求局部比對(duì)時(shí)可能會(huì)發(fā)現(xiàn)若干個(gè)重要的比對(duì)。 PAM記分矩陣 序列比較往往希望找到序列的共同祖先是如何經(jīng)過突變和選擇的。基本的突變過程認(rèn)為是取代(substitutions)-序列中的殘基改變,以及插入或缺失(insertions and deletions). 自然選擇過程篩選突變因而某些突變比其他較為常見。 PAM120, PAM80,PAM60分別用來比對(duì)序列間有40%,50%及6
27、0%相似性。PAM250用來比較較遠(yuǎn)如只有14~27%相似性的蛋白質(zhì)較合適。 用PAM矩陣進(jìn)行比對(duì)可以統(tǒng)計(jì)地區(qū)分偶然或具有生物學(xué)意義的比對(duì)。通常不需要先知道序列相似程度,而無空格比對(duì)在使用合適PAM矩陣時(shí)達(dá)到最佳。有時(shí)可以使用幾種矩陣的組合,或使用一個(gè)矩陣而調(diào)整打分的參數(shù)可以比對(duì)相距較遠(yuǎn)序列(主要用于數(shù)據(jù)庫搜索)。 PAM矩陣比一些簡單的矩陣可能更遜色如基于側(cè)鏈化學(xué)基團(tuán)的矩陣,而且PAM用于構(gòu)建進(jìn)化樹關(guān)系方面不理想。BLOSUM矩陣用于比較較遠(yuǎn)蛋白質(zhì)序列更為有用,因?yàn)槠浠诖罅康鞍踪|(zhì)的數(shù)據(jù)。 BLOSUM取代矩陣 BLOSUM62取代矩陣(Blocks amino acid subst
28、itution matrices)基于大量約2000種保守氨基酸patterns(blocks,來自Prosite數(shù)據(jù)庫)中出現(xiàn)的氨基酸取代而獲得的記分矩陣(Henikoff 1992)。 60%相同的patterns獲得的稱為BLOSUM60, 80%相同的稱為BLOSUM80. BLOSUM62代表了信息含量與數(shù)據(jù)大小的平衡,即聚類比率升高,區(qū)分真實(shí)與偶然的比對(duì)的能力亦提高。 PAM模型用于追溯蛋白質(zhì)的進(jìn)化途徑,而BLOSUM模型用于發(fā)現(xiàn)保守結(jié)構(gòu)域。 同源性分析中常常要通過多序列比對(duì)來找出序列之間的相互關(guān)系,和blast的局部匹配搜索不同,多序列比對(duì)大多都是采用全局比對(duì)的算法。 C
29、lustal的漸進(jìn)比對(duì):在比對(duì)過程中,先對(duì)所有的序列進(jìn)行兩兩比對(duì)并計(jì)算它們相似性分值,然后根據(jù)相似性分值將它們分成若干組,并在每組之間進(jìn)行比對(duì),計(jì)算相似性分值。根據(jù)相似性分值繼續(xù)分組比對(duì),直到得到最終比對(duì)結(jié)果。在比對(duì)過程中,相似性程度較高的序列先進(jìn)行比對(duì)而距離較遠(yuǎn)的序列添加在后面。 CLUSTAL是一種漸進(jìn)的比對(duì)方法,先將多個(gè)序列兩兩比對(duì)構(gòu)建距離矩陣,反映序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹,對(duì)關(guān)系密切的序列進(jìn)行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對(duì),直到所有序列都被加入為止。 世界上最權(quán)威的三大生物數(shù)據(jù)平臺(tái) GenBank數(shù)據(jù)庫:19
30、79年 歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL):1982年 日本核酸序列數(shù)據(jù)庫(DDBJ): 1984年 5 分子系統(tǒng)發(fā)育分析 分子進(jìn)化的基本概念 核酸或蛋白質(zhì)譜系的系統(tǒng)發(fā)育分析是推測(cè)同一譜系是如何通過進(jìn)化而來的。序列的進(jìn)化關(guān)系可以描述為樹的分枝,枝條反應(yīng)進(jìn)化關(guān)系遠(yuǎn)近,很相似的兩個(gè)序列放在鄰近并由共同祖先分枝連接。這個(gè)進(jìn)化樹描述了同一譜系的進(jìn)化關(guān)系,包括了分子進(jìn)化(基因樹)、物種進(jìn)化以及分子進(jìn)化和物種進(jìn)化的綜合。 同源性 當(dāng)兩個(gè)序列具有進(jìn)化關(guān)系時(shí),兩序列同源(homologous). 類群(group) 祖先類群(ancestral group) 單系類群(mon
31、ophyletic group) 并系/復(fù)系類群(paraphyletic/polyphyletic group) 內(nèi)/外類群(ingroup/outgroup) 姊妹群(sister group) 基因組復(fù)雜性與系統(tǒng)發(fā)育分析 進(jìn)行系統(tǒng)發(fā)育分析時(shí),需考慮大多數(shù)基因組的起源是很復(fù)雜的,基因組的部分可能是通過正常生殖循環(huán)垂直進(jìn)化的,其他部分可能由遺傳物質(zhì)的水平轉(zhuǎn)移如病毒、DNA轉(zhuǎn)化、共生和其他轉(zhuǎn)移機(jī)制而來的。 進(jìn)行發(fā)育樹分析時(shí),選擇的基因應(yīng)該在所有生物體中出現(xiàn)且在多數(shù)物種中可以通過序列保守性來辨認(rèn),同時(shí)有足夠的序列變異將不同生物體劃分為相同系統(tǒng)發(fā)育的類群,另外最好該基因不處在選擇
32、壓力下即不易丟失變異. 符合以上條件的序列只有小rRNA亞基和線粒體序列。其他基因家族的系統(tǒng)發(fā)育分析則復(fù)雜些因而提出了不同的模型。 進(jìn)化樹: 是一個(gè)反映生物體或不同生物體的某些基因的進(jìn)化關(guān)系的二維圖。進(jìn)化樹均是二分樹(binary),分開的序列稱為類群(taxa),是系統(tǒng)發(fā)育樹的明確單位。樹由向外伸展的枝條或葉片代表taxa,節(jié)點(diǎn)和枝干代表taxa間的關(guān)系。每個(gè)節(jié)點(diǎn)代表基因經(jīng)過分開的進(jìn)化途徑進(jìn)入兩個(gè)不同生殖隔離的物種。枝干長度代表序列的差異數(shù)目. 建樹方法常用的有: maximum parsimony(簡約法), distance(距離法), maximum likelihood(最大似然
33、法). Maximum parsimony method(MP, 最大簡約法) 也稱最小進(jìn)化法(minimum evolution method),通過減少產(chǎn)生序列觀察差異的步驟來預(yù)測(cè)進(jìn)化樹。多序列比對(duì)是必要的,利用盡可能少比對(duì)序列上各個(gè)位置的改變預(yù)測(cè)發(fā)育樹,并找到最好的發(fā)育樹。主要用于序列數(shù)較少且很相似的序列。 Distance method(距離法) 距離法根據(jù)一組序列中的每對(duì)序列差異的數(shù)目產(chǎn)生發(fā)育樹。具有最小差異的序列對(duì)稱為“鄰居(neighbors)”,它們?cè)跇渖系耐还?jié)點(diǎn)或具有相同祖先,分別以樹枝表示。距離法找到組內(nèi)最近的鄰居的方法亦是multiple sequence a
34、lignment使用的第一步。距離法最早由Feng&Doolittle (1991)提出,可以同時(shí)產(chǎn)生蛋白質(zhì)序列的比對(duì)和發(fā)育樹。CLUSTALW程序利用neighbor-joining distance method,PAUP和PHYLIP亦有使用距離法獲得發(fā)育樹。 Distance method將序列間距離相加以獲得樹枝長度,樹枝上的改變數(shù)目對(duì)應(yīng)于序列間的距離。 Fitch & Margoliash Method F&M(1987)使用距離表(distance table),將序列以3個(gè)一組進(jìn)行處理計(jì)算分枝長度預(yù)測(cè)發(fā)育樹. 樹枝長度亦是加性的, 對(duì)于短樹枝樹來說是最準(zhǔn)確的。較長樹枝則
35、降低可靠性。 Neighbor-joining method(NJ, 鄰接法) NJ法與FM法相似但利用不同算法找出序列對(duì),用于預(yù)測(cè)不同譜系進(jìn)化速率不同時(shí)的發(fā)育樹比較可靠。首先計(jì)算序列間的距離然后計(jì)算樹枝長度總和,獲得星狀樹,求得總和最小的樹的兩個(gè)序列即可以認(rèn)為是鄰居. UPGMA(算術(shù)平均不加權(quán)對(duì)群法) UPGMA(unweighted pair group method with arithmetic mean)是聚類常用的方法。UPGMA認(rèn)為樹枝的改變速率是一個(gè)常數(shù)其距離近乎相等(ultrametric)。將序列配對(duì)或聚類的方法很多且各異,通常首先計(jì)算最相關(guān)的序列將其樹枝長
36、度(branch length)平均,再與另一序列或cluster平均,直到所有序列都進(jìn)行了計(jì)算并得到樹根。當(dāng)樹枝的突變率不一致時(shí)得到的樹容易出錯(cuò)。 選擇外類群(outgroup) 如果已知某些序列相關(guān)程度較遠(yuǎn),可以將其加在最后接近樹根,這樣可以提高預(yù)測(cè)的準(zhǔn)確性。這些序列稱為外類群。但是,外類群序列必須與其他序列密切相關(guān),又與其他序列保持顯著的差異(其他序列本身則較近)。 將序列相似性轉(zhuǎn)換成距離分值 大多數(shù)序列比對(duì)只是確定序列間的相似程度而不是距離, 最簡單的打分體系即相似性(similarity)描述了序列比對(duì)中匹配的位置而距離為不匹配位置的數(shù)目,是可以通過轉(zhuǎn)換為另一個(gè)序列的位置
37、。說明這些改變是共同祖先序列分枝產(chǎn)生的。 Maximum likelihood approach(ML, 最大似然法) ML利用概率計(jì)算找出差異序列的最佳發(fā)育樹。ML分析多序列比對(duì)的每個(gè)列,考慮所有可能的樹,因而只能對(duì)少數(shù)序列有效。對(duì)于每個(gè)樹,引起序列變異的序列改變或突變是要考慮的,由于出現(xiàn)新突變的頻率是很低的,因而需要更多的突變樹才能與數(shù)據(jù)吻合的樹是不太可能的。 進(jìn)化樹構(gòu)建的主要方法、各自的原理及優(yōu)缺點(diǎn) 距離建樹方法:利用雙重序列比對(duì)的差異程度進(jìn)行建樹; 最大簡約法:進(jìn)化往往會(huì)走最短的路-----DNA序列發(fā)生的堿基替換數(shù)量最少 最大似然法:進(jìn)化會(huì)走可能性最大的路
38、1)距離建樹方法(非加權(quán)組平均法UPGMA,相鄰歸并法Neighbor-joining, NJ(優(yōu)點(diǎn):快速),F(xiàn)itch-Margoliash(FM)( 優(yōu)點(diǎn):允許OTU(操作分類單位)間存在不同的進(jìn)化速率)) 原理:根據(jù)雙重序列比對(duì)的差異程度(距離) 優(yōu)點(diǎn):使用序列進(jìn)化模型、計(jì)算強(qiáng)度較小 缺點(diǎn):屏蔽了真實(shí)的特征符數(shù)據(jù)。 2)最大簡約法 原理:最能反映進(jìn)化歷史的樹具有最短的樹長(tree length),即進(jìn)化步數(shù)(性狀在系統(tǒng)樹中狀態(tài)改變的次數(shù))最少。即:DNA序列發(fā)生的堿基替換數(shù)最少。 3)最大似然法 原理:首先選定一個(gè)進(jìn)化模型,計(jì)算該模型下,各種分支樹產(chǎn)生現(xiàn)有數(shù)據(jù)的可能性。具
39、有最大可能性的系統(tǒng)樹為最優(yōu)。即一個(gè)樹的似然性(likelihood)等于每一個(gè)性狀的似然性之和或每一個(gè)性狀的似然性對(duì)數(shù)之和。 優(yōu)點(diǎn):完全基于統(tǒng)計(jì),在每組序列比對(duì)中考慮了每個(gè)核苷酸替換的概率,使用越來越普遍 缺點(diǎn):計(jì)算量非常大,缺乏普遍適用的替換模型(不同的替換模型給出不同的結(jié)果) 基因進(jìn)化樹與物種進(jìn)化樹的區(qū)別 基因樹(gene tree): 基于一種或少數(shù)幾種同源基因(蛋白)的比較分析而構(gòu)建的系統(tǒng)發(fā)生樹,其實(shí)質(zhì)是基因的進(jìn)化歷史。 物種樹(species tree):綜合考察物種多方面的進(jìn)化證據(jù)而構(gòu)建的系統(tǒng)發(fā)生樹。物種樹一般最好是從多個(gè)基因數(shù)據(jù)的分析中得到。例如最近的一項(xiàng)的研究表明,高
40、等植物進(jìn)化研究需要采用100種不同的基因來構(gòu)建物種樹,才有較高的可信度。 6 基因組分析 Introduction 自90年代全基因組測(cè)序如微生物、酵母(Saccharomyces cerevisiae)、秀麗線蟲(Caenorhabditis elegans)、擬南芥菜(Arabidopsis thaliana)、果蠅(Drosophila)和人類(Homo sapiens)開展以來,生物信息學(xué)的一個(gè)主要任務(wù)即是進(jìn)行全基因組分析。其他的基因組計(jì)劃亦已開展。 經(jīng)典遺傳學(xué)和分子生物學(xué)只是研究某個(gè)單一基因的作用、對(duì)其測(cè)序并預(yù)測(cè)其功能或?qū)ζ浔磉_(dá)進(jìn)行控制。而獲得基因組全序列則可以鑒定控制代謝
41、、細(xì)胞分化和發(fā)育、動(dòng)植物病理過程等的重要基因及其相關(guān)基因。 多年來對(duì)模式生物E.coli, S. cerevisiae, A. thaliana, D. melangogaster的遺傳和生化研究已積累了大量的關(guān)于基因結(jié)構(gòu)和功能的信息,老鼠Mus musculus則是研究人類基因的主要?jiǎng)游锬P鸵蚱湓谶M(jìn)化上密切相關(guān)。 Prokaryotic genomes: 原核基因組測(cè)序前提: 1)已進(jìn)行過很好的生物學(xué)分析,如E.coli;2)為重要的人類病原菌;3)具有發(fā)育樹重要性(rRNA-Archaea, Bacteria, Eukarya)。 Eukaryotic genomes 真核基
42、因組特點(diǎn):順序重復(fù)(sequence repeats): 5-200bp,衛(wèi)星DNA, 端粒和著絲粒DNA,小衛(wèi)星DNA(minisatellites, 25bp),微衛(wèi)星DNA(micro~, 4bp或更少)。 轉(zhuǎn)座因子(transposable elements, TEs): 從一個(gè)染色體移到另一染色體,其不斷增加數(shù)目可占基因組的很大部分。 Retroposons: SINEs(short interspersed nuclear elements, 80~300bp) & LINEs(long interspersed nuclear elements, 6~8kbp)。人類一個(gè)
43、典型的SINEs即Alu(1.2 million copies), 一個(gè)LINE1(593,000 copies, 14.6%)。 脊椎動(dòng)物染色體具有長的區(qū)段(>300bp)其富含GC,重復(fù), 基因密集稱為isochores(等容線),亦即基因組由特異的確定(distinct)區(qū)段組成。如人和鼠有富含AT并有較多的Alu或B1/B2(SINEs),以及具有高基因密度的富含GC區(qū)段。 真核生物基因結(jié)構(gòu) 內(nèi)含子: 蛋白質(zhì)編碼基因均有不同長度和數(shù)目的內(nèi)含子插入且位置一般是固定的,酵母很少整個(gè)基因組僅含239個(gè)內(nèi)含子,而人類基因可能含100個(gè)內(nèi)含子占基因長度的95%。 Comparat
44、ive genomics 比較基因組學(xué)包括對(duì)原核和真核生物的基因數(shù)目、基因容量、基因位置進(jìn)行比較分析,全基因組序列的獲得可以將其編碼的蛋白質(zhì),蛋白質(zhì)組與其他物種比較。 序列比較可以獲得基因關(guān)系的信息-具有相同功能和進(jìn)化歷史,稱為orthologs。如果一套基因歸屬一組并集中在染色體的特定位置, 且另一物種的一套相似基因亦歸于一組, 則它們具有相同進(jìn)化歷史。 Horizontal Gene Transfer(HT) 垂直傳遞(vertical transmission): 大多數(shù)物種的基因組由父母的染色體傳遞給子代。 基因水平轉(zhuǎn)移(horizontal transfer-HT
45、, or lateral transfer): 從其他物種獲得遺傳物質(zhì)-典型例子如線粒體和葉綠體的內(nèi)共生。HT不經(jīng)常發(fā)生,有時(shí)經(jīng)歷了上千萬年。 基因的功能分析(Functional classification) Gene annotation: 精確基因注釋是基因組分析重要的第一步,注釋通常是通過數(shù)據(jù)庫相似性搜索找到與已知功能序列的顯著比對(duì)。不很顯著的匹配只能作為一種假設(shè)的預(yù)測(cè)并作為一種功能的假說(MAGPIE, GENEQUIZ)。 功能注釋: 同一物種內(nèi)很相似基因稱為paralogous序列通常具有相關(guān)的生物學(xué)功能。說明paralogs通過gene duplication其中
46、一個(gè)拷貝保留原來的功能而另一拷貝在進(jìn)化壓力下經(jīng)過選擇獲得了新的功能但不太遠(yuǎn)。E.coli的90%以上基因初步歸于8個(gè)相關(guān)的組包括enzymes, transport elements, regulators, membranes, structural elements, protein factors, leader peptides and carriers. Gene Ontology(GO)分類: molecular functions, biological processes, and cellular components Global Gene Regulation M
47、icroarray analysis: 了解基因在細(xì)胞周期、發(fā)育時(shí)期、環(huán)境脅迫下誘導(dǎo)表達(dá)或抑制的情況,在相同條件下表達(dá)的升或降的基因系列其常常是相關(guān)的。Microchip將物種的所有基因制備成寡核苷酸探針鋪于80x80載玻片上(也可以直接合成于載玻片上,密度達(dá)到1 million/cm2),然后與標(biāo)記的cDNA雜交,標(biāo)記的量可反映基因表達(dá)情況。 獲得共表達(dá)基因序列芯片結(jié)果后,進(jìn)一步分析這些基因的啟動(dòng)子區(qū)段找出保守模式并推測(cè)哪些轉(zhuǎn)錄因子參與基因表達(dá)的調(diào)節(jié)。 基因芯片(gene chip),又稱DNA微陣列(microarray),是由大量cDNA或寡核苷酸探針密集排列所形成的探針陣列,其工
48、作的基本原理是通過雜交檢測(cè)信息。 7 蛋白質(zhì)組分析 蛋白質(zhì)組-一個(gè)基因組所編碼的全部蛋白質(zhì)成分。 蛋白質(zhì)組分析的主要內(nèi)容有: 1)蛋白質(zhì)組作圖、蛋白質(zhì)組成分鑒定、蛋白質(zhì)組數(shù)據(jù)庫構(gòu)建、新型蛋白質(zhì)發(fā)掘、蛋白質(zhì)差異顯示、同工型(isoform)比較;2)功能基因組計(jì)劃、基因產(chǎn)物識(shí)別、基因功能鑒定、基因調(diào)控機(jī)制分析;3)重要生命活動(dòng)的分子機(jī)制;4)醫(yī)學(xué)靶分子尋找與分析;5)疾病診斷。 蛋白質(zhì)組分析技術(shù) 技術(shù)路線:主要包括樣品制備、圖象分析、蛋白質(zhì)成分分析與鑒定。 數(shù)據(jù)處理:氨基酸分析、肽質(zhì)指紋圖譜(PMF)、氨基酸分析與PMF聯(lián)合、序列標(biāo)簽途徑、N端EDMAN降解蛋白與微量測(cè)序
49、、蛋白質(zhì)內(nèi)肽微量測(cè)序、MS(MALDI-TOF, ESI)微量測(cè)序、“LADDER”測(cè)序等。 2-DE雙向電泳技術(shù) 2-DE-蛋白質(zhì)組研究中分離復(fù)雜蛋白質(zhì)混合物的核心技術(shù),能夠同時(shí)分離成千蛋白質(zhì)。 2-DE的分辨率取決于在兩維上的長度,與有效的分離面積成正比。 重復(fù)性是限制2-DE廣泛應(yīng)用的主要問題。自動(dòng)化、凝膠圖像分析等仍待提高。 蛋白質(zhì)鑒定的質(zhì)譜方法 蛋白質(zhì)鑒定途徑 Edman測(cè)序法在80年代中期出現(xiàn)自動(dòng)化蛋白質(zhì)測(cè)序儀后成為蛋白質(zhì)鑒定的主要方法-N端逐步降解,對(duì)每步釋放的衍生化氨基酸進(jìn)行反相HPLC分離、UV檢測(cè)。電泳分離蛋白質(zhì)電轉(zhuǎn)印到PVDF膜再進(jìn)行Edman測(cè)序
50、分析,但N端封閉后則不能進(jìn)行測(cè)序,可選擇中間肽段測(cè)序。 MS(mass spectrometry)質(zhì)譜分析 通過質(zhì)譜數(shù)據(jù)與序列數(shù)據(jù)庫相關(guān)分析鑒定蛋白質(zhì): 蛋白質(zhì)的氨基酸組成、氨基酸序列、蛋白質(zhì)和肽段的質(zhì)量以及肽碎片的質(zhì)量。分子的精確質(zhì)量可以用MS快速、靈敏、高精度地測(cè)定。MS只限于檢測(cè)能夠形成離子并被送入真空系統(tǒng)的分子的質(zhì)量-電噴霧電離(ESI, 1989)和基質(zhì)輔助激光解吸/電離(MALDI , 1998)技術(shù)的發(fā)明使得質(zhì)譜可用于分析生物大分子如蛋白質(zhì)、核酸和糖類。 domain, fold, motif31、蛋白質(zhì)的各級(jí)結(jié)構(gòu)的定義 Domain: 指具有特定且相對(duì)獨(dú)立的三維立體結(jié)
51、構(gòu)、而且能夠獨(dú)立完成某種功能的蛋白質(zhì)的一部分,但有時(shí)候也泛指蛋白質(zhì)序列的一部分。 Fold: 蛋白質(zhì)基本三維結(jié)構(gòu),包括:(1) 二級(jí)結(jié)構(gòu)元件(2)元件之間的順序連接(3)元件之間的相對(duì)空間位置 Motif:模體,在DNA或蛋白質(zhì)序列上保守的短片段,或蛋白質(zhì)結(jié)構(gòu)上普遍存在的保守立體結(jié)構(gòu)元件。 一級(jí)結(jié)構(gòu):氨基酸序列; 二級(jí)結(jié)構(gòu):局部多肽鏈借助氫鍵排成特有的規(guī)則結(jié)構(gòu);如α螺旋,β-折疊等等 三級(jí)結(jié)構(gòu):由遠(yuǎn)程肽段折疊而產(chǎn)生,一般指多肽鏈的獨(dú)立折疊單位經(jīng)多重盤繞、折疊形成由各種次級(jí)鍵維持的球狀結(jié)構(gòu)。簡單蛋白質(zhì)的三維空間結(jié)構(gòu),或復(fù)雜蛋白質(zhì)亞基的三維空間結(jié)構(gòu)。 四級(jí)結(jié)構(gòu):由若干亞基組裝成復(fù)雜蛋白
52、 蛋白質(zhì)家族、蛋白質(zhì)超家族 蛋白質(zhì)家族(family): are groups of proteins that demonstrate sequence homology or have similar sequences.(一般成員之間的序列相似性超過40-50%以上,進(jìn)化上可能共同起源于同一祖先蛋白)。主要是從量上面講,即序列相似性很強(qiáng)的一系列蛋白質(zhì) 蛋白質(zhì)超家族(superfamily):Consist of proteins that have similar folding motifs but do not exhibit sequence similarity.成員之間的
53、幾乎不存在序列相似性,但在結(jié)構(gòu)組成上有相似的折疊模體構(gòu)成。主要是從性上面講,即序列功能、結(jié)構(gòu)很相似,但序列卻不相似的一類蛋白質(zhì) 蛋白質(zhì)折疊過程中的關(guān)鍵作用力 1)氫鍵(hydrogen bond):N-H和O-H等具有很大的偶極矩,H核裸露而帶正電荷,而與電負(fù)性強(qiáng)的原子之間的靜電吸引。在穩(wěn)定蛋白質(zhì)的結(jié)構(gòu)中起著極其重要的作用。 2)范德華力(vanderWaals force):作用力較弱,包括:定向效應(yīng)、誘導(dǎo)效應(yīng)和分散效應(yīng) 3)疏水作用(hydrophobic interaction)(熵效應(yīng)):在水溶液中,蛋白質(zhì)分子的疏水基團(tuán)或側(cè)鏈為避開水分子,而被迫埋藏與蛋白質(zhì)分子的內(nèi)部,并彼此相互接近,構(gòu)成疏水內(nèi)核。 4)離子鍵:它是帶正電荷與帶負(fù)電荷基團(tuán)之間的一種靜電相互作用。 5)二硫鍵:二硫鍵是由蛋白質(zhì)的兩個(gè)半胱氨酸之間配對(duì)形成的一種共價(jià)鍵。二硫鍵的形成是蛋白質(zhì)折疊過程中的重要步驟,其形成動(dòng)力學(xué)影響蛋白質(zhì)折疊的速率和途徑,它的錯(cuò)誤配對(duì)是影響蛋白質(zhì)多肽鏈正確折疊的重要原因。二硫鍵的存在對(duì)于維持蛋白質(zhì)空間結(jié)構(gòu)穩(wěn)定性,保持其生理活性具有至關(guān)重要的意義。 友情提示:部分文檔來自網(wǎng)絡(luò)整理,供您參考!文檔可復(fù)制、編制,期待您的好評(píng)與關(guān)注! 13 / 13
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)備采購常用的四種評(píng)標(biāo)方法
- 車間員工管理須知(應(yīng)知應(yīng)會(huì))
- 某公司設(shè)備維護(hù)保養(yǎng)工作規(guī)程
- 某企業(yè)潔凈車間人員進(jìn)出管理規(guī)程
- 企業(yè)管理制度之5S管理的八個(gè)口訣
- 標(biāo)準(zhǔn)化班前會(huì)的探索及意義
- 某企業(yè)內(nèi)審員考試試題含答案
- 某公司環(huán)境保護(hù)考核管理制度
- 現(xiàn)場(chǎng)管理的定義
- 員工培訓(xùn)程序
- 管理制度之生產(chǎn)廠長的職責(zé)與工作標(biāo)準(zhǔn)
- 某公司各級(jí)專業(yè)人員環(huán)保職責(zé)
- 企業(yè)管理制度:5S推進(jìn)與改善工具
- XXX公司環(huán)境風(fēng)險(xiǎn)排查及隱患整改制度
- 生產(chǎn)車間基層管理要點(diǎn)及建議