《生物信息學(xué)引論》由會員分享,可在線閱讀,更多相關(guān)《生物信息學(xué)引論(67頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、 l第一節(jié) 概念 l第二節(jié) 生物信息學(xué)的發(fā)展歷史 l第三節(jié) 生物信息學(xué)主要研究內(nèi)容 l第四節(jié) 生物信息學(xué)的研究意義 生命信息的組織、傳遞、表達(dá)天文技術(shù)空間技術(shù)物理化學(xué)分子生物學(xué)遺傳學(xué)信息技術(shù) l生物不是物質(zhì)的簡單堆積,生物體的生長發(fā)育是生命信息控制之下的復(fù)雜而有序的過程。信息科學(xué)? HGP生物數(shù)據(jù)的激增(每12個月翻一番)生物學(xué)家數(shù)學(xué)家計(jì)算機(jī)科學(xué)家生物信息學(xué)(bioinfomatics)的誕生 生物體系和生物過程中信息的存貯、傳遞和表達(dá)細(xì)胞、組織、器官的生理、病理和藥理過程的中各種生物信息信息科學(xué)生命科學(xué)中的信息科 學(xué) 生物分子數(shù)據(jù)深層次生物學(xué)知識分子生物信息學(xué)Molecular Bioinf
2、ormatics挖掘獲取管理、分析和利用生物分子數(shù)據(jù)提高研究的科學(xué)性及效率 l生物體是一個復(fù)雜的系統(tǒng) 物理、化學(xué)和生物學(xué)方法l生物體也是一個信息系統(tǒng) 信息科學(xué)方法 細(xì)胞存貯、復(fù)制、傳遞和表達(dá)遺傳信息的系統(tǒng)分子生物信息的載體 l生物信息學(xué)主要研究兩種信息載體 DNA分子蛋白質(zhì)分子 From the Cell to Protein Machines 生物分子至少攜帶著三種信息遺傳信息與功能相關(guān)的結(jié)構(gòu)信息進(jìn)化信息 遺傳信息的載體主要是DNA 存儲氨基酸序列編碼信息、基因表達(dá)調(diào)控信息及 遺傳信息生物體生長發(fā)育的本質(zhì)就是遺傳信息的傳遞和表達(dá) DNA通過自我復(fù)制,在生物體的繁衍過程中傳遞遺傳信息 基因通過
3、轉(zhuǎn)錄和翻譯,使遺傳信息在生物個體中得以表達(dá),并使后代表現(xiàn)出與親代相似的生物性狀。 基因控制著蛋白質(zhì)的合成 DNA RNA蛋白質(zhì)轉(zhuǎn)錄翻譯 基 因 的 DNA序 列 DNA前體RNAmRNA多肽鏈蛋 白 質(zhì) 序 列對應(yīng)關(guān)系遺傳密碼 l蛋白質(zhì)功能取決于蛋白質(zhì)的空間結(jié)構(gòu) l蛋白質(zhì)結(jié)構(gòu)決定于蛋白質(zhì)的序列(這是目前基本共認(rèn)的假設(shè)),蛋白質(zhì)結(jié)構(gòu)的信息隱含在蛋白質(zhì)序列中。 l通過比較相似的蛋白質(zhì)序列,如肌紅蛋白和血紅蛋白,可以發(fā)現(xiàn)由于基因復(fù)制而產(chǎn)生的分子進(jìn)化證據(jù)。l通過比較來自于不同種屬的同源蛋白質(zhì),即直系同源蛋白質(zhì),可以分析蛋白質(zhì)甚至種屬之間的系統(tǒng)發(fā)生關(guān)系,推測它們共同的祖先蛋白質(zhì) 。(或基因組) 生物分子
4、信息DNA序列數(shù)據(jù) 蛋白質(zhì)序列數(shù)據(jù) 生物分子結(jié)構(gòu)數(shù)據(jù) 生物分子功能數(shù)據(jù) 最基本直觀復(fù)雜生物分子數(shù)據(jù)類型 DNA核酸序列蛋白質(zhì)氨基酸序列蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)功能最基本的生物信息維持生命活動的機(jī)器第 一 部遺 傳 密 碼 第 二 部遺 傳 密 碼 ?生命體系千姿百態(tài)的變化生物分子數(shù)據(jù)及其關(guān)系 l第一部遺傳密碼已被破譯,但對密碼的轉(zhuǎn)錄過程還不清楚,對大多數(shù)DNA非編碼區(qū)域的功能還知之甚少l 對于第二部密碼,目前則只能用統(tǒng)計(jì)學(xué)的方法進(jìn)行分析l無論是第一部遺傳密碼,還是第二部遺傳密碼,都隱藏在大量的生物分子數(shù)據(jù)之中。 生物分子數(shù)據(jù)是寶藏,生物信息數(shù)據(jù)庫是金礦,等待我們?nèi)ネ诰蚝屠谩?l生物分子信息數(shù)據(jù)量大
5、l生物分子信息復(fù)雜 l生物分子信息之間存在密切聯(lián)系 l研究目標(biāo):揭示生物分子數(shù)據(jù)的內(nèi)涵 生物分子數(shù)據(jù)具有深刻的內(nèi)涵,數(shù)據(jù)之間存在著復(fù)雜的聯(lián)系,豐富的生物學(xué)知識和規(guī)律。 l收集和管理生物分子數(shù)據(jù),使研究人員能方便地使用這些數(shù)據(jù),并為信息分析和數(shù)據(jù)挖掘打下基礎(chǔ)。 數(shù)據(jù)來自于生物學(xué)實(shí)驗(yàn),應(yīng)用信息學(xué)技術(shù)收集和管理數(shù)據(jù),建立數(shù)據(jù)庫,并提供數(shù)據(jù)查詢、搜索等工具。 l數(shù)據(jù)分析和挖掘 發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系,認(rèn)識數(shù)據(jù)的本質(zhì),上升為生物學(xué)知識 解釋與生物分子信息復(fù)制、傳遞和表達(dá)有關(guān)的生物過程解釋生物過程中出現(xiàn)的信息變化與疾病的關(guān)系,幫助設(shè)計(jì)新的藥物分子 實(shí)驗(yàn) 數(shù)據(jù) 信息 知識 收集 表示 分析 建模 刻畫特征 比較
6、推理 應(yīng) 用基因工程蛋白質(zhì)設(shè)計(jì)疾病診斷疾病治療開發(fā)新藥生物分子信息處理流程 l目前生物信息學(xué)主要研究對象是DNA和蛋白質(zhì)。l DNA分析方面:分析DNA序列中的基因信息及基因表達(dá)調(diào)控信息、基因表達(dá)數(shù)據(jù)、基因間的相互作用關(guān)系l蛋白質(zhì)分析方面:分析蛋白質(zhì)序列與蛋白質(zhì)結(jié)構(gòu)、功能間的關(guān)系,預(yù)測蛋白質(zhì)的結(jié)構(gòu)和功能,研究蛋白質(zhì)的進(jìn)化關(guān)系 l開發(fā)分析工具和實(shí)用軟件生物分子序列比較工具基因識別工具生物分子結(jié)構(gòu)預(yù)測工具基因表達(dá)數(shù)據(jù)分析工具 數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)DNA序列11.5百萬條序列125.0 億個堿基 分離編碼與非編碼區(qū)域識別內(nèi)含子與外顯子基因產(chǎn)物預(yù)測基因功能注釋基因調(diào)控信息分析 蛋白質(zhì)序列100萬
7、條序列(每條序列平均有300氨基酸 )序列比較多重序列比對識別保守的序列模式進(jìn)化分析 大分子結(jié)構(gòu)2 萬個結(jié)構(gòu)(每個結(jié)構(gòu)平均1000個原子坐標(biāo)) 二級結(jié)構(gòu)、空間結(jié)構(gòu)預(yù)測三維結(jié)構(gòu)比對 蛋白質(zhì)幾何學(xué)度量表面和形態(tài)計(jì)算分子間相互作用分析分子模擬 基因組300個基因組 標(biāo)注重復(fù)序列基因結(jié)構(gòu)分析系統(tǒng)發(fā)生分析基因與疾病的連鎖分析基因組比較遺傳語言分析 基因表達(dá)酵母6000個基因在約20時間點(diǎn)表達(dá)值 基因表達(dá)模式相關(guān)分析表達(dá)調(diào)控信息分析 l GenBank核酸序列數(shù)據(jù)庫 l SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫 l PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫 n 20世紀(jì)50年代,生物信息學(xué)開始孕育 1956年 在美國首次召
8、開了“生物學(xué)中的信息理論研討會” n 20世紀(jì)60年代,生物信息學(xué)形成雛形 一些計(jì)算生物學(xué)家開始進(jìn)行相關(guān)研究, 生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來。 1962年,Zucherkandl和Pauling研究了序列變化與進(jìn)化間的關(guān)系分子進(jìn)化 1967年, Dayhoff研制出蛋白質(zhì)序列圖集(氨基酸序列的收集) n 20世紀(jì)7080年代初期 ,許多生物分子序列數(shù)據(jù)產(chǎn)生,一部分計(jì)算機(jī)科學(xué)家應(yīng)用計(jì)算機(jī)技術(shù)解決生物學(xué)問題,尤其與生物分子序列相關(guān)的問題。n序列比較方法 1970年,Needleman和Wunsch提出序列比對算法 Gibbs和McIntyre發(fā)表矩陣打點(diǎn)作圖法 Dayhof
9、f提出PAM矩陣 1981年,Smith和Waterman提出公共子序列識別法 1983年,Wilbur和Lipman發(fā)表了數(shù)據(jù)庫相似序列搜索法 1985年,蛋白質(zhì)序列搜索法FASTP/FASTN出現(xiàn) 1988年,Pearson和Lipman發(fā)表著名的序列比較法FASTA 1990年,快速相似序列搜索法BLAST問世 n生物信息分析方法 1972年,Gatlin證實(shí)自然的生物分子序列是高度非隨機(jī) 1975年,Pipas和McMahon提出計(jì)算機(jī)預(yù)測RNA二級結(jié)構(gòu) 1977年,DNA序列翻譯成蛋白質(zhì)序列法出現(xiàn) 1978年,Gingeras研制出核酸序列中限制性酶切位點(diǎn)的識 別軟件 n 20世紀(jì)8
10、0年代后 1982年,核酸序列數(shù)據(jù)庫GenBank公開發(fā)行 1986年,日本核酸序列數(shù)據(jù)庫DDBJ誕生 蛋白質(zhì)序列數(shù)據(jù)庫SWISS-PROT出現(xiàn) 1988年,NCBI生物信息中心成立 歐洲分子生物學(xué)網(wǎng)絡(luò)(EMBnet)成立 n 20世紀(jì)90年代后 1990年,HGP計(jì)劃啟動 1995年,第一個細(xì)菌基因組被完全測序 1996年,釀酒酵母基因組被完全測序 Affymetrix生產(chǎn)出第一塊芯片 1998年,線蟲的基因組被完全測序 1999年,果蠅的基因組被完全測序 獲得人類第22對染色體的遺傳序列 2000年6月24日,完成人類基因組的工作框架圖 關(guān)于生物信息學(xué)發(fā)展歷程中的重要大事,請參見下面兩個網(wǎng)
11、站的介紹:http:/www.ncbi.nlm.nih.gov/Educationhttp:/www.biosino.org/bioinformatics/ PubMed中與生物信息學(xué)相關(guān)論文統(tǒng)計(jì) n 20世紀(jì)80年代初,個別單位開展計(jì)算分子生物學(xué)的工作n 1993年, 參與HGP,列入生物信息學(xué)的相關(guān)研究內(nèi)容n 19951996 年 開始發(fā)展 n 1997年, 香山會議召開,專題討論生物信息學(xué)的發(fā)展n 1999年, 北京召開生命科學(xué)中的信息科學(xué)問題 近幾年,成立了一些生物信息學(xué)服務(wù)機(jī)構(gòu),如北京大學(xué)、中科院上海生命科學(xué)研究院分別成立了生物信息中心。 1、 生物分子數(shù)據(jù)的收集與管理2、 數(shù)據(jù)庫搜
12、索及序列比較 3、 基因組序列分析 4、 蛋白質(zhì)結(jié)構(gòu)預(yù)測 100萬多個蛋白質(zhì)序列2萬多個蛋白質(zhì)空間結(jié)構(gòu)核酸序列呈指數(shù)級增長 l構(gòu)建數(shù)據(jù)庫系統(tǒng)l建立網(wǎng)絡(luò)服務(wù)器l開發(fā)數(shù)據(jù)查詢和搜索工具l設(shè)計(jì)數(shù)據(jù)分析軟件和數(shù)據(jù)可視化軟件 DAN序列 蛋白質(zhì)序列 蛋白質(zhì)結(jié)構(gòu) 核酸序列數(shù)據(jù)庫 蛋白質(zhì)序列數(shù)據(jù)庫 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 DDBJEMBLGenBankSWISS-PROT PDBPIR l搜索同源序列在一定程度上就是通過序列比較尋找相似序列 l 一個普遍規(guī)律:序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能新序列已知序列功能預(yù)測 l對于DNA序列,同源搜索有助于確定功能、編碼區(qū)及基因l 對于蛋白質(zhì)序列,有助于預(yù)測蛋白質(zhì)的結(jié)構(gòu)、功能及進(jìn)
13、化信息 序列的比較可以同類,也可以不同類,但比較前需轉(zhuǎn)換成相同類型的序列。 l兩序列比較l數(shù)據(jù)庫中某個序列或每個序列 數(shù)據(jù)庫搜索的 序列比較法 多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進(jìn)化關(guān)系。 在蛋白質(zhì)研究方面,通過結(jié)構(gòu)數(shù)據(jù)庫的搜索,能發(fā)現(xiàn)蛋白質(zhì)間更深層的關(guān)系。 在DNA序列分析方面,識別蛋白質(zhì)編碼區(qū)或識別基因是最關(guān)鍵的。l如發(fā)現(xiàn)一個新基因,通過實(shí)驗(yàn)了解與其相關(guān)的生理功能或疾病的本質(zhì)l實(shí)驗(yàn)測定的編碼區(qū)域不一定完整,需結(jié)合計(jì)算找到并證實(shí)所有的外顯子l大量DNA序列數(shù)據(jù)的存在促使發(fā)展識別編碼區(qū)和基因算法 l 蛋白質(zhì)序列測定麻煩
14、l 蛋白質(zhì)序列預(yù)測并非容易: 非編碼區(qū)域存在 編碼區(qū)基因結(jié)構(gòu)和蛋白質(zhì)序列 蛋白質(zhì)編碼區(qū)的統(tǒng)計(jì)特征、基因結(jié)構(gòu)中一些特殊信號位點(diǎn)、基因轉(zhuǎn)錄調(diào)控區(qū)的蛋白質(zhì)結(jié)合位點(diǎn)等都有助于識別基因。 l預(yù)測蛋白質(zhì)的編碼區(qū) l利用相關(guān)的數(shù)據(jù)以提高基因識別的準(zhǔn)確性 l 理論識別與分子生物學(xué)實(shí)驗(yàn)結(jié)合基 因 識 別 分析與基因表達(dá)調(diào)控相關(guān)的信息、各種功能位點(diǎn)及基因轉(zhuǎn)錄調(diào)控元件。l DNA序列上特殊的片段,是蛋白質(zhì)因子作用的位點(diǎn),是與基因轉(zhuǎn)錄、翻譯有關(guān)的信號序列l(wèi) 通過模式識別及生物信息軟件分析 非編碼區(qū)的分析 l分析基因組的結(jié)構(gòu)和信息,發(fā)現(xiàn)與功能密切相關(guān)的保守序列l(wèi)研究物種間的進(jìn)化關(guān)系基因組比較 l蛋白質(zhì)是生物體的基本物質(zhì)
15、,一切生命活動都與蛋白質(zhì)有關(guān)。l蛋白質(zhì)的結(jié)構(gòu)由蛋白質(zhì)的序列決定? l蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定 ,蛋白質(zhì)結(jié)構(gòu)預(yù)測成為了解蛋白質(zhì)功能的重要途徑。 l蛋白質(zhì)結(jié)構(gòu)預(yù)測的基礎(chǔ):蛋白質(zhì)的變性及重折疊實(shí)驗(yàn)l蛋白質(zhì)結(jié)構(gòu)預(yù)測分為:二級結(jié)構(gòu)預(yù)測空間結(jié)構(gòu)預(yù)測 蛋白質(zhì)折疊 l不同的氨基酸殘基在不同的局域環(huán)境下具有形成特定二級結(jié)構(gòu)的傾向性l預(yù)測某一個片段中心的殘基是處于a-螺旋,還是B-折疊 ,或其它結(jié)構(gòu)。l在二級結(jié)構(gòu)預(yù)測方面主要方法有:立體化學(xué)方法圖論方法統(tǒng)計(jì)方法最鄰近決策方法基于規(guī)則的專家系統(tǒng)方法分子動力學(xué)方法人工神經(jīng)網(wǎng)絡(luò)方法 l預(yù)測準(zhǔn)確率不超過65% l同源模型法:相似序列的蛋白質(zhì)傾向折疊成相似的空間
16、結(jié)構(gòu) l運(yùn)用同源模型方法可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預(yù)測工作 l認(rèn)識生物本質(zhì)了解生物分子信息的組織和結(jié)構(gòu),破譯基因組信息,闡明生物信息之間的關(guān)系?;蛘{(diào)控序列與基因表達(dá)間的關(guān)系、蛋白質(zhì)序列與蛋白質(zhì)結(jié)構(gòu)間的關(guān)系是未知的,也是非常復(fù)雜的。 l改變生物學(xué)的研究方式 高通量實(shí)驗(yàn)的出現(xiàn) 分子數(shù)據(jù)間存在著密切的關(guān)系 大量的核酸序列和蛋白質(zhì)序列 l在醫(yī)學(xué)上的重要意義為疾病的診斷和治療提供依據(jù)為設(shè)計(jì)新藥提供依據(jù) 揭示人類及重要動植物種類的基因信息,不僅對認(rèn)識生物起源,對認(rèn)識生物遺傳、發(fā)育進(jìn)化的本質(zhì)有重要意義,而且為人類疾病的科學(xué)診斷和合理治療開辟全新的途徑,還為動植物的物種改良提供理論基礎(chǔ)。 生物信息學(xué)是21世紀(jì)生物學(xué)的核心!