《生物信息學引論》由會員分享,可在線閱讀,更多相關《生物信息學引論(67頁珍藏版)》請在裝配圖網上搜索。
1、 l第一節(jié) 概念 l第二節(jié) 生物信息學的發(fā)展歷史 l第三節(jié) 生物信息學主要研究內容 l第四節(jié) 生物信息學的研究意義 生命信息的組織、傳遞、表達天文技術空間技術物理化學分子生物學遺傳學信息技術 l生物不是物質的簡單堆積,生物體的生長發(fā)育是生命信息控制之下的復雜而有序的過程。信息科學? HGP生物數(shù)據(jù)的激增(每12個月翻一番)生物學家數(shù)學家計算機科學家生物信息學(bioinfomatics)的誕生 生物體系和生物過程中信息的存貯、傳遞和表達細胞、組織、器官的生理、病理和藥理過程的中各種生物信息信息科學生命科學中的信息科 學 生物分子數(shù)據(jù)深層次生物學知識分子生物信息學Molecular Bioinf
2、ormatics挖掘獲取管理、分析和利用生物分子數(shù)據(jù)提高研究的科學性及效率 l生物體是一個復雜的系統(tǒng) 物理、化學和生物學方法l生物體也是一個信息系統(tǒng) 信息科學方法 細胞存貯、復制、傳遞和表達遺傳信息的系統(tǒng)分子生物信息的載體 l生物信息學主要研究兩種信息載體 DNA分子蛋白質分子 From the Cell to Protein Machines 生物分子至少攜帶著三種信息遺傳信息與功能相關的結構信息進化信息 遺傳信息的載體主要是DNA 存儲氨基酸序列編碼信息、基因表達調控信息及 遺傳信息生物體生長發(fā)育的本質就是遺傳信息的傳遞和表達 DNA通過自我復制,在生物體的繁衍過程中傳遞遺傳信息 基因通過
3、轉錄和翻譯,使遺傳信息在生物個體中得以表達,并使后代表現(xiàn)出與親代相似的生物性狀。 基因控制著蛋白質的合成 DNA RNA蛋白質轉錄翻譯 基 因 的 DNA序 列 DNA前體RNAmRNA多肽鏈蛋 白 質 序 列對應關系遺傳密碼 l蛋白質功能取決于蛋白質的空間結構 l蛋白質結構決定于蛋白質的序列(這是目前基本共認的假設),蛋白質結構的信息隱含在蛋白質序列中。 l通過比較相似的蛋白質序列,如肌紅蛋白和血紅蛋白,可以發(fā)現(xiàn)由于基因復制而產生的分子進化證據(jù)。l通過比較來自于不同種屬的同源蛋白質,即直系同源蛋白質,可以分析蛋白質甚至種屬之間的系統(tǒng)發(fā)生關系,推測它們共同的祖先蛋白質 。(或基因組) 生物分子
4、信息DNA序列數(shù)據(jù) 蛋白質序列數(shù)據(jù) 生物分子結構數(shù)據(jù) 生物分子功能數(shù)據(jù) 最基本直觀復雜生物分子數(shù)據(jù)類型 DNA核酸序列蛋白質氨基酸序列蛋白質結構蛋白質功能最基本的生物信息維持生命活動的機器第 一 部遺 傳 密 碼 第 二 部遺 傳 密 碼 ?生命體系千姿百態(tài)的變化生物分子數(shù)據(jù)及其關系 l第一部遺傳密碼已被破譯,但對密碼的轉錄過程還不清楚,對大多數(shù)DNA非編碼區(qū)域的功能還知之甚少l 對于第二部密碼,目前則只能用統(tǒng)計學的方法進行分析l無論是第一部遺傳密碼,還是第二部遺傳密碼,都隱藏在大量的生物分子數(shù)據(jù)之中。 生物分子數(shù)據(jù)是寶藏,生物信息數(shù)據(jù)庫是金礦,等待我們去挖掘和利用。 l生物分子信息數(shù)據(jù)量大
5、l生物分子信息復雜 l生物分子信息之間存在密切聯(lián)系 l研究目標:揭示生物分子數(shù)據(jù)的內涵 生物分子數(shù)據(jù)具有深刻的內涵,數(shù)據(jù)之間存在著復雜的聯(lián)系,豐富的生物學知識和規(guī)律。 l收集和管理生物分子數(shù)據(jù),使研究人員能方便地使用這些數(shù)據(jù),并為信息分析和數(shù)據(jù)挖掘打下基礎。 數(shù)據(jù)來自于生物學實驗,應用信息學技術收集和管理數(shù)據(jù),建立數(shù)據(jù)庫,并提供數(shù)據(jù)查詢、搜索等工具。 l數(shù)據(jù)分析和挖掘 發(fā)現(xiàn)數(shù)據(jù)間的關系,認識數(shù)據(jù)的本質,上升為生物學知識 解釋與生物分子信息復制、傳遞和表達有關的生物過程解釋生物過程中出現(xiàn)的信息變化與疾病的關系,幫助設計新的藥物分子 實驗 數(shù)據(jù) 信息 知識 收集 表示 分析 建模 刻畫特征 比較
6、推理 應 用基因工程蛋白質設計疾病診斷疾病治療開發(fā)新藥生物分子信息處理流程 l目前生物信息學主要研究對象是DNA和蛋白質。l DNA分析方面:分析DNA序列中的基因信息及基因表達調控信息、基因表達數(shù)據(jù)、基因間的相互作用關系l蛋白質分析方面:分析蛋白質序列與蛋白質結構、功能間的關系,預測蛋白質的結構和功能,研究蛋白質的進化關系 l開發(fā)分析工具和實用軟件生物分子序列比較工具基因識別工具生物分子結構預測工具基因表達數(shù)據(jù)分析工具 數(shù)據(jù)源數(shù)據(jù)量生物信息學任務DNA序列11.5百萬條序列125.0 億個堿基 分離編碼與非編碼區(qū)域識別內含子與外顯子基因產物預測基因功能注釋基因調控信息分析 蛋白質序列100萬
7、條序列(每條序列平均有300氨基酸 )序列比較多重序列比對識別保守的序列模式進化分析 大分子結構2 萬個結構(每個結構平均1000個原子坐標) 二級結構、空間結構預測三維結構比對 蛋白質幾何學度量表面和形態(tài)計算分子間相互作用分析分子模擬 基因組300個基因組 標注重復序列基因結構分析系統(tǒng)發(fā)生分析基因與疾病的連鎖分析基因組比較遺傳語言分析 基因表達酵母6000個基因在約20時間點表達值 基因表達模式相關分析表達調控信息分析 l GenBank核酸序列數(shù)據(jù)庫 l SWISS-PROT蛋白質序列數(shù)據(jù)庫 l PDB生物大分子結構數(shù)據(jù)庫 n 20世紀50年代,生物信息學開始孕育 1956年 在美國首次召
8、開了“生物學中的信息理論研討會” n 20世紀60年代,生物信息學形成雛形 一些計算生物學家開始進行相關研究, 生物分子信息在概念上將計算生物學和計算機科學聯(lián)系起來。 1962年,Zucherkandl和Pauling研究了序列變化與進化間的關系分子進化 1967年, Dayhoff研制出蛋白質序列圖集(氨基酸序列的收集) n 20世紀7080年代初期 ,許多生物分子序列數(shù)據(jù)產生,一部分計算機科學家應用計算機技術解決生物學問題,尤其與生物分子序列相關的問題。n序列比較方法 1970年,Needleman和Wunsch提出序列比對算法 Gibbs和McIntyre發(fā)表矩陣打點作圖法 Dayhof
9、f提出PAM矩陣 1981年,Smith和Waterman提出公共子序列識別法 1983年,Wilbur和Lipman發(fā)表了數(shù)據(jù)庫相似序列搜索法 1985年,蛋白質序列搜索法FASTP/FASTN出現(xiàn) 1988年,Pearson和Lipman發(fā)表著名的序列比較法FASTA 1990年,快速相似序列搜索法BLAST問世 n生物信息分析方法 1972年,Gatlin證實自然的生物分子序列是高度非隨機 1975年,Pipas和McMahon提出計算機預測RNA二級結構 1977年,DNA序列翻譯成蛋白質序列法出現(xiàn) 1978年,Gingeras研制出核酸序列中限制性酶切位點的識 別軟件 n 20世紀8
10、0年代后 1982年,核酸序列數(shù)據(jù)庫GenBank公開發(fā)行 1986年,日本核酸序列數(shù)據(jù)庫DDBJ誕生 蛋白質序列數(shù)據(jù)庫SWISS-PROT出現(xiàn) 1988年,NCBI生物信息中心成立 歐洲分子生物學網絡(EMBnet)成立 n 20世紀90年代后 1990年,HGP計劃啟動 1995年,第一個細菌基因組被完全測序 1996年,釀酒酵母基因組被完全測序 Affymetrix生產出第一塊芯片 1998年,線蟲的基因組被完全測序 1999年,果蠅的基因組被完全測序 獲得人類第22對染色體的遺傳序列 2000年6月24日,完成人類基因組的工作框架圖 關于生物信息學發(fā)展歷程中的重要大事,請參見下面兩個網
11、站的介紹:http:/www.ncbi.nlm.nih.gov/Educationhttp:/www.biosino.org/bioinformatics/ PubMed中與生物信息學相關論文統(tǒng)計 n 20世紀80年代初,個別單位開展計算分子生物學的工作n 1993年, 參與HGP,列入生物信息學的相關研究內容n 19951996 年 開始發(fā)展 n 1997年, 香山會議召開,專題討論生物信息學的發(fā)展n 1999年, 北京召開生命科學中的信息科學問題 近幾年,成立了一些生物信息學服務機構,如北京大學、中科院上海生命科學研究院分別成立了生物信息中心。 1、 生物分子數(shù)據(jù)的收集與管理2、 數(shù)據(jù)庫搜
12、索及序列比較 3、 基因組序列分析 4、 蛋白質結構預測 100萬多個蛋白質序列2萬多個蛋白質空間結構核酸序列呈指數(shù)級增長 l構建數(shù)據(jù)庫系統(tǒng)l建立網絡服務器l開發(fā)數(shù)據(jù)查詢和搜索工具l設計數(shù)據(jù)分析軟件和數(shù)據(jù)可視化軟件 DAN序列 蛋白質序列 蛋白質結構 核酸序列數(shù)據(jù)庫 蛋白質序列數(shù)據(jù)庫 蛋白質結構數(shù)據(jù)庫 DDBJEMBLGenBankSWISS-PROT PDBPIR l搜索同源序列在一定程度上就是通過序列比較尋找相似序列 l 一個普遍規(guī)律:序列決定結構,結構決定功能新序列已知序列功能預測 l對于DNA序列,同源搜索有助于確定功能、編碼區(qū)及基因l 對于蛋白質序列,有助于預測蛋白質的結構、功能及進
13、化信息 序列的比較可以同類,也可以不同類,但比較前需轉換成相同類型的序列。 l兩序列比較l數(shù)據(jù)庫中某個序列或每個序列 數(shù)據(jù)庫搜索的 序列比較法 多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質之間的進化關系。 在蛋白質研究方面,通過結構數(shù)據(jù)庫的搜索,能發(fā)現(xiàn)蛋白質間更深層的關系。 在DNA序列分析方面,識別蛋白質編碼區(qū)或識別基因是最關鍵的。l如發(fā)現(xiàn)一個新基因,通過實驗了解與其相關的生理功能或疾病的本質l實驗測定的編碼區(qū)域不一定完整,需結合計算找到并證實所有的外顯子l大量DNA序列數(shù)據(jù)的存在促使發(fā)展識別編碼區(qū)和基因算法 l 蛋白質序列測定麻煩
14、l 蛋白質序列預測并非容易: 非編碼區(qū)域存在 編碼區(qū)基因結構和蛋白質序列 蛋白質編碼區(qū)的統(tǒng)計特征、基因結構中一些特殊信號位點、基因轉錄調控區(qū)的蛋白質結合位點等都有助于識別基因。 l預測蛋白質的編碼區(qū) l利用相關的數(shù)據(jù)以提高基因識別的準確性 l 理論識別與分子生物學實驗結合基 因 識 別 分析與基因表達調控相關的信息、各種功能位點及基因轉錄調控元件。l DNA序列上特殊的片段,是蛋白質因子作用的位點,是與基因轉錄、翻譯有關的信號序列l(wèi) 通過模式識別及生物信息軟件分析 非編碼區(qū)的分析 l分析基因組的結構和信息,發(fā)現(xiàn)與功能密切相關的保守序列l(wèi)研究物種間的進化關系基因組比較 l蛋白質是生物體的基本物質
15、,一切生命活動都與蛋白質有關。l蛋白質的結構由蛋白質的序列決定? l蛋白質的生物功能由蛋白質的結構所決定 ,蛋白質結構預測成為了解蛋白質功能的重要途徑。 l蛋白質結構預測的基礎:蛋白質的變性及重折疊實驗l蛋白質結構預測分為:二級結構預測空間結構預測 蛋白質折疊 l不同的氨基酸殘基在不同的局域環(huán)境下具有形成特定二級結構的傾向性l預測某一個片段中心的殘基是處于a-螺旋,還是B-折疊 ,或其它結構。l在二級結構預測方面主要方法有:立體化學方法圖論方法統(tǒng)計方法最鄰近決策方法基于規(guī)則的專家系統(tǒng)方法分子動力學方法人工神經網絡方法 l預測準確率不超過65% l同源模型法:相似序列的蛋白質傾向折疊成相似的空間
16、結構 l運用同源模型方法可以完成所有蛋白質10-30%的空間結構預測工作 l認識生物本質了解生物分子信息的組織和結構,破譯基因組信息,闡明生物信息之間的關系?;蛘{控序列與基因表達間的關系、蛋白質序列與蛋白質結構間的關系是未知的,也是非常復雜的。 l改變生物學的研究方式 高通量實驗的出現(xiàn) 分子數(shù)據(jù)間存在著密切的關系 大量的核酸序列和蛋白質序列 l在醫(yī)學上的重要意義為疾病的診斷和治療提供依據(jù)為設計新藥提供依據(jù) 揭示人類及重要動植物種類的基因信息,不僅對認識生物起源,對認識生物遺傳、發(fā)育進化的本質有重要意義,而且為人類疾病的科學診斷和合理治療開辟全新的途徑,還為動植物的物種改良提供理論基礎。 生物信息學是21世紀生物學的核心!