《中國科技大學(xué)課件系列:《生物信息學(xué)》01》由會(huì)員分享,可在線閱讀,更多相關(guān)《中國科技大學(xué)課件系列:《生物信息學(xué)》01(41頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、第一章:概論 r人類基因組計(jì)劃(Human Genome Project, HGP):1990年正式啟動(dòng),旨在完成人類基因組約30億個(gè)堿基的全序列測定。r 海量生物數(shù)據(jù)的迅速膨脹:DNA、RNA和蛋白質(zhì)序列,蛋白質(zhì)二級(jí)結(jié)構(gòu)和三維結(jié)構(gòu)數(shù)據(jù),蛋白質(zhì)相互作用數(shù)據(jù)等。r 對(duì)大量生物數(shù)據(jù)的管理、分析和信息化需求促進(jìn)了生物信息學(xué)的迅速發(fā)展。 r 由美國NIH和能源部提出和帶頭,美、英、德、法、日、中共同參與的國際合作項(xiàng)目。r 重大國際研究項(xiàng)目:測定人類基因組全部DNA序列,構(gòu)建人類基因組遺傳圖譜和物理圖譜。r 1990年: 正式啟動(dòng),30億美元。r 2001年:人類基因組草圖公開發(fā)表。r 2003年:美國
2、宣布該項(xiàng)目完成。 r定義一:生物信息學(xué)是一門收集、分析遺傳數(shù)據(jù)以及分發(fā)給研究機(jī)構(gòu)的新學(xué)科(Bioinformatics is a new subject of genetic data collection, analysis and dissemination to the research community)。(Dr. Hwa A. Lim,1987)r定義二:生物信息學(xué)特指數(shù)據(jù)庫類的工作,包括持久穩(wěn)固的在一個(gè)穩(wěn)定的地方提供對(duì)數(shù)據(jù)的支持(Bioinformatics refers to database-like activities, involving persistent sets
3、 of data that are maintained in a consistent state over essentially indefinite periods of time)。(Dr. Hwa A. Lim,1994)r定義三:生物信息學(xué)是在大分子方面的概念型的生物學(xué),并且使用了信息學(xué)的技術(shù),這包括了從應(yīng)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)以及統(tǒng)計(jì)學(xué)等學(xué)科衍生而來各種方法,并以此在大尺度上來理解和組織與生物大分子相關(guān)的信息。 (Luscombe,2001) rBioinformatics is the field of science in which biology, computer sci
4、ence, and information technology merge into a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.Biology in the 21st century is being transformed
5、from a purely lab-based science to an information science as well. from NCBIs science primer www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html r 生物信息學(xué)是一門交叉學(xué)科,它包含了生物信息的獲取、處理、存儲(chǔ)、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。 (美國人類基因組計(jì)劃第一個(gè)五年總結(jié)報(bào)告,1995) rBiology may be viewed as the stu
6、dy of transmission of information: from mother cell to daughter cell, from one cell or tissue type to another, from one generation to the next, and from one species to another. This informational viewpoint is termed bioinformatics. r生物學(xué)研究可以被看成是研究信息的傳遞:從DNA經(jīng)轉(zhuǎn)錄翻譯到蛋白質(zhì),從細(xì)胞質(zhì)中到細(xì)胞核內(nèi),從母細(xì)胞到子細(xì)胞,從一個(gè)細(xì)胞或一個(gè)組織到另一個(gè)
7、細(xì)胞或另一個(gè)組織,從一代到下一代,從一個(gè)物種到另一個(gè)物種的進(jìn)化演變。這種信息論的觀點(diǎn)即可稱為生物信息學(xué)。 (Bioinformatic challenges for the next decade(s), David Eisenberg et al., 2006) r生物信息的存儲(chǔ)與查詢;r序列比對(duì);r基因預(yù)測及基因組分析;r分子進(jìn)化與系統(tǒng)發(fā)育分析;rRNA結(jié)構(gòu)預(yù)測;r蛋白質(zhì)結(jié)構(gòu)預(yù)測;r分子設(shè)計(jì)與藥物設(shè)計(jì);r生物網(wǎng)絡(luò);r生物芯片; r1952年,Sanger根據(jù)胰島素蛋白質(zhì)的測序結(jié)果,推斷蛋白質(zhì)是排列完美的分子。-最早的信息論觀點(diǎn)。r1955年,Sanger與合作者分別對(duì)牛、豬和羊的胰島素蛋白
8、質(zhì)進(jìn)行了測序并做了序列上的比較。-最早的序列比對(duì)。r1962年,鮑林提出分子進(jìn)化的理論,推測在人中可能存在50,000100,000個(gè)不同的基因/蛋白質(zhì)。-分子進(jìn)化理論的奠定。r1965年,Margaret Dayhoff構(gòu)建蛋白質(zhì)序列圖譜r1970年,Needleman-Wunsch算法:全局優(yōu)化比對(duì)。r1981年,Smith-Waterman算法開發(fā):局部優(yōu)化比對(duì)。r1990年,快速序列相似性搜索工具BLAST的開發(fā) Insulin Chain A: 8-10位存在著不同(牛,ASV;豬,TSI;羊,AGV)(Brown et al., 1955)。Made by GeneDoc r1.
9、1974年,George I.Bell等人收集DNA序列,構(gòu)建GenBank數(shù)據(jù)庫。19821992開發(fā)第一個(gè)版本。r2. 1980年,EMBL數(shù)據(jù)庫成立。r3. 1984年,日本DDBJ數(shù)據(jù)庫成立。r4. 核酸序列數(shù)據(jù)的去冗余:Refseq數(shù)據(jù)庫,對(duì)于相同的序列只列一條目錄。 r1. NCBI:Entrez的開發(fā),D.Lipman等人。r2. 提供關(guān)鍵字的搜索的方法。r3. “硬搜索”:包含關(guān)鍵字的,完全匹配的結(jié)果。r4. “軟搜索”:與查詢內(nèi)容相關(guān)的信息。r5. 查詢內(nèi)容:基因/蛋白質(zhì)的名稱、標(biāo)識(shí)符,文獻(xiàn)、蛋白質(zhì)結(jié)構(gòu),等等。 http:/www.ncbi.nlm.nih.gov/sites
10、/gquery r1. 1970年,Gibbs AJ 和 McIntyre GA,點(diǎn)陣法進(jìn)行氨基酸和核酸的序列比較:當(dāng)相同的字母在兩條序列中同時(shí)出現(xiàn)時(shí),在交叉處置點(diǎn)。r2. 1970年,Needleman-Wunsch,全局優(yōu)化的序列比對(duì)算法:允許匹配、錯(cuò)配和缺失。動(dòng)態(tài)規(guī)劃的算法:任務(wù)可分割,分成更小的子問題進(jìn)行解決。r3. 1981年,Smith-Waterman,局部優(yōu)化的序列比對(duì)算法。r4. FASTA r NCBI:美國國立衛(wèi)生研究院NIH下屬國立生物技術(shù)信息中心NCBI。http:/www.ncbi.nlm.nih.govr EMBnet:歐洲分子生物學(xué)網(wǎng)絡(luò)http:/www.emb
11、net.org/r EMBL-EBI:歐洲分子生物學(xué)實(shí)驗(yàn)室下屬歐洲生物信息學(xué)研究所。 http:/www.ebi.ac.uk/r ExPASy: (Expert Protein Analysis System)瑞士生物信息研究所SIB下屬的蛋白質(zhì)分析專家系統(tǒng); http:/www.expasy.org/ rBioinformatics Links Directory:http:/bioinformatics.ca/links_directory/r 各種數(shù)據(jù)庫等 如 PDB (Protein Data Bank) UniProt 數(shù)據(jù)庫r 軟件資源:http:/www.expasy.org/t
12、ools/http:/www.ebi.ac.uk/Tools/http:/www.ncbi.nlm.nih.gov/Tools/ rCBIPKU:北京大學(xué)生物信息中心 http:/www.biosino.org/ 中國科學(xué)院上海生命科學(xué)院生物信息中心r上海生物信息技術(shù)研究中心 http:/www.scbit.org/ r1. 確立研究的生物學(xué)體系。例如:生物芯片數(shù)據(jù)分析;蛋白質(zhì)三級(jí)結(jié)構(gòu)與功能;r2. 確定研究的問題。已有哪些計(jì)算方面的工作?是否需要實(shí)驗(yàn)的支持?r3. 構(gòu)建生物學(xué)/數(shù)學(xué)模型,例如:ligand結(jié)合位點(diǎn)的預(yù)測,構(gòu)建特異性識(shí)別位點(diǎn)的結(jié)構(gòu)模式模型。r4. 計(jì)算方法的選擇或開發(fā):HMM
13、, SVM, ANN或新方法。r5. 計(jì)算結(jié)果分析,與同類工具做比較。構(gòu)建相應(yīng)的數(shù)據(jù)庫/軟件/在線網(wǎng)站等。r6. 擴(kuò)展及應(yīng)用:有哪些用處? r 計(jì)算生物學(xué)(Computational Biology):根據(jù)美國國家衛(wèi)生研究所(NIH)的定義,它是指開發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法、數(shù)學(xué)建模和計(jì)算機(jī)仿真技術(shù),用于生物學(xué)、行為學(xué)和社會(huì)群體系統(tǒng)的研究的一門學(xué)科。r生物信息學(xué)主要側(cè)重于對(duì)生物學(xué)信息的存貯、分析處理、有效信息和知識(shí)的提取方面。r計(jì)算生物學(xué)側(cè)重于使用計(jì)算技術(shù)研究生物學(xué)問題。 r NIH于2003年形成了一個(gè)通向生命科學(xué)未來的“中長期發(fā)展規(guī)劃”-國立衛(wèi)生研究院路線圖(NIH Roadmap)。NIH路線圖中啟動(dòng)了一個(gè)“生物信息學(xué)和計(jì)算生物學(xué)”計(jì)劃,希望通過這個(gè)項(xiàng)目的實(shí)施而鋪設(shè)一條通向生命科學(xué)未來的“信息高速公路”。該項(xiàng)目計(jì)劃從2004年開始,建立數(shù)個(gè)“國立生物醫(yī)學(xué)計(jì)算中心” ,以便開發(fā)相關(guān)軟件和數(shù)據(jù)管理工具。 r生物信息學(xué):序列與基因組分析,(第二版),David W.Mount,科學(xué)出版社 r生物信息學(xué),DRWesthead,JHParish,RMTwyman,科學(xué)出版社r生物信息學(xué),許忠能 主編 趙偉 熊鵬 注:本課程部分幻燈片整理自公共資源或Prof. Yu Xue & Jian Ren PPT,特致謝!