生物信息學(xué)簡介
《生物信息學(xué)簡介》由會員分享,可在線閱讀,更多相關(guān)《生物信息學(xué)簡介(85頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、生 物 信 息 基 礎(chǔ)生 物 信 息 學(xué) 簡 介 2021-5-25 2 主講教師:高 昇Cell: 13120144593Email: Office:教三樓803-模式識別實驗室助教:莫能斌Cell: 13401134371Email: Office:教三樓803-模式識別實驗室 參 考 資 料n 孫 嘯 等 編 著 , 生 物 信 息 學(xué) 基 礎(chǔ) , 清 華 大 學(xué) 出 版社 , 2005年 5月 .n 王 勇 獻(xiàn) 等 編 著 , 生 物 信 息 學(xué) 導(dǎo) 論 面 向 高 性 能計 算 的 算 法 與 應(yīng) 用 ,清 華 大 學(xué) 出 版 社 , 2011年 6月 .n 陳 寶 林 , 最 優(yōu)
2、化 理 論 與 算 法 (第 二 版 ), 清 華 大 學(xué)出 版 社 , 2005年 10月 . n 課 件 存 放 郵 箱 : bioinfo_ passwd: bioinfo 2021-5-25 3 考 核 方 式n 期 末 成 績 40% 大 作 業(yè) or 考 試n 平 時 成 績 40% 小 作 業(yè) 開 放 項 目 , 鼓 勵 自 由 參 與n 日 常 考 勤 20% 2021-5-25 4 課 程 定 位n Introduction to Life Science and Artificial Life 生 物 信 息 基 礎(chǔ)n 生 命 科 學(xué) 中 的 信 息 科 學(xué) 利 用 信 息
3、 科 學(xué) 的 方 法 和 技 術(shù) , 研 究 生 物 體 系 和 生 物 過 程中 信 息 的 存 儲 、 信 息 的 內(nèi) 涵 和 信 息 的 傳 遞 , 研 究 和 分 析生 物 體 細(xì) 胞 、 組 織 、 器 官 的 生 理 、 病 理 、 藥 理 過 程 中 的各 種 生 物 信 息 。n Bioinformatics: 分 析 復(fù) 雜 生 物 學(xué) 數(shù) 據(jù) 的 學(xué) 科 : 應(yīng) 用 信 息 科 學(xué) 的 理 論 、 方法 和 技 術(shù) , 管 理 、 分 析 和 利 用 生 物 分 子 數(shù) 據(jù) 。 分 子 生 物 信 息 學(xué) ( Molecular Bioinformatics)2021-5-
4、25 5 2021-5-25 6 內(nèi) 容 提 要n 生 物 信 息 學(xué) 產(chǎn) 生 的 背 景n 什 么 是 生 物 信 息 學(xué)n 生 物 信 息 學(xué) 的 研 究 意 義n 生 物 信 息 學(xué) 的 發(fā) 展 歷 史 n 生 物 信 息 學(xué) 主 要 研 究 內(nèi) 容 n 生 物 信 息 學(xué) 所 用 的 方 法 和 技 術(shù) 2021-5-25 7生 命 信 息 的 組 織 、傳 遞 、 表 達(dá) 物 理 化 學(xué) 分 子生 物 學(xué)遺 傳 學(xué)信 息 技 術(shù)引 言 8 歷 史 回 顧 (1)n 1866年 , 神 父 Gregor Mendel通過 對 豌 豆 的 雜 交 和 遺 傳 學(xué) 研 究 ,提 出 了 傳
5、 遞 遺 傳 特 征 的 基 本 單 位 -遺 傳 因 子 (基 因 )的 概 念n 1944年 , Avery & McCarty第 一次 發(fā) 現(xiàn) 了 遺 傳 信 息 的 載 體 是 染 色體 上 的 DNA(而 不 是 先 前 認(rèn) 為 的蛋 白 質(zhì) ). 9 歷 史 回 顧 (2)n 1953年 , James Watson & Francis Crick發(fā) 現(xiàn) 了 DNA的 雙螺 旋 空 間 結(jié) 構(gòu) 并 推 斷 出 了 DNA的 復(fù) 制 方 式 , 由 此 揭 開 了 分 子生 物 學(xué) 研 究 的 序 幕 。n 1990年 , 人 類 基 因 組 計 劃 啟 動 人 類 歷 史 上 的
6、三 大 科 技 工 程 2021-5-25 10 曼哈頓原子彈研制計劃人類基因組計劃阿波羅登月計劃 1941.12.6 - 1945.7.16羅斯福批準(zhǔn)耗資20億美元原 子 半 徑 10-10m原 子 體 積 10-30m 3 1990.10.1 - 2003.4.23克林頓、布萊爾批準(zhǔn)耗資30億美元1961.5.25 - 1969.7.20肯尼迪批準(zhǔn)耗資240億美元人 體 半 徑 100m人 體 體 積 100m 3 太 陽 系 半 徑 1012m太 陽 系 體 積 1034m 3 人 類 基 因 組 計 劃n 人 類 基 因 組 計 劃 (Human Genome Project, HGP
7、) 1986年 R.Dulbeccol在 Science上 撰 文 , 建 議 對 人 類 基 因組 進(jìn) 行 全 測 序 。 1990年 美 國 政 府 正 式 啟 動 人 類 基 因 組 計 劃 耗 資 30億 美 元 、 為 期 15年 的 計 劃 , 預(yù) 期 到 2005年 完 成人 類 基 因 組 大 約 30億 個 堿 基 的 全 序 列 測 定 美 、 英 、 日 、 法 、 德 、 中 六 國 科 學(xué) 家 共 同 參 與n HGP的 主 要 任 務(wù) 是 : 人 類 基 因 組 以 及 一 些 模 式 生物 體 (細(xì) 菌 、 酵 母 、 線 蟲 、 果 蠅 等 )基 因 組 的 作
8、 圖 、測 序 和 基 因 識 別 。 人 類 基 因 組 計 劃 的 發(fā) 展 歷 程前 期 準(zhǔn) 備1984年 DOE(Department of Energy) 委 托 Alta, White R., Mendelsonhm M 科學(xué) 家 專 業(yè) 會 議 ; 1985年 提 出 人 類 基 因 組 計 劃 的 動 議1986年 McKusick V 稱 從 整 個 基 因 組 層 次 上 研 究 遺 傳 的 科 學(xué) 為 基 因 組 學(xué)1986年 Dulbecco R 在 Science上 發(fā) 表 文 章 ” 腫 瘤 研 究 的 轉(zhuǎn) 折 人 類 基 因 組 的全 序 列 分 析 ” , 提 出
9、 人 類 基 因 組 計 劃1986年 Gilbert W & Berg P 主 持 人 類 基 因 組 計 劃 專 家 會 議1987年 DOE(能 源 部 )和 NIH(國 家 健 康 研 究 院 )下 撥 研 究 經(jīng) 費1988年 NRC(原 子 能 調(diào) 整 委 員 會 )的 專 家 發(fā) 表 mapping and sequencing the human genome報 告 1988年 成 立 了 國 家 人 類 基 因 組 研 究 中 心 。 Watson 第 一 任 主 任 。 人 類 基 因 組 計 劃 的 發(fā) 展 歷 程正 式 啟 動1990年 經(jīng) 過 5年 辯 論 , 美 國
10、 國 會 通 過 “ 人 類 基 因 組 計 劃 ”1990年 10月 1日 啟 動計 劃 15年 , 30億 美 元 多 國 參 與 (英 國 1989, 法 國 1990, 德 國 1995, 中 國 1999)1990年 6月 , 歐 共 體 通 過 “ 歐 洲 人 類 基 因 組 計 劃 ” 。此 外 , 丹 麥 , 日 本 , 韓 國 , 俄 羅 斯 和 澳 大 利 亞 也 加 入 行 動 行 列1999年 9月 1日 , 楊 煥 明 教 授 在 第 五 次 倫 敦 國 際 人 類 基 因 組 戰(zhàn) 略 討 論 會 上 介 紹情 況 。 會 議 正 式 接 受 中 國 加 入 國 際
11、合 作 , 劃 定 了 測 序 區(qū) 域 , 正 式 承 擔(dān) 的 測 序 任 務(wù) 2000年 6月 26日 各 國 科 學(xué) 家 公 布 了 人 類 基 因 組 工 作 草 圖2004年 精 度 大 于 99%的 完 成 圖 公 布 人 類 基 因 組 計 劃n 參 與 HGP的 國 家美 國 ( 54%)英 國 ( 33%)日 本 ( 7%)法 國 ( 2.8%)德 國 ( 2.2%)中 國 ( 1%)n 目 標(biāo) :測 定 人 類 基 因 組 DNA序 列 中 的 30億 個 堿 基 順 序 , 獲 取 四 張 圖 譜 : 遺 傳 圖 譜 物 理 圖 譜 序 列 圖 譜 基 因 圖 譜 HGP負(fù)
12、 責(zé) 人柯 林 斯 (Collins ) 已 完 成 測 序 的 基 因 組(http:/www.ebi.ac.uk/genomes)種類數(shù)目備注古細(xì)菌(Archaea) 16真細(xì)菌(Bacteria) 120其中有的測定了2個以上的菌株真核生物(Eukaryo) 15包括酵母、線蟲、果蠅、蚊子、擬南芥、人等病毒(Virus) 885包括不同亞類或不同株系類病毒(Viroid) 40包括不同亞類或不同株系噬菌體(Phage) 114包括不同亞類或不同株系 細(xì)胞器(Organelle) 308包括線粒體和葉綠體質(zhì)粒(Plasmid) 282 103 Kilo106 Mega109 Giga101
13、2 Tera 1015 Peta1018 Exa1021 Zetta1024 Yotta一 個 普 通 生 物 實 驗 室 每 年 產(chǎn) 生 的 數(shù) 據(jù) 量 100 Terra-bytes (10 14)人 類 迄 今 為 止 所 說 過 的 話 (詞 語 量 ) 5 exa-bytes (51018)! 巨 量 的 數(shù) 據(jù) GenBank DataYear Base Pairs Sequences1982 680,338 6061983 2,274,029 2,4271984 3,368,765 4,1751985 5,204,420 5,7001986 9,615,371 9,9781987
14、 15,514,776 14,5841988 23,800,000 20,579 1989 34,762,585 28,7911990 49,179,285 39,5331991 71,947,426 55,6271992 101,008,486 78,6081993 157,152,442 143,4921994 217,102,462 215,2731995 384,939,485 555,6941996 651,972,984 1,021,2111997 1,160,300,687 1,765,847 1998 2,008,761,784 2,837,8971999 3,841,163,
15、011 4,864,5702000 11,101,066,288 10,106,0232001 15,849,921,438 14,976,3102002 28,507,990,166 22,318,8832003 36,553,368,485 30,968,4182004 44,575,745,176 40,604,319http:/www.ncbi.nlm.nih.gov/Genbank/genbankstats.html 蛋 白 質(zhì) 序 列 四 種 數(shù) 據(jù)n 原 始 數(shù) 據(jù) (Original data)n 科 學(xué) 文 獻(xiàn) (Scientific literature)n 數(shù) 據(jù) 組 合
16、 (Datasets)n 綜 合 性 數(shù) 據(jù) (Organized data) 后 基 因 組 時 代 的 呼 喚n 傳 統(tǒng) 生 物 學(xué) : 實 驗 科 學(xué)n 現(xiàn) 代 生 物 學(xué) 的 發(fā) 展 :1. 數(shù) 據(jù) 獲 取 日 益 實 現(xiàn) 自 動 化 、 半 工 業(yè) 化從 數(shù) 據(jù) 庫 中 實 現(xiàn) 數(shù) 據(jù) 挖 掘 、 知 識 發(fā) 現(xiàn)2. 海 量 數(shù) 據(jù)難 以 完 全 依 賴 實 驗 手 段 對 新 數(shù) 據(jù) 進(jìn) 行 分 析 , 必 須 借 助計 算 機(jī) 實 現(xiàn) 分 析 和 篩 選3. 更 復(fù) 雜 層 次 的 生 物 學(xué) 問 題復(fù) 雜 的 基 因 調(diào) 控 網(wǎng) 絡(luò) 、 代 謝 網(wǎng) 絡(luò) ; 細(xì) 胞 間 信 號
17、轉(zhuǎn) 導(dǎo) 過程 ; 生 物 個 體 全 部 基 因 表 達(dá) 變 化 面 對 堆 積 如 山 的 生 物 學(xué) 數(shù) 據(jù) 2021-5-25 22HGP生 物 數(shù) 據(jù) 的 激 增( 每 15個 月 翻 一 番 ) 生 物 學(xué) 家數(shù) 學(xué) 家信 息科 學(xué) 家 生 物 信 息 學(xué)( bioinfomatics)的 誕 生生 物 信 息 學(xué) 概 念 “We are not limited by the number of experiments that we can do, we are limited by our ability to understand the information that is
18、 generated as a result of these experiments. “Biology is quickly becoming an information science.生 物 學(xué) 日 益 成 為 一 門 信 息 科 學(xué) Biology easily has 500 years of exciting problems to work on.生物學(xué)中有著至少500年也解決不完的有趣問題。Donald E. KnuthLets begin our exploration of computational and theoretical biology! 什 么 是 生 物
19、 信 息 學(xué)n 生 物 信 息 學(xué) 是 現(xiàn) 代 生 命 科 學(xué) 與 信 息 科 學(xué) 、 計 算 機(jī) 科 學(xué) 、 數(shù)學(xué) 、 統(tǒng) 計 學(xué) 、 物 理 學(xué) 、 化 學(xué) 等 學(xué) 科 相 互 滲 透 而 形 成 的 交 叉學(xué) 科 , 是 應(yīng) 用 計 算 機(jī) 技 術(shù) 和 信 息 論 方 法 研 究 蛋 白 質(zhì) 及 核 酸序 列 等 各 種 生 物 信 息 的 采 集 、 存 儲 、 傳 遞 、 檢 索 、 分 析 和解 讀 , 以 幫 助 了 解 生 物 學(xué) 信 息 的 科 學(xué) 。n 從 研 究 涉 及 的 學(xué) 科 來 看 : 多 學(xué) 科 交 叉n 從 研 究 內(nèi) 容 來 看 : 基 因 組 信 息 學(xué)
20、、 蛋 白 質(zhì) 組 信 息 學(xué) 、 結(jié) 構(gòu)模 擬 與 分 子 設(shè) 計 等 構(gòu) 成 其 主 要 組 成 部 分 2021-5-25 26 生 物 體 系 和 生 物 過 程 中 信 息的 存 儲 、 傳 遞 和 表 達(dá)細(xì) 胞 、 組 織 、 器 官 的 生 理 、 病 理、 藥 理 過 程 的 中 各 種 生 物 信 息信 息 科 學(xué) 生命科學(xué)中的信息科學(xué)概 念 ( 廣 義 ) 2021-5-25 27生 物分 子 數(shù) 據(jù) 深 層 次生 物 學(xué) 知 識 分 子 生 物 信 息 學(xué)Molecular Bioinformatics挖 掘獲 取概 念 ( 狹 義 )n 生 物 分 子 信 息 的 獲
21、取 、 存 儲 、 分 析 和 利 用 2021-5-25 28 生 物 分 子數(shù) 據(jù) 信 息計 算 + Bioinformatics 2021-5-25 29細(xì) 胞 分 子 存 儲 、 復(fù) 制 、 傳 遞 和 表 達(dá)遺 傳 信 息 的 系 統(tǒng)生 物 信 息 的 載 體生 物 分 子 信 息 2021-5-25 30 主 要 研 究 兩 種 信 息 載 體n DNA分 子n 蛋 白 質(zhì) 分 子 2021-5-25 31 生 物 分 子 至 少 攜 帶 三 種 信 息n 遺 傳 信 息n 與 功 能 相 關(guān) 的 結(jié) 構(gòu) 信 息n 進(jìn) 化 信 息 2021-5-25 32 遺 傳 信 息 的 載
22、體 - DNAn 遺 傳 信 息 的 載 體 主 要 是 DNAn 控 制 生 物 體 性 狀 的 基 因 是 - 系 列 DNA片 段n 生 物 體 生 長 發(fā) 育 的 本 質(zhì) 就 是 遺 傳 信 息 的 傳遞 和 表 達(dá) 33 DNA 7.5-101012 23對 2.8-3.5萬 2021-5-25 34 蛋 白 質(zhì) 的 結(jié) 構(gòu) 決 定 其 功 能n 蛋 白 質(zhì) 功 能 取 決 于 蛋 白 質(zhì) 的 空 間 結(jié) 構(gòu)n 蛋 白 質(zhì) 結(jié) 構(gòu) 決 定 于 蛋 白 質(zhì) 的 序 列 ( 這 是 目前 基 本 共 認(rèn) 的 假 設(shè) ) , 蛋 白 質(zhì) 結(jié) 構(gòu) 的 信 息隱 含 在 蛋 白 質(zhì) 序 列 之
23、 中 。 2021-5-25 35 DNA分 子 和 蛋 白 質(zhì) 分 子都 含 有 進(jìn) 化 信 息n 通 過 比 較 相 似 的 蛋 白 質(zhì) 序 列 , 如 肌 紅 蛋 白和 血 紅 蛋 白 , 可 以 發(fā) 現(xiàn) 由 于 基 因 復(fù) 制 而 產(chǎn)生 的 分 子 進(jìn) 化 證 據(jù) 。n 通 過 比 較 來 自 于 不 同 種 屬 的 同 源 蛋 白 質(zhì) ,可 以 分 析 蛋 白 質(zhì) 甚 至 種 屬 之 間 的 系 統(tǒng) 發(fā) 生關(guān) 系 , 推 測 它 們 共 同 的 祖 先 蛋 白 質(zhì) 。 2021-5-25 36 生物分子信息 DNA序 列 數(shù) 據(jù) 蛋 白 質(zhì) 序 列 數(shù) 據(jù) 生 物 分 子 結(jié) 構(gòu) 數(shù)
24、 據(jù) 生 物 分 子 功 能 數(shù) 據(jù) 最 基 本 直 觀復(fù) 雜 2021-5-25 37 DNA核酸 序 列 蛋 白 質(zhì) 氨基 酸 序 列 蛋 白 質(zhì)結(jié) 構(gòu) 蛋 白 質(zhì)功 能最 基 本 的生 物 信 息 維 持 生 命 活動 的 機(jī) 器第 一 部 : 遺傳 密 碼 第 二 部 : 遺 傳密 碼 ?生 命 體 系 千 姿百 態(tài) 的 變 化生 物 分 子 數(shù) 據(jù) 及 其 關(guān) 系 2021-5-25 38 生 物 分 子 信 息 的 特 征n 生 物 分 子 信 息 數(shù) 據(jù) 量 大n 生 物 分 子 信 息 復(fù) 雜n 生 物 分 子 信 息 之 間 存 在 著 密 切 的 聯(lián) 系 2021-5-25
25、 39 生 物 信 息 學(xué) 的 目 標(biāo) 和 任 務(wù)n 收 集 和 管 理 生 物 分 子 數(shù) 據(jù)n 數(shù) 據(jù) 分 析 和 挖 掘n 開 發(fā) 分 析 工 具 和 實 用 軟 件 生 物 分 子 序 列 比 較 工 具 基 因 識 別 工 具 生 物 分 子 結(jié) 構(gòu) 預(yù) 測 工 具 基 因 表 達(dá) 數(shù) 據(jù) 分 析 工 具 2021-5-25 40 實 驗 數(shù) 據(jù) 信 息 知 識 收 集 表 示 分 析 建 模 刻 畫 特 征 比 較 推 理 應(yīng) 用基 因 工 程蛋 白 質(zhì) 設(shè) 計疾 病 診 斷疾 病 治 療開 發(fā) 新 藥生 物 分 子 信 息 處 理 流 程 數(shù) 據(jù) 源 數(shù) 據(jù) 量 生 物 信 息
26、學(xué) 任 務(wù)DNA序列 11.5百 萬 條 序 列125.0 億 個 堿 基 分 離 編 碼 與 非 編 碼 區(qū) 域識 別 內(nèi) 含 子 與 外 顯 子基 因 產(chǎn) 物 預(yù) 測基 因 功 能 注 釋基 因 調(diào) 控 信 息 分 析 蛋 白 質(zhì)序 列 40.0萬 條 序 列 ( 每條 序 列 平 均 有 300氨 基 酸 ) 序 列 比 較多 重 序 列 比 對識 別 保 守 的 序 列 模 式進(jìn) 化 分 析 數(shù) 據(jù) 源 數(shù) 據(jù) 量 生 物 信 息 學(xué) 任 務(wù)大 分 子結(jié) 構(gòu) 1.5 萬 個 結(jié) 構(gòu)( 每 個 結(jié) 構(gòu) 平均 1000個 原 子坐 標(biāo) ) 二 級 結(jié) 構(gòu) 、 空 間 結(jié) 構(gòu) 預(yù) 測三 維
27、結(jié) 構(gòu) 比 對蛋 白 質(zhì) 幾 何 學(xué) 度 量表 面 和 形 態(tài) 計 算分 子 間 相 互 作 用 分 析分 子 模 擬 基 因 組 300個 基 因 組 標(biāo) 注 重 復(fù) 序 列基 因 結(jié) 構(gòu) 分 析系 統(tǒng) 發(fā) 生 分 析基 因 與 疾 病 的 連 鎖 分 析基 因 組 比 較遺 傳 語 言 分 析 2021-5-25 43 數(shù) 據(jù) 源 數(shù) 據(jù) 量 生 物 信 息 學(xué) 任 務(wù)基 因 表 達(dá) 酵 母 6000個 基 因在 約 20時 間 點 表達(dá) 值 表 達(dá) 模 式 相 關(guān) 分 析 基 因基 因 調(diào) 控 網(wǎng) 絡(luò) 分 析表 達(dá) 調(diào) 控 信 息 分 析 2021-5-25 44 分 子 生 物 學(xué) 的
28、 三 大 核 心 數(shù) 據(jù) 庫n GenBank核 酸 序 列 數(shù) 據(jù) 庫n SWISS-PROT蛋 白 質(zhì) 序 列 數(shù) 據(jù) 庫n PDB生 物 大 分 子 結(jié) 構(gòu) 數(shù) 據(jù) 庫 2021-5-25 45 生 物 信 息 學(xué) 研 究 意 義n 認(rèn) 識 生 物 本 質(zhì) 了 解 生 物 分 子 信 息 的 組 織 和 結(jié) 構(gòu) , 破 譯 基 因 組信 息 , 闡 明 生 物 信 息 之 間 的 關(guān) 系 。n 改 變 生 物 學(xué) 的 研 究 方 式 改 變 傳 統(tǒng) 研 究 方 式 , 引 進(jìn) 現(xiàn) 代 信 息 學(xué) 方 法n 在 醫(yī) 學(xué) 上 的 重 要 意 義 為 疾 病 的 診 斷 和 治 療 提 供 依
29、 據(jù) 為 設(shè) 計 新 藥 提 供 依 據(jù) 2021-5-25 46生 物 信 息 學(xué)基 本 思 想 的 產(chǎn) 生 生 物 信 息 學(xué) 的 迅 速 發(fā) 展二 十 世 紀(jì)50年 代 二 十 世 紀(jì)80-90年 代 生 物 科 學(xué) 和技 術(shù) 的發(fā) 展 人 類 基 因 組計 劃 的推 動 生 物 信 息 學(xué) 的 發(fā) 展 歷 史 2021-5-25 47 n 20世 紀(jì) 50年 代 , 生 物 信 息 學(xué) 開 始 孕 育n 20世 紀(jì) 60年 代 , 生 物 分 子 信 息 在 概 念 上 將 計 算 生 物學(xué) 和 計 算 機(jī) 科 學(xué) 聯(lián) 系 起 來n 20世 紀(jì) 70年 代 , 生 物 信 息 學(xué) 的
30、真 正 開 端n 20世 紀(jì) 70年 代 到 80年 代 初 期 , 出 現(xiàn) 了 一 系 列 著 名的 序 列 比 較 方 法 和 生 物 信 息 分 析 方 法n 20世 紀(jì) 80年 代 以 后 , 出 現(xiàn) 一 批 生 物 信 息 服 務(wù) 機(jī) 構(gòu) 和生 物 信 息 數(shù) 據(jù) 庫n 20世 紀(jì) 90年 代 后 , HGP促 進(jìn) 生 物 信 息 學(xué) 的 迅 速 發(fā) 展 2021-5-25 48 生 物 信 息 學(xué) 主 要 研 究 內(nèi) 容n 序 列 分 析 /Sequence analysis Sequence alignment Structure and function prediction
31、Gene findingn 結(jié) 構(gòu) 分 析 /Structure analysis Protein structure comparison Protein structure prediction RNA structure modelingn 表 達(dá) 分 析 /Expression analysis Gene clustering Gen expression analysisn 蛋 白 質(zhì) 組 學(xué) /Proteomics Protein-Protein Interaction 2021-5-25 49 基 因 組數(shù) 據(jù) 庫 蛋 白 質(zhì) 序 列數(shù) 據(jù) 庫 蛋 白 質(zhì) 結(jié) 構(gòu)數(shù) 據(jù) 庫 DD
32、BJEMBLGenBankSWISS-PROT PDBPIR 序 列 分 析n 從 DNA序 列 與 蛋 白 質(zhì) 序 列 中 進(jìn) 行 信 息 及 模 式發(fā) 現(xiàn) 尋 找 進(jìn) 化 聯(lián) 系 尋 找 基 因 組 的 編 碼 區(qū) 尋 找 序 列 中 的 功 能 信 號 區(qū) 全 基 因 組 序 列 的 拼 接 與 組 裝 識 別 非 編 碼 區(qū) , 探 索 其 功 能 單 核 苷 酸 多 態(tài) 性 SNP (Single nucleotide polymorphism) 序 列 比 對 /alignment序 列 分 析 分 子 進(jìn) 化 和 比 較 基 因 組 學(xué) 結(jié) 構(gòu) 分 析n 蛋 白 質(zhì) 結(jié) 構(gòu) 和
33、功 能 的 預(yù) 測 分 析 蛋 白 質(zhì) 家 族 保 守 序 列 尋 找 從 氨 基 酸 組 成 辨 識 蛋 白 質(zhì) 蛋 白 質(zhì) 二 級 結(jié) 構(gòu) 預(yù) 測 蛋 白 質(zhì) 的 三 維 結(jié) 構(gòu) 蛋 白 質(zhì) 的 物 理 性 質(zhì) 預(yù) 測 其 他 特 殊 局 部 信 息 : 其 它 特 殊 局 部 結(jié) 構(gòu) 包 括 膜蛋 白 的 跨 膜 螺 旋 、 信 號 肽 、 卷 曲 螺 旋 (Coiled Coils)等 , 具 有 明 顯 的 序 列 特 征 和 結(jié) 構(gòu) 特 征 , 也可 以 用 計 算 方 法 加 以 預(yù) 測 基 因 表 達(dá) 數(shù) 據(jù) 分 析n 基 因 表 達(dá) 數(shù) 據(jù) : 近 年 來 biochips,
34、 microarray 技 術(shù) 迅 速 發(fā)展 起 來 , 使 得 我 們 可 能 得 到 同 一 時 間 成 千 上 萬 個 基 因 的 表達(dá) 水 平 的 數(shù) 據(jù) 。n 上 述 基 因 表 達(dá) 數(shù) 據(jù) 為 我 們 提 供 了 深 入 研 究 基 因 功 能 , 基 因相 互 作 用 , 基 因 網(wǎng) 絡(luò) 等 復(fù) 雜 網(wǎng) 絡(luò) 問 題 的 有 力 工 具 。n 基 因 表 達(dá) 數(shù) 據(jù) 分 析 面 臨 維 數(shù) 極 高 , 噪 聲 大 而 且 相 關(guān) , 數(shù) 據(jù)重 復(fù) 度 低 等 問 題 , 對 數(shù) 理 統(tǒng) 計 等 學(xué) 科 提 出 了 新 問 題 。 目 前對 基 因 表 達(dá) 數(shù) 據(jù) 的 處 理 主 要
35、 是 進(jìn) 行 聚 類 分 析 , 將 表 達(dá) 模 式相 似 的 基 因 聚 為 一 類 , 在 此 基 礎(chǔ) 上 尋 找 相 關(guān) 基 因 , 分 析 基因 的 功 能 。 2021-5-25 55 基 因 調(diào) 控 網(wǎng) 絡(luò) 與 信 號 轉(zhuǎn) 導(dǎo)n 基 因 的 表 達(dá) 受 到 蛋 白 的 調(diào) 控 , 一 個 基 因 的 表 達(dá) 與否 , 表 達(dá) 量 , 均 受 到 細(xì) 胞 中 各 種 蛋 白 的 調(diào) 控 。 所以 基 因 的 調(diào) 控 可 以 看 作 是 細(xì) 胞 中 各 基 因 對 應(yīng) 的 mRNA 與 各 種 蛋 白 的 一 個 相 互 作 用 網(wǎng) 絡(luò) 。n 信 號 轉(zhuǎn) 導(dǎo) 指 當(dāng) 細(xì) 胞 受 到 某
36、 種 影 響 , 其 中 某 個 蛋 白的 含 量 發(fā) 生 變 化 , 而 引 起 一 系 列 的 蛋 白 的 表 達(dá) 變化 的 過 程 和 路 徑 。 它 對 于 研 究 藥 理 、 病 理 、 細(xì) 胞的 分 化 、 發(fā) 育 、 進(jìn) 化 等 重 大 問 題 都 十 分 重 要 。n 信 號 轉(zhuǎn) 導(dǎo) 、 基 因 網(wǎng) 絡(luò) 與 基 因 表 達(dá) 的 數(shù) 據(jù) 分 析 是 緊密 相 關(guān) 的 。 生 物 信 息 處 理 并 行 算 法 2021-5-25 58 生 物 信 息 學(xué) 主 要 研 究 內(nèi) 容n 序 列 分 析 /Sequence analysis Sequence alignment Stru
37、cture and function prediction Gene findingn 結(jié) 構(gòu) 分 析 /Structure analysis Protein structure comparison Protein structure prediction RNA structure modelingn 表 達(dá) 分 析 /Expression analysis Gene clustering Gen expression analysisn 蛋 白 質(zhì) 組 學(xué) /Proteomics Protein-Protein Interaction 2021-5-25 59 生 物 信 息 學(xué) 所 用
38、 的 方 法 和 技 術(shù)1、 數(shù) 學(xué) 統(tǒng) 計 方 法 2、 動 態(tài) 規(guī) 劃 方 法 3、 機(jī) 器 學(xué) 習(xí) 與 模 式 識 別 技 術(shù) 4、 數(shù) 據(jù) 庫 技 術(shù) 及 數(shù) 據(jù) 挖 掘 5、 人 工 神 經(jīng) 網(wǎng) 絡(luò) 技 術(shù)6、 專 家 系 統(tǒng)7、 分 子 模 型 化 技 術(shù)8、 生 物 分 子 的 計 算 機(jī) 模 擬9、 因 特 網(wǎng) ( Internet) 技 術(shù) 2021-5-25 60 數(shù) 學(xué) 統(tǒng) 計 方 法n 生 物 活 動 常 常 以 大 量 、 重 復(fù) 的 形 式 出 現(xiàn) , 既 受 到內(nèi) 在 因 素 的 制 約 , 又 受 到 外 界 環(huán) 境 的 隨 機(jī) 干 擾 。因 此 概 率 論 和
39、 數(shù) 學(xué) 統(tǒng) 計 是 現(xiàn) 代 生 物 學(xué) 研 究 中 一 種常 用 的 分 析 方 法 n 數(shù) 據(jù) 統(tǒng) 計 、 因 素 分 析 、 多 元 回 歸 分 析 是 生 物 學(xué) 研究 必 備 的 工 具n 隱 馬 爾 科 夫 模 型 ( Hidden Markov Models) 在 序列 分 析 方 面 有 著 重 要 的 應(yīng) 用 。 與 隱 馬 爾 科 夫 模 型相 關(guān) 的 技 術(shù) 是 馬 爾 科 夫 鏈 ( Markov Chain) 2021-5-25 61 動 態(tài) 規(guī) 劃 方 法n 動 態(tài) 規(guī) 劃 ( Dynamic Programming) 是 一種 解 決 多 階 段 決 策 過 程
40、的 最 優(yōu) 化 方 法 或 復(fù)雜 空 間 的 優(yōu) 化 搜 索 方 法 n 動 態(tài) 規(guī) 劃 解 決 問 題 的 基 本 過 程 是 : 將 一 個問 題 的 全 局 解 分 解 為 局 部 解 , 逆 序 遞 推 求出 局 部 最 優(yōu) 解 , 隨 著 執(zhí) 行 過 程 的 推 進(jìn) ,“ 局 部 ” 逐 漸 接 近 “ 全 局 ” , 最 終 獲 得 全局 最 優(yōu) 解 2021-5-25 62 機(jī) 器 學(xué) 習(xí) 與 模 式 識 別 技 術(shù)n 機(jī) 器 學(xué) 習(xí) 機(jī) 器 學(xué) 習(xí) 是 模 擬 人 類 的 學(xué) 習(xí) 過 程 , 以 計 算機(jī) 為 工 具 獲 取 知 識 、 積 累 經(jīng) 驗 遺 傳 算 法 采 用
41、隨 機(jī) 搜 索 方 法 , 具 有 自 適 應(yīng) 能力 和 便 于 并 行 計 算 神 經(jīng) 網(wǎng) 絡(luò) 的 理 論 是 基 于 人 腦 的 結(jié) 構(gòu) , 其 目 的是 揭 示 一 個 系 統(tǒng) 是 如 何 向 環(huán) 境 學(xué) 習(xí) 的 , 這 一種 方 法 被 稱 為 聯(lián) 接 主 義 。 2021-5-25 63 機(jī) 器 學(xué) 習(xí) 與 模 式 識 別 技 術(shù)n 模 式 識 別 模 式 識 別 是 機(jī) 器 學(xué) 習(xí) 的 一 個 主 要 任 務(wù) 。 模式 是 對 感 興 趣 客 體 定 量 的 或 者 結(jié) 構(gòu) 的 描 述 ,而 模 式 識 別 就 是 利 用 計 算 機(jī) 對 客 體 進(jìn) 行 鑒別 , 將 相 同 或
42、相 似 的 客 體 歸 入 同 類 中 模 式 識 別 主 要 有 兩 種 方 法 : 根 據(jù) 對 象 的 統(tǒng) 計 特 征 進(jìn) 行 識 別 , 根 據(jù) 對 象 的 結(jié) 構(gòu) 特 征 進(jìn) 行 識 別 2021-5-25 64環(huán) 境 學(xué) 習(xí) 知 識 庫 執(zhí) 行 反 饋機(jī) 器 學(xué) 習(xí) 系 統(tǒng) 的 基 本 結(jié) 構(gòu) 2021-5-25 65 數(shù) 據(jù) 庫 技 術(shù) 及 數(shù) 據(jù) 挖 掘n 數(shù) 據(jù) 挖 掘 ( data mining) 又 稱 作 數(shù) 據(jù) 庫 中 的 知 識 發(fā) 現(xiàn) (Knowledge Discovery in Database), 它 是 從 數(shù) 據(jù) 庫 或 數(shù) 據(jù)倉 庫 中 發(fā) 現(xiàn) 并 提
43、取 隱 藏 在 其 中 的 信 息 的 一 種 新技 術(shù) , 它 能 自 動 分 析 數(shù) 據(jù) , 對 它 們 進(jìn) 行 歸 納 性推 理 和 聯(lián) 想 , 尋 找 數(shù) 據(jù) 間 內(nèi) 在 的 某 些 關(guān) 聯(lián) , 從中 發(fā) 掘 出 潛 在 的 、 對 信 息 預(yù) 測 和 決 策 行 為 起 著十 分 重 要 作 用 的 模 式 數(shù) 據(jù) 挖 掘 過 程 一 般 分 為 4個 基 本 步 驟 : 數(shù) 據(jù) 選 擇 、數(shù) 據(jù) 轉(zhuǎn) 換 、 數(shù) 據(jù) 挖 掘 和 結(jié) 果 分 析 2021-5-25 66 人 工 神 經(jīng) 網(wǎng) 絡(luò) 技 術(shù)n 人 工 神 經(jīng) 網(wǎng) 絡(luò) ( Artificial Neural Network,
44、 簡 稱 ANN) 是 通 過 模 擬 神 經(jīng) 元 的 特 性 以 及 腦的 大 規(guī) 模 并 行 結(jié) 構(gòu) 、 信 息 的 分 布 式 和 并 行處 理 等 機(jī) 制 建 立 的 一 種 數(shù) 學(xué) 模 型 2021-5-25 67 輸入層 隱 藏 層 輸出層 2021-5-25 68 專 家 系 統(tǒng)n 專 家 系 統(tǒng) ( Expert System) 是 一 種 基 于 知識 的 智 能 系 統(tǒng) , 它 將 領(lǐng) 域 專 家 的 經(jīng) 驗 用 一定 的 知 識 表 示 方 法 表 示 出 來 , 并 放 入 知 識庫 中 , 供 推 理 機(jī) 使 用 . 2021-5-25 69 使 用 界 面 解 釋
45、機(jī) 構(gòu)推 理 機(jī)知 識 獲 取知 識 庫 數(shù) 據(jù) 庫領(lǐng) 域 專 家 用 戶 AI專 家專 家 系 統(tǒng) 的 基 本 結(jié) 構(gòu) 2021-5-25 70 分 子 模 型 化 技 術(shù)n 分 子 模 型 化 ( Molecular modeling) 是 利 用 計 算 機(jī)模 擬 分 子 結(jié) 構(gòu) 、 研 究 分 子 之 間 相 互 作 用 的 一 種 技術(shù)n 分 子 模 型 化 是 進(jìn) 行 分 子 設(shè) 計 的 基 礎(chǔ) 。 分 子 圖 形 學(xué)( Molecular Graphics) 是 進(jìn) 行 分 子 模 型 化 的 一 項重 要 技 術(shù) , 正 是 由 于 分 子 圖 形 學(xué) 和 其 它 計 算 化
46、學(xué)方 法 ( 如 分 子 力 學(xué) 、 分 子 動 力 學(xué) ) 的 相 互 結(jié) 合 ,才 使 得 分 子 模 型 化 方 法 取 得 成 功 2021-5-25 71 2021-5-25 72 生 物 分 子 的 計 算 機(jī) 模 擬n 傳 統(tǒng) 的 生 物 分 子 研 究 主 要 是 實 驗 方 法 , 如 利 用 測序 技 術(shù) 確 定 DNA分 子 的 序 列 , 通 過 分 子 遺 傳 學(xué) 方法 確 定 基 因 的 多 態(tài) 性 , 通 過 X-射 線 晶 體 衍 射 確 定蛋 白 質(zhì) 分 子 的 結(jié) 構(gòu) , 通 過 生 化 實 驗 研 究 生 物 大 分子 之 間 的 相 互 作 用 、 藥
47、物 分 子 與 靶 分 子 的 結(jié) 合 。n 所 謂 生 物 分 子 的 計 算 機(jī) 模 擬 就 是 從 分 子 或 者 原 子水 平 上 的 相 互 作 用 出 發(fā) , 建 立 分 子 體 系 的 數(shù) 學(xué) 模型 , 利 用 計 算 機(jī) 進(jìn) 行 模 擬 實 驗 , 預(yù) 測 生 物 分 子 的結(jié) 構(gòu) 和 功 能 , 預(yù) 測 動 力 學(xué) 及 熱 力 學(xué) 等 方 面 的 性 質(zhì) 2021-5-25 73 反 饋 , 改 進(jìn) 模 型 實 驗實 驗 現(xiàn) 象數(shù) 學(xué)模 型 計 算 機(jī)模 擬 模 擬 結(jié)果 分 析 新 的 設(shè) 想 產(chǎn) 生設(shè) 計解 釋 2021-5-25 74 因 特 網(wǎng) ( Internet)
48、 技 術(shù)n Internet已 經(jīng) 成 為 生 物 學(xué) 研 究 的 平 臺 , 同 時也 成 為 分 子 生 物 學(xué) 研 究 人 員 進(jìn) 行 信 息 交 流特 別 是 生 物 分 子 數(shù) 據(jù) 的 交 流 的 場 所 通 過 網(wǎng) 絡(luò) 查 詢 或 搜 索 所 需 要 的 生 物 信 息 , 使 用分 析 工 具 將 所 要 處 理 的 數(shù) 據(jù) 直 接 送 到 相 應(yīng) 的 網(wǎng) 絡(luò) 服 務(wù) 器上 , 服 務(wù) 器 接 受 你 的 處 理 請 求 , 并 將 處 理 結(jié) 果返 回 復(fù)雜網(wǎng)絡(luò)分析理論n 社會網(wǎng):社交網(wǎng),演員合作網(wǎng),姻親關(guān)系網(wǎng),科研合作網(wǎng),Email網(wǎng)n 生物網(wǎng):食物鏈網(wǎng),神經(jīng)網(wǎng),新陳代謝網(wǎng),
49、蛋白質(zhì)網(wǎng),基因網(wǎng)絡(luò)n 信息網(wǎng)絡(luò):WWW,專利使用,論文引用,計算機(jī)共享n 技術(shù)網(wǎng)絡(luò):電力網(wǎng),Internet,電話線路網(wǎng) n 交通運輸網(wǎng):航線網(wǎng),鐵路網(wǎng),公路網(wǎng),自然河流網(wǎng) 75 中藥方劑網(wǎng)n 雖然中藥方劑的數(shù)量很大,但目前還沒有統(tǒng)計用的數(shù)據(jù)庫。不得不用手工進(jìn)行統(tǒng)計,因此統(tǒng)計的數(shù)據(jù)量受到很大限制。選用了1536付藥方,681種藥物進(jìn)行了統(tǒng)計。n 節(jié)點:藥物,邊:在一付方劑中藥物的相互作用。n 方劑:藥物、藥物的相互作用構(gòu)成的固定完全圖局域網(wǎng),同時也可以看作是節(jié)點(藥物) 的合作成果。 n 各個完全圖通過共用的節(jié)點(藥物)架起橋梁,構(gòu)成網(wǎng)絡(luò)。網(wǎng)絡(luò)由完全圖連接而成,如圖所示。 76 中藥方劑網(wǎng)示意
50、圖n 點(藥材), 邊(藥材之間相互作用), 局域網(wǎng)(方劑) 77 中國淮揚(yáng)菜肴網(wǎng) 78 節(jié)點-食料 邊-菜肴中兩種食料之間的相互作用 每道菜肴-局域網(wǎng)(完全圖) 通過公共節(jié)點連接構(gòu)成中國淮揚(yáng)菜肴網(wǎng)。 329道菜肴,242個頂點(食品),1713條邊。 類似于中藥方劑網(wǎng)的討論。 79 (1)節(jié)點分類n在基于鏈接的節(jié)點( 對象) 分類問題中,圖G =( O,L) 表示對象集合O 和它們之間的鏈接集合L,我們的任務(wù)是將O 中的成員賦予某一類標(biāo)簽。在復(fù)雜網(wǎng)絡(luò)中,數(shù)據(jù)實例之間存在著具有描述性屬性的關(guān)系( 鏈接) ,且相連對象的類別也是相關(guān)的。比如,某人加入一個組的概率取決于組內(nèi)朋友的數(shù)目、朋友之間的連
51、結(jié)性、組內(nèi)交互的數(shù)目等等。因此,研究者注意到鏈接的屬性與結(jié)構(gòu)有助于節(jié)點分類任務(wù),這與以往的機(jī)器學(xué)習(xí)方法不同。n由于節(jié)點之間存在著鏈接,使用節(jié)點的局部結(jié)構(gòu)特征之外還應(yīng)該考慮節(jié)點之間的關(guān)系結(jié)構(gòu)特征,這將涉及關(guān)系學(xué)習(xí)( relational learning) 方法在復(fù)雜 網(wǎng)絡(luò)分析中的進(jìn)一步研究。 81 (2)鏈接預(yù)測n鏈接預(yù)測是復(fù)雜網(wǎng)絡(luò)分析的另一個重要研究方向,通過節(jié)點屬性和已觀察到的鏈接來預(yù)測某鏈接是否存在。從機(jī)器學(xué)習(xí)的角度,鏈接預(yù)測可看成一個簡單的兩類分類問題: 對于可能有鏈接存在的兩個節(jié)點,預(yù)測鏈接是1 還是0。鏈接預(yù)測的應(yīng)用很廣泛,例如預(yù)測蛋白質(zhì)網(wǎng)絡(luò)的相互作用關(guān)系、社會網(wǎng)絡(luò)中人們之間的朋友
52、關(guān)系、合作關(guān)系等等。n 作為一個二類分類問題,研究者把鏈接預(yù)測看成一個監(jiān)督學(xué)習(xí)的過程。當(dāng)社會網(wǎng)絡(luò)的規(guī)模較大時,與訓(xùn)練樣本相比,網(wǎng)絡(luò)中存在著大量的未知標(biāo)簽的樣本。這些潛在樣本的信息( 包括樣本的結(jié)構(gòu)信息) 可以更好幫助訓(xùn)練學(xué)習(xí)器。 83 (3)社群檢測 n 又稱節(jié)點聚類,將有著共同特征的節(jié)點聚類,是復(fù)雜網(wǎng)絡(luò)分析的一個經(jīng)典問題。群體或者社團(tuán)可由一組節(jié)點組成的子圖表示,其內(nèi)部存在很多鏈接而與外部存在較少鏈接,使得組內(nèi)緊密而組間松散。節(jié)點聚類可以使用機(jī)器學(xué)習(xí)中的聚類算法。比較經(jīng)典的方法有: 譜圖分割算法、圖的核方法、分層聚類方法、基于概率關(guān)系模型的聚類方法、基于隨機(jī)游走的聚類方法等。n 在群體檢測任務(wù)中,機(jī)器學(xué)習(xí)的研究重點主要是設(shè)計基于圖結(jié)構(gòu)數(shù)據(jù)( 節(jié)點間的鏈接或加權(quán)鏈接) 的聚類算法。當(dāng)前算法的可擴(kuò)展性限于至多幾千個節(jié)點的網(wǎng)絡(luò),而非大規(guī)模網(wǎng)絡(luò)。因此,對于現(xiàn)實應(yīng)用中的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)集,仍需要設(shè)計有效的算法。 85
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)備采購常用的四種評標(biāo)方法
- 車間員工管理須知(應(yīng)知應(yīng)會)
- 某公司設(shè)備維護(hù)保養(yǎng)工作規(guī)程
- 某企業(yè)潔凈車間人員進(jìn)出管理規(guī)程
- 企業(yè)管理制度之5S管理的八個口訣
- 標(biāo)準(zhǔn)化班前會的探索及意義
- 某企業(yè)內(nèi)審員考試試題含答案
- 某公司環(huán)境保護(hù)考核管理制度
- 現(xiàn)場管理的定義
- 員工培訓(xùn)程序
- 管理制度之生產(chǎn)廠長的職責(zé)與工作標(biāo)準(zhǔn)
- 某公司各級專業(yè)人員環(huán)保職責(zé)
- 企業(yè)管理制度:5S推進(jìn)與改善工具
- XXX公司環(huán)境風(fēng)險排查及隱患整改制度
- 生產(chǎn)車間基層管理要點及建議