生物信息學(xué)教學(xué)資料:生物信息學(xué)常用數(shù)據(jù)庫

上傳人:san****019 文檔編號:23763417 上傳時間:2021-06-10 格式:PPT 頁數(shù):90 大小:8.23MB
收藏 版權(quán)申訴 舉報 下載
生物信息學(xué)教學(xué)資料:生物信息學(xué)常用數(shù)據(jù)庫_第1頁
第1頁 / 共90頁
生物信息學(xué)教學(xué)資料:生物信息學(xué)常用數(shù)據(jù)庫_第2頁
第2頁 / 共90頁
生物信息學(xué)教學(xué)資料:生物信息學(xué)常用數(shù)據(jù)庫_第3頁
第3頁 / 共90頁

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《生物信息學(xué)教學(xué)資料:生物信息學(xué)常用數(shù)據(jù)庫》由會員分享,可在線閱讀,更多相關(guān)《生物信息學(xué)教學(xué)資料:生物信息學(xué)常用數(shù)據(jù)庫(90頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、生 物 信 息 學(xué) 方 法 與 實 踐Bioinformatics Method and Practice 1 一 級 數(shù) 據(jù) 庫 數(shù) 據(jù) 庫 中 的 數(shù) 據(jù) 直 接 來 源 于 實 驗 獲 得 的 原 始 數(shù)據(jù) , 只 經(jīng) 過 簡 單 的 歸 類 整 理 和 注 釋 。 二 級 數(shù) 據(jù) 庫 對 原 始 生 物 分 子 數(shù) 據(jù) 進(jìn) 行 整 理 、 分 類 的 結(jié) 果 ,是 在 一 級 數(shù) 據(jù) 庫 、 實 驗 數(shù) 據(jù) 和 理 論 分 析 的 基 礎(chǔ)上 針 對 特 定 的 應(yīng) 用 目 標(biāo) 而 建 立 的 。生 物 信 息 學(xué) 常 用 數(shù) 據(jù) 庫 2 ( 1) 美 國 生 物 技 術(shù) 信 息 中 心

2、 的 GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html ( 2) 歐 洲 分 子 生 物 學(xué) 實 驗 室 的 EMBL http:/www.embl-heidelberg.de ( 3) 日 本 遺 傳 研 究 所 的 DDBJ http:/www.ddbj.nig.ac.jp/ GenBank DDBJEMBL 三 個 數(shù) 據(jù) 庫 中 的 數(shù) 據(jù) 基 本 一 致 , 僅 在 數(shù) 據(jù) 格 式 上 有 所 差 別 ,對 于 特 定 的 查 詢 , 三 個 數(shù) 據(jù) 庫 的 響 應(yīng) 結(jié) 果 一 樣 。1.Nucleotide Sequ

3、ence Databases 3 GenBank 1979年 建 設(shè) , 1982年 運 行 4 5 Submissions to GenBank Many journals require submission of sequence information to a database prior to publication so that an accession number may appear in the paper. NCBI has a WWW form, called BankIt, for convenient and quick submission of sequen

4、ce data. Sequin, NCBIs stand-alone submission software for MAC, PC, and UNIX platforms, is also available by FTP. When using Sequin, the output files for direct submission should be sent to GenBank by electronic mail. There are specialized, streamlined procedures for batch submissions of sequences,

5、such as EST, STS, and HTG sequences. Updating or Revising a Sequence Revisions or updates to GenBank entries can be made at any time and can be accepted as BankIt or Sequin files or as the text of an e-mail message. Click on the link for more information about updating information on GenBank records

6、. 6 Access to GenBank GenBank is available for searching at NCBI via several methods. The GenBank database is designed to provide and encourage access within the scientific community to the most up to date and comprehensive DNA sequence information. Therefore, NCBI places no restrictions on the use

7、or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted. NCBI is not in a position to assess the validity of such claims, and therefore cannot provide comment or unrestricted

8、permission concerning the use, copying, or distribution of the information contained in GenBank. New Developments NCBI is continuously developing new tools and enhancing existing ones to improve both submission and access to GenBank. The easiest way to keep abreast of these and other developments is

9、 to check the Whats New section of the NCBI Web page and to read the NCBI News, which is also available by free subscription. 7 EMBL1982年 運 行 8 http:/www.ebi.ac.uk/embl/index.html 9 DDBJ 1984年 建 立 ,1987年 啟 用 10 小 鼠 (Mouse) http:/www.informatics.jax.org/mgd.html 大 鼠 (Rat) http:/ratmap.gen.gu.se 狗 (Do

10、g) http:/mendel.berkeley.edu/dog.html 牛 (Cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 豬 (Pig) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊 (Sheep) http:/dirk.invermay.cri.nz 雞 (Chicken) http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑 馬 魚 (Zebra fish) http:/zfish.uorego

11、n.edu 線 蟲 (C. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果 蠅 (Drosophila) http:/morgan.harvard.edu 蚊 子 (Mosquito) http:/klab.agsci.colostate.edu 擬 南 芥 (Arabidopsis) http:/genome-www.stanford.edu/Arabidopsis 棉 花 (Cotton) http:/algodon.tamu.edu 玉 米 (Maize) http:/www.agron.miss

12、ouri.edu 水 稻 (Rice) http:/www.staff.or.jp 大 豆 (Soya) http:/mendel.agron.iastate.edu:8000/main.html 楊 樹 (Trees) http:/s27w007.pswfs.gov 2. Genome Databases 11 human Arabidopsis Thermotoga maritimaEscherichia coliBuchnerasp. APS Rickettsia prowazekiiUreaplasma urealyticum Bacillus subtilis Drosophila

13、melanogasterThermoplasma acidophilumPlasmodium falciparum Helicobacter pylori mouse Caenorhabitis elegans rat Borrelia burgorferiBorrelia burgorferi Aquifex aeolicus Neisseria meningitidis Z2491 Mycobacterium tuberculosis Model organism 12 Model organism databases Escherichia coli E. coli Genome Cen

14、ter (Wisconsin University, USA) The E. coli index (University of Birmingham, UK) S. cerevisiae (Bakers yeast) SGD (Yeast genome database at Stanford, USA) CYGD (MIPS Comprehensive Yeast Genome Database, Neuherberg, Germany) Arabidopsis thaliana MATDB (MIPS A. thaliana database, Munich, Germ.) TAIR (

15、The Arabidopsis Information Resource, previously AtDB, at Stanford, USA) KAOS (Kazusa Arabidopsis data Opening Site at Kazusa DNA Research Institute, Jp) Arabidopsis Genome Analysis (at Cold Spring Harbor laboratories, USA) TIGR Arabidopsis thaliana Database (TIGR, Rockeville MD, USA) Oryza sativa (

16、Rice) RGP (Rice Genome Research Programme, Jp) Gramene (Comparative mapping resource for graines) INE (Integrated rice genome explorer: common database of the International Rice Genome Sequencing Project, IRGSP, Jp) 13 Model organism databases Caenorhabditis elegans WormBase (C. elegans database at

17、Cold Spring Harbor Laboratories, USA) Drosophila melanogaster (Fruit fly) FlyBase (Drosophila genome database) BDGP (Berkeley Drosphila genome project) Danio rerio (Zebrafish) ZFIN (Zebrafish Information Network at University of Oregon, USA) WashU-Zebrafish Genome Resources (Zebrafish EST database a

18、t Washington University, USA) Mus musculus (Mouse) MGI (Mouse genome informatics) Homo sapiens GDB (The human Genome Database, Toronto, Canada) HIB (HumanInfoBase of annotated UniGene clusters - putative human gene transcripts - at MIPS, Germany) Human genome resources (at NCBI, USA) Human genome br

19、owser (at the University of California Santa Cruz, USA) HGP (Human Genome Project at the Sanger Institute, Cambridge, UK) GeneLinks (Portal to hyperlinks for each human gene at the Center for Genomics and Bioinformatics, Karolinska Institutet, Stockholm, Sweden) 14 Prokaryotes include:Escherichia co

20、li (E. coli) - This common, Gram-negative gut bacterium is the most widely-used organism in molecular genetics. Bacillus subtilis - an endospore forming Gram-positive bacterium 15 Table of model genetic organisms Organism Genome Sequenced Homologous Recombination BiochemistryProkaryoteEscherichia co

21、li Yes Yes ExcellentEukaryote, unicellularDictyostelium discoideum Yes Yes ExcellentSaccharomyces cerevisiae Yes Yes GoodSchizosaccharomyces pombe Yes Yes GoodChlamydomonas reinhardtii Yes No GoodTetrahymena thermophila Yes Yes Good Eukaryote, multicellularCaenorhabditis elegans Yes Difficult Not so

22、 goodDrosophila melanogaster Yes Difficult GoodArabidopsis thaliana Yes No PoorVertebrateDanio rerio Yes Difficult? GoodMus musculus Yes Yes GoodHomo sapiens Yes Yes Good 16 The Genome database provides views for a variety of genomes, complete chromosomes, sequence maps with contigs, and integrated

23、genetic and physical maps. The database is organized in six major organism groups: Archaea, Bacteria, Eukaryotae, Viruses, Viroids, and Plasmids and includes complete chromosomes, organelles and plasmids as well as draft genome assemblies. 17 virusesplasmids bacteriafungiplantsalgaeinsectsmollusksre

24、ptilesbirdsmammalsGenome sizes in nucleotide pairs (base-pairs) 104 108105 106 107 10111010109The size of the humangenome is 3 X 109 bp;almost all of its complexityis in single-copy DNA.The human genome is thoughtto contain 20,000 to 30,000 genes. bony fishamphibians 18 19 20 Escherichia coli大 腸 桿 菌

25、大 腸 桿 菌 是 研 究 得 最 為 詳 盡 的 一 個 模 式 生 物 。 這 種只 有 1.6微 米 長 的 、 可 以 迅 速 繁 殖 的 單 細(xì) 胞 原 核 生 物 ,已 經(jīng) 成 為 實 驗 室 和 基 因 工 程 的 重 要 工 具 。Escherichia coli O157:H7Escherichia coli K12模 式 生 物 (Model Organism) 21 釀 酒 酵 母 : 16個 染 色 體 , 全 基 因 組 1996年 測 定 。 22 秀 麗 線 蟲 : 雌 雄 同 體 成 蟲 細(xì) 胞 數(shù) 目 只 有 959個 , 其 中 包 括 302個 神 經(jīng) 元

26、 ; 6條 染 色 體 , 全 基 因 組 于 1998年 測 定 , 長 9.7Mb 23 果 蠅 :繁 殖 很 快 , 基 因 組 : 180Mb。 24 擬 南 芥 :個 體 生 活 周 期 只 有 6周 的 十 字 花 科 小 草 ,是 一 種 理 想 的 模 式 植 物 。 25 非 洲 瓜 蟾 ( Xenopus lavias) 1個 受 精 卵 在 24小 時 內(nèi) 分 裂 到 各 種 器 官 初具 雛 形 的 程 度 ; 26 斑 馬 魚 ( Danio rerio)身 體 透 明 的 小 魚 , 生 活 周 期 約 3個 月 , 是 研究 脊 椎 動 物 發(fā) 育 過 程 的 良

27、 好 對 象 。 27 小 鼠 ( Mus musculus)基 因 組 大 小 與 人 類 相 近 , 有 19條 常 染 色 體 ; 28 29 BLAST 基 本 局 部 比 對 搜 索 工 具 (Basic Local Alignment Search Tool) NCBI上 BLAST服 務(wù) 的 網(wǎng) 址 : http:/blast.ncbi.nlm.nih.gov/ NCBI上 BLAST程 序 的 下 載 :ftp:/ftp.ncbi.nlm.nih.gov/blast/executables/release/ NCBI的 BLAST數(shù) 據(jù) 庫 下 載 網(wǎng) 址 : ftp:/ftp

28、.ncbi.nlm.nih.gov/blast/db/ 30 選 擇 物 種選 擇 blast程 序 31 QuerySequenceAminoacidSequence DNASequence tBLASTxBLASTxBLASTntBLASTnBLASTp NucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabase Translated TranslatedTranslated 32 程 序 名 搜 索 序 列 數(shù) 據(jù) 庫 內(nèi) 容 備 注blastp Protein Protein

29、比 較 氨 基 酸 序 列 與 蛋 白質(zhì) 數(shù) 據(jù) 庫 使 用 取 代 矩 陣 尋 找 較遠(yuǎn) 的 關(guān) 系 , 進(jìn) 行 SEG過 濾blastn Nucleotide Nucleotide 比 較 核 酸 序 列 與 核 酸 數(shù)據(jù) 庫 尋 找 較 高 分 值 的 匹 配 ,對 較 遠(yuǎn) 的 關(guān) 系 不 太 適用blastx Nucleotide Protein 比 較 核 酸 序 列 理 論 上 的六 個 讀 碼 框 的 所 有 轉(zhuǎn) 換結(jié) 果 和 蛋 白 質(zhì) 數(shù) 據(jù) 庫 用 于 新 的 DNA序 列 和ESTs的 分 析 , 可 轉(zhuǎn)譯 搜 索 序 列 tblastn Protein Nucleoti

30、de 比 較 蛋 白 質(zhì) 序 列 和 核 酸序 列 數(shù) 據(jù) 庫 , 動 態(tài) 轉(zhuǎn) 換為 六 個 讀 碼 框 的 結(jié) 果 用 于 尋 找 數(shù) 據(jù) 庫 中 沒有 標(biāo) 注 的 編 碼 區(qū) , 可轉(zhuǎn) 譯 數(shù) 據(jù) 庫 序 列tblastx Nucleotide Nucleotide 比 較 核 酸 序 列 和 核 酸 序列 數(shù) 據(jù) 庫 , 經(jīng) 過 兩 次 動態(tài) 轉(zhuǎn) 換 為 六 個 讀 碼 框 的結(jié) 果 轉(zhuǎn) 譯 搜 索 序 列 與 數(shù) 據(jù)庫 序 列 33 以 Blastx為 例 :目 標(biāo) 序 列 為 ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CT

31、G CTT TAT ACC CGC6個 讀 碼 框 翻 譯5端 到 3端第 一 位 起 始 :ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC第 二 位 起 始 : TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC第 三 位 起 始 : GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端 到 5端第 一 位 起 始 :G

32、CG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT第 二 位 起 始 : CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT第 三 位 起 始 : GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T 34 35 選 擇 數(shù) 據(jù) 庫 序 列 或 目 標(biāo) 序 列 的 GI號以 文 件 格 式 上 傳blastnBlastn算 法 選

33、擇1. 選 擇 相 應(yīng) 的 序 列 。2. 選 擇 一 個 用 于 搜 索 的 數(shù) 據(jù) 庫 。3. 選 擇 一 個 BLAST程 序 。4. 為 搜 索 和 輸 出 進(jìn) 行 參 數(shù) 調(diào) 整 。選 擇 物 種 36 配 對 與 錯 配 空 位 罰 分 37 blastp Blastp算 法 選 擇 38 打 分 矩 陣 :PAM30PAM70BLOSUM80BLOSUM62BLOSUM45 39 選 擇 打 分 矩 陣 ( scoring matrix)The PAM family Based on global alignments The PAM1 is the matrix calcula

34、ted from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1.The BLOSUM family Based on local alignments. BLOSUM62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alig

35、nments ;they are not extrapolated from comparisons of closely related proteins. 40 比 對 的 數(shù) 據(jù) 庫 信 息圖 形 化 結(jié) 果檢 索 序 列 信 息blastn結(jié) 果 41 E值 ( E-value) 表 示 僅 僅 因 為 隨 機 性 造 成 獲 得 這 一 比 對 結(jié)果 的 可 能 性 。 這 一 數(shù) 值 越 接 近 零 , 隨 機 發(fā) 生 這 一 事 件 的 可 能性 越 小 , 結(jié) 果 可 靠 性 越 高 。blastn結(jié) 果 42 blastn結(jié) 果 43 練 習(xí) 1: 網(wǎng) 上 運 行 blast

36、x和 blastn(NCBIblast網(wǎng) 址 : http:/blast.ncbi.nlm.nih.gov/)lesson.seq.screen.Contig34TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAA

37、TGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGAC

38、GATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCA CATCACTA

39、ACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC1. 對 contig34進(jìn) 行 網(wǎng) 上 blas

40、tn( 演 示 ) ,2. blastx( 自 行 操 作 ) 比 對 44 網(wǎng) 頁 版 BLAST的 優(yōu) 缺 點 : 優(yōu) 點 : 直 觀 方 便 , 容 易 操 作 , 數(shù) 據(jù) 庫 同 步更 新 缺 點 : 不 利 于 操 作 大 批 量 的 數(shù) 據(jù) , 同 時 也不 能 自 己 定 義 搜 索 的 數(shù) 據(jù) 庫 , 對 網(wǎng) 絡(luò) 依 賴性 太 大 。 45 本 地 運 行 BLAST 下 載 NCBI上 blast程 序 : ftp:/ftp.ncbi.nlm.nih.gov/blast/executables/release/ 安 裝 ( 安 裝 到 C:blast) 數(shù) 據(jù) 庫 的 格 式

41、 化 ( formatdb) 程 序 運 行 ( blastall) 46 登 陸 NCBI的 FTP下 載 blast程 序 47 雙 擊 安 裝 到 C盤產(chǎn) 生 三 個 文 件 夾bindatadoc將 數(shù) 據(jù) 庫 文 件 (db)及 目 標(biāo) 序列 文 件 (in)保 存 在 Blast/bin文 件 夾 下bin含 可 執(zhí) 行 程 序 (將 數(shù) 據(jù) 庫 及 需 要 比對 操 作 的 數(shù) 據(jù) 放 入 該 文 件 );data文 件 夾 含 打 分 矩 陣 及 演 示 例 子 的序 列 數(shù) 據(jù) 信 息 ;doc文 件 夾 含 關(guān) 于 各 子 程 序 的 說 明 文檔 。 48 本 地 數(shù) 據(jù)

42、 庫 的 構(gòu) 建 查 看 db文 件 由 fasta格 式 的 序 列 組 成 , 以 “ ” 開 頭 , 緊接 著 是 序 列 描 述 信 息 , 換 行 后 即 是 核 苷 酸或 蛋 白 質(zhì) 序 列 , 直 至 下 一 個 “ ” 前 為 止 。 49 數(shù) 據(jù) 庫 的 格 式 化formatdb命 令 用 于 數(shù) 據(jù) 庫 的 格 式 化 :formatdb option1 option2 option3formatdb常 用 參 數(shù)-i database_name 需 要 格 式 化 的 數(shù) 據(jù) 庫 名 稱-p TF 待 格 式 化 數(shù) 據(jù) 庫 的 序 列 類 型( 核 苷 酸 選 F;

43、蛋 白 質(zhì) 選 T; 默 認(rèn) 值 為 T)例 : formatdb -i db -p T對 蛋 白 質(zhì) 數(shù) 據(jù) 庫 “ db”進(jìn) 行 格 式 化 50 程 序 運 行blastall命 令 用 于 運 行 五 個 blast子 程 序 :blastall option1 option2 option3*可 在 dos下 輸 入 blastall查 看 各 個 參 數(shù) 的 意 義 及 使 用 blastall常 用 參 數(shù) 四 個 必 需 參 數(shù)-p program_name,程 序 名 , 根 據(jù) 數(shù) 據(jù) 庫 及 搜 索 文 件 序 列 性 質(zhì) 進(jìn) 行 選 擇 ;-d database_nam

44、e,數(shù) 據(jù) 庫 名 稱 ,比 對 完 成 格 式 化 的 數(shù) 據(jù) 庫 ;-i input_file,搜 索 文 件 名 稱 ;-o output_file,BLAST結(jié) 果 文 件 名 稱 ; 兩 個 常 用 參 數(shù)-e expectation, 期 待 值 ,默 認(rèn) 值 為 10.0, 可 采 用 科 學(xué) 計 數(shù) 法 來 表 示 , 如 2e-5; -m alignment view options:比 對 顯 示 選 項 , 其 具 體 的 說 明 可 以 用 以 下 的 比 對 實例 說 明例 : blastall -p blastx -d db -i in -o out -e 2e-5

45、 -m 9 (表 格 顯 示 比 對 結(jié) 果 )采 用 blastx程 序 , 將 in中 的 序 列 到 數(shù) 據(jù) 庫 db中 進(jìn) 行 比對 , 結(jié) 果 以 表 格 形 式 輸 入 到 out文 件 51 練 習(xí) 2:本 地 運 行 blastx 進(jìn) 入 DOS命 令 行 提 示 符 狀 態(tài) ( “ 運 行 ” 輸 入 cmd) 進(jìn) 入 C盤 , 輸 入 : cd 進(jìn) 入 包 含 序 列 數(shù) 據(jù) 的 bin目 錄 下 , 輸 入 : cd blastbin 查 看 目 錄 下 內(nèi) 容 , 輸 入 : dir 格 式 化 數(shù) 據(jù) 庫 db: formatdb -i db -p T 運 行 bla

46、stx blastall -p blastx -i in -d db -o out -e 2e-5 -m 9 查 看 結(jié) 果 : 用 寫 字 板 或 者 記 事 本 打 開 out文 件輸 入 數(shù) 據(jù) 庫 類 型 : F/TBlast程 序 序 列 輸 入 數(shù) 據(jù) 庫 結(jié) 果 輸 出 52 53 3.蛋 白 質(zhì) 序 列 數(shù) 據(jù) 庫 SWISS PROT(歐 洲 ) PIR(美 國 ) 54 Protein Sequence Databases UniProt: United Protein DatabasesA single database that combines the informa

47、tion of the major international databases, European Bioinformatics Institute (EBI), Cambridge, UK; Protein Information Resource (PIR) - Georgetown University Medical Center (GUMC) and Swiss Institute of Bioinformatics (SIB) - Geneva, Switzerland. “The Universal Protein Resource (UniProt) provides th

48、e scientific community with a single, centralized, authoritative resource for protein sequences and functional information.” PIR Protein Sequence DatabaseThe database is described by its sponsor as “functionally annotated protein sequences, which grew out of the Atlas of Protein Sequence and Structu

49、re (1965-1978) edited by Margaret Dayhoff and has been incorporated into an integrated knowledge base system of value-added databases and analytical tools.” From the Protein Information Resource, the major U.S. source of protein informatics. Swiss-ProtThe major European protein sequence database, wi

50、th accompanying annotations, from the Swiss Institute of Bioinformatics. “Swiss-Prot is a curated protein sequence database which strives to provide a high level of annotations (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, e

51、tc.), a minimal level of redundancy and high level of integration with other databases.” Also at this site is TrEMBL, which contains all translated nucleic acid protein coding sequences in EMBL that have not yet been annotated and incorporated into Swiss-Prot. 55 SWISS-PROT 只 收 錄 實 際 存 在 的 蛋 白 質(zhì) , 有

52、 詳 細(xì) 的 注 釋 ( 包 括 功 能 、 結(jié) 構(gòu) 域 、 翻譯 后 的 修 飾 等 ) 及 齊 全 的 引 文 和 到 其 它 數(shù) 據(jù) 庫 的 鏈 接 。 http:/www.expasy.org/sprot/ ftp:/ftp.expasy.ch/databases/swiss-prot/ TrEMBL 從 EMBL庫 中 的 核 酸 序 列 翻 譯 出 來 的 氨 基 酸 序 列 , 已 經(jīng) 完 成 自 動 注釋 。 其 中 SP-TrEMBL條 目 已 由 專 家 人 工 分 類 并 賦 予 SWISS-PROT索 引 號 , 但 未 通 過 人 工 審 讀 被 最 終 收 入 SW

53、ISS-PROT。 SWISS-PROT+TrEMBL非 冗 余 庫 http:/www.expasy.ch/sprot/ ftp:/ftp.expasy.ch/databases/sp_tr_nrdb/ 56 SWISS PROT 1. 瑞 士 日 內(nèi) 瓦 大 學(xué) 醫(yī) 學(xué) 生 物 化 學(xué) 系 和 歐 洲 生 物 信 息 學(xué) 研 究 所 (EBI)合 作 維 護(hù) ( 1986年 ) ; 2. 在 EMBL和 GenBank數(shù) 據(jù) 庫 上 均 建 立 了 鏡 像 站 點 ; 3. 數(shù) 據(jù) 庫 包 括 了 從 EMBL翻 譯 而 來 的 蛋 白 質(zhì) 序 列 , 這 些 序 列 經(jīng)過 檢 驗 和 注

54、 釋 ; 4. 數(shù) 據(jù) 記 錄 包 括 兩 部 分 : 序 列 注 釋 (結(jié) 構(gòu) 域 、 功 能 位 點 、 跨 膜 區(qū) 域 、 二 硫 鍵 位 置 、 翻 譯 后 的 修 飾 、 突 變 體 等 ) 5. 數(shù) 據(jù) 存 在 滯 后 性 TrEMBL數(shù) 據(jù) 庫 的 建 立SWISS-PROT的 網(wǎng) 址 : http:/cn.expasy.org/sprot TrEMBL的 網(wǎng) 址 : http:/www.ebi.ac.uk/trembl/index.html 57 SWISS-PROT (http:/www.expasy.ch/sprot/sprot-top.html)是 目 前 國 際 上 比

55、 較 權(quán) 威 的 蛋 白 質(zhì) 序 列 數(shù) 據(jù) 庫 ,其 中 的 蛋 白質(zhì) 序 列 是 經(jīng) 過 注 釋 的 SWISS-PROT中 的 數(shù) 據(jù) 來 源 于 不 同 源 地 :( 1) 從 核 酸 數(shù) 據(jù) 庫 經(jīng) 過 翻 譯 推 導(dǎo) 而 來 ;( 2) 從 蛋 白 質(zhì) 數(shù) 據(jù) 庫 PIR挑 選 出 合 適 的 數(shù) 據(jù) ;( 3) 從 科 學(xué) 文 獻(xiàn) 中 摘 錄 ;( 4) 研 究 人 員 直 接 提 交 的 蛋 白 質(zhì) 序 列 數(shù) 據(jù) SWISS-PROT有 三 個 明 顯 的 特 點 : 58 ( 1) 注 釋在 SWISS-PROT中 , 數(shù) 據(jù) 分 為 核 心 數(shù) 據(jù) 和 注 釋 兩 大 類

56、 。核 心 數(shù) 據(jù) 包 括 :序 列 數(shù) 據(jù) 、 參 考 文 獻(xiàn) 、 分 類 信 息 ( 蛋 白 質(zhì) 生 物 來 源 的 描 述 )注 釋 包 括 : (A)蛋 白 質(zhì) 的 功 能 描 述 ; (B)翻 譯 后 修 飾 ; (C)域 和 功 能 位 點 , 如 鈣 結(jié) 合 區(qū) 域 、 ATP結(jié) 合 位 點 等 ; (D)蛋 白 質(zhì) 的 二 級 結(jié) 構(gòu) ; (E)蛋 白 質(zhì) 的 四 級 結(jié) 構(gòu) , 如 同 構(gòu) 二 聚 體 、 異 構(gòu) 三 聚 體 等 ; (F)與 其 它 蛋 白 質(zhì) 的 相 似 性 ; (G)由 于 缺 乏 該 蛋 白 質(zhì) 而 引 起 的 疾 病 ; (H)序 列 的 矛 盾 、

57、 變 化 等 。 59 ( 2) 最 小 冗 余 盡 量 將 相 關(guān) 的 數(shù) 據(jù) 歸 并 , 降 低 數(shù) 據(jù) 庫 的 冗 余程 度 。 如 果 不 同 來 源 的 原 始 數(shù) 據(jù) 有 矛 盾 , 則 在 相 應(yīng)序 列 特 征 表 中 加 以 注 釋 。 60 ( 3) 與 其 它 數(shù) 據(jù) 庫 的 連 接 對 于 每 一 個 登 錄 項 , 有 許 多 指 向 其 它 數(shù) 據(jù) 庫 相 關(guān)數(shù) 據(jù) 的 指 針 , 這 便 于 用 戶 迅 速 得 到 相 關(guān) 的 信 息 。 現(xiàn) 有 的 交 叉 索 引 有 : 到 EMBL核 酸 序 列 數(shù) 據(jù) 庫 的 索 引 , 到 PROSITE模 式 數(shù) 據(jù) 庫

58、 的 索 引 , 到 生 物 大 分 子 結(jié) 構(gòu) 數(shù) 據(jù) 庫 PDB的 索 引 等 。 61 TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是 與 SWISS-PROT相 關(guān) 的 一 個 數(shù) 據(jù) 庫 。包 含 從 EMBL核 酸 數(shù) 據(jù) 庫 中 根 據(jù) 編 碼 序 列 (CDS)翻 譯 而 得 到 的 蛋白 質(zhì) 序 列 , 并 且 這 些 序 列 尚 未 集 成 到 SWISS-PROT數(shù) 據(jù) 庫 中 。TrEMBL有 兩 個 部 分 :( 1) SP-TrEMBL(SWISS-PROT TrEMBL)包 含 最 終 將 要 集 成 到 SWIS

59、S-PROT的 數(shù) 據(jù) , 所 有 的 SP-TrEMBL 序 列 都 已 被 賦 予 SWISS-PROT的 登 錄 號 。( 2) REM-TrEMBL(REMaining TrEMBL)包 括 所 有 不 準(zhǔn) 備 放 入 SWISS-PROT的 數(shù) 據(jù) , 因 此 這 部 分 數(shù) 據(jù) 都沒 有 登 錄 號 。 62 63 http:/www.expasy.org/proteomics 64 http:/www.uniprot.org/uniprot/?query=hbsag 1988年 , 由 美 國 RCSB(research collaboratory for structural

60、biology)管 理 ; 以 文 本 格 式 存 放 數(shù) 據(jù) , 包 括 原 子 坐 標(biāo) 、 物 種 來 源 、 測 定 方法 、 提 交 者 信 息 、 一 級 結(jié) 構(gòu) 、 二 級 結(jié) 構(gòu) 等 ; PDBsum數(shù) 據(jù) 庫 : PDB注 釋 信 息 綜 合 數(shù) 據(jù) 庫 , 具 有 檢 索 、 分析 、 可 視 化 的 功 能 。 PDB的 網(wǎng) 址 : http:/www.rcsb.org/pdb(美 國 ) PDBsum的 網(wǎng) 址 : http:/www.biochem.ucl.ac.uk/bsm/pdbsum 83 PDB中 含 有 通 過 實 驗 ( X射 線 晶 體 衍 射 , 核 磁

61、共 振 NMR) 測 定 的 生 物 大 分 子 的 三 維 結(jié) 構(gòu) 蛋 白 質(zhì) 核 酸 糖 類 其 它 復(fù) 合 物 PDB( Protein Data Bank) 84 隱 式 序 列 信 息 ( implicit sequence ) PDB的 隱 式 序 列 即 為 立 體 化 學(xué) 數(shù) 據(jù) , 包 括 每 個 原 子的 名 稱 和 原 子 的 三 維 坐 標(biāo) 。 顯 式 序 列 信 息 ( explicit sequence)在 PDB文 件 中 , 以 關(guān) 鍵 字 SEQRES作 為 顯 式 序 列 標(biāo) 記 ,以 該 關(guān) 鍵 字 打 頭 的 每 一 行 都 是 關(guān) 于 序 列 的 信

62、息 。 85 http:/www.rcsb.org/pdb/home/home.do 86 l 轉(zhuǎn) 錄 因 子 數(shù) 據(jù) 庫RANSFAChttp:/transfac.gbf.deooTFDhttp:/www.ifti.orgl 基 因 分 類 數(shù) 據(jù) 庫 Gene Ontology (GO)http:/www.geneontology.orgl 酶 、 代 謝 和 調(diào) 控 路 徑 數(shù) 據(jù) 庫 KEGG http:/www.genome.ad.jp/kegg/Enzyme Nomenclature Database http:/expasy.hcuge.ch/sprot/enzyme.htmlP

63、rotein Kinase Resource (PKR)http:/www.sdsc.edu/kinases/l RNA數(shù) 據(jù) 庫 miRBase http:/www.mirbase.org/ mirna database http:/ lncRNAdb http:/www.lncrna.org/Help.aspx 87 Ensembl KEGG Pathway database http:/www.genome.jp/kegg/pathway.html Breakdown into major categories: metabolism (the most important one),

64、genetic information processing (including protein folding and sorting), environmental information processing (including membrane transport and intracellular signaling), cellular processes, plus some others Broken down into subcategories, e.g. carbohydrate metabolism, and then into individual pathways, e.g. glycolysis/gluconeogenesis (http:/www.genome.jp/kegg/pathway/map/map00010.html ) 90

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲