《中國科技大學(xué)課件系列:《生物信息學(xué)》由會員分享,可在線閱讀,更多相關(guān)《中國科技大學(xué)課件系列:《生物信息學(xué)(62頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第二章:序列的采集和存儲 DNA:Deoxyribonucleic acid,脫氧核糖核酸;RNA:RiboNucleic Acid,核糖核酸; r1. DNA測序r2. 序列數(shù)據(jù)的存儲核酸序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫基因組數(shù)據(jù)庫r3. 序列數(shù)據(jù)的文件格式 rDNA一次連續(xù)測序的長度約為500bp;rEST (Expressed sequence tag) 測序:細(xì)胞中mRNA反轉(zhuǎn)錄成cDNA,方向不定測序;rGSS (Genome Survey Sequences,基因組勘測序列):類似于ESTs,來源基因組;rHTG (High-throughput genome sequences,高通量
2、基因組序列):高通量、尚未完工的DNA序列; CAT ddGTPddTTPddATP(D) r1. 基因圖譜法:DNA片段在染色體上的位置、方向已知。首先染色體被打斷成150200kbp左右的大片段,然后克隆到BACs (Bacterial Artificial Chromosome)中,再進(jìn)一步隨機(jī)打斷,克隆,測序,依靠計算機(jī)組裝成長的序列(contig) 。r2. “鳥槍法”(shotgun):DNA片段在染色體上的位置和方向未知。全基因組隨機(jī)打斷成小片段,克隆,雙向測序,計算機(jī)組裝成長的序列。 r 基因組圖譜:遺傳圖譜,物理圖譜r 遺傳圖譜(genetic map):連鎖圖譜,顯示所知的
3、基因和/或遺傳標(biāo)記的相對距離位置與次序。r物理圖譜(physical map):表示某些基因和/或遺傳標(biāo)記之間在基因組上的精確位置和距離(如間隔的bp數(shù)目)的圖譜。 r核酸序列數(shù)據(jù)庫國際三大核酸序列數(shù)據(jù)庫:GenBank, EBML, DDBJRefSeq: The Reference Sequence DatabasedbEST: Expressed Sequences Tags數(shù)據(jù)庫UniGene等r蛋白質(zhì)序列數(shù)據(jù)庫UniProtSwiss-prot rhttp:/www.ebi.ac.uk/embl/ rNIG (National Institute of Genetics)rCIB (
4、Center for Information Biology)rhttp:/www.ddbj.nig.ac.jp/index-e.html r1998年,GenBank、EMBL和DDBJ共同成立了國際核酸序列數(shù)據(jù)庫協(xié)會 (International Nucleotide Sequence Database Collaboration,INSDC)r三大核酸數(shù)據(jù)庫之間每天將新測定或更新的數(shù)據(jù)進(jìn)行交換共享,保證數(shù)據(jù)信息的完整與同步,每兩個月更新一次版本。rhttp:/www.insdc.org/ r1. 提供非冗余的,高質(zhì)量的,經(jīng)檢驗校正的序列信息;r2. 包括染色體、基因組(細(xì)胞器、病毒、質(zhì)粒
5、)、蛋白質(zhì)、RNA等;r 序列文件的標(biāo)識符:mRNA序列:NM_123456非編碼RNA:NR_123456蛋白質(zhì)序列: NP_123456r http:/www.ncbi.nlm.nih.gov/RefSeq r截然不同的Accession號區(qū)別于其它GenBank命名格式的序列,前綴是兩個字母加下劃線 _;r在Comment區(qū)域顯示來源;r使用正式命名;r包括dbxrefs的特征;r蛋白序列在DBSOURCE區(qū)域標(biāo)示 REFSEQ 最多的20個物種: 2007.08,總序列45,660,524條http:/www.ncbi.nlm.nih.gov/dbEST/ 為每一個基因創(chuàng)造一個唯一的條
6、目,收集這個基因所有的ESTs http:/www.ncbi.nlm.nih.gov/unigene r最早廣泛使用的蛋白數(shù)據(jù)庫;歐洲最主要的蛋白序列數(shù)據(jù)庫;http:/www.expasy.ch/sprot/rSIB(Swiss Institute of Bioinformatics)r可由ExPASy(Expert Protein Analysis System)系統(tǒng)訪問;r所有序列條目均經(jīng)過有經(jīng)驗的分子生物學(xué)家和蛋白質(zhì)化學(xué)家審核,因此又稱為蛋白質(zhì)專家?guī)臁?rTrEMBL (Translation of EMBL):計算機(jī)注釋的Swiss-Prot分支數(shù)據(jù)庫,從EMBL庫中的cDNA序列翻
7、譯得到的氨基酸序列數(shù)據(jù)庫。rGenPept:由GenBank翻譯得到的蛋白質(zhì)序列,與TrEMBL類似,這兩個數(shù)據(jù)庫中的序列錯誤率較大,均有較大的冗余度。 r1984年,美國國家醫(yī)學(xué)研究基金會(NREF)正式啟動蛋白質(zhì)信息資源(Protein Information Resource, PIR)計劃;r美國最主要的蛋白序列數(shù)據(jù)庫;r非冗余、高質(zhì)量注釋、全面分類;rPIR數(shù)據(jù)庫按照數(shù)據(jù)的性質(zhì)和注釋層次分為PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經(jīng)驗證,注釋最為詳盡。rhttp:/pir.georgetown.edu/ rUniversal Protein Resource: Sw
8、iss-prot(TrEMBL), PIR兩大蛋白數(shù)據(jù)庫的整合體;r收錄蛋白質(zhì)序列目錄最廣泛、功能注釋最全面的數(shù)據(jù)庫;r包含三個子庫:UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive)rhttp:/www.uniprot.org rUniProt Knowledgebase: Release 15.4 , 16-Jun-2009 ,包括:Swiss-Prot Release 57.4 : 497293 entries TrEMBL Release 40.4 : 91
9、45906 entries r包含蛋白質(zhì)序列全面的信息,提供準(zhǔn)確、豐富的序列與功能注釋。r記錄以6位字母和數(shù)字組成,例:Q5K8D3 r為人類基因組計劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。rGDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對功能和表型的描述。 r收集某些生物整個基因組序列的數(shù)據(jù)庫;r基因組計劃Human Genome Projecthttp:/www.sanger.ac.uk/HGP/Sequencing Genomics Projectshttp:/www.sanger.ac.uk/Projects
10、/ r從GenBank中選擇同一物種的核酸信息組成的二級庫; The Ensembl project produces genome databases for vertebrates and other eukaryotic species, and makes this information freely available online.EMBL-EBI和Sanger研究所共同開發(fā)。http:/www.ensembl.org/ rDNA/RNA/氨基酸代碼的標(biāo)識rGenBank數(shù)據(jù)格式rEMBL & UniProt數(shù)據(jù)格式rFASTA 數(shù)據(jù)格式 子庫Locus名字定義 (標(biāo)題)修改日期
11、序列類型mRNA (= cDNA)rRNAsnRNADNA序列長度檢索號Genbank號序列形狀 1I60:A|PDBID|CHAIN|SEQUENCEMKLCFNEATTLENSNLKLDLELCEKHGYDYIEIRTMDKLPEYLKDHSLDDLAEYFQTHHIKPLALNALVFFNNRDEKGHNEIITEFKGMMETCKTLGVKYVVAVPLVTEQKIVKEEIKKSSVDVLTELSDIAEPYGVKIALEFVGHPQCTVNTFEQAYEIVNTVNRDNVGLVLDSFHFHAMGSNIESLKQADGKKIFIYHIDDTEDFPIGFLTDEDRVWPGQGAIDLDAHLSALKEIGFSDVVSVELFRPEYYKLTAEEAIQTAKKTTVDVVSKYFSM