【基金標(biāo)書】2010CB912700-蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用
《【基金標(biāo)書】2010CB912700-蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用》由會員分享,可在線閱讀,更多相關(guān)《【基金標(biāo)書】2010CB912700-蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用(39頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
項(xiàng)目名稱: 蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用首席科學(xué)家: 劉斯奇 中國科學(xué)院北京基因組研究所起止年限: 2010 年 1 月-2014 年 8 月依托部門: 中國科學(xué)院一、研究內(nèi)容關(guān)鍵科學(xué)問題本項(xiàng)目將以我國蛋白質(zhì)組學(xué)界產(chǎn)生的海量 MS/MS 質(zhì)譜數(shù)據(jù)為基本分析材料,重點(diǎn)放在解析這些數(shù)據(jù)中的新的蛋白質(zhì)編碼基因和蛋白質(zhì)組定量信息。我們將運(yùn)用計(jì)算化學(xué)、工程方法學(xué)、生物信息學(xué)、質(zhì)譜學(xué)和生物分析化學(xué)等研究手段深入探討如何準(zhǔn)確地將 MS/MS 質(zhì)譜數(shù)據(jù)轉(zhuǎn)化為相對應(yīng)的肽段信息,如何利用這些肽段補(bǔ)充和修訂基因組的蛋白質(zhì)編碼基因,如何 發(fā)掘這些肽段所賦予的定量信息,并建立兼有定性和定量信息的新型蛋白質(zhì)表達(dá)譜。 簡言之,本 項(xiàng)目擬解決的關(guān)鍵科學(xué)問題是,如何發(fā)掘高精度 MS/MS 質(zhì)譜鑒 定的 肽段中所蘊(yùn)含的大量生物學(xué)信息。主要研究內(nèi)容1. 海量質(zhì)譜數(shù)據(jù)的深度解析技術(shù)研究從高精度 MS/MS 數(shù)據(jù)出發(fā),通 過新一代蛋白質(zhì)數(shù)據(jù)庫搜索引擎技術(shù)、 De Novo 技術(shù)、基因組數(shù)據(jù)庫 搜索技術(shù)三個(gè)途徑來實(shí)現(xiàn) 海量質(zhì)譜數(shù)據(jù)的深度解析,具體研究:? 通過嚴(yán)格的對照實(shí)驗(yàn)確定質(zhì)譜數(shù)據(jù)可解析率,優(yōu)化和規(guī)范實(shí)驗(yàn)操作流程;? 研究新一代蛋白質(zhì)鑒定搜索引擎,提高鑒定可信度、靈敏度和速度;? 綜合利用實(shí)驗(yàn)、儀器和計(jì)算手段發(fā)展肽序列 De Novo 分析技術(shù);? 利用基因組數(shù)據(jù)庫搜索進(jìn)一步提高質(zhì)譜數(shù)據(jù)解析率。2.高精度 MS/MS 數(shù)據(jù)對 基因組蛋白質(zhì)編碼基因的 補(bǔ)充和修訂采用 De Novo 方法獨(dú)立演 繹所測定肽段的氨基酸順 序, 進(jìn)一步反轉(zhuǎn)肽段信息至基因組,試圖補(bǔ)充和修 訂基因組的蛋白質(zhì)編碼基因,具體研究:? 構(gòu)建綜合性蛋白質(zhì)序列數(shù)據(jù)庫;? 建立基于肽段信息注釋基因組的方法流程;? 利用 MS/MS 所鑒定的肽段補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因。3一 基于高精度質(zhì)譜數(shù)據(jù)的蛋白質(zhì)表達(dá)譜定量計(jì)算方法的研究及應(yīng)用以鑒定的肽段頻率為基礎(chǔ),發(fā)展兼顧準(zhǔn)確度與規(guī)?;姆菢?biāo)記定量蛋白質(zhì)學(xué)方法,同時(shí)開發(fā)以多肽質(zhì)譜 數(shù)據(jù)為基礎(chǔ)的蛋白質(zhì)編碼基因的可視化標(biāo)識技術(shù),實(shí)現(xiàn)蛋白質(zhì)表達(dá)譜的定量化,具體研究:? 蛋白質(zhì)表達(dá)譜定量算法研究;? 蛋白質(zhì)組表達(dá)譜定量分析及可視化研究;? 建立以基因?yàn)橹行牡亩康鞍踪|(zhì)數(shù)據(jù)庫及分析平臺。4一 基于質(zhì)譜數(shù)據(jù)的預(yù)測結(jié)論的實(shí)驗(yàn)驗(yàn)證研究運(yùn)用質(zhì)譜學(xué)、生物化學(xué)、分子生物學(xué)和免疫學(xué)等手段系統(tǒng)驗(yàn)證基于 MS/MS數(shù)據(jù)所分析的生物信息學(xué)結(jié)論,同時(shí)為生物信息學(xué)的理論模型提供嚴(yán)格設(shè)計(jì)和控制的實(shí)驗(yàn)數(shù)據(jù),具體研究:? 建立先進(jìn)的MRM技術(shù)平臺實(shí)現(xiàn)對蛋白質(zhì)定性和定量的高通量驗(yàn)證,發(fā)現(xiàn)和驗(yàn)證新的蛋白編碼基因,并提供相應(yīng)的定量蛋白質(zhì)組信息;? 利用先進(jìn)的質(zhì)譜技術(shù)平臺獲取高精度MS/MS數(shù)據(jù)服務(wù)于質(zhì)譜譜圖的深度解析;? 建立通用技術(shù)平臺從核酸和蛋白質(zhì)水平上驗(yàn)證通過MS/MS所鑒定的新基因;? 建立通用技術(shù)平臺從不同技術(shù)角度上驗(yàn)證定量蛋白質(zhì)組。二、預(yù)期目標(biāo)1.總體目標(biāo)本項(xiàng)目研究的總體目標(biāo)是,發(fā)掘 MS/MS 數(shù)據(jù)中的肽段信息,開拓生物信息學(xué)在質(zhì)譜數(shù)據(jù)分析中的研究領(lǐng)域,促進(jìn)高精度質(zhì)譜數(shù)據(jù)在基因組學(xué)和蛋白質(zhì)組學(xué)的應(yīng)用。本項(xiàng)目將通過高精度 MS/MS 數(shù)據(jù)和 De Novo 方法獲取一系列與基因組注釋基因不相匹配的肽段,并利用這些信息補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因;將采用肽段頻率為定量蛋白質(zhì)組計(jì)算的基本數(shù)據(jù),通過蛋白質(zhì)定量參數(shù)、數(shù)學(xué)模型和可視化標(biāo)示等技術(shù)來建立定量蛋白質(zhì)表達(dá)譜,并闡明其生物學(xué)意義。通過本項(xiàng)目的執(zhí)行,我們將顯 著提高 MS/MS 數(shù)據(jù)的利用率,具體回答若干相關(guān)的生物學(xué)問題,拓展生物信息學(xué) 應(yīng)用于蛋白質(zhì)組學(xué)的思路和方法。因此,本 項(xiàng)目將促進(jìn)我國在蛋白質(zhì)組學(xué)、基因 組學(xué)和生物信息學(xué)交叉領(lǐng)域的研究。2.五年目標(biāo)1)發(fā)展一套針對高精度 MS/MS 數(shù)據(jù)的分析策略以及相應(yīng)的數(shù)據(jù)庫和計(jì)算方法;2)顯著提高海量 MS/MS 數(shù)據(jù)的利用率,深入揭示高精度質(zhì)譜數(shù)據(jù)所蘊(yùn)含的物理化學(xué)和生物學(xué)意義;3)提升我國在質(zhì)譜信號解析和蛋白質(zhì)組生物信息學(xué)研究方面的水平。4)在國際主流雜志發(fā)表論文 30 篇左右,并爭取 Nature 及其它國際知名科學(xué)期刊發(fā)表 10 篇論文。申請發(fā)明專利 5-10 項(xiàng)。5)造就一支生物信息學(xué)和蛋白質(zhì)組領(lǐng)域中的高水平的科研隊(duì)伍,培養(yǎng)一批博士研究生(10-15 人),碩士研究生(20-25 人),博士后研究人員(5-10 人)。三、研究方案1. 總體學(xué)術(shù)思路在蛋白質(zhì)組學(xué)誕生的短短幾年內(nèi),這個(gè)學(xué)科已經(jīng)取得了重大進(jìn)展:蛋白質(zhì)表達(dá)譜的建立,修飾蛋白質(zhì)的 測定,和蛋白 質(zhì)相互作用的分析等。但是,作為一門年輕的學(xué)科,蛋白質(zhì)組的分析技術(shù)還遠(yuǎn)未成熟。其中一個(gè)主要的原因是人們在蛋白質(zhì)鑒定和定量分析上仍遭遇較大的技術(shù)困難。近年來,高精度質(zhì)譜儀的出現(xiàn)給蛋白質(zhì)組學(xué)發(fā)展創(chuàng)造了一個(gè)新的發(fā)展契機(jī)。如何深入解析高精度 MS/MS 數(shù)據(jù)所蘊(yùn)含的豐富的生物學(xué)信息,是擺在蛋白質(zhì)組生物信息學(xué)面前的重要課題。本項(xiàng)目立足于我國蛋白質(zhì)組學(xué)界已產(chǎn)生的海量 MS/MS 數(shù)據(jù),運(yùn)用一系列的計(jì)算化學(xué)和生物信息學(xué)的方法,試圖發(fā) 展一套針對高精度 MS/MS 數(shù)據(jù)的分析策略以及相應(yīng)的數(shù)據(jù)庫和計(jì)算方法;并以此為基礎(chǔ)集中解決兩個(gè)在基因組學(xué)和蛋白質(zhì)組學(xué)亟需解決的問題,即利用肽段信息 補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因和以肽段頻率為基礎(chǔ)計(jì)算定量蛋白質(zhì)表達(dá)譜。本研究項(xiàng)目需要生物信息學(xué)、蛋白質(zhì)組學(xué)和基因組學(xué)各交叉學(xué)科團(tuán)隊(duì)的通力合作,而她產(chǎn)生的科研成果又將施惠于各個(gè)研究領(lǐng)域。2. 技術(shù)途徑本項(xiàng)目的技術(shù)途徑包括海量 MS/MS 數(shù)據(jù)的產(chǎn)生、生物信息軟件的設(shè)計(jì)和應(yīng)用、以及實(shí)驗(yàn)驗(yàn)證等 3 個(gè)層 面的多種途徑。1) 海量 MS/MS 數(shù)據(jù)的 產(chǎn)生技術(shù):LTQ、Orbitrap、 FTMS 質(zhì)譜在蛋白質(zhì)組測定中的應(yīng)用,多維高效液相 層析,高效蛋白 質(zhì)提取技 術(shù)平臺, SDS-PAGE/LC 串聯(lián)分析技術(shù),多重蛋白質(zhì)酶 消化技術(shù)等。2) 生物信息軟件的設(shè)計(jì)和應(yīng)用技術(shù):樣品處理和儀器操作流程控制,MS/MS 譜圖 的計(jì)算機(jī)識別,蛋白 質(zhì)搜索引擎, De Novo 分析軟件,各種數(shù)據(jù)庫的構(gòu)建技術(shù)等。3) 實(shí)驗(yàn)驗(yàn)證技術(shù):MRM 技術(shù), 穩(wěn)定同位素標(biāo)記定量技 術(shù),化學(xué)修 飾輔助蛋白質(zhì)末端序列測定技術(shù), ELISA,Western blot,基因克隆,重組蛋白質(zhì)制備技術(shù),單克隆抗體制備,Real-Time PCR,5’-RACE 等。本項(xiàng)目研究已具備了較好的技術(shù)平臺支撐,承擔(dān)單位擁有 2 個(gè)國家重點(diǎn)實(shí)驗(yàn)室,3 個(gè)部級重點(diǎn)實(shí)驗(yàn)室,項(xiàng)目所需的絕大部分實(shí)驗(yàn)儀器和實(shí)驗(yàn)手段均已具備,各承擔(dān)單位間有著長期的良好合作關(guān)系和基礎(chǔ)。本項(xiàng)目具有豐富的前期工作積累與相關(guān)研究成果及多學(xué)科背景的研究隊(duì)伍,已經(jīng)建立起成熟的研究手段和方法,有能力完成所計(jì)劃的研究任務(wù)。3. 創(chuàng)新性和特色本項(xiàng)目的創(chuàng)新之處集中表現(xiàn)在:一整套針對于高精度 MS/MS 數(shù)據(jù)的分析策略以及相應(yīng)的數(shù)據(jù)庫和計(jì)算方法;利用 MS/MS 和 De Novo 技術(shù)補(bǔ)充或修訂基因組蛋白質(zhì)編碼基因;建立兼有定性和定量數(shù)據(jù)的蛋白質(zhì)表達(dá)譜;和 Gene-centric方法標(biāo)示組織或細(xì)胞蛋白質(zhì)表達(dá)譜。本項(xiàng)目的特色在于:問題明確、方法新穎、 課題間環(huán)環(huán)相扣。我們立足于 建立高精度串連質(zhì)譜數(shù)據(jù)解析的分析策略、數(shù)據(jù)庫和算法,著眼于這些研究成果在具體生物學(xué) 問題上的應(yīng)用,結(jié)論于實(shí)驗(yàn)科學(xué)對理論分析結(jié)果的嚴(yán)格驗(yàn)證。同時(shí) ,我 們將最大程度地發(fā)揮 “集體效應(yīng)”優(yōu)勢,整合我國在生物信息學(xué)、蛋白質(zhì)學(xué)和基因 組學(xué)優(yōu)秀團(tuán)隊(duì),根據(jù)各團(tuán)隊(duì)的專長來展開相關(guān)研究。4. 取得重大突破的可行性分析本項(xiàng)目瞄準(zhǔn)了當(dāng)前蛋白質(zhì)組學(xué)研究的熱點(diǎn)和重點(diǎn),試圖揭示高精度 MS/MS數(shù)據(jù)所蘊(yùn)含的豐富的生物學(xué)信號。在項(xiàng)目執(zhí)行過程中,我們有信心在 MS/MS 數(shù)據(jù)的有效利用率、肽段信息 對基因組蛋白質(zhì)編碼基因的補(bǔ)充和修訂、質(zhì)譜譜圖在定量蛋白質(zhì)組中應(yīng)用、定量蛋白質(zhì)組的圖形標(biāo)示技術(shù)等方面取得突破。我們的信心植根于:1) 本項(xiàng)目計(jì)劃解決的幾個(gè)問題在國際間仍然懸而未決,我們和其他的競爭者正處在同一起跑線上;2)參與本項(xiàng)目的各個(gè)團(tuán)隊(duì)在相關(guān)的領(lǐng)域處在先進(jìn)水平,某些課題已取得了進(jìn)展; 3)在我國政府的支持下,在過去幾年中我國蛋白質(zhì)學(xué)界已積累了海量的 MS/MS 數(shù)據(jù),無 論在數(shù)據(jù)的質(zhì) 量還是數(shù)量上,我國的MS/MS 數(shù)據(jù) 庫領(lǐng)先于其他國家;4)參與的團(tuán)隊(duì)與國際優(yōu)秀的蛋白質(zhì)組學(xué)家形成了較好的合作關(guān)系,尤其在 MS/MS 數(shù)據(jù)的共同開發(fā) 上已取得重大進(jìn)展。同時(shí),項(xiàng)目首席科學(xué)家和課題組長在科研項(xiàng)目的組織和協(xié)調(diào)方面具有豐富的經(jīng)驗(yàn),均承擔(dān)完成多項(xiàng)國內(nèi)或國外的重要科研項(xiàng)目。本項(xiàng)目計(jì)劃是基于研究團(tuán)隊(duì)的研究基礎(chǔ)和前期工作而提出的,在本項(xiàng)目的申報(bào)過程中,項(xiàng)目專家組及研究骨干多次研討,圍繞本研究計(jì)劃擬解決的重大科技問題,制定了合理可行的研究方案和技術(shù)路線。相信通過學(xué)科交叉、集成多種研究方法,我 們研究團(tuán)隊(duì)完全有可能在本領(lǐng)域取得突破性進(jìn)展。5. 課題設(shè)置課題設(shè)置思路本項(xiàng)目擬在高精度 MS/MS 數(shù)據(jù)基礎(chǔ)上,采用各種數(shù)據(jù)分析手段,從基因 組蛋白質(zhì)編碼基因和蛋白質(zhì)組定量兩個(gè)生物學(xué)問題著手,深入地了解和認(rèn)識MS/MS 數(shù)據(jù)所 蘊(yùn)含的肽段信息的生物學(xué)意義, 為蛋白 質(zhì)組的功能性研究提供新的方法和思路。本項(xiàng)目將設(shè)置四個(gè)課題,分別為, 1)海量質(zhì)譜數(shù)據(jù)的深度解析技術(shù)研究;2)高精度 MS/MS 數(shù)據(jù)對基因 組蛋白質(zhì)編碼基因的補(bǔ)充和修訂;3)基于高精度 MS/MS質(zhì)譜數(shù)據(jù)的蛋白質(zhì)表達(dá)譜定量計(jì)算方法的研究及應(yīng)用;4)基于質(zhì)譜數(shù)據(jù)的預(yù)測結(jié)論的實(shí)驗(yàn)驗(yàn)證研究。建立質(zhì)譜數(shù)據(jù)的統(tǒng)計(jì)數(shù)學(xué)模型分析有賴于實(shí)驗(yàn)數(shù)據(jù)的精度和重現(xiàn)性。目前的質(zhì)譜數(shù)據(jù)廣泛存在兩個(gè)基本問題,一是缺乏不同的質(zhì)譜儀所產(chǎn)生的質(zhì)譜圖譜的共享標(biāo)準(zhǔn),二是譜圖解讀和肽段判斷的標(biāo)準(zhǔn)沒有達(dá)到共識。因此,我們把質(zhì)譜數(shù)據(jù)分析的標(biāo)準(zhǔn)化放在本項(xiàng)目頭等重要的位置。在深度解析 MS/MS數(shù)據(jù)的基礎(chǔ)上,我們設(shè)定兩個(gè)課題組具體研究如何發(fā)掘 MS/MS 信號所蘊(yùn)含的生物信息,即補(bǔ)充和修訂基因 組蛋白質(zhì)編碼基因及定量表達(dá)蛋白質(zhì)組。前者注重于剖析 MS/MS 數(shù)據(jù),通 過 De Novo 方法直接分析與數(shù)據(jù)庫搜索獲得 MS/MS 所含有的肽段序列信息,然后建立 MS/MS 對應(yīng)的肽段數(shù)據(jù)庫,并以此數(shù)據(jù) 庫為基點(diǎn)開展基因組的相關(guān)研究;后者則集中于研究 MS/MS 所產(chǎn)生的肽段頻率與蛋白質(zhì)豐度之間的相關(guān)性,試圖建立基于非標(biāo)記性肽段頻率的蛋白質(zhì)定量判據(jù),并應(yīng)用于估算蛋白質(zhì)定量表達(dá)譜,同時(shí)還要開發(fā)具備定性和定量信息的蛋白質(zhì)表達(dá)譜的可視化標(biāo)示方法。本項(xiàng)目聚焦于如何運(yùn)用生物信息學(xué)方法處理高精度 MS/MS數(shù)據(jù),抽象和演繹出蛋白質(zhì)組相關(guān)的生物學(xué)信息。與傳統(tǒng)的生物信息學(xué)研究項(xiàng)目不同的是,我們還充分意識 到,生物信息學(xué)的理 論分析離不開對蛋白質(zhì)或肽段化學(xué)性質(zhì)的知識水平和實(shí)驗(yàn)數(shù)據(jù)的支持,為此設(shè)定了第四課題組,專職與生物信息課題相配合,對理論預(yù)測的結(jié)果進(jìn)行實(shí)驗(yàn)驗(yàn)證,同 時(shí)也通過方法學(xué)的探索為生物信息理論分析提供具有針對性的實(shí)驗(yàn)數(shù)據(jù),特別是高精度的 MS/MS 數(shù)據(jù)。課題的關(guān)聯(lián)本項(xiàng)目的四個(gè)課題中,一個(gè)課題注重 MS/MS 數(shù)據(jù)的標(biāo)準(zhǔn)化分析, 為蛋白質(zhì)生物信息學(xué)研究提供可靠的肽段信息和計(jì)算工具;兩個(gè)課題集中于肽段信息在具體生物學(xué)問題中應(yīng)用研究;另一個(gè)課題則從實(shí)驗(yàn)技術(shù)層面上對生物信息學(xué)的預(yù)測結(jié)果進(jìn)行系統(tǒng)的驗(yàn)證,并為 理論分析提供和補(bǔ)充相應(yīng)的實(shí)驗(yàn)數(shù)據(jù)。本項(xiàng)目的各個(gè)課題之間既存在學(xué)術(shù)邏輯上必然聯(lián)系,又有研究內(nèi)容上的互為補(bǔ)充,還有研究成果的相互驗(yàn)證。這樣如圖一所示,四個(gè)課題之間形成了 較為完整的研究關(guān)聯(lián)網(wǎng)絡(luò),在不同的層次和角度上共同發(fā)掘高精度 MS/MS 數(shù)據(jù)在蛋白質(zhì)組學(xué)中的應(yīng)用以及它們的生物學(xué)意義。圖一:課題設(shè)置及各子課題之間的相關(guān)性課題 1. 海量質(zhì)譜數(shù)據(jù)的深度解析技術(shù)研究課題背景海量質(zhì)譜數(shù)據(jù)的解析是蛋白質(zhì)組研究的基礎(chǔ),而自動(dòng)化的數(shù)據(jù)分析軟件是海量質(zhì)譜數(shù)據(jù)解析的基本工具。蛋白質(zhì)組過去十年的研究歷程,主要依靠蛋白質(zhì)鑒定兩大商業(yè)軟件 Mascot 和 SEQUEST 來實(shí)現(xiàn)海量質(zhì)譜數(shù)據(jù)的基本解析,其最大的問題在于:僅僅有 10%左右的質(zhì)譜數(shù)據(jù)可以得到肽鑒定結(jié)果,其余數(shù)據(jù)無法解析,因而其中所蘊(yùn)涵的信息無法利用。造成這種局面的原因是多方面的。首先,對于分子生物學(xué)的規(guī)律,比如基因水平上的基因預(yù)測、基因突 變、可 變剪接及蛋白質(zhì)水平上的氨基酸突變、翻 譯后修飾等,目前還沒有完整、準(zhǔn)確的認(rèn)識。其次,對于包括樣品制備和質(zhì)譜儀操作在內(nèi)的質(zhì)譜數(shù)據(jù)生成過程的設(shè)計(jì)和規(guī)范化控制缺乏系統(tǒng)的研究,加上質(zhì)譜儀的分辨率和準(zhǔn)確度不足,造成原始數(shù)據(jù)質(zhì)量不高。再次,數(shù)據(jù)分析方法和 軟件發(fā)展滯后,表現(xiàn)在兩大商業(yè)軟件核心鑒定算法多年來沒有大的改進(jìn),鑒定可信度評價(jià)方法沒有達(dá)到共識和規(guī)范化, 鑒定靈敏度研究長期缺乏關(guān)注,而鑒定速度不夠高則直接限制了對于海量質(zhì)譜數(shù)據(jù)的全面探索性分析,比如非特異酶切、可變翻譯后修飾的鑒定。近年來,質(zhì)譜技術(shù)發(fā)展迅速,高精度質(zhì)譜儀(如 FTMS、Orbitrap),配以基于 電子的離子裂解新方式(如電子捕獲裂解 ECD、電子轉(zhuǎn)運(yùn)裂解 ETD),已 經(jīng)開始在國內(nèi)外和本項(xiàng)目申請單位安裝和應(yīng)用,因此質(zhì)譜數(shù)據(jù)質(zhì)量近期將會大大提高。同時(shí),由于認(rèn)識到基于數(shù)據(jù)庫搜索的質(zhì)譜數(shù)據(jù)解析與蛋白質(zhì)鑒定本質(zhì)上是一種特殊的信息檢索,而信息檢索領(lǐng)域的搜索引擎技術(shù)經(jīng)過了十多年的成功發(fā)展,因此,海量質(zhì)譜數(shù)據(jù)的專用搜索引擎設(shè)計(jì)可以從中獲得充分的借鑒,數(shù)據(jù)分析的速度和質(zhì)量有望大大提高。本項(xiàng)目申 請單位在過去幾年中參加過人類肝臟蛋白質(zhì)組表達(dá)譜的完整實(shí)驗(yàn)和數(shù)據(jù)分析, 對于海量質(zhì)譜數(shù)據(jù)的解析積累了比較豐富的一手經(jīng)驗(yàn),而獨(dú)立自主開發(fā)蛋白 質(zhì)鑒定軟件系統(tǒng) pFind 則為進(jìn)一步設(shè)計(jì)新的搜索引擎奠定了基礎(chǔ)。這都為深度解析海量質(zhì)譜數(shù)據(jù)提供了希望。深度解析海量質(zhì)譜數(shù)據(jù),首先要在嚴(yán)格對照實(shí)驗(yàn)的條件下認(rèn)識質(zhì)譜數(shù)據(jù)的規(guī)律,特 別是質(zhì)譜數(shù)據(jù)有多大比例可以解析,有多大比例可以得到可信的肽鑒定結(jié)果,在這個(gè)基礎(chǔ)上設(shè)計(jì)新一代搜索引擎并確立合理的解析率指標(biāo)。新一代搜索引擎的設(shè)計(jì),立足于在現(xiàn)有蛋白質(zhì)數(shù)據(jù)庫的基礎(chǔ)上充分解析質(zhì)譜數(shù)據(jù),從而把現(xiàn)有蛋白質(zhì)數(shù)據(jù)庫中沒有包含的新肽段的鑒定限定在未鑒定的質(zhì)譜數(shù)據(jù)上,這是對基因組注釋最可能有意義的地方。新肽段的鑒定分為兩種途徑,一是不依賴蛋白質(zhì)數(shù)據(jù)庫,直接從串聯(lián)質(zhì)譜圖中提取肽段完整序列或者序列片段,即所謂的De Novo 技術(shù);二是將搜索數(shù)據(jù)庫的范圍從蛋白質(zhì)組擴(kuò)展到基因組,獲得更多的肽段序列來達(dá)到鑒定更多質(zhì)譜數(shù)據(jù)的目的。通過新一代蛋白質(zhì)數(shù)據(jù)庫搜索引擎技術(shù)、De Novo 技術(shù)、基因組數(shù)據(jù)庫搜索技術(shù)三個(gè)途徑來實(shí)現(xiàn)海量質(zhì)譜數(shù)據(jù)的深度解析,提高解析率,并進(jìn)一步利用控制實(shí)驗(yàn)來驗(yàn)證。研究目標(biāo)本課題的研究目標(biāo)是發(fā)展海量 MS/MS 數(shù)據(jù)的深度解析技術(shù),顯著提高數(shù)據(jù)解析率。具體分為四點(diǎn):一一通過嚴(yán)格的對照實(shí)驗(yàn)確定質(zhì)譜數(shù)據(jù)可解析率,優(yōu)化和規(guī)范實(shí)驗(yàn)操作流程;二)研究新一代蛋白質(zhì)鑒定搜索引擎,提高鑒定可信度、靈敏度和速度;三)綜合利用實(shí)驗(yàn)、儀器和計(jì)算手段發(fā)展肽序列 De Novo 分析技術(shù);四)利用基因組數(shù)據(jù)庫搜索進(jìn)一步提高質(zhì)譜數(shù)據(jù)解析率。研究內(nèi)容一)通過嚴(yán)格的對照實(shí)驗(yàn)確定質(zhì)譜數(shù)據(jù)可解析率,優(yōu)化和規(guī)范實(shí)驗(yàn)操作流程MS/MS 質(zhì)譜 數(shù)據(jù)的鑒定成功率約為 5%-15%,無鑒定結(jié)果的 MS/MS 質(zhì)譜數(shù)據(jù)中可能蘊(yùn)含著許多蛋白質(zhì)或肽段信息,如基因組數(shù)據(jù)庫中不存在的新蛋白質(zhì)或蛋白質(zhì)剪切體,或可能存在的錯(cuò)誤的注釋信息等。所以,確定無 鑒定結(jié)果的MS/MS 質(zhì)譜 數(shù)據(jù)的產(chǎn)生原因并發(fā)掘其隱含信息極其必要和迫切。此外,在蛋白質(zhì)表達(dá)譜中所普遍采用的 Shotgun 路線中,蛋白 質(zhì)鑒 定覆蓋率往往很低,其原因也需要探索。計(jì)劃以高純度標(biāo)準(zhǔn)蛋白質(zhì)為樣本,在優(yōu)化和規(guī)范化實(shí)驗(yàn)操作流程的基礎(chǔ)上,獲取蛋白酶切肽段 MS/MS 數(shù)據(jù),明確每一 張串聯(lián)質(zhì)譜圖歸屬,分析 圖譜鑒定或未鑒定原因。合成若干類,每類若干條具有代表性理化性質(zhì)肽段,分析其 單獨(dú)質(zhì)譜行為和在復(fù)雜體系中的質(zhì)譜行為和鑒定成功率,找出未鑒定原因,為發(fā)展新的數(shù)據(jù)分析算法/軟件和檢索工具提供依據(jù)。同 時(shí)研究 實(shí)驗(yàn)設(shè)計(jì)、樣品處理和儀器操作流程對于質(zhì)譜數(shù)據(jù)質(zhì)量及其解析的影響,在此基礎(chǔ)上優(yōu)化和規(guī)范實(shí)驗(yàn)操作流程。更具體地,計(jì)劃選取高純度標(biāo)注蛋白質(zhì)若干種作為初步研究分析對象。其中蛋白選取將主要考慮蛋白分子量、酶切肽段理化性質(zhì)等因素。采用 Shotgun 策略,首先分別對單個(gè)蛋白進(jìn)行質(zhì)譜數(shù)據(jù)采集,并將全部串聯(lián)圖譜進(jìn)行多搜索引擎檢索和手工平行分析,以確定全部圖譜的身份和發(fā)現(xiàn)方法及其比例。目前考慮到可能的原因包括:非肽段信號、未知修飾、碎片信息 過 差、非 規(guī)則酶切肽段、混合碎片、非數(shù)據(jù)庫包含序列、檢索算法問題、未知因素等。在整合產(chǎn)生這些結(jié)果原因的基礎(chǔ)上初步設(shè)計(jì)相應(yīng)檢索分析軟件。之后將標(biāo)準(zhǔn)蛋白混合,用于檢驗(yàn)分析效果,并進(jìn)行調(diào)整。進(jìn)一步選取簡單 模式生物標(biāo)本,如 E.Coli、Yeast 等,采用 軟件自動(dòng)分析結(jié)合手工分析,完成全部串聯(lián)圖譜身份分析,并再次調(diào)整分析策略和軟件。二)研究新一代蛋白質(zhì)鑒定搜索引擎, 提高鑒定可信度、靈敏度和速度基于蛋白質(zhì)序列庫搜索的蛋白質(zhì)鑒定軟件,本質(zhì)上是一個(gè)信息檢索系統(tǒng),其核心是搜索引擎?,F(xiàn)有的蛋白 質(zhì)鑒定搜索引擎,在 質(zhì)譜 數(shù)據(jù)分析上面臨著很多挑戰(zhàn)和困難,比如質(zhì)譜圖解析率低、鑒定結(jié)果可信度低、數(shù)據(jù)庫搜索速度慢,等。除了由于我們對肽段離子碎裂和串聯(lián)質(zhì)譜圖生成機(jī)制的認(rèn)識有限之外,很重要的原因在于,目前廣泛應(yīng)用的蛋白質(zhì)鑒定搜索引擎沒有及時(shí)集成新方法和新技術(shù),從預(yù)處理到打分排序和可信度評價(jià)都普遍存在缺陷,比如沒有深入挖掘肽-譜匹配的特征,沒有利用機(jī)器學(xué)習(xí)和搜索引擎的新技術(shù)。為此,我 們將開展如下方面的研究。1) 提高蛋白質(zhì)鑒 定搜索引擎的可信度通過對數(shù)據(jù)進(jìn)行深入的分析,考察隨機(jī)匹配產(chǎn)生的原因,在此基礎(chǔ)上提取特征,對隨機(jī)匹配的搜庫結(jié)果 進(jìn)行分類處理,建立理 論 性比較強(qiáng)的模型;整合搜索引擎提供的多個(gè)匹配打分參數(shù),建立適當(dāng)?shù)臄?shù)學(xué)模型,為每個(gè)非冗余鑒定肽段賦予一個(gè)適當(dāng)?shù)呐袆e分值,實(shí)現(xiàn)肽段水平的可信度控制;利用隨機(jī)數(shù)據(jù)庫搜索等對單個(gè)搜索引擎和數(shù)據(jù)集肽段可信度控制結(jié)果,構(gòu)建合適的算法模型,實(shí)現(xiàn)對不同搜索引擎、不同數(shù)據(jù)集數(shù)據(jù)的整合;考慮基于圖譜計(jì)數(shù)的半定量、蛋白質(zhì)序列長度、數(shù)據(jù)庫大小、蛋白質(zhì)的酶切肽段和鑒定肽段等信息構(gòu)建基于超幾何分布的蛋白質(zhì)鑒定可信度評估概率模型。2) 提高蛋白質(zhì)鑒 定搜索引擎的靈敏度融合多種信息源,提取和篩選有效的肽譜匹配特征,基于機(jī)器學(xué)習(xí)技術(shù),將肽打分函數(shù)構(gòu)造問題,轉(zhuǎn)化 為排序?qū)W習(xí)或者分類問題,通過迭代搜索或者迭代打分,動(dòng)態(tài) 地、自適應(yīng)地更新肽打分函數(shù),從而使之能夠更好地適應(yīng)不同特點(diǎn)的質(zhì)譜數(shù)據(jù),在保證足夠可信度的條件下,顯著提高肽鑒 定的靈敏度和譜圖的解析率。對串聯(lián)質(zhì)譜數(shù)據(jù)進(jìn)行聚類研究,揭示譜圖間的相互關(guān)系,建立譜圖數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。通過 限制性譜圖聚類識別 冗余譜圖,生成代表 譜 ,改善 譜圖的質(zhì)量,提高譜圖解析的精度。通過非限制性聚類識別相關(guān)譜圖, 發(fā)現(xiàn) 含有修飾、氨基酸突 變的譜圖、以及由非特異酶切肽 段產(chǎn)生的譜圖,以 進(jìn)一步提高譜圖解析率。3) 提高蛋白質(zhì)鑒定搜索引擎的速度采用高效的數(shù)據(jù)索引技術(shù)及與之相配合的高效搜索流程設(shè)計(jì),以加速候選肽查詢的過程。優(yōu)化肽譜匹配打分算法的實(shí)現(xiàn),使之適應(yīng)多種翻譯后修飾以及非限定修飾、非特異性酶切等 帶來的候選肽規(guī)模膨脹問題。采用以序列標(biāo)簽手段為主,對數(shù)據(jù) 庫候選肽進(jìn)行過濾 的方式,突破 傳統(tǒng)的搜索引擎框架。通過實(shí)際典型數(shù)據(jù)的運(yùn)行時(shí)間測量,確定搜索引擎流程模塊的運(yùn)行熱點(diǎn),研究任務(wù)級并行的靜態(tài)和動(dòng)態(tài)負(fù)載均衡算法,在此基礎(chǔ)上進(jìn)一步研究算法級負(fù)載均衡算法,將鑒定流程中的熱點(diǎn)模塊分配到多個(gè)節(jié)點(diǎn)進(jìn)行運(yùn)算,以進(jìn)一步提高蛋白質(zhì)搜索引擎的速度,實(shí)現(xiàn) 1~2 個(gè)量級的加速。三)綜合利用實(shí)驗(yàn)、儀器和計(jì)算手段發(fā)展肽序列 De Novo 測序技術(shù)蛋白質(zhì)鑒定從頭測序算法的主要思想是只利用串聯(lián)質(zhì)譜中的譜峰信息推斷肽段序列。De Novo 方法不依賴于蛋白質(zhì)數(shù)據(jù)庫,在數(shù)據(jù)庫信息不完整的情況下De Novo 比數(shù)據(jù)庫搜索具有一定的優(yōu)勢。然而,De Novo 算法的應(yīng)用范圍有比較大的局限性,它可以處理的數(shù)據(jù)通常為 CID 碎裂方式下的高質(zhì)量譜圖,而且,De Novo 方法的譜圖鑒定率相對比較低,通常情況下,對于質(zhì)量比較好的 MS/MS 譜圖,利用從頭測序算法僅可以得到約 30%的正確鑒定結(jié)果。隨著質(zhì)譜儀精度的逐漸提高,利用高精度譜圖的一系列優(yōu)勢,提高鑒定序列的準(zhǔn)確性,越來越受到人們 的關(guān)注。另外,利用同一 肽段不同碎裂方式等方法產(chǎn)生的多張譜圖的內(nèi)在聯(lián)系進(jìn)行從頭測序的方法也逐漸成為蛋白質(zhì)鑒定問題中的研究熱點(diǎn)。利用特殊化學(xué)修 飾,如磺酸化修 飾等,可以為 De Novo 提供更豐富的技術(shù)路線。 為此,本課題將與課題 4 密切合作開展如下方面的研究。1) 利用高精度 MS/MS 數(shù)據(jù)進(jìn)行 De Novo 測序利用課題 4 提供的 LTQ-Orbitrap 高精度質(zhì)譜數(shù)據(jù),可以更有效地進(jìn)行從頭測序。首先,高度精確的母離子及碎片離子質(zhì)量使得不同氨基酸殘基的區(qū)分度更好,提高了氨基酸殘基識別 的可靠性;利用離子峰同位素模式的差異,可以進(jìn)一步區(qū)分質(zhì)量相似的氨基酸,如谷氨酸與賴氨酸等。其次,低精度 質(zhì)譜儀下不同離子類型的碎片質(zhì)量可能重疊的現(xiàn)象,在高精度情況下可能性大大降低,從而可以進(jìn)一步提高從頭測序算法的精度。此外,利用高精度的有效離子峰,可以計(jì)算出離子的理論氨基酸組成,從而更有效地過濾候選肽序列。2) 利用譜圖相關(guān)性信息進(jìn)行 De Novo 測序CID 與 EXD(如電子捕獲裂解 ECD、電子轉(zhuǎn)運(yùn)裂解 ETD 等)是蛋白質(zhì)或多肽在質(zhì)譜儀中的不同碎裂方式,通常 EXD 碎裂方式可以更好地保存完整的修 飾信息,而且碎裂譜峰有較好的 連續(xù)性,與 CID 的特性形成很好的互補(bǔ)。利用課題 4提供的同一肽段的 CID/ETD 碎裂形成的譜圖,我們 可以利用不同譜圖間的譜峰信息相互驗(yàn)證,區(qū)分有效峰與噪音峰,進(jìn)而將不同碎裂方式下的譜峰進(jìn)行聚合,可以提高譜圖的信噪比;通過不同碎裂方式下相關(guān)離子的質(zhì)量差值,可以識別譜峰所屬的離子類型;結(jié)合基于譜峰圖的從頭測序方法,不僅可以提高鑒定肽段的置信度,而且可以鑒定到單 一碎裂方式下難以鑒定到的肽段。 3) 利用化學(xué)修飾方法輔助 De Novo 測序近年來很多研究都通過各種化學(xué)小分子修飾策略來輔助肽段的裂解與質(zhì)譜測序。例如,通 過磺酸化修飾在肽段上引入磺酸基,不僅可以提高肽段的碎裂效率,還可以抑制其它離子的 產(chǎn)生,得到以 y 系列離子 為主的 MS/MS 數(shù)據(jù);利用嘧啶化合物修飾多肽羧基可以有效增強(qiáng)修飾譜譜峰的信號強(qiáng)度。因此,利用課題 4提供的高清晰串聯(lián)質(zhì)譜數(shù)據(jù),基于譜峰圖的方法進(jìn)行從頭測序,不僅可以更準(zhǔn)確地挑選有效峰,而且減少了單個(gè)譜峰匹配多種可能離子類型的風(fēng)險(xiǎn),從而提高從頭測序算法的精度。四)利用基因組數(shù)據(jù)庫搜索進(jìn)一步提高質(zhì)譜數(shù)據(jù)解析率基于蛋白質(zhì)數(shù)據(jù)庫搜索的質(zhì)譜數(shù)據(jù)解析與蛋白質(zhì)鑒定方法的成敗,強(qiáng)烈依賴蛋白質(zhì)數(shù)據(jù)庫是否完整,如果不存在相應(yīng)的條目,即使是質(zhì)量很好的譜圖,也無法得到鑒定。因此,在常規(guī)鑒定方法的基礎(chǔ)上擴(kuò)大搜索范圍, 對更全面的 EST或基因組數(shù)據(jù)庫進(jìn)行搜索,就成為提高質(zhì)譜鑒定率的另一種有效方法。目前存在各種不同的基因組學(xué)相關(guān)的數(shù)據(jù)庫:原始基因組數(shù)據(jù),信息最全面,但數(shù)據(jù)量巨大,沒有可變剪接信息,所以目前一般只進(jìn)行原核生物的直接搜索;表達(dá)序列標(biāo)簽 EST(Expressed Sequence Tag)庫,是指從不同組織來源的 cDNA片段序列積累得到的數(shù)據(jù)庫,可確定是轉(zhuǎn)錄水平的數(shù)據(jù),且基本覆蓋整個(gè)基因組;可變剪接數(shù)據(jù)庫,通過選取有可變剪接注釋的肽序列,進(jìn)行搜索、序列比 對、篩選和分類構(gòu)建而成,可以看作基因組數(shù)據(jù)庫和蛋白質(zhì)數(shù)據(jù)庫的橋梁。針對不同層次的數(shù)據(jù)庫,可以對質(zhì)譜數(shù)據(jù)進(jìn)行多步驟、多策略的迭代搜索:先對常規(guī)蛋白質(zhì)數(shù)據(jù)庫進(jìn)行搜索鑒定;沒有得到解釋的質(zhì)譜數(shù)據(jù)再利用 EST 庫和可變剪接數(shù)據(jù)庫進(jìn)行搜索;對于仍然無法解釋的質(zhì)譜,采用直接搜索六個(gè)開放閱讀框翻譯的氨基酸序列的方法進(jìn)行鑒定;或通過譜圖解析得到肽片段信息,再對基因進(jìn)行序列比對。最終鑒 定出常規(guī)方法無法解釋的譜圖數(shù)據(jù)?;驇焖阉髅媾R的主要挑戰(zhàn)包括:如何構(gòu)建面向多層次海量基因數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)?如何加快鑒定速度, 應(yīng)對劇烈膨脹的數(shù)據(jù)庫搜索量?如何有效估計(jì)和控制譜圖解析的錯(cuò)誤率?為此本課題將與課題 2 密切合作開展如下方面的研究。1)構(gòu)建多層次的、相互關(guān)聯(lián)的、海量的基因 組-蛋白 質(zhì)組數(shù)據(jù)庫基因組數(shù)據(jù)非常龐大復(fù)雜,如何有效設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu)予以存儲和表達(dá),是非常關(guān)鍵的問題。本項(xiàng)目的課題 2 將構(gòu)建一個(gè)基于基因組序列的,比當(dāng)前公共蛋白質(zhì)數(shù)據(jù)庫包含序列種類更多、數(shù)量更大的蛋白質(zhì)數(shù)據(jù)庫;而我們將通過設(shè)計(jì)索引數(shù)據(jù)格式和讀取接口,解決海量 規(guī)模數(shù)據(jù)庫的存儲和快速檢索問題。借鑒現(xiàn)有成熟的蛋白質(zhì)和肽數(shù)據(jù)索引技術(shù)方案,設(shè)計(jì)合理的數(shù)據(jù)結(jié)構(gòu),便于系統(tǒng)內(nèi)數(shù)據(jù)的讀取、存儲、壓縮、表達(dá),查詢和關(guān)聯(lián)。2)提高蛋白質(zhì)鑒定引擎的搜索速度基因組或 EST 數(shù)據(jù)庫相對于傳統(tǒng)的蛋白質(zhì)數(shù)據(jù)庫,規(guī)模擴(kuò)大了不止一個(gè)數(shù)量級,面 臨著搜索速度上的挑 戰(zhàn)。除了利用各種常 規(guī) 思路對搜素引擎進(jìn)行加速外,重點(diǎn)利用基因和蛋白質(zhì)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,將常規(guī)蛋白數(shù)據(jù)庫搜索或者DeNovo 測序 鑒定出的肽段 /蛋白質(zhì)映射到對應(yīng)的核酸序列上,然后枚舉出該基因區(qū)域經(jīng)過突變、可變剪接、翻譯等種種變化得到的所有可能的氨基酸序列, 對沒有得到鑒定結(jié)果的譜圖進(jìn)行二次搜索,既可能提高譜圖解析率,同時(shí)又可以大大減小基因組數(shù)據(jù)庫產(chǎn)生的候選肽規(guī)模,從而加速鑒定。3)研究搜索結(jié)果可靠性問題,有效估計(jì)和控制譜圖解析的錯(cuò)誤率。數(shù)據(jù)庫規(guī)模的擴(kuò)大,不僅僅帶來速度問題:基因組數(shù)據(jù)或 EST 數(shù)據(jù)庫遠(yuǎn)大于蛋白質(zhì)數(shù)據(jù)庫,同時(shí)含有一定的測序誤差, 發(fā)生隨機(jī)匹配的概率更大;并且因?yàn)轭A(yù)測錯(cuò)誤的開放閱讀框和低質(zhì)量的 EST 序列,以及串聯(lián)質(zhì)譜數(shù)據(jù)本身帶有的噪音和復(fù)雜性,將導(dǎo)致更多錯(cuò)誤 的隨機(jī)匹配。 因此需要深入分析傳統(tǒng)方式下隨機(jī)誤匹配產(chǎn)生的原因,構(gòu)建模型提取特征,進(jìn)一步建立完善的估計(jì)檢驗(yàn)算法。課題承擔(dān)單位:中國科學(xué)院計(jì)算技術(shù)研究所課題參加單位:復(fù)旦大學(xué)課題負(fù)責(zé)人: 賀思敏科研骨干:孫瑞祥、趙屹、張揚(yáng)經(jīng)費(fèi)比例:23%課題 2. 高精度 MS/MS 數(shù)據(jù)對基因組蛋白質(zhì)編碼基因的補(bǔ)充和修訂課題背景:基因組 DNA 序列的測定標(biāo)志著人類在探索生命之謎的征程中邁出了關(guān)鍵一步。 但是,解讀基因組中所富含的遺傳秘密和生物功能信息的研究工作還剛剛開始。根據(jù) 2007 年在 PNAS 上發(fā)表的研究表明,人類基因組中的蛋白質(zhì)編碼基因數(shù)量可能會少于 24,500;而 Broad 研究所的研究指出,人類基因數(shù)據(jù)庫如Ensembl、RefSeq 和 Vega 包括了許多任意出現(xiàn)的而非蛋白質(zhì)編碼區(qū)域的開放閱讀框,實(shí)際 上人類基因組中的蛋白質(zhì)編碼基因數(shù)目可能只有 20,500 左右。2007年康奈爾大學(xué)的研究人員發(fā)表在 Genome Research 的研究工作,通過利用超級計(jì)算機(jī)比較人類、小鼠、大鼠和雞的基因組部分,發(fā)現(xiàn) 了 300 個(gè)之前沒有確定的人類基因, 還確定了幾百個(gè)已知基因的范圍。 這意味著,有許多基因會在目前的生物分析方法下被漏掉。傳統(tǒng) 的基因注釋方法對廣泛表達(dá)基因的發(fā)現(xiàn)非常有效,卻會遺漏只在特定器官表達(dá)或在胚胎發(fā)育早期表達(dá)的基因。傳統(tǒng)上,開放閱讀框(open reading frame,ORF)的一些原則正在受到大量 實(shí)驗(yàn)數(shù)據(jù)的挑戰(zhàn),尤其是 對于內(nèi)含子的可變剪切豐富的真核生物基因組而言,基因組的注釋的缺陷尤其明顯。例如,即使是研究較透徹的模式生物果蠅,大概 30%的轉(zhuǎn)錄本都沒有被注釋。通過比對人的 EST 和基因組,產(chǎn)生了約 62000 個(gè)不相重疊的聚 類,但大多數(shù)都不包含 ORF 的 5’端區(qū)域,提示了 僅依靠測序 cDNA 來完整注釋動(dòng)物基因組是不切實(shí)際的。普遍使用的基因預(yù)測軟件 GENSCAN 在對小鼠和人的 ORF 預(yù)測上正確率僅為 15%和 10%;在哺乳 動(dòng)物基因預(yù)測方面表現(xiàn)最好的 CONTRAST 算法,對人的 ORF 預(yù)測也只有 58%的正確率。近年來,高精度質(zhì)譜儀(FT、Orbit-Trap)的發(fā)展以及 肽段解析技術(shù)的進(jìn)步為基因組的蛋白質(zhì)編碼注釋開辟了新的研究方向。采用 MS/MS 數(shù)據(jù)注釋基因組有其獨(dú)到的技術(shù)優(yōu)勢。首先,肽段反映的是基因最終表達(dá)的產(chǎn)物,它比 RNA 分子更為直接地傳遞了基因的編碼信息。其次,大規(guī)模 MS/MS 數(shù)據(jù)庫的建立,使得傳統(tǒng)的一個(gè)基因一個(gè) cDNA 一次測序的觀念受到?jīng)_擊,利用 De Novo 技術(shù)分析MS/MS 數(shù)據(jù) 庫,可能極大地豐富肽段信息。蛋白質(zhì)組基因組學(xué)是近幾年誕生的一門用蛋白質(zhì)組信息解構(gòu)基因組的新興學(xué)科。MS/MS 質(zhì)譜實(shí)驗(yàn)輔 助基因組注釋已經(jīng)在多種物種中(原核生物,酵母,植物和人等)使用,涉及到基因組注釋的多個(gè)研究內(nèi)容,如:確認(rèn)預(yù)測基因、 發(fā)現(xiàn)新基因、判斷假基因、證實(shí)可變剪切等。此外,串聯(lián)質(zhì)譜數(shù)據(jù)還和基因預(yù)測算法整合,提高了基因預(yù)測準(zhǔn)確率。然而必須認(rèn)識到,蛋白質(zhì)組基因組學(xué)領(lǐng)域還存在很多技術(shù)上的挑戰(zhàn),目前研究 還大多局限于低等生物,結(jié)果局限在對基因組注釋的補(bǔ)充與修訂,離全基因組水平基因注釋還相距很遠(yuǎn)。據(jù)估計(jì)約 40-60%的人類基因存在可變剪切,但 Tanner 等從一千八百萬張 MS/MS 質(zhì)譜里只找到了 40 多個(gè)可變剪切。造成這樣結(jié)果的原因主要有:1)質(zhì)譜鑒定肽段的過程一般利用數(shù)據(jù)庫搜索法,只有數(shù)據(jù)庫中存在的蛋白質(zhì)才可能被預(yù)測到;2)肽段和蛋白質(zhì)的鑒定有一定的假陽性,錯(cuò)誤率隨著數(shù)據(jù)庫的增大而增大;3)只有 10%~20%的質(zhì)譜能匹配到肽段,絕大多數(shù)的質(zhì)譜 都沒有被解讀。 課題 1 已就這些問題提出了一系列解決方案,著重解決公共蛋白 質(zhì)數(shù)據(jù)庫局限性問題以及肽段鑒定算法覆蓋率和重復(fù)率低的問題。本課題將密切與課題 1 合作,利用 課題 1 剖析 MS/MS 數(shù)據(jù)的研究成果,通過 De Novo 方法直接分析和改善數(shù)據(jù) 庫搜索效率以獲得盡可能多的肽段序列信息,然后建立 MS/MS 數(shù)據(jù)所對應(yīng)的肽段數(shù)據(jù)庫,基于此數(shù)據(jù) 庫進(jìn)一步開展補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因的研究工作。研究目標(biāo)一) 構(gòu)建綜合性蛋白質(zhì)序列數(shù)據(jù)庫;一一 建立基于肽段信息注釋基因組的方法流程;一一利用 MS/MS 所鑒定的肽段補(bǔ)充和修訂基因組 蛋白質(zhì)編碼基因。研究內(nèi)容一)蛋白質(zhì)序列數(shù)據(jù)庫的構(gòu)建為適應(yīng)蛋白質(zhì)數(shù)據(jù)庫搜索鑒定,構(gòu)建一個(gè)基于基因組序列的,比當(dāng)前公共蛋白質(zhì)數(shù)據(jù)庫包含序列種類更多、數(shù)量更大的蛋白質(zhì)數(shù)據(jù)庫,能使我們更有效地利用高通量蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)。在這個(gè)方面,我 們和課題 1 既有密切合作,又有各自專攻方向。課題 1 通過設(shè)計(jì)索引數(shù)據(jù)格式和讀取接口,提高蛋白質(zhì)鑒定引擎的搜索速度,有效估計(jì)和控制譜圖解析的錯(cuò)誤率以解決海量規(guī)模數(shù)據(jù)庫的存儲和快速檢索問題,而本課題組則從如下幾個(gè)方面提供構(gòu)建綜合數(shù)據(jù)庫的策略:1) 整合現(xiàn)有的蛋白質(zhì)公共數(shù)據(jù)庫當(dāng)前蛋白質(zhì)序列公共數(shù)據(jù)庫,如 NCBI 蛋白質(zhì)數(shù)據(jù)庫,Uniprot 蛋白質(zhì)數(shù)據(jù)庫,以及 EMBL-EBI 的 IPI 蛋白 質(zhì)數(shù)據(jù)庫等囊括了絕大多數(shù)已知蛋白質(zhì)的序列信息。整理這些數(shù)據(jù)庫中的人類蛋白質(zhì)數(shù)據(jù),包括不同庫間數(shù)據(jù)進(jìn)行相互補(bǔ)充和驗(yàn)證、通過 Blast 方法去除冗余蛋白質(zhì)、統(tǒng)一蛋白質(zhì)編號、使用 FASTA 格式存儲包含對應(yīng)基因組定位信息在內(nèi)的蛋白質(zhì)序列信息,從而構(gòu)建一個(gè)含有絕大多數(shù)已知人類蛋白質(zhì)序列的數(shù)據(jù)集合。2) 使用“六位移碼翻譯”方法得到全基因組 ORF 數(shù)據(jù)集使用“六位移 碼翻譯” 方法從基因序列中 尋找潛在的 ORF,能最大范圍地覆蓋所有基因可能的轉(zhuǎn)錄本。從 NCBI 基因組數(shù)據(jù)庫,Ensembl 基因組數(shù)據(jù)庫和UCSC 基因組數(shù)據(jù)庫搜集到完整的基因 組序列信息。潛在的 ORF 起始位點(diǎn)開始于每一個(gè)染色體的第一個(gè)堿基,每翻譯到終止密碼子時(shí)即為 ORF 的終止位點(diǎn)。下一個(gè) ORF 的起始位點(diǎn)定 為上一個(gè) ORF 終止位點(diǎn)的下一個(gè)堿基?;?組中不明確的堿基使用隨機(jī)方式以一種堿基代替。這種方法應(yīng)用于基因組 DNA 雙鏈的各三個(gè)閱讀框,即“ 六位移碼翻譯”。每一個(gè) ORF 均標(biāo) 示出基因組的坐標(biāo)與方向,便于將肽段信息匹配到基因組上。從每一個(gè)染色體得到的氨基酸序列以 FASTA 格式保存。3) 構(gòu)建可變剪切數(shù)據(jù)庫可變剪切是單個(gè)基因編碼眾多蛋白質(zhì)亞型的重要機(jī)制。通過多種方法構(gòu)建可變剪切數(shù)據(jù)庫對于驗(yàn)證已有的及發(fā)現(xiàn)新的可變剪切方式、發(fā)現(xiàn)新 ORF 與新基因具有重要意義。我們整合已有的(如 Ensembl 數(shù)據(jù)庫)和預(yù)測軟件(如“AUGUSTUS”)預(yù)測的外顯子與內(nèi)含子信息,構(gòu)建含有基因多種可變剪切模型的數(shù)據(jù)庫。具體步驟包括:1)將基因(正鏈)的同一個(gè)轉(zhuǎn)錄本內(nèi)的已知與預(yù)測的外顯子按 5'至 3'順 序排列后,依次按順序選取外顯子序列拼合組成所有可能的剪切方式;2)對于每一種拼接結(jié)果,截取拼接點(diǎn)左右各 90 個(gè)堿基序列(如果外顯子堿基數(shù)少于 90,則取其全部序列,截取過程中保留拼接點(diǎn)位置信息),從 該序列 5'端每次移動(dòng)一個(gè)堿基共移動(dòng)三次分別按通用密碼子翻譯成含有近 60 個(gè)氨基酸的肽段序列;3)去除不連續(xù)的無意義的蛋白質(zhì)序列;4)位于反鏈上的基因?qū)⑵滢D(zhuǎn)錄本反轉(zhuǎn)成相應(yīng)的正鏈堿基序列后按照前三個(gè)步驟構(gòu)建可變剪切序列。為了應(yīng)對 MS/MS 搜索后續(xù)的結(jié)果評估,上述三個(gè)數(shù)據(jù)庫還會與一個(gè)將靶序列打亂(shuffle)生成的“ 誘餌 ”(decoy)庫相結(jié)合,生成最終用于搜索的大型數(shù)據(jù)庫。任何一個(gè)在靶序列庫和 誘餌序列庫中同時(shí)出現(xiàn)的 8 氨基酸以上的序列都會被重新打亂(re-shuffled),以保證靶序列與誘餌序列之 間的重合度最小,方便后續(xù)鑒定結(jié)果假陽性率(false-discovery rate, FDR)的估算。二)建立基于肽段信息注釋基因組的方法流程通過 De Novo 方法直接分析和改善數(shù)據(jù)庫搜索效率,我們將盡可能從高精度 MS/MS 數(shù)據(jù) 獲得豐富的 肽段序列,并建立 MS/MS 對應(yīng)的肽段數(shù)據(jù)庫。以此數(shù)據(jù)庫為基點(diǎn)可通過與對應(yīng)的蛋白質(zhì)信息聯(lián)配(alignment)至基因組上,將這些肽段延伸成開放閱讀框(ORF ),最 終生成一個(gè)“蛋白質(zhì)組基因組學(xué)圖譜”(proteogenomic map)。這些基于肽段序列的基因 組注釋方法學(xué)將主要包括下列七個(gè)方面:1一 鑒定已知蛋白質(zhì)的診斷(diagnostic)肽段結(jié)合完全匹配文本搜索和本地序列聯(lián)配方法(如 Perl 編寫的正則表達(dá)式),可鑒定出映射到已知編碼區(qū)域的基因內(nèi)診斷肽段。由這種方法無法鑒定的肽段,運(yùn)用 TBLASTN(使用 PAM30 矩陣)對它們親本(parent )基因的蛋白質(zhì)產(chǎn)物進(jìn)行聯(lián)配,只考慮 100%匹配的鑒定結(jié)果。2一 分類已知基因內(nèi)的新診斷肽段將不能聯(lián)配于任意已知蛋白質(zhì)的基因內(nèi)診斷肽段聯(lián)配到從 UCSC 基因組網(wǎng)站上獲得的人類 ESTs 庫, MEGABLAST 使用步長 12。新 肽段完全包含在已注釋外顯子之內(nèi)定義為 IE(intronic exon),肽段與已注 釋外顯子部分重疊分類為OE(overlapping exon),而完全未處于已注釋外顯子中的肽段定義為 NE (non-overlapping exon)。3一 定義新編碼區(qū)域?qū)υ\斷肽段 NE 和 OE 編碼區(qū)域兩側(cè)延伸 1000 堿基對由 BLASTN 聯(lián)配到ESTs,只接受匹配重疊于 肽段編碼區(qū)域且 E 值小于 1e-6 的結(jié)果。新編碼區(qū)域的相應(yīng)基因位置來自于從重疊 ESTs 生成的最長鄰近聯(lián)配窗。4一 鑒定蛋白質(zhì)結(jié)構(gòu)域(domain )分類為 OE 的診斷肽段以 BLASTP 聯(lián)配到他們的親本基因??赡馨码亩蔚南鄳?yīng)蛋白質(zhì)隨后被計(jì)算確定。每個(gè)蛋白質(zhì)序列使用 UNIPROT 和 PROSITE搜索其蛋白質(zhì)結(jié)構(gòu)域。從數(shù)據(jù) 庫中挑出重疊到新肽段區(qū)域的蛋白質(zhì)結(jié)構(gòu)域。包括新 OE 肽段序列的理論蛋白質(zhì)亦基于如上所述的 BLASTP 相應(yīng)產(chǎn)物生成。這些理論蛋白質(zhì)也由 PROSITE 分析,并與原始蛋白質(zhì)相比較,以額外氨基酸殘基的存在確定引入蛋白質(zhì)結(jié)構(gòu)域的變化。5一 校正開放閱讀框在當(dāng)前基因模型之外發(fā)現(xiàn)的新肽段中,當(dāng)有些新肽段位于已知的基因座(gene locus)時(shí),這些與基因座的編碼區(qū)域重合的肽段將位于一個(gè)新閱讀框內(nèi)。為了(至少在一定程度上)證實(shí)這些被錯(cuò)誤預(yù)測的基因的存在,我們用幾個(gè)特征篩選這些新肽段:位于已知閱讀框外的新肽段要多次出現(xiàn),超出閱讀框外的氨基酸個(gè)數(shù)至少為 3,與已知數(shù)據(jù) 庫中的序列沒有沖突。6一 分析基因的可變剪切可采用兩種策略,篩選跨越基因組上剪切位點(diǎn)邊界的肽段,對已知的基因可變剪切模式進(jìn)行注釋或發(fā)現(xiàn)基因的新剪切方式:1)利用整合的現(xiàn)有的蛋白質(zhì)公共數(shù)據(jù)庫與使用“ 六位移碼翻 譯” 方法得到全基因組 ORF 數(shù)據(jù)集,將高通量質(zhì)譜鑒定到的肽段以無間隙(no gap)方式匹配到這些蛋白質(zhì)序列。將匹配到的蛋白質(zhì)重新比對到基因組后得到這些肽段在基因組上的位置信息。2)直接利用構(gòu)建的“ 可變剪切庫”及其保留的可 變 剪切位置信息,合并入一個(gè) 競爭性數(shù)據(jù)庫。篩除最佳匹配出現(xiàn)在競爭性數(shù)據(jù)庫中的肽段,篩出跨越可變剪切位點(diǎn)的肽段。7一 整合肽段開發(fā)新的基因預(yù)測算法將質(zhì)譜鑒定到的肽段用 TBLASTN 算法對齊到基因組序列上。根據(jù)肽段在基因組上的位置為每個(gè)核苷酸指派狀態(tài),用隱馬爾可夫方法建立基因預(yù)測模型,并估計(jì)模型參數(shù)。用此模型與 傳統(tǒng)的基因預(yù)測方法(如:GENESCAN,TWINSCAN,N-SCAN)結(jié)合進(jìn)行基因預(yù)測,包括:啟動(dòng)子,5 端非翻譯區(qū),外 顯子,內(nèi)含子,3 端非翻譯區(qū),基因間區(qū)域。三)利用 MS/MS 所鑒定的肽段補(bǔ)充和修訂基因組蛋白 質(zhì)編碼基因1) 線蟲蛋白質(zhì)組數(shù)據(jù)對其基因組蛋白質(zhì)編碼基因的補(bǔ)充和修訂我們將以線蟲(C. elegans)為例建立以蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)解讀基因組的方法流程。線蟲擁有多細(xì)胞生物中最小的基因組,是基因組研究最完整的高等真核生物之一,而且其基因組包含外顯子、內(nèi)含子、可變 剪切等類似于人類基因組的復(fù)雜結(jié)構(gòu)。 線蟲的蛋白質(zhì)組 學(xué)質(zhì)譜鑒定數(shù)據(jù)豐富,已從文獻(xiàn)入口下載五套,分 別來自 PLoS Biol. 2009 Mar 3;7(3):e48;Genome Res., 2008 Oct;18(10):1660-9;Biochem Biophys Res Commun. 2008 Sep 12;374(1):49-54;J Proteome Res. 2006 Sep;5(9):2448-56;Journal of Proteome Res, 2003, 2 (1):23-25。同時(shí),我 們也將和課題 4 合作,利用 FTMS 或 Orbitrap 質(zhì)譜儀分析線蟲蛋白質(zhì)組,試圖獲取高精度MS/MS 數(shù)據(jù)服 務(wù)于新蛋白 質(zhì)編碼基因的發(fā)現(xiàn)。 因此, 線蟲是建立用蛋白質(zhì)組信息注釋基因組方法的最佳模型之一。我們將整合多套蛋白質(zhì)組學(xué)數(shù)據(jù),特別是結(jié)合 De Novo 數(shù)據(jù)和肽段對基因組的注釋技術(shù),把鑒定的肽 段通過蛋白質(zhì)信息聯(lián)配到線蟲基因組上,開展預(yù)測基因、發(fā)現(xiàn) 新基因、判斷假基因、 證實(shí)可變剪切等分析。2) 人體肝臟蛋白質(zhì)組數(shù)據(jù)對人類基因組蛋白質(zhì)編碼基因的補(bǔ)充和修訂中國人體肝臟蛋白質(zhì)組數(shù)據(jù)庫是當(dāng)前世界上最大的人類組織蛋白質(zhì)組的數(shù)據(jù)庫,擁 有超過 3 千萬個(gè)高 質(zhì)量的 MS/MS 圖譜。我 們將與課題 1 和課題 4 合作發(fā)掘其中所蘊(yùn)含的肽段信息,特別是關(guān)注那些不曾被基因組所注釋的肽段,然后采用肽段信息注釋基因組的分析流程,試圖補(bǔ)充或修訂人類基因組的蛋白質(zhì)編碼基因。課題承擔(dān)單位:上海生物信息技術(shù)研究中心課題參加單位:中國科學(xué)院北京基因組研究所課題負(fù)責(zé)人: 石瑜科研骨干:謝鷺、武鈞、任艷經(jīng)費(fèi)比例:23%課題 3.基于高精度質(zhì)譜數(shù)據(jù)的蛋白質(zhì)表達(dá)譜定量計(jì)算方法的研究及應(yīng)用課題背景生物機(jī)體中蛋白質(zhì)豐度以及修飾狀態(tài)與其生物功能有著密切的聯(lián)系。就定量的計(jì)算方式而言,蛋白質(zhì)組 的定量分析分為相對和絕對定量兩大類,就實(shí)驗(yàn)方法而言,又分為有標(biāo)記定量和無標(biāo)記定量。相 對定量蛋白質(zhì)組學(xué)也稱比較蛋白質(zhì)組學(xué),是指對不同生理病理狀 態(tài)下細(xì)胞、 組織或體液蛋白質(zhì)表達(dá)量的相對變化進(jìn)行比較分析,從而發(fā)現(xiàn)表征生物差異的蛋白質(zhì)。 絕對 定量蛋白質(zhì)組學(xué)是測定某一蛋白質(zhì)組中每種蛋白質(zhì)的絕對量或濃度,對研究蛋白質(zhì)相互作用網(wǎng)絡(luò)、疾病診斷和監(jiān)測等都具有重要意義。隨著實(shí)驗(yàn)技術(shù)的進(jìn)步,利用質(zhì)譜數(shù)據(jù)的逐漸成為蛋白質(zhì)組定量分析的主流方法。在 質(zhì)譜定量分析中, 穩(wěn)定同位素標(biāo)記技術(shù)通過代謝、化學(xué)標(biāo)記方法在肽段上引入質(zhì)量標(biāo)簽(mass tag),以區(qū)分不同狀態(tài)的樣品,是比較成熟的定量方法。但是,它需要比較復(fù)雜的標(biāo)記實(shí)驗(yàn) 完成樣品處理, 較難避免標(biāo)記化學(xué)反應(yīng)的不完全, 而且不同質(zhì)量標(biāo)簽標(biāo)記 的肽段信號同時(shí)出現(xiàn)在一張質(zhì)譜圖中,限制了定量的動(dòng)態(tài) 范圍。與之相比,無標(biāo)記 定量不需要額外的實(shí)驗(yàn)設(shè)計(jì)來引入質(zhì)量標(biāo)簽,利用一次或多次獨(dú)立實(shí)驗(yàn)中質(zhì)譜的物理信號(離子流色譜峰(extracted ion chromatograms, XIC)面積、母離子信號強(qiáng)度(parent intensity)、圖譜計(jì)數(shù)(spectral counting)或者帶有搜庫分值校正的圖譜計(jì)數(shù)等)來表征肽段的表達(dá)豐度,從而推算蛋白質(zhì)表達(dá)豐度,動(dòng)態(tài)范圍比較寬,既可實(shí)現(xiàn)相對定量,也能計(jì)算絕對定量,因之是發(fā)展速度很快的一種定量技術(shù)。值得指出的是,無標(biāo)記定量數(shù)據(jù)分析研究工作還剛剛興起。無論從算法工具還是就應(yīng)用報(bào)道而言,其研究工作遠(yuǎn)遠(yuǎn)少于同位素標(biāo)記的定量蛋白質(zhì)組研究。我們認(rèn)為,在 這個(gè)領(lǐng)域中有三個(gè) 問題需要給與優(yōu)先關(guān)注。1一 蛋白質(zhì)表達(dá)譜定量算法動(dòng)態(tài)范圍、準(zhǔn)確程度等方面的分析、比較和優(yōu)化:雖然肽段計(jì)數(shù)定量方法在定量分析中已經(jīng)取得了初步的應(yīng)用,但目前的方法還缺少能夠在組織器官樣品中大規(guī)模應(yīng)用的驗(yàn)證。很多文獻(xiàn)提出了肽段計(jì)數(shù)定量指標(biāo)的校正方法,也有很多研究指出,肽段計(jì)數(shù)定量的動(dòng)態(tài)范圍和精度都不如離子流色譜峰面積,并且很多研究是針對差異比較的,絕對定量或者半定量的準(zhǔn)確性問題怎樣分析還是需要探索的問題。此外,低豐度蛋白質(zhì)的定量可能是困擾很多定量方法的重要問題。在對表達(dá)譜數(shù)據(jù)進(jìn)行規(guī)模化定量分析之前,需要設(shè)計(jì)標(biāo)準(zhǔn)實(shí)驗(yàn),對各種定量計(jì)算方法進(jìn)行分析、比 較和優(yōu)化,驗(yàn)證方法的定量精度、動(dòng)態(tài)范圍,找出影響該定量指標(biāo)計(jì)算的重要因素,改 進(jìn)和優(yōu)化,甚至重新 設(shè)計(jì)新的定量方法。在確定定量方法后,還需要探索性研究肽段的質(zhì)譜分析效率問題, 肽段定量分析的基質(zhì)效應(yīng)和離子抑制效應(yīng)問題,利用標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)構(gòu)建肽段分析效率預(yù)測模型,構(gòu)建絕對定量的校正曲線,以 實(shí)現(xiàn)更為精確的絕對定量。2一 質(zhì)譜數(shù)據(jù)庫建設(shè)及分析平臺構(gòu)建:無標(biāo)記定量技術(shù)建筑在高質(zhì)量的質(zhì)譜數(shù)據(jù)庫的基礎(chǔ)之上。在以往的蛋白質(zhì)組數(shù)據(jù)中,蛋白質(zhì)鑒定占了較大的比重,但是質(zhì)譜數(shù)據(jù)庫的建設(shè)的重視是不夠的。比如,離子流色譜峰在定量計(jì)算上似乎有一定的優(yōu)勢,但是它的實(shí)驗(yàn) 重現(xiàn)性較差,而目前大型的蛋白質(zhì)組數(shù)據(jù)庫中并沒有相應(yīng)的離子流色譜峰海量數(shù)據(jù),很難開展這方面的統(tǒng)計(jì)計(jì)算工作。在 MS/MS數(shù)據(jù)上也存在相同的問題,不同的質(zhì)譜儀或不同的搜索引擎可能產(chǎn)生明顯的MS/MS 譜圖 差別,直接影響了定量的計(jì)算。雖然數(shù)據(jù) 庫及分析平臺是蛋白質(zhì)組研究的基礎(chǔ)及保障。因此,課題 1 的研究方向與本課題 有密切的相關(guān)性, 標(biāo)準(zhǔn)化的高精度 MS 和 MS/MS 將在很大程度上決定了無標(biāo)記定量法的準(zhǔn)確與否,尤其是 MRM 技術(shù)在蛋白質(zhì)組 定量上的應(yīng)用更是如此。3一規(guī)模化蛋白質(zhì)組表達(dá)譜定量的可視化研究:蛋白質(zhì)表達(dá)譜不能僅僅說明有多少蛋白質(zhì)在特定的組織或細(xì)胞中存在,更為重要的是要能夠確切表示蛋白質(zhì)豐度的相關(guān)信息。問題還 不限于此,即使一個(gè) 組織 或細(xì)胞中含有的定性和定量信息可以準(zhǔn)確測定,如何將 這些信息科學(xué)地表達(dá)出來?特別是給生物學(xué)家提供一種定量表示方法,既容易充分理解定性和定量的相互關(guān)系,又為探索功能提供定量信息。Heat Map 方法是生物學(xué)家較為廣泛采用的圖形表示方法。它的特點(diǎn)在于多維地展示信息、靈活地聚 類分析功能。 Bergeron 等人所提出的 gene-centric就是 Heat Map 圖示法的一種。作為一個(gè)新型的蛋白質(zhì)表達(dá)譜的定量分析方法,gene-centric 在大規(guī)模蛋白質(zhì)組數(shù)據(jù)分析的應(yīng)用還待研究 發(fā)展。首先, gene-centric方法雖已成功地分析了小規(guī)模蛋白質(zhì)組分析,但是它并未有運(yùn)用于大規(guī)模的蛋白質(zhì)組數(shù)據(jù)的先例。對于海量的質(zhì)譜信號, gene-centric 方法是否能避免假陽性的干擾?是否能有效合理地利用冗余肽段信息?是否可找到合適的圖形定量方法描述規(guī)模化定量蛋白質(zhì)組數(shù)據(jù)? 這些問題是必須直面的。其次,我們?nèi)狈ene-centric 分析結(jié)果的系統(tǒng)比較,尤其是與其他蛋白質(zhì)組定量分析結(jié)果的平行比較。再次,gene-centric 方法在具體的統(tǒng)計(jì)學(xué)計(jì)算中存在很大的改善空間,諸如MS/MS 信號的 篩選,修 飾 和非修飾肽段的區(qū)分和權(quán)重,大 規(guī)模定量數(shù)據(jù)的歸一化等等。研究目標(biāo)一一在標(biāo)準(zhǔn)實(shí)驗(yàn)的支持下,建立優(yōu)化的蛋白質(zhì)表達(dá)譜定量算法庫;一一規(guī)模化定量蛋白質(zhì)組分析方法和可視化研究;一一構(gòu)建以基因?yàn)橹行牡亩康鞍踪|(zhì)數(shù)據(jù)庫和分析平臺。研究內(nèi)容一一蛋白質(zhì)表達(dá)譜定量算法研究我們將在標(biāo)準(zhǔn)定量蛋白質(zhì)組實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上,發(fā)展基于不同質(zhì)譜譜圖的蛋白質(zhì)定量算法,結(jié)合豐度校正曲線,建立一套切 實(shí) 可行的無標(biāo)記蛋白質(zhì)定量方法。1一 基于質(zhì)譜譜圖的定量算法方法針對現(xiàn)有儀器適用的全譜絕對定量算法,使用標(biāo)準(zhǔn)數(shù)據(jù)集對方法的精度、可重復(fù)性等進(jìn)行比較研究。算法研究的內(nèi)容包括:SC 校正方法,MS 圖譜信號提取和處理算法,肽段和蛋白質(zhì) 定量指標(biāo)計(jì)算方法,重復(fù)實(shí)驗(yàn)結(jié)果整合算法,共享 肽段的處理算法等。2一 與定量算法相匹配的標(biāo)準(zhǔn)蛋白質(zhì)組定量實(shí)驗(yàn)我們將和課題 4 密切合作,設(shè)計(jì)實(shí)驗(yàn),采用復(fù) 雜樣品中添加少量標(biāo)準(zhǔn)蛋白質(zhì)的方法,利用不同濃度的質(zhì)譜 分析,研究和 優(yōu)化無標(biāo)記 定量算法,并且 對定量結(jié)果的準(zhǔn)確性進(jìn)行評價(jià),估計(jì) 定量結(jié)果的誤差范圍。3) 不同質(zhì)譜數(shù)據(jù)的定量校正方法研究利用標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù),研究質(zhì)譜信號的飽和效應(yīng)、肽段在 LC-ESI 過程中分析的交互影響等制約無標(biāo)記定量精度的問題,針對現(xiàn)有蛋白質(zhì)組數(shù)據(jù)采用的實(shí)驗(yàn)平臺,構(gòu)建 LC-MS 分析的標(biāo)準(zhǔn)校正曲線,以得到更加精確的定量結(jié)果。質(zhì)譜信號是肽段離子打在檢測器上放大得到的,放大器的線性范圍有限,信號到達(dá)一定強(qiáng)度后就會達(dá)到飽和,響應(yīng)信號不再與肽段離子豐度成正比,造成定量結(jié)果的不準(zhǔn)確。利用標(biāo)準(zhǔn)實(shí)驗(yàn)方法研究質(zhì)譜信號相應(yīng)的飽和效應(yīng),估計(jì)其線性范圍和校正方法,可以進(jìn)一步提高絕對定量的精度。在 MALDI 源的質(zhì)譜分析中,基質(zhì)效應(yīng)會嚴(yán)重影響肽段的分析效率,導(dǎo)致肽段的質(zhì)譜響應(yīng)信號與其濃度不成比例,而在 LC-ESI 技術(shù)路線中,肽段離子信號會存在離子抑制效應(yīng),導(dǎo)致有的肽段分析效率很低,其質(zhì)譜信號也不能代表其真實(shí)豐度。另外, 對于復(fù)雜體系的肽段混合物來說,LC 分離過程中,其流出曲線會相互影響,導(dǎo)致肽段的圖譜計(jì) 數(shù)也不能正確反映其真實(shí)濃度,這些因素最終都會影響蛋白質(zhì)定量的準(zhǔn)確性。利用標(biāo)準(zhǔn)實(shí)驗(yàn), 對這些因素 進(jìn)行分析,既可以 驗(yàn)證肽段計(jì)數(shù)方法定量的動(dòng)態(tài)范圍、準(zhǔn)確性,也能為定量指 標(biāo)計(jì)算的改進(jìn)提供新的思路。一一 蛋白質(zhì)組表達(dá)譜定量分析及可視化研究改進(jìn)和設(shè)計(jì)針對定量分析的數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計(jì)規(guī)?;鞍踪|(zhì)組表達(dá)譜定量分析方法,連接數(shù)據(jù)分析和生物學(xué)分析,提供數(shù)據(jù)可 視 化方法。1一 多重來源蛋白質(zhì)組數(shù)據(jù)的定量歸一化方法研究由于質(zhì)譜技術(shù)的局限和蛋白質(zhì)組的高度復(fù)雜性,低豐度蛋白質(zhì)的鑒定需要大量的重復(fù)實(shí)驗(yàn),而原理不同、實(shí)驗(yàn)策略的不同可以 為蛋白質(zhì)鑒定提供互補(bǔ)信息。在人類組織蛋白質(zhì)組研究中,采用了多儀器平臺、多實(shí)驗(yàn)策略和多家實(shí)驗(yàn)室合作研究的技術(shù)路線,在定量分析中,怎樣將不同實(shí)驗(yàn)技 術(shù)路線的定量結(jié)果進(jìn)行整合是一個(gè)必須研究的問題。不同 質(zhì)譜平臺對同一蛋白質(zhì)的響應(yīng)信號會不同,由于采樣效率不同,肽段和圖譜計(jì) 數(shù)也相差很大。 為了最大程度地利用現(xiàn)有的- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
10 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 基金 標(biāo)書 2010 CB912700 蛋白質(zhì) 海量 數(shù)據(jù) 解析 及其 人類基因組 注釋 中的 應(yīng)用
鏈接地址:http://m.jqnhouse.com/p-284539.html