計(jì)算機(jī)論文范文:基于Web外交新聞的中國(guó)國(guó)際合作元素及關(guān)聯(lián)挖掘
《計(jì)算機(jī)論文范文:基于Web外交新聞的中國(guó)國(guó)際合作元素及關(guān)聯(lián)挖掘》由會(huì)員分享,可在線(xiàn)閱讀,更多相關(guān)《計(jì)算機(jī)論文范文:基于Web外交新聞的中國(guó)國(guó)際合作元素及關(guān)聯(lián)挖掘(5頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、計(jì)算機(jī)論文范文:基于Web外交新聞的中國(guó)國(guó)際合作元素及關(guān)聯(lián)挖掘 在互聯(lián)網(wǎng)數(shù)據(jù)量日益激增的狀況下,從相關(guān)網(wǎng)絡(luò)文本數(shù)據(jù)中挖掘出有價(jià)值的知識(shí)具有重要的現(xiàn)實(shí)意義。本文以 Web 外交新聞數(shù)據(jù)為基礎(chǔ),研究如何從其中挖掘與中國(guó)國(guó)際合作相關(guān)的知識(shí)。本文通過(guò)分析 Web 外交新聞的特點(diǎn)和中國(guó)國(guó)際合作的知識(shí)需求,把挖掘任務(wù)抽象為類(lèi)似于序列標(biāo)注任務(wù)和實(shí)體關(guān)系抽取任務(wù),并提出了相對(duì)應(yīng)的知識(shí)挖掘方法,最后通過(guò)實(shí)驗(yàn)和分析評(píng)價(jià)抽取方法的表現(xiàn)。 1緒論 1.1研究背景與意義 “十三五”規(guī)劃建議指出:“完善對(duì)外開(kāi)放戰(zhàn)略布局。推動(dòng)雙向開(kāi)放,促進(jìn)國(guó)內(nèi)國(guó)際要素有序流動(dòng)、資源高效配置、市場(chǎng)深度
2、融合?!敝袊?guó)國(guó)際合作,已經(jīng)成為中國(guó)對(duì)外合作互利共贏的重要方式,在中國(guó)發(fā)展中具有重要地位。在地緣政治因素、環(huán)境問(wèn)題、資源困難、經(jīng)濟(jì)危機(jī)、資本市場(chǎng)、歷史遺留問(wèn)題等諸多因素的影響下,中國(guó)圍繞不同國(guó)家在不同時(shí)期建立了各具特色的戰(zhàn)略合作關(guān)系。中國(guó)國(guó)際合作規(guī)模迅速擴(kuò)大、合作交流領(lǐng)域日益拓寬、內(nèi)容不斷深化和多樣化。 調(diào)查資料顯示,“十二五”期間,中國(guó)對(duì)外直接投資流量累積達(dá) 5390.9 億美元,年均增速 18.2%,是“十一五”期末的 3.46 倍,并呈現(xiàn)投資區(qū)域分布更加廣泛、行業(yè)流向結(jié)構(gòu)進(jìn)一步優(yōu)化、投資主體結(jié)構(gòu)多元化、地方企業(yè)投資活躍、跨國(guó)并購(gòu)領(lǐng)域廣泛等特點(diǎn)??鐕?guó)并購(gòu)、境外經(jīng)貿(mào)合作區(qū)、基礎(chǔ)設(shè)施合作
3、建設(shè)和運(yùn)營(yíng)一體化,正在成為中國(guó)企業(yè)對(duì)外投資合作的主要方式和載體。各級(jí)政府部門(mén)也加強(qiáng)了政策制度體系建設(shè),不斷完善規(guī)范性政策文件。大量談判正在進(jìn)行中,每年新增的協(xié)定、合作平臺(tái)、合作機(jī)制數(shù)量不斷上升,雙邊協(xié)議不斷增加新的內(nèi)容,國(guó)際合作的外部環(huán)境隨之改變。 以“一帶一路”發(fā)展戰(zhàn)略為例,根據(jù) 2017 年政府的《中國(guó)對(duì)外投資合作發(fā)展報(bào)告》顯示,2016 年,中國(guó)對(duì)“一帶一路”沿線(xiàn)國(guó)家直接投資達(dá)到 153.4 億美元。中國(guó)企業(yè)已經(jīng)在沿線(xiàn) 20 個(gè)國(guó)家建立了 56 個(gè)經(jīng)貿(mào)合作區(qū),累計(jì)投資超過(guò) 185億美元,為東道國(guó)增加了近 11 億美元的稅收和 18 萬(wàn)個(gè)就業(yè)崗位。投資行業(yè)日趨多元化,分
4、布在制造業(yè)、采礦業(yè)、租賃和商務(wù)服務(wù)業(yè)、電力熱力供應(yīng)、金融業(yè)、建筑業(yè)等多個(gè)行業(yè)領(lǐng)域,承接承包工程新簽合同額 1260 億美元,占當(dāng)年中國(guó)對(duì)外承包工程新簽合同額的 51.6%。隨著“一帶一路”建設(shè)持續(xù)推進(jìn),中國(guó)積極發(fā)展與沿線(xiàn)國(guó)家的經(jīng)濟(jì)合作關(guān)系,在中國(guó)與“一帶一路”沿線(xiàn)國(guó)家經(jīng)濟(jì)合作方面,跨境直接投資是一個(gè)關(guān)鍵和核心的領(lǐng)域,合作重點(diǎn)包括基礎(chǔ)設(shè)施互聯(lián)互通、能源資源合作、工業(yè)園區(qū)建設(shè)和優(yōu)勢(shì)產(chǎn)能合作等。2014—2016 年,中國(guó)對(duì)“一帶一路”沿線(xiàn)國(guó)家的對(duì)外投資 480 億美元,投資行業(yè)日趨多元化,同時(shí)并購(gòu)持續(xù)活躍。預(yù)計(jì)未來(lái),中國(guó)對(duì)“一帶一路”沿線(xiàn)國(guó)家的直接投資規(guī)模將會(huì)顯著上升,合作前景更加廣闊。當(dāng)前,中國(guó)
5、經(jīng)濟(jì)和世界經(jīng)濟(jì)高度關(guān)聯(lián)。中國(guó)將一以貫之地堅(jiān)持對(duì)外開(kāi)放的基本國(guó)策,構(gòu)建全方位開(kāi)放新格局,深度融入世界經(jīng)濟(jì)體系。 .............................. 1.2國(guó)內(nèi)外研究現(xiàn)狀 1.2.1文本知識(shí)挖掘 知識(shí)挖掘(knowledge mining)也被稱(chēng)為知識(shí)發(fā)現(xiàn)(knowledge discovery, KD)。知識(shí)發(fā)現(xiàn)是指從數(shù)據(jù)中提取隱含的,以前未知的以及潛在的有用的信息[1]。早期知識(shí)發(fā)現(xiàn)的研究對(duì)象為數(shù)據(jù)庫(kù)中的數(shù)據(jù),被簡(jiǎn)稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(knowledge discovery in database, KDD)。隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)
6、中非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量急劇增加,文本知識(shí)挖掘研究逐漸受到重視。 KDD 主要的傳統(tǒng)方法有:分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則挖掘和回歸預(yù)測(cè)[2-5]等。文獻(xiàn)[2]介紹了一種基于 C4.5 決策樹(shù)的流量分類(lèi)方法,實(shí)驗(yàn)結(jié)果表明 C4.5 決策樹(shù)在處理流量分類(lèi)問(wèn)題的穩(wěn)定性上具有一定優(yōu)勢(shì)。文獻(xiàn)[4]提出了一種高效的多層和概化關(guān)聯(lián)規(guī)則挖掘方法。通過(guò)大量人工隨機(jī)生成數(shù)據(jù)的實(shí)驗(yàn)證明,該方法不僅可以確保頻繁項(xiàng)集挖掘結(jié)果的正確性和完整性,還比現(xiàn)有同類(lèi)最新算法具有更好的挖掘效率和擴(kuò)展性。 對(duì)于基于時(shí)間間隔的事件數(shù)據(jù)(time interval-based event data),文獻(xiàn)[6]為了簡(jiǎn)化事件區(qū)間(e
7、ventinterval)的復(fù)雜關(guān)系,提出了兩種新的時(shí)間表示(temporal representation),分別是結(jié)束節(jié)點(diǎn)表示(endpointrepresentation)和結(jié)束時(shí)間表示(endtimerepresentation)。基于兩種新的時(shí)間表示,文獻(xiàn)[6]提出了三種區(qū)間模式(interval-basedpattern)以及有效發(fā)現(xiàn)三種區(qū)間模式的區(qū)間模式挖掘算法。最后,文獻(xiàn)[6]提出了三種剪枝手段用以提高挖掘算法的效率。 ............................. 2相關(guān)理論與技術(shù)簡(jiǎn)介 2.1人工神經(jīng)網(wǎng)絡(luò)
9、(Part-of-Speech Tagging)以及命名實(shí)體識(shí)別(Named Entity Recognition, NER)等。 中文分詞的任務(wù)目標(biāo)為將給定句子切分為具有合理語(yǔ)義的詞序列。在中文分詞任務(wù)中,序列節(jié)點(diǎn)的基本要素為句子中的每一個(gè)字,節(jié)點(diǎn)的標(biāo)簽集合定義為{B, I, E, S}。其中,B 表示這個(gè)字是某個(gè)詞的開(kāi)頭,I 表示這個(gè)字是某個(gè)詞的中間部分,E 表示這個(gè)字是某個(gè)詞的結(jié)尾,S 表示這個(gè)字單獨(dú)成詞。最后根據(jù)標(biāo)簽,確定分詞結(jié)果。 詞性標(biāo)注的目標(biāo)是對(duì)于已經(jīng)分詞的句子,對(duì)句子中所有的詞標(biāo)注詞性。在詞性標(biāo)注任務(wù)中,序列節(jié)點(diǎn)的基本要素為已分詞的詞序列中的詞,節(jié)點(diǎn)的標(biāo)簽
10、集合為詞性的集合,例如:{noun, verb, adj, …}。 命名實(shí)體識(shí)別的目標(biāo)是找出給定句子中的命名實(shí)體,常見(jiàn)的命名實(shí)體有人名、地名和機(jī)構(gòu)名。命名實(shí)體識(shí)別任務(wù)中,序列節(jié)點(diǎn)的基本要素為句子中的每個(gè)字,節(jié)點(diǎn)的標(biāo)簽結(jié)合定義為{B, I, E, O}。其中,B表示這個(gè)字是某個(gè)命名實(shí)體的開(kāi)頭,I 表示這個(gè)字是某個(gè)命名實(shí)體的中間部分,E 表示這個(gè)字是某個(gè)命名實(shí)體的結(jié)尾,O 表示這個(gè)字不屬于命名實(shí)體部分。最后根據(jù)標(biāo)簽,確定命名實(shí)體識(shí)別的結(jié)果。 .............................. 3國(guó)際
11、合作元素抽取 ............................ 14 3.1引言............................ 14 3.2國(guó)際合作元素的內(nèi)涵界定............................... 15 4國(guó)際合作元素關(guān)聯(lián)挖掘 ..................................... 28 4.1引言............................... 28 4.2國(guó)際合作元素關(guān)聯(lián)定義和特點(diǎn).................... 29 5總結(jié)與展望 .............................
12、.... 36 5.1總結(jié)................................ 37 5.2展望...................... 37 4國(guó)際合作元素關(guān)聯(lián)挖掘 4.1引言 國(guó)際合作元素關(guān)聯(lián)挖掘是繼國(guó)際合作元素抽取之后對(duì) Web 外交新聞文本語(yǔ)義信息的細(xì)化工作。國(guó)際合作元素關(guān)聯(lián)挖掘的目標(biāo)是從 Web 外交新聞文本中挖掘有語(yǔ)義或內(nèi)涵關(guān)系的國(guó)際合作元素對(duì),如“一帶一路”和“兩廊一圈”,“貿(mào)易自由化、投資便利化”和“貿(mào)易投資保護(hù)主義”以及“匈塞鐵路”和“16+1合作”等。國(guó)際合作元素關(guān)聯(lián)挖掘旨在原本相對(duì)獨(dú)立的國(guó)際合作元素之間建立起語(yǔ)義或內(nèi)涵上的關(guān)聯(lián),對(duì) Web
13、 外交新聞蘊(yùn)含的信息進(jìn)行更深層次的結(jié)構(gòu)化,以方便不同的研究者可以更高效、更全面地利用 Web 外交新聞數(shù)據(jù)進(jìn)行相關(guān)方面的研究,如構(gòu)建中國(guó)對(duì)外合作知識(shí)庫(kù)、分析中國(guó)對(duì)外合作情況以及發(fā)現(xiàn)企業(yè)對(duì)外投資機(jī)會(huì)(如在什么國(guó)家投資什么產(chǎn)業(yè)或項(xiàng)目)等 本章主要介紹國(guó)際合作元素關(guān)聯(lián)挖掘方法。國(guó)際合作元素關(guān)聯(lián)挖掘與自然語(yǔ)言處理領(lǐng)域中的實(shí)體關(guān)系抽取任務(wù)具有一定的相似性。傳統(tǒng)的實(shí)體關(guān)系抽取任務(wù)的目標(biāo)是挖掘文本中實(shí)體對(duì)(人名、地名、機(jī)構(gòu)名)之間的關(guān)系。 ............................. 5總結(jié)與展望 5.1總結(jié) 在互聯(lián)網(wǎng)數(shù)據(jù)量日益激增的狀況下,從相關(guān)網(wǎng)絡(luò)文本數(shù)據(jù)中挖掘出有
14、價(jià)值的知識(shí)具有重要的現(xiàn)實(shí)意義。本文以 Web 外交新聞數(shù)據(jù)為基礎(chǔ),研究如何從其中挖掘與中國(guó)國(guó)際合作相關(guān)的知識(shí)。本文通過(guò)分析 Web 外交新聞的特點(diǎn)和中國(guó)國(guó)際合作的知識(shí)需求,把挖掘任務(wù)抽象為類(lèi)似于序列標(biāo)注任務(wù)和實(shí)體關(guān)系抽取任務(wù),并提出了相對(duì)應(yīng)的知識(shí)挖掘方法,最后通過(guò)實(shí)驗(yàn)和分析評(píng)價(jià)抽取方法的表現(xiàn)。本文的主要貢獻(xiàn)如下: (1)在第 3 章中提出了國(guó)際合作元素的抽取方法。首先,通過(guò)分析中國(guó)國(guó)際合作研究領(lǐng)域的需求以及中國(guó)國(guó)際合作元素在 Web 外交新聞中的語(yǔ)義特點(diǎn),從計(jì)算機(jī)的角度提出了國(guó)際合作元素的定義,為提出國(guó)際合作元素抽取方法奠定基礎(chǔ)。然后,根據(jù)國(guó)際合作元素的定義,結(jié)合傳統(tǒng)序列標(biāo)注任務(wù)的
15、特點(diǎn),提出了領(lǐng)域知識(shí)和神經(jīng)網(wǎng)絡(luò)相結(jié)合的國(guó)際合作元素抽取方法。其中,神經(jīng)網(wǎng)絡(luò)模型的目的是完成國(guó)際合作元素的初步抽取,初步抽取完成之后,通過(guò)提取的領(lǐng)域知識(shí)改進(jìn)神經(jīng)網(wǎng)絡(luò)的抽取結(jié)果。最后,通過(guò)實(shí)驗(yàn)結(jié)果表明,雖然神經(jīng)網(wǎng)絡(luò)模型對(duì)國(guó)際合作元素抽取任務(wù)有一定的適應(yīng)能力,但是對(duì)于一些結(jié)構(gòu)復(fù)雜的國(guó)際合作元素的抽取效果并不好,同時(shí)神經(jīng)網(wǎng)絡(luò)模型的效果對(duì)于訓(xùn)練集的數(shù)據(jù)質(zhì)量非常敏感;同時(shí)實(shí)驗(yàn)結(jié)果還表明,我們提出的領(lǐng)域知識(shí),對(duì)于 3.3.1 節(jié)提出的神經(jīng)網(wǎng)絡(luò)模型是一個(gè)很好的補(bǔ)充,對(duì)提升國(guó)際合作元素抽取模型的效果具有一定的針對(duì)性。 (2)在第 4 章中提出了國(guó)際合作元素關(guān)聯(lián)挖掘方法。在第 3 章抽取出的國(guó)際合作元
16、素的基礎(chǔ)上,結(jié)合傳統(tǒng)實(shí)體關(guān)系抽取任務(wù)對(duì)于關(guān)系類(lèi)型的定義以及 Web外交新聞的語(yǔ)義特點(diǎn),明確了國(guó)際合作元素關(guān)聯(lián)及關(guān)聯(lián)類(lèi)型的定義,并分析了其語(yǔ)義特點(diǎn)。在 4.3 節(jié)中,結(jié)合傳統(tǒng)實(shí)體關(guān)系抽取任務(wù)和國(guó)際合作元素關(guān)聯(lián)的特點(diǎn),提出了神經(jīng)網(wǎng)絡(luò)模型和規(guī)則相結(jié)合的國(guó)際合作元素關(guān)聯(lián)挖掘方法。在國(guó)際合作元素關(guān)聯(lián)挖掘方法中,神經(jīng)網(wǎng)絡(luò)模型的目的是挖掘在句內(nèi)的不同國(guó)際合作元素之間的關(guān)聯(lián)。為了彌補(bǔ)神經(jīng)網(wǎng)絡(luò)模型的不足,挖掘在不同句子之間的國(guó)際合作元素之間的關(guān)聯(lián),同時(shí)修正神經(jīng)網(wǎng)絡(luò)模型的部分挖掘結(jié)果,結(jié)合國(guó)際合作元素關(guān)聯(lián)的特點(diǎn),提出了基于規(guī)則的國(guó)際合作元素關(guān)聯(lián)類(lèi)型抽取模型。實(shí)驗(yàn)結(jié)果表明,神經(jīng)網(wǎng)絡(luò)模型對(duì)于語(yǔ)義關(guān)系簡(jiǎn)單明確的句內(nèi)國(guó)際合作元素關(guān)聯(lián)挖掘表現(xiàn)優(yōu)異,但是對(duì)于語(yǔ)義關(guān)系模糊的句內(nèi)關(guān)聯(lián)挖掘表現(xiàn)較差;基于規(guī)則的模型對(duì)于句間的國(guó)際合作元素關(guān)聯(lián)類(lèi)型挖掘效果較好,并且對(duì)于神經(jīng)網(wǎng)絡(luò)模型挖掘出的部分關(guān)聯(lián)類(lèi)型具有一定的優(yōu)化效果。
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 川渝旅游日記成都重慶城市介紹推薦景點(diǎn)美食推薦
- XX國(guó)有企業(yè)黨委書(shū)記個(gè)人述責(zé)述廉報(bào)告及2025年重點(diǎn)工作計(jì)劃
- 世界濕地日濕地的含義及價(jià)值
- 20XX年春節(jié)節(jié)后復(fù)工安全生產(chǎn)培訓(xùn)人到場(chǎng)心到崗
- 大唐女子圖鑒唐朝服飾之美器物之美繪畫(huà)之美生活之美
- 節(jié)后開(kāi)工第一課輕松掌握各要點(diǎn)節(jié)后常見(jiàn)的八大危險(xiǎn)
- 廈門(mén)城市旅游介紹廈門(mén)景點(diǎn)介紹廈門(mén)美食展示
- 節(jié)后開(kāi)工第一課復(fù)工復(fù)產(chǎn)十注意節(jié)后復(fù)工十檢查
- 傳統(tǒng)文化百善孝為先孝道培訓(xùn)
- 深圳城市旅游介紹景點(diǎn)推薦美食探索
- 節(jié)后復(fù)工安全生產(chǎn)培訓(xùn)勿忘安全本心人人講安全個(gè)個(gè)會(huì)應(yīng)急
- 預(yù)防性維修管理
- 常見(jiàn)閥門(mén)類(lèi)型及特點(diǎn)
- 設(shè)備預(yù)防性維修
- 2.乳化液泵工理論考試試題含答案