歡迎來(lái)到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁(yè) 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

新編作為人工智能分支的自然語(yǔ)言處理停滯的技術(shù)課件

  • 資源ID:232559828       資源大小:296.51KB        全文頁(yè)數(shù):38頁(yè)
  • 資源格式: PPT        下載積分:20積分
快捷下載 游客一鍵下載
會(huì)員登錄下載
微信登錄下載
三方登錄下載: 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要20積分
郵箱/手機(jī):
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機(jī)號(hào),方便查詢和重復(fù)下載(系統(tǒng)自動(dòng)生成)
支付方式: 微信支付   
驗(yàn)證碼:   換一換

 
賬號(hào):
密碼:
驗(yàn)證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會(huì)被瀏覽器默認(rèn)打開,此種情況可以點(diǎn)擊瀏覽器菜單,保存網(wǎng)頁(yè)到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請(qǐng)使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過(guò)壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒有明確說(shuō)明有答案則都視為沒有答案,請(qǐng)知曉。

新編作為人工智能分支的自然語(yǔ)言處理停滯的技術(shù)課件

作為人工智能分支的自然語(yǔ)言處理:停滯的技術(shù) 趙 海上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系 zhaohaics.sjtu.edu沈陽(yáng) 2019.09.181起源以人工智能的知識(shí)工程的角度來(lái)看待分析當(dāng)前的自然語(yǔ)言處理技術(shù)。當(dāng)前的自然語(yǔ)言處理被機(jī)器學(xué)習(xí)為代表的自動(dòng)化數(shù)據(jù)挖掘技術(shù)所嚴(yán)重滲透??蓪⑵錃w結(jié)為一種知識(shí)獲得和學(xué)習(xí)分離的智能系統(tǒng)處理方法。忽略了基本的機(jī)器學(xué)習(xí)原則而導(dǎo)致低效的知識(shí)處理兩個(gè)關(guān)聯(lián)但是有區(qū)別的困境單一的數(shù)據(jù)挖掘方式的自然語(yǔ)言處理未能從根本上改變知識(shí)表示和知識(shí)獲取的人工智能困難。以監(jiān)督學(xué)習(xí)為代表的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法并不能帶來(lái)真正的實(shí)用化的推廣性能增長(zhǎng)。我們的建議。2內(nèi)容自然語(yǔ)言處理中的機(jī)器學(xué)習(xí)技術(shù)的興起被忽略的準(zhǔn)則沒有免費(fèi)的午餐丑小鴨 Zipf律困境的實(shí)例學(xué)習(xí)性能增長(zhǎng)根本來(lái)源是語(yǔ)料增長(zhǎng)指數(shù)增長(zhǎng)的語(yǔ)料帶來(lái)線形的性能提升結(jié)語(yǔ)3機(jī)器學(xué)習(xí)的興起現(xiàn)代方法最大熵用于詞性標(biāo)注AdwaitRatnaparkhi,JeffreyC.Reynar,SalimRoukos.AMaximumEntropyModelforPrepositionalPhraseAttachment.HLT1994機(jī)器翻譯FranzJosefOch,HermannNey.DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation.InACL2019:Proc.ofthe40thAnnualMeetingoftheAssociationforComputationalLinguistics(best paper award),pp.295-302,Philadelphia,PA,July2019.CoNLLTheConferenceonComputationalLanguageLearning(CoNLL-97)washeldonJuly11,2019inMadrid,Spain.Namedentityrecognition,chunking,semanticrolelabeling,dependencyparsing,jointlearningofsyntacticandsemanticdependencies,etc4機(jī)器學(xué)習(xí)方法的興起中文處理Bakeoff-1:2019分詞Bakeoff-2:2019分詞,統(tǒng)一的機(jī)器學(xué)習(xí)方法Bakeoff-3:2019分詞,命名實(shí)體識(shí)別Bakeoff-4:2019,2019分詞,命名實(shí)體識(shí)別,詞性標(biāo)注5為什么要機(jī)器學(xué)習(xí)樣本比規(guī)則好定義規(guī)則會(huì)忽略低頻情形語(yǔ)言的解釋涉及的因素過(guò)多Fernando PereiraMachine Learning in Natural Language ProcessingUniversity of PennsylvaniaNASSLLI,June 20196為什么要機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)降低了知識(shí)表示的難度!7機(jī)器學(xué)習(xí)方法的特征標(biāo)注數(shù)據(jù):語(yǔ)料知識(shí)表示學(xué)習(xí)方法知識(shí)獲取8機(jī)器學(xué)習(xí)方法的特征機(jī)器學(xué)習(xí)針對(duì)于傳統(tǒng)的人工智能。知識(shí)表示和獲取的分離語(yǔ)料構(gòu)建:專注于知識(shí)表示機(jī)器學(xué)習(xí):專注于知識(shí)獲取對(duì)比:專家系統(tǒng)規(guī)則的獲取和表示是同步的。規(guī)則的管理是低效率的,困難的。9機(jī)器學(xué)習(xí)和知識(shí)源從知識(shí)工程看待機(jī)器學(xué)習(xí)規(guī)則1學(xué)習(xí)模型本身/特征體系規(guī)則2-n標(biāo)注語(yǔ)料10學(xué)習(xí)模型學(xué)習(xí)模型的三要素目標(biāo)函數(shù):知識(shí)源特征體系:部分的知識(shí)源參數(shù)估計(jì)算法:與知識(shí)源基本無(wú)關(guān)11機(jī)器學(xué)習(xí):數(shù)據(jù)假定已有數(shù)據(jù)合理近似現(xiàn)實(shí)世界?擁有數(shù)據(jù)訓(xùn)練數(shù)據(jù)集(training set data):訓(xùn)練測(cè)試數(shù)據(jù)(testing data):評(píng)估驗(yàn)證集validation set:避免過(guò)擬合overfitting。真實(shí)數(shù)據(jù)(real data):最終的檢驗(yàn)12學(xué)習(xí)模型并不重要定理:沒有免費(fèi)的午餐結(jié)論描述 by David Wolpert and William G.Macready 由于對(duì)所有可能函數(shù)的相互補(bǔ)償,最優(yōu)化算法的性能是等價(jià)的。沒有其它任何算法能夠比搜索空間的線性列舉或者純隨機(jī)搜索算法更優(yōu)。該定理只是定義在有限的搜索空間,對(duì)無(wú)限搜索空間結(jié)論是否成立尚不清楚。參考文獻(xiàn)Wolpert,D.H.,Macready,W.G.(2019),NoFreeLunchTheoremsforSearch,TechnicalReportSFI-TR-95-02-010(SantaFeInstitute).Wolpert,David(2019),“TheLackofAPrioriDistinctionsbetweenLearningAlgorithms,Neural Computation,pp.1341-1390.Wolpert,D.H.,Macready,W.G.(2019),NoFreeLunchTheoremsforOptimization,IEEE Transactions on Evolutionary Computation1,67.13算法的人工傾向任何學(xué)習(xí)算法都需要一些“傾向性”,用來(lái)區(qū)分可能的結(jié)果?;氐街R(shí)源的觀點(diǎn)學(xué)習(xí)模型的三要素目標(biāo)函數(shù):知識(shí)源特征體系:部分的知識(shí)源參數(shù)估計(jì)算法:與知識(shí)源基本無(wú)關(guān)14不拒絕個(gè)別優(yōu)化機(jī)器學(xué)習(xí)的最優(yōu)是依賴于案例特性的!算法可能特別適應(yīng)于某個(gè)特定任務(wù)存在一般的優(yōu)越算法嗎?不存在15學(xué)習(xí)模型 vs.特征工程我們給出的一個(gè)沒有免費(fèi)午餐定理的直觀的強(qiáng)化描述給定任何一個(gè)學(xué)習(xí)模型,如果進(jìn)行充分的特征工程,則給定任何一個(gè)學(xué)習(xí)模型,如果進(jìn)行充分的特征工程,則在此意義下,沒有一個(gè)學(xué)習(xí)模型能夠給出更優(yōu)的性能。在此意義下,沒有一個(gè)學(xué)習(xí)模型能夠給出更優(yōu)的性能。舉例:我們?cè)谝来婢浞ǚ治錾系膶?shí)踐Nivre驗(yàn)證SVM提供了最強(qiáng)的性能我們用最大熵在同樣的學(xué)習(xí)框架下給出了更強(qiáng)的結(jié)果。而通常認(rèn)為SVM這樣的邊界最大化分類器優(yōu)于最大熵。我們?cè)谡Z(yǔ)義依存分析上的實(shí)踐我們同行用聯(lián)合學(xué)習(xí)模型,我們使用純粹的特征工程。CoNLL-2009評(píng)測(cè)結(jié)果:我們?cè)赟RL項(xiàng)目總分第一。16丑小鴨原理20世紀(jì)60年代美籍日裔模式識(shí)別專家渡邊慧證明了“丑小鴨定理”。該定理認(rèn)為“丑小鴨與白天鵝之間的區(qū)別和兩只白天鵝之間的區(qū)別一樣大”。世 界上不存在分類的客觀標(biāo)準(zhǔn),一切分類標(biāo)準(zhǔn)都是主觀主觀的。渡邊慧舉了鯨魚的例子說(shuō)明該定理:按照生物學(xué)分類方法,鯨魚屬于哺乳類偶蹄目,和牛是一 類;但在產(chǎn)業(yè)界,捕鯨與捕魚都要行船出海,鯨和魚同屬水產(chǎn)業(yè),而不屬于包括牛的畜牧業(yè)。分類結(jié)果取決于選擇什么特征作為分類標(biāo)準(zhǔn),而特征的選擇又依存于人 的目的或價(jià)值觀。丑小鴨是白天鵝的幼雛,在畫家眼里,丑小鴨和白天鵝的區(qū)別大于兩只白天鵝的區(qū)別;但在遺傳學(xué)家眼里,丑小鴨與其父親或母親的差別小于父母 之間的差別。參考文獻(xiàn)Watanabe,Satosi(1969).Knowing and Guessing:A Quantitative Study of Inference and Information.NewYork:Wiley.pp.376377.17Zipfs Law數(shù)據(jù)稀疏的嚴(yán)重性18嚴(yán)重的問(wèn)題統(tǒng)計(jì)方法如何克服嚴(yán)重的稀疏性?不斷增大標(biāo)注數(shù)據(jù)19研究者的通常做法忙于把各種最新的機(jī)器學(xué)習(xí)方法移植到所有的自然語(yǔ)言處理任務(wù)上,并企圖證明某個(gè)最新機(jī)器學(xué)習(xí)模型的移植是最有效的。忘了沒有免費(fèi)的午餐?少有人考慮特征工程/語(yǔ)料構(gòu)建20不能脫離人的主觀性的機(jī)器學(xué)習(xí)小結(jié):從語(yǔ)料中自動(dòng)獲得表達(dá)知識(shí)的規(guī)則依賴于人的主觀定義下的啟發(fā)式規(guī)則確定特征和目標(biāo)函數(shù)知識(shí)的流動(dòng):從語(yǔ)料到學(xué)習(xí)獲得的模型大量的標(biāo)注數(shù)據(jù)的獲得并不容易,但是必須21一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)任務(wù):中文分詞Bakeoff切分語(yǔ)料CRF學(xué)習(xí)模型字標(biāo)注框架22分詞信息的知識(shí)源切分語(yǔ)料輔助切分器作為特征詞典最大匹配結(jié)果作為特征參考文獻(xiàn)HaiZhao,Chang-NingHuang,MuLi(2019).AnImprovedChineseWordSegmentationSystemwithConditionalRandomField,SIGHAN-2019Low,JinKiat,&Ng,HweeTou,&Guo,Wenyuan(2019).AMaximumEntropyApproachtoChineseWordSegmentation,SIGHAN-201923數(shù)據(jù)Bakeoff-2019ASCityUCTBMSRATraining(M)8.442.710.832.17Test(K)146.3364.5256.5172.6方法方法字標(biāo)注學(xué)習(xí)方法CRFs前向最大匹配算法參考文獻(xiàn)HaiZhao,YanSongandChunyuKit,HowLargeaCorpusdoWeNeed:StatisticalMethodvs.Rule-basedMethod,LREC-201924實(shí)驗(yàn)1:統(tǒng)計(jì)方法給出的結(jié)果等效于有效知識(shí)源的擴(kuò)大輔助分類器ABCDEFASMSRSegMSRSegNEMSRA2019PKU2019PKU2019CTB2019GHIJKLASAS2019AS2019CityU2019CityU2019CityU2019AS201925實(shí)驗(yàn)1:結(jié)果CTB2019 MSRA2019baseline+Ext.Dict+C+D+E+G+H+I+J+K+A+B(Final)0.9270.94230.94680.94750.95150.95180.95220.9531Baseline+Ext.Dict.+E+G+H+K+A+B(Final)+C0.9610.96940.97040.98230.98260.970226實(shí)驗(yàn)1:為什么附加語(yǔ)料提升性能作為機(jī)器學(xué)習(xí)的解釋學(xué)習(xí)模型記住了引入的新的字搭配模式,改進(jìn)了Foov我們需要多少附加語(yǔ)料?有效知識(shí)源擴(kuò)大:只要知識(shí)源規(guī)模不斷擴(kuò)大,性能就能提升?學(xué)習(xí)模型的貢獻(xiàn)在哪里?27實(shí)驗(yàn)1:謹(jǐn)慎的結(jié)論開放測(cè)試問(wèn)題是否可以轉(zhuǎn)換為一個(gè)單一的可供集成的語(yǔ)言資源的擴(kuò)大。我們部分做到了這一點(diǎn)!機(jī)器學(xué)習(xí)模型的貢獻(xiàn)有限。28實(shí)驗(yàn)2:評(píng)估語(yǔ)料規(guī)模對(duì)性能的影響如果 語(yǔ)料規(guī)模語(yǔ)料規(guī)模是唯一影響性能的因素,那么 對(duì)于一個(gè)特定的性能度量要多大規(guī)模的語(yǔ)料來(lái)學(xué)習(xí)?29實(shí)驗(yàn)2:數(shù)據(jù)劃分是用平均化策略克服過(guò)小數(shù)據(jù)集的數(shù)據(jù)稀疏性30實(shí)驗(yàn)2:學(xué)習(xí)曲線:CRFs vs.FMM31實(shí)驗(yàn)2:CRFs 性能vs語(yǔ)料規(guī)模指數(shù)增長(zhǎng)的語(yǔ)料帶來(lái)線形性能提升32實(shí)驗(yàn)2:FMM 性能 vs.語(yǔ)料規(guī)模33實(shí)驗(yàn)2:FMM 詞典大小 vs.性能34實(shí)驗(yàn)2:小結(jié)壞消息:統(tǒng)計(jì)方法下面,線性的性能增長(zhǎng)要指數(shù)規(guī)模擴(kuò)大的語(yǔ)料以便克服 Zipf 率帶來(lái)的稀疏性。擴(kuò)大語(yǔ)料并非易事。好消息:規(guī)則方法要求線性的資源擴(kuò)大。統(tǒng)計(jì)方法 vs 規(guī)則方法考慮:詞典比語(yǔ)料容易獲得35目前的問(wèn)題機(jī)器學(xué)習(xí)方法的使用部分地解決了知識(shí)表示問(wèn)題,但是沒有根本解決這一問(wèn)題。機(jī)器學(xué)習(xí)方法依然依賴于人工知識(shí),特別是人工規(guī)則方法。機(jī)器學(xué)習(xí)方法過(guò)度依賴于標(biāo)注語(yǔ)料的規(guī)模。機(jī)器學(xué)習(xí)方法的NFL特性被忽略。不斷嘗試最新的學(xué)習(xí)模型不是技術(shù)進(jìn)步36我們的建議從知識(shí)工程的角度考慮問(wèn)題考慮更好的語(yǔ)料組織形式:知識(shí)庫(kù)?考慮NFL因素,關(guān)注特征工程37謝謝!38

注意事項(xiàng)

本文(新編作為人工智能分支的自然語(yǔ)言處理停滯的技術(shù)課件)為本站會(huì)員(29)主動(dòng)上傳,裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng)(點(diǎn)擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲