新編作為人工智能分支的自然語言處理停滯的技術(shù)課件

上傳人:29 文檔編號:232559828 上傳時間:2023-09-21 格式:PPT 頁數(shù):38 大小:296.51KB
收藏 版權(quán)申訴 舉報 下載
新編作為人工智能分支的自然語言處理停滯的技術(shù)課件_第1頁
第1頁 / 共38頁
新編作為人工智能分支的自然語言處理停滯的技術(shù)課件_第2頁
第2頁 / 共38頁
新編作為人工智能分支的自然語言處理停滯的技術(shù)課件_第3頁
第3頁 / 共38頁

下載文檔到電腦,查找使用更方便

20 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《新編作為人工智能分支的自然語言處理停滯的技術(shù)課件》由會員分享,可在線閱讀,更多相關(guān)《新編作為人工智能分支的自然語言處理停滯的技術(shù)課件(38頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、作為人工智能分支的自然語言處理:停滯的技術(shù) 趙 海上海交通大學 計算機科學與工程系 zhaohaics.sjtu.edu沈陽 2019.09.181起源以人工智能的知識工程的角度來看待分析當前的自然語言處理技術(shù)。當前的自然語言處理被機器學習為代表的自動化數(shù)據(jù)挖掘技術(shù)所嚴重滲透??蓪⑵錃w結(jié)為一種知識獲得和學習分離的智能系統(tǒng)處理方法。忽略了基本的機器學習原則而導致低效的知識處理兩個關(guān)聯(lián)但是有區(qū)別的困境單一的數(shù)據(jù)挖掘方式的自然語言處理未能從根本上改變知識表示和知識獲取的人工智能困難。以監(jiān)督學習為代表的統(tǒng)計機器學習方法并不能帶來真正的實用化的推廣性能增長。我們的建議。2內(nèi)容自然語言處理中的機器學習技術(shù)

2、的興起被忽略的準則沒有免費的午餐丑小鴨 Zipf律困境的實例學習性能增長根本來源是語料增長指數(shù)增長的語料帶來線形的性能提升結(jié)語3機器學習的興起現(xiàn)代方法最大熵用于詞性標注AdwaitRatnaparkhi,JeffreyC.Reynar,SalimRoukos.AMaximumEntropyModelforPrepositionalPhraseAttachment.HLT1994機器翻譯FranzJosefOch,HermannNey.DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation.InA

3、CL2019:Proc.ofthe40thAnnualMeetingoftheAssociationforComputationalLinguistics(best paper award),pp.295-302,Philadelphia,PA,July2019.CoNLLTheConferenceonComputationalLanguageLearning(CoNLL-97)washeldonJuly11,2019inMadrid,Spain.Namedentityrecognition,chunking,semanticrolelabeling,dependencyparsing,joi

4、ntlearningofsyntacticandsemanticdependencies,etc4機器學習方法的興起中文處理Bakeoff-1:2019分詞Bakeoff-2:2019分詞,統(tǒng)一的機器學習方法Bakeoff-3:2019分詞,命名實體識別Bakeoff-4:2019,2019分詞,命名實體識別,詞性標注5為什么要機器學習樣本比規(guī)則好定義規(guī)則會忽略低頻情形語言的解釋涉及的因素過多Fernando PereiraMachine Learning in Natural Language ProcessingUniversity of PennsylvaniaNASSLLI,June

5、20196為什么要機器學習機器學習降低了知識表示的難度!7機器學習方法的特征標注數(shù)據(jù):語料知識表示學習方法知識獲取8機器學習方法的特征機器學習針對于傳統(tǒng)的人工智能。知識表示和獲取的分離語料構(gòu)建:專注于知識表示機器學習:專注于知識獲取對比:專家系統(tǒng)規(guī)則的獲取和表示是同步的。規(guī)則的管理是低效率的,困難的。9機器學習和知識源從知識工程看待機器學習規(guī)則1學習模型本身/特征體系規(guī)則2-n標注語料10學習模型學習模型的三要素目標函數(shù):知識源特征體系:部分的知識源參數(shù)估計算法:與知識源基本無關(guān)11機器學習:數(shù)據(jù)假定已有數(shù)據(jù)合理近似現(xiàn)實世界?擁有數(shù)據(jù)訓練數(shù)據(jù)集(training set data):訓練測試數(shù)

6、據(jù)(testing data):評估驗證集validation set:避免過擬合overfitting。真實數(shù)據(jù)(real data):最終的檢驗12學習模型并不重要定理:沒有免費的午餐結(jié)論描述 by David Wolpert and William G.Macready 由于對所有可能函數(shù)的相互補償,最優(yōu)化算法的性能是等價的。沒有其它任何算法能夠比搜索空間的線性列舉或者純隨機搜索算法更優(yōu)。該定理只是定義在有限的搜索空間,對無限搜索空間結(jié)論是否成立尚不清楚。參考文獻Wolpert,D.H.,Macready,W.G.(2019),NoFreeLunchTheoremsforSearch,T

7、echnicalReportSFI-TR-95-02-010(SantaFeInstitute).Wolpert,David(2019),“TheLackofAPrioriDistinctionsbetweenLearningAlgorithms,Neural Computation,pp.1341-1390.Wolpert,D.H.,Macready,W.G.(2019),NoFreeLunchTheoremsforOptimization,IEEE Transactions on Evolutionary Computation1,67.13算法的人工傾向任何學習算法都需要一些“傾向性”,

8、用來區(qū)分可能的結(jié)果?;氐街R源的觀點學習模型的三要素目標函數(shù):知識源特征體系:部分的知識源參數(shù)估計算法:與知識源基本無關(guān)14不拒絕個別優(yōu)化機器學習的最優(yōu)是依賴于案例特性的!算法可能特別適應(yīng)于某個特定任務(wù)存在一般的優(yōu)越算法嗎?不存在15學習模型 vs.特征工程我們給出的一個沒有免費午餐定理的直觀的強化描述給定任何一個學習模型,如果進行充分的特征工程,則給定任何一個學習模型,如果進行充分的特征工程,則在此意義下,沒有一個學習模型能夠給出更優(yōu)的性能。在此意義下,沒有一個學習模型能夠給出更優(yōu)的性能。舉例:我們在依存句法分析上的實踐Nivre驗證SVM提供了最強的性能我們用最大熵在同樣的學習框架下給出了

9、更強的結(jié)果。而通常認為SVM這樣的邊界最大化分類器優(yōu)于最大熵。我們在語義依存分析上的實踐我們同行用聯(lián)合學習模型,我們使用純粹的特征工程。CoNLL-2009評測結(jié)果:我們在SRL項目總分第一。16丑小鴨原理20世紀60年代美籍日裔模式識別專家渡邊慧證明了“丑小鴨定理”。該定理認為“丑小鴨與白天鵝之間的區(qū)別和兩只白天鵝之間的區(qū)別一樣大”。世 界上不存在分類的客觀標準,一切分類標準都是主觀主觀的。渡邊慧舉了鯨魚的例子說明該定理:按照生物學分類方法,鯨魚屬于哺乳類偶蹄目,和牛是一 類;但在產(chǎn)業(yè)界,捕鯨與捕魚都要行船出海,鯨和魚同屬水產(chǎn)業(yè),而不屬于包括牛的畜牧業(yè)。分類結(jié)果取決于選擇什么特征作為分類標準

10、,而特征的選擇又依存于人 的目的或價值觀。丑小鴨是白天鵝的幼雛,在畫家眼里,丑小鴨和白天鵝的區(qū)別大于兩只白天鵝的區(qū)別;但在遺傳學家眼里,丑小鴨與其父親或母親的差別小于父母 之間的差別。參考文獻Watanabe,Satosi(1969).Knowing and Guessing:A Quantitative Study of Inference and Information.NewYork:Wiley.pp.376377.17Zipfs Law數(shù)據(jù)稀疏的嚴重性18嚴重的問題統(tǒng)計方法如何克服嚴重的稀疏性?不斷增大標注數(shù)據(jù)19研究者的通常做法忙于把各種最新的機器學習方法移植到所有的自然語言處理任務(wù)

11、上,并企圖證明某個最新機器學習模型的移植是最有效的。忘了沒有免費的午餐?少有人考慮特征工程/語料構(gòu)建20不能脫離人的主觀性的機器學習小結(jié):從語料中自動獲得表達知識的規(guī)則依賴于人的主觀定義下的啟發(fā)式規(guī)則確定特征和目標函數(shù)知識的流動:從語料到學習獲得的模型大量的標注數(shù)據(jù)的獲得并不容易,但是必須21一個簡單的機器學習任務(wù):中文分詞Bakeoff切分語料CRF學習模型字標注框架22分詞信息的知識源切分語料輔助切分器作為特征詞典最大匹配結(jié)果作為特征參考文獻HaiZhao,Chang-NingHuang,MuLi(2019).AnImprovedChineseWordSegmentationSystemw

12、ithConditionalRandomField,SIGHAN-2019Low,JinKiat,&Ng,HweeTou,&Guo,Wenyuan(2019).AMaximumEntropyApproachtoChineseWordSegmentation,SIGHAN-201923數(shù)據(jù)Bakeoff-2019ASCityUCTBMSRATraining(M)8.442.710.832.17Test(K)146.3364.5256.5172.6方法方法字標注學習方法CRFs前向最大匹配算法參考文獻HaiZhao,YanSongandChunyuKit,HowLargeaCorpusdoWeNe

13、ed:StatisticalMethodvs.Rule-basedMethod,LREC-201924實驗1:統(tǒng)計方法給出的結(jié)果等效于有效知識源的擴大輔助分類器ABCDEFASMSRSegMSRSegNEMSRA2019PKU2019PKU2019CTB2019GHIJKLASAS2019AS2019CityU2019CityU2019CityU2019AS201925實驗1:結(jié)果CTB2019 MSRA2019baseline+Ext.Dict+C+D+E+G+H+I+J+K+A+B(Final)0.9270.94230.94680.94750.95150.95180.95220.9531B

14、aseline+Ext.Dict.+E+G+H+K+A+B(Final)+C0.9610.96940.97040.98230.98260.970226實驗1:為什么附加語料提升性能作為機器學習的解釋學習模型記住了引入的新的字搭配模式,改進了Foov我們需要多少附加語料?有效知識源擴大:只要知識源規(guī)模不斷擴大,性能就能提升?學習模型的貢獻在哪里?27實驗1:謹慎的結(jié)論開放測試問題是否可以轉(zhuǎn)換為一個單一的可供集成的語言資源的擴大。我們部分做到了這一點!機器學習模型的貢獻有限。28實驗2:評估語料規(guī)模對性能的影響如果 語料規(guī)模語料規(guī)模是唯一影響性能的因素,那么 對于一個特定的性能度量要多大規(guī)模的語料

15、來學習?29實驗2:數(shù)據(jù)劃分是用平均化策略克服過小數(shù)據(jù)集的數(shù)據(jù)稀疏性30實驗2:學習曲線:CRFs vs.FMM31實驗2:CRFs 性能vs語料規(guī)模指數(shù)增長的語料帶來線形性能提升32實驗2:FMM 性能 vs.語料規(guī)模33實驗2:FMM 詞典大小 vs.性能34實驗2:小結(jié)壞消息:統(tǒng)計方法下面,線性的性能增長要指數(shù)規(guī)模擴大的語料以便克服 Zipf 率帶來的稀疏性。擴大語料并非易事。好消息:規(guī)則方法要求線性的資源擴大。統(tǒng)計方法 vs 規(guī)則方法考慮:詞典比語料容易獲得35目前的問題機器學習方法的使用部分地解決了知識表示問題,但是沒有根本解決這一問題。機器學習方法依然依賴于人工知識,特別是人工規(guī)則方法。機器學習方法過度依賴于標注語料的規(guī)模。機器學習方法的NFL特性被忽略。不斷嘗試最新的學習模型不是技術(shù)進步36我們的建議從知識工程的角度考慮問題考慮更好的語料組織形式:知識庫?考慮NFL因素,關(guān)注特征工程37謝謝!38

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!

五月丁香婷婷狠狠色,亚洲日韩欧美精品久久久不卡,欧美日韩国产黄片三级,手机在线观看成人国产亚洲