《用于智能家居語音識別系統(tǒng)設計.doc》由會員分享,可在線閱讀,更多相關《用于智能家居語音識別系統(tǒng)設計.doc(10頁珍藏版)》請在裝配圖網上搜索。
1、儀器科學與電氣工程學院 本科畢業(yè)論文(設計)開題報告題 目: 用于智能家居的語音識別系統(tǒng)設計學生姓名: 學 號: 專 業(yè):電氣工程及其自動化指導教師: 講師2015年1月3日1. 選題依據1.1 選題背景語言作為人類信息交流中最重要的和最方便的方式,人與機器的交流能否像人與人一樣自如,是人們研究的問題??刂普搫?chuàng)始人維納在1950年就曾指出:“通常,我們把語言僅僅看作人與人之間的通信手段,但是,要使人向機器,機器向人以及機器向機器講話,那也是完全辦得到的”。隨著現代科學技術的進一步發(fā)展和人民生活水平不斷的提高,人們對家庭住宅需求的概念也發(fā)生了徹底的改變。人們正在從以往追求房屋空間的寬闊和裝飾的亮
2、麗、豪華,向著追求品味、安全、舒適、便捷和智能方向發(fā)展。現在的家庭不僅要滿足人們生活、工作、娛樂和交流的需要,同時還可以提供充分的安全防護、物業(yè)管理等手段。智能家居是建筑藝術、生活理念與信息技術、電子技術等現代高科技手段完美結合的產物,它的出現滿足了人們對住宅高性能、智能化的要求21世紀信息時代的到來,IT產業(yè)的發(fā)展和人們生活水平的提高,“智能家居”、“家庭自動化”、“網絡家電”、“家庭網絡”等技術的推動,智能家居的生活已經近在咫尺。在智能家居中傳統(tǒng)的家用電器的控制,無外乎兩種控制方式:手動或遙控。隨著家用電器的增多,開關和遙控越來越多,使用極不方便。這時,我們可以釆用語音識別的方式控制,例如
3、,在觀看電視頻道時,我們可以很方便地直接說出“中央一套”來,所以語音識別及控制在智能家居中尤其重要。1.2 國內外研究現況1、語音識別技術的發(fā)展就技術而言,目前國內外對語音識別理論及各種實用算法的研究是一熱點。人們普遍關心的問題是不斷提高語音識別的識別率、識別更多的詞匯量、擴大語音識別的應用等研究。語音識別技術發(fā)展到今天,PC 機的語音識別系統(tǒng)己經趨于成熟,而且還出現了一些具有實用價值和市場語音識別前景的語音識別芯片。近幾年來,個人消費類電子產品的廣泛使用,使大量的識別系統(tǒng)從實驗室 PC 平臺轉移到嵌入式平臺設備中,現在嵌入式對特定人語音識別系統(tǒng)的識別精度己經達到 98%以上。 嵌入式語音識別
4、系統(tǒng)和 PC 機的語音識別系統(tǒng)相比,雖然其運算速度和內存容量有一些限制,但是它也有各自的特點。嵌入式系統(tǒng)體積小、可靠性高、耗電低、投入小、便于移動等優(yōu)點,是嵌入式語音識別系統(tǒng)和 PC 機的語音識別系統(tǒng)相比的最大優(yōu)勢。而且嵌入式語音識別系統(tǒng)多為實時系統(tǒng),當用戶講話后,系統(tǒng)能夠立即完成詞條識別并作出反應。這些特點決定了嵌入式語音識別系統(tǒng)的應用十分廣泛??梢灶A測在近幾年內,嵌入式語音識別系統(tǒng)的應用將更加廣泛。各種語音識別系統(tǒng)將出現在市場上。根據美國專家預測,具有語音識別功能的產品可達 50 億美元。在短期內還不可能具有和人相比擬的語音識別系統(tǒng),要建成這樣一個系統(tǒng)仍然是人類面臨的一大挑戰(zhàn),我們正一步步
5、朝著改進語音系統(tǒng)的方向邁進。我國語音識別研究工作一直緊跟國際水平,國家也很重視,并把大詞匯量語音識別的研究列入“863”計劃,由中科院聲學所、自動化所及北京大學等單位研究開發(fā),取得了高水平的科研成果,如中科院自動化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機對話系統(tǒng),其字準確率或系統(tǒng)響應率可達 90 %以上。鑒于中國未來龐大的市場,國外也非常重視漢語語音識別的研究。美國、新加坡等地聚集了一批來自大陸、臺灣、香港等地的學者,研究成果已達到相當高水平。2、智能家居的發(fā)展智能家居起源于上世紀80年代的美國,在上世紀末來到中國,經過十幾年的發(fā)展,特別是伴隨住宅產業(yè)的進步,智能家居在中國己經顯出春筍
6、出露的局面。當家庭智能網關將家庭中各種各樣的家電通過家庭總線技術連接在一起時,就構成了功能強大、高度智能化的現代智能家居系統(tǒng)。在國內,智能家居作為一項新興產業(yè),發(fā)展前景毋庸置疑。在2011年;建設部出臺的規(guī)劃中,也表示未來60%以上的新房都具有一定的“智能型家居”功能;顯然,智能家居正在形成一種產業(yè),蘊含著巨大的市場潛力。目前的智能家居主要采用國外的一些技術和產品,當然也有一些企業(yè)推出自己的產品。例如,海爾公司的“e家庭”和清華同方的“e-home數字家園”。3、發(fā)展趨勢語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用領域和市場前景。應用語音的自動理解和翻譯,可消除人類相互交往的語言障
7、礙。通信技術的飛速發(fā)展,語音識別技術將為網上會議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓等各個領域帶來極大的便利。目前語音識別系統(tǒng)主要應用有以下幾方面: 高檔智能玩具(比如能和兒童交流的語音娃娃、聲控玩具汽車等)、汽車電子語音導航系統(tǒng)(通過語音實現地名和各種命令的輸入)、汽車免提電話(語音撥號),家電語音智能控制(比如空調、冰箱、消毒柜、洗衣機、電燈等)、手機(比如語音撥號)、PDA 等。4、存在問題(1)目前使用的語言模型只是概率模型,所以準確性不會達到百分百;(2)語音識別受特定人、口音或者方言的影響;(3)環(huán)境雜音或者噪音對語音識別效果影響較大。2.課題基本內容2.1課題目標以智能家居控制的語音識
8、別為應用背景,利用嵌入式系統(tǒng)開發(fā)板硬件平臺,設計語音識別算法程序,實現語音識別系統(tǒng)。2.2研究內容(1)學習掌握基于ARM的嵌入式控制系統(tǒng);(2)學習和研究語音識別算法并運用在ARM中進行編程。2.3預期成果提交一套嵌入式(ARM)語音識別系統(tǒng),包括嵌入式語音識別算法,系統(tǒng)具有較高識別率和識別速度。3開題前期基礎及實施方案3.1了解語音識別原理 (1)語音信號的數學模型 語音是由聲道激勵發(fā)生共振而產生的,由于在發(fā)聲過程中聲道是運動的,因此可以用一個時變線性系統(tǒng)來描擬。當在一個較短的時間間隔內表示語音信號時,可以采用線性時不變模型,如圖1表示信號產生模型。圖1 信號產生模型三部分模型有各自相應表
9、達式,最終的輸出信號由各部分模型串聯組成。(2)語音信號的處理語音信號中含有豐富的信息,從中提取對語音識別有用信息的過程,就是特征提取。特征提取方法是整個語音識別系統(tǒng)的基礎,對語音識別率有極其重要的影響。它主要分為 3 類:基于 LPC 的倒譜參數分析;基于 FFT 的頻譜余弦變換分析;采用前沿數字信號處理技術的特征分析手段,如小波分析、時頻域分析、人工神經網絡等。語音識別的過程可以看作模式匹配的過程,模式匹配是指根據一定的準則,使未知模式與模型庫中的某個模型獲得最佳匹配的過程。模式匹配要用到參考模板,這些模板通過模板訓練獲得。模板訓練就是指按照一定的準則,從大量已知模式中獲取表征該模式本質特
10、征的模型參數。(3)語音識別原理語音識別屬于模式識別,與人的認知過程一樣,分為訓練和識別兩個過程。在訓練階段,語音識別系統(tǒng)對人類語言進行學習,學習結束,把學習內容組成語音庫存儲起來;識別階段就可以把人們當前輸入的語音在語音庫中查找相應的詞義或語義。從信號處理的角度,任何一個語音識別系統(tǒng)都能以圖2來表示:圖2 語音識別系統(tǒng)3.2語音識別模型語音識別基本原理是對語音信號進行特征提取。目前常用的語音識別算法有基于模式匹配的動態(tài)時間規(guī)整法(DTW:Dynamic Time Warping),基于統(tǒng)計模型 DSP 的隱馬爾可夫模型法(HMM:Hidden Markov Model)以及基于人工神經網絡識
11、別法(ANN)等。(1)隱馬爾可夫模型法(HMM)HMM 作為語音信號的一種統(tǒng)計模型,在語音處理領域中獲得廣泛應用。HMM 是在馬爾可夫鏈的基礎上發(fā)展起來的。由于實際問題比馬爾可夫鏈模型所描述的更為復雜,觀察到的事件并不是與狀態(tài)一一對應,而是通過一組概率分布相聯系,這樣的模型就稱為 HMM。它是一個雙重隨機過程,其中之一就是馬爾可夫鏈,這是基本隨機過程,它描述狀態(tài)的轉移。另一隨機過程描述狀態(tài)與觀察值的統(tǒng)計對應關系。站在觀察者的角度,只能看到觀察值,不能直接看到狀態(tài),而是通過一個隨機過程去感知狀態(tài)的存在及其特性。因而稱之為“隱”馬爾可夫模型。隱馬爾可夫模型法可用于大多數大詞匯量、連續(xù)語音的非特定
12、人語音識別,它很好的模仿了人的發(fā)音系統(tǒng)的狀態(tài)與語音信號這兩個隨機過程,是一種較為理想的語音模型,但是他的缺點在于統(tǒng)計模型的建立需要依賴一個較大的語音庫。這在實際工作中占有很大的工作量。且模型所需要的存儲量和匹配計算(包括特征矢量的輸出概率計算)的運算量相對較大,通常需要具有一定容量SRAM 的 DSP 才能完成。(2)人工神經網絡 (ANN)ANN 在語音識別領域的應用是在 20 世紀 80 年代中后期發(fā)展起來的。其思想是用大量簡單的處理單元并行連接構成一種信息處理系統(tǒng)。這種系統(tǒng)可以進行自我更新,且有高度的并行處理及容錯能力,因而在認知任務中非常吸引人。但是 ANN 相對于模式匹配而言,在反映
13、語音的動態(tài)特性上存在重大缺陷。單獨使用 ANN 的系統(tǒng)識別性能不高,所以目前 ANN 通常在多階段識別中與 HMM 算法配合使用。(3)動態(tài)時間規(guī)整(DTW)語音識別中,不能簡單地將輸入模板直接比較,因為語音信號具有相當大的隨機性,即使同一個人,在不同時刻的同一句話發(fā)的同一個音,也不可能具有完全相同的時間長度,因此時間規(guī)整必不可少。DTW 是時間規(guī)整與距離測度結合的非線性規(guī)整技術。假設參考模板特征矢量序列為 a1,a2,am,aM;輸入語音特征矢量序列為 b1,b2,bn,bN,MN,那么動態(tài)時間規(guī)整是要尋找時間規(guī)整函數 m=(n),它把輸入模板的時間軸 n 非線性地映射到參考模板的時間軸 m
14、。上式中,d n,(n)是第 n 幀輸入矢量和第 m 幀參考矢量的距離,D 是相應于最優(yōu)時間規(guī)整下一個模板的距離測度。DTW 是一個典型的最優(yōu)化問題,它用滿足一定條件的時間規(guī)整函數 (n)描述輸入模板和參考模板的時間對應關系,求解兩模板匹配時的累計距離最小所對應的規(guī)整函數。DTW 算法通過將待識語音信號的時間軸進行不均勻的扭曲和彎曲,使其特征與模板特征對齊,并在兩者之間不斷的進行兩個矢量最小的匹配路徑計算,從而獲得兩個矢量匹配時累計距離最小的歸整函數。這是一個將時間歸整和距離測度有機結合在一起的非線性歸整技術,保證了待識別特征與模板特征之間最大的聲學相似特征和最小的時差失真,是成功解決匹配問題
15、的最早、最常用的方法。由于 DTW 模版匹配的運算量不大,并且限于小詞表,一般的應用領域孤立數碼、簡單命令集、地名或人名集的語音識別,與智能家居的命令相符,所以本次設計采用該算法。3.3處理器與方案設計嵌入式語音系統(tǒng)硬件平臺主要包括中央處理器、外圍控制電路、只讀存儲器、可讀寫存儲器和外圍設備。嵌入式系統(tǒng)體積小、專用性強的特點決定了其硬件必須根據實際需要高效率的設計。在設計嵌入式語音識別系統(tǒng) Linux 平臺硬件環(huán)境時,結合芯片的功能、功耗、體積、成本和可靠性等多方面性能要求,綜合考慮,最終選擇用 Samsung 公司的高性能 S3C2440 ARM 處理器作硬件開發(fā)平臺的核心,圍繞它搭建外圍電
16、路,其所需要的外圍電路芯片,購買的開發(fā)板就可以滿足。下圖圖3為系統(tǒng)的總設計框架:麥克風語音處理芯片UDA1341TSARMS3C2440SDRAM顯示屏輸出命令圖3 系統(tǒng)總設計圖由相應的語音解碼芯片轉換語音信號,通過S3C2440的計算和處理,轉換成控制指令(可以由數碼管或二極管對輸出進行檢測),最好可以在控制處設立顯示界面以便于操作者進行監(jiān)控。4.重難點(1)語音信號的數學建模,這是整個系統(tǒng)設計的基礎;(2)基于嵌入式系統(tǒng)的語音識別算法的實現,包含兩方面內容:一是語音識別算法的學習,二是算法在ARM中的實現;(3)語音識別算法要有實時性,在保證識別率的前提下,識別速度要快,即語音發(fā)出后,應在
17、最短的時間內識別出來,用來發(fā)出準確控制命令。5.工作進度安排(1)2013年12月:查閱相關資料,進行翻譯英文文獻,編寫開題報告,明確畢業(yè)設計工作的內容,根據資料,設計系統(tǒng)流程圖;(2)2014年13月:對ARM進行學習,掌握并熟練使用ARM完成簡單功能,學習并購置元器件; (3)2014年4月:學習關于語音識別方面算法,實現初步的語音識別功能;(4)2014年5月:實現家居的模型以及語音對家居的控制,對系統(tǒng)進行初步調試,準備中期檢查;(5)2014年6月:對該系統(tǒng)進行進一步的調試。進一步完善整個系統(tǒng),測試功能實現情況,優(yōu)化系統(tǒng),并嘗試制作顯示界面;(6)2014年6月:撰寫畢業(yè)論文,參加答辯
18、。6.參考資料1. 周冀輝.基于ARM9的語音控制智能終端的設計D.華中科技大學軟件工程學院, 2010.2. 劉志偉.基于ARM的語音識別研究D.東華大學模式識別與智能系統(tǒng),2010.3. 肖麗君.基于DTW模型的孤立詞語音識別算法實現研究D.中南大學控制科學與工程,2010.4. 劉榮輝.基于智能家居控制的嵌入式語音識別系統(tǒng)研究D.廣東工業(yè)大學控制理論與控制工程,2013.5. 張雪英.數字語音處理及MATLAB仿真M.北京:電子工業(yè)出版社,2010.6. 劉文強.語音識別技術在智能家居中的研究與應用D.大連海事大學計算機科學與技術,2013.7. Ye X,Huang J. A fram
19、ework for Cloud-based Smart HomeC. Proceedings of Computer Science and Network Technology (ICCSNT), 2011 International Conference on, volume 2. IEEH,2011.8. Lecouteux B, Vacher M,Portet F, et al. Distant speech recognition in a smart home: comparison of several multisource ASRs in realistic conditio
20、nsJ. Proceedings of Inter- speech 2011,2011.9. Walker W, Lamere P, Kwok P,et al. Sphinx-4: A flexible open source framework for speech recognition J. Automatic Speech Recognition and Understanding, IEEE Workshop on,2005.10.Giacobelio D, Christensen M G, Murthi M N, et al. Sparse linear prediction and its applications to speech processingJ. Audio, Speech, and Language Processing, IEEE Transactions on, 2012.開題報告評審意見論文題目:用于智能家居的語音識別系統(tǒng)設計學生姓名: 學 號:專 業(yè):電氣工程及其自動化 指導教師: 指導教師對學生開題報告的評語:指導教師簽字: 年 月 日評審組意見:組長簽字: 年 月 日注:用16K紙打印或填寫