《語音人機交互》PPT課件.ppt
《《語音人機交互》PPT課件.ppt》由會員分享,可在線閱讀,更多相關《《語音人機交互》PPT課件.ppt(30頁珍藏版)》請在裝配圖網上搜索。
第4章人機主要交互技術(新一代人機交互技術),應用程序,語音合成,,,,語音輸入,語音輸出,,,語音人機交互,語音識別,自然語言處理,自然語言生成,,,交互管理,,,,,語音合成,語音合成技術是使電腦或通信終端具有類似于人一樣的說話能力的一項技術讓機器說話可以通過錄音/重放,或語音合成實現文語轉換是語音合成的一種應用形式文語轉換是連續(xù)語音識別的逆過程,孤立詞/音段階段,注重音色(音質,音品)語音合成的最早研究始于1779年Kratzensten的研究.他用一些材料制成具有各種特殊形狀的共鳴腔,目的是研究如何用管形器官模型來模擬5個單元音A、E、I、0、U1791年,VonKempelen制成了一種能說話的機器1939年,BELLLAB的H.Dudley應用共振峰原理制作了第一個電子合成器VODER(VOiceDEmonstratoR).20世紀70年代,線性預測技術用于語音合成語句階段,注重韻律1980年,MIT的D.Klatt設計制造了著名的共振峰語音合成器1986年,E.Moulines和F.Charpentier提出了基于時域波形修改的語音合成算法PSOLA2000s,Unit-selection,N.Campbell&A.Black,國外語音合成的發(fā)展,按照人類語言功能的不同層次,語音合成可分為三個層次:(1)從文字到語音的合成(Text-to-Speech)(2)從概念到語音的合成(Concept-to-Speech)(3)從意向到語音的合成(Intention-to-Speech),語音合成的層次,,,,文本,文本分析,輸出語音,語音合成,語音庫,韻律分析,,,,,字典/詞庫分詞規(guī)則,,文語轉換系統(tǒng)組成,多音字庫兒化音庫,,語音合成技術,語言學處理規(guī)則,協(xié)同發(fā)音/韻律規(guī)則,,,,,語音合成系統(tǒng)的三個主要組成部分:文本分析模塊韻律分析模塊語音生成模塊,文本分析主要功能使計算機從這些文本中能夠認識文字,從而知道要發(fā)什么音、怎么發(fā)音(聲調),并將發(fā)音的方式告訴計算機,另外還要讓計算機知道文本中,哪些是詞,哪些是短語、句子,發(fā)音時到哪應該停頓,停頓多長等等,文本規(guī)整,多音字處理,聲調判定,特殊聲調調整,特殊符號,停頓處理,語音處理,自動分詞,系統(tǒng)詞庫,多音字詞庫,變調規(guī)則庫,特殊聲調規(guī)則,,,,,,,,,,,,文本分析的任務,(1)文本規(guī)整將輸入的文本規(guī)范化。在這個過程中,要查找拼寫錯誤,處理縮略語與外文字詞等,同時分析文本中出現的數字、特殊字符、專有詞語,并將文本中出現的一些不規(guī)范或無法發(fā)音的字符過濾掉。(2)詞的切分和詞法分析分析文本中詞或短語的邊界,確定文字的讀音,以及各種多音字的讀音方式。,文本分析的主要工作步驟,(3)語法和語義分析根據文本的結構、組成和不同位置上出現的標點符號,確定語氣的變換以及不同音的輕重方式,即語言學處理。確定停頓位置,長短,語調升降,語法重音等(4)輸出文本分析模塊將輸入的文字轉換成計算機能夠處理的內部參數,便于后續(xù)模塊進一步處理并生成相應的信息。,文本分析的主要工作步驟,文本分析的主要方法/詞的切分方法(1)基于規(guī)則的方法(2)基于統(tǒng)計的方法(3)人工神經網絡的方法,基于規(guī)則(Rule-based)的方法正向最大匹配法、反向最大匹配法、逐詞遍歷法.最佳匹配法、二次掃描法等等。,基于規(guī)則方法的特點優(yōu)點:結構較為簡單、直觀,易于實現。缺點:需要大量的時間去總結規(guī)則,且模塊性能的好壞嚴重依賴于設計人員的經驗以及他們的相應的背景知識。應用:這些方法能夠取得較好的分析效果,直到目前,這些方法依然被廣泛的使用。,基于統(tǒng)計與人工神經網絡的方法(連續(xù)語音識別的逆過程,語言模型部分)基于數據驅動的文本分析方法具有代表性的有:二元文法法(Di—GrammarMethod)、三元文法法(Tri-GrammarMethod)、隱馬兒可夫模型法和神經網絡法等等。,韻律分析任何人說話都有韻律特征,比如漢語中,人說話有語調、節(jié)奏、重音等變化,反映出不同的語氣、不同的發(fā)音長短、不同的停頓方式等.韻律參數包括了能影響這些特征的聲學參數,如:基頻、音長、音強等.為合成語音規(guī)劃出音段特征,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。,韻律生成有基于規(guī)則和基于語料庫的數據驅動兩種方法(1)基于規(guī)則的方法音高規(guī)則變調規(guī)則輕聲規(guī)則協(xié)同發(fā)音音長規(guī)則能量規(guī)則,兩點說明要求有大量的音韻學知識?;谝?guī)則的方法,仍然被認作是行之有效的方法。目前大部分漢語的語音合成系統(tǒng)依然采用這種方法。,(2)基于數據驅動的韻律模型(人工神經網絡方法,統(tǒng)計方法)基于大規(guī)模語料庫的韻律建模:通過神經網絡或統(tǒng)計驅動的方法進行韻律生成,其實現步驟是首先設計或收集包含大量語音和文本信息的數據,然后建立一個訓練模型,用數據庫中提取出的韻律參數對模型進行訓練,通過訓練而得到最終的韻律模型。,語音生成根據韻律建模的結果,從原始音庫中取出相應的語音基元,利用特定的語音合成技術對語音基元進行韻律特性的調整和修改,最終合成出符合要求的語音。,語音生成主要方法規(guī)則合成按韻律規(guī)則,縮減規(guī)則等,將預先存好的語音單元拼接起來.需要對文本理解,有些復雜.參數合成(1)共振峰合成(PitchSynchronousOverLapAdd)(2)LPC(線性預測編碼)合成(3)其它如LSP和LMA合成波形拼接(1)PSOLA(基音同步疊加)合成,參數合成法早期的研究主要采用參數合成方法,它是計算發(fā)音器官的參數,從而對人的發(fā)音進行直接模擬。如著名的Klatt的共振峰合成系統(tǒng)。后來又產生了基于LPC、LSP等聲學參數的合成系統(tǒng)。這些方法用來建立聲學模型的過程為:首先錄制聲音,這些聲音涵蓋了人發(fā)音過程中所有可能出現的讀音;提取出這些聲音的聲學參數,并整合成一個完整的音庫。在發(fā)音過程中,首先根據需要發(fā)的音,從音庫中選擇合適的聲學參數,然后根據韻律模型中得到的韻律參數,通過合成算法產生語音。參數合成方法的優(yōu)點,是其音庫一般較小,并且整個系統(tǒng)能適應的韻律特征的范圍較寬,但其合成語音的音質卻往往受到一定的限制。,共振峰合成音色各異的語音具有不同的共振峰模式,因此,以每個共振峰頻率及其帶寬作為參數,可以構成共振峰濾波器,再用若干個這種濾波器的組合來模擬聲道的傳輸特性,對激勵源發(fā)出的信號可以調制,再經過輻射模型就可以得到語音合成。,優(yōu)點:由于它是對聲道的一種比較準確的模擬,因此可以合成自然度比較高的語音,容易描述自然語言中的各種發(fā)音現象。缺點:參數不好控制,從而對聲道的模擬不精確,影響合成質量和自然度。,共振峰合成特點,LPC參數合成本質上是一種時間波形的編碼技術,主要要是為了降低時域信號的的傳輸速率。合成過程是一種簡單的解碼和拼接過程.一種類似/基于波形拼接的合成技術,主要從波形的直接錄制和播放得到啟發(fā)。(錄音+重放),LPC參數合成特點LPC參數合成的優(yōu)點簡單直觀,而且由于波形拼接技術的合成基元是語音的波形數據,保存了語音的全部數據,因此對單個合成基元來說自然度很高LPC參數合成的缺點只是簡單進行波形拼接,語音生硬,波形拼接法PSOLA(基音同步疊加)合成技術基音同步疊加(TD,LPC,FD),調整音長,音強,音高.該技術主要著眼于通過參數對語音的韻律進行控制和修改。在拼接語音波形片斷之前,首先根據上下文,對拼接單元的韻律特征進行調整,使合成波形既能保持原始發(fā)音的主要音段特征,又能使拼接單元的韻律特征符合上下文的要求,從而獲取較高的清晰度和自然度。,PSOLA合成技術的優(yōu)點保持了傳統(tǒng)波形拼接的優(yōu)點,簡單直觀、運算量小,而且可以控制語音信號的韻律參數,合成自然。自然度比以前基于LPC方法或共振峰合成器的文語合成系統(tǒng)的自然度要高,并且基于PSOLA方法的合成器結構簡單易于實時實現,有很大的商用前景,PSOLA合成技術的缺點(1)它是一種基音同步的語音分析/合成技術,對基音周期或起始點的錯誤判斷會影響合成效果;(2)它是一種波形拼接合成,拼接能夠保持平穩(wěn)過渡對合成效果影響很大,但這種問題并沒有很到得到解決。,提高語音合成的自然度,達到更加流利和自然的程度。豐富合成語音的表現力,使得TTS技術可以實現各種音色(包括不同性別、不同年齡等)的語音輸出。解決中文與其它語種混讀問題。實現多語種的語音合成,即實現方言、少數民族語言的合成技術。降低語音合成技術的復雜度,減少音庫容量,擴大應用領域。情感語音合成技術。為各行業(yè)提供TTS核心技術和解決方案,特別是CTI和嵌入式系統(tǒng),語音合成的未來發(fā)展方向,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 語音人機交互 語音 人機交互 PPT 課件
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://www.hcyjhs8.com/p-12725211.html