《語音人機(jī)交互》PPT課件.ppt
《《語音人機(jī)交互》PPT課件.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《《語音人機(jī)交互》PPT課件.ppt(30頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第4章人機(jī)主要交互技術(shù)(新一代人機(jī)交互技術(shù)),應(yīng)用程序,語音合成,,,,語音輸入,語音輸出,,,語音人機(jī)交互,語音識(shí)別,自然語言處理,自然語言生成,,,交互管理,,,,,語音合成,語音合成技術(shù)是使電腦或通信終端具有類似于人一樣的說話能力的一項(xiàng)技術(shù)讓機(jī)器說話可以通過錄音/重放,或語音合成實(shí)現(xiàn)文語轉(zhuǎn)換是語音合成的一種應(yīng)用形式文語轉(zhuǎn)換是連續(xù)語音識(shí)別的逆過程,孤立詞/音段階段,注重音色(音質(zhì),音品)語音合成的最早研究始于1779年Kratzensten的研究.他用一些材料制成具有各種特殊形狀的共鳴腔,目的是研究如何用管形器官模型來模擬5個(gè)單元音A、E、I、0、U1791年,VonKempelen制成了一種能說話的機(jī)器1939年,BELLLAB的H.Dudley應(yīng)用共振峰原理制作了第一個(gè)電子合成器VODER(VOiceDEmonstratoR).20世紀(jì)70年代,線性預(yù)測(cè)技術(shù)用于語音合成語句階段,注重韻律1980年,MIT的D.Klatt設(shè)計(jì)制造了著名的共振峰語音合成器1986年,E.Moulines和F.Charpentier提出了基于時(shí)域波形修改的語音合成算法PSOLA2000s,Unit-selection,N.Campbell&A.Black,國(guó)外語音合成的發(fā)展,按照人類語言功能的不同層次,語音合成可分為三個(gè)層次:(1)從文字到語音的合成(Text-to-Speech)(2)從概念到語音的合成(Concept-to-Speech)(3)從意向到語音的合成(Intention-to-Speech),語音合成的層次,,,,文本,文本分析,輸出語音,語音合成,語音庫(kù),韻律分析,,,,,字典/詞庫(kù)分詞規(guī)則,,文語轉(zhuǎn)換系統(tǒng)組成,多音字庫(kù)兒化音庫(kù),,語音合成技術(shù),語言學(xué)處理規(guī)則,協(xié)同發(fā)音/韻律規(guī)則,,,,,語音合成系統(tǒng)的三個(gè)主要組成部分:文本分析模塊韻律分析模塊語音生成模塊,文本分析主要功能使計(jì)算機(jī)從這些文本中能夠認(rèn)識(shí)文字,從而知道要發(fā)什么音、怎么發(fā)音(聲調(diào)),并將發(fā)音的方式告訴計(jì)算機(jī),另外還要讓計(jì)算機(jī)知道文本中,哪些是詞,哪些是短語、句子,發(fā)音時(shí)到哪應(yīng)該停頓,停頓多長(zhǎng)等等,文本規(guī)整,多音字處理,聲調(diào)判定,特殊聲調(diào)調(diào)整,特殊符號(hào),停頓處理,語音處理,自動(dòng)分詞,系統(tǒng)詞庫(kù),多音字詞庫(kù),變調(diào)規(guī)則庫(kù),特殊聲調(diào)規(guī)則,,,,,,,,,,,,文本分析的任務(wù),(1)文本規(guī)整將輸入的文本規(guī)范化。在這個(gè)過程中,要查找拼寫錯(cuò)誤,處理縮略語與外文字詞等,同時(shí)分析文本中出現(xiàn)的數(shù)字、特殊字符、專有詞語,并將文本中出現(xiàn)的一些不規(guī)范或無法發(fā)音的字符過濾掉。(2)詞的切分和詞法分析分析文本中詞或短語的邊界,確定文字的讀音,以及各種多音字的讀音方式。,文本分析的主要工作步驟,(3)語法和語義分析根據(jù)文本的結(jié)構(gòu)、組成和不同位置上出現(xiàn)的標(biāo)點(diǎn)符號(hào),確定語氣的變換以及不同音的輕重方式,即語言學(xué)處理。確定停頓位置,長(zhǎng)短,語調(diào)升降,語法重音等(4)輸出文本分析模塊將輸入的文字轉(zhuǎn)換成計(jì)算機(jī)能夠處理的內(nèi)部參數(shù),便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。,文本分析的主要工作步驟,文本分析的主要方法/詞的切分方法(1)基于規(guī)則的方法(2)基于統(tǒng)計(jì)的方法(3)人工神經(jīng)網(wǎng)絡(luò)的方法,基于規(guī)則(Rule-based)的方法正向最大匹配法、反向最大匹配法、逐詞遍歷法.最佳匹配法、二次掃描法等等。,基于規(guī)則方法的特點(diǎn)優(yōu)點(diǎn):結(jié)構(gòu)較為簡(jiǎn)單、直觀,易于實(shí)現(xiàn)。缺點(diǎn):需要大量的時(shí)間去總結(jié)規(guī)則,且模塊性能的好壞嚴(yán)重依賴于設(shè)計(jì)人員的經(jīng)驗(yàn)以及他們的相應(yīng)的背景知識(shí)。應(yīng)用:這些方法能夠取得較好的分析效果,直到目前,這些方法依然被廣泛的使用。,基于統(tǒng)計(jì)與人工神經(jīng)網(wǎng)絡(luò)的方法(連續(xù)語音識(shí)別的逆過程,語言模型部分)基于數(shù)據(jù)驅(qū)動(dòng)的文本分析方法具有代表性的有:二元文法法(Di—GrammarMethod)、三元文法法(Tri-GrammarMethod)、隱馬兒可夫模型法和神經(jīng)網(wǎng)絡(luò)法等等。,韻律分析任何人說話都有韻律特征,比如漢語中,人說話有語調(diào)、節(jié)奏、重音等變化,反映出不同的語氣、不同的發(fā)音長(zhǎng)短、不同的停頓方式等.韻律參數(shù)包括了能影響這些特征的聲學(xué)參數(shù),如:基頻、音長(zhǎng)、音強(qiáng)等.為合成語音規(guī)劃出音段特征,如音高、音長(zhǎng)和音強(qiáng)等,使合成語音能正確表達(dá)語意,聽起來更加自然。,韻律生成有基于規(guī)則和基于語料庫(kù)的數(shù)據(jù)驅(qū)動(dòng)兩種方法(1)基于規(guī)則的方法音高規(guī)則變調(diào)規(guī)則輕聲規(guī)則協(xié)同發(fā)音音長(zhǎng)規(guī)則能量規(guī)則,兩點(diǎn)說明要求有大量的音韻學(xué)知識(shí)?;谝?guī)則的方法,仍然被認(rèn)作是行之有效的方法。目前大部分漢語的語音合成系統(tǒng)依然采用這種方法。,(2)基于數(shù)據(jù)驅(qū)動(dòng)的韻律模型(人工神經(jīng)網(wǎng)絡(luò)方法,統(tǒng)計(jì)方法)基于大規(guī)模語料庫(kù)的韻律建模:通過神經(jīng)網(wǎng)絡(luò)或統(tǒng)計(jì)驅(qū)動(dòng)的方法進(jìn)行韻律生成,其實(shí)現(xiàn)步驟是首先設(shè)計(jì)或收集包含大量語音和文本信息的數(shù)據(jù),然后建立一個(gè)訓(xùn)練模型,用數(shù)據(jù)庫(kù)中提取出的韻律參數(shù)對(duì)模型進(jìn)行訓(xùn)練,通過訓(xùn)練而得到最終的韻律模型。,語音生成根據(jù)韻律建模的結(jié)果,從原始音庫(kù)中取出相應(yīng)的語音基元,利用特定的語音合成技術(shù)對(duì)語音基元進(jìn)行韻律特性的調(diào)整和修改,最終合成出符合要求的語音。,語音生成主要方法規(guī)則合成按韻律規(guī)則,縮減規(guī)則等,將預(yù)先存好的語音單元拼接起來.需要對(duì)文本理解,有些復(fù)雜.參數(shù)合成(1)共振峰合成(PitchSynchronousOverLapAdd)(2)LPC(線性預(yù)測(cè)編碼)合成(3)其它如LSP和LMA合成波形拼接(1)PSOLA(基音同步疊加)合成,參數(shù)合成法早期的研究主要采用參數(shù)合成方法,它是計(jì)算發(fā)音器官的參數(shù),從而對(duì)人的發(fā)音進(jìn)行直接模擬。如著名的Klatt的共振峰合成系統(tǒng)。后來又產(chǎn)生了基于LPC、LSP等聲學(xué)參數(shù)的合成系統(tǒng)。這些方法用來建立聲學(xué)模型的過程為:首先錄制聲音,這些聲音涵蓋了人發(fā)音過程中所有可能出現(xiàn)的讀音;提取出這些聲音的聲學(xué)參數(shù),并整合成一個(gè)完整的音庫(kù)。在發(fā)音過程中,首先根據(jù)需要發(fā)的音,從音庫(kù)中選擇合適的聲學(xué)參數(shù),然后根據(jù)韻律模型中得到的韻律參數(shù),通過合成算法產(chǎn)生語音。參數(shù)合成方法的優(yōu)點(diǎn),是其音庫(kù)一般較小,并且整個(gè)系統(tǒng)能適應(yīng)的韻律特征的范圍較寬,但其合成語音的音質(zhì)卻往往受到一定的限制。,共振峰合成音色各異的語音具有不同的共振峰模式,因此,以每個(gè)共振峰頻率及其帶寬作為參數(shù),可以構(gòu)成共振峰濾波器,再用若干個(gè)這種濾波器的組合來模擬聲道的傳輸特性,對(duì)激勵(lì)源發(fā)出的信號(hào)可以調(diào)制,再經(jīng)過輻射模型就可以得到語音合成。,優(yōu)點(diǎn):由于它是對(duì)聲道的一種比較準(zhǔn)確的模擬,因此可以合成自然度比較高的語音,容易描述自然語言中的各種發(fā)音現(xiàn)象。缺點(diǎn):參數(shù)不好控制,從而對(duì)聲道的模擬不精確,影響合成質(zhì)量和自然度。,共振峰合成特點(diǎn),LPC參數(shù)合成本質(zhì)上是一種時(shí)間波形的編碼技術(shù),主要要是為了降低時(shí)域信號(hào)的的傳輸速率。合成過程是一種簡(jiǎn)單的解碼和拼接過程.一種類似/基于波形拼接的合成技術(shù),主要從波形的直接錄制和播放得到啟發(fā)。(錄音+重放),LPC參數(shù)合成特點(diǎn)LPC參數(shù)合成的優(yōu)點(diǎn)簡(jiǎn)單直觀,而且由于波形拼接技術(shù)的合成基元是語音的波形數(shù)據(jù),保存了語音的全部數(shù)據(jù),因此對(duì)單個(gè)合成基元來說自然度很高LPC參數(shù)合成的缺點(diǎn)只是簡(jiǎn)單進(jìn)行波形拼接,語音生硬,波形拼接法PSOLA(基音同步疊加)合成技術(shù)基音同步疊加(TD,LPC,FD),調(diào)整音長(zhǎng),音強(qiáng),音高.該技術(shù)主要著眼于通過參數(shù)對(duì)語音的韻律進(jìn)行控制和修改。在拼接語音波形片斷之前,首先根據(jù)上下文,對(duì)拼接單元的韻律特征進(jìn)行調(diào)整,使合成波形既能保持原始發(fā)音的主要音段特征,又能使拼接單元的韻律特征符合上下文的要求,從而獲取較高的清晰度和自然度。,PSOLA合成技術(shù)的優(yōu)點(diǎn)保持了傳統(tǒng)波形拼接的優(yōu)點(diǎn),簡(jiǎn)單直觀、運(yùn)算量小,而且可以控制語音信號(hào)的韻律參數(shù),合成自然。自然度比以前基于LPC方法或共振峰合成器的文語合成系統(tǒng)的自然度要高,并且基于PSOLA方法的合成器結(jié)構(gòu)簡(jiǎn)單易于實(shí)時(shí)實(shí)現(xiàn),有很大的商用前景,PSOLA合成技術(shù)的缺點(diǎn)(1)它是一種基音同步的語音分析/合成技術(shù),對(duì)基音周期或起始點(diǎn)的錯(cuò)誤判斷會(huì)影響合成效果;(2)它是一種波形拼接合成,拼接能夠保持平穩(wěn)過渡對(duì)合成效果影響很大,但這種問題并沒有很到得到解決。,提高語音合成的自然度,達(dá)到更加流利和自然的程度。豐富合成語音的表現(xiàn)力,使得TTS技術(shù)可以實(shí)現(xiàn)各種音色(包括不同性別、不同年齡等)的語音輸出。解決中文與其它語種混讀問題。實(shí)現(xiàn)多語種的語音合成,即實(shí)現(xiàn)方言、少數(shù)民族語言的合成技術(shù)。降低語音合成技術(shù)的復(fù)雜度,減少音庫(kù)容量,擴(kuò)大應(yīng)用領(lǐng)域。情感語音合成技術(shù)。為各行業(yè)提供TTS核心技術(shù)和解決方案,特別是CTI和嵌入式系統(tǒng),語音合成的未來發(fā)展方向,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 語音人機(jī)交互 語音 人機(jī)交互 PPT 課件
鏈接地址:http://www.hcyjhs8.com/p-12725211.html