秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

機(jī)器翻譯IIMachineTranslationII.ppt

上傳人:max****ui 文檔編號(hào):14790521 上傳時(shí)間:2020-07-30 格式:PPT 頁(yè)數(shù):64 大?。?73.50KB
收藏 版權(quán)申訴 舉報(bào) 下載
機(jī)器翻譯IIMachineTranslationII.ppt_第1頁(yè)
第1頁(yè) / 共64頁(yè)
機(jī)器翻譯IIMachineTranslationII.ppt_第2頁(yè)
第2頁(yè) / 共64頁(yè)
機(jī)器翻譯IIMachineTranslationII.ppt_第3頁(yè)
第3頁(yè) / 共64頁(yè)

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁(yè)未讀,繼續(xù)閱讀

資源描述:

《機(jī)器翻譯IIMachineTranslationII.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《機(jī)器翻譯IIMachineTranslationII.ppt(64頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、機(jī)器翻譯IIMachine Translation II,張宇 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 ,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,2,大綱,基于翻譯記憶的機(jī)器翻譯方法 基于模板(模式)的機(jī)器翻譯方法 雙語(yǔ)語(yǔ)料庫(kù)對(duì)齊技術(shù) 句子對(duì)齊 詞語(yǔ)對(duì)齊 機(jī)器翻譯的評(píng)價(jià),2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,3,翻譯記憶方法1,翻譯記憶方法(Translation Memory)是基于實(shí)例方法的特例; 也可以把基于實(shí)例的方法理解為廣義的翻譯記憶方法; 翻譯記憶的基本思想: 把已經(jīng)翻譯過(guò)的句子保存起來(lái) 翻譯新句子時(shí),直接到語(yǔ)料庫(kù)中去查找 如果發(fā)現(xiàn)相同的句

2、子,直接輸出譯文 否則交給人去翻譯,但可以提供相似的句子的參考譯文,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,4,翻譯記憶方法2,翻譯記憶方法主要被應(yīng)用于計(jì)算機(jī)輔助翻譯(CAT)軟件中 翻譯記憶方法的優(yōu)缺點(diǎn) 翻譯質(zhì)量有保證 隨著使用時(shí)間匹配成功率逐步提高 特別適用于重復(fù)率高的文本翻譯,例如公司的產(chǎn)品說(shuō)明書的新版本翻譯 與語(yǔ)言無(wú)關(guān),適用于各種語(yǔ)言對(duì) 缺點(diǎn)是匹配成功率不高,特別是剛開(kāi)始使用時(shí),2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,5,翻譯記憶方法3,計(jì)算機(jī)輔助翻譯(CAT)軟件已經(jīng)形成了比較成熟的產(chǎn)業(yè) TRADOS 號(hào)稱占有國(guó)際CAT市場(chǎng)的70% Mic

3、rosoft、Siemens、SAP等國(guó)際大公司和一些著名的國(guó)際組織都是其用戶 雅信CAT 適合中國(guó)人的習(xí)慣 產(chǎn)品已比較成熟 國(guó)際組織: LISA(Localisation Industry Standards Association) 面向用戶:專業(yè)翻譯人員 數(shù)據(jù)交換:LISA制定了TMX(Translation Memory eXchange)標(biāo)準(zhǔn)。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,6,翻譯記憶方法4,完整的計(jì)算機(jī)輔助翻譯軟件除了包括翻譯記憶功能以外,還應(yīng)該包括以下功能 多種文件格式的分解與合成 術(shù)語(yǔ)庫(kù)管理功能 語(yǔ)料庫(kù)的句子對(duì)齊(歷史資料的重復(fù)利用) 項(xiàng)目管理

4、: 翻譯任務(wù)的分解與合并 翻譯工作量的估計(jì) 數(shù)據(jù)共享和數(shù)據(jù)交換,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,7,翻譯記憶方法5,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,8,基于模板(模式)的機(jī)器翻譯方法1,基于模板(Template)或者模式(Pattern)的機(jī)器翻譯方法通常也被看做基于實(shí)例的機(jī)器翻譯方法的一種延伸 所謂“翻譯模板”或者“翻譯模式”可以認(rèn)為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實(shí)例”之間的翻譯知識(shí)表示形式 翻譯規(guī)則:顆粒度大,匹配可能性大,但過(guò)于抽象,容易出錯(cuò) 翻譯實(shí)例:顆粒度小,不易出錯(cuò),但過(guò)于具體,匹配可能性小 翻譯模板(模式):介于

5、二者之間,是一種比較合適的知識(shí)表示形式 一般而言,單語(yǔ)模板(或模式)是一個(gè)常量和變量組成的字符串,翻譯模板(或模式)是兩個(gè)對(duì)應(yīng)的單語(yǔ)模板(或模式),兩個(gè)模板之間的變量存在意義對(duì)應(yīng)關(guān)系,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,9,基于模板(模式)的機(jī)器翻譯方法2,模板舉例: 這個(gè)X 比Y 更Z。 The X is more Z than Y. 模板方法的主要問(wèn)題 對(duì)模板中變量的約束 模板抽取 模板的沖突消解,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,10,Pattern-Based CFG for MT 1,Koichi Takeda, Pattern-

6、Based Context-Free Grammars for Machine Translation, Proc. of 34th ACL, pp. 144-- 151, June 1996 給出了翻譯模式的一種形式化定義,并給出了相應(yīng)的翻譯算法以及算法復(fù)雜性的理論證明,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,11,Pattern-Based CFG for MT 2,每個(gè)翻譯模板由一個(gè)源語(yǔ)言上下文無(wú)關(guān)規(guī)則和一個(gè)目標(biāo)語(yǔ)言上下文無(wú)關(guān)規(guī)則(這兩個(gè)規(guī)則稱為翻譯模板的骨架),以及對(duì)這兩個(gè)規(guī)則的中心詞約束和鏈接約束構(gòu)成; 中心詞約束:對(duì)于上下文無(wú)關(guān)語(yǔ)法規(guī)則中右部(子結(jié)點(diǎn))的每個(gè)非

7、終結(jié)符,可以指定其中心詞;對(duì)于規(guī)則左部(父結(jié)點(diǎn))的非終結(jié)符,可以直接指定其中心詞,也可以通過(guò)使用相同的序號(hào)規(guī)定其中心詞等于其右部的某個(gè)非終結(jié)符的中心詞; 鏈接約束:源語(yǔ)言骨架和目標(biāo)語(yǔ)言骨架的非終結(jié)符子結(jié)點(diǎn)通過(guò)使用相同的序號(hào)建立對(duì)應(yīng)關(guān)系,具有對(duì)應(yīng)關(guān)系的非終結(jié)符互為翻譯。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,12,Pattern-Based CFG for MT 3,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,13,Pattern-Based CFG for MT 3,翻譯的過(guò)程分為三步: 使用源語(yǔ)言CFG骨架分析輸入句子s 應(yīng)用源語(yǔ)言到目標(biāo)語(yǔ)言的CFG

8、骨架的鏈接約束,生成一個(gè)譯文CFG推導(dǎo)序列 根據(jù)譯文CFG推導(dǎo)序列產(chǎn)生譯文 模板排序的啟發(fā)式原則: 對(duì)于源文CFG骨架相同的模板,有中心詞約束的模板優(yōu)先于沒(méi)有中心詞約束的模板; 對(duì)于同一跨度上的兩個(gè)結(jié)點(diǎn),比較其對(duì)應(yīng)的模板的源文CFG骨架,非終結(jié)符少的模板優(yōu)先于非終結(jié)符多的模板; 中心詞約束被滿足的結(jié)點(diǎn)優(yōu)先于中心詞約束不被滿足的結(jié)點(diǎn); 對(duì)于一個(gè)輸入串而言,分析步驟越短(推導(dǎo)序列越短)越優(yōu)先。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,14,Pattern-Based CFG for MT 4,模板庫(kù)的獲?。杭僭O(shè)T是一組翻譯模板,B是雙語(yǔ)語(yǔ)料庫(kù),是一對(duì)互為翻譯的句子 如果T能夠

9、翻譯句子s為t,那么do nothing; 如果T將s譯為t(不等于t),那么: 如果T中存在的推導(dǎo)Q,但這個(gè)推導(dǎo)不是最優(yōu)解,那么給Q中的模板進(jìn)行實(shí)例化; 如果不存在這種推導(dǎo),那么加入適當(dāng)?shù)哪0?,使得推?dǎo)成立; 如果根本無(wú)法翻譯s(分析失?。?,那么將直接加入到模板庫(kù)中。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,15,模板的自動(dòng)提取,利用一對(duì)實(shí)例進(jìn)行泛化 Jaime G. Carbonell, Ralf D. Brown, Generalized Example-Based Machine Translation http://www.lti.cs.cmu.edu/Res

10、earch/GEBMT/ 利用兩對(duì)實(shí)例進(jìn)行比較 H. Altay Guvenir, Ilyas Cicekli, Learning Translation Templates from Examples Information Systems, 1998 張健,基于實(shí)例的機(jī)器翻譯的泛化方法研究,中科院計(jì)算所碩士論文,2001,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,16,通過(guò)泛化實(shí)例得到翻譯模板,已有實(shí)例: Karl Marx was born in Trier, Germany in May 5, 1818. 卡爾馬克思于1818年5月5日出生在德國(guó)特里爾城。 泛化:

11、was born in in 于出生在 對(duì)齊 ,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,17,通過(guò)比較實(shí)例得到翻譯模板,已有兩對(duì)翻譯實(shí)例: 我給瑪麗一支筆 I gave Mary a pen. 我給湯姆一本書 I gave Tom a book. 雙側(cè)單語(yǔ)句子分別比較,得到: 我給#X 一#Y #Z I give #W a #U. 查找變量的對(duì)應(yīng)關(guān)系: #X #W #Y #Z #U,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,18,實(shí)例庫(kù)的匹配1,實(shí)例匹配的目的是將輸入句子分解成語(yǔ)料庫(kù)中實(shí)例片斷的組合,這是基于實(shí)例的機(jī)器翻譯的關(guān)鍵問(wèn)題之一,實(shí)例匹配

12、的各種方法有很大的差異,還沒(méi)有那種做法顯示出明顯的優(yōu)勢(shì); 實(shí)例庫(kù)匹配的效率問(wèn)題:由于實(shí)例庫(kù)規(guī)模較大,通常需要建立倒排索引; 實(shí)例庫(kù)匹配的其他問(wèn)題: 實(shí)例片斷的分解: 實(shí)例片斷的組合:,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,19,實(shí)例庫(kù)的匹配2,實(shí)例片斷的分解 實(shí)例庫(kù)中的句子往往太長(zhǎng),直接匹配成功率太低,為了提高實(shí)例的重用性,需要將實(shí)例庫(kù)中的句子分解為片斷 幾種通常的做法: 按標(biāo)點(diǎn)符號(hào)分解 任意分解 通過(guò)組塊分析進(jìn)行分解,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,20,實(shí)例庫(kù)的匹配3,實(shí)例片斷的組合 一個(gè)被翻譯的句子,往往可以通過(guò)各種不同的實(shí)例片斷進(jìn)行

13、組合,如何選擇一個(gè)最好的組合? 簡(jiǎn)單的做法: 最大匹配 最大概率法:選擇概率乘積最大的片斷組合 有點(diǎn)像漢語(yǔ)詞語(yǔ)切分問(wèn)題,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,21,片斷譯文的選擇,由于語(yǔ)料庫(kù)中一個(gè)片斷可能有多種翻譯方法,因此存在片斷譯文的選擇問(wèn)題; 常用的方法: 根據(jù)片斷上下文進(jìn)行排歧; 根據(jù)譯文的語(yǔ)言模型選擇概率最大的譯文片斷組合,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,22,實(shí)例庫(kù)的對(duì)齊,實(shí)例庫(kù)又稱雙語(yǔ)語(yǔ)料庫(kù)(Bilingual Corpus)或平行語(yǔ)料庫(kù)(Parallel Corpus) 雙語(yǔ)語(yǔ)料庫(kù)對(duì)齊的級(jí)別 篇章對(duì)齊 段落對(duì)齊 句子對(duì)齊 詞

14、語(yǔ)對(duì)齊 短語(yǔ)塊對(duì)齊 句法結(jié)構(gòu)對(duì)齊 基于實(shí)例的機(jī)器翻譯中實(shí)例庫(kù)必須至少做到句子級(jí)別的對(duì)齊,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,23,不同對(duì)齊級(jí)別的差異,段落對(duì)齊和句子對(duì)齊 要求保持順序(允許局部順序的調(diào)整) 只有一個(gè)層次 詞語(yǔ)對(duì)齊和短語(yǔ)塊對(duì)齊 不要求保持順序 只有一個(gè)層次 句法結(jié)構(gòu)對(duì)齊 不要求保持順序 多層次對(duì)齊,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,24,句子對(duì)齊1,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,25,句子對(duì)齊2,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,26,基于長(zhǎng)度的句子對(duì)齊1,基本思想:

15、源語(yǔ)言和目標(biāo)語(yǔ)言的句子長(zhǎng)度存在一定的比例關(guān)系 用兩個(gè)因素來(lái)估計(jì)一個(gè)句珠的概率 源語(yǔ)言和目標(biāo)語(yǔ)言中句子的長(zhǎng)度 源語(yǔ)言和目標(biāo)語(yǔ)言中的句子數(shù)(對(duì)齊模式),2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,27,基于長(zhǎng)度的句子對(duì)齊2,根據(jù)統(tǒng)計(jì),隨機(jī)變量X=lTi/lSi服從正態(tài)分布,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,28,基于長(zhǎng)度的句子對(duì)齊3,設(shè)通過(guò)語(yǔ)料庫(kù)統(tǒng)計(jì)得到X的期望為c,方差為v2,那么隨機(jī)變量將服從0,1正態(tài)分布: 根據(jù)正態(tài)分布公式可以計(jì)算出(直接查表):,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,29,基于長(zhǎng)度的句子對(duì)齊4,對(duì)齊模式

16、的概率P(mS,mT)可以通過(guò)對(duì)語(yǔ)料庫(kù)的統(tǒng)計(jì)得到。 下面是Gale & Church根據(jù)UBS語(yǔ)料庫(kù)的統(tǒng)計(jì)結(jié)果:,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,30,基于長(zhǎng)度的句子對(duì)齊5,最優(yōu)路徑的搜索:采用動(dòng)態(tài)規(guī)劃算法 定義P(i,j)=P(s1si,t1tj) 最優(yōu)對(duì)齊為P(m,n)所對(duì)應(yīng)的路徑,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,31,基于長(zhǎng)度的句子對(duì)齊6,優(yōu)點(diǎn) 不依賴于具體的語(yǔ)言; 速度快; 效果好 缺點(diǎn) 由于沒(méi)有考慮詞語(yǔ)信息,有時(shí)會(huì)產(chǎn)生一些明顯的錯(cuò)誤 討論 長(zhǎng)度計(jì)算可以采用詞數(shù)或者字節(jié)數(shù),沒(méi)有明顯的優(yōu)劣之分,2020年7月30日10時(shí)9分,

17、語(yǔ)言信息處理--機(jī)器翻譯II,32,基于詞的句子對(duì)齊1,基本思想:互為翻譯的句子對(duì)中,含有互為翻譯的詞語(yǔ)對(duì)的概率,大大高于隨機(jī)的句子對(duì) 用兩個(gè)因素來(lái)估計(jì)一個(gè)句珠的概率 源語(yǔ)言和目標(biāo)語(yǔ)言中互譯詞語(yǔ)的個(gè)數(shù) 源語(yǔ)言和目標(biāo)語(yǔ)言中的句子數(shù)(對(duì)齊模式),2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,33,基于詞的句子對(duì)齊2,優(yōu)點(diǎn) 可以充分利用詞語(yǔ)互譯信息,提高正確率 缺點(diǎn) 單獨(dú)使用時(shí),正確率有時(shí)低于基于長(zhǎng)度的方法(取決于詞典的規(guī)模質(zhì)量等) 時(shí)空開(kāi)銷大 討論 對(duì)于同源的語(yǔ)言(英語(yǔ)和法語(yǔ),漢語(yǔ)和日語(yǔ))可以利用詞語(yǔ)同源信息而不使用詞典,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II

18、,34,句子對(duì)齊小結(jié),句子對(duì)齊的語(yǔ)料庫(kù)是基于語(yǔ)料庫(kù)的機(jī)器翻譯的基礎(chǔ); 綜合采用基于長(zhǎng)度的方法和基于詞匯的方法可以取得較好的效果; 句子對(duì)齊可以取得很高的正確率,已經(jīng)達(dá)到實(shí)用水平。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,35,詞語(yǔ)對(duì)齊1,特點(diǎn): 保序性不再滿足 對(duì)齊模式復(fù)雜:一對(duì)多、多對(duì)一、多對(duì)多都非常普遍,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,36,詞語(yǔ)對(duì)齊2,困難: 翻譯歧義:一個(gè)詞出現(xiàn)兩個(gè)以上的譯詞 雙語(yǔ)詞典覆蓋率有限:非常普遍的現(xiàn)象 位置歧義:出現(xiàn)兩個(gè)以上相同的詞 漢語(yǔ)詞語(yǔ)切分問(wèn)題 虛詞問(wèn)題:虛詞的翻譯非常靈活,或沒(méi)有對(duì)譯詞 意譯問(wèn)題:根本

19、找不到對(duì)譯的詞,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,37,詞語(yǔ)對(duì)齊3,一般而言,一個(gè)單詞對(duì)齊的模型可以表述為兩個(gè)模型的乘積: 詞語(yǔ)相似度模型(word similarity model) 位置扭曲模型(word distortion model) 用公式表示如下:,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,38,詞語(yǔ)相似度模型1,翻譯概率:IBM Model 1 T-Score: Nc:語(yǔ)料庫(kù)中單詞c出現(xiàn)的詞數(shù) Ne:語(yǔ)料庫(kù)中單詞e出現(xiàn)的詞數(shù) Nec:語(yǔ)料庫(kù)中單詞e和單詞c互譯的詞數(shù),2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,3

20、9,詞語(yǔ)相似度模型2,戴斯系數(shù)(dice coefficient) 設(shè)S1和S2分別是兩個(gè)集合,則這兩個(gè)集合的戴斯系數(shù)可以通過(guò)如下公式計(jì)算 把漢語(yǔ)詞理解為漢字的集合,戴斯系數(shù)就是兩個(gè)詞中相同的漢字占兩個(gè)詞漢字總數(shù)的比例??紤]到漢字表意性,這種方法在計(jì)算漢語(yǔ)詞相似度時(shí)有較好的效果 計(jì)算漢語(yǔ)詞c和英語(yǔ)詞e的相似度: 先用英語(yǔ)詞e查英漢詞典,得到所有的漢語(yǔ)對(duì)譯詞; 計(jì)算所有對(duì)譯詞和c的戴斯系數(shù),取其中的最大值。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,40,詞語(yǔ)相似度模型3,互信息(mutual information) 通過(guò)兩個(gè)事件X和Y各自出現(xiàn)的概率為p(X)和p(Y),他

21、們聯(lián)合出現(xiàn)的概率為p(X,Y),這兩個(gè)事件之間共同的互信息量定義為: 當(dāng)兩個(gè)事件相互獨(dú)立時(shí),互信息量為0; 當(dāng)兩個(gè)事件傾向于同時(shí)出現(xiàn)時(shí),互信息量為正; 當(dāng)兩個(gè)事件傾向于互相排斥時(shí),互信息量為負(fù); 利用互信息作詞語(yǔ)相似度計(jì)算效果較差。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,41,詞語(yǔ)相似度模型4,2方法:利用聯(lián)立表(contingency table) 2方法的效果比較好,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,42,詞語(yǔ)相似度模型5,對(duì)數(shù)似然比( Log Likelihood Ratio,LLR ) 對(duì)數(shù)似然比在使用中比較有效,在訓(xùn)練語(yǔ)料庫(kù)規(guī)

22、模較小時(shí)尤為明顯,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,43,詞語(yǔ)相似度模型6,概念相似度 利用某種形式的義類詞典(Thesaurus),計(jì)算兩個(gè)詞語(yǔ)對(duì)應(yīng)的概念之間的相似度 其中d是概念p1、p2之間的距離,一般用概念層次體系中兩個(gè)結(jié)點(diǎn)之間的距離來(lái)計(jì)算是一個(gè)可條件的參數(shù),2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,44,詞語(yǔ)相似度模型7,同義詞詞林的概念層次體系 虛線用于標(biāo)識(shí)某上層結(jié)點(diǎn)到下層結(jié)點(diǎn)的路徑,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,45,位置扭曲模型1,絕對(duì)扭曲模型:IBM Model 2 l:源語(yǔ)言句子長(zhǎng)度

23、 m:目標(biāo)語(yǔ)言句子長(zhǎng)度 i:源語(yǔ)言詞語(yǔ)位置 j:目標(biāo)語(yǔ)言詞語(yǔ)位置,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,46,位置扭曲模型2,相對(duì)偏移模型,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,47,位置扭曲模型3,基于HMM的扭曲模型 將每個(gè)對(duì)齊看作狀態(tài),對(duì)齊位置之間的轉(zhuǎn)移是狀態(tài)的轉(zhuǎn)移,該對(duì)齊處的單詞對(duì)作為輸出。這樣就可以將對(duì)齊問(wèn)題映射到HMM上,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,48,詞語(yǔ)對(duì)齊小結(jié),詞語(yǔ)對(duì)齊比句子對(duì)齊困難得多; 詞語(yǔ)對(duì)齊主要使用一個(gè)詞語(yǔ)相似度模型和一個(gè)位置扭曲模型; 詞語(yǔ)對(duì)齊的副產(chǎn)品:雙語(yǔ)詞典抽取

24、貪心算法:每次抽取可能性最高的詞對(duì); 詞語(yǔ)抽取和詞語(yǔ)對(duì)齊反復(fù)迭代 可以抽取多詞單元(n元組),2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,49,機(jī)器翻譯評(píng)價(jià)1,最早的機(jī)器翻譯評(píng)價(jià):ALPAC報(bào)告 機(jī)器翻譯評(píng)價(jià)的常用指標(biāo) 忠實(shí)度(Adequacy):譯文在多大程度上傳遞了源文的內(nèi)容; 流利度(Fluency):譯文是否符合目標(biāo)語(yǔ)言的語(yǔ)法和表達(dá)習(xí)慣; 信息度(Informative):用戶可以從譯文中獲得信息的程度(通過(guò)選擇題評(píng)分) 絕對(duì)評(píng)價(jià)和相對(duì)評(píng)價(jià),2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,50,機(jī)器翻譯評(píng)價(jià)2,人工評(píng)價(jià) 準(zhǔn)確 成本極高 不能反復(fù)使用 自動(dòng)

25、評(píng)價(jià) 準(zhǔn)確率低 成本低 可以反復(fù)使用,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,51,機(jī)器翻譯評(píng)價(jià)3,機(jī)器翻譯的評(píng)價(jià)一直是機(jī)器翻譯研究領(lǐng)域中一個(gè)備受關(guān)注的問(wèn)題; 機(jī)器翻譯的自動(dòng)評(píng)價(jià)越來(lái)越引起重視 “評(píng)測(cè)驅(qū)動(dòng)”成為自然語(yǔ)言處理研究的一個(gè)主要?jiǎng)恿?大規(guī)模語(yǔ)料庫(kù)的出現(xiàn)、各種機(jī)器翻譯算法的提出,使得開(kāi)發(fā)過(guò)程中頻繁的評(píng)測(cè)成為必需 開(kāi)發(fā)過(guò)程中頻繁的評(píng)測(cè)只能通過(guò)采用自動(dòng)評(píng)測(cè)方法,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,52,機(jī)器翻譯的自動(dòng)評(píng)測(cè),完全匹配方法 與參考譯文完全相同的譯文才被認(rèn)為是正確的 顯然該標(biāo)準(zhǔn)過(guò)于嚴(yán)格,不適用 編輯距離方法 基于測(cè)試點(diǎn)的方法 基于N元

26、語(yǔ)法的方法,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,53,基于編輯距離的機(jī)器翻譯評(píng)測(cè)1,編輯距離定義: 從候選譯文到參考譯文,所需要進(jìn)行的插入、刪除、替換操作的次數(shù) 舉例說(shuō)明: 源文:She is a star with the theatre company. 機(jī)器譯文:她是與劇院公司的一顆星。 參考譯文:她是劇團(tuán)的明星。 編輯距離:6 插入:與 公司 一顆 替換:劇團(tuán)劇院 明星星,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,54,基于編輯距離的機(jī)器翻譯評(píng)測(cè)2,單詞錯(cuò)誤率:編輯距離除以參考譯文中單詞數(shù) 這個(gè)指標(biāo)是從語(yǔ)音識(shí)別中借鑒過(guò)來(lái)的。 由于語(yǔ)音識(shí)別的

27、結(jié)果語(yǔ)序是不可變的,而機(jī)器翻譯的結(jié)果語(yǔ)序是可變的,顯然這個(gè)指標(biāo)存在一定的缺陷。 與位置無(wú)關(guān)的單詞錯(cuò)誤率:計(jì)算編輯距離時(shí),不考慮插入、刪除、替換操作的順序 也就是說(shuō),候選譯文與參考譯文相比,多出或不夠的詞進(jìn)行刪除或插入操作,其余不同的詞進(jìn)行替換操作。 這個(gè)指標(biāo)與單詞錯(cuò)誤率相比,允許語(yǔ)序的變化,不過(guò)又過(guò)于靈活。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,55,基于測(cè)試點(diǎn)的機(jī)器翻譯評(píng)測(cè)1,俞士汶等,機(jī)器翻譯譯文質(zhì)量自動(dòng)評(píng)估系統(tǒng),中國(guó)中文信息學(xué)會(huì)1991年論文集,pp. 314319 基本思想 對(duì)于每一個(gè)句子,孤立測(cè)試點(diǎn),簡(jiǎn)化測(cè)試目標(biāo)(模擬人類標(biāo)準(zhǔn)化考試的辦法) 對(duì)于每一個(gè)句子,采

28、用一種TDL語(yǔ)言描述的BNF去與譯文匹配,匹配成功則正確,否則錯(cuò)誤 大批量出題,全面評(píng)價(jià)機(jī)器翻譯譯文質(zhì)量,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,56,基于測(cè)試點(diǎn)的機(jī)器翻譯評(píng)測(cè)2,測(cè)試點(diǎn)分組: 單詞、詞組、詞法、語(yǔ)法(初、中、高級(jí)) 測(cè)試點(diǎn)示例: 源文:I am a student. 測(cè)試:譯文中出現(xiàn)“學(xué)生/大學(xué)生”為正確 源文:I bought a table with three dollars. 測(cè)試:“買”出現(xiàn)在“美元”之后為正確 源文:I bought a table with three legs. 測(cè)試:“買”出現(xiàn)在“腿”之前為正確,2020年7月30日10

29、時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,57,基于測(cè)試點(diǎn)的機(jī)器翻譯評(píng)測(cè)3,優(yōu)點(diǎn): 全自動(dòng) 實(shí)驗(yàn)證明,評(píng)價(jià)結(jié)果是可信的 可以按照人類專家的要求進(jìn)行單項(xiàng)評(píng)測(cè) 缺點(diǎn) 題庫(kù)的構(gòu)造需要具有專門知識(shí)的專家,并且成本較高,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,58,基于N元語(yǔ)法的機(jī)器翻譯評(píng)測(cè)1,Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM Research, RC22176 (W010

30、9-022) September 17, 2001 基本思想 用譯文中出現(xiàn)的N元組和參考譯文中出現(xiàn)的N元組相比,計(jì)算匹配的N元組個(gè)數(shù)與候選譯文的N元組總個(gè)數(shù)的比例 允許一個(gè)源文有多個(gè)參考譯文,綜合評(píng)分,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,59,基于N元語(yǔ)法的機(jī)器翻譯評(píng)測(cè)2,源文:黨指揮槍是我黨的行動(dòng)指南。 候選譯文: It is a guide to action which ensures that the military always obeys the command of the party It is to insure the troops foreve

31、r hearing the activity guidebook that party direct 參考譯文: It is a guide to action that ensures that the military will forever heed party commands It is the guiding principle which guarantees the military forces always being under the command of the party It is the practical guide for the army to heed

32、 the directions of the party,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,60,基于N元語(yǔ)法的機(jī)器翻譯評(píng)測(cè)3,兩個(gè)改進(jìn): 對(duì)于候選譯文中某個(gè)n元接續(xù)組出現(xiàn)的次數(shù),如果比參考譯文中出現(xiàn)的最大次數(shù)還多,要把多出的次數(shù)“剪掉”(不作為正確的匹配)。 為了避免“召回率”過(guò)低的問(wèn)題,BLEU的評(píng)價(jià)標(biāo)準(zhǔn)又對(duì)比參考譯文更短的句子設(shè)計(jì)了“懲罰因子”。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,61,基于N元語(yǔ)法的機(jī)器翻譯評(píng)測(cè)4,BLEU的總體評(píng)價(jià)公式如下: 其中,pn是出現(xiàn)在參考譯文中的n元詞語(yǔ)接續(xù)組占候選譯文中n元詞語(yǔ)接續(xù)組總數(shù)的比例,wn

33、 1/N,N為最大的n元語(yǔ)法階數(shù)(實(shí)際取4)。 其中c為候選譯文中單詞的個(gè)數(shù),r為參考譯文中與c最接近的譯文單詞個(gè)數(shù)。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,62,基于N元語(yǔ)法的機(jī)器翻譯評(píng)測(cè)5,其中S1、S2、S3分別是三個(gè)不同的機(jī)器翻譯系統(tǒng)提供的譯文,H1和H2是兩個(gè)人類翻譯者提供的譯文。藍(lán)線是BLEU系統(tǒng)評(píng)測(cè)的結(jié)果,紅線是只懂目標(biāo)語(yǔ)言的人類專家提供的評(píng)測(cè)結(jié)果,綠線是同時(shí)懂源語(yǔ)言和目標(biāo)語(yǔ)言的人類專家提供的評(píng)測(cè)結(jié)果。,2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,63,基于N元語(yǔ)法的機(jī)器翻譯評(píng)測(cè)6,這種方法比較好地模擬了人對(duì)機(jī)器翻譯結(jié)果的評(píng)價(jià) 對(duì)于低質(zhì)量譯文比高質(zhì)量譯文的評(píng)價(jià)跟準(zhǔn)確; 評(píng)價(jià)結(jié)果與只懂目標(biāo)語(yǔ)言的人的評(píng)價(jià)結(jié)果更接近(相對(duì)于懂雙語(yǔ)的人而言) 優(yōu)點(diǎn) 全自動(dòng) 可以提供多種參考譯文綜合考慮,結(jié)果更全面 容易構(gòu)造測(cè)試集,不需要專門知識(shí),2020年7月30日10時(shí)9分,語(yǔ)言信息處理--機(jī)器翻譯II,64,復(fù)習(xí)思考題,利用圣經(jīng)雙語(yǔ)語(yǔ)料庫(kù)實(shí)現(xiàn)一個(gè)詞語(yǔ)對(duì)齊系統(tǒng),并從中抽取出一部包含多詞單元的雙語(yǔ)詞典。,

展開(kāi)閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!