關于統(tǒng)計機器翻譯的思考姚天順.ppt
《關于統(tǒng)計機器翻譯的思考姚天順.ppt》由會員分享,可在線閱讀,更多相關《關于統(tǒng)計機器翻譯的思考姚天順.ppt(43頁珍藏版)》請在裝配圖網(wǎng)上搜索。
關于統(tǒng)計機器翻譯的思考 姚天順自然語言處理實驗室東北大學tsyao 2004 7 11 1 前言有這么兩條消息 5月10日 參考消息 隨著又有10個國家加入歐盟 歐盟現(xiàn)有20種官方語言 年度翻譯預算增加到10億美元 5月28日 參考消息 歐盟新通過一項議案 所有成員國在歐盟會議上的文件不得超過15頁A4紙 以減輕翻譯人員的工作量 機器翻譯的現(xiàn)狀和未來到底怎么樣了 有計算機的那一天就有機器翻譯的研究 計算機事業(yè)蓬勃發(fā)展 但機器翻譯的道路至今仍然十分艱難 上世紀的八十年代 特別是九十年代 語料庫語言學在計算語言學界興起 最近的五年到十年 機器學習方法又受到學術界特別的重視 數(shù)學方法大量地引進了語言信息處理 自然語言處理的研究是進了一大步 但對于機器翻譯而言 真實的效果在哪里呢 回憶基于規(guī)則的機器翻譯系統(tǒng)作為主流技術的時代 不管怎么樣 多少還出現(xiàn)過一些有市場價值的系統(tǒng) 例如譯星 華建和史曉東等的漢英翻譯系統(tǒng) 華建的機器翻譯 居然取得了國內(nèi)單項軟件出口的最高出售價 歐洲和日本情況也是這樣 當前主流的機器翻譯還都是基于規(guī)則的機器翻譯系統(tǒng) 基于語料庫的機器翻譯方法 一般說來可以分為兩類 一類是基于統(tǒng)計的機器翻譯系統(tǒng) 另一類和基于模板的機器翻譯方法 基于統(tǒng)計的機器翻譯 簡稱為統(tǒng)計機器翻譯 統(tǒng)計機器翻譯把源語言中任何一個句子都可能是目標語言中某些句子相似 這些句子的相似程度可能都不相同 那么 一個好的機器翻譯系統(tǒng)就是那種能找到最相似句子的系統(tǒng) 但是這樣的漢外機器翻譯系統(tǒng)在我們國家從來也沒有出現(xiàn)過 1994年 IBM公司的A Berger P Brown等人發(fā)表了一個技術報告 即著名的論文 ThecandideSystemofMachineTranslation 他們用統(tǒng)計方法 各種不同的對齊技術 給出了命名為Candide的統(tǒng)計機器翻譯系統(tǒng) 利用漢莎語料庫 Hansardcorpus 英法雙語語料庫 總共有2 205 733英法句對作為訓練語料 實現(xiàn)了國際上第一個較為著名的英語到法語的統(tǒng)計機器翻譯系統(tǒng) 一開始 系統(tǒng)的成績不錯 整體的系統(tǒng)的譯準率超過了基于解釋 轉(zhuǎn)換 和生成的規(guī)則系統(tǒng) ARPA 美國國防部高級研究計劃署 把這個Candide翻譯系統(tǒng)進行評測 并和國際上利用常規(guī)的規(guī)則系統(tǒng)構(gòu)造的SYSTRAN機器翻譯系統(tǒng)作比較 結(jié)果是 流利程度適當程度時間比率率199219931992199319921993SYSTRAN 466 540 686 743Candide 511 580 575 670Transman 819 838 837 850 688 625Manual 833 840TransmanisthepartoftheCandidesystemusedasatranslationassis tancetool i e amachine aidedtranslationsystem 這個結(jié)果很了不起 在某種程度上推動了經(jīng)驗主義思潮更進一步向前發(fā)展 由于計算語言的復雜性 Candide系統(tǒng)還請了一些語言學家來幫助他們做形態(tài)分析 語義標注 和詞典等 Candide系統(tǒng)仍不是一個純統(tǒng)計的系統(tǒng) 這樣的系統(tǒng) 看來很有希望 不知為什么 由于IBM公司外部和內(nèi)部財政方面的原因 支持被撤走 他們的工作堅持到1995年 就被迫停止 呼聲很高的系統(tǒng)被中斷了 有人說 純統(tǒng)計的機器翻譯注定是要失敗的 美國著名機器翻譯學者YorickWilks在批評Candide系統(tǒng)時指出 他們在系統(tǒng)中引入符號結(jié)構(gòu)就說明了 純統(tǒng)計的假設已經(jīng)失敗了 Incorporatingsymbolicstructureshowsthepurestatisticshypothesishasfailed 可見 統(tǒng)計方法是令人鼓舞的 可是它還沒有解決所有困難的問題 2 新統(tǒng)計機器翻譯系統(tǒng)的出現(xiàn)2000年 在JohnsHopkins的暑假Workshop 有來自南加州大學 羅切斯特大學 約翰 霍普金斯大學 施樂公司 賓州大學 斯丹福大學等學校的研究人員 以Och為主的13人 寫了一個FinalReport SyntaxforStatisticalMachineTranslationOch博士發(fā)表的論文 DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation 獲ACL2002大會最佳論文獎 2001 2003年七月 在美國馬里蘭州JohnsHopkins美國商業(yè)部的NIST TIDES NationalInstituteofStandardsandTechnology atUniversityinBaltimore Maryland評比過程中獲最好成績 構(gòu)造了23種阿拉伯和漢語到英語的機器翻譯系統(tǒng) TIDES TranslingualInformationDetection ExtractionandSummarization Och的氣很盛 他說 偉大的希臘科學家Archimedes說 Givemeaplacetostandon andIwillmovetheworld Och說 Givemeenoughparalleldata andyoucanhavetranslationsystemforanytwolanguagesinamatterofhours 這是不是說 Och博士已經(jīng)找到機器翻譯的有效方法了 3 統(tǒng)計機器翻譯語法Berger關于機器翻譯的失敗 一個主要問題是 統(tǒng)計機器翻譯 SMT 往往有顯而易見的語法錯誤 Och希望在SMT里整體組合語法結(jié)構(gòu) 不斷添加反映語法知識的特征函數(shù)來解決不同語法層次的翻譯問題 按照最大熵的模型 在各個語法層次都能給出可能的特征函數(shù)希望從最簡單的二元特征到復雜的樹 樹的結(jié)構(gòu)分析都能夠造翻譯模型 3 1邏輯 線性模型機器翻譯的目的是 給定一個源句子Chinese 翻譯成可能的目標句子 English 那么 所有可能的目標句的最大概率 Och和Ney在2002年提出的翻譯模型 不同于Brown等的設想 1993 是一種后驗概率的直接模型 稱為直接最大熵翻譯模型 其中e和f的位置正好顛倒 利用Berger等人 1996 提出的最大熵框架 在這個框架里 有一組特征函數(shù) 對于每一個特征函數(shù) 存在一個模型參數(shù) 按照最大熵理論 直接概率模型 這是標準的最大熵計算公式 其中分母可以不計 邏輯 線性模型總體結(jié)構(gòu)如下圖所示 一個統(tǒng)計機器翻譯系統(tǒng)設計成為 切分 短語 對齊 重排 生成 由漢語句子 中國十四個邊境開放城市經(jīng)濟建設成就顯著 翻譯成英文句子 China s14openbordercitiesmarkedeconomicachievements 切分 對齊模板處理形象理解為 本質(zhì)上存在一個隱變量 再取參數(shù) 就有特征函數(shù)由原來的轉(zhuǎn)換成 各種語法現(xiàn)象的特征函數(shù)淺層語法的特征函數(shù)WoRDSelectionPhraseAlignmentAlignmentTemplateSelectionLanguageModelFeatures 深層句法特征函數(shù)深層處理的句法特征函數(shù)是通過兩種模型形成 1 TreetoString的特征函數(shù)1 中文句子和英文分析樹 對齊概率和的特征函數(shù) 2 計算對齊最好的特征函數(shù) 2 TreetoTree的特征函數(shù)樹到樹的對齊模型是十分復雜的 例如漢英句對 中國十四個邊境開放城市經(jīng)濟建設成就顯著 FourteenChineseopenbordercitymakesignficantachievementsineconomicconstruction 標注后的雙語句子 中國 NR14 CD個 M邊境 NN開放 NN城市 NN經(jīng)濟 NN建設 NN成就 NN顯著 VV 不討論標注的正確性 Fourteen CDChinese JJopen JJborder NNcities NNSmake VBPsignficant JJachievements NNSin INeconomic JJconstruction NN 他們的分析樹分別是 例如 這里有兩類標注 ThePart of SpeechTaggingGuildelinesforPennChineseTreebank TheUniversityofPennsylvaniaTreebankTag set 其中 NRpropernoun專有名字CDcardinalnumber基數(shù)Mmeasureword量詞NNcommonnoun普通名字VVotherverb是 有以外的動詞JJothernounmodifier其他名字修飾符VBPverb presenttense 3rdpersonsingular動詞 現(xiàn)在式 第3人稱INprepositionorconjunction subordinating介詞或連詞 連接逐句或從句 中國十四個邊境開放城市經(jīng)濟建設成就顯著 同一個含義的兩種語言的分析樹有著不同的結(jié)構(gòu) 其中有的結(jié)構(gòu)是可以自動轉(zhuǎn)換和對齊的 如AABZ XYZXY有的就不可以自動對齊轉(zhuǎn)換ABCWXYZ沒法對齊到WYXZ 2002年 Hajie等人在他們 11人 的論文 Naturallanguagegenerationinthecontextofmachinetranslation 提出了非同構(gòu)的平行樹間的兩邊進行多于兩個節(jié)點的m to n的匹配 給出一點彈性處理的許可 例如兩個樹的詞序不變而結(jié)構(gòu)不同等的原來不可對齊問題 在沒有引起明顯的計算復雜度的情況下 也允許子樹對齊 由于這樣的考慮 他們就提出了所謂克隆 Clone 操作的概念 克隆操作 允許在源樹中 拷貝一個節(jié)點到目標樹的任意地方 克隆以后 就像以前一樣使用樹分解 decomposition 和子樹對齊 除了克隆以外 其他的基本算法都不變 硬性解決不解之難 Och的設想取自于Gildea的工作 Gildea在2003年的論文中提到 在他們的系統(tǒng)里選用韓英軍事領域雙語語料 語料包括5083句 使用4982句作為訓練語料 101句作評測 韓語句子的平均長度是13個字 對齊結(jié)果的比較 如下表所示 Och的狂妄 可能并沒有解決問題 就像阿基米德雖然偉大 但還是不能撬起一個地球 Och可能在幾個小時里 對于任何雙語拿出一個機器翻譯系統(tǒng) 但還是不能真正實用 機器翻譯任重而道遠 回過頭來想 Och提出了一個完整的統(tǒng)計機器翻譯思想 在各個層次給出了各個特征函數(shù) 借用了克隆的思想 提出了統(tǒng)計機器翻譯語法的理論 不是點滴的 而是完整的構(gòu)思 我們似乎可以從中找到起步的光芒 那就是為什么他的論文是一篇最佳論文的原因 但是 最終還沒有找到統(tǒng)計機器翻譯可遵循的研究道路 路在那里啊 TreetoString TreetoTree的對齊 可能是實現(xiàn)機器翻譯的一個瓶頸問題 統(tǒng)計機器翻譯的領頭人物可能是南加州大學ISI的KevinKnight 提出了基于語法的語言模型 Syntax basedLanguageModels 與一種tree to string翻譯模型 YK01 組合在一起 得到較好的翻譯精度 這里所提的基于語法 不是普通意義上的人工規(guī)則 而是在樹庫條件下自動生成語法 是很有意思的 但其試驗結(jié)果 346個句子 YC 就是他們文章上寫的系統(tǒng) 也就是YK01翻譯模型 Cha01語言模型和基于森林的解碼器組成的系統(tǒng) YT YK01翻譯模型 標準三元語言模型和YK02解碼器BT BPPM93翻譯模型 標準三元語言模型和GJM 01貪婪解碼器注 E Charniak KevinKnightandK Yamada Suntax basedLanguageModelsforStatisticalMachineTranslation 另一位是 約翰霍普金斯大學計算機系的JasonEisner討論非同構(gòu)樹 Non IsomorphicTree 映射問題 即通過訓練美對齊的樹或者樹和串混合的隊 學習tree to tree映射 提出一種所謂STSG 它是一種共時樹置換文法 Synchronoustreesubstitutiongrammar 這是對齊的基本樹隊 有序 的聚集 它也是一個簡單的共時樹鄰接文法 Synchronoustree adjoininggrammar 現(xiàn)已用所有的樹對作訓練集 利用EM算法獲得基本樹的概率 和Viterbi解碼器找到最優(yōu)的翻譯 這些方法也是在暑期 2002 約翰霍普金斯大學CLSP暑期研討會開發(fā)和實現(xiàn)的 效果有待考驗 注 JassonEisner LaerningNon IsomorphicTreeMappingforMachineTranslation 不僅如此 在機器學習方面 最近又有了新的發(fā)展 自然語言處理的學習都被認為是一種帶標序列學習問題 LabelSequenceLearning以前的HiddenMarkovModelsMaximumEntropyMarkovModels都是帶標序列學習問題 現(xiàn)在提出一種新的理論和方法ConditionRandomFields那有事么不同呢 直觀地講 可以比喻如下圖形 HMMMEMMCRF 這主要是解決了兩大問題 Long distancedependences長距離相關Overlappingfeatures重疊特征這是個重大的改進 學術界出現(xiàn)了CRF熱 HMM方法早就不行了 Och用MEMM也可以改進 出現(xiàn)了CRF 當初 NIST在2001年和2003年兩次評測得第一 是漢英機器翻譯的評比獲得第一 可能是專了一個空子 只是漢英機器翻譯 如果是其他語種的機器翻譯 可能得不了第一 這就是為什么多年來SYSTRAN還是一直堅持老辦法 為什么歐洲和日本機器翻譯的主流技術還是基于規(guī)則的 為什么著名的計算語言學家Wilkes這么反對統(tǒng)計機器翻譯 我們國內(nèi)也是如此 直到現(xiàn)在 甚至連一個實驗性的統(tǒng)計機器翻譯系統(tǒng)都沒有 機器翻譯是NLP領域的百科全書 如果樹串對齊 樹樹對齊 這個瓶頸問題不解決 統(tǒng)計語言學的前景將黯然失色 對他們的信心將產(chǎn)生懷疑 相信 這個瓶頸問題總能解決 為了進一步開發(fā)基于語料庫的機器翻譯系統(tǒng) 必須解決兩個問題 必須盡快構(gòu)造海量帶標語料庫 帶標樹庫 盡快攻克漢外結(jié)構(gòu)化樹庫對齊的技術難點 把統(tǒng)計機器翻譯的研究前進一大步 語言標注 樹庫的建設仍在國際上迅速展開 可是我們國家的步伐太慢了 2003年美國的計算語言學者們不滿足現(xiàn)有的 多達2000萬詞的英國國家語料庫 BNC BeritishNationalCorpus 帶標語料庫的需求 向全世界發(fā)布了美國國家語料庫 ANC AmericanNationalCorpus 的第一個版本 這是一個具有11 508 216詞匯的帶標語料庫 由兩部分內(nèi)容組成 其中口語3 224 388字 書面語8 283 828字 使用規(guī)范的XMLcorpusEncodingStandard XCES 書寫 并宣布再做兩年 至少可以達到100million 氣魄很大 為了開展這個活動 組織了ANC聯(lián)盟 有16個大公司和學校作為商業(yè)成員 8個大公司和學校作為學術成員 參加并支持這項研究工作 CommercialMembersPearsonEducationLangenscheidtPublishingGroupHarperCollinsPublishersCambridgeUniversityPressMicrosoftCorporationShogakukanInc ALCPressInc TaishukanPublishingCompanyOxfordUniversityPressKenkyushaLtd IBMCorporationObunshaPublishingCo Ltd BenesseCorporationSanseidoCo Ltd SonyElectronicsInc MacmillanPublishersAcademicMembersVassarCollegeNorthernArizonaUniversityNewYorkUniversityLinguisticDataConsortium UniversityofPennsylvaniaInternationalComputerScienceInstituteUniversityofCalifornia BerkeleyUniversityofColoradoatBoulder PennChineseTreebank起源于1998年 目標是500 000詞漢語語料的語法樹 2000年出了第一版 2001年進一步校正 出了第二版 ChineseTreebank4 0包含有404 156詞 664 633漢字 15 162個句子 和838個數(shù)據(jù)文件 非會員價格 US 225 部分資助來自DARPA TIDESgrantnumberN66001 00 1 8915 我們的語言和西方的不同 結(jié)構(gòu)上的巨大差別 必須要搞帶標語料庫 樹庫 希望在語料庫語言學方面有所突破 5 關于 中國未來20年技術預見研究 年初 中科院發(fā)起了 中國未來 年技術預見研究 信息技術領域技術課題及其說明的德爾菲調(diào)查 調(diào)查的內(nèi)容中 有兩個地方涉及到機器翻譯問題 屬于人機交互與智能處理技術子領域的子課題 1 文本機器翻譯系統(tǒng)成為信息交互的重要工具 預見項目的說明中講 機器翻譯的成熟將是特定領域的文本在不同語言間的轉(zhuǎn)換變得越來越容易 2 多國語言間特定領域的口語同聲翻譯系統(tǒng)得到實際應用預見項目的說明中又講 隨著這些相關技術 語音識別 合成和機器翻譯 在特定領域應用中的逐步成熟 我不大同意這個所謂的 成熟 不管成熟還是逐步成熟 我看還談不上成不成熟 50多年都沒有得到基本的解決 20年還能怎么樣 機器翻譯 按市場上的宣傳而言 那不好說 科學是老實的東西 來不得半點虛假 看來 技術決策層里沒有我們業(yè)內(nèi)的人 中國未來20年技術預見研究 里 涉及到計算語言學的內(nèi)容大致有 1 開發(fā)出各行各業(yè)的本體體系2 開發(fā)出能模擬人類認知能力的計算機系統(tǒng)3 網(wǎng)絡智能于主動服務技術得到廣泛應用4 音視頻智能摘要5 非法播出內(nèi)容的實時控制6 語音技術取得突破性的進展并部分得到實際應用7 多國語言間特定領域的口語同聲翻譯系統(tǒng)得到實際應用 8 校正發(fā)音的電子語言學習機成為人們學習語言的有力工具9 文本機器翻譯系統(tǒng)成為信息交流的重要工具10 基于自然語言理解的在線幫助系統(tǒng)在更多領域得到實際應用11 海量知識庫技術在國家知識基礎設備和相關技術產(chǎn)品市場得到廣泛應用12 智能化網(wǎng)絡信息搜索 知識挖掘得到實際應用13 開發(fā)出數(shù)字人技術和應用系統(tǒng)14 智能空間技術和智能家居社區(qū)系統(tǒng)得到普及 15 人類文化 自然遺產(chǎn)數(shù)字化技數(shù)字博物館技術取得實質(zhì)性進展 科學研究不練內(nèi)功 光想立竿見影 我看是不行 謝謝大家- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關 鍵 詞:
- 關于 統(tǒng)計 機器翻譯 思考 天順
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。
鏈接地址:http://www.hcyjhs8.com/p-5223720.html