統(tǒng)計機器翻譯研究進展.ppt
《統(tǒng)計機器翻譯研究進展.ppt》由會員分享,可在線閱讀,更多相關(guān)《統(tǒng)計機器翻譯研究進展.ppt(24頁珍藏版)》請在裝配圖網(wǎng)上搜索。
統(tǒng)計機器翻譯研究進展 杜金華 Outline Overview SMTatCASIABaselineSystemRecentImprovements目前研究方向Parsing Syntax basedSMT長句分析 骨干關(guān)聯(lián)分析中文BaseNP的研究中文命名實體總結(jié)與致謝 BaselineSystem ForNISTMT 06Evaluation Phrase basedTranslationwithVariableTemplateSubstitutionwordaligncorpus usingGIZA andOch srefinedmethodcollectphrasepairsconsistentwithwordalignmentSRILMlanguagemodellog linearmodeltocombinemodelcomponentsbeamsearchdecoder SystemComponents reorderingmodellanguagemodeltrigramLMtrainedusingSRILMtoolkitphrasetranslationmodelf ephrasetranslationmodele fwordtranslationmodelf ewordtranslationmodele f Examples VariableTemplateSubstitution對數(shù)字 時間 人名 地名進行雙語替換如 我的房間號是301 我的房間號是 digit Myroomnumberis301 Myroomnumberis DIGIT 短語模板 抽取短語長度from LOCATIONto LOCATION1 47961e 002您將在 timep離開 location you llleave LOCATIONat TIMEP3 30669e 002 RecentImprovements 更新了漢語分詞與命名實體識別模塊 降低了因此而引入的噪音改進了短語抽取與概率計算模塊4 Gramlanguagemodel最小錯誤率參數(shù)訓(xùn)練根據(jù)AshishVenugopal的matlab版本改寫后處理模塊近期計劃針對NISTMT 06任務(wù)使用改進的系統(tǒng)進行一次評測試驗 目前研究方向 Parsing Syntax basedSMT長句分析 骨干關(guān)聯(lián)分析中文BaseNP的研究中文命名實體 Parsing Syntax basedSMT 基于中文句法分析器的研究實現(xiàn)了基于頭驅(qū)動的句法分析器基于骨架依存概念的翻譯基于英文句法分析器的研究利用英文Parser構(gòu)造syntax basedSMT系統(tǒng)基于句法分析的SMTTree to StringString to Tree 基于骨架依存概念的翻譯 骨架依存概念刻畫了樹上各個結(jié)點之間的關(guān)系 一般主要是中心詞與它相鄰結(jié)點的支配與被支配關(guān)系 基于依存樹的句法分析能為機器翻譯提供有用的結(jié)構(gòu)信息 骨架依存樹 目標是 僅分析出句子的整體句法結(jié)構(gòu) 整體句法結(jié)構(gòu)用該句的中心詞及其直接支配成分來表示 骨架依存樹考慮語句的整體結(jié)構(gòu)信息和詞匯語義信息的同時 避免對語句進行復(fù)雜的分析 基于骨架依存樹的翻譯 我們的設(shè)想基本思想是一種分層次的翻譯模型 由骨架映射 短語翻譯 詞翻譯的逐層細化的過程 我們已經(jīng)能夠進行短語及詞一級的翻譯 現(xiàn)在問題的關(guān)鍵是如何找到子句的骨架 并利用骨架變換來描述兩種語言的結(jié)構(gòu)變換 將骨架變換形式化為轉(zhuǎn)換規(guī)則 lexicalandnon lexical 并統(tǒng)一到概率的框架下 長句分析 骨干 Skeleton 關(guān)聯(lián)分析 長句分析目前仍無有效的方法對長句進行Parsing或者翻譯目前對長句的處理只是研究如何將其切分NIST語料中FBIS中的長句特點并列成分多修飾語過多語言結(jié)構(gòu)層次多插入語 Examples 我們堅信 有馬列主義 毛澤東思想和鄧小平理論的指引 有以江澤民同志為核心的黨中央的正確領(lǐng)導(dǎo) 有全軍官兵的團結(jié)奮斗 有全國各族人民的大力支持 我們的目標一定能夠達到 大亞灣核電站總經(jīng)理劉錫才說 這是高起點起步的結(jié)果 是中央英明決策 決定全面引進先進而成熟的百萬千瓦級大型商業(yè)核電技術(shù)和設(shè)備 并按國際標準建造和管理的結(jié)果 是公司員工堅持創(chuàng)新 追求卓越 趕超世界先進水平長期努力的結(jié)果 美國新聞署的一份材料承認 美國在其大部分歷史上未能確保許多公民 尤其是非洲裔美國人 土著美國人和所有婦女 的基本人權(quán) 骨干關(guān)聯(lián)分析 骨干關(guān)聯(lián)分析研究目標 以長句分析為切入點 對句子骨干關(guān)聯(lián)結(jié)構(gòu)進行分析 以服務(wù)于統(tǒng)計機器翻譯研究任務(wù) 句子骨干識別及之間結(jié)構(gòu)關(guān)聯(lián)分析雙語骨干映射關(guān)系基于骨干分析的翻譯 骨干關(guān)聯(lián)分析 骨干 Skeleton 的定義句子骨干在句法結(jié)構(gòu)上首先是一個句子成分 可以是并列關(guān)系 從屬關(guān)系或者其他屬性描述關(guān)系 其在意義表示上具有相對獨立性 骨干內(nèi)部具有相對完整的句法結(jié)構(gòu) 隱式或顯式 其次 句子的不同骨干是由不同的特征集合進行區(qū)分 特征的選擇能夠識別骨干的邊界雙語骨干關(guān)聯(lián)結(jié)構(gòu)映射建立雙語骨干對應(yīng)關(guān)系 為翻譯過程中目標語言重排序服務(wù) 基于骨干關(guān)聯(lián)分析的翻譯 中文BaseNP BaseNP識別的作用自然語言處理的基本任務(wù)之一BaseNP比單個詞語含有更豐富的語言信息 歧義少 與整句parsing相比較 工作量小 更具實際應(yīng)用價值 其他自然語言研究的基礎(chǔ)例 信息檢索系統(tǒng) 機器翻譯 其他短語識別 基于文本的生物信息獲取 biology 等等 什么是BaseNP 基本名詞短語 basenounphrase baseNP 簡單的 非嵌套的名詞短語 不含有其他的子項短語 ZhaoJun HuangChangning 1998 給出了BaseNP的嚴格形式化定義BaseNP的嚴格形式化定義BaseNP BaseNP BaseNPBaseNP BaseNP 名詞 名動詞BaseNP 限定性定詞 BaseNP 名詞限定性定詞 形容詞 區(qū)別詞 動詞 名詞 處所詞 數(shù)量詞 外文字串 ZhaoTiejunetal 2001 進一步對漢語基本短語進行了研究 提出了7種形式的漢語基本短語 中文baseNP訓(xùn)練測試集的建立 在PennChineseTreebank5 0和英文baseNP語料庫建立方法基礎(chǔ)上 加入了針對中文的詞性和句法特征 建立較為完善的大規(guī)模baseNP訓(xùn)練測試語料 約50萬中文詞 中文BaseNP 中文BaseNP識別的的算法采用兩級分類器第一級 采用TBL和CRF兩個分類器第二級 采用SVM分類器算法流程 試驗結(jié)果 中文命名實體 基于WFST WeightedFiniteStateTransducer 框架的命名實體識別與翻譯Finite Statemodels FSM and inparticular WFSThaveprovenquitesuccessfulinmanyfieldsofwrittenandspokenlanguageprocessing Thisincludesinparticularmachinetranslation largevocabularycontinuousspeechrecognitionandspeechsynthesis AninterestingfeatureofFSMsisthattheycanbeautomaticallybuiltor learned fromtrainingdatausingcorpus basedtechniques Comparedtomoretraditionalknowledge basedapproaches thesetechniquesareattractivefortheirpotentialofmuchlowerdevelopmentcosts AnotherinterestingpropertyofFSMsistheirfeasibilityforimplementingorapproximatingknowledge basedtechniques DifferentknowledgesourcescanhenceberepresentedviaFSMs thusallowingtheintegrationofaprioriknowledgewithinductivetechniquesinanaturalandformallyelegantway ThismakestheFSMframeworkanadequateoneforlanguageprocessing 數(shù)字時間的自動識別 采用WFST weightedfinitestatetransducer 識別關(guān)鍵要解決兩個問題 通過一些有效的數(shù)字時間短語建立狀態(tài)機給定一個有限狀態(tài)機后 數(shù)字時間字串的匹配算法下一步將人名 地名和機構(gòu)名融入WFST框架 總結(jié)與致謝 對在研方向?qū)⒗^續(xù)深入的研究 并不斷進行創(chuàng)新研究密切關(guān)注國內(nèi)外統(tǒng)計機器翻譯的發(fā)展趨勢 調(diào)整研究策略希望能進一步加強交流與討論 謝謝- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計 機器翻譯 研究進展
鏈接地址:http://www.hcyjhs8.com/p-6002475.html