統(tǒng)計機器翻譯研究進展.ppt
《統(tǒng)計機器翻譯研究進展.ppt》由會員分享,可在線閱讀,更多相關《統(tǒng)計機器翻譯研究進展.ppt(24頁珍藏版)》請在裝配圖網上搜索。
統(tǒng)計機器翻譯研究進展 杜金華 Outline Overview SMTatCASIABaselineSystemRecentImprovements目前研究方向Parsing Syntax basedSMT長句分析 骨干關聯(lián)分析中文BaseNP的研究中文命名實體總結與致謝 BaselineSystem ForNISTMT 06Evaluation Phrase basedTranslationwithVariableTemplateSubstitutionwordaligncorpus usingGIZA andOch srefinedmethodcollectphrasepairsconsistentwithwordalignmentSRILMlanguagemodellog linearmodeltocombinemodelcomponentsbeamsearchdecoder SystemComponents reorderingmodellanguagemodeltrigramLMtrainedusingSRILMtoolkitphrasetranslationmodelf ephrasetranslationmodele fwordtranslationmodelf ewordtranslationmodele f Examples VariableTemplateSubstitution對數(shù)字 時間 人名 地名進行雙語替換如 我的房間號是301 我的房間號是 digit Myroomnumberis301 Myroomnumberis DIGIT 短語模板 抽取短語長度from LOCATIONto LOCATION1 47961e 002您將在 timep離開 location you llleave LOCATIONat TIMEP3 30669e 002 RecentImprovements 更新了漢語分詞與命名實體識別模塊 降低了因此而引入的噪音改進了短語抽取與概率計算模塊4 Gramlanguagemodel最小錯誤率參數(shù)訓練根據(jù)AshishVenugopal的matlab版本改寫后處理模塊近期計劃針對NISTMT 06任務使用改進的系統(tǒng)進行一次評測試驗 目前研究方向 Parsing Syntax basedSMT長句分析 骨干關聯(lián)分析中文BaseNP的研究中文命名實體 Parsing Syntax basedSMT 基于中文句法分析器的研究實現(xiàn)了基于頭驅動的句法分析器基于骨架依存概念的翻譯基于英文句法分析器的研究利用英文Parser構造syntax basedSMT系統(tǒng)基于句法分析的SMTTree to StringString to Tree 基于骨架依存概念的翻譯 骨架依存概念刻畫了樹上各個結點之間的關系 一般主要是中心詞與它相鄰結點的支配與被支配關系 基于依存樹的句法分析能為機器翻譯提供有用的結構信息 骨架依存樹 目標是 僅分析出句子的整體句法結構 整體句法結構用該句的中心詞及其直接支配成分來表示 骨架依存樹考慮語句的整體結構信息和詞匯語義信息的同時 避免對語句進行復雜的分析 基于骨架依存樹的翻譯 我們的設想基本思想是一種分層次的翻譯模型 由骨架映射 短語翻譯 詞翻譯的逐層細化的過程 我們已經能夠進行短語及詞一級的翻譯 現(xiàn)在問題的關鍵是如何找到子句的骨架 并利用骨架變換來描述兩種語言的結構變換 將骨架變換形式化為轉換規(guī)則 lexicalandnon lexical 并統(tǒng)一到概率的框架下 長句分析 骨干 Skeleton 關聯(lián)分析 長句分析目前仍無有效的方法對長句進行Parsing或者翻譯目前對長句的處理只是研究如何將其切分NIST語料中FBIS中的長句特點并列成分多修飾語過多語言結構層次多插入語 Examples 我們堅信 有馬列主義 毛澤東思想和鄧小平理論的指引 有以江澤民同志為核心的黨中央的正確領導 有全軍官兵的團結奮斗 有全國各族人民的大力支持 我們的目標一定能夠達到 大亞灣核電站總經理劉錫才說 這是高起點起步的結果 是中央英明決策 決定全面引進先進而成熟的百萬千瓦級大型商業(yè)核電技術和設備 并按國際標準建造和管理的結果 是公司員工堅持創(chuàng)新 追求卓越 趕超世界先進水平長期努力的結果 美國新聞署的一份材料承認 美國在其大部分歷史上未能確保許多公民 尤其是非洲裔美國人 土著美國人和所有婦女 的基本人權 骨干關聯(lián)分析 骨干關聯(lián)分析研究目標 以長句分析為切入點 對句子骨干關聯(lián)結構進行分析 以服務于統(tǒng)計機器翻譯研究任務 句子骨干識別及之間結構關聯(lián)分析雙語骨干映射關系基于骨干分析的翻譯 骨干關聯(lián)分析 骨干 Skeleton 的定義句子骨干在句法結構上首先是一個句子成分 可以是并列關系 從屬關系或者其他屬性描述關系 其在意義表示上具有相對獨立性 骨干內部具有相對完整的句法結構 隱式或顯式 其次 句子的不同骨干是由不同的特征集合進行區(qū)分 特征的選擇能夠識別骨干的邊界雙語骨干關聯(lián)結構映射建立雙語骨干對應關系 為翻譯過程中目標語言重排序服務 基于骨干關聯(lián)分析的翻譯 中文BaseNP BaseNP識別的作用自然語言處理的基本任務之一BaseNP比單個詞語含有更豐富的語言信息 歧義少 與整句parsing相比較 工作量小 更具實際應用價值 其他自然語言研究的基礎例 信息檢索系統(tǒng) 機器翻譯 其他短語識別 基于文本的生物信息獲取 biology 等等 什么是BaseNP 基本名詞短語 basenounphrase baseNP 簡單的 非嵌套的名詞短語 不含有其他的子項短語 ZhaoJun HuangChangning 1998 給出了BaseNP的嚴格形式化定義BaseNP的嚴格形式化定義BaseNP BaseNP BaseNPBaseNP BaseNP 名詞 名動詞BaseNP 限定性定詞 BaseNP 名詞限定性定詞 形容詞 區(qū)別詞 動詞 名詞 處所詞 數(shù)量詞 外文字串 ZhaoTiejunetal 2001 進一步對漢語基本短語進行了研究 提出了7種形式的漢語基本短語 中文baseNP訓練測試集的建立 在PennChineseTreebank5 0和英文baseNP語料庫建立方法基礎上 加入了針對中文的詞性和句法特征 建立較為完善的大規(guī)模baseNP訓練測試語料 約50萬中文詞 中文BaseNP 中文BaseNP識別的的算法采用兩級分類器第一級 采用TBL和CRF兩個分類器第二級 采用SVM分類器算法流程 試驗結果 中文命名實體 基于WFST WeightedFiniteStateTransducer 框架的命名實體識別與翻譯Finite Statemodels FSM and inparticular WFSThaveprovenquitesuccessfulinmanyfieldsofwrittenandspokenlanguageprocessing Thisincludesinparticularmachinetranslation largevocabularycontinuousspeechrecognitionandspeechsynthesis AninterestingfeatureofFSMsisthattheycanbeautomaticallybuiltor learned fromtrainingdatausingcorpus basedtechniques Comparedtomoretraditionalknowledge basedapproaches thesetechniquesareattractivefortheirpotentialofmuchlowerdevelopmentcosts AnotherinterestingpropertyofFSMsistheirfeasibilityforimplementingorapproximatingknowledge basedtechniques DifferentknowledgesourcescanhenceberepresentedviaFSMs thusallowingtheintegrationofaprioriknowledgewithinductivetechniquesinanaturalandformallyelegantway ThismakestheFSMframeworkanadequateoneforlanguageprocessing 數(shù)字時間的自動識別 采用WFST weightedfinitestatetransducer 識別關鍵要解決兩個問題 通過一些有效的數(shù)字時間短語建立狀態(tài)機給定一個有限狀態(tài)機后 數(shù)字時間字串的匹配算法下一步將人名 地名和機構名融入WFST框架 總結與致謝 對在研方向將繼續(xù)深入的研究 并不斷進行創(chuàng)新研究密切關注國內外統(tǒng)計機器翻譯的發(fā)展趨勢 調整研究策略希望能進一步加強交流與討論 謝謝- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 統(tǒng)計 機器翻譯 研究進展
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://www.hcyjhs8.com/p-6002475.html