《漢英機器翻譯擴充詞典的建造.doc》由會員分享,可在線閱讀,更多相關《漢英機器翻譯擴充詞典的建造.doc(8頁珍藏版)》請在裝配圖網(wǎng)上搜索。
漢英機器翻譯擴充詞典的建造* 本項目接受國家重點基礎研究項目(973)資助,課題號為:G1998030507-4。
劉群1,2 張彤2
1北京大學計算語言學研究所
2中國科學院計算技術研究所
liuqun@ict.ac.cn
摘要:本文首先介紹了我們在“面向新聞領域的漢英機器翻譯系統(tǒng)”中語言資源建設的總體框架,然后著重介紹了其中擴充詞典的建設方法。擴充詞典是相對于核心詞典而言的,特點是詞匯量大,每個詞的信息相對較少。擴充詞典的建設包括以下幾個階段:收集;格式整理;詞條拆分;詞性標記歸一化;詞性標記補齊;詞條合并。實驗結果表明,采用這種方法,利用較少的人工,就可以得到規(guī)模很大、并初步可用的雙語機器翻譯詞典,并且這部詞典可以大大減少翻譯中未定義詞的數(shù)量,提高翻譯的質量。
關鍵詞:機器翻譯,雙語詞典獲取
引言
現(xiàn)在的機器翻譯研究,從一種勞動密集型的研究方式逐步過渡到了一種資源密集型的研究方式。這二者的區(qū)別在于,在勞動密集型的研究方式中,語言學家的工作是為某個具體的機器翻譯系統(tǒng)開發(fā)詞典、規(guī)則庫等語言知識庫,其工作依附于某個具體的機器翻譯系統(tǒng),不具有獨立性。而在資源密集型的研究方式中,語言學家和計算機工作者的分工更加明確。語言學家的研究成果以語言資源的形式呈現(xiàn)出來,而不是僅僅為某一個機器翻譯系統(tǒng)服務,其工作具有一定的獨立性。同時,這種分工導致了語言資源的共享,也使得計算機工作者在算法的研究中對于語言資源的使用有了更廣泛的選擇余地。
本文簡要介紹了我們在“面向新聞領域的漢英機器翻譯系統(tǒng)”開發(fā)過程中語言資源建設的總體規(guī)劃和實施情況,然后詳細介紹了其中一個子任務——“擴充詞典”建設的工作流程、算法設計、實施過程和結果評價。
1 語言資源建設的總體規(guī)劃
我們在“面向新聞領域的漢英機器翻譯系統(tǒng)”的開發(fā)過程中,非常重視語言資源的建設。我們建立了一套完整的,覆蓋語言知識各個層面的機器翻譯語言資源建設規(guī)范,并啟動了一系列的語言資源建設子任務。這些子任務包括:
1.1 漢語語義詞典子任務:在原有語義詞典基礎上,完善規(guī)范、修改錯誤、補充詞語,構造一部完整的機器翻譯用漢語語義詞典。目前此項工作正在進行,目標是將北京大學語法信息詞典中的七萬多漢語詞語加入到語義詞典中;
1.2 漢英擴充詞典子任務:在原有核心詞典的基礎上構造一部機器翻譯用擴充詞典,本文后面將詳細介紹;
1.3 漢英短語庫子任務:收集漢英對照的短語,標記出短語結構信息,此項工作已告一段落,目前收入短語5萬余條;
1.4 漢英雙語語料庫收集整理子任務:收集、整理雙語語料庫、進行格式整理、篇章標注、篇章對齊,此項工作第一階段已經(jīng)完成,收錄大約100萬漢字的漢英對照新聞語料以及大量的其他類型語料,目前正在進行第二階段工作;
1.5 漢英雙語語料庫句子對齊子任務:在篇章對齊語料庫基礎上,完成段落對齊和句子對齊,與上一個子任務一樣,第一階段已完成,完成了100萬漢字的漢英對照新聞語料的句子對齊(約4000句對),并整理其他類型句子對齊語料約18萬句對。目前正在進行第二階段工作;
1.6 漢英雙語語料庫短語對齊子任務:在句子對齊語料庫基礎上,完成子句、最長名詞短語、基本名詞短語以及其他一些特定類型短語的對齊,此項工作第一階段已經(jīng)完成,大約完成了3000漢英句對的短語對齊工作。第二階段還沒有開始。
$$ 背
**{vA} v $=[義項:"⑴馱;⑵負擔",謂詞性主語:NO,系詞:NO,助動詞:NO,趨向動詞:NO,補助動詞:NO,……,語義類:搬移,配價數(shù):2]{主體:[語義類:人|動物],客體:[語義類:具體事物],處所:[語義類:空間|集體]}
=> V
$=[VSUBC:VO,VMORF:IREG,VD:bore,VN:borne,OBJTYPE:NP]
**{vB1} v $=[義項:"⑴向~;⑵避",謂詞性主語:NO,系詞:NO,助動詞:NO,趨向動詞:NO,補助動詞:NO,……,語義類:自移|自為,配價數(shù):1]{主體:[語義類:人],客體:[語義類:人類]}
=> D<"behind ones back"> $=[DVPRE:NO,DVEND:YES,DADJV:NO,DMORF:NONE]
=> V( !V P N ) %V=[VSUBC:VI,VMORF:IREG,VD:did,VN:done]
**{vB2} v $=[義項:"⑷~誦",謂詞性主語:NO,系詞:NO,助動詞:NO,趨向動詞:NO,補助動詞:NO,形式動詞:NO,……,語義類:對待,配價數(shù):2]{主體:[語義類:人],客體:[語義類:人為事物|抽象事物]}
=> V $=[VSUBC:VO,VMORF:REGU,OBJTYPE:NP|CS]
**{n} n $=[名詞子類:na,前名:NO,前動:NO,后名:NO,名狀語:NO,臨時量詞:NO,語義類:構件]
=> N $=[NSUBC:NCONT,GEND:NONE]
圖1:核心詞典示例
本文主要介紹其中的第二項子任務:漢英擴充詞典子任務。
2 機器翻譯的詞典建設
雙語詞典建設是機器翻譯系統(tǒng)開發(fā)中的一個重要環(huán)節(jié)。
常見的機器翻譯詞典開發(fā)有以下幾種方法:
1. 人工開發(fā):組織人力物力,從頭開始開發(fā)。這種方法費時費力,但可以根據(jù)自己的需要任意裁減所需信息,易于和翻譯算法緊密結合;
2. 利用已有的電子詞典資源:目前通過各種方式可以獲取的雙語電子詞典已有很多,通過對這些詞典進行收集整理,可以得到機器翻譯用的雙語詞典。這種方法的優(yōu)點是可以充分利用已有資源,省時省力,缺點是各種不同來源的詞典格式、體例、屬性字段等都不一致,詞典質量參差不齊,整理加工比較麻煩;
3. 從雙語語料庫中抽取詞典:在各種雙語對齊語料基礎上,利用統(tǒng)計方法,從中抽取雙語對照詞語。這種方法的優(yōu)點是直接從語料中抽取,可以學習到一些活的翻譯方法,而這些譯法很可能在詞典中是找不到的,特別適用于一些專業(yè)領域的詞典抽取,或新詞語的學習。不過這種方法依賴于學習算法的好壞,會產(chǎn)生很多垃圾信息,要得到高質量的詞典也需要較多的人工校對;學習到的詞典信息依賴于語料庫,往往信息不夠全面,最好作為已有詞典的補充。
在我們的漢英機器翻譯系統(tǒng)中,已經(jīng)有了一部核心機器翻譯詞典,這部詞典含漢語詞條(以詞形word type計算)約五萬,這部核心詞典含有豐富的詞法、句法、語義搭配信息如圖1所示。這部詞典是采用上面所述的第一種方法,通過自己組織人力物力從頭開發(fā)的。詞典采用文本形式存儲,使用我們專門編寫的詞典管理工具進行管理。不過,在面對真實的文本的時候,這個詞典的規(guī)模就顯得有點太小了,遠遠不能滿足實際翻譯的需要。在我們的新版本機器翻譯系統(tǒng)中使用了一個獨立的分詞程序,而這個分詞程序所用的分詞詞典就有詞語8萬多條,這樣就導致很多分詞程序切分出的詞語無法翻譯。面對這種情況,我們決定采用上述的第二種方法,構造一部擴充的漢英機器翻譯詞典。
3 擴充詞典的收集與整理
3.1 擴充詞典的目標
擴充詞典(下面我們又稱目標詞典)應該滿足以下三方面要求:
1. 面向通用領域:擴充詞典不是專業(yè)詞典,不應該收入專業(yè)性太強的詞語;
2. 詞匯量足夠大:擴充詞典的詞匯量不應太少,按照我們事先的估計,至少應達到20~30萬詞對的數(shù)量級;
3. 每個詞對的信息雖然不必像核心詞典那么豐富,至少應該含有以下幾個字段:
漢語詞語、漢語詞性、英語詞語、英語詞性、置信度
而且漢語詞性和英語詞性的標記集應該與核心詞典一致。我們稱之為一個五元組。
4. 通過在多部詞典中出現(xiàn)的頻次的統(tǒng)計,也可以得到雙語詞對的置信度信息。這種置信度信息雖然不是直接從雙語語料庫統(tǒng)計得到的,但也有一定的概率意義。
詞典在收集過程中采用數(shù)據(jù)庫進行管理,這樣便于利用成熟的數(shù)據(jù)庫管理工具進行操作。最后得到的詞典再通過文本形式提交給翻譯程序,由翻譯程序建立索引、進行查詢。
3.2 擴充詞典的收集
確定了目標以后,我們開始從各種途徑收集一些的英漢和漢英詞典,加上我們原先的一些積累,總共得到6部電子版的詞典,本文把這六部詞典稱為原始詞典。這些詞典的總體情況如下表所示:
詞典
方向
規(guī)模
類型
A
英漢
12萬詞對
背單詞軟件(各類大中學學英語課本、英語學習類書籍共30余本)
B
漢英
18萬詞對
書面詞典
C
漢英
17萬詞對
書面詞典
D
漢英
12萬詞對
網(wǎng)絡詞典
E
漢英
8萬詞對
網(wǎng)絡詞典
F
漢英
693詞對
一些常用新詞語
表1:擴充詞典的來源
3.3 擴充詞典的整理
利用原始詞典并不能通過簡單合并得到所需的擴充詞典。由于詞典來源不一,導致了很多問題。其中的主要問題包括:
l 格式不一致:由于詞典來源不一,格式、體例都不一致,有的格式比較規(guī)整,有的就比較混亂;
l 錄入排版錯誤和格式錯誤:錄入、排版、格式方面的錯誤很多,需要認真清理;
l 詞性標記不一致:每部詞典的詞性標記都不一致,而且都與核心詞典的詞性標記不一致;
l 詞性標記不完整:很多詞典甚至沒有詞性標記。
可以看到原始詞典面臨的問題是非常雜亂的,由于數(shù)量巨大,如果都采用人工校對的方法,人力、物力的消耗都是難以承受的。為此我們主要采用了人機互助的辦法,以自動處理為主,對于一些自動處理無法解決的問題,輔以人工校對。實踐證明,這種方法是成功的,我們只采用了較少的人工校對,就得到了一部規(guī)模較大、初步可用的機器翻譯擴充詞典。
擴充詞典的整理按照以下幾個步驟進行:
1. 詞條拆分:由于我們的目標詞典的每個詞條是一個五元組(漢語詞語,漢語詞性,英語詞語,英語詞性,置信度),而原始詞典中,往往是將一個源語言詞語解釋成詞性相同或不同的多個目標語詞語,因此需要將一個原始詞典的詞條拆分成一個或多個目標詞典的詞條。通過詞條拆分,詞典就可以裝入數(shù)據(jù)庫中,后續(xù)的步驟都是在數(shù)據(jù)庫上面進行操作。
2. 格式整理:原始詞典中存在大量的格式錯誤,需要校正,還有很多的附加信息(如領域信息、解釋性信息)需要濾掉。
3. 詞性標記歸一化:由于每部原始詞典的詞性標記信息都不一致,而且與核心詞典的詞性標記也不一致,因此要將原始詞典的詞性標記映射到核心詞典的詞性標記;
4. 詞性標記補齊:由于原始詞典中很多詞沒有詞性標記,而目標詞典中所有詞條(五元組)都必須有完整的詞性標記,因此對于原始詞典中缺少的詞性標記要補上,并給出置信度信息;
5. 詞條合并:將來自不同原始詞典的相同詞條合并為一個詞條,同時將置信度求和。
在詞典整理過程中,必然設計一個人工校對的問題,如何實現(xiàn)人機互助的校對?如何用最少的人力、快速有效并且高質量的完成以上工作,是這項工作的一個關鍵。我們把握的原則是:能夠用機器做的事盡量不用人做;通過計算機程序,將無法由人工完成的復雜的校對工作分解成很多非常單一的校對任務,以盡可能地提高校對的質量和效率。
在我們的實際工作中,由于時間的限制,我們只在上述的第一步和第二步(詞條拆分和格式整理)完成了人工校對,后面幾步都是全自動進行的。雖然這免不了有很多錯誤,不過總體上詞典還是可用的,而且概率信息的引入,也使得這些錯誤的影響降低到很低的程度。
下面我們分別就以上五個步驟介紹我們的具體做法。
3.3.1 詞條拆分
原始詞典的詞條可能是以下形式:
complex=a. 復雜的, n. 復合體;綜合建筑
通過詞條拆分,要變成以下形式:
漢語詞條
漢語詞性
英語詞條
英語詞性
復雜的
a.
complex
復合體
n.
complex
綜合建筑
n.
complex
當然,實際操作并不這么簡單,會遇到很多復雜的格式問題,有時還需要引入人工校對。
通過這種方式,將原始詞典從文本形式轉換成了數(shù)據(jù)庫形式,便于后面的進一步處理。
3.3.2 格式整理
寫入.ykh文件
省略號自動處理
或…嗎?
寫入.slh文件
輸出結果
人工校對
人工校對
人工校對
寫入.fkh文件
寫入.err文件
圓括號自動處理
(或)嗎?
人工校對
其他錯誤處理
待整理詞典文件(.txt文件)
方括號自動處理
圖2:詞典格式整理過程示例
失敗
失敗
失敗
失敗
成功
成功
成功
成功
每一部原始詞典的格式都不相同,所以處理的方法也不盡相同。圖2是其中一部詞典的格式處理過程。
這種做法的好處有兩點:1.自動處理階段處理了大部分的格式問題。比如方括號的處理,很大一部分的方括號都是領域信息,而領域信息的種類是有限的,只要把表示領域信息的方括號處理好,剩下需要人工校對的工作量就很小了;2.通過這種逐級處理的方式,每一次人工校對的工作都變得非常單一,這一方面減輕了校對者在工作中的大腦思維活動的負擔,使得校對國內(nèi)工作的速度和質量都有所提高,同時也使得校對的工作量計算更為合理,有利于控制成本。
3.3.3 詞性標記歸一化
要為每一步原始詞典的詞性標記建立到核心詞典的詞性標記之間的映射關系。這樣,絕大部分詞性標記歸一化工作可以自動完成。個別情況需要人工校對(暫時沒做)。
3.3.4 詞性標記補齊
原始詞典中,很多詞語都沒有標記詞性。英漢詞典中,漢語詞語沒有標注詞性。漢英詞典中,幾乎都沒有任何詞性信息。所以,詞性標記補齊是一件非常重要的工作。
詞性補齊需要用到兩部(源語言和目標語言)帶詞性標注的單語詞典。這兩部單語詞典的來源除了已經(jīng)整理的原始詞典以外,還利用了機器翻譯系統(tǒng)的核心詞典。
另外,需要用到一個雙語詞性對照表,也就是說,對于源語或譯語的每一種詞性,要給出其最可能的對譯詞性。這個表根據(jù)語言知識很容易構造。
算法1:詞性補齊算法
1. 如果一種語言詞語A詞性已知,另一種語言詞語B詞性未知:
a) 按照算法2或者算法3,判斷詞語B的詞性;
b) 如果詞語B有多個詞性
i. 如果詞語B的詞性中有與詞語A的詞性對應的詞性,那么只保留這種詞性,刪除詞語B的其他詞性,生成一個五元組,置信度為1;
ii. 否則保留詞語B的所有詞性,將該五元組拆分成多個五元組,這些五元組的置信度都是1/n,n為B的詞性個數(shù);
c) 如果詞語B只有一個詞性,那么生成一個五元組,置信度為1;
d) 如果詞語B的詞性沒有判斷出來,將詞語B的詞性設置成與詞語A的詞性相對應的詞性,生成一個五元組,置信度為0.5;
2. 如果雙語詞性都未知:
a) 首先分別使用算法2和算法3,判斷兩個詞的詞性;
b) 如果兩個詞語的詞性都已判斷出來
i. 如果兩個詞的詞性中有些詞性組合滿足對應關系,那么只保留這些詞性組合,生成相應的五元組,刪除其他詞性,生成的五元組置信度為1;
ii. 如果兩個詞的詞性中沒有詞性組合滿足對應關系,那么都保留,兩兩對應生成五元組,這些五元組置信度為1/n,其中n為五元組的個數(shù);
c) 如果只判斷出一個詞的詞性,那么將另一個詞的詞性設置為已知詞性的對應詞性,生成相應的五元組,置信度均為0.5;
d) 如果兩個詞語都無法判斷出詞性,一律標為名詞,生成五元組置信度為0.1。
在得到兩部單語詞典以后,對于每一個五元組,如果沒有詞性缺失,那么設置其置信度為1,如果有詞性缺失,那么利用以下算法進行詞性補齊并計算置信度:
1. 查單語詞典,如果查到則返回成功;
2. 按照以下規(guī)則判斷漢語詞性:
a) 尾字為“的”=>形容詞
b) ……
3. 如果判斷出漢語詞性,返回成功,否則返回失敗;
算法2:漢語詞性判斷算法
1. 查單語詞典,如果查到則返回成功;
2. 按照以下規(guī)則判斷英語詞性:
a) 首字母大寫=>專有名詞
b) 如果是單詞=>根據(jù)詞綴判斷
c) 如果是短語=>根據(jù)首單詞判斷
i. 首單詞是冠詞=>名詞短語
ii. 首單詞是不定式to=>動詞短語
iii. 首單詞是動詞=>動詞短語
iv. 首單詞是介詞=>介詞短語
d) ……
3. 如果判斷出英語詞性,返回成功,否則返回失??;
算法3:英語詞性判斷算法
3.3.5 詞條合并
最后一個步驟是詞條合并。詞條合并就是將漢語詞語、漢語詞性、英語詞語、英語詞性相同的五元組合并成一個五元組,其置信度是被合并的所有五元組的置信度之和。
3.4 輸出結果
詞條合并之前,共有681,676個詞條(五元組)。詞條合并之后,還有494,861個詞條。其中,不考慮詞性,漢英詞對大約有約41萬,單獨計算漢語詞形和英語詞性,分別有大約21萬。
最后得到的詞典,從直觀上看,質量還是可以接受的,以下是兩個詞的例子:
阿姨
n,aunt,N,003
n,auntie,N,004
n,aunty,N,001
n,mothers sister,N,001
n,nurse,N,001
備份
n,backup,N,001
v,backup,V,001
v,make a copy of,V,001
v,reproduction,N,001
由于整理過程中,后面幾個步驟都沒有經(jīng)過校對,詞典中也有不少錯誤,不過這些錯誤的詞條大多數(shù)置信度都比較小。
4 實驗及結果
(作者注:下面的實驗已經(jīng)完成,但由于時間關系,結果數(shù)據(jù)的統(tǒng)計來不及做。我們將會盡快補上這些數(shù)據(jù)。抱歉!)
我們的機器翻譯系統(tǒng)采用的是一種微引擎流水線體系結構。
擴充詞典在我們的機器翻譯系統(tǒng)中被兩個微引擎所使用:一個是詞典轉換微引擎。對于核心詞典中找不到的詞語,如果擴充詞典中能找到,那么可以利用擴充詞典的信息進行翻譯;另一個是短語分析分析引擎,擴充詞典中有很多詞在核心詞典和分詞詞典中都沒有,實際上這些詞大部分都是短語,這些短語被一個短語分析引擎利用作為短語引擎加入到了句法分析的過程中。
我們利用一個新華社新聞的測試語料庫進行測試,測試集中含有800多個句子。我們分別計算了使用擴充詞典前后無法翻譯的漢語詞語數(shù)目:使用擴充詞典以前,有XXX個漢語詞語無法翻譯,使用后只有YYY個漢語詞語無法翻譯,可以看到,擴充詞典的使用,大大減少了無法翻譯的詞語數(shù)目。
另外,我們利用了一個自動評分工具,對這個測試集在使用擴充詞典前后的翻譯結果進行了自動評測:使用擴充詞典以前,翻譯結果的評分為:xxx,使用后翻譯結果的評分為yyy。實驗證明,擴充詞典的使用,對于改善翻譯的質量有一定的效果。
參考文獻:(暫缺,以后補上)
致謝(暫缺)
鏈接地址:http://www.hcyjhs8.com/p-12949910.html