《計算機輔助翻譯系統(tǒng)漫談?wù)n件》由會員分享,可在線閱讀,更多相關(guān)《計算機輔助翻譯系統(tǒng)漫談?wù)n件(22頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標題樣式,*,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,計算機輔助翻譯系統(tǒng)漫談,陳群秀,清華大學(xué)計算機科學(xué)與技術(shù)系,智能技術(shù)與系統(tǒng)國家實驗室,北京 100084,,摘要 本文首先簡單介紹機器翻譯研究發(fā)展簡史和研究動向。然后本文闡述機器翻譯系統(tǒng)的分類及特點:機器翻譯系統(tǒng)從系統(tǒng)研制的方法分為基于規(guī)則的機器翻譯系統(tǒng)和基于語料庫的機器翻譯系統(tǒng),后者又分為基于統(tǒng)計的機器翻譯系統(tǒng)、基于實例的機器翻譯系統(tǒng)和翻譯記憶系統(tǒng);從自動化程度分為全自動機器翻譯系統(tǒng)、人助機譯系統(tǒng)和機助人譯系統(tǒng),后兩種合稱為計算機輔助翻譯系統(tǒng);從翻譯轉(zhuǎn)換方式分為直譯式系統(tǒng)、基于轉(zhuǎn)換方式的翻譯系統(tǒng)和基于中間
2、語言(樞軸式)的翻譯系統(tǒng);從翻譯用戶的需求分為為瀏覽者研制、為修訂者研制、為翻譯者研制和為寫作者研制的系統(tǒng)等四種類型。進而本文提出機器輔助翻譯系統(tǒng)最好同時包含基于翻譯記憶技術(shù)和基于實例模式翻譯這兩種翻譯功能并且這兩種翻譯方法和翻譯過程最好分階段進行。最后本文對基于翻譯記憶技術(shù)的輔助翻譯有關(guān)技術(shù)和基于實例模式翻譯的有關(guān)技術(shù)進行了討論。,關(guān)鍵詞 計算機輔助翻譯系統(tǒng);機器翻譯系統(tǒng)的分類及特點;基于翻譯記憶技術(shù)的輔助翻譯有關(guān)技術(shù);基于實例模式翻譯的有關(guān)技,機器翻譯研究發(fā)展簡史和研究動向,隨著因特網(wǎng)的日益普及應(yīng)用和全球一體化日益進展,不同語種間人們交流的語言障礙日益顯得更為突出。為解決這一難題而進行的機
3、器翻譯研究是一個涉及語言學(xué)、計算機科學(xué)、認知科學(xué)等多學(xué)科的綜合性研究領(lǐng)域。目前,機器翻譯研究是國際上激烈競爭的高科技研究領(lǐng)域之一,也是信息處理的實用學(xué)科。機器翻譯研究是,1946,年計算機產(chǎn)生后的第一個應(yīng)用。機器翻譯研究自,1947,年美國洛克菲勒基金會自然科學(xué)部主任華倫,韋弗提出用現(xiàn)代電子計算機進行語言翻譯的設(shè)想至今,已有五十多年近六十年的歷史,它的發(fā)展歷史波波折折、起起復(fù)復(fù)。它經(jīng)歷過最初近二十年的初創(chuàng)期和第一個興旺期,但由于當時人們對機器翻譯的期望值過高,而機器翻譯當時的研究水平和技術(shù)的歷史局限,也因為當時的大學(xué)科人工智能研究沒抓住本質(zhì)而又頭腦發(fā)熱盲目樂觀,致使人工智能和機器翻譯的研究進入
4、了低谷期,即機器翻譯自,1966,年美國發(fā)表了,ALPAC,報告(黑皮書)后經(jīng)歷了,1966,年,1976,年長達十年的蕭條低迷期。到二十世紀七十年代中期機器翻譯研究才開始逐漸復(fù)蘇并進入了第二個興旺期。特別是八十年代以來,機器翻譯研究得到了長足的發(fā)展,進入了發(fā)展的黃金時代。這個時代有四個顯著特點:,(1)機器翻譯研究走出實驗室開始進入實用階段。,這個階段相繼出現(xiàn)了一些實用型的機器翻譯系統(tǒng),例如美國的SYSTRAN系統(tǒng)(1975年)、加拿大蒙特利爾大學(xué)的TAUMMETEO系統(tǒng)(1976年)、日本富士通公司的ATLAS系統(tǒng)、法國紡織研究所的TITUSIV系統(tǒng)(翻譯編織專業(yè)文摘)等。機器翻譯研究面向
5、應(yīng)用、走向應(yīng)用、邁向商品化,同時又以應(yīng)用推動更高層次的研究,是這一時代最主要的特點。,(2)電子和軟件產(chǎn)業(yè)部門直接卷入機器翻譯研究是這個時代的第二個特點。產(chǎn)業(yè)部門的直接卷入對機器翻譯研究發(fā)展產(chǎn)生深遠的影響。,(3)國際間的交流與合作十分活躍是這個時代的又一特點。,國家政府間的合作、民間組織間的合作形式都有。國家間的合作主要有歐洲共同體EUROTRA計劃和亞洲由日本政府支持的ODA計劃。EUROTRA計劃開始于1978年,主要目的在于開發(fā)一個能處理歐洲共同體成員國語言的機器翻譯系統(tǒng),當時就投入4000萬美元,參加的國家有法國、德國、比利時、丹麥、荷蘭、希臘、愛爾蘭、意大利、盧森保和美國,大約有1
6、00多名的研究人員。ODA計劃是由日本通產(chǎn)省發(fā)起和資助、由日本國際情報協(xié)力中心CICC組織、有中國、泰國、馬來西亞和印度尼西亞參加的機譯合作計劃,開始于1987年,預(yù)定1992年完成(實際1993年結(jié)束),政府投資60億日元,翻譯策略為中間語言表示和概念詞典。,(4)加速吸收和采用新理論和新技術(shù)是這個時代的第四個特點。,機器翻譯研究雖然進入了全面發(fā)展的黃金時代,但仍然面臨著重重的困難,困難歸困難,但因機器翻譯的市場是巨大的,前景也是遠大的,因此各個國家對機器翻譯研究的興趣正在持續(xù)增長,特別是日本,熱情有增無減。全世界從事機器翻譯的研究人員有幾千人,其中日本就將近占了一半。機器翻譯面臨一些嚴峻問
7、題,例如,機器翻譯系統(tǒng)的譯準率長期徘徊在70%左右(大規(guī)模真實語料文本下更低),譯文的可讀性、系統(tǒng)對語言現(xiàn)象的覆蓋面、系統(tǒng)的魯棒性尤其是開放性都不盡人意。社會迫切需要對真實文本(尤其是網(wǎng)上海量文本)進行大規(guī)模的處理,而機器翻譯系統(tǒng)同當今社會對大規(guī)模真實文本處理的期望相差甚遠。機器翻譯系統(tǒng)的譯準率和譯文可讀性(可理解度,可懂度)之所以不盡人意是因為在翻譯過程中存在著下列問題:源文句子分析時語法結(jié)構(gòu)和語義結(jié)構(gòu)存在歧義;多義詞在不同語境中存在譯詞選擇問題;譯文生成時存在介詞、助詞的多義選擇問題;譯文生成時還存在性、數(shù)、格一致性問題、時態(tài)、語態(tài)、語氣、尊稱選擇問題和符合母語語言習(xí)慣、語序選擇問題;代詞
8、指代問題、相關(guān)詞照應(yīng)問題、省略成分復(fù)原問題,等等。,目前,機器翻譯研究領(lǐng)域有幾個研究動向值得注意:,(1)為解決機器翻譯系統(tǒng)面臨的重重困難,采用多種翻譯分析策略、多種翻譯方法的結(jié)合是當前機器翻譯研究的動向和前沿性研究;,現(xiàn)有基于規(guī)則的翻譯技術(shù)和基于語料統(tǒng)計的翻譯技術(shù)各有其不足之處,考慮到語言的規(guī)律性和重復(fù)性,一些研究者又提出了一種基于翻譯記憶技術(shù)的機器翻譯方法,即利用先驗的或者人機交互過程中生成的翻譯記憶,實現(xiàn)對輸入文本的翻譯,例如歐共體(德國TRADOS公司)開發(fā)的“Trados Translators workbench”系統(tǒng)、美國的CMU大學(xué)研究開發(fā)的Pangloss系統(tǒng)等,并已取得了很
9、好的效果。不過由于它們是基于例子的完全匹配,有下面三方面的問題:一方面這種例子庫無法包容所有的現(xiàn)實自然語言句子;另一方面由于例子的適應(yīng)性不強,如要使這種例子庫具有一定的語言現(xiàn)象覆蓋面的話,勢必會使例子庫非常龐大,并且細微差別不能夠有效泛化,冗余度很大;第三方面是例子庫的譯文構(gòu)造基本局限在模式匹配的語言處理層次上,譯文近似構(gòu)造能力很低。但是基于實例模式庫的基于實例的翻譯方法則能克服以上問題,是對基于簡單翻譯記憶方法的改造和完善。實際上現(xiàn)在很多機器翻譯系統(tǒng)或研究基本上都是采用基于規(guī)則翻譯方法和基于語料庫翻譯方法相結(jié)合,形成一種研究的潮流和動向。,(2)在機器翻譯系統(tǒng)中實現(xiàn)參數(shù)化,這也是現(xiàn)在機器翻譯
10、系統(tǒng)的一個發(fā)展方向和新動向。,為了提高機器翻譯的譯文質(zhì)量,有效的方法是將通用的機器翻譯系統(tǒng)進行專一領(lǐng)域化(可在很大程度上提高機器翻譯系統(tǒng)的翻譯質(zhì)量),而專一領(lǐng)域化又必須對每一個領(lǐng)域構(gòu)造不同的專業(yè)領(lǐng)域詞典加上通用詞典,這就必須花費巨大的人力、物力和時間。為了既能對機器翻譯系統(tǒng)實現(xiàn)專一領(lǐng)域化而又不必對每一個領(lǐng)域構(gòu)造不同的專業(yè)領(lǐng)域詞典,對機器翻譯系統(tǒng)實現(xiàn)參數(shù)化是一種解決辦法。參數(shù)化的機器翻譯系統(tǒng)有一個翻譯核心,而且只有一套詞典和一套語法規(guī)則,但在模型的建立中設(shè)置了很多的參數(shù)。對于不同領(lǐng)域的需求,參數(shù)化的機器翻譯系統(tǒng)采用自動學(xué)習(xí)的方法來調(diào)整參數(shù)的設(shè)置,以達到符合這個領(lǐng)域的要求。臺灣清華大學(xué)的蘇克毅教授
11、與英群公司研制的英漢機器翻譯系統(tǒng)ARCHTRAN(采用ATN、RULE、統(tǒng)計方法三結(jié)合),1989年5月完成,一直為IBM、HP、SUN等公司翻譯手冊。蘇克毅教授的英漢機器翻譯系統(tǒng)中實現(xiàn)了參數(shù)化。,國內(nèi)翻譯軟件市場上的商業(yè)軟件主要有詞典類軟件和翻譯類軟件兩種。前者包括金山詞霸、東方快車、華建詞海等產(chǎn)品,后者包括華建網(wǎng)上通系列、銘泰公司的東方快譯系列、金山公司的金山快譯、IBM的翻譯家和中軟公司的譯星系列等全文翻譯軟件。華建機器翻譯有限公司的IAT系統(tǒng)(單板版和局域網(wǎng)絡(luò)版)、德國TRADOS公司的TRADOS系統(tǒng)(在英語類國家中市場占有明顯領(lǐng)先地位,有60多個國家)、北京雅信誠軟件公司的雅信CA
12、T系統(tǒng)(按設(shè)定的匹配率給出參考譯文)則是輔助翻譯類的產(chǎn)品代表。,2.機器翻譯系統(tǒng)的分類及特點,從機器翻譯系統(tǒng)研制的方法來分,機器翻譯系統(tǒng)可以分為如下類型:,(1)基于規(guī)則的機器翻譯系統(tǒng)(Rule-Based MT system,簡稱RBMTS):它是根據(jù)專家的知識歸納的語言的規(guī)則設(shè)計的機器翻譯系統(tǒng)?;谝?guī)則翻譯方法在機器翻譯界一直占有主導(dǎo)地位,直到今天仍發(fā)揮著重要作用,現(xiàn)在有影響的MTS都是基于規(guī)則的。,(2)基于語料庫的機器翻譯系統(tǒng)(Corpus-Based MT system,簡稱CBMTS):它是根據(jù)從語料庫中獲取的統(tǒng)計數(shù)據(jù)或者語言實例來設(shè)計的機器翻譯系統(tǒng)?;谡Z料庫方法的MTS通常稱為
13、第三代MTS?;谡Z料庫的機器翻譯系統(tǒng)還可以進一步再分類,分為如下三種類型:,a基于統(tǒng)計的機器翻譯系統(tǒng)(Statistic-Based MT system,簡稱SBMTS):它是根據(jù)從語料庫中獲取的統(tǒng)計數(shù)據(jù)來設(shè)計的機器翻譯系統(tǒng)。統(tǒng)計機器翻譯的數(shù)學(xué)模型是由IBM公司的Brown等人提出的(1990,1993),它包括語言模型和復(fù)雜程度遞增的5種翻譯模型(數(shù)學(xué)模型),簡稱IBM Model 15。IBM公司的,英法機譯系統(tǒng)Candide在統(tǒng)計機器翻譯方法上做出了有益嘗試。,b基于實例的機器翻譯系統(tǒng)(Example-Based MT system,簡稱EBMTS):它是根據(jù)從語料庫中獲取的語言實例來
14、設(shè)計的機器翻譯系統(tǒng)?;趯嵗g方法最早是由日本著名的機器翻譯專家長尾真1984年提出的,其基本設(shè)想是不通過深層的分析,僅僅利用已有的翻譯經(jīng)驗知識,通過類比原理進行翻譯。日本京都大學(xué)的英日實驗系統(tǒng)MBT2在基于實例翻譯方法上做出了有益嘗試。,c翻譯記憶系統(tǒng)(Translation Memory MT system,簡稱TMMTS):它是能夠保存和重復(fù)使用翻譯工作者已經(jīng)翻譯好的譯文的翻譯系統(tǒng)。翻譯記憶軟件在內(nèi)容修訂和更新的全過程中能保存和重復(fù)使用譯文。如果有新的資料需要翻譯,可以使用原來存儲在翻譯記憶中的譯文,重復(fù)使用原來的譯文。關(guān)于翻譯記憶機制的設(shè)想,最早提出這一想法的是Peter Arthe
15、rn(1978)。他指出:如果能在線檢索已有的、相似文檔的譯文,翻譯人員就能從中獲得很大的幫助。他還主張開發(fā)一個程序,讓系統(tǒng)記住已經(jīng)翻譯過的文本,新文本輸入后系統(tǒng)檢查“記憶庫”,找到相似的文本并輸出其譯文。翻譯記憶技術(shù)系統(tǒng)產(chǎn)品包括Transit(STAR)、Translation Manager(IBM)、Optimizer(Eurolang)、Translators Workbench(Trados)、TransPro(TranPro)、WorldLingo等。,從機器翻譯系統(tǒng)的自動化程度來分,機器翻譯系統(tǒng)可以分為如下類型:,(1)全自動機器翻譯系統(tǒng)(Full Automatic MT sy
16、stem,簡稱FAMTS):它是由計算機全部自動地進行翻譯的機器翻譯系統(tǒng)。,(2)人助機譯機器翻譯系統(tǒng)(Human-Assisted MT system,簡稱HAMTS):它是由人來輔助計算機進行翻譯的機器翻譯系統(tǒng)??梢酝ㄟ^譯前編輯對于要翻譯的原文進行加工,使之適合機器翻譯系統(tǒng)的要求,或者通過譯后編輯對于翻譯好的譯文進行修改,使之滿足用戶的需要。,(3)機助人譯機器翻譯系統(tǒng)(Machine-Assisted MT system,簡稱MAMTS):它是由計算機輔助人來進行翻譯的機器翻譯系統(tǒng)。例如,人可以使用計算機來查詢詞典,修改譯文錯誤等。,這后兩種翻譯系統(tǒng)合稱計算機輔助翻譯系統(tǒng)。,從翻譯轉(zhuǎn)換方式和翻譯過程來分,機器翻譯系統(tǒng)又可以分為以下三種類型:,(1)直譯方式和直譯式系統(tǒng)(Driect Translation MTS,簡稱DTMTS):它是以直接翻譯方法為基礎(chǔ)的第一代機器翻譯系統(tǒng)。直譯法的基本原則是把原語的詞或句子替換成相應(yīng)的譯語的詞或句子,必要時對譯文詞序進行適當?shù)恼{(diào)整。早期的MTS主要采用直譯式的翻譯模式。,(2)基于轉(zhuǎn)換翻譯方式和基于轉(zhuǎn)換方式的機器翻譯系統(tǒng)(Transfer B