機器翻譯和自動文摘.ppt
《機器翻譯和自動文摘.ppt》由會員分享,可在線閱讀,更多相關(guān)《機器翻譯和自動文摘.ppt(63頁珍藏版)》請在裝配圖網(wǎng)上搜索。
2020/4/27,1,自然語言理解(NaturalLanguageUnderstanding,NLU),也稱為計算語言學(xué)(ComputationalLinguistics),是研究如何利用計算機來理解和生成自然語言的理論和方法?.它是人工智能三大研究方向之一;是一門自然科學(xué)和社會科學(xué)交叉的學(xué)科,特別是計算機科學(xué)、數(shù)學(xué)、語言學(xué)、心理學(xué)和哲學(xué)相互交叉的科學(xué)。,自然語言理解與機器翻譯,2020/4/27,2,自然語言就是我們生活中使用的語言,如漢語、英語、日語等等.它是相對于人工設(shè)計的形式化的計算機語言如Basic、Fortran、C、Lisp等等而言的.隨著社會信息化程度的提高,人們越來越重視NLU技術(shù)的研究.其研究成果已經(jīng)在機器翻譯、信息檢索、自然語言人機接口等重要領(lǐng)域得到應(yīng)用。機器翻譯(MachineTranslation,MT)是自然語言處理中的一個最早的研究分支,它是利用計算機把一種自然語言轉(zhuǎn)變成另一種自然語言的過程。用以完成這一過程的軟件叫做機器翻譯系統(tǒng)。,2020/4/27,3,機器翻譯和自動文摘,,2020/4/27,4,機器翻譯內(nèi)容提要,機器翻譯定義機器翻譯的發(fā)展歷史機器翻譯現(xiàn)狀機器翻譯方法機器翻譯發(fā)展趨勢機器翻譯應(yīng)用系統(tǒng)類型結(jié)語,2020/4/27,5,什么是機器翻譯,機器翻譯(machinetranslation)是使用電子計算機把一種自然語言(源語言,sourcelanguage)翻譯成另外一種自然語言(目標語言,targetlanguage)的一門學(xué)科這門新學(xué)科同時也是一種新技術(shù).它涉及到語言學(xué)、計算機科學(xué)、數(shù)學(xué)等許多部門,是非常典型的多邊緣的交叉學(xué)科,2020/4/27,6,一些研究領(lǐng)域,–-在語言學(xué)中,機器翻譯是計算語言學(xué)的一個研究領(lǐng)域–-在計算機科學(xué)中,機器翻譯是人工智能的一個研究領(lǐng)域–-在數(shù)學(xué)中,機器翻譯是數(shù)理邏輯和形式化方法的一個研究領(lǐng)域.,2020/4/27,7,機器翻譯的發(fā)展歷史,機器翻譯的發(fā)展經(jīng)歷了興起、低落和重新興盛的曲折歷程。在昌盛的時候,人們?yōu)檠芯砍晒木始姵屎蛻?yīng)用的成功而歡呼,即使在低潮時,人們也在不斷地反思,為重新發(fā)展積蓄力量。國外的狀況國內(nèi)的狀況,2020/4/27,8,國外狀況(1),機器翻譯最早開始于美國,自本世紀4O年代電子計算機誕生之日起就開始了將計算機應(yīng)用于語言翻譯的探索。1949年,美國工程師W.Weaver散發(fā)了題為“翻譯”的備忘錄,對機器翻譯的重要性及可行性進行了論證。Weaver首先提出了用統(tǒng)計方法進行機器翻譯的想法。1952年,第一次全美機器翻譯會議召開。,2020/4/27,9,國外狀況(2),1954年《機器翻譯》創(chuàng)刊,同年,Georgeton(喬治城大學(xué))大學(xué)成功研制了第一個機譯系統(tǒng),由此機器翻譯掀起熱潮。1966年,Barlill在美國全國科學(xué)院的ALPAC報告中指出:機器翻譯速度慢,準確率差,比人工翻譯費用高得多,在近期或可以預(yù)見的未來,開發(fā)出實用的機器翻譯系統(tǒng)是不可能的。各部門紛紛停止了對機器翻譯研究的經(jīng)費支持,從而導(dǎo)致機譯走向低潮。,2020/4/27,10,國外狀況(3)---低潮期機譯研究,GETA(Grenoble-France)在BernardVauquois教授領(lǐng)導(dǎo)下,開發(fā)了基于配價語法的機器翻譯系統(tǒng),研制了機器翻譯專用軟件ARIANE,推動了邏輯程序設(shè)計的研究。TAUM-METEO(UniversityofMontreal,從1977開始研制了實用性機器翻譯系統(tǒng)(English-French,)TAUM,翻譯天氣預(yù)報文獻,在技術(shù)上,TAUM繼承了GETA的機器翻譯方法。SYSTRAN:這個系統(tǒng)在Apollo-Soyuz空間研究方面承擔了機器翻譯的任務(wù),立下汗馬功勞,后來被EEC正式采用,作為重要的翻譯工具。,2020/4/27,11,2020/4/27,12,國外狀況(4)--復(fù)蘇,1970年代末,機器翻譯進入了它的第三個時期--繁榮期(1976年—1980年代末)。繁榮期的最重要的特點,是機器翻譯研究走向了實用化,出現(xiàn)了一大批實用化的機器翻譯系統(tǒng),機器翻譯產(chǎn)品開始進入市場,變成了商品,由機器翻譯系統(tǒng)的實用化引起了機器翻譯系統(tǒng)的商品化。,2020/4/27,13,機器翻譯的平臺期,整個1990年代,機器翻譯進入了一個平臺期基于規(guī)則的機器翻譯方法理論上無法突破在應(yīng)用上,機器翻譯由于受到翻譯質(zhì)量制約,難于進一步擴展,反而是基于翻譯記憶思想的計算機輔助翻譯獲得了巨大進展,2020/4/27,14,就在機器翻譯進入平臺期的時候,一些新的因素也在萌芽–基于實例的機器翻譯思想–基于統(tǒng)計的機器翻譯思想–互聯(lián)網(wǎng)的出現(xiàn)大大促進了機器翻譯的需求,2020/4/27,15,機器翻譯新熱潮,1999年開始,出現(xiàn)了一個機器翻譯的新熱潮,其最主要的特征是統(tǒng)計機器翻譯方法開始占據(jù)主導(dǎo)地位,機器翻譯的質(zhì)量出現(xiàn)了一個跨越式的提高,2020/4/27,16,機器翻譯的新熱潮,1980年代末IBM首次開展統(tǒng)計機器翻譯研究?年IBM首次提出統(tǒng)計機器翻譯的信源信道模型1993年IBM提出五種基于詞的統(tǒng)計翻譯模型IBMModel1-51994年IBM發(fā)表論文給出了Candide系統(tǒng)與Systran系統(tǒng)在ARPA評測中的對比測試報告1999年JHU夏季研討班重復(fù)了IBM的工作并推出了開放源代碼的工具2001年IBM提出了機器翻譯自動評測方法BLEU2002年NIST開始舉行每年一度的機器翻譯評測2002年第一個采用統(tǒng)計機器翻譯方法的商業(yè)公司LanguageWeaver成立,2020/4/27,17,機器翻譯新熱潮,2002年FranzJosefOch提出統(tǒng)計機器翻譯的對數(shù)線性模型2003年FranzJosefOch提出對數(shù)線性模型的最小錯誤率訓(xùn)練方法2004年P(guān)hilippKoehn推出Pharaoh(法老)標志著基于短語的統(tǒng)計翻譯方法趨于成熟2005年DavidChiang提出層次短語模型并代表UMD在NIST評測中取得好成績2005年Google在NIST評測中大獲全勝,隨后Google推出基于統(tǒng)計方法的在線翻譯工具,其阿拉伯語-英語的翻譯達到了用戶完全可接受的水平,目前已經(jīng)可以支持40多種語言的互譯2006年NIST評測中USC-ISI的串到樹句法模型第一次超過Google(僅在漢英受限翻譯項目中),2020/4/27,18,2020/4/27,19,國內(nèi)狀況,我國機器翻澤的研究從一開始就得到了國家的高度重視。早在1956年它便以“機器翔譯/自然語言的數(shù)學(xué)理論”列入了當時的《科學(xué)發(fā)展綱要》。以后則列為“六五”、“七五”。以及“863”等重大科研項目.但因為“文革”有過1O年的停滯。,2020/4/27,20,國內(nèi)狀況,7O年代中期,我國機器翻譯研究從停滯走向了復(fù)蘇.8O年代中期到9O年代初期產(chǎn)生丁兩個在中國機譯史上具有重要意義的實用化系統(tǒng).它們分別是軍事科學(xué)院研制的”KY—l”英漢機譯系統(tǒng)和中科院計算所研制的”863一IMT”英漢機譯系統(tǒng).,2020/4/27,21,國內(nèi)狀況,90年代初期至今,中國的機器翻譯走入了快速發(fā)展的時期,出現(xiàn)了許多商品化系統(tǒng)。近期的機譯系統(tǒng)大體上有這樣一些持點:多數(shù)配有大規(guī)模的多種領(lǐng)域的專業(yè)詞典,多數(shù)能在網(wǎng)上運行,有相當不錯的方便用戶的界面。新的應(yīng)用領(lǐng)域的機器翻譯研究,如對話翻譯系統(tǒng)的研發(fā)等也已開始.,2020/4/27,22,機器翻譯現(xiàn)狀(面臨問題),1、影響機器翻譯質(zhì)量的核心是歧義的處理。在詞匯的層面上,詞匯的歧義主要是一詞多義,如英語單詞“note”可以指“筆記”、“短信”、“注釋”、“紙幣”等。以下是詞匯歧義的例子:原文:Thank-younotesareheart-warming.機器譯文:感謝筆記溫暖人心。人工譯文:感謝信溫暖人心。,2020/4/27,23,在結(jié)構(gòu)層面上,常見的結(jié)構(gòu)歧義有and(和)結(jié)構(gòu),如nicegirlsandboys,它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,這種歧義只有人工翻譯才能消除,計算機無法識別此歧義,可見歧義的處理是影響機器翻譯質(zhì)量的關(guān)鍵。,2020/4/27,24,,2、人類翻譯目標集中于目標語言,如果有必要的話,譯者會采用靈活的方式以使翻譯傳情達意,有的時候會使用意譯的方法,這是機器翻譯所無法達到的。,2020/4/27,25,例1,文學(xué)翻譯是“傳達作者的全部意圖,即作者對在讀者思想感情上產(chǎn)生藝術(shù)作用的全部意圖”。即使對于專業(yè)翻譯工作者來說,文學(xué)翻譯也不是件容易的事,更何況是對于沒有任何認知能力的機器。以下是美國19世紀著名作家愛默森長篇散文Beauty中的原句。原文:“ButthisbeautyofNaturewhichisseenandfeltasbeauty,istheleastpart.”—BeautyRalphWaldoEmerson機器譯文:但是這哪個看見并且作為美麗感到的自然的美麗,是最小部分。夏濟安譯文:可是凡是耳目所能辨認出來的美,只是自然之美的最低部分。,2020/4/27,26,例2:美國著名作家馬克.吐溫早期優(yōu)秀小說《競選州長》中的原句。原文:"Ihauleddownmycolorsandsurrendered."—RunningForGovernorMarkTwain機器譯文:我沿著我的顏色拖并且投降。張有松譯文:我偃旗息鼓,甘拜下風。由于機器沒有思維、推理、判斷能力,缺乏人工譯者的綜合知識和長期積淀下來的文化知識等,無法對原文產(chǎn)生全面的了解,做的只是機械轉(zhuǎn)碼,無法突破思維障礙。要獲得地道完整的譯文,必須對機器譯文進行人工修改、加工。,2020/4/27,27,機器翻譯的方法,機器翻譯的基本過程機器翻譯的總?cè)蝿?wù)可以描述為:將一種語言(源語言)的文本送入計算機,通過計算機程序生成另一種語言(目標語言)的文本,且源語言文本與目標語言文本具有相同的含義。機器翻譯系統(tǒng)的類型很多,采取的策略和技術(shù)也有差別,但它們的基本工作過程大體上是一致的。機器翻譯的第一步是在不同層次上分析源文本,而后是目標語文本的生成.這兩個步驟是機器翻譯系統(tǒng)基本實現(xiàn)過程中的兩個主要組成部分。,2020/4/27,28,機器翻譯的四種實現(xiàn)方法,基于分析和轉(zhuǎn)換的機器翻譯方法基于中間語言的翻譯方法基于統(tǒng)計的機器翻譯方法基于實例的機器翻譯方法,2020/4/27,29,基于分析和轉(zhuǎn)換的機器翻譯方法,機器翻譯系統(tǒng)的操作過程與人做翻譯過程一樣,有檢索、分析、轉(zhuǎn)換和生成的主要四個階段這被稱為基于分析和轉(zhuǎn)換的機器翻譯系統(tǒng),也被認為是模擬人類翻譯活動最恰當?shù)臋C制,2020/4/27,30,基本原理一般情況下,分析以句法為主、語義為輔,正確的句法結(jié)構(gòu)轉(zhuǎn)換加正確的詞匯譯文可以從源語言向目標語言傳遞完整的正確信息。因此,以句法結(jié)構(gòu)轉(zhuǎn)換附加一定的語義信息,能夠構(gòu)成轉(zhuǎn)換的基本層次,就標準的機器翻譯系統(tǒng)來說,句子和短語層次的結(jié)構(gòu)轉(zhuǎn)換是機器翻譯轉(zhuǎn)換部分的研究重點,這方面一般采用一下產(chǎn)生式方式的轉(zhuǎn)換規(guī)則形式。,2020/4/27,31,轉(zhuǎn)換規(guī)則形式:S:S1+S2+‥+Si→T1+T2+‥+Tj:T上式理解為S是SL(源語言)的某個待翻譯單位(句子、短語等等),S1~S2是S中的下一級組成單位;對于S,如果滿足條件,則TL(目標語言)中有T1~Tj譯文構(gòu)成了相應(yīng)的等價物T。上述方法稱為基于句法的轉(zhuǎn)換方法,因為S1+S2+‥+Si一般來說就是源語言的的句法結(jié)構(gòu)表示;也可以稱為直接轉(zhuǎn)換方法,因為對于每個源語言的翻譯組塊,都馬上給出一個目標語言組塊與之對應(yīng)。應(yīng)該說,這種轉(zhuǎn)換方法符合人的直覺認識,也能夠?qū)崿F(xiàn)。,2020/4/27,32,基于中間語言的翻譯方法,基于中間語言的翻譯方法是對源語言進行分析以后產(chǎn)生一種稱為中間語言的表示形式,然后直接由這種中間語言的表示形式生成目標語言。所謂中間語言就是自然語言的計算機表示形式的系統(tǒng)化,它試圖創(chuàng)造出一種獨立于各種自然語言,同時又能表示各種自然語言的人工語言。,2020/4/27,33,基于中間語言的機器翻譯方法的優(yōu)勢是無需一種語言到另一種語言的一一轉(zhuǎn)換,對于多語種的翻譯系統(tǒng)可以節(jié)約大量的轉(zhuǎn)換知識的手工獲取工作量。假如有N種語對需要相互翻譯,只要有2N個分析和生成模塊就夠了,其中一半是源語言分析模塊,輸入為原文,輸出以IL表示;另一半是目標語言生成模塊,輸入為IL表示,輸出為目標語言譯文。,2020/4/27,34,然而,中間語言的機器翻譯方法也常遭到懷疑。因為是否能夠構(gòu)造出表示各種不同的自然語言語法、語義的中間語言至少目前還是未知數(shù)。此外,中間語言能不能把各種語言的所有特征保留下來,又能很好生成對應(yīng)的各種語言也是問題所以,構(gòu)造中間語言是一個巨大、復(fù)雜的工程,還包含許多理論研究,迄今為止的探索還沒有好的答案。,2020/4/27,35,基于統(tǒng)計的機器翻譯的方法,它的基本原理是實現(xiàn)源語言詞匯到目標語言詞匯的映射。其思路受到語音識別研究的啟發(fā),因而應(yīng)用了類似的方法來實現(xiàn)。研究者用大規(guī)模的雙語語料庫作為基礎(chǔ),對源語言和目標語言詞匯的對應(yīng)關(guān)系進行統(tǒng)計,根據(jù)統(tǒng)計規(guī)律輸出譯文。,2020/4/27,36,這種方法沒有使用語言知識,主要特征是概率統(tǒng)計與隨機過程的方法成為了分析和生成過程的唯一方法。它的主要內(nèi)容是雙語句對的對齊,通過詞匯同現(xiàn)的可能性來計算一種語言的一個詞映射到另一種語言的一個詞(或兩個、零個詞)的概率。應(yīng)該說,基于統(tǒng)計的機器翻譯方法的出現(xiàn)改變了機器翻譯研究的面貌,,從而開始了機器翻譯研究的新階段。,2020/4/27,37,基于實例的機器翻譯方法,建立機器翻譯系統(tǒng)需要大量的知識,在基于轉(zhuǎn)換和基于中間語言的機器翻譯方法中,知識按一定規(guī)則譯成代碼,這既耗時花費也大。此外,知識獲取瓶頸阻礙了機器翻譯的快速發(fā)展,這是早期機器翻譯面臨的重大難題。,2020/4/27,38,日本機器翻譯專家Nagao在80年代提出了一種新方法,用已經(jīng)存在的翻譯實例(雙語文本)作為知識源,這種方法稱為基于類比的翻譯,后來普遍稱為基于實例的翻譯。基于實例的思想己被廣泛的采用,既用于機器翻譯的設(shè)計,也用于機器翻譯不同處理階段的實現(xiàn)中。用不斷積累的已經(jīng)譯好的文本作為機器翻譯的樣本的思想,也是具有吸引力的。,2020/4/27,39,基于實例的機器翻譯方法通過結(jié)構(gòu)化的翻譯例子直接把源語言的短語和句子與目標語言的短語和句子對應(yīng)起來。方法的不同使得處理步驟或多或少,但都必須實現(xiàn)源語言到目標語言的轉(zhuǎn)換,其映射關(guān)系或者是詞到詞,或者是短語或句子到與之相應(yīng)的等價物,或者是一棵句法樹到另一棵句法樹。,2020/4/27,40,基于實例的機器翻譯(EBMT)的實現(xiàn)過程簡單概述如下:給定源語言輸入句子S,在雙語語料庫中匹配查找一個最相近的句子S’,則S’的譯文就被接受為的譯文。翻譯的過程一般就是查找和復(fù)現(xiàn)相似的例子,發(fā)現(xiàn)和記起特定的源語言表達或相似的表達在以前是如何翻譯的,把以前的翻譯實例作為主要知識源,2020/4/27,41,機器翻譯發(fā)展趨勢,機器翻譯的質(zhì)量雖然不能和人工翻譯相提并論,但有許多優(yōu)勢是人工翻譯所不具備的。我國著名計算語言學(xué)與機器翻譯專家董振東說:“美國要開發(fā)一種口語翻譯機,專門用來審訊與美國人語言不通的塔利班俘虜。如果用人來做翻譯,由于語言不通,即使翻譯被塔利班收買,對美國人信口胡說,美國人也不會知道,而機器就不可能出現(xiàn)這種情況。這機器現(xiàn)在有沒有發(fā)明出來,能到什么翻譯水平還不得而知,但這至少是一個相當好的發(fā)展領(lǐng)域?!?2020/4/27,42,因此,發(fā)揮機器翻譯的自身優(yōu)勢是決定機器翻譯發(fā)展趨勢的重要因素之一。機器翻譯的發(fā)展趨勢是解決人工智能的技術(shù)問題。“假設(shè)要從人工智能上有所突破,那只能在神經(jīng)網(wǎng)絡(luò)和模糊計算上尋找出路?!睘榱颂剿魅斯ぶ悄埽闺娔X模仿人腦,進行更多的智力勞動,模糊計算便應(yīng)運而生。神經(jīng)網(wǎng)絡(luò)和模糊計算都是通過對人腦的結(jié)構(gòu)和推理方式的模擬來實現(xiàn)計算機的智能化。“只有人腦才能和人腦相比”——這看似廢話,對于機器翻譯來說,卻是技術(shù)上真正意義上的突破口。,2020/4/27,43,機器翻譯應(yīng)用系統(tǒng)類型,按應(yīng)用方式劃分–信息分發(fā)型MTfordissemination要求高質(zhì)量,不要求實時采用人機互助,或者受限領(lǐng)域、受限語言等方式提高翻譯質(zhì)量–信息吸收型MTforassimilation不要求高質(zhì)量,要求方便、實時翻譯瀏覽器、便攜式翻譯設(shè)備、……,2020/4/27,44,按應(yīng)用方式劃分–信息交流型MTforinterchange不要求高質(zhì)量,通常要求實時,語言隨意性較大語音翻譯、網(wǎng)絡(luò)聊天翻譯、電子郵件翻譯–信息存取型MTforinformationaccess將機器翻譯嵌入到其他應(yīng)用系統(tǒng)中跨語言檢索、跨語言信息抽取、跨語言文摘、跨語言非文本數(shù)據(jù)庫的檢索……,2020/4/27,45,結(jié)語,目前,機器翻譯的水平較50年前有了很大的提升,但要徹底克服語言障礙,使MT投入實際應(yīng)用,還需數(shù)學(xué)家、計算機專家、人工智能專家、語言學(xué)家、心理學(xué)家、認知學(xué)家、邏輯學(xué)家等通力合作,共同努力,從理論研究和應(yīng)用開發(fā)上有所突破,相信機器翻譯會到達光明的彼岸。,2020/4/27,46,自動文摘,2020/4/27,47,自動文摘作用,自動文摘技術(shù)的作用是生成給定原文的中心內(nèi)容,或把所需要的內(nèi)容從文章中自動抽取出來,并用同于或不同于原文的句子表示出來。其軟件系統(tǒng)稱之為自動文摘系統(tǒng)。,2020/4/27,48,自動文摘—引言,自動文摘技術(shù)的研究開始于20世紀50年代末,IBM公司的Luhn首次設(shè)計了一個自動文摘系統(tǒng)。進入90年代以來,隨著Internet的開通,自動文摘引起了世人的極大關(guān)注,越來越多的學(xué)者紛紛開始從認知心理學(xué)、情報科學(xué)、計算語言學(xué)等各個方面展開研究,提出了實現(xiàn)自動文摘的新的思路和方法,自動文摘的研究進入了前所未有的繁榮期。,2020/4/27,49,自動文摘的兩個階段,基于統(tǒng)計的機械文摘-------機械式自動文摘基于意義的理解文摘-------理解式自動文摘,2020/4/27,50,2020/4/27,51,機械文摘基本原理,機械文摘是指根據(jù)文章的外在特征抽取原文中的部分句子作為摘要。機械文摘的基本原理是:文章中有一些能夠反映文章主題的詞,可以稱為有效詞(Significantword),有效詞集中的句子就是能概括文摘主旨的句子,如關(guān)鍵句(KeySen.tence),關(guān)鍵句集構(gòu)成摘要。嚴格地說,根據(jù)這種方法提取出來的文本只能稱為摘錄,而不是真正意義上的文摘。,2020/4/27,52,機械文摘的生成通常是通過分析文本的六種形式特征來確定的。這六種特征是:詞頻、標題、位置、句法結(jié)構(gòu)、線索詞、指示性短語等,它們從不同的角度揭示文本主題。由此也可以看出,機械文摘所使用的方法主要是依靠統(tǒng)計(如統(tǒng)計詞頻)和經(jīng)驗(如分析關(guān)鍵詞關(guān)鍵句出現(xiàn)的位置)獲得的。,2020/4/27,53,通過傳統(tǒng)的機械文摘技術(shù)給出的文摘雖然通常能夠抓住文獻的關(guān)鍵所在,并用作者的原句加以概括,而且獲得了一定的實際應(yīng)用,但它的缺點也是明顯的,其中最為突出的有以下幾個方面:摘要的質(zhì)量不穩(wěn)定,缺乏句問的連貫性,有時摘要內(nèi)容冗余等。,2020/4/27,54,基于上述機械文摘的缺陷,人們探索了利用自然語言理解技術(shù)進行自動文摘的方法。由于受到知識不足的限制,基于理解的文摘技術(shù)只能適用于某個狹窄的領(lǐng)域,如用于處理有軍事情況的新聞等,但摘要的質(zhì)量明顯優(yōu)于傳統(tǒng)文摘。,2020/4/27,55,理解文摘,基于理解的文摘方法是以人工智能,特別是自然語言理解技術(shù)為基礎(chǔ)而發(fā)展起來的文摘方法。該方法與機械文摘的明顯區(qū)別在于對知識的利用,它不僅利用語言學(xué)知識獲取語言結(jié)構(gòu),更重要的是利用領(lǐng)域知識進行判斷、推理,得到文摘的意義表示,最后從意義表示中生成摘要。,2020/4/27,56,基本原理,基本原理是:在某一特定領(lǐng)域的文章中,必然存在著特定的信息焦點,即讀者感興趣的內(nèi)容,如軍事情況報道必然包含有關(guān)的地點、人數(shù)、傷亡情況等內(nèi)容。利用語言學(xué)手段將文章中代表這些信息焦點的文字識別出來,用話語加以組織即可形成一篇連貫的高質(zhì)量的文摘。,2020/4/27,57,理解文摘過程,基于理解的文摘方法實現(xiàn)主要分以下幾步驟:(1)文本預(yù)處理:借助詞典中的語言學(xué)知識對原文中的句子進行語法分析,獲得語法結(jié)構(gòu)樹。(2)語義分析:運用知識庫中的語義知識將語法結(jié)構(gòu)描述轉(zhuǎn)換成以邏輯和意義為基礎(chǔ)的語義標示。,2020/4/27,58,(3)語用分析和信息提?。焊咧R庫中預(yù)先存放的領(lǐng)域知識在上下文中進行處理,并將提取出來的關(guān)鍵內(nèi)容存入一張信息表。(4)文本生成:將信息表中的內(nèi)容轉(zhuǎn)換為一段完整連貫的文字輸出。,2020/4/27,59,理解文摘優(yōu)缺點分析,基于理解的自動摘要采用了復(fù)雜的自然語言理解和生成技術(shù),對文獻意義的把握更準確一些,因此摘要質(zhì)量較好,具有簡潔精練、全面準確、可讀性強等優(yōu)點。理解摘要不僅要求計算機具有自然語言理解和生成能力,還需要表達和組織各種背景、領(lǐng)域知識。這些工作的難度十分巨大,迄今為止進展甚微。因此,理解摘要方法的使用比較少見,僅限于非常狹小的應(yīng)用領(lǐng)域中。,2020/4/27,60,理解文摘應(yīng)用舉例,基于理解的文摘方法需要較成熟的人工智能技術(shù)和大型的專家知識庫,對文章進行深層的句法和語義分析。典型的理解式文摘方法使用預(yù)定制的模板,從原文中提煉重要的信息填入模板中,從而生成摘要。采用這種方法的系統(tǒng)包括FRUMP(DeJong,1982),TOPIC(Hahnetal,1985),SCISOR(Rau,1988)和SUMMON(McKeownetal,1995)等。,2020/4/27,61,哈爾濱工業(yè)大學(xué)研制了一個基于理解的軍事領(lǐng)域自動文摘實用系統(tǒng)(MilitaryAreaTextAutomaticAbstractSystem,MATAS)。該系統(tǒng)考慮了句子之間的語義聯(lián)系,但是系統(tǒng)不能自動判斷段落的文體,需要人工干預(yù)[4]。北京郵電大學(xué)研究實現(xiàn)了面向新聞報道的News系統(tǒng)及面向神經(jīng)網(wǎng)絡(luò)學(xué)習算法領(lǐng)域的Ladies自動文摘系統(tǒng)。,2020/4/27,62,自動文摘面臨的研究,(1)基于理解的文摘系統(tǒng)大多受限于特定領(lǐng)域,難以移植,發(fā)展空間不大。(2)需要加強對概念的研究,形成一套以概念為核心的自然語言分析體系。(3)多文檔文摘是亟待研究的一個課題。(4)便攜式設(shè)備和移動電話的發(fā)展為自動文摘的應(yīng)用提供了新的機遇和挑戰(zhàn)。(5)文摘及自動文摘系統(tǒng)的評價問題尚需進一步研究。,2020/4/27,63,Thankyou!,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 機器翻譯 自動 文摘
鏈接地址:http://www.hcyjhs8.com/p-11539277.html