自然語言處理
自然語言處理
自然語言處理(自然語言處理)
自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學的一部分。
目錄 詳細介紹 發(fā)展歷史 概述 爭論 收縮展開 詳細介紹語言是人類區(qū)別其他動物的本質特性。在所有生物中,只有人類才具有語言能力。人類的多種智能都與語言有著密切的關系。人類的邏輯思維以語言為形式,人類的絕大部分知識也是以語言文字的形式記載和流傳下來的。因而,它也是人工智能的一個重要,甚至核心部分。 用自然語言與計算機進行通信,這是人們長期以來所追求的。因為它既有明顯的實際意義,同時也有重要的理論意義:人們可以用自己最習慣的語言來使用計算機,而無需再花大量的時間和精力去學習不很自然和習慣的各種計算機語言;人們也可通過它進一步了解人類的語言能力和智能的機制。 實現人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。歷史上對自然語言理解研究得較多,而對自然語言生成研究得較少。但這種狀況已有所改變。 無論實現自然語言理解,還是自然語言生成,都遠不如人們原來想象的那么簡單,而是十分困難的。從現有的理論和技術現狀看,通用的、高質量的自然語言處理系統(tǒng),仍然是較長期的努力目標,但是針對一定應用,具有相當自然語言處理能力的實用系統(tǒng)已經出現,有些已商品化,甚至開始產業(yè)化。典型的例子有:多語種數據庫和專家系統(tǒng)的自然語言接口、各種機器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動文摘系統(tǒng)等。 自然語言處理,即實現人機間自然語言通信,或實現自然語言理解和自然語言生成是十分困難的。造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。 一個中文文本從形式上看是由漢字(包括標點符號等)組成的一個字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進而由一些句子組成段、節(jié)、章、篇。無論在上述的各種層次:字(符)、詞、詞組、句子、段,……還是在下一層次向上一層次轉變中都存在著歧義和多義現象,即形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。一般情況下,它們中的大多數都是可以根據相應的語境和場景的規(guī)定而得到解決的。也就是說,從總體上說,并不存在歧義。這也就是我們平時并不感到自然語言歧義,和能用自然語言進行正確交流的原因。但是一方面,我們也看到,為了消解歧義,是需要極其大量的知識和進行推理的。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式,將它們存入計算機系統(tǒng)中去;以及如何有效地利用它們來消除歧義,都是工作量極大且十分困難的工作。這不是少數人短時期內可以完成的,還有待長期的、系統(tǒng)的工作。 以上說的是,一個中文文本或一個漢字(含標點符號等)串可能有多個含義。它是自然語言理解中的主要困難和障礙。反過來,一個相同或相近的意義同樣可以用多個中文文本或多個漢字串來表示。 因此,自然語言的形式(字符串)與其意義之間是一種多對多的關系。其實這也正是自然語言的魅力所在。但從計算機處理的角度看,我們必須消除歧義,而且有人認為它正是自然語言理解中的中心問題,即要把帶有潛在歧義的自然語言輸入轉換成某種無歧義的計算機內部表示。 歧義現象的廣泛存在使得消除它們需要大量的知識和推理,這就給基于語言學的方法、基于知識的方法帶來了巨大的困難,因而以這些方法為主流的自然語言處理研究幾十年來一方面在理論和方法方面取得了很多成就,但在能處理大規(guī)模真實文本的系統(tǒng)研制方面,成績并不顯著。研制的一些系統(tǒng)大多數是小規(guī)模的、研究性的演示系統(tǒng)。
發(fā)展歷史最早的自然語言理解方面的研究工作是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設計方案。20世紀60年代,國外對機器翻譯曾有大規(guī)模的研究工作,耗費了巨額費用,但人們當時顯然是低估了自然語言的復雜性,語言處理的理論和技術均不成熱,所以進展不大。主要的做法是存儲兩種語言的單詞、短語對應譯法的大辭典,翻譯時一一對應,技術上只是調整語言的同條順序。但日常生活中語言的翻譯遠不是如此簡單,很多時候還要參考某句話前后的意思。 大約90年代開始,自然語言處理領域發(fā)生了巨大的變化。這種變化的兩個明顯的特征是: (1)對系統(tǒng)輸入,要求研制的自然語言處理系統(tǒng)能處理大規(guī)模的真實文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實用價值。 (2)對系統(tǒng)的輸出,鑒于真實地理解自然語言是十分困難的,對系統(tǒng)并不要求能對自然語言文本進行深層的.理解,但要能從中抽取有用的信息。例如,對自然語言文本進行自動地提取索引詞,過濾,檢索,自動提取重要信息,進行自動摘要等等。 同時,由于強調了“大規(guī)模”,強調了“真實文本”,下面兩方面的基礎性工作也得到了重視和加強。 (1)大規(guī)模真實語料庫的研制。大規(guī)模的經過不同深度加工的真實文本的語料庫,是研究自然語言統(tǒng)計性質的基礎。沒有它們,統(tǒng)計方法只能是無源之水。 (2)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬,十幾萬,甚至幾十萬詞,含有豐富的信息(如包含詞的搭配信息)的計算機可用詞典對自然語言處理的重要性是很明顯的。
概述基礎理論
自動機 形式邏輯 統(tǒng)計機器學習漢語語言學 形式語法理論
語言資源
語料庫 詞典
關鍵技術
漢字編碼詞法分析 句法分析 語義分析 文本生成 語音識別
應用系統(tǒng)
文本分類和聚類 信息檢索和過濾 信息抽取問答系統(tǒng)拼音漢字轉換系統(tǒng) 機器翻譯 新信息檢測
爭論雖然上述新趨勢給自然語言處理領域帶來了成果,但從理論方法的角度看,由于采集、整理、表示和有效應用大量知識的困難,這些系統(tǒng)更依賴于統(tǒng)計學的方法和其他“簡單”的方法或技巧。而這些統(tǒng)計學的方法和其他“簡單”的方法似乎也快達到它們的極限了,因此,就現在而言,在自然語言處理界廣泛爭論的一個問題便是:要取得新的更大的進展,主要有待于理論上的突破呢,還是可由已有的方法的完善和優(yōu)化實現?答案還不清楚。大致上,更多的語言學家傾向于前一種意見,而更多的工程師則傾向于后一種意見;卮鸹蛟S在“中間”,即應將基于知識和推理的深層方法與基于統(tǒng)計等“淺層”方法結合起來。
【自然語言處理】相關文章:
自然語言處理中的概率語法07-08
自然語言理解06-10
信息時代的自然語言邏輯研究特色09-01
現代自然語言邏輯研究的若干路徑08-22
自然語言理解中的回指解析研究概述07-19
移動GIS中語音與自然語言的應用模式探討08-01
自然語言中選言肢相容與否的判定問題07-30
基于提高自然語言文本水印嵌入量的算法07-28
處理05-07