在信息紛繁如大洋般浩浩的互聯(lián)網(wǎng)時代,操持各自語言的人們匯聚網(wǎng)絡(luò),言之紛紛,書之不息,各類信息無時不發(fā),無處不在……不論是經(jīng)典著述、長篇大論,抑或巧思短文、靈感的火花……似乎,互聯(lián)網(wǎng)承載和傳播了這個星球上人類的所有智慧,
谷歌翻譯 夢想與現(xiàn)實的距離?
。然而,一個簡單的事實讓信息攜帶智慧流通全球還依然只是一個夢想 ——即:不同語言之間無法直接溝通。為解決這個問題,機器翻譯隨科技的發(fā)展應(yīng)運而生,并不斷發(fā)展。前面的廢話
曾經(jīng)有一個夢想——希望能輕松讀懂英文,至少在看一篇沒有太多文學(xué)色彩的技術(shù)文章時,可以明白個八九不離十。
也曾經(jīng)不自量力——在借助機器翻譯求學(xué)外文失敗之后,試圖研究機器翻譯應(yīng)當(dāng)如何進行……
世界發(fā)展真快,失望、悵然與自知無能為力的幾年虛度,曾經(jīng)的渴望和若有所研的心得早已拋諸天外。直至幾年前,Google 推出了翻譯服務(wù),經(jīng)初步試用,如果要求不高的話,感覺翻譯效果也算是不錯!(注:不能用專業(yè)的人工翻譯和機器自動翻譯比質(zhì)量)。免費使用,及時快速,在信息飛速流動的互聯(lián)網(wǎng)時代,有這樣的免費服務(wù)已經(jīng)很知足了。(其實很想說一聲謝謝!)
機器翻譯的質(zhì)量
一個顯而易見的前提是,機器翻譯不可能與人工翻譯相比。在目前的技術(shù)條件下,一般認(rèn)為機器翻譯如果有 60% 以上的準(zhǔn)確率就基本可用了。目前機器翻譯已經(jīng)發(fā)展到“基于短語的翻譯,并正在融合句法信息,以進一步提高翻譯的精確性”(摘自維基百科“機器翻譯”詞條)。從對 Google 翻譯服務(wù)的試用來看,其對簡單短句、短語、以及習(xí)慣用語的翻譯都還不錯,翻譯包含了對句法詞序的轉(zhuǎn)換處理。
那么,現(xiàn)階段我們是否可以期待計算機對普通長句也有比較好的翻譯效果呢?
簡單的答案是:No!
復(fù)雜一點的答案也許是:我們可以有這樣的期望嗎?
或許,我們可以有這樣的期望。但我們需要作出一些付出!請細(xì)想一下,我們通常所見的那長長的句子,它是否可以被分解為多個短句呢?如果短句與短句之間有語法上的主次關(guān)系,它們是否可以被包裝成一個父級的簡單句呢(即視短句僅為一個占位單元)?如果答案是肯定的,那長句就可以拆解封裝成簡單句的組合了(可能有多層)。
這是無意中嘗試的一個例子,請看:
原文:“為什么計算機合成語音多數(shù)是女聲。”
Google 譯成英文:“Why do the majority of female computer synthesized speech.”
用該譯文譯回中文:“為什么大多數(shù)女性電腦合成語音。”
一正一反兩次互譯,含義已經(jīng)相去甚遠了。但我們嘗試一下分解策略:
中文分解 Google 譯文
-------------------------------------------------
1. 計算機合成語音 Computer-synthesized voice
2. 女 聲 Female voice // 注:原譯為 Girl,應(yīng)是個 Bug,中間空一格即可
3. 多數(shù) Most
4. 為什么 X 是 Y Why X is Y // X 和 Y 是占位符,此處是取其語法翻譯
組合后譯文:“Why is ”
去掉尖括號:“Why Computer-synthesized voice Most is Female voice.”
用該譯文譯回中文:“為什么電腦合成的聲音大多是女性的聲音。”
效果如何! 有種驚艷的感覺吧?
再來一句試試:
原文:“互聯(lián)網(wǎng)以英文為主是不爭的事實,”
Google 譯成英文:“Internet in English is an indisputable fact,”
用該譯文譯回中文:“在英國的互聯(lián)網(wǎng)是一個不爭的事實,”
中文分解 Google 譯文
-------------------------------------------------
1. 互聯(lián)網(wǎng) Internet
2. 英文 English
3. XX 以 YY 為主 XX to YY-based
4. XX 是不爭的事實 XX is an indisputable fact
組合得譯文:“Internet to English-based is an indisputable fact,”
用該譯文譯回中文:“以英語為主的互聯(lián)網(wǎng)是一個不爭的事實,”
與直接回譯的差別是不是有點大,與原文的意思是不是基本符合?
看到這里,是否,我們真的可以有某些期望? 或許,這是一個需要努力但并非太多努力就可接近的目標(biāo)! 請抱持思考和理性批評的心態(tài)看待下面的解說,
電腦資料
《谷歌翻譯 夢想與現(xiàn)實的距離?》(http://www.ishadingyu.com)。長句拆解,短句組合構(gòu)造長句譯文
一般來說,對于具有較深文學(xué)色彩的文字,因大多包含隱喻,上下文環(huán)境依賴等,機器翻譯十分困難。但對于普通的文法較為規(guī)范的描述性文章(如技術(shù)類說明書,使用手冊等),如果句法足夠簡單,則機器翻譯的表現(xiàn)已很不錯。
如上所見,如果人工稍作參與,通過長句分解,機器翻譯整篇文章或許也會有比較理想的結(jié)果。這里,我們需要對長句進行邏輯判斷和拆解,如果必要,構(gòu)造父級的句法特征句(如“XX 以 YY 為主”,XX 為占位符,代表相應(yīng)子句,用于語法轉(zhuǎn)換),則人工參與的并不多,但效果卻會很大。
對原文進行拆解標(biāo)識的意義
或許,你認(rèn)為人工參與機器翻譯并不劃算,太低級,理想的機器翻譯應(yīng)當(dāng)是完全的無人工自動執(zhí)行。確實,這是人人期盼理想狀態(tài),但那離現(xiàn)實似乎太過遙遠(個人看法)。
表面上看,一旦人工參與,任何機器無法解決的智能問題都會化解,所以,人工參與不是解決問題的辦法——這僅是簡單地看問題。
我想說,這觀點低估了人腦智能的復(fù)雜性,對機器智能寄予了過高的期望。另外,這也忽略了一個重要事實,即——分析拆解工作其實是“一次性”的。當(dāng)我們對原文做好語法標(biāo)識后,就可以撒手不管它將要被翻譯到何種語言了。注意!這里沒有指明何種語言,因為——這適用于翻譯到任何一種語言——所作與目標(biāo)語言無關(guān),標(biāo)識僅僅是說明了自己。
還有一點,精通一門語言易,精通多門語言難,通曉一門語言的人很多,通曉多門語言的人很少。任何一個人,只要母語多少有些修養(yǎng),就可以標(biāo)識用母語寫的文章,從而幫助作者的文章得到翻譯,或作者自行標(biāo)注,讓自己的文章可以直接被翻譯。人機結(jié)合,這對翻譯人員的門檻降到了最低——好寬廣的群眾基礎(chǔ)啊! 夢想,是否有實現(xiàn)的可能?
技術(shù)性的個人研究分享
很淺薄,請不吝賜教……
從上面的分析看,借助于 Google 翻譯服務(wù)的 API,現(xiàn)階段就可以編寫并不復(fù)雜的程序,實現(xiàn)可行的通篇文章機器翻譯,但前提條件是,原文需要被適當(dāng)標(biāo)識。個人認(rèn)為標(biāo)識文章的語法應(yīng)當(dāng)盡量簡單,以利于大眾化普及,由于機器翻譯服務(wù)已有初步的智能,簡單標(biāo)識已經(jīng)可行。
筆者設(shè)計的標(biāo)識邏輯有 3 層,共 7 個標(biāo)識字,如下:
頂層: 子句,標(biāo)識字 clause
中層: 短語,標(biāo)識字 phrase,包含常用習(xí)語、俗語、俚語等
底層: 單詞,標(biāo)識字 名詞 word-n,動詞 word-v。
另外兩個特殊詞,人名 names,術(shù)語 term,一般情況下保持為不翻譯,需標(biāo)識出來。
如果僅針對長句拆解,底層的單詞標(biāo)注其實已經(jīng)不需要,這里加入是方便將來機器對短句進行更加準(zhǔn)確的判斷。
標(biāo)識例子1(Html 代碼,用 class 屬性表達):
為什么
計算機合成語音
// 注:這一句其實不必拆解,它可能已成為一個術(shù)語
多數(shù)是女聲
,
標(biāo)識例子2
其中一個答案
可能在于
人類的生物機制
。
注:
1. 代碼最外圍用 syntax 包含,表示內(nèi)部為語法標(biāo)識。
2. 并非所有的文字都需要標(biāo)注,將句子切分以表達出邏輯關(guān)系即可。
3. 一些介詞、助詞之類的字是語法標(biāo)志詞,不需要標(biāo)注。
拋磚引玉,期待探討!謝謝。
作者:乙謌