谷歌翻譯夢想與現(xiàn)實的距離？ -電腦資料

電腦資料時間：2019-01-01 我要投稿

【www.ishadingyu.com - 電腦資料】

　　在信息紛繁如大洋般浩浩的互聯(lián)網(wǎng)時代，操持各自語言的人們匯聚網(wǎng)絡(luò)，言之紛紛，書之不息，各類信息無時不發(fā)，無處不在……不論是經(jīng)典著述、長篇大論，抑或巧思短文、靈感的火花……似乎，互聯(lián)網(wǎng)承載和傳播了這個星球上人類的所有智慧，

谷歌翻譯夢想與現(xiàn)實的距離？

。然而，一個簡單的事實讓信息攜帶智慧流通全球還依然只是一個夢想 ——即：不同語言之間無法直接溝通。為解決這個問題，機器翻譯隨科技的發(fā)展應(yīng)運而生，并不斷發(fā)展。

　　前面的廢話

　　曾經(jīng)有一個夢想——希望能輕松讀懂英文，至少在看一篇沒有太多文學(xué)色彩的技術(shù)文章時，可以明白個八九不離十。

　　也曾經(jīng)不自量力——在借助機器翻譯求學(xué)外文失敗之后，試圖研究機器翻譯應(yīng)當(dāng)如何進行……

　　世界發(fā)展真快，失望、悵然與自知無能為力的幾年虛度，曾經(jīng)的渴望和若有所研的心得早已拋諸天外。直至幾年前，Google 推出了翻譯服務(wù)，經(jīng)初步試用，如果要求不高的話，感覺翻譯效果也算是不錯!(注：不能用專業(yè)的人工翻譯和機器自動翻譯比質(zhì)量)。免費使用，及時快速，在信息飛速流動的互聯(lián)網(wǎng)時代，有這樣的免費服務(wù)已經(jīng)很知足了。(其實很想說一聲謝謝!)

　　機器翻譯的質(zhì)量

　　一個顯而易見的前提是，機器翻譯不可能與人工翻譯相比。在目前的技術(shù)條件下，一般認(rèn)為機器翻譯如果有 60% 以上的準(zhǔn)確率就基本可用了。目前機器翻譯已經(jīng)發(fā)展到“基于短語的翻譯，并正在融合句法信息，以進一步提高翻譯的精確性”(摘自維基百科“機器翻譯”詞條)。從對 Google 翻譯服務(wù)的試用來看，其對簡單短句、短語、以及習(xí)慣用語的翻譯都還不錯，翻譯包含了對句法詞序的轉(zhuǎn)換處理。

　　那么，現(xiàn)階段我們是否可以期待計算機對普通長句也有比較好的翻譯效果呢?

　　簡單的答案是：No!

　　復(fù)雜一點的答案也許是：我們可以有這樣的期望嗎?

　　或許，我們可以有這樣的期望。但我們需要作出一些付出!請細(xì)想一下，我們通常所見的那長長的句子，它是否可以被分解為多個短句呢?如果短句與短句之間有語法上的主次關(guān)系，它們是否可以被包裝成一個父級的簡單句呢(即視短句僅為一個占位單元)?如果答案是肯定的，那長句就可以拆解封裝成簡單句的組合了(可能有多層)。

　　這是無意中嘗試的一個例子，請看：

　　原文：“為什么計算機合成語音多數(shù)是女聲。”

　　Google 譯成英文：“Why do the majority of female computer synthesized speech.”

　　用該譯文譯回中文：“為什么大多數(shù)女性電腦合成語音。”

　　一正一反兩次互譯，含義已經(jīng)相去甚遠了。但我們嘗試一下分解策略：

　　中文分解 Google 譯文

　　-------------------------------------------------

　　1. 計算機合成語音 Computer-synthesized voice

　　2. 女聲 Female voice // 注：原譯為 Girl，應(yīng)是個 Bug，中間空一格即可

　　3. 多數(shù) Most

　　4. 為什么 X 是 Y Why X is Y // X 和 Y 是占位符，此處是取其語法翻譯

　　組合后譯文：“Why is ”

　　去掉尖括號：“Why Computer-synthesized voice Most is Female voice.”

　　用該譯文譯回中文：“為什么電腦合成的聲音大多是女性的聲音。”

　　效果如何! 有種驚艷的感覺吧?

　　再來一句試試：

　　原文：“互聯(lián)網(wǎng)以英文為主是不爭的事實，”

　　Google 譯成英文：“Internet in English is an indisputable fact，”

　　用該譯文譯回中文：“在英國的互聯(lián)網(wǎng)是一個不爭的事實，”

　　中文分解 Google 譯文

　　-------------------------------------------------

　　1. 互聯(lián)網(wǎng) Internet

　　2. 英文 English

　　3. XX 以 YY 為主 XX to YY-based

　　4. XX 是不爭的事實 XX is an indisputable fact

　　組合得譯文：“Internet to English-based is an indisputable fact，”

　　用該譯文譯回中文：“以英語為主的互聯(lián)網(wǎng)是一個不爭的事實，”

　　與直接回譯的差別是不是有點大，與原文的意思是不是基本符合?

　　看到這里，是否，我們真的可以有某些期望? 或許，這是一個需要努力但并非太多努力就可接近的目標(biāo)! 請抱持思考和理性批評的心態(tài)看待下面的解說，

電腦資料

《谷歌翻譯夢想與現(xiàn)實的距離？》(http://www.ishadingyu.com)。

　　長句拆解，短句組合構(gòu)造長句譯文

　　一般來說，對于具有較深文學(xué)色彩的文字，因大多包含隱喻，上下文環(huán)境依賴等，機器翻譯十分困難。但對于普通的文法較為規(guī)范的描述性文章(如技術(shù)類說明書，使用手冊等)，如果句法足夠簡單，則機器翻譯的表現(xiàn)已很不錯。

　　如上所見，如果人工稍作參與，通過長句分解，機器翻譯整篇文章或許也會有比較理想的結(jié)果。這里，我們需要對長句進行邏輯判斷和拆解，如果必要，構(gòu)造父級的句法特征句(如“XX 以 YY 為主”，XX 為占位符，代表相應(yīng)子句，用于語法轉(zhuǎn)換)，則人工參與的并不多，但效果卻會很大。

　　對原文進行拆解標(biāo)識的意義

　　或許，你認(rèn)為人工參與機器翻譯并不劃算，太低級，理想的機器翻譯應(yīng)當(dāng)是完全的無人工自動執(zhí)行。確實，這是人人期盼理想狀態(tài)，但那離現(xiàn)實似乎太過遙遠(個人看法)。

　　表面上看，一旦人工參與，任何機器無法解決的智能問題都會化解，所以，人工參與不是解決問題的辦法——這僅是簡單地看問題。

　　我想說，這觀點低估了人腦智能的復(fù)雜性，對機器智能寄予了過高的期望。另外，這也忽略了一個重要事實，即——分析拆解工作其實是“一次性”的。當(dāng)我們對原文做好語法標(biāo)識后，就可以撒手不管它將要被翻譯到何種語言了。注意!這里沒有指明何種語言，因為——這適用于翻譯到任何一種語言——所作與目標(biāo)語言無關(guān)，標(biāo)識僅僅是說明了自己。

　　還有一點，精通一門語言易，精通多門語言難，通曉一門語言的人很多，通曉多門語言的人很少。任何一個人，只要母語多少有些修養(yǎng)，就可以標(biāo)識用母語寫的文章，從而幫助作者的文章得到翻譯，或作者自行標(biāo)注，讓自己的文章可以直接被翻譯。人機結(jié)合，這對翻譯人員的門檻降到了最低——好寬廣的群眾基礎(chǔ)啊! 夢想，是否有實現(xiàn)的可能?

　　技術(shù)性的個人研究分享

　　很淺薄，請不吝賜教……

　　從上面的分析看，借助于 Google 翻譯服務(wù)的 API，現(xiàn)階段就可以編寫并不復(fù)雜的程序，實現(xiàn)可行的通篇文章機器翻譯，但前提條件是，原文需要被適當(dāng)標(biāo)識。個人認(rèn)為標(biāo)識文章的語法應(yīng)當(dāng)盡量簡單，以利于大眾化普及，由于機器翻譯服務(wù)已有初步的智能，簡單標(biāo)識已經(jīng)可行。

　　筆者設(shè)計的標(biāo)識邏輯有 3 層，共 7 個標(biāo)識字，如下：

　　頂層：子句，標(biāo)識字 clause

　　中層：短語，標(biāo)識字 phrase，包含常用習(xí)語、俗語、俚語等

　　底層：單詞，標(biāo)識字名詞 word-n，動詞 word-v。

　　另外兩個特殊詞，人名 names，術(shù)語 term，一般情況下保持為不翻譯，需標(biāo)識出來。

　　如果僅針對長句拆解，底層的單詞標(biāo)注其實已經(jīng)不需要，這里加入是方便將來機器對短句進行更加準(zhǔn)確的判斷。

　　標(biāo)識例子1(Html 代碼，用 class 屬性表達)：

        為什么

            計算機合成語音
            // 注：這一句其實不必拆解，它可能已成為一個術(shù)語


            多數(shù)是女聲
        ，

標(biāo)識例子2

        其中一個答案
        可能在于

            人類的生物機制
        。

　　注：

　　1. 代碼最外圍用 syntax 包含，表示內(nèi)部為語法標(biāo)識。

　　2. 并非所有的文字都需要標(biāo)注，將句子切分以表達出邏輯關(guān)系即可。

　　3. 一些介詞、助詞之類的字是語法標(biāo)志詞，不需要標(biāo)注。

　　拋磚引玉，期待探討!謝謝。

　　作者：乙謌

相關(guān)文章

亚洲一区亚洲二区亚洲三区,国产成人高清在线,久久久精品成人免费看,999久久久免费精品国产牛牛,青草视频在线观看完整版,狠狠夜色午夜久久综合热91,日韩精品视频在线免费观看

谷歌翻譯 夢想與現(xiàn)實的距離？ -電腦資料