亚洲一区亚洲二区亚洲三区,国产成人高清在线,久久久精品成人免费看,999久久久免费精品国产牛牛,青草视频在线观看完整版,狠狠夜色午夜久久综合热91,日韩精品视频在线免费观看

谷歌翻譯 夢想與現(xiàn)實的距離? -電腦資料

電腦資料 時間:2019-01-01 我要投稿
【www.ishadingyu.com - 電腦資料】

  在信息紛繁如大洋般浩浩的互聯(lián)網(wǎng)時代,操持各自語言的人們匯聚網(wǎng)絡(luò),言之紛紛,書之不息,各類信息無時不發(fā),無處不在……不論是經(jīng)典著述、長篇大論,抑或巧思短文、靈感的火花……似乎,互聯(lián)網(wǎng)承載和傳播了這個星球上人類的所有智慧,

谷歌翻譯 夢想與現(xiàn)實的距離?

。然而,一個簡單的事實讓信息攜帶智慧流通全球還依然只是一個夢想 ——即:不同語言之間無法直接溝通。為解決這個問題,機器翻譯隨科技的發(fā)展應(yīng)運而生,并不斷發(fā)展。

  前面的廢話

  曾經(jīng)有一個夢想——希望能輕松讀懂英文,至少在看一篇沒有太多文學(xué)色彩的技術(shù)文章時,可以明白個八九不離十。

  也曾經(jīng)不自量力——在借助機器翻譯求學(xué)外文失敗之后,試圖研究機器翻譯應(yīng)當(dāng)如何進行……

  世界發(fā)展真快,失望、悵然與自知無能為力的幾年虛度,曾經(jīng)的渴望和若有所研的心得早已拋諸天外。直至幾年前,Google 推出了翻譯服務(wù),經(jīng)初步試用,如果要求不高的話,感覺翻譯效果也算是不錯!(注:不能用專業(yè)的人工翻譯和機器自動翻譯比質(zhì)量)。免費使用,及時快速,在信息飛速流動的互聯(lián)網(wǎng)時代,有這樣的免費服務(wù)已經(jīng)很知足了。(其實很想說一聲謝謝!)

  機器翻譯的質(zhì)量

  一個顯而易見的前提是,機器翻譯不可能與人工翻譯相比。在目前的技術(shù)條件下,一般認(rèn)為機器翻譯如果有 60% 以上的準(zhǔn)確率就基本可用了。目前機器翻譯已經(jīng)發(fā)展到“基于短語的翻譯,并正在融合句法信息,以進一步提高翻譯的精確性”(摘自維基百科“機器翻譯”詞條)。從對 Google 翻譯服務(wù)的試用來看,其對簡單短句、短語、以及習(xí)慣用語的翻譯都還不錯,翻譯包含了對句法詞序的轉(zhuǎn)換處理。

  那么,現(xiàn)階段我們是否可以期待計算機對普通長句也有比較好的翻譯效果呢?

  簡單的答案是:No!

  復(fù)雜一點的答案也許是:我們可以有這樣的期望嗎?

  或許,我們可以有這樣的期望。但我們需要作出一些付出!請細(xì)想一下,我們通常所見的那長長的句子,它是否可以被分解為多個短句呢?如果短句與短句之間有語法上的主次關(guān)系,它們是否可以被包裝成一個父級的簡單句呢(即視短句僅為一個占位單元)?如果答案是肯定的,那長句就可以拆解封裝成簡單句的組合了(可能有多層)。

  這是無意中嘗試的一個例子,請看:

  原文:“為什么計算機合成語音多數(shù)是女聲。”

  Google 譯成英文:“Why do the majority of female computer synthesized speech.”

  用該譯文譯回中文:“為什么大多數(shù)女性電腦合成語音。”

  一正一反兩次互譯,含義已經(jīng)相去甚遠了。但我們嘗試一下分解策略:

  中文分解 Google 譯文

  -------------------------------------------------

  1. 計算機合成語音 Computer-synthesized voice

  2. 女 聲 Female voice // 注:原譯為 Girl,應(yīng)是個 Bug,中間空一格即可

  3. 多數(shù) Most

  4. 為什么 X 是 Y Why X is Y // X 和 Y 是占位符,此處是取其語法翻譯

  組合后譯文:“Why is ”

  去掉尖括號:“Why Computer-synthesized voice Most is Female voice.”

  用該譯文譯回中文:“為什么電腦合成的聲音大多是女性的聲音。”

  效果如何! 有種驚艷的感覺吧?

  再來一句試試:

  原文:“互聯(lián)網(wǎng)以英文為主是不爭的事實,”

  Google 譯成英文:“Internet in English is an indisputable fact,”

  用該譯文譯回中文:“在英國的互聯(lián)網(wǎng)是一個不爭的事實,”

  中文分解 Google 譯文

  -------------------------------------------------

  1. 互聯(lián)網(wǎng) Internet

  2. 英文 English

  3. XX 以 YY 為主 XX to YY-based

  4. XX 是不爭的事實 XX is an indisputable fact

  組合得譯文:“Internet to English-based is an indisputable fact,”

  用該譯文譯回中文:“以英語為主的互聯(lián)網(wǎng)是一個不爭的事實,”

  與直接回譯的差別是不是有點大,與原文的意思是不是基本符合?

  看到這里,是否,我們真的可以有某些期望? 或許,這是一個需要努力但并非太多努力就可接近的目標(biāo)! 請抱持思考和理性批評的心態(tài)看待下面的解說,

電腦資料

谷歌翻譯 夢想與現(xiàn)實的距離?》(http://www.ishadingyu.com)。

  長句拆解,短句組合構(gòu)造長句譯文

  一般來說,對于具有較深文學(xué)色彩的文字,因大多包含隱喻,上下文環(huán)境依賴等,機器翻譯十分困難。但對于普通的文法較為規(guī)范的描述性文章(如技術(shù)類說明書,使用手冊等),如果句法足夠簡單,則機器翻譯的表現(xiàn)已很不錯。

  如上所見,如果人工稍作參與,通過長句分解,機器翻譯整篇文章或許也會有比較理想的結(jié)果。這里,我們需要對長句進行邏輯判斷和拆解,如果必要,構(gòu)造父級的句法特征句(如“XX 以 YY 為主”,XX 為占位符,代表相應(yīng)子句,用于語法轉(zhuǎn)換),則人工參與的并不多,但效果卻會很大。

  對原文進行拆解標(biāo)識的意義

  或許,你認(rèn)為人工參與機器翻譯并不劃算,太低級,理想的機器翻譯應(yīng)當(dāng)是完全的無人工自動執(zhí)行。確實,這是人人期盼理想狀態(tài),但那離現(xiàn)實似乎太過遙遠(個人看法)。

  表面上看,一旦人工參與,任何機器無法解決的智能問題都會化解,所以,人工參與不是解決問題的辦法——這僅是簡單地看問題。

  我想說,這觀點低估了人腦智能的復(fù)雜性,對機器智能寄予了過高的期望。另外,這也忽略了一個重要事實,即——分析拆解工作其實是“一次性”的。當(dāng)我們對原文做好語法標(biāo)識后,就可以撒手不管它將要被翻譯到何種語言了。注意!這里沒有指明何種語言,因為——這適用于翻譯到任何一種語言——所作與目標(biāo)語言無關(guān),標(biāo)識僅僅是說明了自己。

  還有一點,精通一門語言易,精通多門語言難,通曉一門語言的人很多,通曉多門語言的人很少。任何一個人,只要母語多少有些修養(yǎng),就可以標(biāo)識用母語寫的文章,從而幫助作者的文章得到翻譯,或作者自行標(biāo)注,讓自己的文章可以直接被翻譯。人機結(jié)合,這對翻譯人員的門檻降到了最低——好寬廣的群眾基礎(chǔ)啊! 夢想,是否有實現(xiàn)的可能?

  技術(shù)性的個人研究分享

  很淺薄,請不吝賜教……

  從上面的分析看,借助于 Google 翻譯服務(wù)的 API,現(xiàn)階段就可以編寫并不復(fù)雜的程序,實現(xiàn)可行的通篇文章機器翻譯,但前提條件是,原文需要被適當(dāng)標(biāo)識。個人認(rèn)為標(biāo)識文章的語法應(yīng)當(dāng)盡量簡單,以利于大眾化普及,由于機器翻譯服務(wù)已有初步的智能,簡單標(biāo)識已經(jīng)可行。

  筆者設(shè)計的標(biāo)識邏輯有 3 層,共 7 個標(biāo)識字,如下:

  頂層: 子句,標(biāo)識字 clause

  中層: 短語,標(biāo)識字 phrase,包含常用習(xí)語、俗語、俚語等

  底層: 單詞,標(biāo)識字 名詞 word-n,動詞 word-v。

  另外兩個特殊詞,人名 names,術(shù)語 term,一般情況下保持為不翻譯,需標(biāo)識出來。

  如果僅針對長句拆解,底層的單詞標(biāo)注其實已經(jīng)不需要,這里加入是方便將來機器對短句進行更加準(zhǔn)確的判斷。

  標(biāo)識例子1(Html 代碼,用 class 屬性表達):


        為什么
       
            計算機合成語音
            // 注:這一句其實不必拆解,它可能已成為一個術(shù)語
       
       
            多數(shù)是女聲
        ,

標(biāo)識例子2


        其中一個答案
        可能在于
       
            人類的生物機制
        。

  注:

  1. 代碼最外圍用 syntax 包含,表示內(nèi)部為語法標(biāo)識。

  2. 并非所有的文字都需要標(biāo)注,將句子切分以表達出邏輯關(guān)系即可。

  3. 一些介詞、助詞之類的字是語法標(biāo)志詞,不需要標(biāo)注。

  拋磚引玉,期待探討!謝謝。

  作者:乙謌

最新文章