Google 翻譯大突破：實現語音對語音的直接翻譯功能，並重現原講者聲音

Goolge 翻譯是不少人日常生活的好用工具，但很少人知道它其實是好幾個工具組合起來的產品。

日常生活中要實現語音對語音翻譯，常要先語音辨識為文字 (Speech-to-Text，STT)，再用機器學習將文字轉城目標語言文字，最後將文字「念出來」(Text-to-Speech，TTS)。這 3 段過程其實都需花時間做運算，每一步驟都有機會發生錯誤，使最終的翻譯成品出錯。Google 日前公布新的 Translatotron 翻譯模型，除了直接聲音對聲音的翻譯方式，節省翻譯時間，還能保留原講者的聲音。

Google 展示新的聲音對聲音翻譯流程，想要打破傳統三階段瀑布流方式的問題：時間長、每步驟會累積錯誤導致整體翻譯出問題。Translatotron 提出片段對片段的網路模型來處理資料，維持講者的聲音和韻律，並且提高翻譯內容準確度。

Google Research 表示，新的翻譯演算模型翻譯準確性，仍比不上傳統的瀑布流流程。但是新模式有運作更快的好處，還能避免機器產生語音時，生硬的機器音。

Translatotron 的技術部分有發表論文，詳細分享如何實作。有興趣的人，可以到 Google Research 的 GitHub 頁面體驗不同語音翻譯方式，還有 Translatotron 採用模式，比較實際翻譯的語音的差異。

機器翻譯可以全面淘汰人工翻譯嗎？

雖然 AI 語音翻譯已經應用到了不少生活、工作場景，但不得不說，AI 也許在國際象棋、自動駕駛、診斷癌症、射擊罰球和預測農作物產量等方面優於人類，但是當涉及到翻譯和口譯時，它還是沒法完全取代人類大腦。

其一，語言是主觀的。

人工智慧通常擅長做客觀現實的任務。無論是識別數據集中難以捉摸的信號模式，還是導航複雜的路況，機器在面對決策制定的、明確的數學或物理規則時，都能發揮最佳作用。

相比之下，自然語言是由人類群體發明的，用於彼此交流的主觀結構。它們有類似規則的行為（例如語法），但這些規則僅基於慣例，而不是客觀現實，並且它們存在隨機性、且在不斷發展。

人類在識別腫瘤，或判斷信用風險上也許沒什麼優勢，但我們在自然語言上擁有「天然」的「最終權威」。此權限反映在評估機器翻譯算法的選擇度量標準中，機器翻譯越接近專業的人工翻譯，就越好。

人工翻譯不只是設定標準，它必然也是標準。

其二，大數據沒什麼幽默感。

任何翻譯都會告訴你笑話、雙關語和狡猾的暗示（以及細緻入微的文化參考），這也是克服語言障礙的最困難的部分。而且沒有它們，我們的表達質量就會變得更平庸。

從口譯員的角度來看，語音和肢體語言也直接告知說話者的意圖，因此人類在翻譯過程中，除了對語言文字信息，還要對語音、語調及肢體語言等進行參考。這對人類來說具有挑戰性，目前對機器而言則是無法實現的。

據統計，從基於短語的機器翻譯到神經網路的轉變，已經取得了顯著的進步。但機器翻譯比前者更依賴於大量的訓練數據。由於可用的最大雙語數據集來自政府文件和宗教文件的官方翻譯，因此這些演算法在幽默、文字播放和非語言表達方面的精通程度低得可憐。

但機器翻譯通常不僅不會承認其錯誤，還會試圖將這些錯誤歸因於「神經網路偏好流暢性」而不是準確性。對應的，目標語言中的觀眾可能不會知道已經發生了故障，而是將它歸因於原始文件本身（比如，文本詰屈難懂加重了翻譯的難度）。

等等，你或許會想問，現在 Siri、Alexa 等提供即時語音對話的 AI 系統，不是有時也會講講笑話嗎？事實上，這些詼諧回應，通常受限於一系列狹隘的環境和條件，是短期的、基於你所下的命令所觸發的，可以說是針對特定問題客製化出來的一種幽默，詞彙也是有限的。

電腦的確有可能發展出擁有類似人類自然語言功能的那一天，屆時翻譯人員、文字撰稿人、編輯、電台主持人等都可能被機器人取代。但那一天，比大多數人想像的還要遠。

語言工作總是部分藝術、部分科學的。因此語言相關職業對 AI 的入侵，也具備了比預設更大的防禦能力。

因此，我們的語言專業人員，應該將注意力集中在使用 AI / NLP 技術來提高翻譯工作的效率、品質和降低成本、提高競爭力上。電腦輔助翻譯工具已經在許多翻譯者的工具中廣泛使用，也許未來同步口譯可以從語音識別和翻譯記憶技術的某些組合中同樣受益。至少在可預見的未來，這些工具將成為人類工作的一種協助，而不是替代品。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル！🍏

Reply ›

Forums › 👩‍💻電腦、智慧電話 › 電腦資訊

Home

›

Forums

›

Forums Home