有了DeppMind這個技術，機器說話將會更像人

繼用人工智慧下圍棋、節省電費、醫療應用後，Google旗下人工智慧公司DeepMind的最新一步是——讓機器說話更像人。

Google DeepMind日前發表了最新研究成果WaveNet，這個深度生成模型可以模擬任何人類的聲音，而且比現有的文本轉語音（Text-to-Speech）系統聽起來更自然，讓電腦所生成的語音，與人類聲音之間的差距減少50％。

會說話的機器

「讓人類跟機器交談，是人機互動領域一直以來的夢想。」

DeepMind指出，過去幾年來，歸功於深度類神經網絡（deep neural networks），電腦已經革新對自然語音的理解能力，例如Google語音搜尋。

不過，目前透過電腦生成語音，通常是透過語音合成（speech synthesis）或是文本轉語音（TTS）。舉例來說，是先由單一個人錄製數個短語音片段，集成一個大量的資料庫後，再把這些字詞組合成完整的一句話。但這也使得修改語音變得困難，像是無法切換成一個不同的說話者，或改變語音的強調音節或說話情緒等。

WaveNet的技術則是直接將音頻信號的原始波形建模，一次處理一個樣本。這讓WaveNet能夠產出聽起來較為自然的聲音，也意味著可以建模幾乎任何類型的音頻，包括音樂。

DeepMind的WaveNet技術無疑是電腦合成語音領域的一大突破。不過這套系統需要強大的運算能力來合成語音，因此短時間內還不會應用到現實情境，或是Google產品當中。「我們很期待看到未來我們可以拿它來做什麼。」DeepMind表示。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル！🍏

Reply ›

Forums › 👩‍💻電腦、智慧電話 › 電腦資訊

Home

›

Forums

›

Forums Home