Google旗下人工智慧公司DeepMind的最新一步是讓機器說話更像人

有了DeppMind這個技術,機器說話將會更像人

繼用人工智慧下圍棋、節省電費、醫療應用後,Google旗下人工智慧公司DeepMind的最新一步是——讓機器說話更像人。

Google DeepMind日前發表了最新研究成果WaveNet,這個深度生成模型可以模擬任何人類的聲音,而且比現有的文本轉語音(Text-to-Speech)系統聽起來更自然,讓電腦所生成的語音,與人類聲音之間的差距減少50%。

會說話的機器

「讓人類跟機器交談,是人機互動領域一直以來的夢想。」

DeepMind指出,過去幾年來,歸功於深度類神經網絡(deep neural networks),電腦已經革新對自然語音的理解能力,例如Google語音搜尋。

不過,目前透過電腦生成語音,通常是透過語音合成(speech synthesis)或是文本轉語音(TTS)。舉例來說,是先由單一個人錄製數個短語音片段,集成一個大量的資料庫後,再把這些字詞組合成完整的一句話。但這也使得修改語音變得困難,像是無法切換成一個不同的說話者,或改變語音的強調音節或說話情緒等。

WaveNet的技術則是直接將音頻信號的原始波形建模,一次處理一個樣本。這讓WaveNet能夠產出聽起來較為自然的聲音,也意味著可以建模幾乎任何類型的音頻,包括音樂。

DeepMind的WaveNet技術無疑是電腦合成語音領域的一大突破。不過這套系統需要強大的運算能力來合成語音,因此短時間內還不會應用到現實情境,或是Google產品當中。「我們很期待看到未來我們可以拿它來做什麼。」DeepMind表示。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏