微軟：電腦口語辨識能力比美人類

微軟人工智慧研究中心（Microsoft Artificial Intelligence and Research）公佈的報告中研究人員及工程師運用業界常用的電話口語對話測試集NIST 2000 CTS，針對微軟自有技術及專業聽打員進行測試比較。其中在Switchboard子測試集中，微軟技術的字詞錯誤率由上個月的6.3%降到5.9%。

微軟表示，這個成績大約等於辨識同一組對話的人類成績，也是Switchboard口語辨識測試歷來最低的錯誤率。這表示電腦辨識對話口語字詞的能力，首次達到人類相同水準。

主管微軟人工智慧研究中心的執行副總裁沈向洋也指出，他們去年立下使電腦語音辨識能力達到人類水準的目標，不到一年就達到了，也出乎他們意料之外。

微軟研究團隊運用該公司電腦視覺專家開發的深度神經網路，以大量資料訓練電腦辨識出圖像或語音中的模式。為達到和人類相仿的辨識能力，他們使用名為Computation Network Toolkit（CNTK）的深度學習系統。這套系統透過在多台搭載專用繪圖處理器的電腦上快速處理執行深度演算，並大幅提升研究能力，最終拉高到人類水準。微軟去年也將此工具組開源於GitHub釋出。但微軟也指出，一如人類會犯錯，電腦也不是所有字都能辨識無誤

微軟表示，這項研究結果將對消費及商用產品有深遠影響，包括Xbox遊戲機、身障輔助工具，如口語聽寫，並使Cortana成為真正的個人數位助理服務。

微軟語音辨識技術突破重大里程碑：對話辨識能力達人類水準！

微軟公司語音辨識技術近日跨越了重大里程碑，在對話字詞辨識的能力已達到與人類相當的水準。

微軟人工智慧團隊週一發表了一篇語音辨識系統的論文。報告中指出，微軟語音技術在 Switchboard 對話語音辨識的詞錯率為 5.9%（Switchboard 是美國國防高級研究計劃局資助蒐集的電話對話語料庫，常用於語言研究），比上月破紀錄的成果 6.3% 又再降低，已與專業人工聽寫的錯誤率相當。

微軟首席語音科學家黃學東表示：「我們已達到與人類相當的能力，這是歷史上的重大成就。」當日凌晨 3 時 30 分，電腦首度在對話字詞辨識達到與人類相同水準，對於研究語音辨識超過三十載的黃學東而言，這一刻是夢想成真。

語音辨識技術的突破，也將會大大增進 Xbox、語音轉文字輔助工具、以及個人數位助理 Cortana 等應用產品的功能。

神經網路及微軟開源工具 CNTK 推進語音辨識技術發展

語音及對話研究團隊負責人 Geoffrey Zweig 認為，成功的原因在有計劃地將最新神經網路技術用於系統各個層面。團隊使用了微軟計算網路工具包（Computational Network Toolkit，CNTK），是微軟自家開發的深度學習研究工具，已在 GitHub 開源釋出。黃學東也表示，CNTK 能跨多部電腦 GPU 快速處理深度學習演算，大幅加速了研究進行的速度。

儘管語音辨識技術近年突飛猛進，仍然有許多方面尚待突破。Zweig 說，研究人員正著手研究如何讓語音辨識在真實環境下（例如在派對或高速公路上等背景噪音很大的環境）也能順利運作。此外，也將研究多人說話時，分別標示各個說話者姓名的方法，以及辨識不同年齡、口音等各種類型的聲音。