打造AlphaGo傳奇首席工程師黃士傑回臺解密、AlphaGo幕後開發心路歷程大公開!

AlphaGo幕後開發心路歷程大公開!一手打造AlphaGo傳奇首席工程師黃士傑回臺解密

近來機器與人類史上最有名的正面戰役,莫過於今年5月,Google旗下AI實驗室DeepMind所開發的AlphaGo,與人類圍棋世界冠軍柯潔的對弈,AlphaGo最終以3:0贏得勝利,打響了AI的名聲,不管是學術界或是產業界,都紛紛投資AI應用。

近日,DeepMind更推出了比AlphaGo還要厲害的AlphaGo Zero,不需要事先學習人類下棋的棋譜,擁有自我學習的能力,而一手打造出AlphaGo傳奇的首席工程師黃士傑,今日(10日)於中研院舉辦的第一屆台灣人工智慧年會的演講中,以「AlphaGo-深度學習與強化學習的勝利」為題,揭露未曾對外公開的AlphaGo發展歷程,以及開發AlphaGo所用到的深度學習與強化學習技術關鍵。

黃士傑日前曾在個人臉書簡短的介紹AlphaGo Zero的特性,並表示這次回臺將會介紹AlphaGo Zero的開發歷程。

AlphaGo Zero主要達成的成果是從零開始自我學習下圍棋,並且靠著自我學習,在短短的36小時後,摸索出所有基本且重要的圍棋知識,圍棋程度達到與李世乭九段對戰的AlphaGo v18相同水平,又經過3天後,AlphaGo Zero對戰AlphaGo v18達到100%的勝率,之後又達到了年初在網路上達成60連勝的Master的水準。

而40天後,AlphaGo Zero對戰Master達到近90%勝率,成為有史以來AlphaGo棋力最強的版本,他表示,雖然AlphaGo Zero還未公開下圍棋棋,但DeepMind已將AlphaGo Zero的80局棋公開在發表於《自然》(Nature)期刊上的論文中。

儘管AlphaGo Zero仍然以圍棋為開發範本,但DeepMind認為類似的技術將可被應用在其他的結構化問題上,例如蛋白質折疊、降低能源損耗,或是尋找革命性的新材料等,將有潛力對社會帶來正面的影響。

他一開場說自己研究電腦圍棋10年,一開始到加拿大做研究時,第一個就是要解決語言溝通的問題,花了很多心力在加強英文的溝通,他指出,雖然現在AlphaGo已經完成所有的任務,但是,DeepMind認為應該還要繼續往AI技術前進,可以見得,DeepMind有非常強的目標。

他表示,他人生最開心的時候,就是在2016年5月時,AlphaGo真正贏了人類,他表示,當初沒有想過電腦圍棋會變得這麼厲害,但是還是不斷嘗試,後來才終於成功,過去就連聖誕節AlphaGo也還在下棋,團隊也都不間斷在訓練AlphaGo。

黃士傑從小就喜歡下棋,他自己的棋力是業餘6段,研究電腦圍棋還有是他的興趣,還有一項令他開心的是,因為AlphaGo的關係,他能夠有與他自己的圍棋偶像面對面下棋的機會。

AlphaGo給黃士傑最大的感觸是,AI與人類合作的氣氛慢慢在行程,他分享在中國烏鎮圍棋峰會與柯潔對弈的感受,他認為,韓國與李世乭的對弈,可以明顯感受到李世乭背負人類必須贏得勝利的壓力,但是中國烏鎮的比賽,是他真正感受到 AI和人類合作的氛圍,柯潔也表示非常榮幸能跟AlphaGo下棋。

AlphaGo專案的起源

AlphaGo的起源要從黃士傑在攻讀博士班時,用單機打造出一個電腦圍棋程式Erica說起,而Erica即是用他妻子的名字命名,當時,他現在的主管David Sliver寫了封信表示,對他的研究成果非常驚艷,還問他要不要加入DeepMind,黃士傑後來在隔年,2012年11月才正式加入DeepMind,當時面試最後主管問了他做出Erica的感想,「我覺得很有成就感!」David Sliver還表示與他有相同的想法。

他指出,DeepMind的目標是要打造通用的人工智慧,當時要開始投入研究電腦圍棋AI程式時,DeepMind的共識就是不要複製Erica,因為會既有的限制。

AlphaGo專案一開始是由DeepMind的CEO Demis Hassabis提議要開始研究電腦圍棋專案,之後黃士傑與他的主管 David Sliver,後來研究團隊又加入了Chris Maddison、llya Sutskever,一同參與開發AlphaGo,「為什麼要做圍棋?」他表示,這是許多人的疑問,他認為,在IBM深藍在西洋棋的領域,戰勝人類之後,就只剩下圍棋這項挑戰。

「要如何判斷在深度學習可以在圍棋用?」黃士傑的答案是,如果人類可以馬上判斷下這一步是好棋,那神經網路就可以做到,當時他利用人類的棋譜來讓AlphaGo學習,建立策略網路(Policy Network),用人類的直覺來下圍棋。

他表示,每天的工作就是反覆訓練網路、測試、觀察勝率,不斷地重複這樣的過程,包含要研究神經網路要建立多深、資料集有沒有問題、神經網路需要幾層等等的問題,第一個月的AlphaGo是行不通的,勝率不高,後來發現Overfitting的問題後,解決之後AlphaGo就達到95%的勝率。

之後,AlphaGo最主要的突破即是加入價值網路(Value Network),將強化學習結合深度學習,讓AlphaGo擁有學習的能力,另外,也因為硬體上TPU有很大的幫助,他指出,相同的程式碼,用TPU執行的勝率,會變得非常高。AlphaGo將直覺和判斷一起訓練,就能將直覺和判斷達到一致性,並將策略和價值網路結合在一起,變成Dual Network,之後再不斷的加強訓練流程。

為了測試AlphaGo的能耐,黃士傑努力說服團隊要在線上測試AlphaGo的棋力,後來終於在2016年年底,讓AlphaGo Master在網路上邀來中日韓台頂尖棋手,幫忙訓練,一天下10盤,就在自家的房間低調地用單機訓練AlphaGo Master,平均4 ~8秒下一步棋,一局大約需要1小時,與職業棋手的對戰全勝,他認為,電腦圍棋AI的價值在於「擴展圍棋界的理論和思路」。

真正脫離人類知識的AlphaGo Zero

近日,DeepMind釋出的AlphaGo Zero正式脫離人類知識的資料,不再需要人類的資料,AlphaGo原本的版本需要用數千盤人類棋手的對戰來訓練,然而AlphaGo Zero則可以在完全不懂圍棋的狀況下,自己跟自己對戰,透過神經網路演算法,不斷調整與更新,進而預測棋子的最佳落點。AlphaGo Zero採用了強化學習,過程中完全沒有經過人類的干預,也從未使用過去的棋譜資料,總共只花了40天,就成為歷史上最強的棋手。他覺得是這一種趨勢,經過10幾年的研究,電腦圍棋的研究在AlphaGo Zero上,有很好的收尾。

他指出,目前AlphaGo Zero棋力還在持續精進中,DeepMind團隊的合作,創造許多不錯的成果,包含發表了兩篇論文,以及與人類大戰兩次的大戰,在網路上有60個棋局訓練,最後還拍了《AlphaGo》的紀錄片。

他表示,AlphaGo的成功是深度學習與強化學習的勝利,從專案起始到收尾,都是靠著大家一同合作,而硬體資源與TPU也扮演很重要的角色,最後,近日AlphaGo Zero也展示了強化學習的巨大潛力,他認為,AI要成為人類的工具,與人類合作。

暢談AlphaGo發展心路歷程,幕後推手黃士傑是這樣看AI的!

今日DeepMind資深工程師黃士傑在人工智慧年會中,以「AlphaGo-深度學習與強化學習的勝利」為主題分享AlphaGo研發成果。整場演講中,黃士傑不僅分享了背後的技術,也透露了Deepminmd團隊的科學精神與研究理念。

技術:AlphaGo Zero展示了強化學習的巨大潛力

黃士傑強調,AlphaGo Zero不使用人類的資料、指導或規則以外的領域知識,「一切都從零開始,一開始AlphaGo自己再亂下棋,」但是Alpha Zero三天就以100:0成果打敗李世乭版本的AlphaGo,「超越人類幾千年圍棋研究的歷程」。

黃士傑指出,AlphaGo Zero和先前版本主要的差異在於1. AlphaGo Zero 結合了決策網絡(Policy Network:選擇下一步棋的位置)與價值網絡(Value Network:預測每一個位置上決定的勝者)2.移除Rollouts(快速隨機下棋法,從棋盤位置預測哪個棋手贏面較大),依靠神經網絡評估下棋位置。同時也把RL Training Pipeline效能極大化。

而這些改變也讓AlphaGo Zero效能更好,Zero版本只需四個TPU就可以運行。黃士傑強調硬體的重要性,尤其是TPU,「Google給了充足的資源,讓團隊自由地嘗試各種點子。」

精神:推動全球人工智慧領域的進步

而在演講中,黃士傑也透露出Deepmind團隊的科學家精神與科學分享的胸襟。這和一個棋手有關:樊麾。

樊麾是誰?他是中國出生的法國職業棋手,也是人類史上第一個被人工智慧打敗的棋士。2015年10月,樊麾受邀與AlphaGo競賽,結果,AlphaGo以5:0全勝的紀錄擊敗樊麾,成為世界上第一個於十九路棋盤上,被電腦擊敗的職業棋手。打敗樊麾後,黃士傑非常想和外界分享這個驚人事件,不過Deepminmd對整件事情下了「禁聲令」,不能對外說明。

「我們憋了好幾個月!」原來,Deepmind公司要黃士傑先完成論文,把研究成果投稿到《自然》(Nature)(《自然》規定在論文未發表前,不得對外說明,否則不予接受。)

當時黃士傑對此非常疑惑?「為什麼我們要花時間寫論文?不是應該好好準備和李世乭比賽?」再來,「把研究成果寫成論文發表,那所有秘密不就公開了嗎?」

不過Deepmind團隊的想法是,「我們是在做研究!科學的精神就是互相『分享』,推動整個領域進步。」於是團隊先把論文完成,2016年1月《自然》線上發表了這篇論文:Mastering the game of Go with deep neural networks and tree search。雖然這一段只是整場演場中的一小部分,但對於科技圈來說卻是一個極佳的典範。

科技創新不是鎖在實驗室,而是化成知識快速在外界傳遞,促成更多的研究者前仆後繼。

目標:人工智慧是人類的工具而非威脅

黃士傑指出現在的人工智慧離接近人類的「強」人工智慧還有很長的距離(far-away),至於這個距離有多少年?黃士傑沒有給出自己的看法,不過他強調,人工智慧離擁有「自我意識」的本質更加遙遠,因此無所不能的人工智慧,不會在短期內出現,「電影終究只是電影」。

AlphaGo從首爾比賽到烏鎮,對於外界來說,都是人類與人工智慧的對弈。而在烏鎮的柯潔大戰AlphaGo時,業界幾乎沒有人認為人類能贏,也就是說科技圈早就知道這是一場人類必輸的比賽,那為何AlphaGo還要打老遠跑到中國和柯潔對戰?

黃士傑說,在第一場在首爾與南韓棋王李世乭的戰役,重點在「輸贏」,氣氛緊張嚴肅,但第二場在烏鎮對戰中國旗手柯潔,重點在於人機共同探索圍棋,這時人工智慧的價值在於「幫助」棋手擴張思路 ,因此氣氛變得愉悅。

這也是Deepmind要傳達給外界的理念:人工智慧是人類的工具而非威脅,破除外界對於人工智慧統治人類的迷思想法。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏