誰能擊敗AlphaGo?具備自我學習能力的AlphaGo Zero擺脫需要人類知識學習限制

人類從此成為多餘!最新一代「AlphaGo」40天自主學習打遍天下無敵手

近年人工智慧代表作「阿爾法圍棋」在多場舉世矚目的「人機大戰」之後登上圍棋界聖母峰,但更可怕的是,它持續以自主學習的方式自我超越,最新版本「阿爾法圍棋─零」顧名思義「從零開始」學習圍棋,只用40天時間就擊敗所有前輩版本(人類已經沒有挑戰資格),成為新一代圍旗王者。

對此,世界排名第一的中國棋士、前一代阿爾法圍棋(AlphaGo)手下敗將柯潔在微博上表示:「一個純淨、純粹自我學習的AlphaGo是最強的...對於AlphaGo的自我進步來講...人類太多餘了。」

人工智慧軟體AlphaGo與中國棋王柯潔3盤對戰,AlphaGo大獲全勝

研發「阿爾法圍棋」的英國「深度思維」(DeepMind)公司在最新一期英國《自然》(Nature)期刊上發表論文〈不需要人類知識條件也能掌握圍棋遊戲〉(Mastering the game of Go without human knowledge),介紹最新版的「阿爾法圍棋─零」(AlphaGo Zero )。

DeepMind將「AlphaGo」的發展分為4個階段:第一個版本是「阿爾法圍棋─樊」(AlphaGo Fan),在2015年戰勝華裔歐洲圍棋冠軍樊麾,是人工智慧首次擊敗人類職業棋士;第二個版本是「阿爾法圍棋─李」(AlphaGo Lee),在2016年戰勝曾多次奪得世界冠軍的南韓棋士李世乭;第三個版本是「阿爾法圍棋─大師」(AlphaGo Master),在今年讓柯潔俯首稱臣,並在與多位擁有世界冠軍頭銜的人類棋士「群戰」中完勝。

AlphaGo對五位人類棋手的團體戰棋譜。

這3個版本在剛開始學習圍棋時,都要依靠人類知識,學習人類摸索出的基本下法,然後再開始自己學習。然而第4版也是最新版的「AlphaGo Zero」擺脫了「需要人類知識」這個學習限制,研究人員只為它輸入棋盤以及黑子與白子,接下來它就以「從零開始」(tabula rasa)的方式自主學習,自己與自己對弈,而且突飛猛進。

開始學習圍棋3天之後,「AlphaGo Zero」就以「100勝0敗」的成績徹底擊潰「AlphaGo Lee」。21天之後,「AlphaGo Zero」棋力達到「AlphaGo Master」的水平。40天之後,沒有任何一個舊版的「AlphaGo」能夠戰勝「AlphaGo Zero」。

研究人員認為,從需要預先輸入人類知識,到能完全依靠自己摸索,「AlphaGo」的進步代表人工智慧的巨大突破,意味人工智慧不但可以進入對它來說本是一片空白的領域,而且能夠自主取得卓越成就,自行創造知識。

而且前幾代「AlphaGo」使用2套神經網路(neural network),「AlphaGo Zero」只需1套。前幾代「AlphaGo」利用快速隨機的「走子」(rollout)來預測棋局,但「AlphaGo Zero」完全只靠自家優異的神經網路。

當然,「AlphaGo」的本領絕不只下圍棋。DeepMind執行長哈薩比斯(Demis Hassabis)預期,未來10年「AlphaGo」將以科學、醫學專家的身分與人類合作,從事新藥與新材料研發、破解基本粒子物理學謎團等任務,拓展科學與醫學的新天地。

誰能擊敗AlphaGo?答案是具備自我學習能力的AlphaGo Zero

Alphabet子公司DeepMind周三(10/18)宣布,已打造一個比AlphaGo更厲害的圍棋程式—AlphaGo Zero,它具備自我教學能力,已成為歷史上最強大的圍棋棋手。

之前的AlphaGo版本主要是以數千盤人類棋手的對戰進行訓練,包含業餘與專業棋手,然而AlphaGo Zero跳過了此一步驟,在完全不懂圍棋的狀況下自己跟自己對戰,由於它內建了具備強大搜尋演算能力的神經網路,因此能不斷調整與更新,以預測棋子的落點。

AlphaGo Zero透過強化學習模式讓它成為自己的老師,當中完全沒有人類的干預,也未使用歷史棋戰資料,只花了40天便成為史上最強的棋手。

一開始的AlphaGo Zero只知道圍棋的基本規則,卻在3天後就打敗了AlphaGo Lee,這是在2015年與李世乭的5盤對戰中拿下4盤的AlphaGo版本;21天後它達到與AlphaGo Master同樣的能力,此為今年於網路上與60名專業棋手對戰拿下全勝紀錄,並擊敗柯潔的AlphaGo版本,40天後它便超越了所有的AlphaGo版本。

DeepMind指出,AlphaGo Zero所使用的技術遠比之前的AlphaGo還要強大,因為它不再受限於人類的知識,而是向全球最厲害的棋手學習—AlphaGo Zero自己。

隨著演算法的進化,AlphaGo所使用的運算資源也愈少(下圖),早期的AlphaGo Fan使用176個GPU,之後便改採Google自行發展的AI處理器(Tensor Processing Unit,TPU),AlphaGo Lee使用了48個TPU,AlphaGo Master與AlphaGo Zero皆只使用4個TPU。

儘管AlphaGo Zero仍然以圍棋為開發範本,但DeepMind認為類似的技術將可被應用在其他的結構化問題上,例如蛋白質折疊、降低能源損耗,或是尋找革命性的新材料等,將有潛力對社會帶來正面的影響。

圍棋界霸主換人當?新AI軟體靠自學就能戰勝AlphaGo

人工智慧(AI)圍棋軟體AlphaGo與圍棋世界冠軍李世乭激烈的大戰似乎還歷歷在目,Google旗下AI實驗室DeepMind又表示開發出更加強大的軟體,稱作AlphaGo Zero。 

不需額外輸入資料,AlphaGo Zero靠自學

一般的人工智慧應用,都需要依靠事前輸入的大量資料來學習、訓練技能,舉例來說,Alpha Go就先透過線上圍棋社群中16萬筆業餘遊戲紀錄,來養成它的圍棋技能,之後再透過不斷與真人對戰,增強自己。

但是,這次的AlphaGo Zero不一樣,之所以有「Zero(零)」字樣,就是因為它完全不需要依靠人類的紀錄數據學習技能,DeepMind僅僅輸入圍棋的規則,AlphaGo Zero就會開始與自己下棋,每次優勝,這筆資料就會被輸入系統,藉此學習。

在這樣自我學習40天、對戰2900萬次之後,AlphaGo Zero勝戰原版AlphaGo的機率就已經達到90%,這樣的能力「能夠讓AlphaGo Zero成為圍棋歷史上最強大的玩家。」DeepMind說道。

此外,不依靠人類的經驗數據來學習技能,反而能讓電腦軟體突破人類知識的限制,找出新的遊戲策略與技巧,這都讓AlphaGo Zero較前一代更強大。

人類仍有超越AI的思考能力 

AlphaGo Zero的背後技術設計,無疑簡潔有力,然而這項新技術,卻也展現人工智慧的限制。

人工智慧之所以能夠展現技能,是因為電腦在做決策之前,會先搜尋、列出幾項決策的可能對應結果,再由此中選出最好的選擇。

然而,面對複雜的問題,我們需要思考、尋求因果,並思考未來後果;電腦能夠在既定規則下的問題思考未來,但面對現實世界中缺乏規則的決策,人類的思考能力現在仍無法被電腦取代。

DeepMind希望AlphaGo Zero在圍棋界,能成為一個新的靈感來源,給予新的遊戲策略;進一步,他們希望這項AI技術能夠被用在新藥開發、量子化學、材料設計等領域,用來發現、解析複雜的大量數據資料。

打敗前輩 新版AlphaGo棋力飛漲

谷歌旗下公司打造的人工智慧軟體AlphaGo在學習人類經驗後橫掃圍棋高手,據報導,新一代AlphaGo似乎更讓人驚訝,能在無任何人類經驗情況下迅速自學,並以100比零的戰績擊敗「前輩」。

上海澎湃新聞報導,谷歌(Google)旗下DeepMind公司打造的AlphaGo是在大量學習人類棋譜後才慢慢「封神」,但這一認知目前也被改寫。

據報導,Deepmind在最近一期國際學術期刊「自然」(Nature)發表研究論文說,新一代AlphaGo Zero從空白狀態學起,在無任何人類輸入的條件下,能迅速自學圍棋,並以100比零的戰績擊敗「前輩」。

報導引述專家說,「拋棄人類經驗」和「自我訓練」並非AlphaGo Zero的最大亮點,關鍵在於採用了新的強化學習算法(reinforcement learning),並帶來了新的發展。

論文指出,在數百萬局自我對弈及訓練後,AlphaGo Zero獨立發現了人類花費數千年才總結出的圍棋規則,還建立了新戰略,為這個古老的遊戲帶來新見解。

世界頂尖棋手的養成,動輒需要數十年的訓練、磨礪,但論文透露,AlphaGo Zero創造了一個紀錄:3天。

上海紐約大學電腦科學教授張崢表示,從算法來說,AlphaGo Zero比它的「前輩」更簡潔、漂亮。AlphaGo Zero擺脫了人為的大數據,在人類所定的規則下,自主發現新知識,並糾正人類的錯誤知識,並以驚人速度達到這一點。

張崢說:「有趣的是,AlphaGo Zero卻無法解釋(它是如何完成這一切),只能demo(樣本)給人類。」

上海復旦大學電腦科學技術學院教授危輝將圍棋盤面上各種變化比作星辰,透過人類智力、直覺,人類可能已經觸及其中百萬分之一的情況,AlphaGo Zero則可能觸及了其中百萬分之5,「比人類多,但肯定沒有窮盡。」

AlphaGo Zero的前一代AlphaGo Lee在參考大量人類棋譜並自我對弈約3000萬盤、訓練數月後,於2016年3年月以4比1的戰績擊敗南韓九段棋手李世石,引發關注。


AlphaGo Zero: Starting from scratch

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏

人類是AI的最大限制?DeepMind發表終極版 「AlphaGo Zero」,拋棄人類棋譜反而功力超前好幾級

DeepMind 作為 Google 旗下負責推動 AI 研究的子公司,於10/19 宣布新一代 AlphaGo 正式誕生,名字叫做 AlphaGo Zero,它擁有比過往 AlphaGo 更強大的自我學習能力,DeepMind 認為這項技術未來可被應用在其他社會領域。

打個比方,若是 AlphaGo 是被 DeepMind 餵養數千萬張棋譜長大的話,弟弟 AlphaGo Zero(以下簡稱Zero)就是反其道而行所培養的,它不參考也不閱讀人類的自古到現在的任何一張棋譜,DeepMind 的研究員認為這也許這個切入點,可以打破人類對於圍棋既有的認知,走出不一樣的「定石」和圍棋理解。

還記得一年多前 AlphaGo 的橫空出世嗎?在學習人類百萬張棋譜後,每天孜孜不倦的跟自己下幾萬盤的棋,最後到達了近似於「神乎棋技」的境界後,3月入世下山挑戰的第一個對手,不是默默無名之輩也不是日本棋院院生,直接就指名挑戰韓國最強的圍棋天才李世乭。

最終李世乭雖讓 AlphaGo 吞下一敗,在此役中下出了「神之一手」扳回人類的尊嚴,但依舊以1:4結束了這場賽局。而不管是之後在網路上,打敗中日韓眾家高手取得 60 勝 0 敗的鬼神戰績,還是一年後以3:0完封了世界排名第一的中國棋王柯潔,AlphaGo 利用神經網路以及深度學習技術進行自我學習的能力,的確震驚了全世界。

就在 10/19日,DeepMind 發表了它的兄弟 AlphaGo Zero,並公布了 Zero 將舊版 AlphaGo 以 100:0 的懸殊戰績完虐的狀況。

舊版的 AlphaGo 需要與人類專家進行成千上萬次對弈,才能從中獲取對奕數據, Zero 則截然不同,雖然一樣是 Alphabet 旗下的子公司 DeepMind 開發的,但它從零開始,面對的只是一張空白棋盤和圍棋的遊戲規則。

DeepMind 聯合創始人 Demis Hassabis 興奮的表示:「最驚人的是,我們不再需要任何人工數據去餵養新的 AlphaGo」 

過去的 AlphaGo 展現的是能夠掌握龐大的數據量,並在這個基礎上結合自我學習能力去做深度學習,但這透露出一個缺點是,AlphaGo 有可能在未來,永遠走不出超越人類既有認知的新棋步,然後繼續帶有「模仿人類的圍棋」下法繼續成長,如此 AlphaGo 的棋藝發展依舊侷限於人類的認知範圍裡。

而新的 AlphaGo Zero 展現的就是全新的「自我學習演算法」,因為它從沒看過人類棋譜,因此它單純的是透過與自我的對奕,來提升圍棋能力,它學的只是圍棋規則和關鍵概念,因此它拋棄(或者從來沒有過)一切與「人」有關的圍棋知識,然後透過超深度的自我對奕來達到迅速成長,在 40 天的自我訓練時間內,AlphaGo Zero 日以繼夜的與自己進行了 2900 萬次的對奕。

AlphaGo Zero 不再模仿、參考人類的圍棋玩法,因為不給它任何一張棋譜,因此它就完全沒有被任何思想、下法所框架住。它只能自己跟自己玩,結合全新的自我學習演算法,做到分分鐘成長和突破。

AlphaGo 團隊負責人 Dave Silver 表示:「人們一般認為人工智慧的學習,就是關於大數據和海量計算,但是 DeepMind 通過 AlphaGo Zero 的案例發現,演算法比計算或者數據可用性更重要」。

換言之,Deepmind 想藉 AlphaGo Zero 展現的亮點在於,AI(人工智慧)的未來將無需任何人類指導,和吸收數據;通過全新的強化學習方式,AI(人工智慧)可以自己教導自己,並且成長快速。DeepMind團隊表示,期待將此技術廣泛應用到其他社會問題上,這將對我們的生活產生重大影響。

更驚人的是第一代的 AlphaGo 需要用到 176 個 GPU 晶片,而 AlphaGo Zero 只需要使用一台 4 個 TPU 的機器即可完成自我深度學習的任務,也就是說 Zero 使用的硬體資源更少,但在性能、深度學習上,卻擁有了一個質的進步,高出舊版數個等級。

DeepMind 宣布的這項成果,未來將可應用在多個社會與科學領域中,進而為人類的未來帶來突破性的發展,而這一切不只限定在圍棋領域當中。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏