AlphaGo
Deepmind團隊最近又放大招了。本周Deepmind在《自然》發(fā)表的一篇論文,宣告最新版本的人工智能AI面世,這款新版本叫阿爾法零(AlphaGo Zero)。阿爾法零(AlphaGo Zero)完全不依賴于人類數(shù)據(jù),自學(xué)三天圍棋,對陣阿爾法李世石(AlphaGo Lee)竟然能取得100比0的戰(zhàn)績。圍棋世界冠軍古力也感嘆:“20年不抵3天啊,我們的傷感,人類的進步!”
AlphaGo四個版本回顧
AlphaGo最先出現(xiàn)在公眾視野,是2015年10月5-0完勝人類的歐洲冠軍樊麾二段。樊麾是法國圍棋隊總教練,他曾多次獲得法國冠軍,及蟬聯(lián)2013年至2015年的三屆歐洲圍棋冠軍。兩年前,樊麾有幸受邀成為第一位與AlphaGo分先對弈的人類職業(yè)棋手。
2016年3月9日-15日,圍棋人機大戰(zhàn)在韓國首爾舉行,AlphaGo向李世石這樣的人類現(xiàn)任頂尖職業(yè)棋手發(fā)起挑戰(zhàn),AlphaGo最終4-1獲勝。
2016年12月29日晚起到2017年1月4日晚,阿爾法圍棋在弈城圍棋網(wǎng)和野狐圍棋網(wǎng)以“Master”為注冊名,依次對戰(zhàn)數(shù)十位人類頂尖圍棋高手,取得60勝0負的輝煌戰(zhàn)績。今年5月23日到27日,在中國烏鎮(zhèn)圍棋峰會上,阿爾法圍棋以3-0的總比分戰(zhàn)勝排名世界第一的世界圍棋冠軍柯潔。
如今,AlphaGo已經(jīng)升級到阿爾法零(AlphaGo Zero)版本,這個這個阿爾法從零開始,所以它的名字叫作零(Zero)。阿爾法零與上一個版本阿爾法大師的100番棋戰(zhàn)績?yōu)?9勝11負,與去年3月和李世石對弈的阿爾法李世石(AlphaGo Lee)的100番棋戰(zhàn)績?yōu)?00勝0負,而且阿爾法零(AlphaGo Zero)從開始學(xué)棋到成為此等高手只用了三天時間。
阿爾法零顛覆式飛越發(fā)展
阿爾法圍棋主要設(shè)計者之一大衛(wèi)-席爾瓦介紹:“人們一般認為機器學(xué)習(xí)就是關(guān)于大數(shù)據(jù)和海量計算,但阿爾法零的出現(xiàn)讓我們意識到算法比所謂計算或數(shù)據(jù)可用性更重要?!?/p>
據(jù)《自然》雜志介紹,AlphaGo的核心是兩種不同的深度神經(jīng)網(wǎng)絡(luò):“策略網(wǎng)絡(luò)”(policy network)和 “值網(wǎng)絡(luò)”(value network)。它們的任務(wù)在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋。AlphaGo最初是學(xué)習(xí)了海量人類棋手棋譜,然后進行大量的自我對弈來進行“深度學(xué)習(xí)”。
在阿爾法李世石(AlphaGo Lee)繼續(xù)取得成功后,AlphaGo之父哈薩比斯就透露,他們的團隊正在嘗試訓(xùn)練一個沒有學(xué)習(xí)過人類棋譜的人工智能。阿爾法大師采用的策略是,通過數(shù)學(xué)模型下的自我對局和深度學(xué)習(xí),下出真正屬于人工智能(AI)的圍棋。
阿爾法李世石(AlphaGo Lee)在去年與李世石對弈時,對李世石下一步棋走哪兒的預(yù)測,比現(xiàn)在的阿爾法零精確。阿爾法零現(xiàn)在下的圍棋,已經(jīng)與人類棋手下的圍棋完全不在一個檔次,它不用老去猜人類棋手想怎么下了。
三天如何培養(yǎng)一個阿爾法零?
古力、柯潔感嘆AlphaGo的強大
阿爾法零的上一個版本阿爾法大師,在設(shè)計之初還需要輸入一定的人類思維痕跡的模型。阿爾法零只需要先輸入棋盤、棋子,不需要預(yù)先輸入任何人類數(shù)據(jù),僅用到一張神經(jīng)網(wǎng)絡(luò),通過這張網(wǎng)絡(luò)進行自我訓(xùn)練。李世石版使用了176個GPU和48個TPU,而如今的阿爾法零只使用一臺機器和4個TPU。
從Deepmind公布的信息看,阿爾法零從誕生起到10小時左右,就能發(fā)現(xiàn)簡單的定式;16小時能發(fā)現(xiàn)比較復(fù)雜的小雪崩定式。到36小時的時候,阿爾法零就能超越李世石版,發(fā)現(xiàn)星位一間夾點角定式。到第55小時,它能發(fā)現(xiàn)人類目前暫時理解不到的非人類棋手的定式。到72小時,它就能初步出關(guān),能超越所有人類棋手了。
當(dāng)然,阿爾法零與上一個版本阿爾法大師下成89勝11負,還是通過了40天的修煉才做到的。但與人類棋手,需要至少15到20年的學(xué)習(xí)才有可能成長為頂級棋手來說,阿爾法零的出現(xiàn)確實太驚人了。大衛(wèi)-席爾瓦也介紹,阿爾法零的表現(xiàn)令他們這些設(shè)計者都很震驚。
世界冠軍柯潔感嘆:“一個純凈、純粹自我學(xué)習(xí)的AlphaGo是最強的,對于AlphaGo的自我進步來講,人類太多余了?!惫帕σ舱f:“20年不抵3天啊,我們的傷感,人類的進步!”不過柯潔的感慨可能太過于悲觀了。哈薩比斯在今年5月的第二次人機大戰(zhàn)后就正式宣布AlphaGo退役。DeepMind繼續(xù)研究更厲害的AlphaGo版本,目的肯定不是來對付人類棋手,而是在強化學(xué)習(xí)和改造世界的更廣泛領(lǐng)域創(chuàng)造新的途徑和方式。
精彩推薦: