賽事背景
圍棋人機大戰(zhàn),源于2016年1月27日英國《自然》雜志的一篇文章。這篇文章稱,谷歌的人工智能系統(tǒng)阿爾法圍棋(AlphaGo)2015年10月份以5比0的戰(zhàn)績完勝歐洲冠軍、職業(yè)圍棋二段樊麾,這是人類歷史上,圍棋人工智能(AI)第一次在公平比賽中戰(zhàn)勝職業(yè)圍棋手。
棋類游戲一直被視為頂級人類智力的試金石。人工智能與人類棋手的對抗一直在上演,此前在三子棋、跳棋和國際象棋等棋類上,計算機程序都曾打敗過人類。在圍棋人機大戰(zhàn)之前的歷史上,最著名的人機大戰(zhàn)要數(shù)國際象棋世界冠軍加里·卡斯帕羅夫?qū)H象棋人工智能程序“深藍(lán)”的國際象棋比賽。1997年,國際象棋人工智能第一次打敗頂尖的人類;2006年,人類最后一次打敗頂尖的國際象棋人工智能。自那時起,歐美傳統(tǒng)里的頂級人類智力游戲國際象棋,已經(jīng)在電腦面前一敗涂地。圍棋成了人類智力游戲最后的一塊高地。
圍棋人工智能長期以來舉步維艱,頂級人工智能甚至不能打敗稍強的業(yè)余選手。這似乎也合情合理。因為要是人工智能用暴力列舉所有情況的方式,圍棋需要計算的變化數(shù)量遠(yuǎn)遠(yuǎn)超過已經(jīng)觀測到的宇宙中原子的數(shù)量。這一巨大的數(shù)目,足以令任何蠻力窮舉者望而卻步。而人類,可以憑借某種難以復(fù)制的算法跳過蠻力,一眼看到棋盤的本質(zhì)。
后來,人工智能研究者們祭出了終極殺器——“深度學(xué)習(xí)”。深度學(xué)習(xí)是人工智能領(lǐng)域中的熱門科目,它能完成筆跡識別、面部識別、駕駛自動汽車、自然語言處理、識別聲音、分析生物信息數(shù)據(jù)等非常復(fù)雜的任務(wù)。谷歌人工智能程序阿爾法圍棋(AlphaGo)就是基于深度學(xué)習(xí)技術(shù)研究開發(fā)的。為了測試阿爾法圍棋的水平,谷歌于2016年3月份向圍棋世界冠軍、韓國頂尖棋手李世石發(fā)起挑戰(zhàn)。李世石接受挑戰(zhàn)。
比賽規(guī)程
李世石與阿爾法圍棋的圍棋人機大戰(zhàn)為五番棋挑戰(zhàn),但無論比分如何將下滿五局,比賽采用中國圍棋規(guī)則,執(zhí)黑一方貼3又3/4子(即7.5目),各方用時為2小時,3次60秒的讀秒機會。五局比賽分別于2016年3月9日、3月10日、3月12日、3月13日和3月15日在韓國首爾鐘路區(qū)四季酒店進行,獲得三勝者獲得100萬美元獎金(約11億韓元)。若阿爾法圍棋獲勝,獎金將捐贈給聯(lián)合國兒童基金會、STEM教育以及圍棋慈善機構(gòu)。除了100萬美元基礎(chǔ)獎金外,李世石還可獲得15萬美元出場費。此外每勝一局還有2萬美元勝局獎金,如果五盤全勝,勝局獎金為10萬美元。
賽程賽果
第一局
第一局:阿爾法圍棋執(zhí)白中盤勝李世石
2016年3月9日,圍棋人機大戰(zhàn)首局在韓國首爾四季酒店打響。賽前猜先阿爾法圍棋猜錯,李世石選擇黑棋,率先展開布局。黑棋布局走出新型,阿爾法應(yīng)對不佳,出現(xiàn)失誤。李世石抓住電腦布局不擅長應(yīng)對新型的弱點獲得不錯的局面。但圍棋的勝負(fù)關(guān)鍵往往是中盤階段。阿爾法圍棋之后的下法變得強硬,雙方展開接觸戰(zhàn)。李世石抓住機會,圍住一塊大空,在大局上搶得先機。就在觀戰(zhàn)棋手都認(rèn)為李世石占優(yōu)的情況下,他卻放出了非常業(yè)余的手法,瞬間使微弱的優(yōu)勢化為烏有,還變成了劣勢。進入官子,阿爾法圍棋根本不犯一點錯誤,著著精準(zhǔn)。等阿爾法圍棋下了186手,李世石算清后投子認(rèn)輸。
第二局
第二局:阿爾法圍棋執(zhí)黑中盤勝李世石
2016年3月10日,圍棋人機大戰(zhàn)展開第二局較量。阿爾法圍棋執(zhí)黑先行,李世石轉(zhuǎn)變了行棋的風(fēng)格,開局下得非常穩(wěn)健。阿爾法圍棋也下出了不少新手,這讓李世石應(yīng)對得非常謹(jǐn)慎,不時陷入長考,這讓他在時間上一直落后。你來我往中,黑37和41兩步尖沖令人匪夷所思,尤其是第41手,致目數(shù)大虧。中盤階段,本來形勢占優(yōu)的李世石行棋過緩,右上角的一步二路打拔被視作敗手,阿爾法圍棋的優(yōu)勢逐漸清晰起來。在形勢陷入被動的情況下,李世石下出一手扳的好棋,但幾次轉(zhuǎn)換后,黑棋還是牢牢守住了領(lǐng)先的局面,而且棋形很厚。李世石雖然脫了幾手,但并無實質(zhì)性改變,最終阿爾法圍棋執(zhí)黑于211手獲勝且優(yōu)勢明顯,總比分2比0領(lǐng)先。
第三局
第三局:阿爾法圍棋執(zhí)白中盤勝李世石
2016年3月12日,圍棋人機大戰(zhàn)展開第三局較量。李世石執(zhí)黑先行,該局開始前,還有棋迷希望李世石能夠?qū)崿F(xiàn)逆轉(zhuǎn),但阿爾法圍棋徹底摧毀了這種可能。布局階段,李世石左下掛角后走高中國流。行不到二十手,李世石局面就落入下風(fēng)。隨后,雙方在左上角展開戰(zhàn)斗,阿爾法圍棋對全局的把握一如既往地強大。李世石不但自己的模樣被對手輕松打入,阿爾法圍棋還借助戰(zhàn)斗在下邊圍起一大塊空,局面看上去還不如前兩盤好看。隨后的比賽,雖然李世石仍然極力抵抗,并且祭出劫爭的手段,但是電腦精確應(yīng)對,讓他無功而返。到阿爾法圍棋下了176手后,李世石只有投子認(rèn)負(fù)。圍棋人機大戰(zhàn)前三盤人類三連敗。
第四局
第四局:李世石執(zhí)白中盤勝阿爾法圍棋
2016年3月13日,圍棋人機大戰(zhàn)展開第四局較量。在接連三局負(fù)于“阿爾法圍棋”后,脫去勝負(fù)包袱的李世石為榮譽而戰(zhàn),終于迎來了“圍棋人機大戰(zhàn)”的首次勝利。與前幾局比賽相比,李世石此局更多次陷入了長時間思考,導(dǎo)致耗時過多。在比賽進行到兩個半小時后,李世石僅剩下17分鐘,比“阿爾法圍棋”剩余時間足足少1個小時。但隨后李世石祭出白78“挖”的妙手,一場“逆襲”之戰(zhàn)也由此開始。阿爾法圍棋被李世石的“神之一手”下得陷入混亂,走出了黑93一步常理上的廢棋,導(dǎo)致棋盤右側(cè)一大片黑子“全死”。此后,“阿爾法圍棋”判斷局面對自己不利,每步耗時明顯增長,更首次被李世石拖入讀秒。最終,李世石冷靜收官鎖定勝局。到180手,阿爾法圍棋中盤認(rèn)輸。
第五局
第五局:阿爾法圍棋執(zhí)白中盤勝李世石
2016年3月15日,圍棋人機大戰(zhàn)展開第五局對決。在上局比賽扳回一城后,李世石向阿爾法圍棋團隊提出要在末戰(zhàn)中執(zhí)黑,因為他覺得阿爾法圍棋執(zhí)黑時發(fā)揮并不完美,戰(zhàn)勝執(zhí)白的阿爾法圍棋才更有意義。執(zhí)黑的李世石選擇了穩(wěn)健的錯小目、無憂角開局,阿爾法圍棋則以二連星應(yīng)對。進入中盤,李世石意圖非常明顯,以撈實地為主。但李世石在79和81手連出緩手,被視為敗招。阿爾法圍棋82靠也并非好的應(yīng)手。一波錯進錯出后,黑棋在87和89手再出緩手,致使白棋左上角的圍剿更加有力,黑棋形勢瞬間坍塌。此后,占據(jù)優(yōu)勢的阿爾法圍棋展現(xiàn)了它強大的中后盤計算能力,鮮有失誤,落子效率極高。不過李世石也并未放棄,連續(xù)走出強硬應(yīng)手,可惜棋盤下得越來越小,難再覓逆轉(zhuǎn)機會。第280手,李世石投子認(rèn)負(fù)。這次圍棋人機大戰(zhàn)的最終比分定格為1比4。
賽事影響
對圍棋項目
圍棋人機大戰(zhàn)前,不少人擔(dān)心圍棋這塊陣地一旦失守,將對整個項目產(chǎn)生滅頂之災(zāi),因為不少人或許會產(chǎn)生這樣的想法:號稱棋類智力最頂尖的圍棋也不過爾爾,從而魅力大減??蓪嶋H的情況卻是恰恰相反,很多平時不關(guān)心圍棋或者說根本連圍棋規(guī)則都不了解的人,也因為人機大戰(zhàn)開始了解和關(guān)心這項運動。
圍棋人機大戰(zhàn)期間,關(guān)于人機大戰(zhàn)的報道充斥于國內(nèi)各種媒體的“頭條”,風(fēng)頭完全蓋過了足球、籃球這些風(fēng)靡世界的運動;就連圍棋普及率極低的歐美國家,英國廣播公司(BBC)、路透社、美聯(lián)社這些主流媒體也對比賽進行了詳細(xì)報道,這在以往幾乎是不可能的。
對人工智能
“人工智能”這個概念是人機大戰(zhàn)最終極的受益者。圍棋人機大戰(zhàn)前,人工智能對于普通人而言還是那么“云山霧罩”;圍棋人機大戰(zhàn)后,人們通過各種報道已經(jīng)了解到,人工智能已經(jīng)滲透到每個人的工作和生活中。智能化服務(wù)將會快速地接入餐飲、出行、旅游、電影、教育、醫(yī)療等生活服務(wù)領(lǐng)域,覆蓋用戶吃、住、行、玩,人工智能在未來可能媲美人類的專職秘書。
阿爾法圍棋最大的勝利是為人工智能打造了一場全球性的科普,也代表了高科技企業(yè)對人工智能技術(shù)充滿“野心”的宣告。過去的人工智能只是存在于實驗室的智慧探索;而未來的科學(xué)技術(shù),人工智能將是基礎(chǔ),是推動商業(yè)與社會發(fā)展的強大動力。
李世石簡介
李世石是李昌鎬之后,韓國最具代表性的棋手,他在2003年獲第16屆富士通杯冠軍后升為九段棋手。自2002年加冕富士通杯以來,十年時間里他共獲18個世界冠軍。李世石屬于典型的力戰(zhàn)型棋風(fēng),善于敏銳地抓住對手的弱處主動出擊,以強大的力量擊垮對手,他的攻擊可以用“穩(wěn),準(zhǔn),狠”來形容,經(jīng)常能在劣勢下完成逆轉(zhuǎn)。
AlphaGo2015年10月?lián)魯W洲冠軍
谷歌曾于2014年以4億歐元收購人工智能公司DeepMind。由DeepMind研發(fā)的AlphaGo項目已有兩年歷史,AlphaGo曾在去年戰(zhàn)勝了歐洲圍棋冠軍樊麾(職業(yè)二段)。
去年10月5日-10月9日,谷歌AlphaGo在比賽中以5:0的比分完勝了歐洲冠軍。除了戰(zhàn)勝人類外,AlphaGo還與其他的圍棋程序?qū)?zhàn),獲得了500場勝利。
AlphaGo原理簡介
傳統(tǒng)的人工智能方法是將所有可能的走法構(gòu)建成一棵搜索樹 ,但這種方法對圍棋并不適用。此次谷歌推出的AlphaGo,將高級搜索樹與深度神經(jīng)網(wǎng)絡(luò)結(jié)合在一起。這些神經(jīng)網(wǎng)絡(luò)通過12個處理層傳遞對棋盤的描述,處理層則包含數(shù)百萬個類似于神經(jīng)的連接點。
其中一個神經(jīng)網(wǎng)絡(luò)“決策網(wǎng)絡(luò)”(policy network)負(fù)責(zé)選擇下一步走法,另一個神經(jīng)網(wǎng)絡(luò)“值網(wǎng)絡(luò)”(“value network)則預(yù)測比賽勝利方。谷歌方面用人類圍棋高手的三千萬步圍棋走法訓(xùn)練神經(jīng)網(wǎng)絡(luò),與此同時,AlphaGo也自行研究新戰(zhàn)略,在它的神經(jīng)網(wǎng)絡(luò) 之間運行了數(shù)千局圍棋,利用反復(fù)試驗調(diào)整連接點,這個流程也稱為鞏固學(xué)習(xí)(reinforcement learning)。通過廣泛使用Google云平臺,完成了大量研究工作。
AlphaGo在與人的對弈中用了“兩個大腦”來解決問題:“決策網(wǎng)絡(luò)”和“值網(wǎng)絡(luò)”。通俗來說就是,一個大腦用來決策當(dāng)前應(yīng)該如何落子,另一個大腦來預(yù)測比賽最終的勝利方。
值得一提的是,李世石也是第一次與機器對戰(zhàn),所以他無法像和人類對戰(zhàn)那樣,先研究對方的棋譜和下棋風(fēng)格。李世石所能做的就是和自己對弈。谷歌AlphaGo也是通過這種方式鍛煉自己,真正做到了“人工智能”。
李世石之后 谷歌AlphaGo還會挑戰(zhàn)誰?
谷歌旗下DeepMind創(chuàng)始人哈薩比斯曾表示,還有很多實力很強的選手,所以這次比賽之后,也許也會去中國、日本,與當(dāng)?shù)馗呤智写杵逅嚒?/p>
中國圍棋圍棋九段柯潔也對此表示了興趣,昨天AlphaGo戰(zhàn)勝李世石后,他發(fā)微博稱,“就算阿法狗戰(zhàn)勝了李世石,但它贏不了我”,并且還置頂了該微博。
并且他來頭也不小,柯潔自述,“現(xiàn)在暫時是世界圍棋第一人(特地用了暫時,謙虛是美德)正式比賽我是單盤8:2碾壓李世石(他贏得這兩盤沒有任何作用)世界冠軍獲得過三次(此年齡如此成績前無古人)”。