2025MBA報(bào)考測(cè)評(píng)申請(qǐng)中......

說明:您只需填寫姓名和電話即可免費(fèi)預(yù)約!也可以通過撥打熱線免費(fèi)預(yù)約
我們的工作人員會(huì)在最短時(shí)間內(nèi)給予您活動(dòng)安排回復(fù)。

導(dǎo)讀:沒有人會(huì)否認(rèn),AlphaGo在過去一年炒熱全球?qū)θ斯ぶ悄艿年P(guān)注。

沒有人會(huì)否認(rèn),AlphaGo在過去一年炒熱全球?qū)θ斯ぶ悄艿年P(guān)注。

 

2016年3月,谷歌Deepmind旗下的圍棋程序AlphaGo,以4比1的成績(jī)戰(zhàn)勝韓國(guó)職業(yè)棋手李世石。一年后,拿掉所有人類知識(shí)、完全靠自學(xué)的AlphaGo Zero,在今年10月又以100比0的戰(zhàn)績(jī)碾壓“AI前輩”AlphaGo。從擊敗人類、到自學(xué)成材,AlphaGo的進(jìn)展超乎預(yù)期,研發(fā)團(tuán)隊(duì)也自然成為關(guān)注焦點(diǎn)。這當(dāng)中,被稱為AlphaGo的“人肉手臂”,替AlphaGo向棋圣聶衛(wèi)平說“謝謝聶老師”的黃士杰(Aja Huang),就是AlphaGo發(fā)展的重要推手。

 

上周五(11月10日)在臺(tái)灣中研院舉辦的“2017年人工智慧年會(huì)”上,黃士杰首次把AlphaGo的研發(fā)過程公開說清楚,除了透露新一代AlphaGo Zero的能力還沒達(dá)到極限,他更多的是去分享身為一名科學(xué)家,旁觀機(jī)器的進(jìn)步,以及一個(gè)科學(xué)團(tuán)隊(duì)對(duì)基礎(chǔ)研究的使命和專注。

 

以下是編輯后的演講摘錄:

 

AlphaGo的研發(fā)過程,有四個(gè)時(shí)刻對(duì)我影響很大。

 

第一,是我們?cè)陧n國(guó)贏了李世石。當(dāng)我們開始做AlphaGo時(shí),沒想到它會(huì)變得那么強(qiáng)。在韓國(guó)贏了李世石后,DeepMind首席執(zhí)行官Demis Hassabis立刻發(fā)了一個(gè)推特,說“我們登上月球”(We landed it on the moon.)。我明白Demis那天的感覺,這是我們團(tuán)隊(duì)的一小步,但卻是人類的一大步。

 

第二個(gè)時(shí)刻,是我在網(wǎng)絡(luò)上操作AlphaGo升級(jí)版“Master”,下了60盤棋。我從小喜歡下棋,在臺(tái)灣是業(yè)余六段。Master在網(wǎng)絡(luò)上對(duì)弈的對(duì)象,都是我從小崇拜的人。雖然不是我真正在下棋,但卻感到非常榮幸。

 

第三個(gè)時(shí)刻,是今年在烏鎮(zhèn)進(jìn)行的人機(jī)大戰(zhàn),由我操作AlphaGo和世界冠軍柯潔九段下棋??聺嵾€不滿20歲,非常年輕,當(dāng)天比賽氛圍和李世石對(duì)弈時(shí)很不同。我記得在韓國(guó)比賽,能感受到李世石承受到很大的壓力,感覺他是在為人類而戰(zhàn)。我當(dāng)時(shí)坐在他對(duì)面,也盡量保持謹(jǐn)慎的態(tài)度,不喝水、不去上洗手間。但到了第二次和柯潔對(duì)弈,比較像是人機(jī)合作的氣氛,柯潔還走過來說:“黃博士,很榮幸跟AlphaGo下棋”,坦白說我有點(diǎn)驚訝。這也讓我們知道,如果Master是無敵的,那機(jī)器存在價(jià)值到底在哪里?應(yīng)該是要幫助棋手?jǐn)U張思路、擴(kuò)展圍棋理論。

 

第四次對(duì)我意義重大的時(shí)刻,是AlphaGo Zero的出現(xiàn)。什么是AlphaGo Zero?我們拿掉所有人類對(duì)圍棋的知識(shí),只喂AlphaGo Zero圍棋規(guī)則,讓它自己學(xué)習(xí)下棋。我回想起讀博士班的熬夜日子,就是不斷寫代碼、找bug,每天做測(cè)試,讓程序進(jìn)步。但AlphaGo Zero把我過去的所有東西全部取代,它完全不需要我的幫助。有同事問我,Aja,AlphaGo Zero把你這十幾年來對(duì)圍棋計(jì)算機(jī)的研究,一點(diǎn)一點(diǎn)的拿掉,甚至還超越你,有什么感覺?我的確心情復(fù)雜,但后來跟同事說,這會(huì)是一個(gè)趨勢(shì),如果我阻礙了AlphaGo,我確實(shí)應(yīng)該被拿掉(笑)。AlphaGo有99%的知識(shí)是我做的,AlphaGo能走到這一步,我已經(jīng)很滿足,找到了收尾。

 

AlphaGo是怎么開始的?

 

回到一開始,AlphaGo到底是怎么開始的?起點(diǎn)是有三組人馬的聚集:Deepmind首席執(zhí)行官Demis Hassabis與AlphaGo項(xiàng)目領(lǐng)導(dǎo)David Silver、我、還有兩位谷歌大腦(Google brain)的同事Chris Maddison和Ilya Sutskever。

 

Demis和David原本是劍橋大學(xué)的同學(xué),友情深厚。對(duì)西方人來說,當(dāng)1997年IBM超級(jí)電腦“深藍(lán)”贏了西洋棋棋王卡斯巴羅夫之后,就只剩下流傳幾千年的中國(guó)圍棋,是人工智能發(fā)展的極大挑戰(zhàn)。一開始,很多研究人員想把研究西洋棋的技術(shù)移到圍棋上,但都失敗了。在2006年蒙特卡洛樹搜索出來后,研究才提升一階,讓機(jī)器棋手的水平能達(dá)到業(yè)余三段,但離職業(yè)棋士一段還有距離。Demis和David心中開始藏有一個(gè)夢(mèng),希望有一天要能做出一個(gè)很強(qiáng)的圍棋程式。

 

但有夢(mèng)的不只有他們,故事的另一條線還有我。

 

在就讀臺(tái)灣師范大學(xué)資訊工程博士班時(shí),我每天埋頭解bug、寫代碼,就是希望做一個(gè)很強(qiáng)的圍棋程序。2010年,我研發(fā)出的圍棋計(jì)算機(jī)程序Erica(事實(shí)上是用我妻子的名字來命名),在計(jì)算機(jī)奧林匹亞獲得 19 路圍棋的冠軍。雖然Erica只是單機(jī)版,但它打敗了用了6臺(tái)PC的日本程序Zen跟其他參賽者,就像小蝦米對(duì)抗大鯨魚。當(dāng)年還在英國(guó)當(dāng)教授的David,在比賽后寫信問我有沒有興趣加入Deepmind,隔年我也正式加入團(tuán)隊(duì),成為第40號(hào)員工。

 

我還記得當(dāng)年面試,老板問我,能做出Erica有什么感覺?我回答,滿有成就的。Demis點(diǎn)頭,他明白我的感覺。

 

2014年,Google收購(gòu)Deepmind,AlphaGo項(xiàng)目也正式浮現(xiàn)。Demis起初還在教書、還不是全職員工,就常三不五時(shí)走過來跟我討論圍棋項(xiàng)目的想法。真的要開始時(shí),我們其實(shí)都已經(jīng)有些準(zhǔn)備。

 

既然決定要做圍棋項(xiàng)目,當(dāng)時(shí)我和Demis有一個(gè)共識(shí),就是絕對(duì)不要復(fù)制Erica。Erica其實(shí)有它的極限,最勉強(qiáng)的就是達(dá)到業(yè)余三段,繼續(xù)復(fù)制的意義不大。我們想做不一樣的事,希望能運(yùn)用到深度學(xué)習(xí)的原理。過了幾個(gè)月,團(tuán)隊(duì)又增加了兩個(gè)人,包括深度學(xué)習(xí)之父以及帶動(dòng)深度學(xué)習(xí)革命的研究者。

 

我們?cè)趺磁袛嗌疃葘W(xué)習(xí)可能應(yīng)用到圍棋?如果人類可以一看棋盤就知道下哪一步會(huì)是好棋,那么神經(jīng)網(wǎng)絡(luò)也可能辦得到這種"直覺"。但如果人類得想五分鐘才能給出答案,神經(jīng)網(wǎng)絡(luò)可能辦不到。一開始,我們訓(xùn)練AlphaGo從人類的棋譜去學(xué)習(xí)人類的直覺。我還記得第一次測(cè)試神經(jīng)網(wǎng)絡(luò),沒想到能表現(xiàn)得那么好,百分之百對(duì)戰(zhàn)都不會(huì)輸,是一種碾壓式的勝利。

 

AlphaGo第二個(gè)突破的是價(jià)值網(wǎng)絡(luò)。我記得當(dāng)David跟我說他有這樣一個(gè)點(diǎn)子時(shí),我還質(zhì)疑,這會(huì)成嗎?當(dāng)我們把策略網(wǎng)絡(luò)(Policy Network)做出來后,最強(qiáng)的程式可以達(dá)到70%到80%的勝率,算得上是世界最強(qiáng)的。但老板的目標(biāo)不只于此,我們又繼續(xù)找人、繼續(xù)擴(kuò)充團(tuán)隊(duì)。

 

這過程其實(shí)很辛苦,嘗試很多,譬如網(wǎng)絡(luò)要多深、要用什么架構(gòu)?數(shù)據(jù)庫(kù)有沒有問題?最終檢驗(yàn)的,還是看AlphaGo有沒有變強(qiáng)。過了一個(gè)月之后,我們找到了問題并且解決掉,我仍然記得,舊版AlphaGo配上價(jià)值網(wǎng)絡(luò)產(chǎn)生的新版AlphaGo,第一次的實(shí)驗(yàn)結(jié)果是達(dá)到95%的勝率,棋力非常強(qiáng)。可以這么說,AlphaGo的成功就是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利,因?yàn)閮烧呓Y(jié)合在一起,建構(gòu)判斷形式的價(jià)值網(wǎng)絡(luò)(Value Network),后來也成為AlphaGo Zero的主要理論。

 

當(dāng)價(jià)值網(wǎng)絡(luò)出來后,Demis希望我們能與歐洲職業(yè)一段棋手進(jìn)行比賽。當(dāng)下,我除了要做價(jià)值網(wǎng)絡(luò),還要研究平行網(wǎng)絡(luò)搜索技術(shù),Demis走過來說要比賽,我只想著:真的那么有信心嗎?

 

后來我們與歐洲圍棋冠軍樊麾進(jìn)行比賽,最終以5比0獲勝,這結(jié)果其實(shí)也很不可思議。我記得樊麾輸了第二盤棋后,想出去走走,會(huì)說中文的我,原本想去陪他,他揮揮手,“不用,我自己出去透透氣。”

 

難能可貴的是,樊麾是第一個(gè)被AI打敗的職業(yè)棋士,但他的態(tài)度非常正面。樊麾在第五盤棋雖然認(rèn)輸了,但他對(duì)AI并沒有感到害怕,后來甚至也加入了團(tuán)隊(duì),幫忙測(cè)試AlphaGo。

 

當(dāng)時(shí)要把AlphaGo研究投稿到科學(xué)期刊《自然》(Nature)也是另一段有趣的故事。我們那時(shí)剛弄出價(jià)值網(wǎng)絡(luò)、剛打敗樊麾,正準(zhǔn)備要挑戰(zhàn)韓國(guó)職業(yè)棋手李世石九段,Demis為什么又要我們另外花時(shí)間去寫論文,而不是準(zhǔn)備比賽?為什么現(xiàn)在就要我們把研究秘密全部公開?

 

 

Demis給了我一個(gè)很有意思的答案。他認(rèn)為,我們是在做研究,科學(xué)的精神就是要互相分享,我們要推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。也因?yàn)橐獙懻撐耐陡?,和《自然》編輯也事先談好,在出版之前,我們不能和任何人說AlphaGo打敗了樊麾。那幾個(gè)月,所有人都憋著不講,當(dāng)論文刊登之后,才正式向李世石九段提出挑戰(zhàn)。

 

至于后來AlphaGo和李世石的比賽,大家也都知道了。

 

這邊要特別提到的是,TPU(Tensor Processing Unit,谷歌的高性能處理器)在研究過程中對(duì)我們有極大的幫助。自從Deepmind加入Google后,我認(rèn)為Google給我們最大的幫助,就是提供了硬件設(shè)備。我還記得當(dāng)時(shí)有一個(gè)GPU(圖形處理器)版本,代碼完全一樣,但改用TPU之后,勝率變得強(qiáng)太多。

 

而AlphaGo的故事也還沒結(jié)束。

 

就在我們打敗李世石后,很多人認(rèn)為AlphaGo項(xiàng)目是不是不動(dòng)了。如果大家還記得,和李世石下棋時(shí),第四盤棋我們輸?shù)煤軕K。當(dāng)時(shí)我坐在李世石對(duì)面,要幫AlphaGo下那幾步棋,明顯知道那些下法是初學(xué)者的錯(cuò)誤,要擺棋很痛苦,甚至?xí)X得我來下都比AlphaGo來得好。雖然我們最終贏了,但這一盤棋確實(shí)有很大的弱點(diǎn),如果五盤棋內(nèi),有20%的錯(cuò)誤率,這樣的AI系統(tǒng),你敢用嗎?所以我們決定,一定要把這個(gè)弱點(diǎn)解決掉,不只是解決第四盤的問題,是要把AlphaGo項(xiàng)目全面解決。

 

后來過了三個(gè)月,我們就把弱點(diǎn)解掉了。怎么做到的?還是采用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的方法,并不是用人類知識(shí)的方法。第一,我們加強(qiáng)AlphaGo的學(xué)習(xí)能力,所謂學(xué)習(xí)能力就是把網(wǎng)絡(luò)程度加深,從第一篇論文的13層加深到40層,而且是改成ResNet。第二個(gè)改變是,把策略網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)結(jié)合,讓AlphaGo的直覺和判斷一起訓(xùn)練,使兩者更有一致性。這個(gè)解決后的版本,就是Master。

 

我那段時(shí)間一直說服團(tuán)隊(duì),要帶Master上線下棋測(cè)試棋力,不要等到Master完全無敵后才下棋。2016年年底,我回到臺(tái)灣,當(dāng)時(shí)特別低調(diào),在線上中文圍棋網(wǎng)站奕城和野狐申請(qǐng)了帳號(hào),偷偷當(dāng)職業(yè)棋士下棋。12月29號(hào)開始,我關(guān)在自己的房間里測(cè)試Master,一盤棋下一小時(shí),一早下三盤棋,然后吃飯,下午繼續(xù),晚上吃完飯?jiān)倮^續(xù),非常累,到晚上眼睛都張不開。

 

我還記得一開始在奕城下棋,沒人要跟經(jīng)驗(yàn)值為零的我對(duì)弈,直到第二天邀約才陸續(xù)上門,到了第三天,還愈來愈多人觀看。那時(shí)壓力很大,很怕自己點(diǎn)擊錯(cuò)誤或是網(wǎng)絡(luò)連線斷掉,AlphaGo不能因?yàn)槲叶數(shù)舭ⅰ?/span>

 

我到現(xiàn)在還是很感謝那些曾經(jīng)和Master對(duì)弈的棋手。原本想低調(diào)比賽,但后來沒辦法,確實(shí)是每一盤都贏、每一盤贏的都是巨大的優(yōu)勢(shì)。這當(dāng)中,柯潔算是唯一一位可以跟AlphaGo比賽堅(jiān)持最久的。

 

AlphaGo Zero只用三天走過人類的千年歷程

 

在Master之后,我們研究分出兩條線,一條是讓Master出去比賽,由我來測(cè)試,另一條線,則是把所有人類知識(shí)拿掉,從零開始學(xué)習(xí),看AlphaGo Zero可以達(dá)到什么程度。

 

我們?cè)诔跗陬A(yù)設(shè)AlphaGo Zero絕對(duì)不可能贏Master。圍棋被研究了幾千年,一個(gè)程序只知道棋盤和規(guī)則,一切從零開始,怎么可能會(huì)超越幾千年的圍棋歷史?但我們錯(cuò)了,40天的訓(xùn)練后,AlphaGo Zero超越了Master,我們非常意外,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的威力太大了。

 

AlphaGo Zero是從亂下開始,找出圍棋的下法,它只用了三天,走過了人類研究圍棋的千年歷程。這也是有趣的地方,人類幾千年的累積,跟科學(xué)研究是一致的。

 

AlphaGo Zero前后訓(xùn)練了 40 天,但第 40 天還沒有到達(dá)其極限,因?yàn)槲覀儥C(jī)器要做其他事情就先停下了。今年四月,我們也發(fā)表了AlphaGo Zero的論文,這篇論文的目的,沒有想要跟人類知識(shí)比較、或是討論人類知識(shí)有沒有用等問題,而是想證明機(jī)器不需要人類知識(shí)也可以擁有很強(qiáng)的能力。

 

我認(rèn)為,未來的人工智能,是要與人類合作,而非跟人類對(duì)抗。強(qiáng)人工智能距離我們?nèi)允沁b遠(yuǎn),而現(xiàn)在最強(qiáng)的學(xué)習(xí)技能,其實(shí)仍在我們的腦袋里。