MBA評(píng)論：最強(qiáng)的學(xué)習(xí)技能在人類的腦袋里

來源：中國(guó)MBA網(wǎng)
時(shí)間：2017-11-28 18:27:37
點(diǎn)擊數(shù)：次

2025MBA報(bào)考測(cè)評(píng)申請(qǐng)中......

說明：您只需填寫姓名和電話即可免費(fèi)預(yù)約！也可以通過撥打熱線免費(fèi)預(yù)約
我們的工作人員會(huì)在最短時(shí)間內(nèi)給予您活動(dòng)安排回復(fù)。

導(dǎo)讀：沒有人會(huì)否認(rèn)，AlphaGo在過去一年炒熱全球?qū)θ斯ぶ悄艿年P(guān)注。

沒有人會(huì)否認(rèn)，AlphaGo在過去一年炒熱全球?qū)θ斯ぶ悄艿年P(guān)注。

2016年3月，谷歌Deepmind旗下的圍棋程序AlphaGo，以4比1的成績(jī)戰(zhàn)勝韓國(guó)職業(yè)棋手李世石。一年后，拿掉所有人類知識(shí)、完全靠自學(xué)的AlphaGo Zero，在今年10月又以100比0的戰(zhàn)績(jī)碾壓“AI前輩”AlphaGo。從擊敗人類、到自學(xué)成材，AlphaGo的進(jìn)展超乎預(yù)期，研發(fā)團(tuán)隊(duì)也自然成為關(guān)注焦點(diǎn)。這當(dāng)中，被稱為AlphaGo的“人肉手臂”，替AlphaGo向棋圣聶衛(wèi)平說“謝謝聶老師”的黃士杰(Aja Huang)，就是AlphaGo發(fā)展的重要推手。

上周五(11月10日)在臺(tái)灣中研院舉辦的“2017年人工智慧年會(huì)”上，黃士杰首次把AlphaGo的研發(fā)過程公開說清楚，除了透露新一代AlphaGo Zero的能力還沒達(dá)到極限，他更多的是去分享身為一名科學(xué)家，旁觀機(jī)器的進(jìn)步，以及一個(gè)科學(xué)團(tuán)隊(duì)對(duì)基礎(chǔ)研究的使命和專注。

以下是編輯后的演講摘錄：

AlphaGo的研發(fā)過程，有四個(gè)時(shí)刻對(duì)我影響很大。

第一，是我們?cè)陧n國(guó)贏了李世石。當(dāng)我們開始做AlphaGo時(shí)，沒想到它會(huì)變得那么強(qiáng)。在韓國(guó)贏了李世石后，DeepMind首席執(zhí)行官Demis Hassabis立刻發(fā)了一個(gè)推特，說“我們登上月球”(We landed it on the moon.)。我明白Demis那天的感覺，這是我們團(tuán)隊(duì)的一小步，但卻是人類的一大步。

第二個(gè)時(shí)刻，是我在網(wǎng)絡(luò)上操作AlphaGo升級(jí)版“Master”，下了60盤棋。我從小喜歡下棋，在臺(tái)灣是業(yè)余六段。Master在網(wǎng)絡(luò)上對(duì)弈的對(duì)象，都是我從小崇拜的人。雖然不是我真正在下棋，但卻感到非常榮幸。

第三個(gè)時(shí)刻，是今年在烏鎮(zhèn)進(jìn)行的人機(jī)大戰(zhàn)，由我操作AlphaGo和世界冠軍柯潔九段下棋?？聺嵾€不滿20歲，非常年輕，當(dāng)天比賽氛圍和李世石對(duì)弈時(shí)很不同。我記得在韓國(guó)比賽，能感受到李世石承受到很大的壓力，感覺他是在為人類而戰(zhàn)。我當(dāng)時(shí)坐在他對(duì)面，也盡量保持謹(jǐn)慎的態(tài)度，不喝水、不去上洗手間。但到了第二次和柯潔對(duì)弈，比較像是人機(jī)合作的氣氛，柯潔還走過來說：“黃博士，很榮幸跟AlphaGo下棋”，坦白說我有點(diǎn)驚訝。這也讓我們知道，如果Master是無敵的，那機(jī)器存在價(jià)值到底在哪里?應(yīng)該是要幫助棋手?jǐn)U張思路、擴(kuò)展圍棋理論。

第四次對(duì)我意義重大的時(shí)刻，是AlphaGo Zero的出現(xiàn)。什么是AlphaGo Zero?我們拿掉所有人類對(duì)圍棋的知識(shí)，只喂AlphaGo Zero圍棋規(guī)則，讓它自己學(xué)習(xí)下棋。我回想起讀博士班的熬夜日子，就是不斷寫代碼、找bug，每天做測(cè)試，讓程序進(jìn)步。但AlphaGo Zero把我過去的所有東西全部取代，它完全不需要我的幫助。有同事問我，Aja，AlphaGo Zero把你這十幾年來對(duì)圍棋計(jì)算機(jī)的研究，一點(diǎn)一點(diǎn)的拿掉，甚至還超越你，有什么感覺?我的確心情復(fù)雜，但后來跟同事說，這會(huì)是一個(gè)趨勢(shì)，如果我阻礙了AlphaGo，我確實(shí)應(yīng)該被拿掉(笑)。AlphaGo有99%的知識(shí)是我做的，AlphaGo能走到這一步，我已經(jīng)很滿足，找到了收尾。

AlphaGo是怎么開始的?

回到一開始，AlphaGo到底是怎么開始的?起點(diǎn)是有三組人馬的聚集：Deepmind首席執(zhí)行官Demis Hassabis與AlphaGo項(xiàng)目領(lǐng)導(dǎo)David Silver、我、還有兩位谷歌大腦(Google brain)的同事Chris Maddison和Ilya Sutskever。

Demis和David原本是劍橋大學(xué)的同學(xué)，友情深厚。對(duì)西方人來說，當(dāng)1997年IBM超級(jí)電腦“深藍(lán)”贏了西洋棋棋王卡斯巴羅夫之后，就只剩下流傳幾千年的中國(guó)圍棋，是人工智能發(fā)展的極大挑戰(zhàn)。一開始，很多研究人員想把研究西洋棋的技術(shù)移到圍棋上，但都失敗了。在2006年蒙特卡洛樹搜索出來后，研究才提升一階，讓機(jī)器棋手的水平能達(dá)到業(yè)余三段，但離職業(yè)棋士一段還有距離。Demis和David心中開始藏有一個(gè)夢(mèng)，希望有一天要能做出一個(gè)很強(qiáng)的圍棋程式。

但有夢(mèng)的不只有他們，故事的另一條線還有我。

在就讀臺(tái)灣師范大學(xué)資訊工程博士班時(shí)，我每天埋頭解bug、寫代碼，就是希望做一個(gè)很強(qiáng)的圍棋程序。2010年，我研發(fā)出的圍棋計(jì)算機(jī)程序Erica(事實(shí)上是用我妻子的名字來命名)，在計(jì)算機(jī)奧林匹亞獲得 19 路圍棋的冠軍。雖然Erica只是單機(jī)版，但它打敗了用了6臺(tái)PC的日本程序Zen跟其他參賽者，就像小蝦米對(duì)抗大鯨魚。當(dāng)年還在英國(guó)當(dāng)教授的David，在比賽后寫信問我有沒有興趣加入Deepmind，隔年我也正式加入團(tuán)隊(duì)，成為第40號(hào)員工。

我還記得當(dāng)年面試，老板問我，能做出Erica有什么感覺?我回答，滿有成就的。Demis點(diǎn)頭，他明白我的感覺。

2014年，Google收購(gòu)Deepmind，AlphaGo項(xiàng)目也正式浮現(xiàn)。Demis起初還在教書、還不是全職員工，就常三不五時(shí)走過來跟我討論圍棋項(xiàng)目的想法。真的要開始時(shí)，我們其實(shí)都已經(jīng)有些準(zhǔn)備。

既然決定要做圍棋項(xiàng)目，當(dāng)時(shí)我和Demis有一個(gè)共識(shí)，就是絕對(duì)不要復(fù)制Erica。Erica其實(shí)有它的極限，最勉強(qiáng)的就是達(dá)到業(yè)余三段，繼續(xù)復(fù)制的意義不大。我們想做不一樣的事，希望能運(yùn)用到深度學(xué)習(xí)的原理。過了幾個(gè)月，團(tuán)隊(duì)又增加了兩個(gè)人，包括深度學(xué)習(xí)之父以及帶動(dòng)深度學(xué)習(xí)革命的研究者。

我們?cè)趺磁袛嗌疃葘W(xué)習(xí)可能應(yīng)用到圍棋?如果人類可以一看棋盤就知道下哪一步會(huì)是好棋，那么神經(jīng)網(wǎng)絡(luò)也可能辦得到這種"直覺"。但如果人類得想五分鐘才能給出答案，神經(jīng)網(wǎng)絡(luò)可能辦不到。一開始，我們訓(xùn)練AlphaGo從人類的棋譜去學(xué)習(xí)人類的直覺。我還記得第一次測(cè)試神經(jīng)網(wǎng)絡(luò)，沒想到能表現(xiàn)得那么好，百分之百對(duì)戰(zhàn)都不會(huì)輸，是一種碾壓式的勝利。

AlphaGo第二個(gè)突破的是價(jià)值網(wǎng)絡(luò)。我記得當(dāng)David跟我說他有這樣一個(gè)點(diǎn)子時(shí)，我還質(zhì)疑，這會(huì)成嗎?當(dāng)我們把策略網(wǎng)絡(luò)(Policy Network)做出來后，最強(qiáng)的程式可以達(dá)到70%到80%的勝率，算得上是世界最強(qiáng)的。但老板的目標(biāo)不只于此，我們又繼續(xù)找人、繼續(xù)擴(kuò)充團(tuán)隊(duì)。

這過程其實(shí)很辛苦，嘗試很多，譬如網(wǎng)絡(luò)要多深、要用什么架構(gòu)?數(shù)據(jù)庫(kù)有沒有問題?最終檢驗(yàn)的，還是看AlphaGo有沒有變強(qiáng)。過了一個(gè)月之后，我們找到了問題并且解決掉，我仍然記得，舊版AlphaGo配上價(jià)值網(wǎng)絡(luò)產(chǎn)生的新版AlphaGo，第一次的實(shí)驗(yàn)結(jié)果是達(dá)到95%的勝率，棋力非常強(qiáng)。可以這么說，AlphaGo的成功就是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利，因?yàn)閮烧呓Y(jié)合在一起，建構(gòu)判斷形式的價(jià)值網(wǎng)絡(luò)(Value Network)，后來也成為AlphaGo Zero的主要理論。

當(dāng)價(jià)值網(wǎng)絡(luò)出來后，Demis希望我們能與歐洲職業(yè)一段棋手進(jìn)行比賽。當(dāng)下，我除了要做價(jià)值網(wǎng)絡(luò)，還要研究平行網(wǎng)絡(luò)搜索技術(shù)，Demis走過來說要比賽，我只想著：真的那么有信心嗎?

后來我們與歐洲圍棋冠軍樊麾進(jìn)行比賽，最終以5比0獲勝，這結(jié)果其實(shí)也很不可思議。我記得樊麾輸了第二盤棋后，想出去走走，會(huì)說中文的我，原本想去陪他，他揮揮手，“不用，我自己出去透透氣。”

難能可貴的是，樊麾是第一個(gè)被AI打敗的職業(yè)棋士，但他的態(tài)度非常正面。樊麾在第五盤棋雖然認(rèn)輸了，但他對(duì)AI并沒有感到害怕，后來甚至也加入了團(tuán)隊(duì)，幫忙測(cè)試AlphaGo。

當(dāng)時(shí)要把AlphaGo研究投稿到科學(xué)期刊《自然》(Nature)也是另一段有趣的故事。我們那時(shí)剛弄出價(jià)值網(wǎng)絡(luò)、剛打敗樊麾，正準(zhǔn)備要挑戰(zhàn)韓國(guó)職業(yè)棋手李世石九段，Demis為什么又要我們另外花時(shí)間去寫論文，而不是準(zhǔn)備比賽?為什么現(xiàn)在就要我們把研究秘密全部公開?

Demis給了我一個(gè)很有意思的答案。他認(rèn)為，我們是在做研究，科學(xué)的精神就是要互相分享，我們要推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。也因?yàn)橐獙懻撐耐陡?，和《自然》編輯也事先談好，在出版之前，我們不能和任何人說AlphaGo打敗了樊麾。那幾個(gè)月，所有人都憋著不講，當(dāng)論文刊登之后，才正式向李世石九段提出挑戰(zhàn)。

至于后來AlphaGo和李世石的比賽，大家也都知道了。

這邊要特別提到的是，TPU(Tensor Processing Unit，谷歌的高性能處理器)在研究過程中對(duì)我們有極大的幫助。自從Deepmind加入Google后，我認(rèn)為Google給我們最大的幫助，就是提供了硬件設(shè)備。我還記得當(dāng)時(shí)有一個(gè)GPU(圖形處理器)版本，代碼完全一樣，但改用TPU之后，勝率變得強(qiáng)太多。

而AlphaGo的故事也還沒結(jié)束。

就在我們打敗李世石后，很多人認(rèn)為AlphaGo項(xiàng)目是不是不動(dòng)了。如果大家還記得，和李世石下棋時(shí)，第四盤棋我們輸?shù)煤軕K。當(dāng)時(shí)我坐在李世石對(duì)面，要幫AlphaGo下那幾步棋，明顯知道那些下法是初學(xué)者的錯(cuò)誤，要擺棋很痛苦，甚至?xí)X得我來下都比AlphaGo來得好。雖然我們最終贏了，但這一盤棋確實(shí)有很大的弱點(diǎn)，如果五盤棋內(nèi)，有20%的錯(cuò)誤率，這樣的AI系統(tǒng)，你敢用嗎?所以我們決定，一定要把這個(gè)弱點(diǎn)解決掉，不只是解決第四盤的問題，是要把AlphaGo項(xiàng)目全面解決。

后來過了三個(gè)月，我們就把弱點(diǎn)解掉了。怎么做到的?還是采用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的方法，并不是用人類知識(shí)的方法。第一，我們加強(qiáng)AlphaGo的學(xué)習(xí)能力，所謂學(xué)習(xí)能力就是把網(wǎng)絡(luò)程度加深，從第一篇論文的13層加深到40層，而且是改成ResNet。第二個(gè)改變是，把策略網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)結(jié)合，讓AlphaGo的直覺和判斷一起訓(xùn)練，使兩者更有一致性。這個(gè)解決后的版本，就是Master。

我那段時(shí)間一直說服團(tuán)隊(duì)，要帶Master上線下棋測(cè)試棋力，不要等到Master完全無敵后才下棋。2016年年底，我回到臺(tái)灣，當(dāng)時(shí)特別低調(diào)，在線上中文圍棋網(wǎng)站奕城和野狐申請(qǐng)了帳號(hào)，偷偷當(dāng)職業(yè)棋士下棋。12月29號(hào)開始，我關(guān)在自己的房間里測(cè)試Master，一盤棋下一小時(shí)，一早下三盤棋，然后吃飯，下午繼續(xù)，晚上吃完飯?jiān)倮^續(xù)，非常累，到晚上眼睛都張不開。

我還記得一開始在奕城下棋，沒人要跟經(jīng)驗(yàn)值為零的我對(duì)弈，直到第二天邀約才陸續(xù)上門，到了第三天，還愈來愈多人觀看。那時(shí)壓力很大，很怕自己點(diǎn)擊錯(cuò)誤或是網(wǎng)絡(luò)連線斷掉，AlphaGo不能因?yàn)槲叶數(shù)舭ⅰ?/span>

我到現(xiàn)在還是很感謝那些曾經(jīng)和Master對(duì)弈的棋手。原本想低調(diào)比賽，但后來沒辦法，確實(shí)是每一盤都贏、每一盤贏的都是巨大的優(yōu)勢(shì)。這當(dāng)中，柯潔算是唯一一位可以跟AlphaGo比賽堅(jiān)持最久的。

AlphaGo Zero只用三天走過人類的千年歷程

在Master之后，我們研究分出兩條線，一條是讓Master出去比賽，由我來測(cè)試，另一條線，則是把所有人類知識(shí)拿掉，從零開始學(xué)習(xí)，看AlphaGo Zero可以達(dá)到什么程度。

我們?cè)诔跗陬A(yù)設(shè)AlphaGo Zero絕對(duì)不可能贏Master。圍棋被研究了幾千年，一個(gè)程序只知道棋盤和規(guī)則，一切從零開始，怎么可能會(huì)超越幾千年的圍棋歷史?但我們錯(cuò)了，40天的訓(xùn)練后，AlphaGo Zero超越了Master，我們非常意外，深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的威力太大了。

AlphaGo Zero是從亂下開始，找出圍棋的下法，它只用了三天，走過了人類研究圍棋的千年歷程。這也是有趣的地方，人類幾千年的累積，跟科學(xué)研究是一致的。

AlphaGo Zero前后訓(xùn)練了 40 天，但第 40 天還沒有到達(dá)其極限，因?yàn)槲覀儥C(jī)器要做其他事情就先停下了。今年四月，我們也發(fā)表了AlphaGo Zero的論文，這篇論文的目的，沒有想要跟人類知識(shí)比較、或是討論人類知識(shí)有沒有用等問題，而是想證明機(jī)器不需要人類知識(shí)也可以擁有很強(qiáng)的能力。

我認(rèn)為，未來的人工智能，是要與人類合作，而非跟人類對(duì)抗。強(qiáng)人工智能距離我們?nèi)允沁b遠(yuǎn)，而現(xiàn)在最強(qiáng)的學(xué)習(xí)技能，其實(shí)仍在我們的腦袋里。

責(zé)任編輯：Liuyu

社科賽斯官方微信

社科賽斯官方微博

相關(guān)熱詞搜索： MBA MBA資訊 MBA動(dòng)態(tài)資訊

【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息發(fā)郵件至[email protected]，我們將及時(shí)溝通與處理。本站內(nèi)容除非來源注明社科賽斯，否則均為網(wǎng)絡(luò)轉(zhuǎn)載，涉及言論、版權(quán)與本站無關(guān)。

相關(guān)文章：