CloseAI提示您:看後求收藏(134. 給你們來一個七定王,重生之AI教父,CloseAI,試讀吧),接著再看更方便。
請關閉瀏覽器的閱讀/暢讀/小說模式並且關閉廣告遮蔽過濾功能,避免出現內容無法顯示或者段落錯亂。
相對於計算機在國際象棋中的勝利,中國象棋的智慧程式進展一直落後。
這倒不是中國象棋要比國際象棋難之類的原因,而是因為棋類智慧對於大公司來說畢竟只是一種公關手段,沒有實際上的營收價值。
“深藍”取得國際象棋的勝利之後,許多人都認為計算機下棋這事已經差不多到頭了,
繼續去搞難度差不多的中國象棋費力不討好,IBM也解散了“深藍”團隊。
唯有圍棋確實難度上要高很多,並且很具有挑戰性。
一般人們都認為,計算機要在圍棋中取勝比在國際象棋等遊戲中取勝要困難得多,因為圍棋的棋盤太大,下棋點極多,分支因子遠多於其他遊戲。
並且每次落子對情勢的好壞飄忽不定,天堂地獄就在一瞬之間,技術很成熟之後,人們經常可以觀察到那種一手棋下掉AI系統百分之六七十勝率的情況。
可以說是“一著不慎滿盤皆輸”的最好演繹了。
諸如暴力搜尋法、Alpha-beta剪枝、啟發式搜尋的傳統人工智慧方法在圍棋中很難奏效。
不過圍棋在西方沒什麼受眾,主要熱度還是在東亞三國,因此很長一段時間內沒有太多人願意花時間在這件事情上,這十幾年的發展速度中規中矩。
DeepMind投入在這件事情上,很大程度也是機緣巧合。
一方面許多高層都熱愛棋類,另一方面可能更加關鍵,DeepMind的核心成員,兩位首席科學家之一的黃士傑在圍棋智慧上有著很深的積澱和情懷。
黃士傑的碩士論文是《計算機圍棋的打劫策略》,博士論文是《應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演演算法》。
相比孟繁岐這種畢業了連本科專業知識都全忘了的人,黃博士可以說專業是非常對口了。
“其實現在的圍棋智慧已經有了一定的競爭力。”黃博士為孟繁岐介紹了一下現階段圍棋智慧的棋力:“差不多最高才在業餘五段左右的水平,如果不讓字的話,和真正的職業選手對弈,毫無勝算。”
基本的圍棋棋力劃分孟繁岐還是大概清楚的,業餘六段大約可以與職業初段水平相比擬。
黃士傑博士本人就是寶島業餘六段,算得上是職業水準守門員了。
倘若自己造出的智慧程式能夠穩定佔據上風,自己完全下不過的話,基本上象徵著圍棋智慧來到了真的職業水準。
而不是隻能透過讓3-4子這樣的方式擊敗職業棋手。
並且,如果造出來的智慧下不過自己,這件事情屬實沒什麼意思。
“你們目前的想法和策略大概是什麼樣的。”大概聊了一些情況之後,孟繁岐將話題切入了具體的演算法部分。
從理論上來說,圍棋問題的輸入和孟繁岐非常擅長的影象類其實很像。
彩色圖片在計算機中的形式就是多通道矩陣,通常為3通道,代表三原色。
比如,一張解析度為224x224的圖片,就是以三個[224,224]矩陣的形式進行儲存。
一般來說,每個位置的取值在0~255之間。
對於圍棋這個情況來說,它的輸入就像是一個19x19的單通道圖片。
19x19表示棋盤上所有的落子地點,而每個地點的取值就只有三種狀態,黑,白,無子。
可以用[-1,0,1]三個數字來指代。
而圍棋智慧的目標,所謂的下棋。
如果不考慮其中原理的話,它的外在反饋其實就是給定這樣一個[19,19]的棋盤,希望程式可以在上面僅改變一個無子的數字0到給定的棋子型別(數字-1或者1),同時使得該方獲勝的機率儘可能地變大。
“棋盤就是一副黑白的單通道解析度為19的影象。”這個事情在普通人看來比較不會想到。
不過對於比較熟悉影象技術和深度神經網路的孟繁岐來說,是很自然的事情和概念。
“我們從深度神經網路的突破中獲得了靈感,在2012年底的AlexNet之前,瘋狂石頭這款圍棋智慧提供的準確率是最高的,達到35%左右。
目前主要是在研究,如何使用深度神經網路使得圍棋智慧的判斷更加精準。
Alex和你引領的深度神經網路在分類問題上有了驚人的突破,這是我們今年啟動這個專案的一大原因。
我們目前在嘗試收集大量的專業對弈棋譜,目前已經有了十多萬場比賽的內容。而從這十萬多場比賽當中,又可以抽離出上百萬個單次落子。
透過這個資料,我們現階段在確立合適的網路結構,在這個方面,我想你是專家中的專家。”
“我大概瞭解了。”孟繁岐聽完之後基本明白了DeepMind現階段的想法和進展情況。
雖然此前黃博士在圍棋AI專案上有過很多研究,但阿爾法圍棋專案畢竟才剛剛開始,同時也是基於全新的深度網路技術。
目前為止,他們還沒有形成一整套的學習以及對抗的思路,那一套策略網路-評估網路-強化學習-蒙特卡洛搜尋的總體結構還沒有成型。
還停留在比較早期的階段,甚至還沒有最後決定到底使用怎樣的網路結構比較好,此時正在對模型本身的結構進行測試和設計。
“這方面確實是我比較擅長的方向,尤其最近,我在CPU和小模型的設計上有一些想法,這些內容應該會對你們有一定的幫助。”
要說各種裝置和各種型別的任務,網路用什麼運算元比較好,速度和效能怎麼取捨,即便再往後五年,孟繁岐都是當之無愧的第一人。
因為他熟知的那些取捨和結論,都是後來谷歌這樣的大平臺NAS(網路結構搜尋)的實驗結果。
所謂NAS,其實就是一種窮舉對比的方式。
在特定的資料集上,把所有想得到想不到的運算元組合用窮舉的形式全都特麼的測試一遍。
最後得出的網路結構,當然會比人類自己設計的要好要快,不過換一個差距很大的資料未必好用。
獲取這個答案的代價是相當驚人的,隨著搜尋空間的增大,顯然需要非常恐怖的計算資源去支撐。
好在孟繁岐已經將幾個大公司上萬張顯示卡,數年時間測試出來的主要結論全都白嫖了。
這個知識的價格成本,恐怕不止十數億美金。
“那實在太好了。”見孟繁岐一口答應在阿爾法狗的網路設計上提供幫助,黃博士喜笑顏開,“我們現階段除了需要快速迭代對比確定網路結構之外,沒有什麼特別大的困難。”
“如果非要說的話,就是缺少一個職業守門員級別的人類棋手。”黃博士想了想,補充道。
他自己業餘六段,其實可以擔當此任。
可他畢竟太過了解圍棋AI,起到的測試效果可能不夠真實,並且他也很忙,不可能一直負責對弈測試。
同時,歐美那邊圍棋的熱度也並不高,樊麾二段就曾經多次奪得歐美圍棋冠軍,職業守門員級別測試員不是那麼好找。
“這個沒關係,我二月份會去一次英國,跟你們確認一下效果和後續的思路。”孟繁岐聞言笑了笑:“到時候給你們找一個守門員中的守門員。”
要說的職業守門員水平的棋手,想必沒有誰比已經連續定段了七年,今年正在第八次對職業棋手這個身份發起衝擊的七定王戰鷹,更加適合的了吧?
這門都守了第八回了。
本章未完,點選下一頁繼續閱讀。