來源:THU數據派 時間:2017-07-17 15:23:17 作者:
朱軍博士是清華大學計算機系長聘副教授、智能技術與系統國家重點實驗室副主任、卡內基梅隆大學兼職教授。2013年,入選IEEE Intelligent Systems的“人工智能10大新星”(AI’s 10 to Watch)。他主要從事機器學習研究,在國際重要期刊與會議發(fā)表學術論文80余篇。擔任國際期刊IEEE TPAMI和Artificial Intelligence的編委、國際會議ICML 2014地區(qū)聯合主席、以及ICML、NIPS等國際會議的領域主席。
清華大學計算機系長聘副教授朱軍
近日,朱軍博士接受了CSDN的專訪,采訪中分享了目前最新的研究進展,深度學習與傳統機器學習如何融合發(fā)揮最大作用,成為優(yōu)秀青年科學家的必備特質,以及在CCAI 2017上的分享與籌備工作。
7月22-23日,中國人工智能大會(CCAI 2017)將于杭州國際會議中心舉行,朱軍將作為“人工智能青年論壇”共同主席主持會議,歡迎青年學者到現場參與討論。
深度學習 VS. 傳統機器學習
CSDN:在深度學習“盛行”的大環(huán)境下,如何看待相對來說比較傳統機器學習(如支持向量機、貝葉斯學習、決策樹等)?
朱軍:這個問題可以從兩個方面來看:
首先,深度學習不是萬能的,它雖然在特定任務上取得了顯著性能提升,但也面臨著很多挑戰(zhàn),比如:對抗樣本的魯棒性、可解釋性、處理不完全信息與不確定環(huán)境等,隨著應用范圍的擴大,深度學習不擅長解決的問題會逐漸明顯,未來肯定會有更好的機器學習方法出現,或許還叫“深度學習”也可能是其他的名字。
其次,深度學習不是孤立的,它的進展與所謂的“傳統機器學習”是分不開的,不能把功勞都歸于“深度學習”,例如:用于保護深度神經網絡避免過擬合的Dropout技術實際是一種貝葉斯學習方法,用于AlphaGO的深度神經網絡需要在強化學習框架下發(fā)揮作用等。
因此,學術界和工業(yè)界都應該更客觀地看待深度學習,它的優(yōu)點可以與其他機器學習方法共融,比如已經取得很多進展的貝葉斯深度學習、深度產生模型(如GAN)等。同時,它的缺點也需要從其他方向尋求改善,比如:我們最近從信息論的角度出發(fā),設計了一種新的訓練準則和測試準則,可以顯著提升深度神經網絡(如CNN,VGG,ResNet)對對抗樣本的魯棒性;另外,我們與清華大學的劉世霞老師合作,研制了CNNVis和DGMTracker可視化系統,它們綜合利用了信息可視化與圖形學的工具,對深度模型的學習過程進行解釋,幫助調試。
CSDN:對于“有了生成模型之后,引入深度學習就能解決統計學習的核心問題(如模型復雜度的選擇、泛化性能的理論保證、學習效率等)”的觀點你怎么看?
朱軍:這個問題也要從兩個方面來看待:
首先,生成模型通常要引入假設,在假設符合實際的情況下,這種模型是最優(yōu)的,可以提升學習效率和泛化性能。
其次,也是因為假設,如果假設不符合實際,這種模型可能帶來偏差。實際應用中,還需要對模型進行檢驗。
CSDN:去年參加CCAI 2016的AAAI主席Rao Kambhapati認為中國學者基本都在研究機器學習,范圍有點窄,你是否認同中國人工智能研究存在這樣的誤區(qū)?除了機器學習之外,還有哪些領域或者哪些問題是值得我們關注的?
朱軍:機器學習受到很多關注是有一定道理的。作為實現現代人工智能的主要技術途徑(之一),機器學習的目標是從經驗數據中不斷改善性能,它的作用在大數據時代變得更加明顯。目前,機器學習已經成為很多應用領域的首選技術方案。
但是,人工智能的其他方向也同樣重要,而且在國內也正在受到很多的關注,比如自然語言理解、模式識別、知識工程、機器人,甚至是從腦科學尋求啟發(fā)的嘗試等。目前,可能是因為機器學習已經融入到這些方向中,才給人一種“到處都是機器學習”的感覺。但是,每種方法都有優(yōu)點和缺點,學術界和工業(yè)界都需要鼓勵多樣性。比如:數據驅動的方法(如深度學習)往往需要大量的訓練數據,而知識驅動的方法(如貝葉斯方法)可以在小樣本下進行有效學習,二者具有互補的優(yōu)勢,它們的有機融合是當前的一個熱點。
關于珠算平臺
CSDN:請談談你近期的研究課題和進展,以及目前關注的研究和應用情況。
朱軍:我們近期主要關注貝葉斯方法與深度學習的融合。我們的最近工作包括建模、學習算法和平臺,在無監(jiān)督、半監(jiān)督等學習任務上取得了一些進展。為了有效支持這方面的研究,我們研發(fā)了珠算(http://zhusuan.readthedocs.io),它提供了一個Python編程庫,能夠便捷地實現貝葉斯深度學習的建模和推理。同樣在貝葉斯框架下,我們對不確定、不完全信息環(huán)境下的決策也非常感興趣,最近也做了一些博弈論的工作,包括即將發(fā)表在ICML上的文章。另外,如上所說的,我們也在提升深度學習的魯棒性和可解釋性方面做了一些積極嘗試。
我們所做的機器學習工作,研發(fā)的算法和平臺(如珠算)通常都是開源的,工業(yè)界可以使用。另外,我們也與一些公司合作,針對具體應用開發(fā)特定的機器學習技術。
CSDN:能否概述你的團隊基于貝葉斯深度學習構建的“珠算”有哪些創(chuàng)新之處?適用于哪些領域?目前有哪些比較好的應用案例?
朱軍:首先,珠算是一個概率編程的庫,用戶在上面可以很容易地實現貝葉斯深度學習的模型和推理,就像在TensorFlow上寫一個神經網絡一樣便捷。貝葉斯深度學習是一個前沿方向,它的基本框架是概率圖模型(貝葉斯網絡),融合了深度神經網絡在可學習的函數擬合方面的長處。和確定性的深度神經網絡(如CNN)比,它的主要優(yōu)點在于可以刻畫不確定性(如噪聲、信息不完整、隨機過程),進行推理和決策。
其次,珠算上支持的應用已經有很多,比如無監(jiān)督學習、半監(jiān)督學習、貝葉斯學習等。我們在珠算上已經實現了目前主要的模型,如變分自編碼器(VAE)、生成對抗網絡(GAN)、主題模型、貝葉斯神經網絡等,以及最好的概率推理算法。用戶可以直接使用這些模型,也可以便捷地實現自己的模型。
最后,珠算在技術上也有很多創(chuàng)新,與TensorFlow很好地融合在一起。我們正在整理文章,很快將會公布技術細節(jié)。
CSDN:“珠算”選擇構建在TensorFlow之上,其中有什么故事可以分享?
朱軍:我們做珠算的主要目的是希望能夠通過開源社區(qū),支持大規(guī)模貝葉斯深度學習的概率編程,讓這個前沿方向的科研和實踐變得更容易。
我們考察過不同的平臺,選擇TensorFlow是有一些原因的。首先,TensorFlow已經有龐大的社區(qū),并且展示出成為通用計算圖框架的潛力。建立在TensorFlow之上有利于融入當前的生態(tài)系統。其次,TensorFlow計算圖(computation graph)支持的操作(operation)種類遠多于其他框架,能夠最大程度滿足概率編程的需求。最后,Tensorflow是少數支持多機多卡的分布式計算圖框架,非常適合做為大規(guī)模貝葉斯深度學習的基礎設施。
如何成為優(yōu)秀的青年科學家
CSDN:成為人工智能領域優(yōu)秀的青年科學家,你認為需要具備哪些特質?
朱軍:科研是一個長期的過程,需要興趣和堅持,同時,對問題要形成自己的認知和選擇?,F在是人工智能、機器學習發(fā)展快速的時期,是好事也可能是壞事,太快的進展容易讓人失去定力,追逐一些容易出成果的“熱點”。隨大流雖然能發(fā)很多文章,但是,很難形成自己的系統性工作。因此,有些時候需要“少做”,才能選擇重要的問題集中精力去做。
CSDN:就你自己而言,理論扎實,成果豐富,能否介紹是哪些因素對你今天的成績起到了關鍵的作用,是時代機遇,個人堅持,前輩指導,同行交流,還是其他?
朱軍:有很多因素。正如前面所說的,首先是要有興趣,愿意投入精力去學習和鉆研。其次要能夠堅持,遇到困難不回避,能夠主動思考解決的辦法。只有通過思考得到的東西才是屬于自己的。最后,要善于向前輩和同行學習,別人的觀點可能是啟發(fā)思路的火種。
CSDN:你介紹過一些工作在付出很多努力之后不得不中止,所以說選擇方向很重要,這方面有哪些心得可以分享?
朱軍:越是創(chuàng)新性高的科研工作,它的不確定性也會越高,導致結果有時會與預期相差甚遠。但是,一個失敗的探索過程也是有價值的,它至少告訴你哪些路是不可行的。選擇了大方向以后,可以大膽嘗試,遇到困難或挫折是很正常的,不用氣餒。
CSDN:CMU博士后研究的經歷給你最大收獲是什么?如何理解國內外環(huán)境的差異?以目前的情況來看,你對青年是否要出國深造有什么建議?
朱軍:博士后是一個過渡階段,從科研和教學兩個方面,都為后來的清華任教打下了好的基礎。CMU有最好的學術環(huán)境、非常友好的同事和朋友,給我的幫助很大,我自己也在嘗試借鑒CMU的經驗指導學生。
目前,國內外的差異已經越來越小了,信息的不對稱也在逐漸消失,國內的機會也很多。最近,我也很高興看到有很多CMU的朋友陸續(xù)回國工作,這和幾年前我回國時的情形完全不同,當時我們甚至開玩笑說我是先回國給大家探路的。因此,我覺得每個人可以根據自己的情況選擇是否出國深造,盲目跟隨應該會成為過去式。
CSDN:你如何理解和處理科研與教學二者的關系?
朱軍:清華非常注重教學。我認為如果能平衡好二者的關系,教學與科研是可以相輔相成的。科研做的好能夠幫助教學,對一個領域的深入理解能夠將課堂上講的知識點融合貫通,形成有機整體,而不是生硬式的拼湊。同時,教學的過程也能幫助系統地整理學科知識,加深理解,有時也能激發(fā)科研想法。
在CCAI 2017上的分享與籌備工作
CSDN:作為 CCAI 人工智能青年論壇的共同主席,對于組織這一論壇,你的出發(fā)點是什么?本次論壇將主要圍繞哪些內容展開?希望為聽眾解決哪些問題?
朱軍:隨著數據和計算資源的增加,以及算法的改進,以深度學習為代表的現代人工智能技術正在越來越多的領域中獲得應用和發(fā)展,并已經在一些特定領域取得顯著進展,包括圖像識別、語音識別、電腦游戲等。
但是,隨著應用范圍的擴展和復雜化,人工智能仍然面臨著多方面的挑戰(zhàn),包括魯棒性、可解釋性、安全性、隱私保護等等。
目前,人工智能獲得顯著進展的領域通常需要大量的訓練數據,如何發(fā)展對訓練樣本更高效的人工智能技術是很多場景下要解決的關鍵問題;另外,如何在信息不完全、不確定的非結構化環(huán)境下進行高效學習和決策也是未來要解決的重要問題。該論壇將探討人工智能領域的前沿進展和未來趨勢,嘉賓們將通過分享自己的觀點、與聽眾互動,解答聽眾關心的問題。
CSDN:你是從哪幾個維度來組織嘉賓陣容的?由此構建起的人工智能青年論壇將有哪些獨特之處?
朱軍:該論壇盡量覆蓋人工智能的多個方面。邀請的嘉賓有學術界和工業(yè)界的優(yōu)秀代表,也有優(yōu)秀的女性科學家代表。另外,嘉賓的背景也具有很好的代表性、多樣性。希望該論壇能夠給聽眾帶來最前沿的思想碰撞。
責任編輯:陳近梅