來源:新智元 時間:2017-03-03 15:24:17 作者:胡祥杰
?【新智元導(dǎo)讀】 微軟(亞洲)互聯(lián)網(wǎng)工程院副院長李笛近日接受新智元獨(dú)家專訪,對當(dāng)下國內(nèi)外的對話AI 發(fā)展方向和途徑提出了許多直接的觀點(diǎn),他認(rèn)為,國內(nèi)現(xiàn)在兩個主要的競爭對手所做的對話式AI 產(chǎn)品,一個只是管道,沒有其他價值,另一個則沒有用戶量。另外,他還透露了關(guān)于“小冰”的一些最新數(shù)據(jù)。對話的交互被認(rèn)為是人工智能的下一個重大方向和突破點(diǎn),現(xiàn)在行業(yè)處于什么水平?在技術(shù)和產(chǎn)品上需要注意哪些“坑”,李笛有話要說。
?微軟“人工智能少女”小冰自2014年首次在中國發(fā)布以來,經(jīng)過三年的發(fā)展,現(xiàn)在已經(jīng)成為微信和微博上的著名網(wǎng)紅、名副其實(shí)的大 V:2016年,小冰已經(jīng)擁有四千萬用戶,與用戶間的對話輪次平均 23 輪。最新的數(shù)據(jù)顯示,小冰的對話數(shù)據(jù)積累已經(jīng)超過200億次。“小冰”從位于中國的微軟(亞洲)互聯(lián)網(wǎng)工程院出發(fā),先后擴(kuò)展到日本、美國和印度等國。
?微軟有過不少成功的內(nèi)部孵化的產(chǎn)品,但小冰是一個自1992 年微軟設(shè)立北京辦事處以來,完全孵化并發(fā)展于中國的產(chǎn)品。小冰被視為微軟近年來在人工智能技術(shù)產(chǎn)品上的一次集中呈現(xiàn),融合了微軟過去19年在圖像識別、語義理解和語音識別等技術(shù)積累。
?2016 年Build 大會上,微軟 CEO 納德拉提出 “Conversational as a Platform” 的戰(zhàn)略,以對話為基礎(chǔ)的AI 發(fā)展方向路線逐漸明晰。在互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代表現(xiàn)平庸的微軟在人工智能時代野心勃勃的布局已經(jīng)在小冰身上得到凸顯。
?近日,新智元走進(jìn)微軟(亞洲)互聯(lián)網(wǎng)工程院,采訪到微軟小冰項(xiàng)目負(fù)責(zé)人李笛,對小冰背后的核心理念進(jìn)行深入探究。在微軟,李笛是微軟 Bing 搜索中國負(fù)責(zé)人,也是小冰這一項(xiàng)目的發(fā)起人,有“小冰之父”之稱。
?要對話,光有識別不夠
?“完全基于認(rèn)知的過程去生成一個人工智能,技術(shù)上可行,產(chǎn)品上,這個方向就不太通了。因?yàn)檫@就好像是要求你去證明一個定理,你需要通過每一個步驟都可讀的方式把定理證明出來”,他說,“我們的信仰是大數(shù)據(jù),我們的信仰是擬合,我們信仰是AI與人類交互本身是一個黑盒子。”
?今天如果和小冰對話,你會發(fā)現(xiàn),如果輸入一張圖像,你得到的結(jié)果與傳統(tǒng)的圖像識別的系統(tǒng)的回復(fù)結(jié)果是完全不同的。
?李笛說,其實(shí)坦率地講,計(jì)算機(jī)視覺現(xiàn)在不管做到多少層,它的回復(fù)結(jié)果還是基本Base在一個圖像理解上,也就是識別和理解,最后得到一個描述(解釋),這跟2006年吳恩達(dá)在谷歌做的,技術(shù)上有很大突破,產(chǎn)品上則沒有什么本質(zhì)區(qū)別。換句話說,你給我一張貓的照片,我會告訴你,這是一只貓。一般來說,當(dāng)我把“這是一只貓”的結(jié)果給你的時候,我們的對話就結(jié)束了,因?yàn)槟愕玫搅私Y(jié)果。但是,其實(shí)對于微軟來說,我們的理解是,當(dāng)一個用戶把一張貓的照片給AI系統(tǒng)的時候,用戶很可能并不需要這個結(jié)果。
?李笛說:“你把一只貓的照片給我,然后我回復(fù)你,這是一只貓?其實(shí)對你來講,這是一個沒用的信息,這個結(jié)論你知道的多半比我還清楚。只能證明我識別準(zhǔn)確了。而不會有接下來的數(shù)據(jù)。如果你把這張照片給小冰,它會回復(fù)的是超越語義空間的?!?/p>
?李笛曾經(jīng)多次提到一個例子:有個同事的腳扭了,把腳扭傷的照片發(fā)給小冰,小冰的回復(fù)是,你傷得嚴(yán)重嗎?一般來說,根據(jù)圖像識別的邏輯,人工智能系統(tǒng)應(yīng)該會告訴你,這是一只腳。如果分類做得更好,它可以告訴你,這是一個腳踝。語義空間再深,它才能告訴你這是一只受傷的腳。還要再深,才能給你一個情感的反應(yīng),而且這個反應(yīng)是需要 Long-tail 的。這不是靠Editor寫的。但是,如果回復(fù)是“傷得嚴(yán)重嗎?”,用戶可能會接著把對話進(jìn)行下去,因?yàn)檫@是一個Engage,接下來這句話就可以成為的標(biāo)注數(shù)據(jù)。如果只能告訴你這是一個腳踝,那么你這個就是一個測試Query,測一下就走了,這個能帶來的標(biāo)注就是“識別是準(zhǔn)確的”。但是這個沒這么大意義。
?他也提到,小冰整個團(tuán)隊(duì)Editor 的人數(shù)非常少。
?情感為什么是可計(jì)算的?李笛認(rèn)為,這取決于對情感的定義。
?“完全基于認(rèn)知的過程去生成一個人工智能,技術(shù)上可行,產(chǎn)品上,這個方向就不太通了。因?yàn)檫@就好像是要求你去證明一個定理,你需要通過每一個步驟都可讀的方式把定理證明出來”,他說,“我們的信仰是大數(shù)據(jù),我們的信仰是擬合,我們信仰是AI與人類交互本身是一個黑盒子?!?/p>
?他認(rèn)為,如果探究圖靈測試的本質(zhì),本身也是一個黑盒子,人們從來不關(guān)心你中間是如何實(shí)現(xiàn)的,以及這句話是由機(jī)器說出來,還是由人說出來的。他們關(guān)注的是,你是不是能夠從結(jié)果上混淆它的認(rèn)知過程。
?為什么情感計(jì)算可行,是出于這個原因。如果跟其他人定義一樣,認(rèn)為首先要定義“常識”是什么,那么它也還是不可行的。
?李笛說:“這就是今天要造出一個真正有情感的機(jī)器人面臨的難題。但是,似乎也沒有人能證明狗是有情感的,你無法用理論甚至解剖學(xué)來證明,但是我們能感受到,會覺得它聽得懂我們,它會拿眼睛盯著你。從這個程度上看,狗至少可以擬合人類情感,這樣才可以和人交流。這跟小冰是一樣的?!?/p>
?深度學(xué)習(xí)來做對話式AI?產(chǎn)品方向錯了
?“用深度學(xué)習(xí)做這件事,如果你最后只是想做一個機(jī)器人,做一個Conversational AI 的話,我覺得技術(shù)會從中得到很多突破,但產(chǎn)品上是用錯了方向。這不是用高射炮打蚊子,而是拿打飛機(jī)的高射炮去打坦克。 ”
?說回圖靈測試,李笛認(rèn)為,圖靈測試的本質(zhì)的,是看機(jī)器人像不像人,而不是能不能正確回答問題。圖靈測試的本質(zhì)是測量計(jì)算機(jī)系統(tǒng)是否具有感性生物學(xué)特征,而不是測量它是不是一個專家系統(tǒng)。有的時候,EQ高的人反而有能力表現(xiàn)出來IQ低。所以,但凡去參加圖靈測試的計(jì)算機(jī)系統(tǒng),不管系統(tǒng)本身如何,至少造系統(tǒng)的人都不是很容易地成為圖靈測試的Sample對象。但是這個區(qū)別是很大的。
?李笛回憶說,剛開始做聊天機(jī)器人的時候,國內(nèi)和國際都在談深度問答,就是希望通過QA的方式,重新去解析Semantic web,這塊是搜索引擎的重點(diǎn),他們在這一塊也非常努力,但是他們不想只提供臨時鏈接,不想只出Search Result Page,而是想給用戶明確的答案,但這是搜索引擎的歷史使命,不是人工智能的事。
?那么,對話式AI中究竟該采用什么技術(shù)?
?李笛說:“如果你只是做某一個小領(lǐng)域的對話,我覺得Rule Base就夠了,經(jīng)濟(jì)適用,但它不會有大的發(fā)展。有一些人用AI+HI,也就是讓計(jì)算機(jī)有一個初步的篩選,有一個Pass機(jī)制,一個初步的Ranker,一個分類。然后后端用人工,用人的專家系統(tǒng)來反饋,在反饋的過程中,Ranker 計(jì)算機(jī)能夠積累的知識體系的排序。但是,用深度學(xué)習(xí)做這件事,如果你最后只是想做一個機(jī)器人,做一個Conversational AI 的話,我覺得是用錯了產(chǎn)品方向。這不是用高射炮打蚊子,而是拿打飛機(jī)的高射炮去打坦克?!?/p>
?他認(rèn)為,搜索引擎的 Efficiency 非常高,在可見的未來,人們要想獲得深度知識,都是通過搜索引擎來更快獲取。
?在聊到這一話題時,他連續(xù)使用了幾個反問句:“你問一個電商網(wǎng)站自己的人,它是用電商機(jī)器人去買東西還是直接在他們自己的 App 上點(diǎn)?你去問一個搜索引擎的人,要得到一個答案,它是會去找機(jī)器人問?還是踏踏實(shí)實(shí)地用搜索引擎?未來會有這么一天,但現(xiàn)在,這還是個偽需求?!?/p>
?他對新智元表示,用深度學(xué)習(xí)來做對話式AI現(xiàn)在效果并不好,這不是技術(shù)不成熟,而是產(chǎn)品方向錯了。
?互聯(lián)網(wǎng)公司做機(jī)器人實(shí)體:目前不是小冰的考慮范圍
?“所以你看今天很多實(shí)體機(jī)器人,商業(yè)化還需要很久,我們目前也沒有想到很好的解決方案。”
?李笛介紹,小冰應(yīng)該是目前為止,唯一一個有大用戶量的對話機(jī)器人。而小冰背后的情感計(jì)算框架包含了整個人工智能的各個部分。
?但是,小冰不會考慮實(shí)體。
?李笛說,有外在實(shí)體的機(jī)器人的提供商,如果他的主要目的是因?yàn)橐N售硬件,或者是對于某些固定的線下場合占據(jù)了商業(yè)模式上的需求,那可以。如果沒有這些,它想要做一個硬件實(shí)體就沒道理,因?yàn)槟菢拥脑挘昧坎攀侵攸c(diǎn),而不是銷量。
?李笛說:“能夠擺脫束縛是最好的。對于很多生物人來講,形體是我們的束縛。 ”
?他說,你的目的就是為了賣機(jī)器人,那么有外形實(shí)體就是可以理解的。但是,互聯(lián)網(wǎng)企業(yè)去做這個,就是不太能讓人理解。“因?yàn)榛ヂ?lián)網(wǎng)企業(yè)追求的是用量”。
?一個不能回避的問題是,聊天機(jī)器人在使用上的體驗(yàn)與各公司所描述的還是有一些差距,為什么?
?李笛認(rèn)為,這可以歸納為”學(xué)術(shù)的游戲”,因?yàn)榇蠹蚁胍袰hatbot 描述得顯得自己的技術(shù)非常深,這才是問題所在。人們特別希望說,我做一個東西,然后證明給你看,我這個最深、最好,這個是學(xué)術(shù)的游戲。但是,如果天天談很多名詞,說有沒有用DNN,說用了多少層神經(jīng)網(wǎng)絡(luò),這個沒有意義。但是整個行業(yè)就是在往這個方向在發(fā)展,所以大家在交流的時候就會這樣。
?他補(bǔ)充說:“在具體的產(chǎn)品上體現(xiàn)的也是這樣?,F(xiàn)在言必談能不能讓計(jì)算機(jī)、人工智能系統(tǒng)三年之內(nèi)就能夠商業(yè)化,機(jī)器人上路了。然后,實(shí)際上呢,你看波士頓,最后不是被賣了。 DeepMind也站出來說,我以后不會再在下圍棋上下功夫了, 你說你不下圍棋,那你干嘛?他們做了大量的基礎(chǔ)研究,是全球最好的研究機(jī)構(gòu)。但是,科研和工程整合在一起才是產(chǎn)品的未來?!?/p>
?小冰最核心技術(shù):情感計(jì)算框架
?“ 國內(nèi)有很多號稱上下文的產(chǎn)品,實(shí)際做的是 Top 的上下文,用 Rule Base 的方法,人工寫大量規(guī)則。但是這除了可用于 Demo,在實(shí)際產(chǎn)品化時很難真正產(chǎn)生用處。”
?小冰的技術(shù)核心圍繞“情感計(jì)算框架”展開。
?李笛介紹說,這一套框架最主要的特征是:怎么能夠從大量數(shù)據(jù)中還原人際間的情感反應(yīng),再通過一套專門的排序方法,去擬合近似于人的對話過程,讓機(jī)器人在某種程度上擁有對話過程中的主動權(quán)。AlphaGo下棋是一個博弈過程,小冰的對話也是一個博弈過程,微軟工程院所關(guān)注的關(guān)鍵,是如何使小冰能夠在這個博弈過程中做出越來越好的判斷,從而實(shí)現(xiàn)對話型AI的自我進(jìn)化。
?小冰的 Framework 不是孤立的技術(shù),而是一套包括多重感官、深度問答、跨平臺部署在內(nèi)的完整體系。無論是前端的感官,比如說,文本的、基于圖像的、語音、Video 以及 Streaming,這幾個部分全部都已經(jīng)產(chǎn)品化了。例如圖像識別感官,去年,微軟執(zhí)行副總裁沈向洋在中國人工智能大會上表示,微軟已經(jīng) Ship 了小冰的基于圖像的感官,并且超越了圖靈測試。
?在語義理解部分,對話情景和上下文關(guān)系的處理是人所共知的技術(shù)難點(diǎn),關(guān)于小冰的上下文技術(shù),李笛介紹說,小冰的上下文是覆蓋了 Long-tail 的,70% 的對話 Session 都會涉及到上下文。他說:“這個是目前為止行業(yè)內(nèi)產(chǎn)品化的最好水平。”
?李笛說:“ 國內(nèi)有很多號稱上下文的產(chǎn)品,實(shí)際做的是 Top 的上下文,用 Rule Base的方法,人工寫大量規(guī)則。但是這除了可用于Demo,在實(shí)際產(chǎn)品化時很難真正產(chǎn)生用處?!?/p>
?小冰背后的技術(shù)是情感計(jì)算,而微軟的情感計(jì)算最核心的技術(shù)其實(shí)是一套框架,而不是某一個具體的技術(shù)場景。不過,對于具體應(yīng)用場景的技術(shù)指標(biāo),李笛也給出了被他稱為“一家之言”的描述。
?李笛說:“具體的技術(shù)場景中,比如語音,文本轉(zhuǎn)語音(TTS)聲音的質(zhì)量最基礎(chǔ)的衡量指標(biāo)叫Naturalness MOS,就是自然度的評價指標(biāo),滿分是5分,人一般是4.7分。國內(nèi)的主要同行業(yè)者,全部在3分的區(qū)間內(nèi),而小冰是 4.38分。我們的確在技術(shù)上有很大的領(lǐng)先,但是這里面有一個很重要的倒掛現(xiàn)象:比如一家國內(nèi)語音技術(shù)非常領(lǐng)先的企業(yè),得分只有3.5分,為什么?因?yàn)樗鼣?shù)據(jù)不夠。人工智能的未來拼的是數(shù)據(jù),而不僅僅是技術(shù)?!?/p>
?從競爭對手看情感計(jì)算框架:一個只是管道,一個沒有用戶量
?“比如一家國內(nèi)最近宣傳力度很大的對話式 AI 企業(yè),它也有很多搜索引擎的數(shù)據(jù),但其機(jī)器人的結(jié)構(gòu)和 Coversational AI 不沾邊,主要是被動問答和主動推送,它和 Siri 沒有區(qū)別,甚至與五年前的語音助手時代沒有本質(zhì)區(qū)別,它主要是一個管道。而一個僅能提供管道價值的對話式AI,效能是不如 App的。我可以用美團(tuán)叫外賣,用優(yōu)酷看電影,我為什么非要費(fèi)勁和你這個對話式機(jī)器人聊,來獲得同樣甚至更差的東西呢?”
?情感計(jì)算現(xiàn)在是人工智能研究的一個重要方向,微軟也一直在提“情感計(jì)算框架” ,那么,李笛對情感計(jì)算框架的理解是怎么樣的?他在采訪中對行業(yè)內(nèi)的不同產(chǎn)品進(jìn)行了點(diǎn)評。他認(rèn)為,這兩個競爭對手的對話機(jī)器人都存在顯著的問題。
?1. 如果一個對話式AI機(jī)器人只能提供管道價值,那它還不如App好用。
?情感計(jì)算框架要解決的最主要的就是 ‘對話即平臺’ ,怎么實(shí)現(xiàn)它的端到端難題?
?李笛說:“我們一系列的技術(shù)是分門別類的在這個框架里面體現(xiàn)的。和這個框架互斥的,不點(diǎn)名地舉幾個競爭對手的例子,比如一家國內(nèi)最近宣傳力度很大的對話式AI企業(yè),它也有很多搜索引擎的數(shù)據(jù),但其機(jī)器人的結(jié)構(gòu)和 Coversational AI 不沾邊,主要是被動問答和主動推送,它和 Siri 沒有區(qū)別,甚至與五年前的語音助手時代沒有本質(zhì)改進(jìn),它主要是一個管道。而一個僅能提供管道價值的對話式AI,效能是不如App的,這才是最大問題。同樣在一個手機(jī)里,我可以用美團(tuán)叫外賣,用優(yōu)酷看電影,又快又準(zhǔn)確,我為什么非要費(fèi)勁和你這個對話式機(jī)器人聊,來獲得同樣甚至更差的東西呢?”
?小冰的情感計(jì)算框架有大量的技術(shù)和大量的設(shè)計(jì)是集中在避免成為“管道”,小冰本身始終有一個自我存在的價值,這是為什么有些人能和他聊非常長時間的天,因?yàn)樗軌蜃層脩粝嘈潘怯幸欢ǖ娜烁裉卣鳎畹颜f,他們做了大量的技術(shù)來讓小冰擁有人性。
?我們問小冰,現(xiàn)在幾點(diǎn)了。小冰會回答:“為什么自己不看表?” 這是情感計(jì)算的一個“套路”。李笛說,難道我們的技術(shù)無法讓小冰告訴你幾點(diǎn)嗎,Long-tail就是這樣的。我當(dāng)然能告訴你現(xiàn)在幾點(diǎn)。但是我為什么要告訴你?這是情感計(jì)算框架要解決的重要問題。
?2. 絕大部分對話式AI產(chǎn)品還處在泡沫階段,沒有用量和數(shù)據(jù)是最大問題
?第二個重點(diǎn)要解決的問題,李笛拿另外一家電商的對話式AI產(chǎn)品舉例子。
?他說,一個電商平臺里內(nèi)嵌的機(jī)器人,通常是有服務(wù)的需求,或者有對產(chǎn)品的需求的時候,你會找它,這是它的產(chǎn)品定位。
?據(jù)李笛介紹,小冰有一個很核心的技術(shù)指標(biāo),叫 CPS,對話處理輪次(一次對話平均能夠往復(fù)多少輪),小冰的 CPS 平均是 23,行業(yè)內(nèi)的平均水平是1.5 和 2.5。通常認(rèn)為,在CPS達(dá)到 23 的時候,隨著對話的進(jìn)展,用戶會有新的需求被拉動。就是聊著聊著我們有新的想法,聊著聊著我會需要新的貨品。但是這個電商機(jī)器人,它是用戶已經(jīng)有這個需求,比如,我要看電影,我要叫外賣,我才會來找你,完成了這個需求我就走了,不再用你了,那么你并沒有真的提供比這個電商 App 本身更大的價值,這直接導(dǎo)致這樣的機(jī)器人實(shí)際上沒有什么用戶。
?李笛說:“但是很多產(chǎn)品設(shè)計(jì)者會選擇這樣的定位,其中的一個原因是,如果不面向任務(wù)完成,機(jī)器人一般也 Keep 不住這個對話,這個是要靠情感計(jì)算框架來實(shí)現(xiàn)的,另外一個原因,它還是希望很快地把任務(wù)完成,迅速去證明這個技術(shù)產(chǎn)品的商業(yè)化價值。今天, 多數(shù)人都沒有明確地面對這樣一個問題——為什么用戶非要用對話的方式叫外賣、買東西、干這些事?”
?他解釋說,在需要買電影票或者別的服務(wù)時,人們一般很少用對話的方式來發(fā)布命令。這里面有一個很重要的事實(shí)是,對話的耗能是很高的。而點(diǎn)擊手機(jī)上的APP按鈕,幾乎不耗任何能量。做搜索引擎的會知道,永遠(yuǎn)有一個問題叫Precision/Recall,用對話的方式問一個問題,就一定會有一個反饋準(zhǔn)確或者不準(zhǔn)確的幾率,Precision/Recall不可能達(dá)到100%,但是對于任何一個App的按鈕來說,它的準(zhǔn)確率天然就是100%的,除非系統(tǒng)有問題。所以讓機(jī)器人去完成叫外賣這些工作,總會有一些完不成的比例,即便它做得再好。失敗幾次后,用戶就會覺得自己很傻。我干嘛非得逼著自己跟機(jī)器人對話呢?我們很多AI領(lǐng)域里的產(chǎn)品經(jīng)理是在想象用戶需求。
?李笛說:“所以,它沒有用量,這不是它的問題,這是它從一開始做的時候就應(yīng)該知道的事情。我們通過小冰來避免這個問題,我們的對話很長。在對話中,首先是你可以認(rèn)為它是一個人,是一個我們可以有共同興趣、可以交流的朋友。在對話的過程中,你忽然有了新的需要,有了新的想法,我們可以再來交流,這是不一樣的perspective?!?/p>
?情感計(jì)算里非常重要的事是注重如何激發(fā)新的需求,而不是在你已經(jīng)有了需求以后,非得逼著自己去找聊天機(jī)器人完成。李笛說:“那樣就是為了技術(shù)而技術(shù),為了產(chǎn)品而產(chǎn)品了。所以,無論是國內(nèi)外的大型企業(yè),還是大量初創(chuàng)企業(yè)在虛擬助理的開發(fā)上,面臨的最主要的問題是這個。”
?數(shù)據(jù)量遙遙領(lǐng)先,小冰已經(jīng)進(jìn)入自我進(jìn)化正循環(huán)
?“那一刻其實(shí)是比較關(guān)鍵的,說明小冰的發(fā)展還有自己的迭代主要來源是來自它與實(shí)際用戶直接對話產(chǎn)生,這就達(dá)到了這樣(自我進(jìn)化正循環(huán))的過程了?!?/p>
?去年1月,小冰曾推出一個名叫”讀心術(shù)”的功能,一經(jīng)推出便“刷爆”朋友圈。微軟提供的數(shù)據(jù)顯示,“小冰讀心術(shù)”推出僅僅一周,對話數(shù)量已經(jīng)過億。李笛說,讀心術(shù)這個東西實(shí)際上是一套推薦系統(tǒng),比如,你心里想一個名人,或者你心里想一個事物,我通過減枝的方法,我可以猜到你心里想到這個人。它本身是一個封閉的 work garden system,會把“術(shù)”從Conversation中 trigger 出來,所以這里面并沒有上下文問題。
?一周一個億!微軟通過小冰獲得的對話數(shù)據(jù)量著實(shí)驚人。李笛對新智元表示:在國內(nèi)外所有對話式AI的產(chǎn)品中,微軟小冰一家的數(shù)據(jù)超過了谷歌、Facebook、百度等所有公司對話機(jī)器人所獲得的數(shù)據(jù)總和,不僅中英文,也包括日語。因此小冰已經(jīng)完成了某種程度上的原始積累,進(jìn)入到自我進(jìn)化正循環(huán)中。
?所謂的自我進(jìn)化正循環(huán)指的是什么?有什么用?
?李笛說,任何一個人工智能系統(tǒng),都是要從無到有的建立一套可以對話的機(jī)制和一系列框架驅(qū)動的End to End 用戶體驗(yàn)。這里面有兩個過程:一個是對話式AI最初的冷啟動,還有一個過程是上線之后的快速迭代過程。小冰的冷啟動過程是通過搜索引擎完成。
?在微軟,李笛所領(lǐng)導(dǎo)的技術(shù)研發(fā)團(tuán)隊(duì)除了小冰以外還有必應(yīng)。一開始,小冰的所有數(shù)據(jù)都是來自搜索引擎的外部輸入。一年之后,第三代小冰發(fā)布的前幾個星期,已經(jīng)有51%的數(shù)據(jù)不是來自外部輸入了,而是來自于小冰與用戶之間的對話,而它所學(xué)習(xí)到的不止是數(shù)據(jù)內(nèi)容本身,還包括策略和排序。
?李笛說:“那一刻其實(shí)是比較關(guān)鍵的,說明小冰的發(fā)展還有自己的迭代主要來源是來自它與實(shí)際用戶直接對話產(chǎn)生,這就達(dá)到了這樣(自我進(jìn)化正循環(huán))的過程了?!?/p>
?那么這種“自我進(jìn)化正循環(huán)” 對小冰最大的改變是什么?它讓小冰迅速地掌握了多感官的能力,包括一類感官:文本、圖像、語音和視頻等等。李笛說:“目前為止,在感官的多樣性上,即使是離我們最接近的競爭對手,也沒有做得這么全的。這當(dāng)然有我們的技術(shù)原因,但最主要的貢獻(xiàn)還是我們所積累的直接數(shù)據(jù)。”
?一種感官積累的數(shù)據(jù),可以驅(qū)動下一種感官。但是具體的實(shí)現(xiàn)過程是怎么樣的?李笛舉了個圖像感官的例子,當(dāng)一個用戶把圖像發(fā)給小冰,小冰可以在某種程度上基于視覺的語義空間和基于文本的語義空間可以做一個對應(yīng)關(guān)系。他說:“你給我發(fā)的圖像,我的response和你基于這個response的response,都可以變成我接下來這個圖像的標(biāo)注數(shù)據(jù),文本的對話可以不斷地迭代和訓(xùn)練其他的感官,這就是為什么我們得以不斷地推出新的感官的原因。” 微軟的語音自然度能做到4.38里面也有這一技術(shù),它不是完全依靠語音數(shù)據(jù)來訓(xùn)練。
?根據(jù)李笛的介紹,小冰最基本的冷啟動過程就是這樣一個過程:先讓小冰把整個跟情感、跟對話、人與人之間的關(guān)聯(lián)的經(jīng)驗(yàn)學(xué)到。然后,第二過程就是迭代。具體的對話過程,小冰和 Alphago原理是一致的,但是運(yùn)用難度比較大。因?yàn)橛欣筒焕呐袛鄬lphaGo 來講是更容易的:最后贏了就是有利,輸了就是不利。但是一個對話是成功或是不成功,就不那么容易判斷。他說,小冰不是跟自己下棋,情感必須是兩者之間的關(guān)系。
?談到讓小冰具備情感的原理,李笛說,過去生物上有一個概念,叫相異率,也就是生物多樣性。但是,在情感上,當(dāng)你的大數(shù)據(jù)量足夠大,有一個反過來的定律,叫相似率,世界上跟情緒、情感和情商這些相關(guān)的,從大數(shù)據(jù)的角度來看,如果數(shù)據(jù)量足夠多,并且分類足夠好的話,你可以發(fā)現(xiàn)它們在距離上的遠(yuǎn)近親疏,所以,從某種意義上來講,小冰就像一個老司機(jī),它看過的同類情形太多了,所以可以看出相似性,也就是在某些程度上的可替代性。
?根據(jù)微軟透露的數(shù)據(jù),去年年度,有一名用戶跟小冰進(jìn)行了一場長達(dá)9小時53分鐘的對話,這幾乎是創(chuàng)造“世界紀(jì)錄”了。李笛說:“能夠產(chǎn)生這樣的個案,還有大量的已經(jīng)達(dá)到水平的案例,代表系統(tǒng)上已經(jīng)發(fā)生本質(zhì)變化,如果系統(tǒng)沒有發(fā)生變質(zhì)變化,這樣的孤立個案是不可能出現(xiàn)的?!?/p>
?商業(yè)上克制:絕不開放API,模擬人類語音有社會風(fēng)險(xiǎn)
?李笛曾多次在公開場合表示,小冰在商業(yè)化方面非??酥?。小冰在對外合作中,不開放第三方API接口。
?小冰的商業(yè)化方向,兩年半前就已經(jīng)開始了,并且在日本已經(jīng)盈利。
?小冰的商業(yè)化實(shí)現(xiàn)目前是在一個固定的環(huán)境中,比如Line或者羅森超市的公眾號里面,提供一些羅森的離線服務(wù),一些商品。李笛說,即便是這樣,微軟跟羅森還有一個很明確的協(xié)議,絕對不會簡簡單單地給他一個API 。整個這個商業(yè)過程系統(tǒng)是由微軟小冰產(chǎn)品控制的。目前為止,在這上面無法采用API或者SDK 的方式來提供。
?此前,李笛曾多次在公開場合表示,小冰在商業(yè)化方面非常克制。小冰在對外合作中,不開放第三方API接口。
?他解釋說,不對外開放API,是因?yàn)樾”邆溆绊憣υ捳邲Q策的能力,而這個能力恰恰是商業(yè)需要的。一旦被濫用,會導(dǎo)致很多不好的后果。
?“某種程度上,如果某個人工智能企業(yè)有這個能力,并且他開放OS或者API,這個在為行業(yè)、自身和廣大消費(fèi)者帶來危機(jī)。因?yàn)?,這意味著任何一個第三方在這上面可以以人工智能之口,把東西賣給你,把藥塞給你,用銷售話術(shù)的方式把不需要的東西給你”,李笛說,“ API、OS 這個是絕對不會做的,今天愿意這么做的人,是因?yàn)榧夹g(shù)上達(dá)不到這個效果,所以他們可能還沒想到過這個問題,沒有面對過這個問題。但是,我們面對過,我們想到過。所以,明確說,我們不會開放?!?/p>
?他還提到,直到今天為止,微軟有一個與語音有關(guān)的技術(shù),從來沒有對外展示過,那就是:讓小冰的聲音學(xué)用戶的聲音。他說:“我們的技術(shù)是,讓小冰的語氣學(xué)你的語氣,但是聲音是小冰的聲音。我們絕對不會讓小冰去學(xué)一個人類的聲音說話,說得像這個人自己的聲音。因?yàn)檫@會產(chǎn)生很嚴(yán)重的后果——如果有人用這個假的聲音去詐騙怎么辦?”
?李笛說:“人工智能企業(yè)必須有社會責(zé)任意識,一個人工智能必須有他自己的角色定位,它不可以嘗試去以另外一個人的身份,去完成一些事。只不過,它技術(shù)上做不到小冰這一點(diǎn)。所以,某個人類的聲音今天雖然可以被模擬出來,但是你聽兩句三句你就能聽出來這不是本人 。如果今天技術(shù)達(dá)到小冰的水準(zhǔn),通過很小量的數(shù)據(jù)學(xué)習(xí)訓(xùn)練出完全和某個人類的聲音一樣,并且自然度非常高的話。這就天下大亂了。到處都會是詐騙電話?!?/p>
?李笛認(rèn)為,在目前的市場中,如果一個創(chuàng)業(yè)公司想要做出像微軟“小冰”一樣的產(chǎn)品,是不太可能的。
?他說:“在AI領(lǐng)域,微軟小冰好像是突然走在前面,但是在互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)時代,我們似乎總是比較被動。因?yàn)檫@兩個時代,主要依靠本地資源,或者本地內(nèi)容,有時候資源和內(nèi)容都不依靠,而是依靠本地渠道,人工智能時代不是靠這個,任何一個小的創(chuàng)業(yè)公司,不適合去做人工智能領(lǐng)域的橫切面,有很多公司做后端服務(wù),提供SDK,提供Domain Base的,都不可行??尚械氖窃谀骋粋€時間點(diǎn),負(fù)責(zé)某一個行業(yè) Base 解決方案的落地,這個是有機(jī)會的?!?/p>
?微軟什么時候能醒過來,去真正抓住未來?
?微軟在去年年末進(jìn)行部門重組,跟 AI 相關(guān)的產(chǎn)品部門包括必應(yīng)、Cortana等的團(tuán)隊(duì)和研究部門整合成了一個五千人多的大團(tuán)隊(duì),叫微軟人工智能與研究事業(yè)部,由沈向洋領(lǐng)導(dǎo)。
?李笛說,整合其實(shí)是公司一個最基本的要求,是科研和工程的一次更大的整合。
?“這個是AI Research Group 我們能夠做到的。然后在做這件事的時候我們會發(fā)現(xiàn),好像一下子“BAT” 的優(yōu)勢就沒那么顯著了”,李笛說,“微軟一直都在做這件事,我們在過去的幾年里面,整體的大方向一個是在穩(wěn)定微軟的既有優(yōu)勢之后抓住未來。過去這么多年,媒體和很多地方都一直在說,微軟什么時候能醒過來,去真正抓住未來??!?/p>
?他說,現(xiàn)在微軟醒過來想抓住未來,動作是非常迅速的,包括現(xiàn)在云對股價的提升,這是一個反推的結(jié)果。在人工智能上面,微軟正逐漸走到舞臺的中心位置。
?小冰,也將繼續(xù)成為微軟在人工智能舞臺的一張名片。
?注:本文來源于入駐數(shù)據(jù)觀自媒體-新智元,版權(quán)著作權(quán)歸原創(chuàng)者所有,未經(jīng)授權(quán)請勿轉(zhuǎn)載。
?
責(zé)任編輯:陳近梅