国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁 自媒自媒體 THU數(shù)據(jù)派正文

對(duì)話【友盟+】李丹楓:每天處理百億級(jí)事件,超大量級(jí)數(shù)據(jù)場(chǎng)景下數(shù)據(jù)團(tuán)隊(duì)如何健康運(yùn)轉(zhuǎn)?

  “數(shù)據(jù)對(duì)于數(shù)據(jù)科學(xué)家來說是非常重要的,甚至比算法還重要。要知道,再好的模型都是靠數(shù)據(jù)養(yǎng)的。因此在數(shù)據(jù)應(yīng)用層面,我認(rèn)為中國比美國更有優(yōu)勢(shì)?!?/p>

  曾供職于雅虎,微軟,F(xiàn)ICO等多家領(lǐng)先科技公司,【友盟+】CDO李丹楓感慨到。

  大數(shù)據(jù)發(fā)展的下半場(chǎng),意識(shí)到數(shù)據(jù)重大價(jià)值的不止李丹楓,而在數(shù)據(jù)產(chǎn)業(yè)中,爭(zhēng)奪數(shù)據(jù)話語權(quán)的無聲戰(zhàn)爭(zhēng)也正愈演愈烈。2016年1月,友盟、CNZZ和締元信三家各自擁有本行業(yè)大批量數(shù)據(jù)的公司合并,組成了新的公司【友盟+】,而新生的【友盟+】數(shù)據(jù)體量遂之倍增到中國乃至全球矚目。

  驟然增多的數(shù)據(jù)量一方面讓【友盟+】在眾多的數(shù)據(jù)服務(wù)提供商中,獲得了天然的數(shù)據(jù)體量優(yōu)勢(shì),另一方面,數(shù)據(jù)的合并和數(shù)據(jù)團(tuán)隊(duì)重新定位整合也給管理層帶來了前所未有的挑戰(zhàn)。就大公司內(nèi)部的數(shù)據(jù)治理與整合、數(shù)據(jù)產(chǎn)品和數(shù)據(jù)團(tuán)隊(duì)的重構(gòu)等話題,我們與李丹楓進(jìn)行了深度對(duì)話。

  每天處理約280億事件

  高數(shù)據(jù)體量下,如何定義和實(shí)現(xiàn)高效計(jì)算?

  合并后的【友盟+】數(shù)據(jù)體量到底有多大呢?

  李丹楓稱,合并后,【友盟+】覆蓋的用戶行為數(shù)據(jù)打通了PC、手機(jī)、傳感器、無線路由器等多種設(shè)備。用數(shù)據(jù)具象展現(xiàn):

  【友盟+】覆蓋125萬個(gè)APP;

  每天監(jiān)測(cè)14億移動(dòng)設(shè)備;

  每天監(jiān)測(cè)680萬個(gè)網(wǎng)站;

  每天處理的事件數(shù)約280億。

  面對(duì)如此龐大的數(shù)據(jù)量,李丹楓坦言:第三方數(shù)據(jù)量級(jí)太大、覆蓋面太廣。面對(duì)全面打通的數(shù)據(jù),【友盟+】的數(shù)據(jù)團(tuán)隊(duì)首先要解決的問題是:如何定義和實(shí)現(xiàn)用戶行為數(shù)據(jù)的高效計(jì)算?以【友盟+】提供的風(fēng)控業(yè)務(wù)為例,用戶行為數(shù)據(jù)的量級(jí)大但數(shù)據(jù)深度淺,對(duì)于數(shù)據(jù)團(tuán)隊(duì)來說,在這種數(shù)據(jù)上做挖掘很有挑戰(zhàn)性。同時(shí),這項(xiàng)服務(wù)會(huì)承擔(dān)大量的外部查詢量。

  首先擺在數(shù)據(jù)團(tuán)隊(duì)面前的是數(shù)據(jù)的全量更新或按需更新的選擇。這個(gè)選擇題經(jīng)常出現(xiàn)在一個(gè)數(shù)據(jù)模型的訓(xùn)練和測(cè)試階段。建模時(shí)不僅要考慮到基于不同層面的數(shù)據(jù)特征清晰地定義目標(biāo),還要考慮當(dāng)模型成型后,所有的指標(biāo)需要被有效地計(jì)算。如果數(shù)據(jù)科學(xué)家的決策是數(shù)據(jù)指標(biāo)需要每天全量更新,每天將有幾十億個(gè)ID的數(shù)據(jù)回溯到數(shù)據(jù)訓(xùn)練的平臺(tái)上,帶來的是巨大的計(jì)算量和計(jì)算資源的占用。同時(shí)需要數(shù)據(jù)工程師協(xié)助數(shù)據(jù)科學(xué)家搭建有效的數(shù)據(jù)生產(chǎn)環(huán)境,保護(hù)計(jì)算的穩(wěn)定性。因此,數(shù)據(jù)全量更新或按需更新的選擇直接決定了存儲(chǔ)和計(jì)算資源的消耗量,也就是成本。為此李丹楓博士為我們介紹了“代碼健康度”的概念和評(píng)價(jià)標(biāo)準(zhǔn)。

  很多時(shí)候機(jī)器是在“傻算”

  給定代碼“健康”度規(guī)則,高效挖掘數(shù)據(jù)價(jià)值

  “我們要讓數(shù)據(jù)團(tuán)隊(duì)有這樣的意識(shí),一定要用最高效的方法來實(shí)現(xiàn)計(jì)算。尤其在數(shù)據(jù)體量巨大的場(chǎng)景下,差一點(diǎn)就會(huì)差很多”,李丹楓說到“比如說100億個(gè)ID,如果每個(gè)計(jì)算能提高1%,能節(jié)省的資源是很大的。”對(duì)資源的消耗與公司的生存直接相關(guān),作為CDO,李丹楓必須清晰地界定“高效計(jì)算”的評(píng)價(jià)標(biāo)準(zhǔn),督促并激勵(lì)數(shù)團(tuán)隊(duì)能夠有效地使用數(shù)據(jù)。

  【友盟+】的數(shù)據(jù)團(tuán)隊(duì)分為數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師,有不同的checkpoint來保證“高效”。友盟對(duì)于代碼有一套評(píng)價(jià)體系——代碼“健康”度。里面囊括了經(jīng)常出現(xiàn)的代碼錯(cuò)誤、模型的穩(wěn)定性(對(duì)變量依賴程度的評(píng)估)、模型的可持續(xù)性(不同版本更新的用戶體驗(yàn)是否順暢)和對(duì)占用資源的評(píng)估。如果一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)的代碼連續(xù)三次被監(jiān)測(cè)為“不健康”,他們?cè)诮M織中的權(quán)重會(huì)相應(yīng)降低。對(duì)于數(shù)據(jù)科學(xué)家來說,對(duì)業(yè)務(wù)的理解直接關(guān)系到在特征的實(shí)現(xiàn),需要在建模的階段定義好數(shù)據(jù)和好方法?!安灰^分追求模型的極致表現(xiàn)。

  比如一個(gè)模型的表現(xiàn)30%都依賴于1~2個(gè)變量,在實(shí)驗(yàn)室里的表現(xiàn)可能非常好。在實(shí)際生產(chǎn)過程中,一旦這1~2個(gè)變量出了問題,可能整個(gè)模型的結(jié)果都廢了,這顯然是公司無法接受的。所以,數(shù)據(jù)科學(xué)家要時(shí)刻提醒自己:你怎么定義你的目標(biāo)?”李丹楓說。對(duì)于數(shù)據(jù)工程團(tuán)隊(duì)來說,內(nèi)部技術(shù)委員會(huì)對(duì)定期評(píng)價(jià)團(tuán)隊(duì)正在運(yùn)用的技術(shù)是否有效。

  高效運(yùn)轉(zhuǎn)數(shù)據(jù)團(tuán)隊(duì)的核心

  數(shù)據(jù)團(tuán)隊(duì)的重構(gòu)&數(shù)據(jù)人才的再定義

  【友盟+】能夠運(yùn)作起如此龐大的數(shù)據(jù)量,除了專注于對(duì)數(shù)據(jù)的高效使用,還有一個(gè)重要因素是合并時(shí)的數(shù)據(jù)整合,以及和阿里巴巴內(nèi)部數(shù)據(jù)團(tuán)隊(duì)的合作。公司高層在合并之初發(fā)動(dòng)了“五大戰(zhàn)役”,從業(yè)務(wù)角度出發(fā)整合數(shù)據(jù)。經(jīng)過半年時(shí)間確定了三大產(chǎn)品線,其數(shù)據(jù)團(tuán)隊(duì)也在此基礎(chǔ)上重構(gòu)成了三大業(yè)務(wù)模塊+上層數(shù)據(jù)價(jià)值實(shí)現(xiàn)模塊的結(jié)構(gòu)。“我們希望用戶在用我們產(chǎn)品的時(shí)候就像搭積木一樣,把有需求的模塊拼接起來使用。數(shù)據(jù)在其中是橫向打通的?!崩畹髡f。

  整合過程中涉及了數(shù)據(jù)的融合和業(yè)務(wù)的融合。模塊制的管理思路保證了其數(shù)據(jù)可以橫向打通。在數(shù)據(jù)標(biāo)準(zhǔn)化及治理方面,【友盟+】全面借鑒了阿里巴巴的數(shù)據(jù)管理經(jīng)驗(yàn),針對(duì)每一個(gè)BusinessUnit遷移數(shù)據(jù)到OneData數(shù)據(jù)體系中。同時(shí),將數(shù)據(jù)全部遷入阿里云,做到降低運(yùn)維成本及數(shù)據(jù)安全合規(guī)。接下來,數(shù)據(jù)科學(xué)家們通過第一方賬號(hào)打通和算法打通兩種方式對(duì)數(shù)據(jù)進(jìn)行識(shí)別。在數(shù)據(jù)資源打通后可通過第一方登陸賬號(hào),把來源多樣的數(shù)據(jù)識(shí)別整合為同一個(gè)人的數(shù)據(jù)。而通過建模識(shí)可以實(shí)現(xiàn)在第一方賬號(hào)缺失的情況下的賬號(hào)打通。這樣一來,用戶在不同設(shè)備、不同賬號(hào)中上留下的痕跡就這樣被標(biāo)準(zhǔn)化整合,并在脫敏后成為商家提供決策依據(jù)。

  【友盟+】高層合并的流暢性給數(shù)據(jù)團(tuán)隊(duì)和業(yè)務(wù)的融合創(chuàng)造了良好的平臺(tái)。改組后的【友盟+】數(shù)據(jù)團(tuán)隊(duì)大致分為數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師兩部分,分別負(fù)責(zé)數(shù)據(jù)價(jià)值實(shí)現(xiàn)和數(shù)據(jù)基礎(chǔ)保障?!皵?shù)據(jù)從業(yè)者太容易鉆到自己的小圈子里去了?!崩畹魈寡?。作為CDO,他需要把數(shù)據(jù)團(tuán)隊(duì)從小圈子里拉出來,激發(fā)團(tuán)隊(duì)的主動(dòng)性和外向型。他鼓勵(lì)數(shù)據(jù)團(tuán)隊(duì)一旦有了新想法,便去說服同伴,組成2~3人的小團(tuán)隊(duì)把這個(gè)想法實(shí)現(xiàn)出來。再自下而上擴(kuò)展影響圈,不斷完善想法,直至一個(gè)新數(shù)據(jù)應(yīng)用場(chǎng)景的出現(xiàn),變成產(chǎn)品。在他看來,數(shù)據(jù)人才還需具備:了解客戶、發(fā)現(xiàn)需求的溝通力;說服同伴的領(lǐng)導(dǎo)力;批判思維的洞察力和實(shí)現(xiàn)想法的執(zhí)行力。

  激發(fā)團(tuán)隊(duì)貢獻(xiàn)想法,驅(qū)動(dòng)數(shù)據(jù)體現(xiàn)價(jià)值。這對(duì)李丹楓來說是使命感使然:“我做數(shù)據(jù)的時(shí)間比較長,回國后看到有些數(shù)據(jù)沉寂很多年,并沒有利用起來。我是有使命感的。我希望根據(jù)我的經(jīng)驗(yàn)來判斷數(shù)據(jù)在哪些場(chǎng)景中可能比較容易地產(chǎn)生數(shù)據(jù)價(jià)值?!日菀渍墓印?,激勵(lì)團(tuán)隊(duì)挖掘更多的數(shù)據(jù)價(jià)值?!?/p>

  對(duì)職場(chǎng)新人的期待:放下架子,放手去做!

  回國前,李丹楓在美國從事了十多年數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方面的工作,曾服務(wù)于雅虎,微軟,F(xiàn)ICO等多家領(lǐng)先科技公司?!拔也徽J(rèn)為在數(shù)據(jù)領(lǐng)域,美國比中國具有明顯的優(yōu)勢(shì)。從數(shù)據(jù)團(tuán)隊(duì)的構(gòu)成來看,我認(rèn)為中美的差異也已經(jīng)非常小了,美國的數(shù)據(jù)團(tuán)隊(duì)里有很多中國人?!崩畹髡f到。

  李丹楓認(rèn)為數(shù)據(jù)人才不單需要有數(shù)據(jù)建模的能力。具體說來,他給了職場(chǎng)新人三條建議:

  1、Get your hands dirty。打好基礎(chǔ),去充分了解在你手上數(shù)據(jù)。不要只想著發(fā)論文,要放下架子,動(dòng)手去清洗你的數(shù)據(jù),了解你的數(shù)據(jù)。不要怕數(shù)據(jù)“臟”;

  2、讓自己成為跨界人才、π型人才。工程方向的學(xué)生要補(bǔ)充數(shù)據(jù)知識(shí),數(shù)據(jù)方向的學(xué)生要補(bǔ)充工程知識(shí),工程和數(shù)據(jù)方向的學(xué)生都要補(bǔ)充行業(yè)知識(shí);

  3、務(wù)實(shí)、主動(dòng)、合作精神。

  人物簡(jiǎn)介

  李丹楓,【友盟+】CDO,本科畢業(yè)于清華大學(xué),后在美國伊利諾伊大學(xué)(UIUC)電子與計(jì)算機(jī)工程專業(yè)取得博士學(xué)位。畢業(yè)之后,在美國工作10多年,服務(wù)于包括雅虎,微軟,F(xiàn)ICO等在數(shù)據(jù)應(yīng)用走在前沿的公司,積累了豐富的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的實(shí)戰(zhàn)經(jīng)驗(yàn),所參與的產(chǎn)品在金融,保險(xiǎn),搜索,互聯(lián)網(wǎng)廣告及零售業(yè)中有廣泛的應(yīng)用。

責(zé)任編輯:陳近梅

分享: