來源:阿里數(shù)據(jù) 時間:2017-10-24 13:55:30 作者:編輯/Fynlch王培
數(shù)據(jù)觀導讀:近日,在2017杭州云棲大會-阿里大數(shù)據(jù)分論壇上,阿里巴巴數(shù)據(jù)技術及產(chǎn)品部資深技術專家姚濱暉發(fā)表了主題為《阿里巴巴數(shù)據(jù)服務和數(shù)據(jù)產(chǎn)品開發(fā)平臺》的演講,分享了阿里在大數(shù)據(jù)領域沉淀的技術能力和應用實踐。
數(shù)據(jù)服務和數(shù)據(jù)產(chǎn)品開發(fā)平臺通過有機的組合發(fā)揮出阿里EB級數(shù)據(jù)的價值。數(shù)據(jù)服務通過規(guī)范DSL標準和Query Engine、Push Engine、DAG編排、Algorithm Engine的組合對外提供了單一接口動態(tài)化查詢所有數(shù)據(jù),和實時計算平臺打通數(shù)據(jù)秒級觸達應用,平均RT小于5毫秒的數(shù)據(jù)獲取能力,同時除了基礎數(shù)據(jù)指標輸出外,還實現(xiàn)了基礎服務能力之上提煉的動態(tài)邏輯、挖掘、算法能力的服務化輸出,完成了數(shù)據(jù)在業(yè)務間的全域流通。
數(shù)據(jù)產(chǎn)品開發(fā)平臺通過對阿里數(shù)年復雜業(yè)務場景下的實踐和抽象,通過變和不變的架構設計思路、跨端的大數(shù)據(jù),提供一套可供非開發(fā)人員自助使用來實現(xiàn)阿里絕大多數(shù)數(shù)據(jù)產(chǎn)品需求的開放平臺,實現(xiàn)跨PC、手機、大屏的多端功能,提供數(shù)據(jù)分析能力、報表配置能力、產(chǎn)品配置能力、產(chǎn)品開發(fā)能力,解決非開發(fā)人員自助完成看數(shù)據(jù)、分析數(shù)據(jù)、使用數(shù)據(jù)的需求,完成數(shù)據(jù)對業(yè)務的直接賦能。
↓詳情參看下文實錄+PPT↓
{ Part1 }
數(shù)據(jù)賦能的背景
▊總體來看,阿里巴巴的生態(tài)可以分為六個業(yè)務板塊:
電商、物流、健康、文娛、金融,以及云計算。阿里巴巴通過這些業(yè)務,服務了數(shù)億用戶,上千萬的小微企業(yè),以及上千萬的商家。伴隨著我們的業(yè)務服務,同時截止目前,我們已經(jīng)沉淀的數(shù)據(jù)量高達 EB級規(guī)模。
通過全域數(shù)據(jù)體系,我們建設、融合、鏈接了這些來自不同業(yè)態(tài)的數(shù)據(jù)。 ( 點擊此處可跳轉查看《阿里巴巴全域數(shù)據(jù)建設》)
下面這張圖,勾勒了阿里巴巴大數(shù)據(jù)體系。
【圖:阿里巴巴大數(shù)據(jù)體系】
從下往上看,最底層的是全域數(shù)據(jù),第二層是基礎數(shù)據(jù)建設,它包括了人工智能的一些算法。在基礎數(shù)據(jù)建設的上面分別是各種數(shù)據(jù)服務和數(shù)據(jù)產(chǎn)品開發(fā)平臺。
從圖中我們也可以發(fā)現(xiàn),我們的數(shù)據(jù)產(chǎn)品和服務,實際上是通過各類不同的應用場景來達到服務阿里小二、阿里商家、消費者、合作伙伴的目的。
所以,數(shù)據(jù)服務和數(shù)據(jù)產(chǎn)品開發(fā)平臺,它與應用場景是強相關,直接連接,他們的主要作用是把底層建設完的數(shù)據(jù)、算法,生產(chǎn)成可以直接賦能業(yè)務和用戶的應用。
{ Part2 }
數(shù)據(jù)服務和數(shù)據(jù)產(chǎn)品開發(fā)平臺的關系
數(shù)據(jù)服務和數(shù)據(jù)產(chǎn)品開發(fā)平臺的關系就像齒輪一樣,它們是相互依存的一個整體。
為什么這么說?
———————
▊從業(yè)務角度來看:業(yè)務使用數(shù)據(jù)有兩個最核心的場景:
◎ 第一,業(yè)務本身需要數(shù)據(jù)。這時候,業(yè)務會通過數(shù)據(jù)服務來直接獲取數(shù)據(jù),這是第一個場景。
◎ 第二,業(yè)務中的運營、分析師,他們需要使用數(shù)據(jù)來更好地提升數(shù)據(jù)賦能的效能。這時候運營和分析師,就會通過相應的數(shù)據(jù)產(chǎn)品,來使用數(shù)據(jù)。所以,這就是數(shù)據(jù)產(chǎn)品開發(fā)平臺承擔的主要職責。
所以通過這兩個核心的數(shù)據(jù)賦能業(yè)務的場景,我們可以發(fā)現(xiàn)數(shù)據(jù)服務和數(shù)據(jù)產(chǎn)品開發(fā)平臺,之間相關依存的關系。
▊從優(yōu)勢角度來看,將數(shù)據(jù)服務好和數(shù)據(jù)產(chǎn)品開發(fā)平臺組合起來,它們可以體現(xiàn)三個優(yōu)勢:
◎ 第一,通過這樣的一個組合,能夠打破在業(yè)務之間的數(shù)據(jù)壁壘。這里要強調的是它們打破的不是在底層的數(shù)據(jù)壁壘,而是打破在業(yè)務之間的數(shù)據(jù)壁壘,因為6大業(yè)務板塊,所產(chǎn)生的數(shù)據(jù)形態(tài)、含義、結構都有很大差異。在底層完成了整個數(shù)據(jù)打通之后,打破壁壘就是為了在業(yè)務層上,讓數(shù)據(jù)在各個業(yè)務間像水一樣來流通。
◎ 第二,滿足靈活多變的數(shù)據(jù)需求。
◎ 第三,全域流通和按需自助實現(xiàn)。這個組合可以實現(xiàn)所有用戶可以去按需自助來完成,而不需要專業(yè)開發(fā)、產(chǎn)品來介入。
{ Part3 }
數(shù)據(jù)服務介紹
▊數(shù)據(jù)服務主要由四個核心能力組成:
◎ 首先,基礎數(shù)據(jù)服務,它主要是提供基礎數(shù)據(jù)能力,實現(xiàn)上萬數(shù)據(jù)指標跨域獲??;
◎ 其次,標簽畫像服務,通過這個服務,可以給用戶提供上百個標簽刻畫;
◎ 第三,人群透視服務,這個服務其實是在標簽智商最的提煉,在營銷場景中,可以通過接入這個服務,來實現(xiàn)人群的圈選等;
◎ 第四、還有算法模型服務,通過一鍵服務化的方式,把算法能力通過服務透出。
【圖:數(shù)據(jù)服務的架構】
上圖展示了數(shù)據(jù)服務的架構。
從上往下看,portal是一個門戶,通過它可以發(fā)現(xiàn),整個阿里巴巴公共層,有多少基礎的指標可以去獲取,并且這些指標現(xiàn)在已經(jīng)被哪些業(yè)務部門通過什么樣的方式來獲取。
用戶只需要按照同樣的方式,就能夠獲取到對應的數(shù)據(jù),極大縮短用戶發(fā)現(xiàn)數(shù)據(jù)、獲取數(shù)據(jù)以及使用數(shù)據(jù)的路徑。
中間這層是DSL,通過DSL我們把用戶獲取數(shù)據(jù)的標準和規(guī)范進行了統(tǒng)一,整個DSL之下有一些大的核心能力。QueryEngine實現(xiàn)所有跟查詢相關的能力輸出;PushEngine提供實時數(shù)據(jù)推送的能力;DAG可視化,可配置編排業(yè)務邏輯。Algorithm Engine輸出算法和人工智能的能力。
【圖:DSL&DAG實例】
▊現(xiàn)在,我們的數(shù)據(jù)服務的主要有三大應用場景:
◎ 第一是阿里集團內部,諸如搜索、推薦、營銷等場景;
◎ 第二是數(shù)據(jù)大屏,大家在雙11看到酷炫大屏,它其實就是通過數(shù)據(jù)服務來實現(xiàn)的;
◎ 第三是商業(yè)化數(shù)據(jù)產(chǎn)品,被商家熟知的生意參謀,它所展示的數(shù)據(jù)也是通過數(shù)據(jù)服務來實現(xiàn)的。
{ Part4 }
數(shù)據(jù)產(chǎn)品開發(fā)平臺
我們構建數(shù)據(jù)產(chǎn)品開發(fā)平臺最核心的目的就是,讓非專業(yè)的開發(fā)人員,也可以根據(jù)自己的需求,來搭建數(shù)據(jù)產(chǎn)品,從而實現(xiàn)自己使用數(shù)據(jù)的目的。
▊那么數(shù)據(jù)產(chǎn)品開發(fā)平臺,它主要對外提供了四個能力:
◎ 第一,用戶可以完成數(shù)據(jù)分析;
◎ 第二,用戶可以去自助實現(xiàn)報表配置;
◎ 第三,非開發(fā)人員可以利用它去實現(xiàn)產(chǎn)品配置;
◎ 第四,開發(fā)人員可以通過它,開發(fā)一些更加復雜、更加個性化、更加定制化的一些數(shù)據(jù)產(chǎn)品。
具體來看數(shù)據(jù)產(chǎn)品開發(fā)平臺的架構,整個架構的核心能力依然由兩個部分組成。應用端和服務端。
在應用和服務中間是DSL,所有的應用和服務,最終都會按照DSL標準來配置。通過數(shù)據(jù)產(chǎn)品開發(fā)平臺構建完成的應用和服務,并不是一個獨立運行的實體,它實際上是一個配置,渲染引擎、執(zhí)行引擎等可以加載和運行這個配置;通過構建引擎生成一個配置,來實現(xiàn)不同國家、不同機房、不同終端都能運行的目的。
事實上,整個數(shù)據(jù)產(chǎn)品開發(fā)平臺的構建思路主要由兩個核心點:什么是變的以及什么是不變的。
其實我們只要能夠對數(shù)據(jù)使用過程分析、分解出變和不變這兩個要素,就能夠比較快速地解決問題。
舉個例子:對于一個應用,我們怎么來分解變和不變兩個要素。
應用的布局、樣式、分析思路……這些都是不變的;但應用中的組件,可以是一個圖表、可以是功能區(qū)域,也可以是一個不可見的邏輯……這些是變化的。
繼續(xù)分析一個組件:組件的類型、屬性是不變的;但是每個組件它所能夠表達的數(shù)據(jù),是可以變化的;同理推導數(shù)據(jù):對于一個數(shù)據(jù)來講,格式是、權限是不變的;但是數(shù)據(jù)是從哪個服務能夠獲取到數(shù)據(jù),這個是可以變化的。
最后到服務這一層,服務里面有兩部分組成:通過SQL獲取的原始數(shù)據(jù)和業(yè)務邏輯;通過業(yè)務邏輯對原始數(shù)據(jù)的加工和編排,最后以服務化的方式,把數(shù)據(jù)開放給上層應用。
了解思路之后,我們再來看一下整個平臺的構建過程,它們分別是在應用端和在服務端的構建引擎。
對于應用端的構建引擎,需要注意的是非開發(fā)人員,通過構建引擎,只需要輸入四個要素——樣式、布局、組件以及分析思路,就能構建出一個基于DSL描述的一個應用;同理,在服務端也是一樣的,非開發(fā)人員通過輸入SQL,和一些業(yè)務邏輯的實現(xiàn),就能夠生成一個基于DSL描述的服務。在應用層,上述的服務是可以實現(xiàn)PC、無線和大屏的跨端。
在使用過程中,下圖是一個使用過程的示意:就是通過兩個引擎:渲染引擎和執(zhí)行引擎。
它們都會去加載DSL描述的應用和服務,然后進行交互來完成整個這個產(chǎn)品的實現(xiàn)。
▊數(shù)據(jù)產(chǎn)品開發(fā)平臺在阿里的應用對象主要是四塊:
◎ 首先是業(yè)務運營,在日常運營中,運營人員可以通過這個平臺去自助的去生成所需要的產(chǎn)品;
◎ 第二是決策分析,分析師會幫助行業(yè)來進行業(yè)務分析指導,他們會通過整個平臺來使用和開發(fā)自己的數(shù)據(jù)分析產(chǎn)品,完成決策分析;
◎ 第三是后端營銷其實也可以通過它來搭建產(chǎn)品;
◎ 最后是剛才提到的——生意參謀,這是通過這個平臺開發(fā)商業(yè)應用產(chǎn)品,目前已經(jīng)累積服務了2千萬商家。
注:本文系阿里數(shù)據(jù)「AliData」授權數(shù)據(jù)觀發(fā)布,綜合自2017杭州云棲大會大數(shù)據(jù)專場演講干貨內容,編輯:Fynlch(王培),轉載請務必申請授權并注明來源、出處及作者信息。數(shù)據(jù)觀微信公眾號(ID:cbdioreview),欲了解更多大數(shù)據(jù)行業(yè)相關資訊,可搜索數(shù)據(jù)觀(中國大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)m.yongsiang.cn)進入查看。
責任編輯:王培