來(lái)源:THU數(shù)據(jù)派 時(shí)間:2017-07-11 15:30:01 作者:吳艷偉
?在企業(yè)數(shù)據(jù)建設(shè)過(guò)程中,大數(shù)據(jù)治理受到越來(lái)越多的重視。從企業(yè)數(shù)據(jù)資產(chǎn)管理和提升數(shù)據(jù)質(zhì)量,到自服務(wù)和智能化的數(shù)據(jù)應(yīng)用,大數(shù)據(jù)治理的內(nèi)容在不斷發(fā)展和完善,其落地實(shí)施的過(guò)程中會(huì)遇到各種各樣的難題和挑戰(zhàn)。本篇文章通過(guò)分析大數(shù)據(jù)治理建設(shè)中的溝溝坎坎,總結(jié)出了大數(shù)據(jù)治理需要具備的能力和關(guān)鍵技術(shù)。
?一、困難重重卻充滿(mǎn)光明的大數(shù)據(jù)治理發(fā)展之路
?1、傳統(tǒng)數(shù)據(jù)治理一直無(wú)法逃脫的魔咒
?大數(shù)據(jù)治理從建設(shè)內(nèi)容和實(shí)施目標(biāo)上可以劃分成不同的階段,每個(gè)階段完成不同的任務(wù),隨著階段的遞進(jìn),建設(shè)內(nèi)容逐步加深,不同的企業(yè)切入點(diǎn)和訴求也各不相同。大致分為以下幾個(gè)階段:
??摸家底階段
?內(nèi)容:企業(yè)元數(shù)據(jù)梳理和采集
?目標(biāo):構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)庫(kù)
??建體系
?內(nèi)容:建立企業(yè)標(biāo)準(zhǔn)和質(zhì)量提升體系
?目標(biāo):提升數(shù)據(jù)質(zhì)量
??促應(yīng)用
?內(nèi)容:自服務(wù)通道、構(gòu)建企業(yè)知識(shí)圖譜
?目標(biāo):數(shù)據(jù)智能應(yīng)用
?然而,大數(shù)據(jù)治理建設(shè)之路并不是一帆風(fēng)順的,甚至可以說(shuō)充滿(mǎn)了各種問(wèn)題和困難,如何管理企業(yè)級(jí)的數(shù)據(jù)資產(chǎn)、如何讓業(yè)務(wù)積極參與到數(shù)據(jù)建設(shè)中來(lái)、如何降低數(shù)據(jù)治理的落地難度等一系列問(wèn)題,一直困擾著數(shù)據(jù)治理的發(fā)展,傳統(tǒng)數(shù)據(jù)治理的問(wèn)題主要體現(xiàn)在以下幾個(gè)方面:
??管理范圍窄
?要做數(shù)據(jù)治理首先要知道有哪些數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)治理往往只管理了數(shù)據(jù)領(lǐng)域,很少關(guān)注業(yè)務(wù)、管理和開(kāi)發(fā)相關(guān)的數(shù)據(jù)資產(chǎn),數(shù)據(jù)管理范圍比較窄,而且,受限于技術(shù)實(shí)現(xiàn),即使在數(shù)據(jù)領(lǐng)域的數(shù)據(jù)資產(chǎn)也很難做到精確管理;
??業(yè)務(wù)難結(jié)合
?業(yè)務(wù)元數(shù)據(jù)的廣泛缺失,導(dǎo)致業(yè)務(wù)人員無(wú)法使用技術(shù)性的元數(shù)據(jù)系統(tǒng),元數(shù)據(jù)缺乏業(yè)務(wù)用戶(hù),使用者少;
??應(yīng)用場(chǎng)景缺
?元數(shù)據(jù)被當(dāng)成單獨(dú)的系統(tǒng),而不是廣泛的技術(shù)基礎(chǔ),導(dǎo)致只關(guān)心元數(shù)據(jù)本身的應(yīng)用場(chǎng)景;
??技術(shù)不完善
?在技術(shù)層面存儲(chǔ)缺乏擴(kuò)展性,采集自動(dòng)程度不高,管理實(shí)時(shí)性不高。
?2、自服務(wù)大數(shù)據(jù)治理是解決問(wèn)題之道
?自服務(wù)的大數(shù)據(jù)治理平臺(tái)具備管理、開(kāi)發(fā)、共享、使用等能力,通過(guò)自動(dòng)、自助、智能化的大數(shù)據(jù)治理,能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的找、供、用、治,從而一站式解決傳統(tǒng)數(shù)據(jù)治理在大數(shù)據(jù)時(shí)代的各種難題,具體涉及到以下幾個(gè)方面。
???建好數(shù)據(jù)管理體系,快速識(shí)別數(shù)據(jù)
?自服務(wù)大數(shù)據(jù)治理平臺(tái)可以實(shí)現(xiàn)有數(shù)據(jù)可管理。現(xiàn)在的企業(yè)數(shù)據(jù)資產(chǎn)繁雜眾多,特別是建設(shè)大數(shù)據(jù)平臺(tái)的企業(yè),數(shù)據(jù)的類(lèi)型、分布、實(shí)現(xiàn)技術(shù)、所屬部門(mén)等都很繁雜,通過(guò)手工一點(diǎn)點(diǎn)梳理是不現(xiàn)實(shí)的,如何低成本、快速有效地將數(shù)據(jù)梳理和管理起來(lái)?這是做大數(shù)據(jù)治理遇到的第一個(gè)坎。
?自服務(wù)大數(shù)據(jù)治理平臺(tái)可以通過(guò)自動(dòng)化手段,自動(dòng)識(shí)別企業(yè)數(shù)據(jù)資產(chǎn)并標(biāo)明數(shù)據(jù)方位和屬性,建立業(yè)務(wù)能理解的數(shù)據(jù)服務(wù)目錄。
???建立數(shù)據(jù)治理體系,監(jiān)控并快速發(fā)現(xiàn)問(wèn)題
?自服務(wù)大數(shù)據(jù)治理平臺(tái)可以保障企業(yè)數(shù)據(jù)資產(chǎn)的質(zhì)量。企業(yè)內(nèi)數(shù)據(jù)環(huán)境復(fù)雜,很容易出現(xiàn)數(shù)據(jù)不一致、數(shù)據(jù)不及時(shí)、數(shù)據(jù)缺失等一系列問(wèn)題,如何識(shí)別并快速定位數(shù)據(jù)問(wèn)題?特別是針對(duì)海量數(shù)據(jù),如何在不影響性能情況下找出問(wèn)題數(shù)據(jù)?這是做大數(shù)據(jù)治理遇到的第二個(gè)坎。
?通過(guò)自服務(wù)大數(shù)據(jù)治理平臺(tái)建立和支撐起基于數(shù)據(jù)指標(biāo)、質(zhì)量檢核、問(wèn)題發(fā)現(xiàn)和監(jiān)控的完善數(shù)據(jù)治理體系,從事前、事中和事后等各個(gè)環(huán)節(jié)規(guī)避、發(fā)現(xiàn)和解決數(shù)據(jù)問(wèn)題,將能保證數(shù)據(jù)應(yīng)用無(wú)后顧之憂(yōu)。
?二、大數(shù)據(jù)治理技術(shù)需要不斷革新
?數(shù)據(jù)治理的目標(biāo)是把數(shù)據(jù)管起來(lái)、用起來(lái)、保證數(shù)據(jù)質(zhì)量,這些目標(biāo)離不開(kāi)各種技術(shù)的支持,這些技術(shù)包括元數(shù)據(jù)自動(dòng)采集和關(guān)聯(lián)、數(shù)據(jù)質(zhì)量的探查和提升、數(shù)據(jù)的自助服務(wù)和智能應(yīng)用等。
?1、管起來(lái):數(shù)據(jù)資產(chǎn)的自動(dòng)化采集、存儲(chǔ)技術(shù)要實(shí)現(xiàn)大數(shù)據(jù)治理的資產(chǎn)管理,需要做足三個(gè)方面的工作:
?采集:指從各種工具中,把各種類(lèi)型的元數(shù)據(jù)采集進(jìn)來(lái)。
?存儲(chǔ):采集元數(shù)據(jù)之后需要相應(yīng)的存儲(chǔ)策略來(lái)對(duì)元數(shù)據(jù)進(jìn)行存儲(chǔ),這需要在不改變存儲(chǔ)架構(gòu)的情況下擴(kuò)展元數(shù)據(jù)存儲(chǔ)的類(lèi)型;
?管理和應(yīng)用:在采集和存儲(chǔ)完成后,對(duì)已經(jīng)存儲(chǔ)的元數(shù)據(jù)進(jìn)行管理和應(yīng)用。
?第一,針對(duì)數(shù)據(jù)資產(chǎn)的存儲(chǔ),模型體系規(guī)范為元數(shù)據(jù)管理提供了基礎(chǔ),通過(guò)模型管理可以實(shí)現(xiàn)統(tǒng)一穩(wěn)定的元數(shù)據(jù)存儲(chǔ),統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范能很好地解決通用性和擴(kuò)展性。
?傳統(tǒng)數(shù)據(jù)資產(chǎn)管理采用CWM規(guī)范進(jìn)行數(shù)據(jù)資產(chǎn)存儲(chǔ)設(shè)計(jì),該規(guī)范提供了一個(gè)描述相關(guān)數(shù)據(jù)信息元數(shù)據(jù)的基礎(chǔ)框架,并為各種元數(shù)據(jù)之間的通信和共享提供了一套切實(shí)可行的標(biāo)準(zhǔn)。但是,隨著元數(shù)據(jù)管理范圍的不斷擴(kuò)大,CWM規(guī)范已經(jīng)不能滿(mǎn)足通用的元數(shù)據(jù)管理需求,針對(duì)微服務(wù)、業(yè)務(wù)等也需要一套規(guī)范支撐。MOF規(guī)范位于模型體系最底層,可以為元數(shù)據(jù)存儲(chǔ)提供統(tǒng)一的管理理論基礎(chǔ)。
?第二,元數(shù)據(jù)管理第二個(gè)核心問(wèn)題是解決各類(lèi)元數(shù)據(jù)的采集,由于元數(shù)據(jù)類(lèi)型多種多樣,而且在不斷增加,所以,如何以最小代價(jià),快速納入管理新類(lèi)型元數(shù)據(jù)的能力,是元數(shù)據(jù)管理的核心。
?采用可插拔的適配器方式實(shí)現(xiàn)元數(shù)據(jù)的采集是一個(gè)很好的選擇。其中,數(shù)據(jù)采集適配器應(yīng)支持各類(lèi)數(shù)據(jù)源的采集,當(dāng)有一個(gè)新的數(shù)據(jù)源需要接入的時(shí)候,只需按照規(guī)范快速開(kāi)發(fā)一套針對(duì)性的適配器,就能實(shí)現(xiàn)新類(lèi)型元數(shù)據(jù)的納入管理。
?第三,與人工相比,技術(shù)的最突出特點(diǎn)是速度快和精確。因此,如何通過(guò)技術(shù)手段精確地獲取數(shù)據(jù)資產(chǎn)是關(guān)鍵,特別是元數(shù)據(jù)關(guān)系,一般都存在于模型設(shè)計(jì)工具、ETL工具,甚至開(kāi)發(fā)的SQL腳本中,因此需要通過(guò)工具組件解析(接口、數(shù)據(jù)庫(kù))、SQL語(yǔ)法解析等手段完成關(guān)系的獲取和建立。準(zhǔn)確解析后的關(guān)系,還需要通過(guò)直觀(guān)的關(guān)系圖展現(xiàn)出來(lái)。
?2、有保障:數(shù)據(jù)質(zhì)量探查和提升技術(shù)
?通過(guò)大數(shù)據(jù)治理來(lái)提升數(shù)據(jù)質(zhì)量的過(guò)程中,涉及到很多環(huán)節(jié)、工作和技術(shù),其中包括:通過(guò)合理的技術(shù)找出數(shù)據(jù)問(wèn)題并找到問(wèn)題數(shù)據(jù);從各個(gè)維度監(jiān)控?cái)?shù)據(jù)問(wèn)題,并能通過(guò)最直觀(guān)和快捷的方式反饋給相關(guān)責(zé)任人;實(shí)現(xiàn)問(wèn)題發(fā)現(xiàn)、認(rèn)責(zé)、處理、歸檔等數(shù)據(jù)問(wèn)題的閉環(huán)解決流程等。中間主要涉及到以下兩個(gè)方面:
?第一,要想及時(shí)全面地找到問(wèn)題數(shù)據(jù),不僅要關(guān)注關(guān)鍵點(diǎn),還要有合適的方法。數(shù)據(jù)最容易出現(xiàn)質(zhì)量問(wèn)題的地方就是數(shù)據(jù)集成(流動(dòng))點(diǎn),例如:性別在單系統(tǒng)中,有1和0或者男和女表示都行,但是系統(tǒng)間集成時(shí)就會(huì)有問(wèn)題。因此,解決數(shù)據(jù)質(zhì)量的關(guān)鍵,就在于在集成點(diǎn)檢查數(shù)據(jù)質(zhì)量。另外,針對(duì)大數(shù)據(jù)量的數(shù)據(jù)質(zhì)量檢查,即要保證實(shí)時(shí)性,也要保證不影響業(yè)務(wù)系統(tǒng)的正常運(yùn)行,因此在對(duì)特別大的數(shù)據(jù)量進(jìn)行檢查時(shí),要采用抽樣檢查的方式。
?第二,數(shù)據(jù)問(wèn)題發(fā)現(xiàn)后,還要直觀(guān)地將數(shù)據(jù)問(wèn)題展現(xiàn)出來(lái)并及時(shí)通知相關(guān)人員。因此大數(shù)據(jù)治理平臺(tái)應(yīng)提供實(shí)時(shí)、全面的數(shù)據(jù)監(jiān)控,實(shí)現(xiàn)多維度實(shí)時(shí)的數(shù)據(jù)資產(chǎn)信息展示:
?從作業(yè)、模型、物理資源等各方面進(jìn)行全面的數(shù)據(jù)資產(chǎn)盤(pán)點(diǎn);
?對(duì)數(shù)據(jù)及時(shí)性、問(wèn)題數(shù)據(jù)量等方面的數(shù)據(jù)健康環(huán)境進(jìn)行全面的預(yù)警。
?3、用起來(lái):自助化數(shù)據(jù)服務(wù)構(gòu)建技術(shù)
?大數(shù)據(jù)治理的最終目標(biāo)是為最終用戶(hù)提供數(shù)據(jù),這需要快速找到數(shù)據(jù),并快速建立數(shù)據(jù)交換的通道。
?知識(shí)圖譜是一種非常好用、直觀(guān)的數(shù)據(jù)應(yīng)用方式。人工智能的知識(shí)圖譜構(gòu)建,可以從以下步驟考慮:
?基于企業(yè)元數(shù)據(jù)信息,通過(guò)自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、模式識(shí)別等算法,以及業(yè)務(wù)規(guī)則過(guò)濾等方式,實(shí)現(xiàn)知識(shí)的提取;
?以本體形式表示和存儲(chǔ)知識(shí),自動(dòng)構(gòu)建成起資產(chǎn)知識(shí)圖譜;
?通過(guò)知識(shí)圖譜關(guān)系,利用智能搜索、關(guān)聯(lián)查詢(xún)等手段,為最終用戶(hù)提供更加精確的數(shù)據(jù)。
?基于元數(shù)據(jù)的自助數(shù)據(jù)服務(wù)開(kāi)發(fā),可以簡(jiǎn)單快速地建立數(shù)據(jù)通道。通過(guò)自助化的數(shù)據(jù)生產(chǎn)線(xiàn),數(shù)據(jù)使用方(業(yè)務(wù)人員)大大減少了對(duì)開(kāi)發(fā)人員依賴(lài),80%以上的數(shù)據(jù)需求,都能通過(guò)自己進(jìn)行整合開(kāi)發(fā),最終獲取數(shù)據(jù)。讓所有用數(shù)據(jù)的人能方便得到想要的數(shù)據(jù)。其中,提供所需數(shù)據(jù)的自助查詢(xún)能力、自動(dòng)生成數(shù)據(jù)服務(wù)、及時(shí)穩(wěn)定的獲得數(shù)據(jù)通道、保證數(shù)據(jù)安全是實(shí)現(xiàn)自助化的大數(shù)據(jù)生產(chǎn)線(xiàn)的四個(gè)關(guān)鍵點(diǎn)。
?三、如何選擇合適的大數(shù)據(jù)治理工具?
?工欲善其事必先利其器,大數(shù)據(jù)治理的落地開(kāi)展離不開(kāi)工具的支撐。大數(shù)據(jù)治理工具一般分為兩類(lèi):一類(lèi)是單個(gè)工具,另一類(lèi)是集成平臺(tái),用于不同的階段、場(chǎng)景和客戶(hù)。其中,單獨(dú)工具有:元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、主數(shù)據(jù)等,集成平臺(tái)包括數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)治理平臺(tái)、自助服務(wù)平臺(tái)等。
?下面重點(diǎn)介紹其中兩個(gè)核心的工具:一個(gè)是元數(shù)據(jù),另一個(gè)是自助數(shù)據(jù)服務(wù)平臺(tái);
?1、大數(shù)據(jù)治理的核心——元數(shù)據(jù)管理工具
?元數(shù)據(jù)是大數(shù)據(jù)治理的核心,元數(shù)據(jù)管理工具應(yīng)該支持企業(yè)級(jí)數(shù)據(jù)資產(chǎn)管理,并且從技術(shù)上支持各類(lèi)數(shù)據(jù)采集與數(shù)據(jù)的直觀(guān)展現(xiàn),從應(yīng)用上也要支持不同類(lèi)型用戶(hù)的實(shí)際應(yīng)用場(chǎng)景,一個(gè)合格的元數(shù)據(jù)管理工具,需要具備以下幾項(xiàng)基本能力:
?首先,元數(shù)據(jù)要有全面的數(shù)據(jù)管理能力。無(wú)論是傳統(tǒng)數(shù)據(jù)還是大數(shù)據(jù),無(wú)論是工具還是模板等,都應(yīng)該是元數(shù)據(jù)的管理范疇。對(duì)于企業(yè)來(lái)說(shuō),要想統(tǒng)一管理所有信息資產(chǎn),還依靠原來(lái)人工錄入資產(chǎn)的方式肯定是不行的,企業(yè)需要從技術(shù)上提供各種自動(dòng)化能力,實(shí)現(xiàn)對(duì)資產(chǎn)信息的自動(dòng)獲取,包括自動(dòng)數(shù)據(jù)信息采集、自動(dòng)服務(wù)信息采集與自動(dòng)業(yè)務(wù)信息采集等,這要求企業(yè)使用的數(shù)據(jù)管理工具支持一系列的采集器,并且多采用直連的方式來(lái)采集相關(guān)信息。
?其次,盡管元數(shù)據(jù)是一個(gè)基礎(chǔ)的管理工具,也需要具備好的顏值和便捷的使用方式,以便給用戶(hù)帶來(lái)好的應(yīng)用感受。作為一款元數(shù)據(jù)管理工具,能讓用戶(hù)能在一個(gè)界面全面了解到元數(shù)據(jù)信息,通過(guò)圖像從更多維度、更直觀(guān)地了解企業(yè)數(shù)據(jù)全貌和數(shù)據(jù)關(guān)系是很重要的。除此之外,通過(guò)H5等流行的展現(xiàn)技術(shù)實(shí)現(xiàn)各瀏覽器的兼容,支持界面的移植也是元數(shù)據(jù)管理工具必不可少的能力。
?再次,元數(shù)據(jù)管理工具不僅僅是一個(gè)工具,還需要關(guān)注各類(lèi)人的使用訴求,跟具體用戶(hù)的使用場(chǎng)景相結(jié)合。對(duì)于業(yè)務(wù)人員來(lái)說(shuō),通過(guò)元數(shù)據(jù)管理的業(yè)務(wù)需求管理,能更容易地和技術(shù)人員溝通,便于需求的技術(shù)落地;對(duì)于開(kāi)發(fā)人員來(lái)說(shuō),通過(guò)元數(shù)據(jù)管理能管控系統(tǒng)的開(kāi)發(fā)上線(xiàn)、提升開(kāi)發(fā)規(guī)范性,自動(dòng)生成上線(xiàn)腳本,降低開(kāi)發(fā)工作難度和出錯(cuò)幾率;對(duì)于運(yùn)維人員來(lái)說(shuō),通過(guò)元數(shù)據(jù)管理能讓日常巡檢、版本維護(hù)等工作變得簡(jiǎn)單可控,輔助日常問(wèn)題分析查找,簡(jiǎn)化運(yùn)維工作。
?2、大數(shù)據(jù)治理的最佳實(shí)踐——自助化數(shù)據(jù)服務(wù)平臺(tái)
?大數(shù)據(jù)治理最終目標(biāo)不僅僅是為了管理數(shù)據(jù),而是為用戶(hù)提供一套數(shù)據(jù)服務(wù)的生產(chǎn)線(xiàn),讓用戶(hù)能通過(guò)這條生產(chǎn)線(xiàn)自助地找到數(shù)據(jù)、獲得數(shù)據(jù),并規(guī)范化地使用數(shù)據(jù),因此自助化數(shù)據(jù)服務(wù)共享平臺(tái)是大數(shù)據(jù)治理必不可少的工具。
?作為大數(shù)據(jù)治理的落地工具,自助化數(shù)據(jù)服務(wù)共享平臺(tái)不僅要為開(kāi)發(fā)者提供一套完整的數(shù)據(jù)生產(chǎn)線(xiàn),也需要給運(yùn)維者提供易用的監(jiān)控界面,畢竟系統(tǒng)的運(yùn)維才是工具應(yīng)用的常態(tài)。全局的數(shù)據(jù)資產(chǎn)監(jiān)控能力和數(shù)據(jù)問(wèn)題跟蹤能力同樣重要,通過(guò)全局的數(shù)據(jù)資產(chǎn)監(jiān)控能力,能使客戶(hù)方便地了解到企業(yè)數(shù)據(jù)共享交換的全貌、系統(tǒng)間的數(shù)據(jù)關(guān)系和數(shù)據(jù)提供方和消費(fèi)方的使用情況;通過(guò)數(shù)據(jù)問(wèn)題跟蹤能力,能實(shí)現(xiàn)數(shù)據(jù)問(wèn)題的智能定位,減少運(yùn)維工作難度。
?四、總結(jié)
?大數(shù)據(jù)治理對(duì)企業(yè)數(shù)據(jù)建設(shè)的重要性不言而喻,然而實(shí)現(xiàn)的困難有時(shí)也會(huì)讓人望而卻步,選擇合適的技術(shù)和工具會(huì)達(dá)到事半功倍的效果。希望通過(guò)本文介紹能夠幫助在建,或者準(zhǔn)備規(guī)劃大數(shù)據(jù)治理的各位,在大數(shù)據(jù)治理的資產(chǎn)管理、數(shù)據(jù)質(zhì)量保證、數(shù)據(jù)應(yīng)用等方面的技術(shù)和工具選擇上有所幫助。
責(zé)任編輯:陳近梅