來源:醫(yī)信天下 時間:2017-01-25 10:17:49 作者:徐立水,辛敏
徐立水①②*,辛敏①
① 北京醫(yī)信天下數(shù)據(jù)技術(shù)有限公司,北京 100021;
② 中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020
摘要:大數(shù)據(jù)成為當(dāng)前學(xué)術(shù)界和產(chǎn)業(yè)界的研究熱點,是繼云計算、物聯(lián)網(wǎng)之后又一次顛覆性的技術(shù)革命,并不斷影響著人們生活習(xí)慣和思考模式。本文為進一步建立理論基礎(chǔ)依據(jù)和探索開展應(yīng)用研究,定義并詳細解釋了大數(shù)據(jù)概念,剖析大數(shù)據(jù)內(nèi)涵與外延,闡述大數(shù)據(jù)屬性和使用方法。大數(shù)據(jù)蘊含著巨大價值,相信未來在人體疾病預(yù)防監(jiān)測、健康關(guān)懷、銀行用戶資信評估與應(yīng)用、國家安全恐怖監(jiān)測與預(yù)警、工業(yè)質(zhì)量監(jiān)控等領(lǐng)域?qū)⒌玫礁訌V泛的應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù),大數(shù)據(jù)定義,大數(shù)據(jù)技術(shù),數(shù)據(jù)分析,大數(shù)據(jù)應(yīng)用
目前,最熱詞莫過于大數(shù)據(jù),各界媒體關(guān)于大數(shù)據(jù)討論層出不窮,大數(shù)據(jù)已成為流行語和現(xiàn)代科學(xué)趨勢技術(shù)。基于大數(shù)據(jù)的科學(xué)研究也是近年各大數(shù)據(jù)庫發(fā)稿增長率較高,在PubMed數(shù)據(jù)庫中全文檢索包含“big data” 文章,2011年至2015年大數(shù)據(jù)相關(guān)文章占比分別為0.03%、0.04%、0.05%、0.08%、0.10%,五年增長近2倍。在CNKI數(shù)據(jù)庫中全文檢索包含“大數(shù)據(jù)”文章,2011年至2015年大數(shù)據(jù)相關(guān)文章占比分別為0.28%、0.39%、0.82%、1.62%、2.54%,五年增長近8倍。大數(shù)據(jù)研究論文量增長率如此之高,說明大數(shù)據(jù)研究在當(dāng)前科學(xué)研究中呈良好增長勢頭,開展大數(shù)據(jù)研究學(xué)者不斷增多,進行大數(shù)據(jù)研究單位也不斷增多。大數(shù)據(jù)已經(jīng)成為繼石油和礦業(yè)之外,另一種更重要的資源業(yè)態(tài)存在。大數(shù)據(jù)研究熱潮正是各界廣泛認識到大數(shù)據(jù)研究的重要性,還可能更多人已經(jīng)知道大數(shù)據(jù)技術(shù)將會是一場新技術(shù)革命[1],現(xiàn)在開展大數(shù)據(jù)學(xué)術(shù)研究是為未來使用大數(shù)據(jù)技術(shù),為未來應(yīng)用大數(shù)據(jù)技術(shù)建立理論基礎(chǔ)和理論依據(jù),也是為未來更好使用大數(shù)據(jù)開展基礎(chǔ)應(yīng)用研究和探索。
大數(shù)據(jù)技術(shù)不同以往任何科學(xué)技術(shù),筆者認為大數(shù)據(jù)是一種全新應(yīng)用科學(xué)技術(shù),大數(shù)據(jù)全新科學(xué)技術(shù)是以前人類沒有研究甚至無從知曉技術(shù),作為應(yīng)用科學(xué)技術(shù)是以實際應(yīng)用出發(fā)為需求方做的科學(xué)研究。大數(shù)據(jù)熱和各界廣泛重視是因為大數(shù)據(jù)技術(shù)未來應(yīng)用廣泛、應(yīng)用價值巨大。
2012年3月29日美國發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》[2,3],欲大力推動大數(shù)據(jù)相關(guān)的收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國的科研、教育與國家安全能力。2015年12月10日中國國務(wù)院發(fā)布《國務(wù)院關(guān)于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知》[4],各個國家重視大數(shù)據(jù)研究目的都要在未來科技應(yīng)用領(lǐng)域領(lǐng)先。目前,大數(shù)據(jù)研究也是剛剛開始,大數(shù)據(jù)應(yīng)用方向方法都是探索階段,各國各界大數(shù)據(jù)研究都還處于起步階段,大數(shù)據(jù)研究更重要的是大數(shù)據(jù)應(yīng)用研究投入,更多的是需要加強大數(shù)據(jù)領(lǐng)域人才發(fā)現(xiàn)、挖掘和培養(yǎng)[5],更多的是開展大數(shù)據(jù)方法研究和大數(shù)據(jù)應(yīng)用方向研究,大數(shù)據(jù)研究也可以為中國的“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”,開辟一條更廣闊科技創(chuàng)新道路。
當(dāng)前,大數(shù)據(jù)概念已經(jīng)深入人心,大家共同的認識是大數(shù)據(jù)未來應(yīng)用會顛覆傳統(tǒng)科學(xué)思維,大數(shù)據(jù)會使人類思考邊界和思考方式發(fā)生顛覆性改變[],這也是學(xué)術(shù)界和各國政府非常重視大數(shù)據(jù)研究的重要原因。大數(shù)據(jù)已經(jīng)作為大國國家發(fā)展戰(zhàn)略,已經(jīng)在各個國家科研財政投入中成為政府政策最重要戰(zhàn)略指導(dǎo)方向開展廣泛研究,各國政府這樣做的目的是為了占領(lǐng)未來科技制高點和在國家競爭中取得科技優(yōu)勢。大數(shù)據(jù)在經(jīng)濟領(lǐng)域和醫(yī)學(xué)領(lǐng)域更是開展了廣泛研究,IBM、Google、Microsoft、Facebook進行大數(shù)據(jù)研究也是看中了大數(shù)據(jù)未來無可限量的價值[6]。
筆者更愿意在此寫一些筆者對大數(shù)據(jù)思考和看法,寫出筆者對大數(shù)據(jù)“big data” 概念的理解、大數(shù)據(jù)定義、大數(shù)據(jù)應(yīng)用方法和大數(shù)據(jù)未來更適合應(yīng)用領(lǐng)域。提供大家探討研究,開卷有益,下面筆者就幾個觀點說說自己看法。
01/大數(shù)據(jù)概念定義
最早提出大數(shù)據(jù)概念時,有人把大數(shù)據(jù)分為四個“V”[6,7,8]( Volume、Variety、Velocity 和Value) 形容大數(shù)據(jù)的特征,未來最重要的科技應(yīng)用是大數(shù)據(jù),也有人認為是指海量無法計算的數(shù)據(jù)[9],英文為“big data”中文為“大數(shù)據(jù)”。筆者認為大數(shù)據(jù)描述應(yīng)該屬于大數(shù)據(jù)概念和大數(shù)據(jù)性質(zhì),未來大數(shù)據(jù)應(yīng)用需要一個清晰容易被大多數(shù)人理解明確的大數(shù)據(jù)定義,定義大數(shù)據(jù)是為了更好應(yīng)用大數(shù)據(jù),明確大數(shù)據(jù)定義可以供學(xué)者、研究者學(xué)術(shù)研究討論,可以教學(xué)學(xué)生更好學(xué)習(xí)大數(shù)據(jù),也可以為管理部門決策管理清楚規(guī)范管理邊界。
筆者研究大數(shù)據(jù)多年認為最恰當(dāng)大數(shù)據(jù)定義:“大數(shù)據(jù)是指具有一定屬性關(guān)系資源數(shù)據(jù)的集合,屬性關(guān)系資源可以是量化資源數(shù)據(jù)集合,也可以是定性化資源數(shù)據(jù)集合,這些數(shù)據(jù)資源集合統(tǒng)稱為大數(shù)據(jù)?!?/p>
大數(shù)據(jù)定義強調(diào)三點
1.大數(shù)據(jù)是指具有一定屬性關(guān)系資源數(shù)據(jù)的集合。數(shù)據(jù)已經(jīng)在人類生活中廣泛存在,數(shù)據(jù)種類眾多,存在形式各異,數(shù)據(jù)內(nèi)涵外延都有不同,數(shù)據(jù)之間相互關(guān)系強弱不同,各類數(shù)據(jù)未來應(yīng)用權(quán)重或是有效性不同,做任何一次大數(shù)據(jù)應(yīng)用都不可能取用人類社會生活所有數(shù)據(jù),應(yīng)該是按照一定屬性關(guān)系取舍數(shù)據(jù),達到取舍有度應(yīng)用有理,如果是“海量的無法計算的”,會是無法計算也會是無法應(yīng)用。傳統(tǒng)意義數(shù)據(jù)就應(yīng)該是加減乘除微積分等算法運算的數(shù)值以及數(shù)值運算的結(jié)論,數(shù)據(jù)發(fā)展到現(xiàn)代已經(jīng)不僅僅是數(shù)字,數(shù)據(jù)的內(nèi)涵和外延已經(jīng)廣泛,數(shù)據(jù)含義更深,但數(shù)據(jù)本身意義就是用來運算,未來只是數(shù)據(jù)運算方法不同而已,數(shù)據(jù)應(yīng)該是無法計算的價值而不是無法計算數(shù)量,搞清數(shù)據(jù)屬性關(guān)系,研究清楚數(shù)據(jù)的內(nèi)涵和外延,定義好大數(shù)據(jù)就可以做到更好應(yīng)用數(shù)據(jù)。
2.資源數(shù)據(jù)的集合。資源以往通常應(yīng)用于自然資源、水利資源、自然文化遺產(chǎn)資源等等資源,往往強調(diào)是某某資源,資源的價值是這種資源已經(jīng)存在。大數(shù)據(jù)定義使用的是資源數(shù)據(jù)強調(diào)是數(shù)據(jù)是資源,數(shù)據(jù)可以是已經(jīng)存在的數(shù)據(jù)資源,也可以是現(xiàn)在沒有的數(shù)據(jù)資源但未來會出現(xiàn)的數(shù)據(jù)資源,所以大數(shù)據(jù)定義使用資源數(shù)據(jù)。
3.資源數(shù)據(jù)的集合,集合是在一起,在一起是存在一起,但存在方式性質(zhì)都可能不同,只表示資源數(shù)據(jù)已經(jīng)因為數(shù)據(jù)相關(guān)性可以存在一起,集合在一起。數(shù)據(jù)表現(xiàn)形式是定性數(shù)據(jù)或是定量數(shù)據(jù)
02/數(shù)據(jù)是什么?數(shù)據(jù)內(nèi)涵和外延
大數(shù)據(jù)核心是數(shù)據(jù),數(shù)據(jù)最早是由阿拉伯?dāng)?shù)字組成的一組數(shù)字,但現(xiàn)代大數(shù)據(jù)把數(shù)據(jù)概念大大延展。
大數(shù)據(jù)是建立在數(shù)據(jù)基礎(chǔ)上的科學(xué),任何數(shù)字、圖片、聲音、概念單元、性質(zhì)描述等等都是數(shù)據(jù),可以用一個數(shù)據(jù),一組數(shù)據(jù)、一個數(shù)據(jù)集合統(tǒng)稱為相應(yīng)大數(shù)據(jù),醫(yī)學(xué)資源數(shù)據(jù)集合統(tǒng)稱為醫(yī)學(xué)大數(shù)據(jù)。按照大數(shù)據(jù)定義給出醫(yī)學(xué)大數(shù)據(jù)定義是:具有醫(yī)學(xué)屬性關(guān)系資源數(shù)據(jù)的集合,涵蓋人類健康、人體解剖生理病理、遺傳、疾病診斷治療、藥品食品及人類生命健康關(guān)系資源數(shù)據(jù)集合。
大數(shù)據(jù)數(shù)據(jù)是什么,什么是大數(shù)據(jù)里面的數(shù)據(jù),筆者更愿意把什么是大數(shù)據(jù)數(shù)據(jù),用數(shù)據(jù)內(nèi)涵和外延探討。筆者認為一切都是數(shù)據(jù),能夠使用的都是數(shù)據(jù),這種說法不容易讓使用者理解什么是數(shù)據(jù),理解什么是數(shù)據(jù)才能夠使用數(shù)據(jù),尤其對初期理解應(yīng)用大數(shù)據(jù)的學(xué)者、學(xué)生更加重要。這里筆者努力一些盡量把數(shù)據(jù)內(nèi)涵和外延說清楚,供研究探討。大數(shù)據(jù)數(shù)據(jù)應(yīng)該可以理解為人類生活中任何詞組、詞條、數(shù)字等等,大數(shù)據(jù)數(shù)據(jù)更容易理解的是一些定性數(shù)據(jù)和量化數(shù)據(jù),定性數(shù)據(jù)比如:大小、高低、長短、好壞等等,定量數(shù)據(jù)阿拉伯?dāng)?shù)字比如:100萬,1個等等。數(shù)據(jù)理解和使用也要結(jié)合使用者個人知識結(jié)構(gòu)、教育水平、喜好,甚至宗教信仰,讓使用數(shù)據(jù)者對數(shù)據(jù)理解和看法不同,筆者認為什么都可能是大數(shù)據(jù)數(shù)據(jù),數(shù)據(jù)使用者認知水平的提高就會讓使用數(shù)據(jù)的人本身理解數(shù)據(jù)的內(nèi)涵和外延不同,計算機技術(shù)的發(fā)展也會讓數(shù)據(jù)的內(nèi)涵和外延不同。大數(shù)據(jù)數(shù)據(jù)不管存在任何形式、含義、大小、難易都應(yīng)統(tǒng)稱為大數(shù)據(jù)的數(shù)據(jù)。
應(yīng)用大數(shù)據(jù)中數(shù)據(jù)能力更是使用者的認知水平、理解水平,哲學(xué)水平、語文水平、尤其是邏輯思維水平中重要能力,同時需要改變認識數(shù)據(jù)、收集數(shù)據(jù)、分析數(shù)據(jù)的思維[10]??梢缘贸鼋Y(jié)論大數(shù)據(jù)數(shù)據(jù)的內(nèi)涵和外延是由使用數(shù)據(jù)者認知水平?jīng)Q定,大數(shù)據(jù)的數(shù)據(jù)是由使用數(shù)據(jù)者定義。
03/大數(shù)據(jù)屬性和使用方法
大數(shù)據(jù)屬性是以各種形式量級存在,筆者認為大數(shù)據(jù)數(shù)據(jù)一個數(shù)字就是一個數(shù)據(jù),兩個數(shù)據(jù)就是兩個數(shù)據(jù),三個數(shù)據(jù)就可以稱為大數(shù)據(jù)。一、二個數(shù)據(jù)不能稱為大數(shù)據(jù)是因為不能使用,是由現(xiàn)階段計算機和網(wǎng)絡(luò)技術(shù)決定的,隨著計算機和網(wǎng)絡(luò)技術(shù)提高一定程度才可以決定是否可以使用。三個數(shù)據(jù)稱為大數(shù)據(jù)也是指應(yīng)用,三個數(shù)據(jù)就可以應(yīng)用在大數(shù)據(jù)技術(shù)上。
大數(shù)據(jù)是建立在計算機技術(shù)基礎(chǔ)上全新應(yīng)用科學(xué),大數(shù)據(jù)不同于以往任何科學(xué)技術(shù),大數(shù)據(jù)理論計算機應(yīng)用前人類沒有任何論述,人類大數(shù)據(jù)使用會伴隨計算機技術(shù)和網(wǎng)絡(luò)技術(shù)提高不斷完善。
目前,大數(shù)據(jù)研究的熱潮,更是一種科學(xué)技術(shù)應(yīng)用初期的學(xué)術(shù)探索,當(dāng)下研究的大數(shù)據(jù)包括兩種概念:1、大數(shù)據(jù)的數(shù)據(jù)量大就是大數(shù)據(jù);2、大數(shù)據(jù)技術(shù)方法。
筆者認為大數(shù)據(jù)是一門應(yīng)用科學(xué)技術(shù)。我們從應(yīng)用科學(xué)技術(shù)角度談?wù)劥髷?shù)據(jù)技術(shù),應(yīng)用科學(xué)關(guān)鍵在于使用,簡述大數(shù)據(jù)使用方法為DATA+MODEL+COMPUTER(簡稱DMC),即:數(shù)據(jù)+模型+計算機技術(shù)=大數(shù)據(jù)技術(shù)。
大數(shù)據(jù)應(yīng)用關(guān)鍵是數(shù)據(jù)采集、數(shù)據(jù)標(biāo)示、數(shù)據(jù)應(yīng)用方法,數(shù)據(jù)使用方法需要建立計算機計算模型,計算機計算模型可以稱為數(shù)據(jù)模型或需求模型或需求數(shù)據(jù)模型,采集獲得的數(shù)據(jù)應(yīng)用計算機技術(shù)讓數(shù)據(jù)運算運行在軟件編程的需求模型上,大數(shù)據(jù)是數(shù)據(jù)應(yīng)用在計算機技術(shù)基礎(chǔ)上的科學(xué)技術(shù),可以說大數(shù)據(jù)是計算機技術(shù)擴展和延伸。
04/大數(shù)據(jù)適合應(yīng)用領(lǐng)域
大數(shù)據(jù)技術(shù)是研究應(yīng)用數(shù)據(jù)方法和未來數(shù)據(jù)應(yīng)用方向的應(yīng)用科學(xué),大數(shù)據(jù)技術(shù)研究需要相關(guān)屬性基礎(chǔ)數(shù)據(jù)支持,這里的屬性是指屬性數(shù)據(jù)未來應(yīng)用方向,研究相關(guān)屬性數(shù)據(jù)研判未來發(fā)展方向和預(yù)測屬性數(shù)據(jù)通過大數(shù)據(jù)技術(shù)研判未來發(fā)展方向的可能概率,研究實質(zhì)是研究事物未來趨勢發(fā)展可能性,大數(shù)據(jù)是預(yù)測未來的科學(xué)應(yīng)用數(shù)據(jù)技術(shù)。
人性萬事萬物發(fā)展有本質(zhì)規(guī)律,人性是心跡,事物是規(guī)律,心跡是趨勢,趨勢也是規(guī)律,規(guī)律就是可能。數(shù)據(jù)是人和萬物發(fā)展過程產(chǎn)生的資源數(shù)據(jù),資源數(shù)據(jù)按照心跡規(guī)律生產(chǎn)出來,資源數(shù)據(jù)內(nèi)涵是心跡和規(guī)律,資源數(shù)據(jù)外延表達和反映的是心跡和規(guī)律趨勢方向。
大數(shù)據(jù)是應(yīng)用科學(xué),按照數(shù)據(jù)特點的內(nèi)涵和外延有適合領(lǐng)域和優(yōu)勢領(lǐng)域。總結(jié)歸納大數(shù)據(jù)最適合應(yīng)用方向和應(yīng)用領(lǐng)域是為了預(yù)判行為趨勢和進行事物質(zhì)量預(yù)測與控制。大數(shù)據(jù)技術(shù)適合應(yīng)用領(lǐng)域具體說是:人體疾病預(yù)防監(jiān)測、健康關(guān)懷、銀行用戶資信評估與應(yīng)用、國家安全恐怖監(jiān)測與預(yù)警、工業(yè)領(lǐng)域質(zhì)量監(jiān)控等,筆者專業(yè)是醫(yī)學(xué)領(lǐng)域,未來會在醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域開展更多理論研究。
作者簡介:
徐立水,男,學(xué)士,住院醫(yī)師,醫(yī)信天下互聯(lián)網(wǎng)醫(yī)學(xué)疾病分類標(biāo)準(zhǔn)委員會主任,大數(shù)據(jù)研究
辛敏,男,碩士,大數(shù)據(jù)研究,醫(yī)信天下互聯(lián)網(wǎng)醫(yī)學(xué)疾病分類標(biāo)準(zhǔn)委員會委員
參考文獻:
[1]朱東華,張嶷,汪雪鋒,等.大數(shù)據(jù)環(huán)境下技術(shù)創(chuàng)新管理方法研究.科學(xué)學(xué)與科學(xué)技術(shù)管理,2013, 34(04):172-175
[2]王忠.美國推動大數(shù)據(jù)技術(shù)發(fā)展的戰(zhàn)略價值及啟示.中國發(fā)展觀察,2012,6: 44-46
[3]John Gantz, David Reinsel. The Digital Universe in 2020:Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. Idc Iview Idc Analyze the Future,2012.12
[4]國務(wù)院關(guān)于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知.國發(fā)〔2015〕50 號
[5]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考.戰(zhàn)略與決策研究, 2012,27(6): 647-657
[6]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用.國防科技,2013,34 (2):10-17
[7]朱揚勇,熊赟.大數(shù)據(jù)是數(shù)據(jù)、技術(shù),還是應(yīng)用.大數(shù)據(jù),2015,1: 701-711
[8]鄔賀銓.大數(shù)據(jù)時代的機遇與挑戰(zhàn).求是,2013,04
[9]李國杰.大數(shù)據(jù)研究的科學(xué)價值.中國計算機學(xué)會通訊,2012,8(9): 8-15
[10]李金昌.大數(shù)據(jù)與統(tǒng)計新思維.統(tǒng)計研究,2014,31(1): 10-15
責(zé)任編輯:王培