国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁 資訊正文

大數(shù)據(jù)價值挖掘的難點和重點:非結(jié)構(gòu)化數(shù)據(jù)處理

  大數(shù)據(jù)分析和應(yīng)用得到了各個行業(yè)的關(guān)注,人們試圖從大量數(shù)據(jù)中發(fā)現(xiàn)蘊含的模式和規(guī)律,進而產(chǎn)生更多的價值,“數(shù)據(jù)”作為分析對象在這個過程中所起到的作用是決定性的。本文對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、關(guān)系型數(shù)據(jù)庫、實體關(guān)系圖、數(shù)據(jù)模型等我們熟悉的概念進行剖析,說明它們之間的聯(lián)系和區(qū)別。指出非結(jié)構(gòu)化數(shù)據(jù)處理是大數(shù)據(jù)分析技術(shù)的難點和重點,是提升大數(shù)據(jù)價值挖掘深度的寶劍,在大數(shù)據(jù)的教學、研究、學習和應(yīng)用開發(fā)中,圍繞非結(jié)構(gòu)化數(shù)據(jù)處理應(yīng)當成為核心和重點。

  數(shù)據(jù)這個概念對于每個人來說,是再熟悉不過的,我們生活在數(shù)據(jù)的世界里,在將來智能發(fā)達的時代里更是一刻也離不開數(shù)據(jù)。然而在千變?nèi)f化的各種數(shù)據(jù)中,是否存在一些穩(wěn)定不變的本質(zhì)?在變化中尋找不變是科學探索的一條重要思維原則。

  各種形式的數(shù)據(jù)可以歸結(jié)為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三大種類。它們的區(qū)別在于數(shù)據(jù)的表示是否存在預先定義好的數(shù)據(jù)模型,因此什么是數(shù)據(jù)模型是深入理解大數(shù)據(jù)的關(guān)鍵。數(shù)據(jù)模型是一種抽象模型,用于表達數(shù)據(jù)含義的構(gòu)成單元及其它們之間相互關(guān)系、數(shù)據(jù)與現(xiàn)實世界之間的對應(yīng)關(guān)系。

  數(shù)據(jù)模型包括三種相對獨立的層次上的模型。

  一是物理數(shù)據(jù)模型,表示了數(shù)據(jù)在計算機中存儲的物理結(jié)構(gòu),通常是數(shù)據(jù)庫中的分區(qū)、表空間、段、文件等。

  二是邏輯數(shù)據(jù)模型,表示了數(shù)據(jù)在計算機中進行計算處理的邏輯結(jié)構(gòu),通常是數(shù)據(jù)表、列、對象、符號、樹等。通常所說的數(shù)據(jù)結(jié)構(gòu)是在計算機中高效存取和運算數(shù)據(jù)的一種表示方法,是邏輯數(shù)據(jù)模型的組織形式,選擇好一個數(shù)據(jù)結(jié)構(gòu)能加快計算過程。

  三是概念數(shù)據(jù)模型,表示了數(shù)據(jù)所表達的事實,即它們與現(xiàn)實世界的關(guān)系,通常是實體、屬性、實體關(guān)系等。有時候也稱為語義數(shù)據(jù)模型,是數(shù)據(jù)在現(xiàn)實世界的真實表示。

  例如對于計算機來說,“圖書”只是一個字符串,如何讓計算機知道它所代表的現(xiàn)實含義,這就需要數(shù)據(jù)模型要能夠表達數(shù)據(jù)與現(xiàn)實世界的映射關(guān)系,由此,可能要告訴計算機出版社印刷的那種東西,進一步要告訴計算機什么是“出版社”。

  在邏輯數(shù)據(jù)模型方面,對于數(shù)據(jù)庫管理系統(tǒng)(SQL、NoSQL)來說,其實現(xiàn)的邏輯數(shù)據(jù)模型包括單表模型、層次模型、網(wǎng)絡(luò)模型、關(guān)系模型等,后兩者分別對應(yīng)于我們非常熟悉的圖數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫。但是,不管是層次、網(wǎng)絡(luò)、關(guān)系或其他類型的邏輯數(shù)據(jù)模型,都無法完全滿足數(shù)據(jù)的概念定義要求。這是因為它所能表達的范圍是有限的,并且偏向于DBMS所使用的實現(xiàn)策略。

  在概念數(shù)據(jù)模型方面,實體關(guān)系模型是廣泛被接受的模型之一,用于軟件工程中表示結(jié)構(gòu)化數(shù)據(jù)。通常使用圖形方式來表達,如圖所示是一個實體關(guān)系模型例子。

  “圖書”作為一種邏輯數(shù)據(jù)模型,由“書名”、“作者”、“出版社”、“出版日期”等單元構(gòu)成,“作者”、“出版社”也具有各自的實體描述。這種結(jié)構(gòu)化數(shù)據(jù)形式可以轉(zhuǎn)化為關(guān)系型數(shù)據(jù)庫中的表,如book(name,author,publisher,publish_date),存儲到該表中的圖書具有統(tǒng)一的預先設(shè)定好的模型。不管是曾劍平編著的書,還是吳軍編著的書,最后都必須結(jié)構(gòu)化為如下四元組的形式。

  結(jié)構(gòu)化數(shù)據(jù):

  (互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用,曾劍平,清華大學出版社,2017)

 ?。〝?shù)學之美,吳軍、人民郵電出版社,2014)

  而對于非結(jié)構(gòu)化數(shù)據(jù)的表述方式,則不存在這樣的結(jié)構(gòu)。由于缺乏統(tǒng)一的結(jié)構(gòu)限制,同樣的含義就有不同的敘述方式,以下的文本表述就表達了同樣的含義。

  非結(jié)構(gòu)化數(shù)據(jù):

  “《互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用》一書是由曾劍平編著,并由清華大學出版社于2017年出版?!?/p>

  “曾劍平編著了《互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用》一書,并于2017年由清華大學出版社出版?!?/p>

  “清華大學出版社于2017年出版了曾劍平編著的《互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用》一書?!?/p>

  等等。

  半結(jié)構(gòu)化數(shù)據(jù)具有自描述的數(shù)據(jù)模型。

  半結(jié)構(gòu)化數(shù)據(jù):

 ?。〞夯ヂ?lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用;作者:曾劍平;出版社:清華大學出版社;出版日期:2017)

  這里的書名、作者、出版社、出版日期就是自描述標簽。

  可見,結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的最主要區(qū)別在于是否存在預先定義好的數(shù)據(jù)模型,更確切的說是概念數(shù)據(jù)模型。結(jié)構(gòu)化數(shù)據(jù)能夠用統(tǒng)一的某種結(jié)構(gòu)加以表示,離開了這種結(jié)構(gòu),數(shù)據(jù)就沒有意義;非結(jié)構(gòu)化數(shù)據(jù)沒有概念數(shù)據(jù)模型形式的限制,可以自由表達;而半結(jié)構(gòu)化數(shù)據(jù)具有某種結(jié)構(gòu),但是數(shù)據(jù)本身帶有結(jié)構(gòu)的含義。

  非結(jié)構(gòu)化數(shù)據(jù)包含了文本、圖象、聲音、影視、超媒體等典型信息,在互聯(lián)網(wǎng)上的信息內(nèi)容形式中占據(jù)了很大比例。隨著“互聯(lián)網(wǎng)+”戰(zhàn)略的實施,將會有越來越多的非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生,據(jù)預測,非結(jié)構(gòu)化數(shù)據(jù)將占據(jù)所有各種數(shù)據(jù)的70-80%以上。結(jié)構(gòu)化數(shù)據(jù)分析挖掘技術(shù)經(jīng)過多年的發(fā)展,已經(jīng)形成了相對比較成熟的技術(shù)體系。也正是由于非結(jié)構(gòu)化數(shù)據(jù)中沒有限定結(jié)構(gòu)形式,表示靈活,蘊含了豐富的信息。因此,綜合看來,在大數(shù)據(jù)分析挖掘中,掌握非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)是至關(guān)重要的。

  其挑戰(zhàn)性問題在于語言表達的靈活性和多樣性,具體的非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)包括:

  (1)Web頁面信息內(nèi)容提?。?/p>

 ?。?)結(jié)構(gòu)化處理(含文文本的詞匯切分、詞性分析、歧義處理等);

  (3)語義處理(含實體提取、詞匯相關(guān)度、句子相關(guān)度、篇章相關(guān)度、句法分析等)

 ?。?)文本建模(含向量空間模型、主題模型等)

 ?。?)隱私保護(含社交網(wǎng)絡(luò)的連接型數(shù)據(jù)處理、位置軌跡型數(shù)據(jù)處理等)

  等等。

  這些技術(shù)所涉及的技術(shù)較廣,在情感分類、客戶語音挖掘、法律文書分析等等許多領(lǐng)域都有廣泛的應(yīng)用價值。

責任編輯:陳近梅

分享: