国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁 自媒自媒體大數(shù)據(jù)文摘正文

如何把各類難題變得數(shù)據(jù)可解?Get與數(shù)據(jù)科學(xué)家聊天的正確姿勢

  很多人通常很難問出合適的數(shù)據(jù)科學(xué)問題。這是因?yàn)樗麄冞€沒有弄清楚問題如何用數(shù)據(jù)解決方案來解決。數(shù)據(jù)科學(xué)工具起初可能看起來非常有限,但是我們可以將大多數(shù)真實(shí)世界的問題改成我們數(shù)據(jù)科學(xué)的語言。在一個(gè)數(shù)據(jù)驅(qū)動(dòng)的環(huán)境下,如何有效的利用數(shù)據(jù)科學(xué),如何提出數(shù)據(jù)科學(xué)可以解決的問題非常重要。

  我們將學(xué)習(xí)過程分為6個(gè)目的,每個(gè)目的都有相關(guān)問題。作為數(shù)據(jù)的科學(xué)家,這些問題是我們可以提問,解決,以及分享洞見。

  記憶-何人,何事,何地,或者事情是什么時(shí)候發(fā)生的?

  理解-你可以總結(jié)出發(fā)生了什么?

  應(yīng)用–如果…那將會(huì)發(fā)生什么?

  分析-關(guān)鍵部分是什么以及它們的聯(lián)系......?

  評價(jià)-這是最好的方法嗎?

  創(chuàng)造-你可以預(yù)測在新的情況下會(huì)發(fā)生什么嗎?

  可用的工具

  (從業(yè)人員可能想跳過這段)

  數(shù)據(jù)科學(xué)行業(yè)里有很多工具,但你可以把它們分解成幾個(gè)部分。

  1)R/Python/SQL/EtcR/Python/SQL等軟件

  我們可以使用SQL,R,Python等進(jìn)行數(shù)據(jù)操作來搜索和匯總數(shù)據(jù)。

  這些軟件使我們可以解決“記憶”和“理解”的問題,比如“我的最大用戶最后一次交易是什么時(shí)候?”

  2)假設(shè)檢驗(yàn)(Hypothesis Testing)

  我們只是將一系列數(shù)據(jù)分類,但這并不意味著我們發(fā)現(xiàn)了其中的聯(lián)系。假設(shè)檢驗(yàn)告訴我們我們的數(shù)據(jù)是否適用于新的情況,比如:“貓的照片能比狗的照片帶來更多流量嗎?”

  3)情景分析

  情景分析在各種條件下分析了許多種可能的未來結(jié)果。我們創(chuàng)造了許多可能的情景,然后預(yù)測會(huì)發(fā)生什么?!叭绻覀兲岣弋a(chǎn)品的價(jià)格會(huì)導(dǎo)致怎樣的結(jié)果?”

  4)最優(yōu)化

  最優(yōu)化是一個(gè)巨大的領(lǐng)域,但它通常要求簡單,卻很難回答,比如最大化和最小化的問題?!笆裁礃拥墓?yīng)路線能降低派送包裹的成本?”

  5)增強(qiáng)學(xué)習(xí)

  強(qiáng)化學(xué)習(xí)觀察數(shù)據(jù),和實(shí)時(shí)優(yōu)化的結(jié)果。“在FlappyBird游戲中我應(yīng)該什么時(shí)候點(diǎn)擊繼續(xù)?”

  6)統(tǒng)計(jì)建模與機(jī)器學(xué)習(xí)

  因?yàn)檫@些是巨大的領(lǐng)域,可能會(huì)比較麻煩我們來看幾個(gè)主要的任務(wù):

  分類、回歸-“有多少…?”“什么類型…?”

  特征選取-“哪些變量是有關(guān)的?”

  降維-“哪些是我的數(shù)據(jù)中的關(guān)鍵組成部分?”

  群集-“我可以將我的數(shù)據(jù)進(jìn)行分類嗎?”

  異常檢測-“這個(gè)觀測數(shù)據(jù)奇怪嗎?”

  7)分類與回歸

  分類和回歸回答了“我的數(shù)據(jù)之間,一個(gè)或多個(gè)結(jié)果之間有關(guān)聯(lián)嗎”這樣的問題。分類的重點(diǎn)在于預(yù)測組,“這是A還是B?”。回歸則側(cè)重于數(shù)量“結(jié)果的多少還是組別的多少”

  8)特征選取

  特征選取中辨認(rèn)出數(shù)據(jù)中的哪些特征是和結(jié)果有關(guān)的。想像我們要辨認(rèn)一種水果是蘋果還是橙子,我們采用數(shù)據(jù)特征中的顏色和甜度作為水果的特征。一個(gè)特征選取算法可以縮小顏色范圍作為有用的辨認(rèn),因?yàn)樘O果和橙子都是甜的。

  9)降維

  降維需要獲取數(shù)據(jù),將維數(shù)降低了。這就像圖像壓縮,我們使用更少的信息顯示相同的圖像。想象我們有關(guān)于一次性叉子,刀和盤子銷售的數(shù)據(jù)。降維可能會(huì)顯示一列一次性餐具的銷售情況。我們大概可以問“我銷售數(shù)據(jù)中的關(guān)鍵模式是什么?”

  10)群集

  群集試圖采集數(shù)據(jù)并將類似的觀察數(shù)據(jù)自動(dòng)組合在一起。我們可以組織和處理數(shù)據(jù)成為幾種類型的觀察數(shù)據(jù)。我們問“我是否有確切類型的客戶,或者他們都是獨(dú)一無二的?”

  11)異常檢測

  異常檢測回答觀察數(shù)據(jù)是否屬于數(shù)據(jù)集。我們大約問道“這個(gè)溫度讀數(shù)是正常的還是不正常的?”重要的是,我們經(jīng)常可以簡化這個(gè)問題。異常檢測就像是“這是否正常?”的這樣分類問題一樣。

  它們?nèi)绾谓Y(jié)合在一起?

  我列出了常用數(shù)據(jù)科學(xué)問題。每個(gè)問題都是與共同的數(shù)據(jù)科學(xué)技術(shù)協(xié)作的另一種改述。問題是從最簡單的答案到最困難排序的。

  1)記憶-何人,何事,何地,或者事情是什么時(shí)候發(fā)生的?

  我們通過使用SQL,R,Python等軟件進(jìn)行數(shù)據(jù)采集和操作來回答問題。

  某位用戶用什么瀏覽器瀏覽這個(gè)網(wǎng)站?

  我們發(fā)現(xiàn)在我們的數(shù)據(jù)中用戶會(huì)使用SQL,R,或Python來收集數(shù)據(jù)關(guān)于曾使用什么瀏覽器。

  那些用戶是這么發(fā)現(xiàn)這個(gè)網(wǎng)站的?

  我們發(fā)現(xiàn)在我們的數(shù)據(jù)中用戶會(huì)使用SQL、R、或者Python語言軟件來記錄流量來源。

  2)理解-你可以總結(jié)出發(fā)生了什么嗎?

  我們通過整合或匯總數(shù)據(jù)回答這類問題。

  我的用戶傾向于使用什么瀏覽器?

  同樣,通過使用SQL,R,or Python軟件我們可以從瀏覽器數(shù)據(jù)結(jié)果中得出用戶的數(shù)量。

  3)應(yīng)用-當(dāng)…時(shí)候發(fā)生了什么?

  我們回答應(yīng)用問題是需要用我們的結(jié)果來概括。假設(shè)檢驗(yàn),交叉驗(yàn)證和實(shí)驗(yàn)方法是確保歸納的技術(shù)。

  在太陽下照射的時(shí)間與植物的高度兩者之間有關(guān)系嗎?

  這是一個(gè)回歸問題,Y=f(X).Y代表植物的高度,f代表表示俘獲關(guān)系的任意模型,X是植物的陽光照射時(shí)長。

  這個(gè)空調(diào)會(huì)在未來三年后會(huì)失效:是或否?

  這是一個(gè)分類問題,Y=f(X).Y={失敗,沒有失敗}.F代表俘獲關(guān)系的任意模型.X是記錄空調(diào)故障歷史記錄和相關(guān)特征的數(shù)據(jù).

  這個(gè)圖像是哪種動(dòng)物?

  這也是個(gè)分類問題,Y=f(x),有時(shí)叫做多類分類問題。Y={狗,貓,馬,其他}.f代表任意模型。數(shù)據(jù),X,將圖像編碼成表格形式的圖像。

  那位顧客會(huì)不會(huì)購買?

  這是一個(gè)分類問題Y=f(X),Y={買,不買}.X是有關(guān)顧客購買習(xí)慣的數(shù)據(jù)。許多算法能夠給你的概率歸入一個(gè)特定的類。

  這是銀行交易欺詐嗎?

  這是一個(gè)分類問題Y=f(x).Y={欺詐,不欺詐}.X是銀行交易數(shù)據(jù).異常檢測也可以解決這個(gè)問題。即使沒有過去的數(shù)據(jù)來分辨?zhèn)瘟訕?biāo)簽,異常檢測也可能會(huì)起作用,但這是一個(gè)困難的問題。

  4)分析-關(guān)鍵部分是哪些和它們的關(guān)系..?

  回答并分析問題,你可以將數(shù)據(jù)打破并查找方式。特征選取,降維和群集是關(guān)鍵工具。

  最能預(yù)測電力需求是什么因素?

  這是特征選擇的回歸問題,Y=f(X)。Y=需要的電量。f代表俘獲您的數(shù)據(jù)和所需電力之間關(guān)系的任何模型。X可能是價(jià)格,溫度,季節(jié),地區(qū)和諸多特征量。我們需要找到最重要的因素來使用特征選擇來減少不能預(yù)測電力需求的因素。

  蘋果和橘子之間的主要差異是什么?

  這是特征選取的分類問題,Y=f(X)。Y={蘋果,橘子}。f表示俘獲數(shù)據(jù)關(guān)系的任何模型。X具有諸如高度,重量,顏色,味道和韌性等許多特征。特征選取找到區(qū)分蘋果和橘子的最佳特征。

  我的暖通空調(diào)系統(tǒng)中的哪組傳感器往往會(huì)隨著(和反對)彼此而變化?

  這是屬于群集問題,因?yàn)槲覀儗㈩愃频膫鞲衅鞅舜私M合。我們使用傳感器將數(shù)據(jù)組織為行和“讀取時(shí)間”作為列。

  我的暖通空調(diào)系統(tǒng)中的什么傳感器組合將最好地顯示系統(tǒng)的整體健康狀況?

  這是降維問題。我們收集了大量數(shù)據(jù),并將其轉(zhuǎn)化為一些關(guān)鍵的績效指標(biāo)。既然這樣,我們組織數(shù)據(jù)關(guān)于不同的傳感器作為不同的列。

  哪些觀眾喜歡同樣的電影?

  有點(diǎn)奇怪,因?yàn)槲覀儑L試分組類似的用戶和類似的電影。這是典型的推薦引擎。我們也可以編寫一個(gè)更簡單的應(yīng)用程序,“這個(gè)用戶會(huì)喜歡這組電影嗎”甚至更簡單的說“這個(gè)用戶喜歡這部電影嗎”?

  成功的CEO的共同點(diǎn)是什么?

  起初這似乎屬于分組問題。但如果你在字里行間仔細(xì)分析就會(huì)得到關(guān)鍵的差異。所有成功的CEO要吃飯,所有不成功的CEO也都要吃飯。我們對預(yù)測成功的結(jié)果更感興趣。

  5)評估-這是最好的途徑嗎?

  如果需要回答“評估”類問題,您需要將您的數(shù)據(jù)背景推斷成復(fù)雜的假設(shè)情況下。

  我們可以通過不同的產(chǎn)品定價(jià)來更好地節(jié)約資金嗎?

  這可以歸屬于情景分析。我們提出了幾種定價(jià)方案,然后使用模型預(yù)測其影響。這可能涉及到分類,回歸和批判性思維。

  6)創(chuàng)建-您可以預(yù)測在新條件下會(huì)發(fā)生什么事情嗎?

  “創(chuàng)建”問題要求您創(chuàng)建新的最佳解決方案。

  我的送貨車應(yīng)該采取什么路線?

  這是眾所周知的優(yōu)化問題。主要標(biāo)準(zhǔn)是盡量減少花費(fèi)在燃料上的資金,并同時(shí)及時(shí)交付所有物品。

  我們應(yīng)該在哪里設(shè)置新的位置?

  在這里,我們需要根據(jù)具體標(biāo)準(zhǔn)進(jìn)行優(yōu)化。簡單的一項(xiàng)是利潤最大化,但在現(xiàn)實(shí)中,需要更多的去考慮。編寫優(yōu)化是我們需要能夠評估的位置。這需要我們回到應(yīng)用,分析和評估階段。

  我應(yīng)該把這個(gè)廣告在網(wǎng)頁上的何處,以便觀眾是最有可能點(diǎn)擊它的?

  您可以將其寫為優(yōu)化,但會(huì)有更好的選擇。在廉價(jià)的移動(dòng)廣告周圍并看看它如何執(zhí)行。這意味著我們可以嘗試,而不是提前做決定。嘗試定位廣告和測試其有效性。您甚至可以通過A/B測試或強(qiáng)化學(xué)習(xí)自動(dòng)化此過程。

  我的自動(dòng)冷卻和加熱系統(tǒng)是否應(yīng)該將溫度調(diào)節(jié)到更高,更低,還是保持不變?

  這是強(qiáng)化學(xué)習(xí)應(yīng)用非常好的領(lǐng)域。您的冷卻系統(tǒng)可以根據(jù)輸入的數(shù)據(jù)進(jìn)行調(diào)整,如電價(jià),時(shí)間,您的偏好。

  有一句話:“當(dāng)我們有錘子時(shí),一切都將被當(dāng)作是釘子”。

  這樣是不行的。我們應(yīng)該先問對問題。被我們使用的數(shù)據(jù)和工具搞的暈頭轉(zhuǎn)向,而使我們忘記了也許還可以解決更廣泛的問題。

  從簡單到困難都是連續(xù)的數(shù)據(jù)問題,提出許多小問題,持續(xù)進(jìn)步,最終會(huì)引導(dǎo)你獲得從未想到的深刻見解。

  原作者 |?Alexander Egorenkov

  編譯 | 張?zhí)旖?,笪潔?/p>

責(zé)任編輯:陳近梅

分享: