国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁 自媒自媒體大數據文摘正文

CRA簡報:計算研究與數據科學的新興領域

  我們收集、處理、分析和使用大量數據的能力對社會的各個方面都產生了深遠的影響。這種轉變導致了新興學科數據科學的出現。諸多領域對數據科學的興趣呈現爆炸式的增長,包括社會科學、自然科學和物理學等領域,涉及空前的規(guī)模和多樣性的數據,通過集聚大量的操作和行為的信息來產生新的服務或收入來源的產業(yè)以及需要利用數據更好地造福社會的政府、社會服務和非營利機構。

  這一新興學科依賴于數學和統(tǒng)計建模,計算思維和方法,數據表示和管理和被研究領域專業(yè)知識的新的融合。雖然計算領域已經提供了許多支持數據科學的應用原則、工具和技術和諸多案例,計算機科學界也有機會作出新的研究進一步推動該領域的發(fā)展。此外,學界也有義務制定數據科學應用的發(fā)展指導方針。

  包括統(tǒng)計,數學,社會科學,自然科學和計算機科學等在內的多個領域為數據科學的誕生奠定了一套強大的基礎。事實上,傳統(tǒng)的計算機科學研究的各個方面都在數據科學的發(fā)展中起到了作用。放眼未來,數據科學也將引領全新的計算研究。

  從數據管理的角度來看,數據科學需要在如何獲取,存儲和訪問數據方面有更深的理解和表現,對數據世系、數據質量、質量保證、數據集成、存儲、隱私和安全都需要有更深入的思考。傳統(tǒng)獲取和存儲數據的方式在處理告訴或敏感的數據時可能不能奏效。

  從計算的角度來看,非常大的數據量,非常高的數據速率,和非常大的用戶數都需要的新的系統(tǒng)和新的算法。新的系統(tǒng)架構可以適應數據異質性和不規(guī)則的結構,這些在數據訪問和通信中也必要的。從算法的角度,我們需要有線性算法,在線算法,支持實時數據流,和概率和隨機的方法來應對數據的規(guī)模和數據中的噪聲。

  此外,許多經典的統(tǒng)計假設和機器學習技術不適合目前的數據科學的需求。數據越是自然來源的越有可能是有偏見的、不完整和高度異質性。時間跨度長且來源廣泛的數據的拼接會導致自動采集的數據和不一致從而帶來系統(tǒng)錯誤給建模方面帶來了深遠的挑戰(zhàn),也給新的統(tǒng)計方法和機器學習算法帶來機遇。即使對于“小數據”,新的應對數據異質性和數據采集偏倚的方法也是需要的。雖然預測建模至關重要,但是許多數據科學也涉及決策以及根據行動的變化做出推理的能力。此外,理解維度災難,過擬合和復雜設置下的因果關系也是關鍵的。

  數據規(guī)模和異質性的挑戰(zhàn)也從根本上改變用戶如何與數據和模型相互作用:如何將數據可視化,支持數據科學模型結果的理解和解釋需要什么算法,如何做出決策,以及如何獲得和整合用戶反饋。人機交互和可視化分析將需要更緊密的整合數據科學模型和算法。自然語言處理,語音,計算機視覺和其他人機通信模式的新案例也將隨之出現。

  由于數據科學系統(tǒng)往往被嵌入在需求和分布不斷變化的操作系統(tǒng)中,支持整個數據科學的生命周期是很重要的。確保管道的各個方面的魯棒性是重要的。我們需要開發(fā)新的軟件工程和計算機編程的最優(yōu)化方法。此外,古董數據儲存的時間往往比最初計劃使用更長,所以數據長期的維護和管理也必須得到解決。

  以上的研究課題,以及許多其他的研究課題,都需要對系統(tǒng)、計算和機器智能方面的基礎研究。

  此外,像在許多其他領域的同行那樣,計算研究人員日益成為科學數據的用戶,正如許多計算機科學的分支那樣(包括計算機體系結構、網絡、軟件工程、視覺、機器人、教育和用戶建模),日益數據驅動化。保障價值和重復性方面我們需要借鑒之前的經驗方法,包括適當的數據管理、嚴格的系統(tǒng)建模、測量和分析,以及對結果的呈現和解讀的完整方法。訓練所有的計算研究人員掌握基本數據科學技能已經正變得越來越重要。

  讓我們把眼光放得更遠,數據科學為工業(yè)界、學術界和政府之間的理論和應用研究的創(chuàng)造性合作提供了新的機會。除了贊助研究,行業(yè)合作伙伴還可以提供有價值的見解,諸如在實際問題、數據獲取,驗證理論在規(guī)模數據或自然數據應用的能力以及以互補的方式尋求解決方案方面。學術界,反過來,可以提供創(chuàng)新的解決方案和軟件,新的算法和替代方法的原則性分析。學術界也可以培養(yǎng)訓練有素的數據科學骨干,滿足行業(yè)的需求,并幫助合作伙伴探索尖端研究。這些合作伙伴關系也將有助于揭示數據科學的政策問題,相關的偏見,數據隱私,知識產權,使用適當性和監(jiān)管問題。開放數據的提議和開源軟件運動特別適合于數據科學,并將幫助使得其實現商業(yè)化和發(fā)揮影響??傊I(yè),學術和政府數據科學的合作將有助于推動相互協(xié)作的新的模型。

  最后,雖然數據科學提供了通過提高數據利用率以提高科學研究和決策許多新的機會,這些使用也帶來了新的挑戰(zhàn)。產生的數據語境及其使用的應用程序對數據科學的準確、公平和倫理要求也十分重要。這些數據科學的相關工作需要在計算機科學的亞領域間以及和計算機科學的多學科之間的合作。無論是學科內的和跨學科的技能都需要互相學習和支持。數據的產生和收集變得無處不在,數據所有權的概念也在發(fā)展,許多法律和政策問題將需要在此境況下被重新的考量。

  為了了解如何符合倫理和負責任的使用和共享數據,計算機科學家需要協(xié)同領域的科學家、政策制定者和倫理學家以理解相關的風險和假設。例如,當回答有關個人和社會的問題(例如,在教育,經濟政策和治安)時了解數據科學背后的社會科學是很重要的。這些重要的問題包括隱私,公平和透明度。為了更好地參與和服務于數據科學相關的新興政策的探討,數據科學計算研究人員需要開發(fā)能夠兼顧道德、公平和責任的新的方法。

  總之,計算研究界迎來了一個在定義和塑造新興的數據科學領域的獨特機遇。與統(tǒng)計人員,數學家,社會科學家,數據分析師和結構科學家和學科專家一道,計算機科學家可以發(fā)展新的基礎理論,算法原則以及建立數據科學基石的系統(tǒng)。計算研究協(xié)也將致力于支持計算專業(yè)人員和其他人員為數據科學研究道德和責任的發(fā)展作出貢獻。

  編譯團隊|寒小陽 owen

  注:本稿件摘自數據觀入駐自媒體-大數據文摘,轉載請注明來源,百度搜索“數據觀”獲取更多大數據資訊。

責任編輯:湯德正

分享: