国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁 自媒自媒體 THU數(shù)據(jù)派正文

一文了解AI時(shí)代的數(shù)據(jù)風(fēng)險(xiǎn)(后真相時(shí)代、算法囚徒和權(quán)利讓渡)

當(dāng)今,在基于數(shù)據(jù)的個(gè)性化推薦算法機(jī)制滿足了人們獵奇心、窺探欲、表演欲,讓人們?cè)诰W(wǎng)絡(luò)中尋找到共鳴感和認(rèn)同感時(shí),我們未曾意識(shí)到一些新問題和新風(fēng)險(xiǎn)的出現(xiàn)。這些新問題和風(fēng)險(xiǎn)能夠影響個(gè)人對(duì)世界的認(rèn)知,影響群體達(dá)成共識(shí),甚至影響到整個(gè)時(shí)代的價(jià)值觀。根據(jù)清華新聞與傳播學(xué)院彭蘭教授的觀點(diǎn),目前數(shù)據(jù)時(shí)代所面臨的風(fēng)險(xiǎn)來自以下幾個(gè)方面:

客觀性數(shù)據(jù)可能成為后真相時(shí)代的另一種推手;

個(gè)性化算法雖然帶來了個(gè)人信息服務(wù)水平的提升,但也給人們帶來偏見、歧視、思想被禁錮等困擾;

相關(guān)權(quán)利保護(hù)則受到更多挑戰(zhàn),特別是在隱私權(quán)和被遺忘權(quán)方面。

下面,我們將進(jìn)行詳細(xì)解讀。

一文了解AI時(shí)代的數(shù)據(jù)風(fēng)險(xiǎn)(后真相時(shí)代、算法囚徒和權(quán)利讓渡)

?

風(fēng)險(xiǎn)一:大數(shù)據(jù)帶來的假象

2016年,《牛津英語詞典》將“后真相”(post-truth)作為年度詞匯,揭示世界進(jìn)入了后真相時(shí)代。羅輯思維曾對(duì)該名詞做出一個(gè)精辟的總結(jié):“過去,我們相信認(rèn)知源于事實(shí);現(xiàn)在,認(rèn)知本身就是事實(shí)”。

這其中原因,技術(shù)自然逃離不了干系。例如谷歌和臉書等公司開發(fā)的算法是基于用戶從前的搜索和點(diǎn)擊進(jìn)行的,隨著每次搜索和每次點(diǎn)擊,用戶就發(fā)現(xiàn)自己的偏見再次得到確認(rèn)。如今的社交媒體已成為大部分人獲得新聞信息的主要渠道,其中的推薦算法機(jī)制引導(dǎo)我們進(jìn)入觀念類似者的小群體空間內(nèi),它只為用戶提供他們喜歡、或選擇相信的信息,是否真實(shí)并不重要。

后真相現(xiàn)象提醒我們,數(shù)據(jù)與算法這些看上去客觀的手段與方法,并不一定能帶來更多真相,反而可能走向它的反面。如果應(yīng)用數(shù)據(jù)的過程不遵守一套完整的規(guī)范,或者在數(shù)據(jù)應(yīng)用中出現(xiàn)了漏洞而未能察覺,未來我們或許會(huì)被更多由貌似客觀的數(shù)據(jù)堆積成的假象所包圍。根據(jù)彭蘭教授的觀點(diǎn),數(shù)據(jù)生產(chǎn)的每一個(gè)步驟都存在導(dǎo)致假象的風(fēng)險(xiǎn):

1. 數(shù)據(jù)樣本偏差帶來的“以偏概全”

盡管已經(jīng)進(jìn)入到“大數(shù)據(jù)”時(shí)代,而大數(shù)據(jù)的賣點(diǎn)之一是“全樣本”,但事實(shí)上,在現(xiàn)實(shí)中,獲得“全樣本”并不是一件容易的事。

在國內(nèi),由于歷史原因,很多行業(yè)本身就缺乏完整、系統(tǒng)的數(shù)據(jù)積累,或者由于隱私、信息安全等問題,能公開的只有不完整的數(shù)據(jù)。譬如醫(yī)療行業(yè)和政府部門,如何打破信息孤島,在哪種程度范圍內(nèi)做到公開、透明、共享,依舊是急需攻克的難題。

至于互聯(lián)網(wǎng)數(shù)據(jù)則更是資源緊缺。目前互聯(lián)網(wǎng)數(shù)據(jù)都被少數(shù)擁有巨大流量的平臺(tái)壟斷,其他中小型企業(yè)由于先天數(shù)據(jù)不足的缺陷,只能依賴于網(wǎng)絡(luò)爬蟲從這些大平臺(tái)爬取數(shù)據(jù)。此前馬蜂窩被爆1800萬條以上的所謂真實(shí)用戶數(shù)據(jù)是抄襲自其他OTA平臺(tái),暴露了互聯(lián)網(wǎng)行業(yè)普遍數(shù)據(jù)造假的潛規(guī)則。所以,用戶所看到的對(duì)一個(gè)酒店或餐廳的好評(píng),并不一定是真實(shí)信息,很有可能由網(wǎng)絡(luò)機(jī)器人爬取而來。如果說數(shù)據(jù)缺失能夠?qū)е隆耙云湃?,?shù)據(jù)造假則是直接簡單粗暴地蒙蔽用戶了??傊?,行業(yè)數(shù)據(jù)可能存在樣本不完整的問題,這也必然對(duì)數(shù)據(jù)分析結(jié)果的完整性、代表性產(chǎn)生影響。

一文了解AI時(shí)代的數(shù)據(jù)風(fēng)險(xiǎn)(后真相時(shí)代、算法囚徒和權(quán)利讓渡)

2. “臟數(shù)據(jù)”帶來的污染

除了樣本的問題外,用各種方式獲取的數(shù)據(jù),本身質(zhì)量也可能存在問題。部分缺失的數(shù)據(jù)、重復(fù)的數(shù)據(jù)、失效的數(shù)據(jù)、造假的數(shù)據(jù)等,都被稱為 “臟數(shù)據(jù)”。盡管數(shù)據(jù)處理前都會(huì)要求數(shù)據(jù)清洗,但這未必能完全消除臟數(shù)據(jù)帶來的污染。某些數(shù)據(jù)分析者也可能因?yàn)橐恍┰驘o視臟數(shù)據(jù)的存在,甚至?xí)圃煲恍┡K數(shù)據(jù)。

此前人工智能對(duì)話系統(tǒng)微軟小冰剛上線時(shí),由于她是用實(shí)時(shí)對(duì)話的數(shù)據(jù)進(jìn)行訓(xùn)練的,所以用戶給她一些不好的對(duì)話后,導(dǎo)致小冰飆臟話就是數(shù)據(jù)污染的很直接例證。不久前,亞馬遜的AI招聘系統(tǒng)被爆出性別歧視也是同樣道理。從技術(shù)上講,機(jī)器學(xué)習(xí)過程不會(huì)引入任何偏差,但訓(xùn)練數(shù)據(jù)中存在的任何偏差都將在算法中忠實(shí)地展現(xiàn)出來。AI的性別歧視,只是成功模仿了亞馬遜當(dāng)前的招聘狀態(tài)。

因此,數(shù)據(jù)質(zhì)量永遠(yuǎn)是數(shù)據(jù)分析立項(xiàng)后首先要考慮的。首先要理解數(shù)據(jù)來源、數(shù)據(jù)統(tǒng)計(jì)和收集邏輯、數(shù)據(jù)入庫處理邏輯;其次是理解數(shù)據(jù)在數(shù)據(jù)倉庫中是如何存放的,字段類型、小數(shù)點(diǎn)位數(shù)、取值范圍,規(guī)則約束如何定義的;第三是明確數(shù)據(jù)的取數(shù)邏輯,尤其是從數(shù)據(jù)倉庫中如何用SQL取數(shù)的,其中特別是對(duì)數(shù)據(jù)有沒有經(jīng)過轉(zhuǎn)換和重新定義;第四是拿到數(shù)據(jù)后必須要有數(shù)據(jù)審查的過程,包括數(shù)據(jù)有效性驗(yàn)證、取值范圍、空值和異常值處理等。當(dāng)這些工作都做充足之后才能進(jìn)行下一步分析。

3. 數(shù)據(jù)分析模型偏差帶來的方向性錯(cuò)誤

在美國暢銷書《大規(guī)模殺傷數(shù)器:大數(shù)據(jù)如何加深不公和危害民主》中,作者提到現(xiàn)在的數(shù)據(jù)科學(xué)家,習(xí)慣用模擬的方式概括人類的行為,以群體畫像推導(dǎo)個(gè)人行為,依此判定。這本質(zhì)上沒有問題,問題出在反饋上:大部分的模型根本沒有矯正的環(huán)節(jié),如果模型的結(jié)果有偏差,系統(tǒng)本身無從得知,根據(jù)錯(cuò)誤結(jié)果持續(xù)優(yōu)化,最終反而變本加厲。此外,作者還認(rèn)為建立怎樣的數(shù)據(jù)分析模型取決于我們自己,我們的價(jià)值觀、我們的欲望,影響我們種種決策:收集哪些數(shù)據(jù),提起什么樣的問題。所謂的模型,是指內(nèi)嵌于數(shù)學(xué)的觀點(diǎn)。

一文了解AI時(shí)代的數(shù)據(jù)風(fēng)險(xiǎn)(后真相時(shí)代、算法囚徒和權(quán)利讓渡)

除了以上三個(gè)環(huán)節(jié)可能造成假象外,包括數(shù)據(jù)挖掘能力有限、數(shù)據(jù)解讀能力有限,都有可能帶來偏差。總之,當(dāng)今的某些大數(shù)據(jù)分析在某種意義上就是在分析甚至“制造”人們的視角,然后將符合視角的“事實(shí)”推送給他們,雖然推送的“事實(shí)”似乎是客觀的,但是,當(dāng)它們被放置在人們的“視角”下時(shí),就成為了影響主觀判斷和態(tài)度的重要手段。

2016年美國總統(tǒng)大選,多家民調(diào)機(jī)構(gòu)的預(yù)測(cè)結(jié)果的失敗,讓人們質(zhì)疑數(shù)據(jù)的客觀性與準(zhǔn)確性。而時(shí)隔兩年之后曝出的Facebook數(shù)據(jù)泄露事件,在某種意義上是對(duì)民調(diào)結(jié)果失靈的一個(gè)回應(yīng),盡管我們并不能確定劍橋分析公司對(duì)大選結(jié)果的干預(yù)究竟起了多大作用。這一事件還有著更深層的寓意,它提醒我們面臨的一個(gè)新挑戰(zhàn):一方面,數(shù)據(jù)分析的目標(biāo)是追求客觀地描述事物;另一方面,數(shù)據(jù)分析也可能會(huì)成為對(duì)客觀事物或客觀進(jìn)程的干預(yù)力量??梢灶A(yù)見的是,未來兩者之間的博弈可能會(huì)成為常態(tài)。

?

風(fēng)險(xiǎn)二:數(shù)據(jù)時(shí)代個(gè)人所面臨的風(fēng)險(xiǎn)

在大數(shù)據(jù)時(shí)代,從個(gè)人角度看,目前數(shù)據(jù)應(yīng)用與他們最直接的關(guān)聯(lián),是各種具有個(gè)性化算法推薦的應(yīng)用。但事實(shí)上,這種算法既會(huì)對(duì)個(gè)人視野格局產(chǎn)生影響,也會(huì)暴露用戶隱私。

1. 算法是否會(huì)將人們囚禁在信息繭房中?

“信息繭房”一詞出自于美國學(xué)者桑斯坦,在他看來,信息繭房意味著人們只聽他們選擇和愉悅他們的東西。

盡管每個(gè)人都有自己的閱讀偏好是正常的現(xiàn)象,但如果每個(gè)人關(guān)注的只是自己興趣內(nèi)的那一小片天地,他對(duì)這以外的世界,就會(huì)越來越缺乏了解。這或許不會(huì)影響到他個(gè)人的生活,但是,在需要公共對(duì)話的時(shí)候,人們會(huì)缺乏共同的 “視角”。而共同 “視角”的缺乏,意味著人們對(duì)一些事實(shí)的判斷會(huì)出現(xiàn)差異,共識(shí)難以形成。同時(shí),信息環(huán)境的封閉與狹隘,也可能會(huì)進(jìn)一步固化人們的某些觀點(diǎn)與立場(chǎng)。

一文了解AI時(shí)代的數(shù)據(jù)風(fēng)險(xiǎn)(后真相時(shí)代、算法囚徒和權(quán)利讓渡)

從面向個(gè)人的算法角度看,要盡可能減少信息繭房效應(yīng),就要在算法設(shè)計(jì)時(shí)深入理解考慮用戶行為與需求中的矛盾,例如能夠及時(shí)預(yù)測(cè)用戶需求的遷移或擴(kuò)展,或者提供一些慣性之外的信息,給個(gè)體帶來新體驗(yàn)等。

除了以算法來完成面向個(gè)體的內(nèi)容推薦,算法也可以用于公共性內(nèi)容的匹配,也就是通過算法洞察公眾的共同心理,使具有公共價(jià)值的內(nèi)容到達(dá)更廣的人群,也同樣可能幫助個(gè)體掙脫繭房的束縛。

2. 算法是否會(huì)將人們囚禁在偏見與固有的社會(huì)結(jié)構(gòu)中?

算法的另一種風(fēng)險(xiǎn),是對(duì)社會(huì)偏見的繼承,以及這些偏見可能帶來的文化或社會(huì)禁錮。當(dāng)算法用于不當(dāng)?shù)哪康臅r(shí),會(huì)對(duì)某些人群或個(gè)體造成歧視與傷害。算法不僅在歸納與“同構(gòu)”現(xiàn)有文化中存在偏見、歧視,還可能用某種方式將它們放大。譬如此前舉例的亞馬遜AI招聘系統(tǒng)性別歧視一樣,機(jī)器的歧視來自于數(shù)據(jù)的偏差,而數(shù)據(jù)的偏差來自于人的偏見。

這一點(diǎn),一些大數(shù)據(jù)的開發(fā)者體會(huì)更深,如國內(nèi)大數(shù)據(jù)應(yīng)用領(lǐng)域的代表性學(xué)者周濤所言,“讓我們不安的是,這種因?yàn)橄到y(tǒng)設(shè)計(jì)人員帶來的初始偏見,有可能隨著數(shù)據(jù)的積累和算法的運(yùn)轉(zhuǎn)慢慢強(qiáng)化放大?!?/p>

3. 算法是否會(huì)使人陷入“幸福地被操縱”?

或許,個(gè)性化算法還會(huì)帶來另一個(gè)深層風(fēng)險(xiǎn), 那就是在個(gè)性化服務(wù)下,個(gè)體逐漸失去自主判斷與選擇能力,越來越多地被算法或機(jī)器控制。從人的本性來說,懶惰是天然的,想以最小的成本或付出獲得最大的報(bào)償,是人之常情,個(gè)性化服務(wù)在這方面迎合了人性,但是,它也可能正在以方便、幸福的名義,漸漸地使人們對(duì)它產(chǎn)生依賴,并在不知不覺中被其麻痹,被其囚禁。

一文了解AI時(shí)代的數(shù)據(jù)風(fēng)險(xiǎn)(后真相時(shí)代、算法囚徒和權(quán)利讓渡)

?

風(fēng)險(xiǎn)三 個(gè)人權(quán)利的讓渡是數(shù)據(jù)時(shí)代的必然代價(jià)?

數(shù)據(jù)時(shí)代對(duì)普通個(gè)體的另一個(gè)深層影響,是個(gè)體的全面數(shù)據(jù)化。在未來,用戶的數(shù)據(jù)將更為多元,將通過更多渠道生成、保存,這也意味著用戶數(shù)據(jù)中暗藏的風(fēng)險(xiǎn)更大,數(shù)據(jù)權(quán)利的保護(hù)面臨更大的挑戰(zhàn)。

1. 用戶缺乏對(duì)自己數(shù)據(jù)的知情能力

此前李彥宏一句“中國人對(duì)隱私問題不敏感,愿意用隱私換取便利、安全或者效率”的言論讓自己成為眾矢之的。事實(shí)上,對(duì)于普通用戶而言,并非他們不介意隱私被暴露,而是并不知道自己的隱私會(huì)如何被侵犯,以及被侵犯到何種程度。他們與那些掌握并利用甚至可能出賣他們的隱私數(shù)據(jù)的公司之間是不平等的。在缺乏對(duì)自己數(shù)據(jù)的知情能力的情況下,隱私保護(hù)根本無從談起。

雖然在某些時(shí)候,以隱私換便利是用戶的一種不得已的選擇,但用戶應(yīng)該有權(quán)利知道,出讓的是哪些隱私數(shù)據(jù),能獲取哪些便利,以便他們做出權(quán)衡。但今天的網(wǎng)絡(luò)服務(wù)提供者多數(shù)并沒有提供充分的解釋,即使有一些隱私條款,也往往語焉不詳或者暗藏陷阱。

2. 用戶數(shù)據(jù)的邊界問題值得探討

此外,還有用戶數(shù)據(jù)使用權(quán)限邊界問題。譬如之前第三方公司劍橋分析利用心理測(cè)試APP來收集Facebook用戶數(shù)據(jù)一樣。即使用戶同意向某個(gè)服務(wù)商提供個(gè)人信息,但服務(wù)商是否有權(quán)向第三方透露?而第三方是否又可以再次將數(shù)據(jù)轉(zhuǎn)手?網(wǎng)絡(luò)中的數(shù)據(jù)都是相互關(guān)聯(lián)的,獲取未經(jīng)授權(quán)的關(guān)聯(lián)數(shù)據(jù)是否合法?或許在理論上做出限定是容易的,但在現(xiàn)實(shí)中的操作,又并非那么簡單。

3. 用戶是否應(yīng)該擁有絕對(duì)隱身的權(quán)利

再一個(gè)事關(guān)用戶隱私權(quán)的問題是,今天的用戶是否應(yīng)該擁有一種隱身能力,使自己的數(shù)據(jù)不被他人獲取或存儲(chǔ),從而在根本上保護(hù)自己。或許,這在國內(nèi)將很難被執(zhí)行。譬如人臉識(shí)別技術(shù)已被廣泛用于街頭巷尾的攝像頭,盡管“天眼”織就“天網(wǎng)”讓罪犯無處可逃,而對(duì)于普通個(gè)體而言,同樣讓人感覺到這是一種無處不在的監(jiān)視。

在個(gè)體被隨時(shí)隨地“數(shù)字化”映射的情況下,隱身,也是保護(hù)隱私的一個(gè)重要方面。雖然在法律上要獨(dú)立形成一種“隱身權(quán)”或許并不現(xiàn)實(shí)(它更有可能是隱私權(quán)中的一部分),但至少在技術(shù)層面,需要給予用戶更多的“隱身”可能。在物聯(lián)網(wǎng)將廣泛應(yīng)用的未來,隱身許可將變得更為重要。

4. 保護(hù)用戶隱私的法律并不能完全保護(hù)隱私

在保護(hù)用戶隱私的法律方面,2012年歐盟出臺(tái)《一般數(shù)據(jù)保護(hù)條例》,稱信息主體有權(quán)要求信息控制者刪除與其個(gè)人相關(guān)的資料信息。該權(quán)利被稱為被遺忘及擦除權(quán)。在國內(nèi),2016年頒布的《網(wǎng)絡(luò)安全法》正式確認(rèn)了個(gè)人對(duì)其網(wǎng)上個(gè)人信息的“刪除權(quán)”:“個(gè)人發(fā)現(xiàn)網(wǎng)絡(luò)運(yùn)營者違反法律、行政法規(guī)的規(guī)定或者雙方的約定收集、使用其個(gè)人信息的,有權(quán)要求網(wǎng)絡(luò)運(yùn)營者刪除其個(gè)人信息?!边@些都是對(duì)數(shù)字時(shí)代個(gè)人信息的存留風(fēng)險(xiǎn)做出的法律回應(yīng)。

不過,目前被遺忘權(quán)或刪除權(quán)更多地是在學(xué)界和法律界被討論,大多數(shù)普通人并不知道它的存在。并且,即使有被遺忘權(quán)或刪除權(quán),個(gè)體也會(huì)面臨比以往更多的風(fēng)險(xiǎn)。雖然謹(jǐn)言慎行或許是人們自認(rèn)為的減少風(fēng)險(xiǎn)的辦法,但在算法通過若干點(diǎn)贊就可以判斷用戶的性格的情況下,在未來各種傳感器可以隨時(shí)隨地捕捉人的數(shù)據(jù)的情況下,被記憶仍會(huì)是常態(tài)。

一文了解AI時(shí)代的數(shù)據(jù)風(fēng)險(xiǎn)(后真相時(shí)代、算法囚徒和權(quán)利讓渡)

以上是對(duì)數(shù)據(jù)與算法時(shí)代可能面臨風(fēng)險(xiǎn)的探討。盡管數(shù)據(jù)與算法應(yīng)用的價(jià)值不可否定,但我們需要對(duì)數(shù)據(jù)和算法應(yīng)用的失誤或失范有足夠的警惕,也需要增強(qiáng)對(duì)抗風(fēng)險(xiǎn)的能力。在國內(nèi),由于觀念、基礎(chǔ)條件、規(guī)范等方面的障礙,都意味著大數(shù)據(jù)應(yīng)用的推進(jìn)需要時(shí)間。任何功利、草率的思維和行為都是對(duì)數(shù)據(jù)應(yīng)用的損害而非推動(dòng)。在數(shù)據(jù)技術(shù)的大躍進(jìn)過程中,我們也需要回歸原點(diǎn),完成一些基本建設(shè),譬如數(shù)據(jù)素養(yǎng)的培養(yǎng)、數(shù)據(jù)資源基礎(chǔ)設(shè)施建設(shè)、數(shù)據(jù)質(zhì)量評(píng)估體系建立、信息倫理規(guī)范的約束等。在這個(gè)時(shí)代,數(shù)據(jù)、算法將會(huì)成為決定我們生存方式的重要因素。識(shí)別、抵抗這其中的種種風(fēng)險(xiǎn),也應(yīng)該成為我們生活的一部分,成為各種數(shù)據(jù)應(yīng)用機(jī)構(gòu)的基本責(zé)任。

責(zé)任編輯:陳近梅

分享: