來(lái)源:人民郵電報(bào)社 時(shí)間:2018-08-17 16:08:14 作者:王健飛 劉夢(mèng)喬
大數(shù)據(jù)和人工智能的崛起,為我們的生活帶來(lái)了許多的便利。當(dāng)我們打開(kāi)新聞客戶端,看到的不再是千篇一律的編輯推薦,而是AI引擎對(duì)我們?nèi)粘O埠眠M(jìn)行學(xué)習(xí)后精心準(zhǔn)備的新聞;當(dāng)我們打開(kāi)電商App,看到的不再是商家想要賣(mài)什么,而是我們想要買(mǎi)什么;當(dāng)我們打開(kāi)旅游網(wǎng)站,看到的也不再是那些人滿為患的旅游經(jīng)典而是為我們量身定制的旅游路線……
算法偏見(jiàn)無(wú)處不在
人工智能在帶來(lái)便利的同時(shí),也帶來(lái)了一些隱憂——由于每個(gè)人看到的內(nèi)容都是不同的,那么AI是否會(huì)把更貴的產(chǎn)品賣(mài)給我,或是更偏激的觀點(diǎn)推送給我?
事實(shí)上,這是完全有可能的,在國(guó)內(nèi)甚至已經(jīng)有了一個(gè)專(zhuān)有名詞來(lái)形容這一現(xiàn)象,即“大數(shù)據(jù)殺熟”。有時(shí),算法不止決定了商品的價(jià)格和推送的內(nèi)容,隨著人工智能被應(yīng)用于反恐、征稅、案件預(yù)審、醫(yī)療、保險(xiǎn)等公共領(lǐng)域,算法的判斷還決定著我們每個(gè)人的福祉。這樣的例子在全世界已經(jīng)多次發(fā)生,比如Twitter的聊天機(jī)器人在上線一天之后就被網(wǎng)友“教”成了滿嘴臟話的壞孩子,不得不被迫下線;Google Photos的照片智能識(shí)別功能將黑人與黑猩猩分成了一組;求職網(wǎng)站的廣告會(huì)默認(rèn)為女性用戶推送比男性用戶薪水更低的廣告……在美國(guó),甚至有法官對(duì)一個(gè)僅有偷車(chē)行為的嫌犯下達(dá)了8年有期徒刑的判決,理由只是因?yàn)閰f(xié)助審判的人工智能工具COMPAS認(rèn)為此人“極具危險(xiǎn)”。
無(wú)論在現(xiàn)實(shí)中還是科幻作品中,由于人工智能總是通過(guò)快速且脫離人類(lèi)社會(huì)與歷史的學(xué)習(xí)方式來(lái)完成自我構(gòu)建,所以他們存在天生的“道德缺陷”。那么,在現(xiàn)實(shí)中是否有一種方法,能夠?qū)⒎雌缫暬蛘哒f(shuō)算法公平植入到機(jī)器學(xué)習(xí)模型的設(shè)計(jì)中呢?答案是:或許可行。
公平需要精心設(shè)計(jì)
在最近的一期《哈佛商業(yè)評(píng)論》上發(fā)表了文章《讓“設(shè)計(jì)公平”成為機(jī)器學(xué)習(xí)的一部分》(Make “Fairness by Design” Part of Machine Learning),文章從產(chǎn)品構(gòu)建的角度闡釋了一些防止算法歧視的思路。這篇文章的作者中有幾位醫(yī)學(xué)專(zhuān)家,因?yàn)橄嚓P(guān)經(jīng)驗(yàn)是他們?cè)谝粋€(gè)與美國(guó)聯(lián)邦政府合作的物聯(lián)網(wǎng)醫(yī)療平臺(tái)設(shè)計(jì)中總結(jié)出來(lái)的。該項(xiàng)目通過(guò)移動(dòng)終端和各種物聯(lián)網(wǎng)設(shè)備搜集數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)模型對(duì)這些數(shù)據(jù)進(jìn)行處理形成中風(fēng)和早期心血管疾病的預(yù)測(cè),并幫助醫(yī)生做出診療判斷。在項(xiàng)目設(shè)計(jì)中,他們采用了一些步驟來(lái)減少算法形成種族、性別歧視的可能性:
一是將數(shù)據(jù)科學(xué)家與社會(huì)科學(xué)家組隊(duì)。通常來(lái)說(shuō),數(shù)據(jù)科學(xué)家與社會(huì)科學(xué)家有著不同的話語(yǔ)體系。在科學(xué)數(shù)據(jù)中,找到更大的“歧視潛力”是首要目標(biāo)。相比之下,當(dāng)社會(huì)科學(xué)家談?wù)撓嚓P(guān)問(wèn)題時(shí),他們更可能是指公平問(wèn)題。社會(huì)科學(xué)家通常能夠更好地提供關(guān)于公平和偏見(jiàn)的人文觀點(diǎn)。在他們的項(xiàng)目中,從一開(kāi)始就確保包括心理學(xué)家、心理計(jì)量師、流行病學(xué)家以及專(zhuān)門(mén)處理不同人群健康的人在一起工作。這使整個(gè)項(xiàng)目團(tuán)隊(duì)能夠更好、更及時(shí)地了解可能蔓延到機(jī)器學(xué)習(xí)過(guò)程中的人口偏差。
二是謹(jǐn)慎打標(biāo)簽。在構(gòu)建模型之前,團(tuán)隊(duì)拿到的原始大數(shù)據(jù)往往并非是結(jié)構(gòu)化的,比如用戶輸入的大段文字或一些影像學(xué)檢查的圖片。而這些非結(jié)構(gòu)化的數(shù)據(jù)會(huì)先經(jīng)由人類(lèi)進(jìn)行一次結(jié)構(gòu)化的打標(biāo)簽,再用于訓(xùn)練機(jī)器學(xué)習(xí)模型。這種做法在機(jī)器學(xué)習(xí)領(lǐng)域十分常見(jiàn)。但由于人類(lèi)本身就存在基于文化、種族和宗教的偏見(jiàn),因此,在打標(biāo)簽過(guò)程中,這種偏見(jiàn)可能被轉(zhuǎn)移到結(jié)構(gòu)化的數(shù)據(jù)上。在文章作者的項(xiàng)目中,他們預(yù)計(jì)這可能會(huì)給最終模型帶來(lái)偏見(jiàn)。比如,盡管兩人的健康水平(理想值)是相當(dāng)?shù)?,但如果一個(gè)人的資料中含有大量的拼寫(xiě)錯(cuò)誤和語(yǔ)法錯(cuò)誤,那么他或她就有可能被批注人員在某些數(shù)值上打上更低的分。這最終可能導(dǎo)致健康預(yù)測(cè)模型對(duì)語(yǔ)法或拼寫(xiě)錯(cuò)誤者存在健康偏見(jiàn)。作者發(fā)現(xiàn),減少這種偏見(jiàn)的方法,是在針對(duì)打標(biāo)簽者的培訓(xùn)中要引入關(guān)于潛在偏見(jiàn)可能性案例的模塊。但是,在他們的項(xiàng)目中由于更依賴于用戶提交的自我結(jié)構(gòu)化數(shù)據(jù),因此不存在這一問(wèn)題,因?yàn)橛脩舨粫?huì)自我歧視。不過(guò),這偶爾也會(huì)帶來(lái)一些其他問(wèn)題。
三是將傳統(tǒng)的機(jī)器學(xué)習(xí)指標(biāo)與公平度量相結(jié)合。在過(guò)去,評(píng)價(jià)一個(gè)機(jī)器學(xué)習(xí)模型的好壞總是使用一組與性能相關(guān)的指標(biāo)來(lái)實(shí)現(xiàn)。比如整體性能、類(lèi)級(jí)性能或是模型的普遍適用性等。而在對(duì)機(jī)器學(xué)習(xí)模型的評(píng)價(jià)中引入公平性量度可以很好地糾正一些由于偏見(jiàn)或歧視引發(fā)的問(wèn)題。這事實(shí)上也是對(duì)機(jī)器學(xué)習(xí)模型性能的一種改進(jìn),因?yàn)樾拚诉@些問(wèn)題,意味著機(jī)器學(xué)習(xí)模型不再對(duì)某些特定群體做出偏差很大的測(cè)算,從而可以提高整體的準(zhǔn)確性。在作者的項(xiàng)目中,研究人員檢查了模型在不同的人口群體中的表現(xiàn),以及基本的模型假設(shè)。納入的重要公平措施包括內(nèi)部和跨部門(mén)的真/假、正/負(fù)比率以及對(duì)人口變量的依賴程度。對(duì)于目前看似公平的部分而言,如果人口變量相對(duì)于其他變量有很大的權(quán)重,并充當(dāng)預(yù)測(cè)的主要因素,那么未來(lái)的數(shù)據(jù)中存在偏見(jiàn)的可能性。
四是采樣時(shí),平衡代表性與群聚效應(yīng)臨界點(diǎn)(critical mass constraints)。在剔除無(wú)關(guān)歧視性數(shù)據(jù)的同時(shí),并不代表不對(duì)某些特定的極端情況進(jìn)行考慮。在傳統(tǒng)的統(tǒng)計(jì)學(xué)采樣中,一般認(rèn)為只要能反映出所采樣的整個(gè)群體的特征即可。這種做法存在的一個(gè)問(wèn)題是,它低估了整個(gè)群體內(nèi)包含的某個(gè)特定少數(shù)群體所發(fā)生的病例。表面上看,這似乎并不是一個(gè)太大的問(wèn)題。因?yàn)槟P鸵廊豢梢浴皽?zhǔn)確”預(yù)測(cè)整個(gè)群體的發(fā)病幾率。但是當(dāng)落實(shí)到這些特定群體的個(gè)體時(shí),模型對(duì)他們發(fā)病幾率的預(yù)測(cè)就會(huì)顯著偏高或偏低。在作者的項(xiàng)目中,他們采用了對(duì)某些與疾病相關(guān)的人口群體案例進(jìn)行大量過(guò)度抽樣的方法,來(lái)刻意滿足最終形成的機(jī)器學(xué)習(xí)模型在預(yù)測(cè)一個(gè)“普通人”和預(yù)測(cè)一個(gè)“特殊群體”時(shí)都能給出更準(zhǔn)確的答案。
五是比起技術(shù)手段,更重要的是保持意識(shí)。文章提到,即便是采用了上述措施,也不能完全消除在模型構(gòu)建中出現(xiàn)歧視的可能。所以他們通常要在模型構(gòu)建和訓(xùn)練的各個(gè)階段停下來(lái)去檢查是否有潛在的歧視因素卷入了模型。作者還提到了兩種方法用以對(duì)形成歧視的模型進(jìn)行糾偏,一種是將訓(xùn)練數(shù)據(jù)中所有與人口學(xué)相關(guān)的信息剔除;另一種是將額外的公平性措施引入機(jī)器學(xué)習(xí),比如上文提到的放大、縮小少數(shù)族群或邊緣案例的重要性。在作者的項(xiàng)目中,他們發(fā)現(xiàn),這樣糾偏的行為對(duì)于算法訓(xùn)練中容易受到人口學(xué)偏見(jiàn)影響的部分十分有效。在這樣一套規(guī)則實(shí)施下來(lái)之后,模型最終的公平性量度顯著提高,而模型的整體精確度也提升了幾個(gè)百分點(diǎn)。通過(guò)仔細(xì)的設(shè)計(jì)和思考,設(shè)計(jì)公平性有助于研發(fā)人員開(kāi)發(fā)出更可靠的高精確性模型。它讓機(jī)器更加深刻地理解了每個(gè)人口學(xué)要素背后的復(fù)雜性。引入設(shè)計(jì)公平性并不是通過(guò)一條“人人平等”的原則來(lái)抹平機(jī)器學(xué)習(xí)的成果,而是要引入相互對(duì)立的視角,從不同人、不同群體、不同階層的視角反向?qū)徱暀C(jī)器學(xué)習(xí)過(guò)程中的不同階段。在作者的“Stroke Belt”項(xiàng)目中,設(shè)計(jì)公平性使他們能夠開(kāi)發(fā)出具有更高整體性能、更廣泛的人口適用性和更穩(wěn)健的預(yù)測(cè)模型——這使得醫(yī)療保健系統(tǒng)能夠更準(zhǔn)確地提前干預(yù)高危人群。
也許每一個(gè)還在追求模型效率與性能的算法工程師,都應(yīng)考慮將設(shè)計(jì)公平性引入自己的工作當(dāng)中,這樣不僅會(huì)建立更公平的模型,也能建立更完美的模型。
責(zé)任編輯:陳近梅