生成式AI的抄襲輸出問(wèn)題值得關(guān)注

來(lái)源：人民郵電報(bào) 時(shí)間：2024-01-11 09:46:06 作者：

Midjourney制作的圖像與知名電影和視頻游戲中的鏡頭幾乎相同（左側(cè)為原作，右側(cè)為Midjourney生成圖片）。

（圖片來(lái)源：IEEE Spectrum）

這些圖像均由Midjourney制作生成，提示詞中均包含“screencap”。

（圖片來(lái)源：IEEE Spectrum）

　　大語(yǔ)言模型（LLM）在多大程度上“記住”了其訓(xùn)練輸入內(nèi)容是一直以來(lái)廣受關(guān)注的問(wèn)題。而最近的實(shí)證研究表明，大語(yǔ)言模型在某些情況下的確可以重現(xiàn)或者生成只包含細(xì)小差別的訓(xùn)練集內(nèi)初始文本。

　　例如，Milad Nasr及其同事在2023年發(fā)表的一篇論文表明，大語(yǔ)言模型可能會(huì)在提示詞的引導(dǎo)下泄露個(gè)人信息，比如電子郵箱地址和電話號(hào)碼等。來(lái)自谷歌Deepmind的Nicholas Carlini也在最近的研究中發(fā)現(xiàn)，參數(shù)規(guī)模較大的大語(yǔ)言模型有時(shí)會(huì)逐字逐句照搬訓(xùn)練時(shí)“見(jiàn)過(guò)”的大段文本。

　　前不久，《紐約時(shí)報(bào)》向美國(guó)曼哈頓聯(lián)邦法院提起訴訟，指控OpenAI涉嫌違規(guī)使用其內(nèi)容用于人工智能開(kāi)發(fā)的事件引起了社區(qū)極大的關(guān)注與討論?！都~約時(shí)報(bào)》稱其“非法使用”“數(shù)百萬(wàn)篇”受版權(quán)保護(hù)的文章來(lái)訓(xùn)練生成式人工智能模型，并要求賠償“數(shù)十億美元”。

　　對(duì)此，OpenAI知識(shí)產(chǎn)權(quán)和內(nèi)容首席Tom Rubin表示，公司近期與數(shù)十家出版商展開(kāi)了有關(guān)許可協(xié)議的談判：“我們正處于多場(chǎng)談判中，正在與多家出版商進(jìn)行討論。他們十分活躍積極，這些談判進(jìn)展良好?！?/p>

　　自生成式AI應(yīng)用成為熱門(mén)話題以來(lái)，版權(quán)問(wèn)題逐漸凸顯。我們把復(fù)制訓(xùn)練數(shù)據(jù)的輸出稱為“抄襲輸出”。此類輸出的存在和特定訴訟結(jié)果很可能決定生成式AI的未來(lái)經(jīng)濟(jì)效益和社會(huì)影響。

　　如何判定LLM的輸出內(nèi)容是否屬于對(duì)訓(xùn)練內(nèi)容的抄襲？這是一個(gè)難以精確回答的問(wèn)題。其中一個(gè)原因是LLM就像一個(gè)“黑盒子”——我們并不完全了解輸入（訓(xùn)練數(shù)據(jù)）和輸出之間的關(guān)系。更重要的是，大語(yǔ)言模型的輸出可能從此刻到下一刻發(fā)生難以預(yù)測(cè)的變化，且抄襲輸出的程度可能由模型大小和訓(xùn)練集的具體性質(zhì)決定。也正是由于LLM的這種“黑盒子”特性（對(duì)于開(kāi)發(fā)者自己也是如此，無(wú)論是否開(kāi)源），關(guān)于抄襲輸出的問(wèn)題只能通過(guò)實(shí)驗(yàn)的方式來(lái)研究解決。

　　值得注意的是，由于抄襲輸出的存在，引發(fā)了一系列問(wèn)題，包括技術(shù)問(wèn)題（可以采取哪些措施來(lái)避免抄襲輸出）、社會(huì)學(xué)問(wèn)題（新聞業(yè)會(huì)因此受到哪些影響）、法律問(wèn)題（這些輸出是否涉及版權(quán)侵犯）以及實(shí)際問(wèn)題（當(dāng)用戶使用LLM生成的某些內(nèi)容時(shí)，是否需要擔(dān)心版權(quán)問(wèn)題）。

　　抄襲輸出是否僅存在于文字生成領(lǐng)域，文生圖模型是否也會(huì)基于受版權(quán)保護(hù)的圖片產(chǎn)生抄襲輸出？

　　從Midjourney v6“alpha”版摘錄的部分示例表明，只要提供與商業(yè)電影相關(guān)的簡(jiǎn)短提示詞，Midjourney的最新版本就會(huì)生成和原作高度相似的抄襲輸出。（見(jiàn)下圖左）

　　如果提示詞中不包含電影名稱、角色、演員等信息，Midjourney應(yīng)該不會(huì)產(chǎn)生抄襲輸出吧？經(jīng)過(guò)多番嘗試，測(cè)試人員最終發(fā)現(xiàn)，在提示詞包含“screencap（截圖）”時(shí)，即使沒(méi)有輸入任何電影／游戲的角色信息，也會(huì)生成明顯的侵權(quán)內(nèi)容。（見(jiàn)下圖右）

　　測(cè)試人員認(rèn)為，目前的實(shí)驗(yàn)結(jié)果表明，Midjourney存在違規(guī)使用受版權(quán)保護(hù)的素材的行為，從而引發(fā)抄襲輸出的問(wèn)題。即使提示詞中沒(méi)有要求模型生成侵權(quán)內(nèi)容，用戶仍然可能面臨版權(quán)侵權(quán)索賠的風(fēng)險(xiǎn)。這一發(fā)現(xiàn)并非偶然，事實(shí)上，Midjourney最近已經(jīng)因?yàn)轭愃频膯?wèn)題陷入法律糾紛。Midjourney最近收到了4700多名藝術(shù)家的聯(lián)合起訴，因?yàn)镸idjourney在未經(jīng)同意的情況下使用了他們的作品用于訓(xùn)練AI。

　　目前尚不清楚Midjourney的訓(xùn)練數(shù)據(jù)中包含多少未經(jīng)許可使用的版權(quán)材料，該公司對(duì)于其原始訓(xùn)練數(shù)據(jù)以及哪些數(shù)據(jù)獲得了相應(yīng)使用許可都尚未公開(kāi)。如果未獲得原素材許可，可能會(huì)使Midjourney面臨來(lái)自電影工作室、視頻游戲發(fā)行商、演員等的大量訴訟。

　　與Midjourney一樣，OpenAI的文生圖大模型DALL·E 3似乎也借鑒了大量受版權(quán)保護(hù)的素材，即使提示詞中沒(méi)有要求模型生成侵權(quán)內(nèi)容，DALL·E 3仍能夠創(chuàng)建與原作高度相似的復(fù)制品。

　　解決生成式AI大模型的抄襲輸出問(wèn)題有多難？從訓(xùn)練數(shù)據(jù)集的角度來(lái)看，如果發(fā)現(xiàn)有受版權(quán)保護(hù)的材料被用于訓(xùn)練，就需要從數(shù)據(jù)集中刪除這些材料。然而，不同于在數(shù)據(jù)庫(kù)中簡(jiǎn)單地刪除某項(xiàng)數(shù)據(jù)，從訓(xùn)練數(shù)據(jù)集中刪除特定受版權(quán)保護(hù)的材料并不僅僅是簡(jiǎn)單地移除數(shù)據(jù)。由于AI大模型的訓(xùn)練依賴于大規(guī)模的數(shù)據(jù)集，刪除部分?jǐn)?shù)據(jù)集可能需要對(duì)模型進(jìn)行重新訓(xùn)練，以確保模型的準(zhǔn)確性和有效性，而這一過(guò)程需要消耗大量的時(shí)間和計(jì)算資源。此外，大模型在生成內(nèi)容時(shí)往往會(huì)借鑒和參考已有的知識(shí)，這使得判斷其輸出是否侵犯版權(quán)變得更加復(fù)雜。

　　然而，盡管解決抄襲輸出問(wèn)題并不容易，但一些方法和策略仍然值得嘗試。首先，開(kāi)發(fā)者可以通過(guò)改進(jìn)模型的訓(xùn)練方法和算法，使其更加注重原創(chuàng)性和多樣性。這可以通過(guò)引入更加先進(jìn)的生成模型、使用更加全面的數(shù)據(jù)集或者改進(jìn)模型的優(yōu)化目標(biāo)來(lái)實(shí)現(xiàn)。

　　其次，引入版權(quán)保護(hù)機(jī)制也是一種有效的方法。這種機(jī)制可以在AI生成內(nèi)容時(shí)自動(dòng)檢測(cè)和防止抄襲，從而確保其輸出的合法性和道德性。這可能需要開(kāi)發(fā)專門(mén)的技術(shù)和工具，以實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上信息的實(shí)時(shí)監(jiān)控和檢測(cè)。

　　最后，用戶在使用生成式AI時(shí)也需要提高自身的版權(quán)意識(shí)。用戶應(yīng)該尊重原創(chuàng)者的知識(shí)產(chǎn)權(quán)，在使用AI生成的內(nèi)容時(shí)注明來(lái)源和版權(quán)信息。同時(shí)，用戶也應(yīng)對(duì)AI的輸出進(jìn)行合理的評(píng)估和審查，避免使用AI生成的侵權(quán)內(nèi)容。

　　（Gary Marcus & Reid Southen／文　吳雙／譯）

責(zé)任編輯：張薇

国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

生成式AI的抄襲輸出問(wèn)題值得關(guān)注