国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁(yè) 觀點(diǎn)正文

生成式AI的抄襲輸出問(wèn)題值得關(guān)注

Midjourney制作的圖像與知名電影和視頻游戲中的鏡頭幾乎相同(左側(cè)為原作,右側(cè)為Midjourney生成圖片)。

(圖片來(lái)源:IEEE Spectrum)

這些圖像均由Midjourney制作生成,提示詞中均包含“screencap”。

(圖片來(lái)源:IEEE Spectrum)

  大語(yǔ)言模型(LLM)在多大程度上“記住”了其訓(xùn)練輸入內(nèi)容是一直以來(lái)廣受關(guān)注的問(wèn)題。而最近的實(shí)證研究表明,大語(yǔ)言模型在某些情況下的確可以重現(xiàn)或者生成只包含細(xì)小差別的訓(xùn)練集內(nèi)初始文本。

  例如,Milad Nasr及其同事在2023年發(fā)表的一篇論文表明,大語(yǔ)言模型可能會(huì)在提示詞的引導(dǎo)下泄露個(gè)人信息,比如電子郵箱地址和電話號(hào)碼等。來(lái)自谷歌Deepmind的Nicholas Carlini也在最近的研究中發(fā)現(xiàn),參數(shù)規(guī)模較大的大語(yǔ)言模型有時(shí)會(huì)逐字逐句照搬訓(xùn)練時(shí)“見(jiàn)過(guò)”的大段文本。

  前不久,《紐約時(shí)報(bào)》向美國(guó)曼哈頓聯(lián)邦法院提起訴訟,指控OpenAI涉嫌違規(guī)使用其內(nèi)容用于人工智能開(kāi)發(fā)的事件引起了社區(qū)極大的關(guān)注與討論?!都~約時(shí)報(bào)》稱其“非法使用”“數(shù)百萬(wàn)篇”受版權(quán)保護(hù)的文章來(lái)訓(xùn)練生成式人工智能模型,并要求賠償“數(shù)十億美元”。

  對(duì)此,OpenAI知識(shí)產(chǎn)權(quán)和內(nèi)容首席Tom Rubin表示,公司近期與數(shù)十家出版商展開(kāi)了有關(guān)許可協(xié)議的談判:“我們正處于多場(chǎng)談判中,正在與多家出版商進(jìn)行討論。他們十分活躍積極,這些談判進(jìn)展良好?!?/p>

  自生成式AI應(yīng)用成為熱門(mén)話題以來(lái),版權(quán)問(wèn)題逐漸凸顯。我們把復(fù)制訓(xùn)練數(shù)據(jù)的輸出稱為“抄襲輸出”。此類輸出的存在和特定訴訟結(jié)果很可能決定生成式AI的未來(lái)經(jīng)濟(jì)效益和社會(huì)影響。

  如何判定LLM的輸出內(nèi)容是否屬于對(duì)訓(xùn)練內(nèi)容的抄襲?這是一個(gè)難以精確回答的問(wèn)題。其中一個(gè)原因是LLM就像一個(gè)“黑盒子”——我們并不完全了解輸入(訓(xùn)練數(shù)據(jù))和輸出之間的關(guān)系。更重要的是,大語(yǔ)言模型的輸出可能從此刻到下一刻發(fā)生難以預(yù)測(cè)的變化,且抄襲輸出的程度可能由模型大小和訓(xùn)練集的具體性質(zhì)決定。也正是由于LLM的這種“黑盒子”特性(對(duì)于開(kāi)發(fā)者自己也是如此,無(wú)論是否開(kāi)源),關(guān)于抄襲輸出的問(wèn)題只能通過(guò)實(shí)驗(yàn)的方式來(lái)研究解決。

  值得注意的是,由于抄襲輸出的存在,引發(fā)了一系列問(wèn)題,包括技術(shù)問(wèn)題(可以采取哪些措施來(lái)避免抄襲輸出)、社會(huì)學(xué)問(wèn)題(新聞業(yè)會(huì)因此受到哪些影響)、法律問(wèn)題(這些輸出是否涉及版權(quán)侵犯)以及實(shí)際問(wèn)題(當(dāng)用戶使用LLM生成的某些內(nèi)容時(shí),是否需要擔(dān)心版權(quán)問(wèn)題)。

  抄襲輸出是否僅存在于文字生成領(lǐng)域,文生圖模型是否也會(huì)基于受版權(quán)保護(hù)的圖片產(chǎn)生抄襲輸出?

  從Midjourney v6“alpha”版摘錄的部分示例表明,只要提供與商業(yè)電影相關(guān)的簡(jiǎn)短提示詞,Midjourney的最新版本就會(huì)生成和原作高度相似的抄襲輸出。(見(jiàn)下圖左)

  如果提示詞中不包含電影名稱、角色、演員等信息,Midjourney應(yīng)該不會(huì)產(chǎn)生抄襲輸出吧?經(jīng)過(guò)多番嘗試,測(cè)試人員最終發(fā)現(xiàn),在提示詞包含“screencap(截圖)”時(shí),即使沒(méi)有輸入任何電影/游戲的角色信息,也會(huì)生成明顯的侵權(quán)內(nèi)容。(見(jiàn)下圖右)

  測(cè)試人員認(rèn)為,目前的實(shí)驗(yàn)結(jié)果表明,Midjourney存在違規(guī)使用受版權(quán)保護(hù)的素材的行為,從而引發(fā)抄襲輸出的問(wèn)題。即使提示詞中沒(méi)有要求模型生成侵權(quán)內(nèi)容,用戶仍然可能面臨版權(quán)侵權(quán)索賠的風(fēng)險(xiǎn)。這一發(fā)現(xiàn)并非偶然,事實(shí)上,Midjourney最近已經(jīng)因?yàn)轭愃频膯?wèn)題陷入法律糾紛。Midjourney最近收到了4700多名藝術(shù)家的聯(lián)合起訴,因?yàn)镸idjourney在未經(jīng)同意的情況下使用了他們的作品用于訓(xùn)練AI。

  目前尚不清楚Midjourney的訓(xùn)練數(shù)據(jù)中包含多少未經(jīng)許可使用的版權(quán)材料,該公司對(duì)于其原始訓(xùn)練數(shù)據(jù)以及哪些數(shù)據(jù)獲得了相應(yīng)使用許可都尚未公開(kāi)。如果未獲得原素材許可,可能會(huì)使Midjourney面臨來(lái)自電影工作室、視頻游戲發(fā)行商、演員等的大量訴訟。

  與Midjourney一樣,OpenAI的文生圖大模型DALL·E 3似乎也借鑒了大量受版權(quán)保護(hù)的素材,即使提示詞中沒(méi)有要求模型生成侵權(quán)內(nèi)容,DALL·E 3仍能夠創(chuàng)建與原作高度相似的復(fù)制品。

  解決生成式AI大模型的抄襲輸出問(wèn)題有多難?從訓(xùn)練數(shù)據(jù)集的角度來(lái)看,如果發(fā)現(xiàn)有受版權(quán)保護(hù)的材料被用于訓(xùn)練,就需要從數(shù)據(jù)集中刪除這些材料。然而,不同于在數(shù)據(jù)庫(kù)中簡(jiǎn)單地刪除某項(xiàng)數(shù)據(jù),從訓(xùn)練數(shù)據(jù)集中刪除特定受版權(quán)保護(hù)的材料并不僅僅是簡(jiǎn)單地移除數(shù)據(jù)。由于AI大模型的訓(xùn)練依賴于大規(guī)模的數(shù)據(jù)集,刪除部分?jǐn)?shù)據(jù)集可能需要對(duì)模型進(jìn)行重新訓(xùn)練,以確保模型的準(zhǔn)確性和有效性,而這一過(guò)程需要消耗大量的時(shí)間和計(jì)算資源。此外,大模型在生成內(nèi)容時(shí)往往會(huì)借鑒和參考已有的知識(shí),這使得判斷其輸出是否侵犯版權(quán)變得更加復(fù)雜。

  然而,盡管解決抄襲輸出問(wèn)題并不容易,但一些方法和策略仍然值得嘗試。首先,開(kāi)發(fā)者可以通過(guò)改進(jìn)模型的訓(xùn)練方法和算法,使其更加注重原創(chuàng)性和多樣性。這可以通過(guò)引入更加先進(jìn)的生成模型、使用更加全面的數(shù)據(jù)集或者改進(jìn)模型的優(yōu)化目標(biāo)來(lái)實(shí)現(xiàn)。

  其次,引入版權(quán)保護(hù)機(jī)制也是一種有效的方法。這種機(jī)制可以在AI生成內(nèi)容時(shí)自動(dòng)檢測(cè)和防止抄襲,從而確保其輸出的合法性和道德性。這可能需要開(kāi)發(fā)專門(mén)的技術(shù)和工具,以實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上信息的實(shí)時(shí)監(jiān)控和檢測(cè)。

  最后,用戶在使用生成式AI時(shí)也需要提高自身的版權(quán)意識(shí)。用戶應(yīng)該尊重原創(chuàng)者的知識(shí)產(chǎn)權(quán),在使用AI生成的內(nèi)容時(shí)注明來(lái)源和版權(quán)信息。同時(shí),用戶也應(yīng)對(duì)AI的輸出進(jìn)行合理的評(píng)估和審查,避免使用AI生成的侵權(quán)內(nèi)容。

  (Gary Marcus & Reid Southen/文 吳雙/譯)

責(zé)任編輯:張薇

分享: