來源:數(shù)據(jù)觀綜合 時間:2023-08-15 16:21:55 作者:
近日,世紀天鴻投資的AI輔助寫作產(chǎn)品筆神作文發(fā)布聲明稱,已于8月4日決定不再對學而思,針對相關(guān)數(shù)據(jù)調(diào)取事件發(fā)起訴訟。
筆神作文表示,經(jīng)與學而思深入調(diào)查并坦誠溝通后,對雙方有爭議條款已達成一致,雙方已消除誤會,并將繼續(xù)深化合作,共同推進AI技術(shù)在教育領(lǐng)域的探索。
6年成果,被爬取200+萬次,索賠1元
筆神作文將之稱為“AI大模型數(shù)據(jù)被盜第一案”。此前6月13日下午,筆神作文通過自己的微信公眾號、微博和第三方媒體發(fā)布消息稱,遭到有多年合作關(guān)系的“學而思”背刺,指控學而思“盜取了我們的作文庫存”,并稱4月數(shù)據(jù)被竊取,學而思5月就公布進行數(shù)學大模型-MathGPT 的研發(fā)使用,“未免也太過于‘巧合’了”。
對此,學而思方面則發(fā)布聲明回應稱,該公司對筆神作文接口的調(diào)用,屬于雙方合同約定的正常合作范圍,對筆神素材內(nèi)容的使用均符合合同要求,并未用于合同以外的任何用途。
筆神作文在文章中表示,“我們的案件可能將會成為‘AI大模型數(shù)據(jù)被盜第一案’?!辈⒈磉_了,要求公開致歉、刪除非法獲取的數(shù)據(jù)并中止應用、求償1元的訴求。
對此,筆神作文解釋道:“數(shù)據(jù)是有價值的,但我們心血更是無價,索賠 1 元是因為公平公正并不能用金錢衡量,我們希望通過訴訟告訴社會這種行為是錯誤的。人工智能行業(yè)的發(fā)展,靠的是共同創(chuàng)造,而非覬覦和剽竊他人的成果?!?/p>
公開資料顯示,筆神作文是北京一筆兩劃科技有限公司開發(fā)的智能寫作平臺,擁有語文作文寫前指導、作文批改評測等服務。
筆神作文在文章中稱,“在過去筆神作文成立的6年時間里,我們每個月都會收到30萬篇作文投稿和超過四十萬的點贊??偣卜e累了超過500萬篇作文素材,月批改量超3萬篇。”但在4月一個周末,這些數(shù)據(jù)資源被爬蟲爬取了超過兩百萬次。
文章中透露,筆神作文與學而思是合作關(guān)系,“雖然我們的產(chǎn)品已經(jīng)設置了完備的數(shù)據(jù)安全機制,然而學而思卻利用了我們的這份信任,利用了我們對合作伙伴的接口不設防。”
筆神作文表示,在數(shù)據(jù)竊取事件發(fā)生后,筆神作文找學而思進行求證時,對方直接承認,是他們的算法組在爬取數(shù)據(jù)并作為己用。
此前,好未來公司 (三體云聯(lián)公司關(guān)聯(lián)公司,前身學而思) 在5月5日的官方微信公眾號發(fā)文表示: “學而思正在進行數(shù)學大模型-MathGPT 的研發(fā)使用,學而思學習機近期將上線一款‘AI助手’,涵蓋作文助手......等相關(guān)功能?!?/p>
筆神作文方面直言,“4月我們的「作文庫」數(shù)據(jù)被竊取,5月‘學而思’的「作文AI助手」新產(chǎn)品就即將上線了,這樣‘巧合’未免也太過于‘巧合’了?!?/p>
筆神作文還稱,團隊多次向?qū)W而思發(fā)出律師函,但對方始終沒有實質(zhì)性答復。
不久后,針對筆神作文的這篇“征討檄文”,學而思發(fā)布聲明否認了筆神作文的說法,并稱“對方在公開聲明中提及學而思正在研發(fā)的數(shù)學大模型MathGPT以及學而思學習機‘作文AI助手’,并主觀揣測我方使用其數(shù)據(jù)用于兩款產(chǎn)品的訓練和研發(fā),這與事實嚴重不符”。
學而思從三個方面回應了筆神作文:
1、學而思和筆神作文于2020年12月開始合作,合作協(xié)議明確約定:筆神作文為學而思提供“筆神作文范文素材服務接口”,用于學而思相關(guān)服務中,每月保底費用包含的調(diào)用次數(shù)為百萬次量級。合作至今,雙方一直按照調(diào)用量進行正常結(jié)算。
2、我方對筆神作文接口的調(diào)用,屬于雙方合同約定的正常合作范圍,對筆神素材內(nèi)容的使用均符合合同要求,并未用于合同以外的任何用途。
3、對方在公開聲明中提及學而思正在研發(fā)的數(shù)學大模型MathGPT以及學而思學習機“作文AI助手”,并主觀揣測我方使用其數(shù)據(jù)用于兩款產(chǎn)品的訓練和研發(fā),這與事實嚴重不符:首先,MathGPT是專注于數(shù)學領(lǐng)域的自研大模型,沒有任何作文相關(guān)數(shù)據(jù); 其次,“作文AI助手”目前處于開發(fā)狀態(tài),尚未發(fā)布,該服務并未使用筆神作文的任何數(shù)據(jù)。
500萬篇作文素材從何而來
作為AI核心要素之一的數(shù)據(jù),據(jù)筆神作文和世紀天鴻披露,筆神作文積累的作文素材已超過500萬篇。
世紀天鴻此前在互動平臺中表示,筆神作文的大數(shù)據(jù)來源于自身累積,算法模型為公司自研訓練。
此前5月8日,深交所對世紀天鴻下發(fā)關(guān)注函,其中要求說明公司是否向一筆兩劃提供訓練“筆神作文”AI模型所需的數(shù)據(jù);如是,需要結(jié)合公司有關(guān)數(shù)據(jù)的獲取方式及來源等,按照《數(shù)據(jù)安全法》等相關(guān)規(guī)定,說明獲取、處理及使用有關(guān)數(shù)據(jù)的合法性;有關(guān)數(shù)據(jù)資產(chǎn)產(chǎn)權(quán)的權(quán)屬是否清晰、是否存在潛在糾紛,相關(guān)方是否存在其他協(xié)議及利益安排。
世紀天鴻回復關(guān)注函時表示,經(jīng)核實,一筆兩劃訓練“筆神作文”AI模型所需數(shù)據(jù),均為一筆兩劃在自身經(jīng)營過程中積累。截至目前,公司未使用“筆神作文”向客戶提供服務,也未向一筆兩劃提供“筆神作文”AI模型訓練所需數(shù)據(jù)。后續(xù),如一筆兩劃就“筆神作文”AI 模型訓練有數(shù)據(jù)采買需求,公司將嚴格按照《數(shù)據(jù)安全法》等相關(guān)規(guī)定,在確保有關(guān)數(shù)據(jù)獲取、處理及使用合法、數(shù)據(jù)資產(chǎn)產(chǎn)權(quán)權(quán)屬清晰,無潛在糾紛的前提下,協(xié)商確定具體業(yè)務合作方式。
筆神作文向《科創(chuàng)板日報》表示:“用戶在筆神作文APP使用我們服務的過程中,根據(jù)協(xié)議,我們會積累大量用戶的原始的作文素材,成為我們的資產(chǎn)。這也是學而思與我們合作的原因,學而思如果從頭積累數(shù)據(jù),時間成本很高,短期沒有辦法積累相同數(shù)量級的數(shù)據(jù)。”
據(jù)悉,根據(jù)筆神作文的用戶服務協(xié)議,用戶在筆神作文發(fā)表的內(nèi)容,授予筆神作文免費且不可撤銷的非獨家使用許可。
平衡安全與發(fā)展成AI監(jiān)管挑戰(zhàn)
筆神作文與學而思的糾紛,牽引出大模型的一個“隱秘的角落”:用于訓練AI大模型的數(shù)據(jù),來源是否合法合規(guī)?事實上,關(guān)于大模型數(shù)據(jù)集的紛爭已在海內(nèi)外頻頻上演。
今年1月,海外圖片供應商華蓋創(chuàng)意(Getty Images)起訴AI繪畫工具Stable Diffusion的開發(fā)者Stability AI,稱其侵犯了版權(quán)。華蓋創(chuàng)意稱,Stability AI“非法”從網(wǎng)站上竊取了數(shù)百萬張圖片。
2月,《華爾街日報》的一名記者在網(wǎng)上公開表示,他向ChatGPT索取了一份用來訓練它的新聞來源清單,收到的回復列出了20家媒體,但并不清楚OpenAI是否與所列出版商都達成了協(xié)議。
6月,美國一家律師事務所在加州一家聯(lián)邦法院向OpenAI提起集體訴訟。根據(jù)訴狀,OpenAI大規(guī)模盜取互聯(lián)網(wǎng)用戶與該公司產(chǎn)品的互動信息,及集成ChatGPT的應用中的隱私數(shù)據(jù),并將這些信息用于該公司產(chǎn)品的模型訓練。受害者據(jù)稱可能多達數(shù)百萬人,潛在損失高達30億美元。
自去年底ChatGPT“一夜成名”,人工智能迎來“狂飆”時刻,AI生成內(nèi)容(AIGC)領(lǐng)域快速發(fā)展。與此同時,數(shù)據(jù)泄漏、電信詐騙、個人隱私風險、著作權(quán)侵權(quán)、虛假信息等挑戰(zhàn)層出不窮。
隨著問題的凸顯,各國也把對于AI的監(jiān)管提上日程。斯坦福大學發(fā)布的《2023年人工智能指數(shù)報告》中提到,對127個國家的立法記錄調(diào)研的結(jié)果顯示,包含“人工智能”的法案被通過成為法律的數(shù)量,從2016年的僅1個增長到2022年的37個。報告對81個國家2016年以來的人工智能法律法規(guī)記錄的分析也同樣表明,全球立法程序中提及人工智能的次數(shù)增加了近6.5倍。
新一輪人工智能飛速發(fā)展,如何平衡發(fā)展與安全成為此次發(fā)展過程中的一道必答題。
責任編輯:張薇