關(guān)乎AI生死的訴訟!紐約時(shí)報(bào)要求OpenAI銷毀其“盜用”的最重要訓(xùn)練數(shù)據(jù)快訊
首先提及的是《紐約時(shí)報(bào)》文章與ChatGPT輸出內(nèi)容之間的,輸出未經(jīng)《紐約時(shí)報(bào)》授權(quán)復(fù)制的版權(quán)作品,《紐約時(shí)報(bào)》對(duì)OpenAI的訴訟是愚蠢的。
在OpenAI開(kāi)發(fā)者日上,Sam Altman曾宣布推出版權(quán)盾計(jì)劃:當(dāng)用戶無(wú)意間因AI生成內(nèi)容發(fā)生侵權(quán)被要求法律索賠時(shí),OpenAI將為客戶辯護(hù)并報(bào)銷全額費(fèi)用。
當(dāng)時(shí)此言一出,獲得現(xiàn)場(chǎng)陣陣掌聲。誰(shuí)曾想11月打出的子彈,兜兜轉(zhuǎn)轉(zhuǎn),第一個(gè)擊中的竟是自己。
當(dāng)?shù)貢r(shí)間周三,《紐約時(shí)報(bào)》正式向紐約聯(lián)邦地方法院起訴OpenAI和微軟,指控這兩家公司未經(jīng)許可使用其數(shù)百萬(wàn)篇文章用于訓(xùn)練GPT模型,創(chuàng)建包括ChatGPT和Copilot在內(nèi)的AI 產(chǎn)品。不僅要求它們對(duì)“非法復(fù)制和使用獨(dú)特價(jià)值的作品承擔(dān)數(shù)十億美元的法定和實(shí)際損害賠償”,還要銷毀所有包含NYT版權(quán)材料的模型和訓(xùn)練數(shù)據(jù)。
《紐約時(shí)報(bào)》vs. OpenAI
《紐約時(shí)報(bào)》在訴狀中稱,自己的新聞報(bào)道是數(shù)千名記者辛勤努力的工作成果,雇用他們的成本每年高達(dá)數(shù)億美元。而被告“試圖免費(fèi)搭乘NYT在其新聞業(yè)務(wù)上巨額投資的便車”,無(wú)償使用這些成果,使得AI聊天機(jī)器人分流了原本集中向《紐約時(shí)報(bào)》的網(wǎng)絡(luò)流量,從中竊取觀眾,令該公司損失了廣告、許可和訂閱收入。
訴狀還指出,這些AI模型對(duì)版權(quán)的無(wú)視威脅了高質(zhì)量的新聞業(yè):“如果時(shí)報(bào)和其他新聞機(jī)構(gòu)無(wú)法制作及保護(hù)他們的獨(dú)立新聞,將會(huì)出現(xiàn)計(jì)算機(jī)或人工智能無(wú)法填補(bǔ)的真空,產(chǎn)生更少的新聞,社會(huì)代價(jià)將是巨大的。”

其實(shí)早在今年四月份,《紐約時(shí)報(bào)》就曾接觸過(guò)微軟和OpenAI,表達(dá)對(duì)其知識(shí)產(chǎn)權(quán)使用的擔(dān)憂,并試圖探索“友好的解決方案”,建立商業(yè)協(xié)議和技術(shù)護(hù)欄。只可惜當(dāng)時(shí)雙方未能談妥。而版權(quán)問(wèn)題也是OpenAI前董事會(huì)成員Helen Toner那篇與奧特曼發(fā)生過(guò)爭(zhēng)執(zhí)的論文中提及過(guò)的點(diǎn)。
接到通知后,OpenAI發(fā)言人Lindsey Held在一份聲明中表示,公司一直在與《紐約時(shí)報(bào)》“建設(shè)性地”進(jìn)行對(duì)話,對(duì)訴訟感到“驚訝和失望”。
她說(shuō):“我們尊重內(nèi)容創(chuàng)作者和所有者的權(quán)利,并致力于與他們合作,確保他們從AI技術(shù)和新型收入模式中獲益。我們希望找到一種互惠互利的合作方式,就像OpenAI正在與許多其他出版商做的那樣。” (目前包括美聯(lián)社和擁有Politico及Business Insider的德國(guó)出版商Axel Springer,都授權(quán)OpenAI使用其新聞內(nèi)容。)
盡管《紐約時(shí)報(bào)》并非首個(gè)打響人工智能技術(shù)與書(shū)面作品知識(shí)版權(quán)之爭(zhēng)的實(shí)體,但它卻是迄今為止參與此類訴訟最大規(guī)模、最知名的出版商,并成為第一家針對(duì)OpenAI提起訴訟的主流媒體機(jī)構(gòu)。消息一出就火速占據(jù)各大頭版頭條,引發(fā)廣泛關(guān)注和巨大反響。
在自家報(bào)道文章中,NYT描述此舉“開(kāi)啟了關(guān)于未經(jīng)授權(quán)使用出版作品來(lái)訓(xùn)練大模型的法律戰(zhàn)新陣地”。案件如何判決,也注定會(huì)引導(dǎo)人工智能技術(shù)與版權(quán)法之間的復(fù)雜關(guān)系、界定新興法律輪廓,成為生成式AI技術(shù)歷史上的標(biāo)志性事件之一。

被曝原文逐字照搬、幻覺(jué)捏造不實(shí)信息
這次《紐約時(shí)報(bào)》的訴訟中,首先提及的是《紐約時(shí)報(bào)》文章與ChatGPT輸出內(nèi)容之間的“觸及和高度相似性”。
在GPT-3訓(xùn)練權(quán)重最高的數(shù)據(jù)集——公共爬蟲(chóng)網(wǎng)站Common Crawl中,www.nytimes.com這個(gè)域名是代表度最高的專有來(lái)源,僅次于維基百科和美國(guó)專利文件的數(shù)據(jù)庫(kù),總排名第三。Common Crawl 提供的2019年一個(gè)英文子集快照里,清晰顯示《紐約時(shí)報(bào)》的內(nèi)容占了1億個(gè)tokens。

《紐約時(shí)報(bào)》還放出了一個(gè)例子,證明ChatGPT在回答用戶提問(wèn)時(shí),幾乎原文照搬了自己的文章內(nèi)容。
下圖左側(cè)是GPT-4輸出的內(nèi)容,右側(cè)則來(lái)自《紐約時(shí)報(bào)》。紅字標(biāo)出的部分全都一模一樣,兩者僅有細(xì)微的用詞差別。

NYT表示,這些內(nèi)容來(lái)自2019年的一篇報(bào)道,該報(bào)道是基于對(duì)紐約市出租車行業(yè)掠奪式貸款事件為期18個(gè)月的調(diào)查取證、600多次采訪、100多次信息公開(kāi)申請(qǐng)和幾千頁(yè)內(nèi)部銀行記錄創(chuàng)作出來(lái)的,曾獲得普利策新聞獎(jiǎng)。
因此這不僅僅是在討論文章本身,更關(guān)乎原創(chuàng)性和創(chuàng)作過(guò)程。版權(quán)需要保護(hù)的不只是勞動(dòng),還有創(chuàng)造力。
另外一個(gè)例子指出,ChatGPT通過(guò)集成的Bing網(wǎng)頁(yè)瀏覽插件,輸出未經(jīng)《紐約時(shí)報(bào)》授權(quán)復(fù)制的版權(quán)作品。這些合成搜索結(jié)果是基于對(duì)2023年4月之后的網(wǎng)絡(luò)信息。圖片中顯示的就是在用戶簡(jiǎn)單提示后,復(fù)制了2023年5月的文章《The Precarious, Terrifying Hours After a Woman Was Shoved Into a Train》前兩段。

微軟Bing Chat也一樣,會(huì)在提示下馬上原文輸出付費(fèi)版權(quán)內(nèi)容。

當(dāng)詢問(wèn)關(guān)于“NYT旗下網(wǎng)站W(wǎng)irecutter 2023年最佳無(wú)繩直立式吸塵器”的文章時(shí),Bing Chat給出了類似的回應(yīng):完整列出Wirecutter推薦的三款吸塵器,并直接復(fù)制大量原文內(nèi)容。

訴訟中提到:“這些輸出顯示的原始Wirecutter文章內(nèi)容遠(yuǎn)比傳統(tǒng)搜索結(jié)果中顯示的豐富得多。不同于傳統(tǒng)的搜索結(jié)果,這里并沒(méi)有包含一個(gè)明顯的超鏈接,引導(dǎo)用戶訪問(wèn)Wirecutter網(wǎng)站,嚴(yán)重影響了Wirecutter的流量。”
在回應(yīng)“Wirecutter對(duì)最佳辦公椅推薦”的查詢時(shí),GPT-4不僅復(fù)制了Wirecutter的前四個(gè)推薦,還推薦了“La-Z-Boy Trafford Big & Tall Executive Chair”和“Fully Balans Chair”,但這兩款產(chǎn)品都沒(méi)有出現(xiàn)在Wirecutter的推薦列表里。
《紐約時(shí)報(bào)》稱,“用戶依賴Wirecutter提供高質(zhì)量、經(jīng)過(guò)深入研究的推薦,而這些虛假信息使Wirecutter品牌嚴(yán)重受損。”
除此之外,Bing Chat還提供過(guò)一個(gè)號(hào)稱來(lái)自《紐約時(shí)報(bào)》的“15種最有益心臟健康的食物”的回答,而其中的12種食物并未在該報(bào)文章中提及。訴訟強(qiáng)調(diào)媒體品牌可能會(huì)因?yàn)锳I“幻覺(jué)”捏造出的不實(shí)信息而遭受潛在損害。
多方觀點(diǎn)熱議
對(duì)于這起訴訟,由于知識(shí)版權(quán)和AI技術(shù)、人類學(xué)習(xí)與機(jī)器訓(xùn)練之間的界限本來(lái)就模糊不清,網(wǎng)友們當(dāng)然看法不一,爭(zhēng)議很多。
站在OpenAI一邊的網(wǎng)友說(shuō):“GPT給的回答難道不是取決于輸入的提示是什么嗎?如果用戶輸入的提示是‘這里有一篇《紐約時(shí)報(bào)》的文章,請(qǐng)只做微小的更改。’然后他們復(fù)制粘貼了那篇文章呢?”
“你說(shuō)它沒(méi)包含參考文獻(xiàn)?通常情況下,當(dāng)我看到ChatGPT提供這樣的答案時(shí),它都會(huì)像搜索引擎一樣提供源材料的參考。不過(guò)無(wú)論如何,這絕對(duì)是讓《紐約時(shí)報(bào)》的信息在未來(lái)被排除在外的絕佳方式。”
“為什么新聞業(yè)會(huì)是公共利益的一部分,而基于人類累積知識(shí)訓(xùn)練的AI模型不會(huì)是呢?從各個(gè)意圖和目的來(lái)看,ChatGPT可以充當(dāng)任何高中或大學(xué)學(xué)生的私人導(dǎo)師……而《紐約時(shí)報(bào)》顯然只是在追求金錢…… ”
還有人說(shuō),“人工智能不是在和人類做一樣的事情嗎——從各種資源中收集信息,然后基于這些資源輸出答案?”

接著這個(gè)觀點(diǎn)被駁斥:“不同之處就是,人并不是一個(gè)盈利產(chǎn)品。”

“OpenAI繞過(guò)了付費(fèi)墻,并從被盜取的數(shù)據(jù)中獲利,這是典型的版權(quán)侵權(quán)行為。人類并不會(huì)復(fù)制粘貼整個(gè)《紐約時(shí)報(bào)》的段落并要求收費(fèi)。藝術(shù)家讓人“記住”作品并根據(jù)記憶重新繪畫(huà),和讓攝影師拍攝一幅藝術(shù)作品的200MP圖像并分發(fā)該圖像,這是有區(qū)別的。”

我們知道大模型不會(huì)分辨信息來(lái)源,也不會(huì)真的去“讀”內(nèi)容,而是根據(jù)提供的訓(xùn)練集形成注意力機(jī)制,根據(jù)經(jīng)驗(yàn)輸出結(jié)果,所以并不存在“抄襲”。
支持《紐約時(shí)報(bào)》的網(wǎng)友認(rèn)為,這次訴訟案件關(guān)注的是大型語(yǔ)言模型的輸入,而不是學(xué)習(xí)過(guò)程和輸出。關(guān)注點(diǎn)不在于輸出的風(fēng)格是否與原作者或藝術(shù)家的風(fēng)格過(guò)于相似,而在于版權(quán)作品是否應(yīng)該(或如何)被納入訓(xùn)練數(shù)據(jù)集。
不過(guò),YC現(xiàn)任掌門人Gary Tan也站出來(lái)力挺OpenAI,在X轉(zhuǎn)發(fā)了一篇數(shù)盡NYT黑料的剖析文章,并表示“《紐約時(shí)報(bào)》對(duì)OpenAI的訴訟是愚蠢的,是由那些不太懂版權(quán)法的人撰寫的,而且將使《紐約時(shí)報(bào)》自己面臨被起訴的風(fēng)險(xiǎn)。”
但不論如何,各界都覺(jué)得這是一個(gè)值得推敲和重大影響的案例,關(guān)系到接下來(lái)生成式AI的路如何走下去。“這將是與AI和人類生成數(shù)據(jù)相關(guān)的最重要訴訟之一。這場(chǎng)訴訟的結(jié)果將對(duì)其他新聞和媒體公司產(chǎn)生巨大影響。”
并且除OpenAI外,許多AI產(chǎn)品也都在用Common Crawl的數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練,此次訴訟結(jié)果也許會(huì)影響整個(gè)AI行業(yè)。大家也在猜測(cè),如果紐約時(shí)報(bào)勝訴,導(dǎo)致其他媒體機(jī)構(gòu)紛紛效仿,會(huì)不會(huì)在一定時(shí)間內(nèi)阻礙AI技術(shù)的發(fā)展?當(dāng)然,也必定引起對(duì)版權(quán)法的重新審視,因?yàn)榫同F(xiàn)有的法律來(lái)說(shuō),可能并不適用于新興的 AI 技術(shù)。
“最高法院的裁決實(shí)際上是不可避免的,”ProPublica前總裁、新聞業(yè)務(wù)顧問(wèn)Richard Tofel說(shuō)道,“一些出版商在一段時(shí)間內(nèi)達(dá)成了和解,但足夠多的出版商不會(huì)這樣做,這個(gè)新穎且關(guān)鍵的版權(quán)法問(wèn)題將需要得到解決。”
而在今年2月,美國(guó)最大商業(yè)圖庫(kù)Getty Images也曾于特拉華州起訴AI藝術(shù)公司Stability AI,稱后者侵犯了Getty的版權(quán),未經(jīng)允許復(fù)制了超過(guò)1200萬(wàn)張照片及其標(biāo)題和元數(shù)據(jù),來(lái)訓(xùn)練自己的Stable Diffusion模型。掀起AI與版權(quán)的持續(xù)討論。
據(jù)悉,在此次最新訴訟中,《紐約時(shí)報(bào)》已聘請(qǐng)Susman Godfrey和Rothwell, Figg, Ernst & Manbeck律師事務(wù)所作為訴訟的外部法律顧問(wèn)。Susman曾代表Dominion Voting Systems在其誹謗案件中對(duì)抗福克斯新聞,該案件于4月份以7.87億美元的和解結(jié)果告終。上個(gè)月還曾代表非小說(shuō)類作者提起了針對(duì)微軟和OpenAI的集體訴訟,這些作者的書(shū)籍和其他版權(quán)材料被用于訓(xùn)練聊天機(jī)器人。
生成式AI技術(shù)與內(nèi)容知識(shí)產(chǎn)權(quán)的法律戰(zhàn),終于被《紐約時(shí)報(bào)》一紙?jiān)V狀帶到了臺(tái)面上。盡管這種錯(cuò)綜復(fù)雜的局面需要抽絲剝繭,在沒(méi)有參考案例的情況下,短時(shí)間內(nèi)根本不會(huì)有結(jié)果。但面對(duì)建立安全人工智能的終極目標(biāo),這些都是一路上必要解決的問(wèn)題。摸著石頭過(guò)河,又何嘗不是人類自我訓(xùn)練的過(guò)程。那么大家對(duì)于《紐約時(shí)報(bào)》對(duì)OpenAI的這起轟動(dòng)性訴訟,又有什么看法呢?歡迎貢獻(xiàn)你的觀點(diǎn)!
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。