外媒:Meta 员工下载近 82TB 盗版书籍用于人工智能训练

Meta公司目前正面临一场集体诉讼,该诉讼指控其在训练大语言模型LLaMA过程中存在版权侵权、不正当竞争等行为。据vx – underground在X平台(前身为推特)发布的消息,法庭记录显示,这家社交媒体公司利用盗版种子文件,从诸如安娜档案库(Anna’s Archive)、Z图书馆(Z – Library)和科学图书馆(LibGen)等影子图书馆下载了81.7TB的数据,随后用这些数据来训练其人工智能模型。

以书面通信形式呈现的证据,表明了研究人员对Meta使用盗版材料的担忧。早在2022年10月,一位资深人工智能研究员就表示:“我认为我们不应该使用盗版材料。我真的需要在此划清界限。” 另一位研究员则称:“使用盗版材料应超出了我们的道德底线。” 随后他们补充道:“科学枢纽(SciHub)、研究之门(ResearchGate)、科学图书馆(LibGen)基本上就像海盗湾(PirateBay)之类的网站,它们在传播受版权保护的内容,这属于侵权行为。” 

“用公司配发的笔记本电脑下载盗版资源,感觉不太对劲”——Meta员工

随后,在2023年1月,马克·扎克伯格亲自参加了一场会议,会上他表示:“我们得推进这件事…… 我们得想办法解决所有阻碍。” 大约三个月后,一名Meta员工给另一名员工发消息称,他们担心Meta的IP地址被 “用于加载盗版内容”。他们还补充道:“用公司配发的笔记本电脑下载盗版资源,感觉不太对劲”,后面还跟着几个大笑的表情符号。 

然而,这并非人工智能训练模型首次被指控从互联网窃取信息。早在2023年6月,OpenAI就因使用小说家的书籍来训练其大语言模型而遭到起诉,《纽约时报》在12月也加入了诉讼行列。英伟达同样面临作家们的诉讼,因其使用196,640本书籍来训练NeMo模型,该模型后来已被下架。去年8月,一名英伟达前员工举报了公司,称其每天抓取超过42.6万小时的视频用于人工智能训练。最近,OpenAI正在调查DeepSeek是否非法获取了ChatGPT的数据,这一切都凸显了事态的讽刺性。

针对Meta的诉讼仍在进行中,所以我们得等法院做出裁决,才能判断该公司是否构成直接侵权。即便作家们赢得这场官司,财力雄厚的Meta很可能会提起上诉,这意味着我们即便无需等待数年,也得等上数月才能看到最终的法院判决。