外媒：Meta 员工下载近 82TB 盗版书籍用于人工智能训练-DOIT-数据产业媒体与服务平台

Meta公司目前正面临一场集体诉讼，该诉讼指控其在训练大语言模型LLaMA过程中存在版权侵权、不正当竞争等行为。据vx – underground在X平台（前身为推特）发布的消息，法庭记录显示，这家社交媒体公司利用盗版种子文件，从诸如安娜档案库（Anna’s Archive）、Z图书馆（Z – Library）和科学图书馆（LibGen）等影子图书馆下载了81.7TB的数据，随后用这些数据来训练其人工智能模型。

以书面通信形式呈现的证据，表明了研究人员对Meta使用盗版材料的担忧。早在2022年10月，一位资深人工智能研究员就表示：“我认为我们不应该使用盗版材料。我真的需要在此划清界限。” 另一位研究员则称：“使用盗版材料应超出了我们的道德底线。” 随后他们补充道：“科学枢纽（SciHub）、研究之门（ResearchGate）、科学图书馆（LibGen）基本上就像海盗湾（PirateBay）之类的网站，它们在传播受版权保护的内容，这属于侵权行为。”

“用公司配发的笔记本电脑下载盗版资源，感觉不太对劲”——Meta员工

随后，在2023年1月，马克·扎克伯格亲自参加了一场会议，会上他表示：“我们得推进这件事…… 我们得想办法解决所有阻碍。” 大约三个月后，一名Meta员工给另一名员工发消息称，他们担心Meta的IP地址被 “用于加载盗版内容”。他们还补充道：“用公司配发的笔记本电脑下载盗版资源，感觉不太对劲”，后面还跟着几个大笑的表情符号。

然而，这并非人工智能训练模型首次被指控从互联网窃取信息。早在2023年6月，OpenAI就因使用小说家的书籍来训练其大语言模型而遭到起诉，《纽约时报》在12月也加入了诉讼行列。英伟达同样面临作家们的诉讼，因其使用196,640本书籍来训练NeMo模型，该模型后来已被下架。去年8月，一名英伟达前员工举报了公司，称其每天抓取超过42.6万小时的视频用于人工智能训练。最近，OpenAI正在调查DeepSeek是否非法获取了ChatGPT的数据，这一切都凸显了事态的讽刺性。

针对Meta的诉讼仍在进行中，所以我们得等法院做出裁决，才能判断该公司是否构成直接侵权。即便作家们赢得这场官司，财力雄厚的Meta很可能会提起上诉，这意味着我们即便无需等待数年，也得等上数月才能看到最终的法院判决。

外媒：Meta 员工下载近 82TB 盗版书籍用于人工智能训练

nina

相关推荐

近期文章

热门标签