泄露的文件显示,英伟达在未经许可的情况下从互联网上抓取电影和游戏片段,以训练其人工智能模型。
404 Media获得的泄露文件显示,英伟达参与了未经许可的数据抓取,使用互联网上的电影和游戏片段来训练其人工智能产品。
泄露的文件显示,他们试图从包括Netflix在内的各种渠道下载完整的电影,他们的主要兴趣是YouTube视频。根据404 Media获得的电子邮件,项目经理打算在亚马逊网络服务上使用20到30台虚拟机,在一天内获取80年的视频。
数据抓取是在未经内容所有者许可的情况下从互联网上提取视频、文本和音频内容以训练人工智能模型的做法。这种做法可以被视为使用社交媒体平台上包含受版权保护内容的内容。
英伟达表示,在数据抓取过程中没有违反任何版权法。该公司还表示,其活动属于合理使用原则,因为它利用受版权保护的材料来培训人工智能。
404 Media从内部通信中获得的文件表明,一些NVIDIA员工对这些数据抓取活动表示担忧。然而,据称项目经理淡化了这些担忧,表示法律问题,例如违反YouTube的服务条款,将在稍后处理。
一位员工指出,英伟达的人工智能工程师试图获得尽可能多的游戏片段,以丰富训练语料库。这需要将游戏内容流式传输到NVIDIA的GeForceNow云服务,以高清晰度录制游戏视频。高级研究分析师Jim Fan在内部消息中也强调了这些镜头作为人工智能模型训练输入的重要性。
这些文件还详细介绍了NVIDIA为控制此类行为的影响所做的努力。根据泄露的电子邮件,研究副总裁刘明宇建议该公司应避免发布任何与数据抓取技术相关的论文,以防止公众反弹。它还创建了自己的一套YouTube数据抓取工具和API帐户,以帮助数据收集过程。
关于使用人工智能抓取数据的规则的法律立场仍然不太清楚。根据麻省理工学院的Robert Mahari的说法,确定数据抓取确实发生了可能非常复杂。组织可能会从不披露其培训数据的来源中获益,因为在没有确凿证据的情况下,很难证明存在滥用行为。
另一个平台,人工智能音乐生成平台Suno,最近因承认使用数据抓取来训练人工智能模型而受到关注。正如Cryptopolitan之前报道的那样,Reddit首席执行官Steve Huffman表示,该公司将继续禁止微软和其他人工智能公司使用数据抓取,直到支付款项并获得平台对数据使用方式的控制权。他说,Reddit不会允许在没有适当许可的情况下将数据抓取用于训练人工智能模型。
相关推荐
一分钟速览ETHGlobal Superhack 8个获胜项目
2024-08-20 12:40
362针对Binance和Changpeng赵的集体诉讼指控洗钱
2024-08-21 16:40
216为什么鲸鱼在骗局恐惧打击Shiba Inu的价格时坚持SHIB
2024-08-16 04:40
248SubQuery在柏林Web3峰会上推出去中心化AI推理主机
2024-08-21 19:20
308鲍威尔发表鸽派言论后,比特币流入量飙升至 5.43 亿美元
2024-08-27 09:29
366币安在2024年防止了24亿美元的潜在诈骗损失
2024-08-26 06:20
246最新资讯
以太坊期货市场出现降温迹象…继续下跌与抄底“观点分歧”
2025-03-29 21:12
ETH 价格跌破 1,900 美元:突然崩盘导致超过 9200 万美元被清算
2025-03-29 21:08
比特币 ETF 流入量激增,达 8700 万美元,而以太坊 ETF 则亏损 800 万美元
2025-03-29 21:04
R3 竞争对手企业以太坊联盟规模扩大
2025-03-29 21:00
以太坊价格暴跌至 1,900 美元
2025-03-29 20:57
机构投资者购买比特币或将推动牛市
2025-03-29 20:52
机构大量购买 BTC 或将引发下一轮牛市:哪些山寨币不容错过
2025-03-29 20:50
顶级策略师称比特币可以超越黄金:以下是时间表和价格影响
2025-03-29 20:46