泄露的文件显示,英伟达在未经许可的情况下从互联网上抓取电影和游戏片段,以训练其人工智能模型。
404 Media获得的泄露文件显示,英伟达参与了未经许可的数据抓取,使用互联网上的电影和游戏片段来训练其人工智能产品。
泄露的文件显示,他们试图从包括Netflix在内的各种渠道下载完整的电影,他们的主要兴趣是YouTube视频。根据404 Media获得的电子邮件,项目经理打算在亚马逊网络服务上使用20到30台虚拟机,在一天内获取80年的视频。
数据抓取是在未经内容所有者许可的情况下从互联网上提取视频、文本和音频内容以训练人工智能模型的做法。这种做法可以被视为使用社交媒体平台上包含受版权保护内容的内容。
英伟达表示,在数据抓取过程中没有违反任何版权法。该公司还表示,其活动属于合理使用原则,因为它利用受版权保护的材料来培训人工智能。
404 Media从内部通信中获得的文件表明,一些NVIDIA员工对这些数据抓取活动表示担忧。然而,据称项目经理淡化了这些担忧,表示法律问题,例如违反YouTube的服务条款,将在稍后处理。
一位员工指出,英伟达的人工智能工程师试图获得尽可能多的游戏片段,以丰富训练语料库。这需要将游戏内容流式传输到NVIDIA的GeForceNow云服务,以高清晰度录制游戏视频。高级研究分析师Jim Fan在内部消息中也强调了这些镜头作为人工智能模型训练输入的重要性。
这些文件还详细介绍了NVIDIA为控制此类行为的影响所做的努力。根据泄露的电子邮件,研究副总裁刘明宇建议该公司应避免发布任何与数据抓取技术相关的论文,以防止公众反弹。它还创建了自己的一套YouTube数据抓取工具和API帐户,以帮助数据收集过程。
关于使用人工智能抓取数据的规则的法律立场仍然不太清楚。根据麻省理工学院的Robert Mahari的说法,确定数据抓取确实发生了可能非常复杂。组织可能会从不披露其培训数据的来源中获益,因为在没有确凿证据的情况下,很难证明存在滥用行为。
另一个平台,人工智能音乐生成平台Suno,最近因承认使用数据抓取来训练人工智能模型而受到关注。正如Cryptopolitan之前报道的那样,Reddit首席执行官Steve Huffman表示,该公司将继续禁止微软和其他人工智能公司使用数据抓取,直到支付款项并获得平台对数据使用方式的控制权。他说,Reddit不会允许在没有适当许可的情况下将数据抓取用于训练人工智能模型。
相关推荐
分析师称比特币上涨时机已到,并更新了对 FET 和基于 Solana 的 Memecoin 的预测
2024-10-16 12:36
382马来西亚与Worldcoin合作进行尖端数字身份验证
2024-08-19 14:40
22713年,13个交易技巧:分享Octa的经验——第二部分
2024-08-13 19:40
204比特币价格创下 10 天新高 60.4 万美元,比特币交易员关注
2024-07-15 11:01
541Ripple宣布与阿联酋建立合作关系,XRP有望反弹
2024-08-08 03:00
215Jamie Coutts 预测比特币在本周期可能超过 100,000 美元
2024-10-28 13:49
444最新资讯
Bybit 遭黑客攻击后,以太坊社区对区块链回滚的呼吁出现分歧
2025-02-22 23:15
Bybit Hacker 成为第 14 大 ETH 持有者,超越 Vitalik Buterin 和 Fidelity
2025-02-22 23:11
以太坊上海升级对质押奖励和流动性的影响
2025-02-22 23:08
以太坊的最新分歧对 ETH 价格复苏的可能性意味着什么
2025-02-22 23:05
Arthur Hayes 和 Samson Mow 提议回滚以太坊网络
2025-02-22 23:00
以太坊价格预测,以及最新的以太坊新闻
2025-02-22 22:57
以太坊迈向 20,000 美元之路:ETH 能否在 2025 年创下新高
2025-02-22 22:53
以太坊的牛市
2025-02-20 20:32