马萨诸塞州 YouTube 创作者起诉 OpenAI:未获允许使用视频转录内容训练 AI 模型

aixo 2024-08-06 11:09:47
大模型 2024-08-06 11:09:47

最近,一位来自马萨诸塞州的 创作者大卫・米莱特(David )向 发起了集体诉讼,声称该公司在未获得允许的情况下,使用了数百万个 视频的转录内容来训练他们的生成式人工智能模型。根据米莱特的律师在美国加州北区地方法院提交的诉状, 被指控暗中转录他的影片及其他创作者的内容,以此训练其 和其他生成式 AI 产品的模型。

诉状中指出, 通过收集这些数据,明显从创作者的工作中获利,而这违反了版权法和 的服务条款,这些条款禁止将视频用于独立于其服务的应用。米莱特的律师在诉状中写道, 的 AI 产品因使用了未经同意、未给予任何信用和补偿的训练数据而愈发显得有价值。

米莱特代表的律师事务所寻求陪审团审判,并要求赔偿超过500万美元,作为所有可能受到影响的 用户和创作者的损失赔偿。

众所周知,生成式 AI 模型并没有真正的智能。它们通过处理大量的数据样本(比如电影、录音、论文等)来学习数据出现的可能性及其模式。很多模型的训练数据来源于网络上的公共网站和数据集。尽管企业声称他们的数据抓取符合 “合理使用” 的原则,但许多版权持有者对此表示不同意,并通过诉讼来停止这种做法。

视频转录内容如今成为了一种重要的训练数据,尤其是随着其他数据来源的枯竭。根据 .AI 的数据,目前全球超过35% 的顶级网站已经封锁了 的网络爬虫。此外,麻省理工学院的数据来源倡议的研究显示,约25% 的高质量数据来源已被限制使用,导致 AI 模型的训练数据变得更加紧张。

值得一提的是, 的 模型专门用于转录视频音频以收集更多训练数据。根据《纽约时报》的报道, 团队在转录了超过一百万小时的 视频后,利用这些转录文本来训练他们的 GPT-4模型。这引发了内部讨论,认为这可能违反了 的规定。

最近,一位来自马萨诸塞州的 创作者大卫・米莱特(David )向 发起了集体诉讼,声称该公司在未获得允许的情况下,使用了数百万个 视频的转录内容来训练他们的生成式人工智能模型。根据米莱特的律师在美国加州北区地方法院提交的诉状, 被指控暗中转录他的影片及其他创作者的内容,以此训练其 和其他生成式 AI 产品的模型。

诉状中指出, 通过收集这些数据,明显从创作者的工作中获利,而这违反了版权法和 的服务条款,这些条款禁止将视频用于独立于其服务的应用。米莱特的律师在诉状中写道, 的 AI 产品因使用了未经同意、未给予任何信用和补偿的训练数据而愈发显得有价值。

米莱特代表的律师事务所寻求陪审团审判,并要求赔偿超过500万美元,作为所有可能受到影响的 用户和创作者的损失赔偿。

众所周知,生成式 AI 模型并没有真正的智能。它们通过处理大量的数据样本(比如电影、录音、论文等)来学习数据出现的可能性及其模式。很多模型的训练数据来源于网络上的公共网站和数据集。尽管企业声称他们的数据抓取符合 “合理使用” 的原则,但许多版权持有者对此表示不同意,并通过诉讼来停止这种做法。

视频转录内容如今成为了一种重要的训练数据,尤其是随着其他数据来源的枯竭。根据 .AI 的数据,目前全球超过35% 的顶级网站已经封锁了 的网络爬虫。此外,麻省理工学院的数据来源倡议的研究显示,约25% 的高质量数据来源已被限制使用,导致 AI 模型的训练数据变得更加紧张。

值得一提的是, 的 模型专门用于转录视频音频以收集更多训练数据。根据《纽约时报》的报道, 团队在转录了超过一百万小时的 视频后,利用这些转录文本来训练他们的 GPT-4模型。这引发了内部讨论,认为这可能违反了 的规定。

划重点:

大卫・米莱特对 提起集体诉讼,指控其未经许可使用视频转录内容进行 AI 训练。

米莱特寻求超过500万美元的赔偿,代表所有受影响的 创作者。

生成式 AI 模型的数据来源面临日益严格的限制,许多顶级网站已封锁 的爬虫。

备注:资讯来源基地

副业搞钱交流群

欢迎大家加入交流群, 扫码进入,畅谈AI赚钱心得,共享最新行业动态,发现潜在合作伙伴,迎接未来的赚钱机遇!。

AI