新闻 > 科教 > 正文

ChatGPT面临销毁?被曝逐字抄袭,或赔数十亿

有一些AI公司的确获得了创作者的同意,但大多数公司并没有。

有人甚至表示,《纽约时报》对OpenAI的诉讼完全误解了LLM的工作原理,如果法官弄错了这一点,将对人工智能造成巨大损害。

基本要点:大模型不会“存储”基础训练文本。这在技术上是不可能的,因为GPT-3.5或GPT-4的参数大小不足以对训练集进行无损编码。

简单讲,大模型的工作原理便是,从整个互联网获取大量的文本训练数据,然后训练注意力模型,来预测给定用户文本后面的下一个token。

也就是说,如果你说“太阳”,下一个词可能是“是”、“升起”、“发出”。如果是提示“海明威的《太阳》”,很可能下一个词是“也”。

注意力模型的权重大致就是这种概率分布。使用 LLM/Transformer的最大诀窍在于,了解先前文本的哪些部分对“准确”预测下一个token最有用。任何文本都不是从互联网上“记忆”下来的。

也就是说,如果模型的参数远远超过训练数据量(比GPT4大得多),并且用户提供了独特的前文,该文本和后续文本多次与训练数据中的某些内容完全匹配,那么模型就可以重复生成训练数据中的内容,即后续内容的概率趋近于1!

也就是说,超大模型确实可以复述训练文本,但这需要参数远超训练数据并给出相关文本。然而目前GPT水平还达不到这个状态。

再回到NYT在诉讼文件中的例子。

这里,GPT几乎完美地吐出了2012年一篇“Snow Fall”文章的开头段落。但这篇文章在互联网上到处都是,超级著名的文章!这就是为什么GPT对前一段文章的后验预测如此之好。

而对于那些不太著名的文章,NYT指责ChatGPT传播误导的事实。

主要是因为,如果给定的先前句子集在训练数据中只出现一次,则预测的后验文本将不会与训练数据匹配。它会“幻觉”出类似合理的文本。

幻觉之所以会发生,是因为大模型根本不了解事实,而只知道下一个词的分布。

这是一件大事,因为它可能为两个方面建立先例:1.法院怎样确定新闻内容在训练大语言模型时的价值;2.对于之前的使用情况,应当支付多少赔偿。

Midjourney吐出“原图”?

不仅仅是OpenAI、微软,就连最强的AI作图神器Midjourney也将在未来面临一大波的起诉。

Midjourney V6升级后惊艳了全网,但同时有人发现,其输出的图片完全和好莱坞等电影剧照毫无差别。

曾为漫威工作的插画家兼电影概念艺术家Reid Southen表示,只需要15分钟,就能找到Midjourney侵犯版权和剽窃的证据。

如下的图片中,可以看出生成的图像与电影原作非常接近,仅在镜头角度或姿势等方面存在细微差别。

他还制作了一段视频,展示了自己使用Midjourney V6进行的剽窃实验。

因为他发表的评论,Southen已经被踢出了Midjourney Discord小组。

据Southen表示,AI软件可以完全复制受版权保护的知识产权,并且可以创作无限的衍生品。

艺术家将在同一市场上与自己的作品竞争。当网上50%的漫威作品最终都是人工智能的山寨品时,品牌形象问题和消费者的困惑又将如何解决?

《蒙娜丽莎》这样的经典艺术品,只提供两个字的提示,就能完全复刻原图。

而且在这种情况下,这种行为并不会在法律上被判为“剽窃”,因为《蒙娜丽莎》的年代久远,已经属于公有版权。

2019年由托德·菲利普斯执导的电影“小丑”中的画面,也被Midjourney V6“拿来即用”。

这两张图如此相似,不得不让人怀疑,这似乎就是在训练数据中微调之后的版本。

而它们的不同之处,在于灯光和色彩。

矩阵中的基努,也和原片几乎一毛一样。

Midjourney V6甚至可以复制任何动画风格。

小黄人、瑞克和莫迪、巴斯光年等等,完全逼真全现。

为了最大限度地提高性能,新模型可能会在相同的数据上反复强化训练,导致输出结果与训练数据几乎完全相同。

这就是所谓的“过拟合”,此前研究表明这种情况可能会发生。ChatGPT也会出现文本过拟合的迹象。

全新的V6模型很可能是一枚重磅炸弹。目前,Midjourney已经卷入了至少一起诉讼。

以后网上这些画面究竟是原动画还是AI生成,恐怕没人能分得清了。

Prompt: scene from the simpsons[character]--ar16:9--style raw--v6

Prompt: scene from finding nemo[character]--ar16:9--style raw--v6

Prompt: scene from dragonball[character]--ar16:9--style raw--v6

Prompt: scene from rick and morty--ar16:9--style raw--v6

Prompt: scene from frozen--ar16:9--style raw--v6

责任编辑: 方寻  来源:新智元 转载请注明作者、出处並保持完整。

本文网址:https://www.aboluowang.com/2023/1230/1997487.html