新闻 > 科教 > 正文

OpenAI震撼弹!Sora生成视频 光影堪比王家卫

去年四月,纽约一家名为Runway AI的公司推出了一项技术,让人只需在屏幕上输入一个句子就可以生成视频。

当然彼时的效果仍不尽如人意,一眼就能看出是AI。

没想到仅仅过去10个月,类似的技术就已经来到了全新的高度。

AI,又进化了。

今天OpenAI官宣了新产品Sora,号称可以生成“最长60秒的视频,其中包括高度丰富的场景、复杂的运镜、感情鲜活的多个人物”。

从目前OpenAI给出的演示视频看,这宣传词还真没多夸张......

1.“大雪天,美丽、繁华的东京。镜头越过繁华的街景,跟随至几个人,他们享受着美丽的雪景,在附近的商摊购物。漂亮的樱花瓣和着雪随风飘落。”

细看仍然能看出一些问题:人体比例过于细长、两位主人物走的是个死胡同、有些樱花没有树枝飘在天上......

但讲实话,这都是看第二遍之后才能发现的细节。第一眼看上去已经相当可信了。

估计再优化优化,就已经可以给那些不会画画的导演做分镜用了......

Runway AI生成画面效果仍不尽如人意

Introducing Sora, our text-to-video model.

Sora can create videos of up to60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt:“Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI(@OpenAI) February15,2024

2.“几头巨型长毛猛犸踏着积雪的草地走向镜头,随着踏步,它们身上的长毛在微风中飘扬。远处是白雪覆盖的树木和壮观的雪山。”

“午后的光线伴随着几缕云和远处高悬的太阳,发出温暖的光晕。较低的机位、优美的摄影和景深,捕捉到了这群巨大且毛茸茸的哺乳动物。”

这个除了“AI味儿”比较明显之外甚至挑不出什么毛病。

Prompt:“Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS

— OpenAI(@OpenAI) February15,2024

3.“一位时尚女子走在东京街头,道上到处都是暖色的霓虹和动态的城市标志。她身穿黑色皮夹克、红色长裙、黑色靴子,手拿黑色皮毛,戴太阳镜,涂红色唇膏。”

“她走得自信而随意。街道潮湿,反射出五颜六色的灯。镜头里还有许多行人走来走去。”

Prompt:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI(@OpenAI) February15,2024

这可能是最震撼的一个,时长来到了一分钟,证明宣传语所言非虚。

配上一段小提琴,再加个红红黄黄的滤镜,旁白再来段什么“某年某月某日,东京。街头很冻,霓虹一直在闪,好似永远不会熄灭.......”

直接王家卫了。

这一分钟能找到的最大瑕疵在15~16秒处,人物左右脚突然交换了,但瑕不掩瑜。它很轻松就解决了“拍镜面怎么能不拍出摄影机”这一千古难题。

4.“一段电影预告片。讲述一位30岁太空人的冒险故事,他头戴红色羊毛织成的摩托车头盔。头顶蓝天,脚下盐碱沙漠,影院风格,以35mm胶片拍摄,色彩鲜艳。”

Prompt:“A movie trailer featuring the adventures of the30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB

— OpenAI(@OpenAI) February15,2024

这一段是OpenAI故意整活,设计了一个针织帽头盔,搞得很出戏。但这段真的挺牛的,你甚至能看出一些镜头语言.......

一开始的越肩接怼脸特写用来介绍主角,飞船内外交替呈现,后面越切越快传达紧张感——它都会蒙太奇了......

最离谱的是提示词只给了故事梗概、风格上的限定,上面这些拍摄手法全是它自己“悟”出来的,太科幻了.......

5.“一个渲染得很华丽的珊瑚礁+纸艺的世界,到处都是五颜六色的鱼和海洋生物。”

Prompt:“A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.” pic.twitter.com/gzEE8SwP81

— OpenAI(@OpenAI) February15,2024

6.“一段动画场景,一个矮小、毛茸茸的怪物跪在一根融化的红烛旁,近景。”

“画面应该是3D写实风,重点在灯光和材质上。情绪基调是好奇、奇妙,小怪物要张大眼睛和嘴巴,凝视着蜡烛的火焰。”

“它的姿势要传达出一种天真和俏皮的感觉,好像是第一次探索周围的世界。暖色调和夸张灯光的使用,进一步加强了画面的舒适温馨感。”

Prompt:“Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6

— OpenAI(@OpenAI) February15,2024

5和6一样,都是非写实风,感觉纯是OpenAI在秀肌肉,告诉人们“Sora不光能生成真实画面,还能做动画”。

也是,反正对于AI来说写实和动画没啥区别,反正都是从0开始生成的.......

以上就是OpenAI在推特上公布的6个演示视频,但他们官网上还有更多,篇幅所限就不再一一列举,感兴趣的话也可以自己去搜搜看。

其实除了开头提过的Runway AI之外,谷歌、Meta这两个大公司也尝试过“文本转视频”技术,但效果没有一个能接近Sora的。

其他公司的技术都只能生成大概十几秒,只有Sora能达到一分钟。

另外,Sora是一次性生成整个视频,而不是一帧一帧的生成。

这很大程度上保证了画面的连贯性,也就是说一个东西暂时出画面了,再回到画面来,还是同一个东西,而不是像下面这样连续变化,变着变着就诡异得没法看了:

(诡异AI视频)

据OpenAI的工程师说,Sora这个名字来源于日语的“天空”,寓意差不多是“创造力突破天际”,现在看来,他们的期望多半要成真了。

目前Sora还是个测试版,可用性已经肉眼可见,天知道正式版会强成什么样.......

今天外网已经炸了,诸多媒体都已经报道了此事,“OpenAI”和“Sora”也已经登上了推特热搜:

(“OpenAI”和“Sora”登上推特热搜)

但由于近一两年AI造成的各种骚乱:模仿声音诈骗、无成本造谣、版权问题、挤压工作岗位......大多数网友对Sora持比较悲观的态度。

不是嫌它不好用,是怕它太好用了。

“这太可怕了,还会偷走人们的工作,更不用说它可以用来干各种各样的坏事。”

(出自推特网友评论)

“喔天哪,以后到底啥才是真的......”

(出自推特网友评论)

“真是想不到它能用来干什么坏事呢呵呵”

(出自推特网友评论)

“你们这些科学家太忙于想着‘能不能’的事,却忘了停下来想想‘该不该’......”

(出自推特网友评论)

“下一个十年,将会是彻底疯狂的。”

(出自推特网友评论)

甚至目前的Youtube一哥Mr.Beast也出来半开玩笑地表示:

“Sam(指OpenAI的CEO Sam Altman)请别让我成流浪汉了...”

(Mr.Beast评论)

另一位Youtube头部数码博主MKBHD也表示:

“我.....我有好多好多疑问”

(MKBHD评论)

再加上美国大选已经近在咫尺,很多人担心Sora会成为谣言的温床,干预到本次大选.....

“安息吧。本次大选。”

(出自推特网友评论)

网友的担忧不是没有道理的。毕竟很多中老年人是真的会相信“视频不能P”。

再说就凭演示视频这个质量......它真的只能骗到中老年人么?

Sora还有一个功能是基于一张图生成整个视频,往好处想,这可以用来填充老视频缺失的帧;

但往坏处想,就真可以“开局一张图,剩下全靠编”了。

早在2023年5月时,推上就曾经有人发过一张“五角大楼炸了”的AI图,当时传播范围挺广,很多人信了,最后还被CNN报道了:

(CNN报道的“五角大楼爆炸”)

现在的Sora生成的视频比这一张图更“可信”,潜在的引发骚乱的能力也更强了。

不过我们也不必太过担忧,OpenAI表示Sora也不是没有缺点,它最大的毛病有两个:

第一是理解不了因果关系,比如让它生成一个人咬饼干的视频,但咬完饼干可能没有咬痕;

第二则是缺乏空间意识,有时会混淆左右,不理解人和物体如何与场景交互。

等正式版发布,也许这些问题能得到解决,但相应地,引发骚乱的可能也会变大。

OpenAI也清楚这一点,所以他们目前还没有把Sora放出来,而是找了一群学者专家合作,想法设法地找寻Sora可能被滥用的点。

然而从过去几年发生的事看,他们恐怕很难把所有口子都彻底堵上,总会有人尝试给AI越狱,不是想防就能防得住.......

所以下面这位网友预想的场景,也许真有实现的一天:

“我被抓了,法庭上展出了‘视频证据’,里面是我在犯罪,一件我这辈子都没犯过的罪。”

(出自推特网友评论)

就在两天前,OpenAI对我们最熟悉的ChatGPT做出了改动,现在它的“记性”更好了。

(相关报道)

比如在《纽约时报》的这篇报道中,记者跟GPT聊天说他有个女儿叫Lina,马上五岁了,她喜欢粉色、喜欢水母。

等下次再跟GPT聊天,记者让GPT为女儿生成一张生日贺卡,它就直接调用了以前的信息:

(AI生成的贺卡)

这说明它记住了以前的聊天,变得更像个“人”了......

似乎来到2024之后,OpenAI加快了推进AI的脚步,Sora的出现就是一个明证。

一方面,Sora的前景让人十分期待,用来“拍电影”不行,但一分钟之内的短视频它足以胜任;

另一方面,超低成本的造谣也是明摆着很难解决的问题。

OpenAI究竟是在创造科技进步还是在打开潘多拉魔盒,也许最终就只能交给时间来评判了......

责任编辑: 李冬琪  来源:英国那些事儿 转载请注明作者、出处並保持完整。

本文网址:https://www.aboluowang.com/2024/0217/2018954.html