OpenAI震撼弹！Sora生成视频光影堪比王家卫＊阿波罗新闻网

去年四月，纽约一家名为Runway AI的公司推出了一项技术，让人只需在屏幕上输入一个句子就可以生成视频。

当然彼时的效果仍不尽如人意，一眼就能看出是AI。

没想到仅仅过去10个月，类似的技术就已经来到了全新的高度。

AI，又进化了。

今天OpenAI官宣了新产品Sora，号称可以生成“最长60秒的视频，其中包括高度丰富的场景、复杂的运镜、感情鲜活的多个人物”。

从目前OpenAI给出的演示视频看，这宣传词还真没多夸张......

1.“大雪天，美丽、繁华的东京。镜头越过繁华的街景，跟随至几个人，他们享受着美丽的雪景，在附近的商摊购物。漂亮的樱花瓣和着雪随风飘落。”

细看仍然能看出一些问题：人体比例过于细长、两位主人物走的是个死胡同、有些樱花没有树枝飘在天上......

但讲实话，这都是看第二遍之后才能发现的细节。第一眼看上去已经相当可信了。

估计再优化优化，就已经可以给那些不会画画的导演做分镜用了......

Runway AI生成画面效果仍不尽如人意

Introducing Sora, our text-to-video model.

Sora can create videos of up to60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt:“Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI(@OpenAI) February15,2024

2.“几头巨型长毛猛犸踏着积雪的草地走向镜头，随着踏步，它们身上的长毛在微风中飘扬。远处是白雪覆盖的树木和壮观的雪山。”

“午后的光线伴随着几缕云和远处高悬的太阳，发出温暖的光晕。较低的机位、优美的摄影和景深，捕捉到了这群巨大且毛茸茸的哺乳动物。”

这个除了“AI味儿”比较明显之外甚至挑不出什么毛病。

Prompt:“Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS

— OpenAI(@OpenAI) February15,2024

3.“一位时尚女子走在东京街头，道上到处都是暖色的霓虹和动态的城市标志。她身穿黑色皮夹克、红色长裙、黑色靴子，手拿黑色皮毛，戴太阳镜，涂红色唇膏。”

“她走得自信而随意。街道潮湿，反射出五颜六色的灯。镜头里还有许多行人走来走去。”

Prompt:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI(@OpenAI) February15,2024

这可能是最震撼的一个，时长来到了一分钟，证明宣传语所言非虚。

配上一段小提琴，再加个红红黄黄的滤镜，旁白再来段什么“某年某月某日，东京。街头很冻，霓虹一直在闪，好似永远不会熄灭.......”

直接王家卫了。

这一分钟能找到的最大瑕疵在15~16秒处，人物左右脚突然交换了，但瑕不掩瑜。它很轻松就解决了“拍镜面怎么能不拍出摄影机”这一千古难题。

4.“一段电影预告片。讲述一位30岁太空人的冒险故事，他头戴红色羊毛织成的摩托车头盔。头顶蓝天，脚下盐碱沙漠，影院风格，以35mm胶片拍摄，色彩鲜艳。”

Prompt:“A movie trailer featuring the adventures of the30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB

— OpenAI(@OpenAI) February15,2024

这一段是OpenAI故意整活，设计了一个针织帽头盔，搞得很出戏。但这段真的挺牛的，你甚至能看出一些镜头语言.......

一开始的越肩接怼脸特写用来介绍主角，飞船内外交替呈现，后面越切越快传达紧张感——它都会蒙太奇了......

最离谱的是提示词只给了故事梗概、风格上的限定，上面这些拍摄手法全是它自己“悟”出来的，太科幻了.......

5.“一个渲染得很华丽的珊瑚礁+纸艺的世界，到处都是五颜六色的鱼和海洋生物。”

Prompt:“A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.” pic.twitter.com/gzEE8SwP81

— OpenAI(@OpenAI) February15,2024

6.“一段动画场景，一个矮小、毛茸茸的怪物跪在一根融化的红烛旁，近景。”

“画面应该是3D写实风，重点在灯光和材质上。情绪基调是好奇、奇妙，小怪物要张大眼睛和嘴巴，凝视着蜡烛的火焰。”

“它的姿势要传达出一种天真和俏皮的感觉，好像是第一次探索周围的世界。暖色调和夸张灯光的使用，进一步加强了画面的舒适温馨感。”

Prompt:“Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6

— OpenAI(@OpenAI) February15,2024

5和6一样，都是非写实风，感觉纯是OpenAI在秀肌肉，告诉人们“Sora不光能生成真实画面，还能做动画”。

也是，反正对于AI来说写实和动画没啥区别，反正都是从0开始生成的.......

以上就是OpenAI在推特上公布的6个演示视频，但他们官网上还有更多，篇幅所限就不再一一列举，感兴趣的话也可以自己去搜搜看。

其实除了开头提过的Runway AI之外，谷歌、Meta这两个大公司也尝试过“文本转视频”技术，但效果没有一个能接近Sora的。

其他公司的技术都只能生成大概十几秒，只有Sora能达到一分钟。

另外，Sora是一次性生成整个视频，而不是一帧一帧的生成。

这很大程度上保证了画面的连贯性，也就是说一个东西暂时出画面了，再回到画面来，还是同一个东西，而不是像下面这样连续变化，变着变着就诡异得没法看了：