阿波罗新闻网手机版
  新闻 |  评论 |  生活 |  新鲜事 |  娱乐 |  禁闻排行
🏠新闻 > 科教 >

为什么这么牛 大佬拆解Sora工作原理

Sora是一款独特的视频生成工具,其工作原理深入浅出,值得我们深入了解。something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理,通俗易懂。

Sora的工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始,逐渐精细化到所需的视频。而Transformer架构则负责处理连续的视频帧,确保视频中的动作流畅自然。

Sora的独特之处在于其处理视频生成的方法。它不是直接将文本转换为视频帧,而是依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧,而是处理空间(发生的事情)和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。

时空立方体:

通过这种方式,Sora将视频视为一个包含空间和时间维度的巨大立方体,然后再将其切割成更小的立方体,每个立方体代表空间和时间的片段。

剖析描述并确定了核心要素:

•物体(盛开的花朵、阳光普照的窗台)

•行动(随着时间的推移而增长)

•位置(郊区环境)

•甚至艺术风格(定格动画美学)

为了能够将这些补丁有意义地组合成一个连贯的视频,Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用,甚至包括不同艺术风格的信息。借助这些知识,Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。

在视频生成的下一阶段,扩散模型开始对每个嘈杂、抽象的补丁进行处理,逐渐精细化,直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系,确保视频中的动作流畅自然,停动画风格在整个视频序列中保持一致。

尽管Sora能够执行各种与视频相关的任务,并展现出惊人的视频生成能力,但仍有一些挑战需要克服。例如,它在模拟一些基础物理互动的精确性方面还有待提高,有时会产生不自然的效果,如人物的手势看起来不够真实。尽管如此,Sora在视频生成技术方面展示了巨大的潜力,为未来的人工智能应用开辟了新的可能性。

编辑:李华😎日期:02-22
来源:站长之家
Sora AI
许美华戳碎“中共心”!中国机器人翻车只是起手式(图/视频) 2026-03-25
Sora掰掰!OpenAI宣布下架 中止迪士尼大单合约 2026-03-25
问AI买衣服,Gap和谷歌玩真的了(图) 2026-03-25
退出10年后,这家科技巨头卷土重来 2026-03-24
Sora掰掰!OpenAI宣布下架 中止迪士尼大单合约 2026-03-25
【微博精粹】一网友脑洞了8000万公务员斩杀线 2026-03-24
曝科技大厂顶尖工程师3个月“没写过一行代码” 2026-03-23
大洗牌来临?AI才是“斩杀线”(图) 2026-03-23
20美元,一个人就能开公司赚钱的时代来了(图) 2026-03-23
传受AI冲击 B站裁员60% 研发人员集体罢工抗议(组图) 2026-03-22
确保全球领先地位,白宫发布重要政策文件 2026-03-22
刚刚过去的24小时,AI行业3个重磅消息 2026-03-22
我一年能赚2个亿,换不来一封斯坦福offer(图) 2026-03-21
中国股市最惨烈的一幕正在上演 2026-03-21
这周,所有人都在帮 AI 开银行账户(图) 2026-03-20
一个人,就是一家公司,然后呢? 2026-03-20
第一批雇佣AI当牛马的老板,已经在天台排队了 2026-03-20
网易大规模裁员背后:这一时刻必将来临(图) 2026-03-20
网易清退外包传闻背后 AI替换人力“一眼真” 2026-03-20
阿波罗新闻网手机版