推广 热搜： 收购ACF 石英加热管, 800 T型槽试验平台求购ACF 深圳回收ACF 回收ACF T型槽装配平台求购日立ACF T型槽地梁

Sora:深入谷歌videopoet理解全模态视频生成resume什么意思

日期：2024-04-11 作者：Agent的潜意识浏览：47 评论：0

核心提示：来源：Agent的潜意识今天我们来正式研究谷歌的最新视频合成论文videopoet: A Large Language Model for Zero-Shot Video Generation。这篇论

来源：Agent的潜意识

今天我们来正式研究谷歌的最新视频合成论文videopoet: A Large Language Model for Zero-Shot Video Generation。这篇论文是一个划时代的产品，之所以这么说，他有两个核心贡献：1、将文本、视频、图片、音频统一编码成一个codebook空间，然后用LLM那套训练范式训练。2、效果上，他可以合成5秒(41帧）的视频，核心突破是它可以保持运动的一致性。这一点（ motion）很难，因为人类对动作连贯性很敏感。稍微有些别扭就觉得视频很假。

这篇文章的方法可以说跟Sora差别很小，像文本视频音频统一编码就完全是一样的。核心差别在于训练任务的不一样上。Sora跟李飞飞他们的工作WALT [4] 是一样的，就是在训练任务上，一个扩散模型；而videopoet是一个mask自回归模型。

这两种范式各有千秋，前一种合成图片视频的真实场景逼真度更高，后一种方法合成视频音频的连贯性更好。应该结合起来一起用。

之所以有这样的区别，我仔细思考了下背后的数学逻辑：前者的diffusion扩散模型，他是针对原图增加高斯噪声，然后让模型学习去燥，这样模型更能学到逼真度高的画卷方法，他让模型去学习了像素的真实分布规律。这一点我多讲一句，我想起学校生涯的时候导师研究隐写分析的领域知识，就是将一张图片里的一些像素值改掉，然后让检测器检测出来哪些图片有篡改，哪些没有。那么这个扩散模型其实就是干这个活，只是不是手工篡改像素值，而是利用高斯噪声来篡改像素值。而后一种mask回归任务呢，他主要特征是前一帧预测后一帧，或者是图片中心预测整个四周，四周预测中心或者左边预测右边这些任务，他整个任务设计的就是next token的意思，当然就主要学习视频的连贯性了。

因此，sora你可以理解为WALT的改进版。并不神秘。模型结构变大了，然后数据变多了，然后更高清了。效果更好了。后面我们再研读WALT。

言归正传。我们来正式解刨videopoet。这篇文章知识密度很高。我看了好久才搞懂。

Sora技术6:深入谷歌videopoet理解全模态视频生成

scaling law的正确姿势：训练videopoet需要多少GPU

我们来认真盘一下这个事情。他也是大家很关心的事。

Mask模型本质是一个分类器，预测next token是什么。经典图像分类工程中，imagenet数据集，共1000个类别，你可以认为是token的cookbook是1000 的size，然后总数据集是128万，合每个类别1300张图片的样子。这个类比的意思是，一个token的全分布概率计算，需要1300个样例来统计。

GPT1的词典大小是40,478 个，GPT-2的词典大小为50257个，因此词典差别不是很大，那么我们姑且假定GPT4的词典大小为6万，他的数据集呢，是13万亿个 token，也就是每个token有2亿个样例来计算全分布概率才能达到GPT4的效果。

题外话：

大模型之所以大，核心问题就是词典大小太大，导致最后一层的预测softmax层参数巨大，需要大量的样例才能将这些参数完整训练出来。因此造成了大的资源浪费。我觉得这个是一个巨大的bug。是否可以分层分group分步执行，将这个计算量降低，因为本来就不符合逻辑，这么巨大的cookbook其实不符合人类的认知逻辑的，我们会将礼拜天和星期日当一个token，而LLM的话就是两个，其实是可以压缩的。

原文链接：http://www.sksw.cc/news/show-319966.html，转载和复制请保留此链接。
以上就是关于Sora:深入谷歌videopoet理解全模态视频生成resume什么意思全部的内容，关注我们，带您了解更多相关内容。

标签： 模型是一个视频词典连贯性图片像素大小

打赏

更多>同类资讯

0 条相关评论

推荐资讯

特别提示:本站信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。[浏览本网推荐采用IE8.0及以上浏览器]
免责声明:本站部分资源来自互联网或网友发布，所有数据仅供参考，如有不当、有误、侵犯隐私，请联系我们及时删除或纠正，本站不承担任何法律责任!
免费信息发布平台 1288.top 搜客商务网 2010-2024 QQ:3275118080

• 荆门博物馆模型定做即时留言「多图」	• 带你去看快手数据管治技术交流会-模型规范\|彭文
• 知乎直答要做国内的Perplexity？日炎荔枝三百颗	• 解锁AI对话的秘诀：如何写好提示词，获得你想要
• 算法模型：算法？模型？求解数学模型的方法就是	• 从“天价”到“骨折价”，大模型要变天了递交名
• 大模型降价至免费，ToB商业模式“卷”向何方？	• 丽水博物馆壁画定制承诺守信兴辰景模型值得信
• 大模型降价背后，国产大模型的竞争逻辑变了冰糖	• 做数据分析十年，第一次见到靠谱的归因模型电视