Meta新推人工智能系统Make-A-Video：根据给定的文本生成短视频

Make-A-Video可以利用给定的几个词或几行文字生成一个几秒钟的短视频。据Meta公司称，Make-A-Video人工智能系统还可以从给定的视频或图像制作视频。Meta公司研究人员在今天上午发表的一篇博文中分享了利用Make-A-Video制作的几个短视频。

Meta公司（Meta Platforms Inc.）今天（2022年9月29日）首次推出Make-A-Video。Make-A-Video是Meta内部开发的人工智能系统，可以从给定的文字提示生成短视频。

Meta首席执行官Mark Zuckerberg详细介绍一个短视频的制作，“我们给出的描述是这样的。‘画自画像的泰迪熊’、‘戴着针织帽的树懒宝宝在探索笔记本电脑’、‘在火星上着陆的宇宙飞船’以及‘在海中冲浪的机器人’。生成视频比生成照片难得多，因为除了正确生成每个像素，Make-A-Video系统还必须预测像素如何随时间变化。”

Meta公司在一份研究报告中做了更详细的说明，Make-A-Video不是由一个而是由多个神经网络组成。这些神经网络的训练基于几百万个视频和23亿张图片的训练数据集。据Meta公司称，Meta的研究人员在检查人工智能训练过程的可靠性时用了人工和自动评估方法的组合。

Make-A-Video的第一个组件是一个神经网络，该组件的输入是文本提示，组件将文本提示转换成向量嵌入。所谓的向量嵌入是一种数据表达结构。与处理其他类型的数据比较，人工智能系统处理向量嵌入更容易一些。

在文本提示转换成向量嵌入后，向量嵌入就会被送给其他几个神经网络做进一步处理，经过几个步骤的流程后最终得到一个视频。这些神经网络最初是为生成图像而不是为生成视频而设计的，Meta在研究论文中详细说明了这一点。Meta在这些神经网络里添加所谓的时空层，用于视频的生成。

神经网络的基本构建块是所谓的层（Layers）。一个神经网络一般包含多个层，每个层由许多人工神经元组成，人工神经元是处理数据计算的代码块。一个人工神经元完成计算后将结果发送给另一个人工神经元进行进一步分析计算，该过程重复可能要重复许多次，最终输出一个结果。

Meta公司Make-A-Video的时空层可以将文本提示转换成16帧的短视频，短视频再被被送到另一个神经网络，短视频的帧数增加到76，产生最终的短视频。

Meta找了一组项目参与者将Make-A-Video与早期的人工智能系统作比较。Meta研究人员的详细介绍如下，“评分者利用我们的评估集，62%的时间选择我们的方法实现更真实的动感。我们观察到，在帧与帧之间存在较大差异时，我们的方法表现颇为出色。在帧与帧之间存在较大差异的情况下，关于真实世界里物体如何运动的知识至关重要。”

Make-A-Video的另一个值得注意的特点在于，Make-A-Video用到的一些神经网络可以用无监督学习方法进行训练。同类人工智能系统一般不支持无监督学习的训练方法。

研究人员可以用无监督学习训练就能够利用更多的数据训练人工智能系统。能够用更多的数据训练神经网络就可以执行更复杂的计算任务。Meta的研究人员称，“大量的数据对于学习世界上更微妙、更不常见概念的表征非常重要。”

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

Meta新推人工智能系统Make-A-Video：根据给定的文本生成短视频

来源：至顶网软件与服务频道

2022

09/30

13:53

分享

点赞

从传统CRM迈向智能化客户互动的转型之路

Wonder与Zipline合作，无人机送餐服务将于2027年在德克萨斯州上线

无人机卫星通信突破：轻量化终端助力野火响应

Google承认AI发展速度已超过电网脱碳速度

欧盟拟将AWS和Azure列为数字市场"守门人"

隆湫资本完成对「蓝芯算力」Pre-B轮超3亿元独家投资

Visa、Stripe等140余家机构联合推出Open USD稳定币，剑指Tether

Anthropic发布Claude Sonnet 5大语言模型，编程能力与安全性双升级

Wayve以85亿美元估值启动8500万美元员工股权流动计划

遗留系统与数据缺口制约香港企业财资中心发展

美国要求OpenAI限制其最强大AI模型的访问权限

两党州长达成共识：数据中心建设费用不应转嫁给普通用户

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: