你可曾记得20 世纪 80 年代每当麦当娜在她的巡回演唱会中每次奏响热门歌曲“La Isla Bonita”时,她身后的巨大舞台屏幕上就会播放出超现实的“夕阳下云彩”的移动图像?
如今,如果也想“只需输入文字”就能将你脑海中的景象转变成视频,其最简单的方法是通过Runway发布的从文本到视频模型工具来制作视频。
Runway AI 是来自纽约一家名为 Runway 的初创公司的基于人工智能的工具集合。在这些工具中,Runway Gen-1 是一个 AI 视频到视频的 AI 生成器,通过现有视频,将 AI 效果应用于已有媒体。因此,需要提供一个基础视频供模型执行其后续工作。而 Runway Gen-2 是一个 AI 文本/图像到视频的生成器。不需提供任何视频,它可以接受图像或文本作为提示,并按照这些提示生成视频。
凭空创作视频最简单的方式就是用Gen-2通过提供一段文字,就可以为你生成一段视频。
可以访问:https://runwayml.com/来体验这两个模型,选择相应的模型输入提示词就可以根据需要修改的设置并生成你想要的视频。
Runway提供了很多基于人工智能的编辑工具,包括:视频到视频(Gen-1)、文本/图像转视频(Gen-2)、删除背景、文字转图像、图像到图像、训练你自己的生成器、无限影像、展开图片、帧插值、擦除和替换、背景混音、图像变化、3D捕捉、3D纹理、修复、颜色等级 (LUT)、超慢动作、模糊脸部、景深、场景检测、提取深度、干净的音频、消除沉默等
今天,我们就用最简单的方式体验生成视频这个功能。就拿我喜欢的一首歌做为示例,这首歌就是《You Raise Me Up》它鼓舞了许多暂时深处困境并无法自拔人。其旋律从舒缓到振奋,层层递进,让人逐渐摆脱出当前的悲伤与孤单,勇敢迎接必将光明的明天!
首先我们把要把这首歌词变成Gen-2模型能理解的提示。如果你觉得这一步可能比较费脑子的话,我们也可让GPT-4来帮忙。GPT根据歌词给出的提示词是:
视频开始于一位疲惫、失落的人物独自坐在宁静的自然环境中,四周被蔚蓝的山峦和宽广的海洋包围。镜头慢慢拉近,捕捉到他的眼神中流露出的孤独与忧郁。
画面转换,出现一个亲切的人物静静地走到他身边坐下,温暖的手臂环绕着他的肩膀。这一举动带来安慰和力量,他的眼神开始显露出希望和决心。
随着音乐的升华,画面展示这位人物站立起来,在他的亲友的支持下,他开始攀爬高山,勇敢地面对暴风雨中的惊涛骇浪。镜头中,他从山顶望向远方,面对风暴的海面,彰显出内心的力量和勇气。
画面再次转变,展示他在亲友的肩膀上看向更远的地方,似乎触及了生命的极限。此时,画面捕捉到他们共同的笑容,体现出相互支持和无私的爱。
最终画面,随着夕阳的落下,他们一起在海边行走,每个人的心中都有着不同的饥渴,但共同的体验让他们感受到生活的完整和奇迹。随着镜头的拉远,音乐缓缓降低,留下一种宁静而充满希望的氛围。
其英文:
The video begins with a weary, despondent individual sitting alone in a tranquil natural setting, surrounded by azure mountains and expansive seas. The camera slowly zooms in, capturing the loneliness and melancholy in his eyes.
The scene transitions to a kind figure quietly walking over and sitting beside him, with warm arms wrapping around his shoulders. This gesture brings comfort and strength, and hope and determination start to shine in his eyes.
As the music swells, the scene shows the individual standing up, with the support of his loved one, he begins to climb mountains and bravely faces the stormy seas. From the mountaintop, he looks into the distance, confronting the tempestuous ocean, demonstrating inner strength and courage.
The scene shifts again, showing him on the shoulders of his friend, looking toward even greater distances, seemingly reaching beyond the limits of life. At this moment, the camera captures their shared smiles, reflecting mutual support and selfless love.
In the final scene, as the sun sets, they walk together along the seaside, each with different yearnings in their heart, but the shared experience brings a sense of completeness and wonder to their lives. As the camera pulls away and the music slowly fades, a serene and hopeful atmosphere lingers.
这有5段文字,也就是需要用5个场景来呈现。所以我们需要一个场景一个场景的去生成。
注册好进入主页面:
进入Gen2模型页面:
我们可以看到,它既可以根据你有的视频资产生成视频也可以通过文字,我们这次采用文字生成视频。
插入第一段文字后就会生成第一个场景。模型会为你产生一段4S 的视频。视频会呈现在右侧,生成好的视频就可以下载并保存。
最后可以将5段生成好的视频进行拼接,或者再用Gen1模型继续AI拓展、丰富,希望有兴趣的读者朋友们能继续探索……
今天,生成视频已十分简单、便捷,但人工智能生成的最长视频仍然是以秒计,经常会出现抖动动作和明显的缺陷:如扭曲的手和面部。相信随着技术的不断进步,这些问题会得到很好的改善。
好文章,需要你的鼓励
Liquid AI发布了新一代视觉语言基础模型LFM2-VL,专为智能手机、笔记本电脑和嵌入式系统等设备高效部署而设计。该模型基于独特的LIV系统架构,GPU推理速度比同类模型快2倍,同时保持竞争性能。提供450M和1.6B两个版本,支持512×512原生分辨率图像处理,采用模块化架构结合语言模型和视觉编码器。模型已在Hugging Face平台开源发布。
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
阿里团队推出首个AI物理推理综合测试平台DeepPHY,通过六个物理环境全面评估视觉语言模型的物理推理能力。研究发现即使最先进的AI模型在物理预测和控制方面仍远落后于人类,揭示了描述性知识与程序性控制间的根本脱节,为AI技术发展指明了重要方向。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。