AI 模型只需几个词就能创作故事、图像,甚至短片。但据 Weber Wong 所说,这些模型都是"由非创意人士开发,供其他非创意人士体验创意"。
换句话说,这些工具并不是为真正的创意专业人士设计的。这正是 Wong 希望通过他作为创始人兼 CEO 的新创企业 Flora 来改变的现状。
Flora 本周正式发布,并发表了一份宣言,声明"AI 创意工具不应仅仅是生成 AI 垃圾的玩具",并描述 Wong 和他的团队"致力于打造一款将深刻影响创意工作未来的专业工具"。
该宣言将 Flora 定位为一款不同于现有 AI 工具的产品。现有工具"让创作变得容易,但缺乏创意控制",而传统创意软件则"提供控制,但不够直观且耗时"。
Flora 并不致力于开发更好的生成式 AI 模型。Wong 认为创业公司的关键洞察之一是"模型本身并不是创意工具"。相反,Flora 提供了一个"无限画布",与现有模型集成 —— 这是一个可以生成文本、图像和视频的可视化界面。
"模型不重要,技术也不重要,"Wong 告诉我,"关键在于界面。"
例如,用户可以先提示 Flora 创建一朵花的图像,然后询问图像细节,这些细节会引导更多提示和不同变体,每个步骤和变体都会映射到上述画布上,还可以与客户协作分享。
Wong 表示,他希望 Flora 能服务于所有艺术家和创意人士,但公司初期将重点与视觉设计机构合作。事实上,他们正在根据著名设计公司 Pentagram 设计师的反馈迭代产品。
Wong 表示,目标是让 Pentagram 的设计师能"完成更多创意工作",比如创建一个标志设计,然后快速生成 100 个变体。他将其比作音乐创作的演变 —— 从莫扎特"需要整个管弦乐队来演奏他的音乐",到现在的音乐人可以"在新泽西的车库里用 Ableton 完成所有工作,然后发布到 SoundCloud 上"。
Flora 目前免费提供有限数量的项目和生成内容,专业版定价从每月 16 美元起。
好文章,需要你的鼓励
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。
这项研究探讨了多模态大语言模型在增强推理能力时出现的视觉幻觉问题。研究发现,模型生成更长推理链时,对视觉信息的关注减少,导致幻觉增加。研究者提出RH-AUC指标和RH-Bench基准来评估模型在推理与幻觉间的平衡,发现较大模型表现更好,纯强化学习训练优于监督微调加强化学习,且训练数据的类型比数量更重要。这些发现对开发既具推理能力又保持视觉准确性的AI系统具有重要意义。
这篇研究探讨了大语言模型在自动推理任务中的不确定性问题。研究者提出,模型生成形式规范时的概率不确定性不是缺陷,而是宝贵的信号源。通过引入概率上下文无关文法框架分析SMT-LIB程序分布,他们发现不确定性信号具有任务相关性(如逻辑任务中的语法熵AUROC>0.93)。他们的轻量级信号融合方法能减少14-100%的错误,仅需最小弃权,将大语言模型驱动的形式化转变为可靠工程学科。研究揭示当模型正确理解逻辑关系时会产生稳定的语法模式,为判断何时信任模型提供了可靠指标。
来自沙特阿拉伯王子苏丹大学和阿尔法萨尔大学的研究团队开发了GATE(General Arabic Text Embedding)模型,这是一套专为阿拉伯语设计的文本嵌入系统。该研究结合了套娃表示学习和混合损失训练方法,解决了阿拉伯语特有的语义处理挑战。GATE模型在MTEB基准测试的语义文本相似度任务中表现卓越,比包括OpenAI在内的更大模型高出20-25%,同时保持了多维度(768至64)的高效表现。研究通过详细的错误分析揭示了模型在不同相似度水平上的表现特点,为阿拉伯语NLP领域提供了新的研究方向。