最新文章
20000 文本提示微调Stable Diffusion!商汤联合上海AI Lab提出CoMa!

20000 文本提示微调Stable Diffusion!商汤联合上海AI Lab提出CoMa!

文本到图像生成领域最近随着扩散模型的引入取得了显著进步。然而,对不 一致问题仍然缺乏合理的解释。缓解文本提示和图像之间的不对齐仍然是一个挑战。

32.2M指代分割数据集,新SOTA!国科大提出统一的对象级和部分级定位新方法UniRES!

32.2M指代分割数据集,新SOTA!国科大提出统一的对象级和部分级定位新方法UniRES!

数源AI推荐的论文介绍了一种指代表达分割(RES)任务,旨在通过描述性语言在像素级别定位特定区域。文章提出了多粒度指代表达分割(MRES)任务,并构建了RefCOCOm评估基准和MRES-32M数据集。提出的UniRES模型在对象级和部分级定位任务上表现优异,超越了先前的方法。

Mamba再下一城!上海AI Lab提出视频领域新SOTA VideoMamba!

Mamba再下一城!上海AI Lab提出视频领域新SOTA VideoMamba!

数源AI推荐的论文'VideoMamba: State Space Model for Efficient Video Understanding'介绍了VideoMamba模型,它通过线性复杂度运算符实现高效长视频理解。该模型克服了3D CNN和视频变换器的局限,具备可扩展性、敏感性、优越性和兼容性。

幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!

幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!

DeepSeek-VL是一个为现实世界设计的开源视觉语言模型,它通过数据构建、模型架构和训练策略三个维度来实现对高分辨率图像的高效处理和丰富语义理解。

最新RAG综述来了!北京大学发布AIGC的检索增强技术综述

最新RAG综述来了!北京大学发布AIGC的检索增强技术综述

北京大学崔斌教授领导的数据与智能实验室发布了关于检索增强生成(RAG)技术的综述,涵盖近300篇相关论文。RAG技术结合检索与生成,用于问答、对话生成等AI任务,展现出卓越潜力。

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

数源AI推荐的论文《G3DR: Generative 3D Reconstruction in ImageNet》介绍了一种新的3D生成方法G3DR,能从单个图像生成多种高质量3D对象。G3DR利用深度正则化技术和预训练的语言视觉模型CLIP,

7000万高质量视频文本对!文生视频最大的开源数据集Panda-70M来了!

7000万高质量视频文本对!文生视频最大的开源数据集Panda-70M来了!

数源AI推荐的论文介绍了Panda-70M数据集,该数据集通过多模态教师模型自动为7000万个视频生成高质量字幕。研究表明,该数据集在视频字幕生成、视频文本检索和文本驱动视频生成等下游任务上表现优异。

LLM指导3D说话面部生成!百度提出AVI-Talking!

数源AI推荐了一篇论文AVI-Talking,该论文提出了一种基于音频-视觉指令的系统,用于生成表现力丰富的3D说话人脸。系统通过大型语言模型理解音频信息,并生成指令来指导基于扩散的生成网络合成逼真的3D面部动画。