9月2日,2021年中国国际服务贸易交易会在北京开幕,国产专业图像处理软件厂商亦心科技亮相服贸会,展示其采用全平台设计架构、支持10亿以上像素级别的图像处理软件——“悟空图像”,该软件同时兼容Adobe Photoshop格式,是国产图像处理领域的创新突破。
本届服贸会首次将文化服务和旅游服务合并为文旅服务专题,围绕“科技赋能新文旅,创意引领新生活”主题,采取线上线下同步方式,通过展览展示、论坛活动、推介交易等集中展示文化产业和旅游业的新产品、新技术及文化贸易的新服务、新业态。悟空图像整合了当前的图像处理算法、人工智能技术、互联网技术,将图像处理门槛降低,实现大众化、普惠化,实现了图像处理软件在大众应用领域的颠覆性变革。
“我们翻翻手机就能看到,照片图像的数量远远超过了办公文档和音视频的数量,但是用户使用需求没有得到更好的满足!”亦心科技公司负责人表示,图像处理作为一项专业度比较高深的技术现在到了变革的时间节点,亟待跨越国外产品使用难度高、学习难度大的门槛,让每一位普通用户都能很快上手。“这是我们创业的初心”。
众所周知,我们日常工作与生活都离不开图像编辑处理,无论是文档、演示报告中的插图、背景设计,还是宣传海报、产品广告、证件照片处理、纪念册的制作,对于日常照片剪辑、合成、美化调色更不可少。国外品牌Adobe Photoshop是专业图像处理领域的先行者,近年来,在国家号召自主创新的政策大趋势下,国内厂商也在发力迎头赶上。“悟空图像”通过设计元素化拆解,大大降低了设计难度,就像写作文、学英语,图像处理从垂直技能转变为水平技能,充分发挥每个人的创意创作能力。
“悟空图像”核心团队在图像处理和计算机视觉领域有二十年的耕耘和积累,聚集了国内最早的图像处理技术研发人员、OCR识别及人工智能技术研究人员,结合最近几年人工智能技术和互联网技术,打造平台化的图像处理软件,将图片的生产者、消费者、专业设计者有效链接在一起,形成生态闭环,让每个环节的用户都能获益。在客户端这方面悟空图像推出了PC版和移动版,基本覆盖了所有主流平台,像国产的操作系统:麒麟、统信、方德等,也包含对移动平台鸿蒙、Android和iOS的支持,悟空图像的目标是实现Adobe Photoshop的功能替代,让普通用户也能进行创意创作。
“悟空图像”是亦心科技公司前期图像处理软件“幻影图像”的专业增强版,“悟空图像”寓意“七十二变”,每个变化都对应着不同的编辑功能和图像特效。相对上一版,悟空图像在功能、性能上都有很大的飞跃,具有技术扁平化、操作智能化、设计元素化、资源网络化四大特点。
事实上,“幻影图像”在亮相几个月后,即在2021年4月在福州举行的“数字中国”创新大赛荣获冠军,获得评委们的一致好评和投资界的青睐。在赛事活动的演讲中,林惠民院士曾寄言“软件只有第一,没有第二”。亦心科技正是在此激励下,秉承“图好做、做好图”的产品理念,深耕图像处理领域,力求为大众带来更好用、处理效果更好的软件,让人人都能成为创意大师。
好文章,需要你的鼓励
亚利桑那州立大学的研究团队开发了RefEdit,这是一种新型图像编辑AI系统,能够准确理解和处理指代表达(如"中间那个人"、"右边的猫")。通过创建RefEdit-Bench基准测试,研究者们证明现有模型在多物体场景中表现不佳。他们设计了一种创新的数据生成流程,仅用2万样本就训练出的RefEdit模型超越了使用数百万样本训练的大型模型。这一突破使AI图像编辑在复杂场景中更加精确和实用。
这项研究提出了Critique-GRPO,一种创新的在线强化学习框架,将自然语言批评与数字反馈相结合,克服了传统仅用数字反馈的三大局限:性能瓶颈、自我反思效果有限和顽固性失败。实验表明,该方法使大语言模型能够从错误中学习并改进,在八项数学和通用推理任务中,将Qwen2.5-7B和Qwen3-8B模型的平均通过率分别提高了约4.5%和5%,超越了包括那些引入专家示范的方法。研究还揭示,高熵探索和长回答并不总是最有效的学习方式,质量更重要。这一方法为大语言模型的自我提升能力开辟了新路径。
这篇研究介绍了"量化LLM评价者",一个创新框架,能使大型语言模型(LLM)在评估其他AI输出时更接近人类判断。由麻省理工和Adobe联合研发的这一方法,将评估过程分为两个阶段:先让LLM生成文本评价,再用轻量级机器学习模型将这些评价转化为更准确的数值评分。研究提出了四种评价者模型,适用于不同评估场景,实验表明它们不仅能显著提高评分准确性,还比传统微调方法更节省计算资源。这一框架特别适合人类反馈有限的场景,为AI评估领域开辟了高效且可解释的新路径。
这项研究由IDEA、华南理工大学和北京大学联合开发的Rex-Thinker系统,通过模仿人类的链式思考方式来解决物体指代问题。与传统直接输出边界框的方法不同,它采用规划-行动-总结的三步骤推理,使AI能像人类一样逐步分析图像中的候选物体,并在找不到匹配物体时拒绝作答。通过构建90,824样本的HumanRef-CoT数据集和两阶段训练方法,系统在精度、可解释性和泛化能力上均取得了显著进步。