机器能模拟人类感受？明略科技多模态团队斩获ACMMM全球顶会“最佳论文提名”

10月28日~11月1日，全球顶级多媒体会议ACM Multimedia（ACMMM）2024 在澳大利亚墨尔本成功召开。明略科技集团多模态团队与北京大学共同完成的最新研究成果在众多论文中脱颖而出，荣获最佳论文提名（Best paper nomination）。

10月28日~11月1日，全球顶级多媒体会议ACM Multimedia（ACMMM）2024 在澳大利亚墨尔本成功召开。

明略科技集团多模态团队与北京大学共同完成的最新研究成果《Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding》在众多论文中脱颖而出，荣获最佳论文提名（Best paper nomination）。明略科技集团创始人、董事长兼CEO吴明辉，多模态大模型部门负责人赵晨旭，明敬算法负责人苏安炀受邀赴墨尔本出席此次会议。

据悉，本次会议共收到4385篇有效投稿，其中，1149篇论文被接收，174篇论文被评选为Oral，最终仅26篇获得最佳论文提名。

明略科技集团创始人、董事长、CEO兼CTO吴明辉

在 ACMMM Oral Session 讲解最新研究成果

机器能模拟人类感受？明略科技多模态团队斩获ACMMM全球顶会“最佳论文提名”

明略科技集团多模态团队在 ACMMM 2024 会议现场

（左起：苏安炀、吴明辉、赵晨旭）

ACMMM会议是由国际计算机学会（ACM）主办的多媒体领域的顶级国际学术会议，同时也是中国计算机学会推荐的A类国际学术会议（CCF-A）。自1993年举办以来，今年是第32届。会议议题涵盖多媒体计算的各个方面，如多媒体内容分析、多媒体检索、多媒体安全、人机交互、计算机视觉等。

机器能模拟人类感受？明略科技多模态团队斩获ACMMM全球顶会“最佳论文提名”

ACMMM 2024 会议现场公布最佳论文提名奖项

针对当前AI领域在视频内容理解方面主要聚焦于客观层面，缺少主观层面的测量标准，以及机器模拟人类主观感受的有效手段的发展情况，明略科技的最新研究成果整合脑电、眼动信号等多种非标模态，构建了全新的多模态大语言模型范式，在机器理解和模拟人类主观感受的研究方向，迈出了重要一步。

机器能模拟人类感受？明略科技多模态团队斩获ACMMM全球顶会“最佳论文提名”

明略科技多模态团队论文荣获 ACMMM 2024 最佳论文提名奖项

论文题目：Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding

（超图多模态大语言模型：应用脑电和眼动模态来评估异质人群观看视频时的响应）

作者：吴明辉*，赵晨旭*，苏安炀*，狄东林，傅天宇，安达，何敏，高雅，马萌，颜鲲，王平（*为共同第一作者）

论文摘要：对视频创意和内容的理解往往因人而异，不同年龄、职业和性别的人的关注点和认知水平也存在差异。目前缺乏这方面的研究，没有可以进行评测的基础，大多数现有的基准都存在几个缺点：

1）模态数量有限，题目多为选择题，难以测量逻辑推理过程；

2）视频中的内容和场景过于单调，仅涉及到对视频内容的客观描述。

为了弥合与实际应用的差距，明略科技引入大规模的视频主观多模态评估数据集Video-SME。通过收集不同人群在观看相同视频内容时脑电图（EEG）和眼动追踪区域的真实变化，设立了新的任务和协议，分析和评估不同受试者对相同视频内容的认知理解程度。

依托新的评测标准，明略科技创新研发了超图多模态大语言模型（HMLLM），探索不同人口统计、视频元素、脑电图和眼动追踪指标之间的关联。HMLLM可以弥合丰富模态之间的语义差距，并集成帧与帧之间的信息以执行逻辑推理。明略科技在Video-SME和其他基于视频的生成性能基准上设计了实验，大量实验评估证明了该方法的有效性。

什么是人的主观感受？

测量不同人群观看广告视频的主观响应有何意义？

人在观看广告视频时，对于素材元素的认知程度、情绪高低、眼睛注视程度高低都是人的主观感受，不同性别、年龄、职业、身份的人群都会有所不同。

如果机器能够模拟不同人群观看广告视频时的不同主观感受，那么相当于可以对广告视频的内容、创意等进行有效的测量，指导广告成片过程，节省广告投放成本。

让机器学习、理解和模拟人类的主观感受，可能是赋予机器主观意识的开端。明略科技提出的新基准Video-SME有望成为该领域的新起点，标志着机器对视频的理解从客观维度向主观维度的转变。作为一种全新的范式，明略科技多模态大模型HMLLM的研发，致力于为该领域研究人员解决非标准模态问题提供宝贵经验与启示，从而促进大模型领域向人机协同的美好未来迈进。

本研究课题由科技部科技创新2030——“新一代人工智能（2030）”重大项目支持。

论文链接：

https://dl.acm.org/doi/10.1145/3664647.3680810

GitHub地址：

GitHub - mininglamp-MLLM/HMLLM: [ACM MM2024] The code for HMLLM.

来源：至顶网软件与服务频道

明略科技

0赞

好文章，需要你的鼓励

机器能模拟人类感受？明略科技多模态团队斩获ACMMM全球顶会“最佳论文提名”

来源：至顶网软件与服务频道

2024

11/08

10:50

分享

点赞

OpenAI在版权诉讼中疑因隐瞒证据遭遇重大危机

外科医生远程操控人形机器人，完成全球首例活猪手术

OpenAI发布ChatGPT Work：AI助手可连续工作数小时

欧盟向Meta施压：关闭自动播放和无限滚动，否则面临巨额罚款

世界模型的潜力与局限：它真的能模拟一切吗？

苹果起诉OpenAI：前员工利用系统漏洞窃取商业机密

如何利用开源AI智能体实现工作流程自动化

Cloudzy 云服务评测：VPS 性能与体验全面解析

这款PCIe插卡内置38核至强处理器与64GB内存，堪称完整服务器

是否该为企业招募数字员工？AI 智能体团队搭建全指南

AI赋能自主机器人：从工厂走向家庭的未来图景

数据中心能源需求威胁特朗普"美国制造"计划

机器能模拟人类感受？明略科技多模态团队斩获ACMMM全球顶会“最佳论文提名”

生成式AI、微短剧、情绪营销......如何挖掘下一个流量机会？这里有套方法论

明略科技吴明辉：企业迎接大模型时代，要解决知识工程问题

明略科技集团推出小明助理Copilot，以AI驱动知识管理

明略科技集团旗下明略智通推出O2O精准派样解决方案

95%员工用上大模型，明略科技想让更多企业拿到大模型船票

2023第七届营销科学大会揭示大模型时代营销的广阔“可为”前景

2023第七届营销科学大会揭示大模型时代营销的广阔“可为”前景

2023第七届营销科学大会即将拉开帷幕，开启未来营销科技新纪元

跨越AI 1.0到2.0，明略科技营销大模型赛道下的创新与发展

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: