学习强国

微信

山大发布

抖音

视频号

微博

小红书

快手

哔哩哔哩

山东大学报

学术聚焦

软件学院和C-FAIR师生参加多媒体领域国际顶级会议并作报告

发布:山东大学融媒体中心 日期:2025年11月06日

[本站讯]近日,第33届国际多媒体大会(ACM MM 2025)在爱尔兰都柏林举办。软件学院博士后马翔、硕士研究生陈智伟,山东大学-南洋理工大学人工智能国际联合研究院(C-FAIR)博士研究生邢程程参加会议,汇报了在人工智能与多媒体领域的最新研究成果。

1.论文题目:Reliable Cross-modal Alignment via Prototype Iterative Construction (ACM MM 2025)。马翔为该篇文章的第一作者,学院教授崔立真为通讯作者。

论文简介:跨模态对齐是一项重要的多模态任务,其核心目标在于弥合不同模态之间的语义鸿沟。实现该任务的基础在于匹配对之间存在语义一致性。传统方法默认匹配对的嵌入表示仅包含语义信息,忽略了非语义信息在对齐过程中的干扰,导致信息偏差甚至丢失。这些非语义信息主要表现为数据中的风格差异,本文将其描述为风格信息。为解决上述问题,一种直观的思路是将风格与语义分离,仅对语义信息进行对齐。然而语义与风格是复杂的耦合关系,且均为抽象概念,无法准确描述。本文提出PICO框架,通过量化每个特征列表征语义信息的概率,并将其作为嵌入交互时的权重,以抑制风格信息为主导的特征列对交互过程的影响。为确保语义概率的可靠性,本文提出一种迭代的原型构建方法,其核心操作是基于性能反馈的加权函数,并验证了该函数能为带来更高性能提升的原型分配更高权重。

2.论文题目:Learning Invariant Discriminative Patterns for Unified Anomaly Detection (ACM MM 2025)。邢程程为该篇文章的第一作者,学院教授徐衍钰、崔立真为通讯作者。

论文简介:异常检测在工业检测、医疗成像等众多现实场景中发挥着关键作用。传统异常检测模型通常针对特定的类别进行训练,其应用范围被局限于有效场景之内。不同于传统方法,统一异常检测 (UAD) 是无需在训练中访问目标领域数据,便可识别跨多域异常。其中,关键挑战在于已见数据和未见数据之间的域迁移问题,这需要在统一异常检测的上下文学习过程中,捕获不同领域中参考图像和查询图像之间的不变的判别模式。为解决该问题,本文提出一种新颖的 UAD 框架,通过预处理、处理中和后处理模块来学习不变的判别模式。具体包括:(1)预处理阶段,VLM 引导的数据增强模块生成多样化且语义一致的图像,然后进行潜在空间过滤。(2)处理中阶段,自适应 VQ 记忆模块存储代表性的残差判别模式,以实现稳健的残差比较。(3)后处理阶段,GUR(几何分布增强数据表征)模块对几何特征分布进行建模,合成并优化增强后的提示表征,从而得到包含丰富信息的上下文特征。基准数据集上的大量实验表明,本文方法在检测未见域的异常方面具有更优异的泛化能力,优于现有先进的方法。

3.论文题目:HUD: Hierarchical Uncertainty-Aware Disambiguation Network for Composed Video Retrieval(ACM MM 2025)。陈智伟为该篇文章的第一作者,学院副研究员胡宇鹏为通讯作者。

论文简介:组合视频检索(Composed Video Retrieval, CVR)是一项具有挑战性的视频检索任务,它利用由参考视频和修改文本组成的多模态查询来检索期望的目标视频。该任务的核心在于理解多模态组合查询并实现准确的组合特征学习。在多模态查询中,与文本模态相比,视频模态通常携带更丰富的语义内容。然而,以往的工作在很大程度上忽略了这两种模态之间信息密度的差异。这一局限性可能导致两个关键问题:修改主语指代模糊和细节语义关注受限,这两个问题都会降低CVR模型的性能。为了解决上述问题,研究提出了一种新颖的CVR框架,即Hierarchical Uncertainty-aware Disambiguation network(HUD,分层不确定性感知消歧网络)。HUD是第一个利用视频和文本之间信息密度差异来增强多模态查询理解的框架。它包含三个关键组成部分:(a)整体指代消歧,(b)原子级不确定性建模,以及 (c)从整体到原子的对齐。通过整体的跨模态交互来利用重叠语义,并通过原子级的跨模态交互来实现细粒度的语义对齐,HUD能够实现有效的目标消歧,并增强对详细语义的关注,从而实现精确的组合特征学习。此外,我们提出的HUD也适用于组合图像检索(CIR)任务,并在CVR和CIR任务的四个基准数据集上均达到了最先进的(state-of-the-art)性能。

ACM MM于1993年首次举办,是多媒体领域最具影响力的国际顶级学术会议之一,也是该领域学术界和工业界交流最新研究成果、探讨前沿技术的重要平台。被中国计算机学会(CCF)列为A类会议。本届会议主赛道的全球投稿量为5330篇,最终录取1250篇文章,录取率为23.45%。


【供稿单位:软件学院     作者:马翔 邢程程 陈智伟    摄影:马翔 邢程程 陈智伟         责任编辑:蒋晓涵 徐佳燚】