[本站讯]近日,软件学院智能媒体研究中心团队在遥感目标检测和视觉推理两个前沿研究课题上取得新进展,相关工作发表在国际权威期刊IEEE Transactions on Geoscience and Remote Sensing(中科院一区,IF=8.8)和国际顶级学术会议AAAI2024上,第一作者单位和通讯作者单位均为山东大学。
“Adaptive Edge-Aware Semantic Interaction Network for Salient Object Detection in Optical Remote Sensing Images”被国际权威学术期刊IEEE Transactions on Geoscience and Remote Sensing(IEEE TGRS)接收。本科生曾祥宇为第一作者,学院助理研究员徐明珠为通讯作者。
近年来,得益于深度学习的发展,光学遥感图像显著目标检测(RSI-SOD)任务受到了广泛关注。然而,现有的方法在解决光学遥感图像中存在的各种问题方面仍然面临挑战,包括显著性目标物体数量的不确定、杂乱的背景和阴影的干扰等。为了应对这些挑战,研究提出了一种新颖的自适应边缘感知语义交互网络(AESINet),用于有效的光学遥感图像显著对象检测(SOD)。具体来说,为了改善复杂边缘信息的提取,研究设计了一个局部细节聚合模块(LDAM),该模块可以利用我们提出的差异感知机制,自适应地增强显著性目标的边缘信息。值得注意的是,差异感知机制是一种新的边缘增强方法,其学习过程不需要边缘真值信息的监督。此外,为了准确定位不同数量和尺寸的显著性目标,研究设计了多尺度特征提取模块(MFEM)和深度语义交互模块(DSIM),用于捕获和利用多尺度信息,识别杂乱背景中的显著性目标,并有效地减轻阴影的干扰。我们在三个常用的光学遥感图像数据集上进行了广泛的实验,结果表明,研究提出的模型优于目前14种最先进的方法。遥感图像显著性目标检测作为一种视觉基础任务,可以为多种下游高层级遥感图像智能解析任务(如特定舰船飞机等目标检测、图像超分辨、遥感图像场景分类等)提供重要目标信息,提升各种遥感图像智能解析任务性能,并广泛应用于军事侦察、国土资源监测等国计民生领域,服务科技强国发展之路。
“Exploiting the Social-Like Prior in Transformer for Visual Reasoning”被国际顶级学术会议AAAI2024接收,硕士生研究生韩昱东为第一作者,学院副研究员胡宇鹏为通信作者。
现有的视觉表征学习通常采用基于自注意力机制的视觉上下文增强的方法,相关研究指出自注意力机制存在秩塌陷和特征退化的问题,这使得其应用于下游任务的表征无法充分发挥。为了缓解上述问题,该研究提出一种新颖的类社交自注意力机制来优化多模态推理任务中的表征学习,研究将视觉上下文交互的过程与社交群体中的人与人交流的过程进行类比,并从社交理论的两个重要概念——结构洞理论和度信息理论展开,分别对应设计了两种轻量级即插即用的单元:1)动态结构化交互单元,此单元模拟了结构洞的行为,结构洞作为社交群体中链接不同子群体的信息中介,可以接受更多信息来源,它的存在约束了一部分信息只在子群体的内部进行交互,从而使得信息交互更具备结构化,从而避免了特征的全局同质化,优化了表征的学习;2)判别性支柱校验,此单元利用度信息理论,建模了群体中不同人的重要差异,根据了信息的传递性,动态地学习了特征的判别性。该研究利用五个真实数据集在两个下游任务上进行了实验验证,相比于基线,都展现了显著性的提升,充分的可视化分析也说明了网络的社交行为和秩、表征学习的优势。