本网讯(通讯员 杨辉)近日,我校通信与信息工程学院博士研究生张俊杰撰写的学术论文《Frequency-Aware Vision-Language Multimodality Generalization Network for Remote Sensing Image Classification》,入选人工智能顶级国际会议The 40th Annual AAAI Conference on Artificial Intelligence。我校为该论文第一完成单位,张俊杰为第一作者,学术论文成功入选该国际会议标志着我校人工智能前沿研究的重大突破与创新。

图1.FVMGN的整体结构。主要包含基于扩散的训练-测试阶段增强策略、多模态小波解纠缠模块、空间-频率感知的图像编码器、基于Transformer的文本编码器和多尺度空间-频率特征对齐策略。
随着遥感技术的飞速发展,多模态泛化任务应运而生,该任务要求算法模型在克服数据异构性的同时,具备强大的跨场景泛化能力。此外,大多数视觉语言模型通常使用通用文本描述刻画地物目标,缺乏针对不同模态遥感图像的专属语言先验知识。该研究将遥感多模态泛化正式定义为一种学习范式,并提出一种频率感知的视觉-语言多模态泛化网络(Frequency-Aware Vision-Language Multimodality Generalization Network, FVMGN)用于遥感图像分类。该网络引入模态专属的类别文本描述指导多模态视觉特征表示,并借助小波变换的同时在空间域和频率域学习多模态跨域不变特征,进而在统一的语义空间中实现双域视觉-文本特征对齐。具体来说,首先设计基于扩散的训练-测试阶段增强策略丰富模型输入,然后构建多模态小波解纠缠模块实现模态交互和跨域不变特征提取,进而设计空间-频率感知的图像编码器进一步提取局部-全局特征。此外,利用基于Transformer的文本编码器提取文本特征,并构建多尺度空间-频率特征对齐策略实现视觉特征和文本特征的精细匹配。公开数据集上的实验结果充分证实了所提方法的泛化性。FVMGN突破了传统遥感模型对单一场景、单一模态数据的依赖性,在大规模异构遥感数据分析、跨区域环境监测、多源遥感数据联合解译等领域具有广阔的应用前景。
张俊杰为学校仿生智能计算与不确定性信息处理团队成员,师从赵凤教授,主要研究方向为深度学习与遥感图像处理。
AAAI国际会议由国际人工智能协会主办,是人工智能领域最具影响力与权威性的顶级学术会议之一,被中国计算机学会推荐为A类国际学术会议。
论文:Zhang J, Zhao F, Liu H, et al. Frequency-aware vision-language multimodality generalization network for remote sensing image classification[C]. Proceedings of the AAAI Conference on Artificial Intelligence. 2026, 40(15): 12564-12572.
链接:https://doi.org/10.1609/aaai.v40i15.38251
(供稿:通信与信息工程学院)