多特征融合的跨模态遥感图像-文本检索方法研究
编号:54
访问权限:仅限参会人
更新:2025-09-10 13:45:51 浏览:155次
口头报告
摘要
面向遥感图像–文本检索,本文围绕特征建模、跨模态对齐与系统效率提出三项方法。① GLITR:联合全局与局部视觉表征,设计动态融合模块以整合多层次特征,并引入基于样本对先验相似性的三元组损以缓解强类内相似性造成的正样本歧义。② MIIA:通过掩码交互推断模块,采用掩码视觉—语言建模促进细粒度图文交互;结合跨模态动量对比学习与双向分布匹配,通过最小化相似度分布的 KL 散度实现稳健对齐,且不依赖额外先验监督。③ SGPD:提出稀疏引导的部分密集表征,将预训练密集向量转化为稀疏表示,并利用稀疏检索结果与密集向量聚类的重叠性进行概率筛选,仅检索有限聚类以兼顾可解释性与响应效率。上述方法为地理定位、遥感解译、灾害监测与环境评估等应用提供了可扩展的跨模态检索方案。
关键词
遥感图像文本检索;特征融合;视觉语言预训练模型
稿件作者
缪小然
南京大学
佘江峰
南京大学地理与海洋科学学院
发表评论