SLIP-Flood:迈向洪灾跨模态大模型基础研究的一小步
编号:142
访问权限:仅限参会人
更新:2025-09-10 15:15:29 浏览:3次
口头报告
摘要
洪灾监测需多模态数据挖掘与多任务协同,目前亟需基于多模态数据的视觉语言预训练(VLP)模型以支撑多项洪灾相关下游任务,但现有洪灾跨模态预训练模型存在数据集规模小、鲁棒性不足的问题,且传统分类模型采用 “Hard Categorization Strategy(HC)” 忽视 “分类模糊” 现象,还仅考虑单模态信息而未充分利用图文联合信息;为此,本文提出支持洪灾图片分类、文图检索和辅助文本分类三项下游任务的 SLIP-Flood VLP 框架,首次构建用于洪灾图片分类模型(FICM)训练的 FloodMulS 与用于洪灾文图检索模型(FTIRM)训练的 FloodIT 两类专用数据集,并提出 “Soft Categorization Strategy”(解决分类模糊问题)与 “Soft Combination” 策略(集成 FICM 与 FTIRM,二者统称 SCSC);实验表明,SCSC 显著优化 SLIP-Flood 的图片分类性能,在 FICM 上较 HC 最高提升 F1 值 7.62%,在 FTIRM 上可提升 FICM 的 F1 值 0.35%,且 SLIP-Flood 在洪灾文图检索任务中最高 Recall 达 89.24%,同时具备辅助洪灾文本分类的应用潜力,相关资源已发布于https://github.com/muhan-yy/SLIP-Flood.git。
关键词
洪灾MLLM,图文数据集,图文分类,图文检索
发表评论