基于可解释图表示学习的泛在地图布局理解
编号:146
访问权限:仅限参会人
更新:2025-09-10 15:16:10 浏览:3次
口头报告
摘要
地图布局是地图设计的重要内容,将地图布局编码为易于机器理解的向量模型(Embedding),有助于机器理解互联网上的大量地图图像,也为地图设计自动化提供计算智能支撑。现有布局研究多聚焦于文档、用户界面(UI)、平面图等布局分析,而对地图布局的研究相对缺乏。在基于深度学习的布局表示研究中,模型选择主要分为CNN、Transformer和GNN三类方法。CNN作为逐像素布局学习方法,受限于卷积核的感受野,只能在局部揭示元素的空间布局,且容易受到元素内部纹理特性的干扰。Transformer能全局捕捉元素间的相互关系,但缺乏对这些关系的显式表达,GNN可以直接建模布局元素及其关系,在布局表示方面展现出强大潜力。然而,现有基于GNN的布局表示方法在建模阶段通常仅关注元素自身属性及两两关系,忽视了多个元素间复杂关系的建模。论文基于地图布局设计原则,将地图布局建模为一元特征、二元特征及多元特征,提出了一种可描述地图布局全局-局部结构的双分支结构用于学习地图布局表示。在训练阶段,论文提出综合布局拓扑结构和几何特征的地图布局相似性度量方法,生成地图布局的正负样本,并利用双分支结构结合互信息量与三元组损失优化模型参数。论文通过地图布局检索任务评估模型表示性能。在定量指标上,模型检索结果的地图布局相似性比现有模型提升了3.2%以上,检索稳定性提升了10.3%以上。此外,论文通过专家评价对检索结果的正确性进行定性分析。对于50个测试样本,MapLayNet有27个样本在评分上显著优于检索实验中性能接近的LayoutGMN,且MapLayNet的地图布局理解与专家经验高度一致。得益于布局结构表示增强的模型设计,MapLayNet编码的地图布局向量模型能自动生成地图布局的概念层次结构,不仅让相似地图布局在嵌入空间中形成紧凑聚集的地图布局模式簇,也能在高层地图布局模式簇之间构建出近似线性结构的概念关系(相邻地图布局模式间仅有较小变化)。这种可解释、易使用的地图布局向量模型,有助于开发以向量模型为中心的地图布局检索与设计推荐智能服务。
关键词
泛在地图,地图布局,图神经网络,可解释机器学习
发表评论