在大尺度地表覆盖制图项目中,明确训练样本量与分类精度的定量关系,对于精度潜力评估和采样成本优化至关重要。尽管有限样本稳定分类理论表明,验证精度

随样本量

增加将逐步趋于稳定的上限

,但地表覆盖领域中目前尚缺乏对该过程的定量刻画。对此,本研究提出了有效信息增益累积的分析框架,在理论和实验层面证明了:在无偏采样(样本累积顺序在空间上无依赖)下,

遵循Scaling Law关系,即

。基于FAST、CoastTrain和LUCAS三套代表性的大尺度样本库,我们在四种机器学习模型上系统验证了Scaling Law在多种场景中的有效性和稳健性。研究主要发现包括:(1)现有样本库的样本量不足以支撑模型达到其理论上限。以Random Forest和XGBoost模型为例,三套样本库的精度仍具有4%以上的提升空间,然而实现该提升需要的样本量达现有规模的
倍;(2)在无偏采样下,Scaling Law可用于采样早期的精度预测。仅在不到2%的样本量的采样初期,即可准确预测全部样本量下的Random Forest的最终精度(预测误差<3%)。此外,优先构建验证样本库可进一步提升预测精度;(3)无偏采样是早期预测的必要条件,当前广泛采用的随机单元采样和顺序单元采样由于引入空间依赖性,难以有效拟合Scaling Law;(4)提升模型复杂度能在维持Scaling Law的增长速率的同时,有效提高精度上限和早期预测准确度。本研究对全球范围内大尺度地表覆盖制图项目具有重要指导意义,建议未来采取优先构建验证样本库,实施无偏采样,并选择复杂模型的策略,以实现高效的精度预测和资源优化。
发表评论