在今年3月初,大地量子的技术团队接到了一份特殊又紧急的任务:一位大地量子的长期合作客户向我们提出了一个颇具挑战性的项目需求,要求我们在一个月内,通过训练人工智能模型,在覆盖全国范围的卫星影像中识别出所有建筑物屋顶的轮廓。这个项目初听很简单,但由于项目时间紧迫,工作量巨大,团队需要在有限的时间期限内,利用现有资源提供最高的完成度。这十分考验我们技术团队的算法能力和创造力。
接到项目任务后,经过初步分析,我们意识到有三座技术上的大山挡在团队面前:
  • 任务范围广:卫星影像覆盖全国,各地建筑物差异明显。
  • 技术困难:模型的泛化性要求高,识别结果需要精细的后处理。
  • 计算量大:团队需要处理几十TB的卫星影像数据,数据量相当于几千部蓝光电影。
同时,交付期限的紧迫也给了我们技术团队们很大的压力。
在经过一番讨论后,技术团队选择使用我们现有的成熟实例分割模型ICICLE作为技术框架,帮助团队快速上手。
有了底层技术框架,后续要做的就是为模型训练准备各种所需要的数据样本。在这海量的数据中,有像这样的工业厂房
住宅区
还有在城乡交界处最常见的宅基地
我们团队以地级市作为数据单位, 均匀分布地选取不同类型的建筑物,按照省市标注数据样本。在短短的一个月的时间里,我们的标注团队共标注了数以万计的建筑物样本!没有他们的辛勤付出,我们也不可能在有限时间内训练出精准识别各种建筑物的模型。
(黄点代表被标注的地区)
然而,就算有了这些人工标注过的数据样本还远远不够。只有配合强大的算力,和大地量子自主研发的先进集群数据计算调度平台海暴,我们的技术团队才得以在如此紧俏的时间期限内,完成这项不可能的任务。
在任务开始前,我们的技术团队预估,进行这样的全国建筑识别就算用上所有 GPU 不停歇跑也至少需要四五十天。不但浪费了宝贵的算力,也无法在时间期限内完成任务。
经过我们团队缜密的计划和富有创造力的系统优化,模型生产的速度从一开始两三天一个省,到后面最快十几小时一个省。在按时交付的同时,也为系统节约下了宝贵的算力。
而时间和算力的限制还仅仅只是我们技术团队面临的第一层考验。
在利用AI模型时最容易出现的就是漏识别问题。
就好比刚刚教会一个小朋友,街上跑的小轿车叫汽车,但当一辆公交车开过来时,他/她又不认识了。我们在训练模型的过程中也是如此,就算教会了人工智能方方正正的白色长方形是屋顶,但是碰到了棕色圆形屋顶时,它又不认识了。这时候就需要尽量在样本里囊括更多、更全面的案例,不断更新模型和补充数据样本,提高识别精度。
我们技术团队经常碰到的另外一个问题就是误识别
聪明”的人工智能也会举一反三,明明都标记的是建筑物,但模型还是会将大棚、地块、水塘也识别为建筑物。就好比教会了一个小朋友,街上跑的四个轮子的都是汽车,但当他/她看到三蹦子时也会觉得是汽车,人工智能也会这样。我们团队通过添加负样本迭代模型,使用其他成果数据对建筑物识别结果进行掩膜,终于解决了此类误识别问题。
最终,在短短的一个月里,我们不仅成功完成了客户的需求,我们模型的精度甚至可以媲美人工标注在这样的时间期限内,实属难得。那就在这里让我们欣赏一下最终的成果吧。
——广西梧州
——北京
——贵阳花果园社区
——山西晋中
——山西长治
——江苏南通

彩蛋
——位于山西大同的光伏(大熊猫)基地
继续阅读
阅读原文