为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

文章正文

发布时间：2024-07-23 05:14

编译 | Ailleurs

编辑 | 陈彩娴

情报分析是一项重要工作，军事战略家、研究人员和记者，都依赖情报分析来作出决策、揭露违反国际协议的行为，并向公众展示战争的严酷现实。卫星图像在情报分析工作中扮演了重要的信息来源角色。

然而，在乌克兰，由于大量的云层覆盖和频繁的夜间袭击，各种形式的卫星图像都无法捕捉地面信息。好消息是，合成孔径雷达（Synthetic Aperture Radar，SAR）图像可以穿透云层，但是需要经过专门培训的人员来对其图像进行解读，如能将这项繁琐的任务自动化，便可以实现实时动态观察。而目前基于典型RGB图像开发的计算机视觉方法尚不能很好地解读SAR图像。

因此，相关研究者认为，当下改进针对SAR图像的方法、代码库、数据集和预训练模型的获取和可用性，将有助于乌克兰情报机构、研究人员和记者的工作。

近日，伯克利人工智能研究中心发布了一项新研究，旨在解决SAR图像的使用受限问题。Ritwik Gupta、Colorado Reed、Anja Rohrbach和Trevor Darrell等人提出一种基线方法和预训练模型，能够使人们在做下游分类、语义分割和改变检测等任务时，方便地互换使用RGB和SAR图像。

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图1: SEVIRI仪器于2022年2月28日-3月1日在乌克兰上空测量的气团（云层）。来源：EUMETSAT

1
机器学习与遥感

我们生活在一个瞬息万变的世界，经历着自然灾害、社会动荡、战争以及各种混乱事件，它们在地球表面留下了不可预测的且通常是永久性的痕迹。理解我们所处环境的变化一直都是一个历史性难题。勘测员们被派去探索新的现实境况，他们分散的调查发现经常被杂乱地整合，构成现实的一个来源。从法国摄影师纳达尔（Nadar）拍下第一张航拍照片，到前苏联发射的人类第一颗人造卫星“斯普特尼克1号”(Sputnik 1）的无线电信号被用来分析电离层，保持警觉状态始终都是人类的目标。

警觉，或者说监测，贯穿着人类几千年历史，与任何工具一样，它也一直是一把双刃剑。从历史上看，没有制衡的监测对社会是有害的。相反，适当且尽责的监测则使我们能够了解有关世界的深刻真相，进而在科学和人道主义领域取得进步。现在，随着在轨卫星数量的增长，我们对于环境的认识几乎每天都在更新。过去，我们只掌握很少的信息，而今天，我们已经拥有了超过我们所能够有意义地从中提取知识的范围的大量数据。储存和理解这些数据中所含信息是一项日益紧迫的工程挑战。

由于每天都有数百TB的数据从卫星下行传送到数据中心，通过人工处理从这些数据中获取知识和可执行建议，已经成为一项无法完成的任务。最广泛使用的遥感数据形式是光电（electro-optical，EO）卫星图像，这种图像很常见，任何使用过谷歌地图或类似测绘软件的人都跟光电图像“打过交道”。

运用机器学习的光电遥感图像处理技术已被广泛应用于科学和商业领域。从改善降水预测，到通过识别砖窑来对人类奴隶制做循证分析（砖窑是现代奴隶制的典型发生场所），再到对整个城市进行分类识别以改善交通路线选择，机器学习在光电图像上的产出已经融入了人类社会的方方面面。

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图2: 基辅地区的超高分辨率光电卫星图像，由Maxar公司于2022年2月28日拍摄。图像显示，横跨斯特雷镇河的一座桥似乎已被摧毁。

提供光电图像的常用卫星星座包括美国地质调查局运营的陆地卫星系列（Landsat），和欧洲航天局运营的哥白尼哨兵2号（Copernicus Sentinel-2）。这些星座提供10-60米分辨率的图像，尽管这对于许多场景来说已经足够用了，但它们无法观察到更精细的细节。

2
光电卫星图像的先进性与局限性

在过去几年里，丰富的商业资源带来了超高分辨率的光电图像。Planet、Maxar、Airbus等公司每天都在对整个地球进行成像，他们提供了极为精确的图像，分辨率介于0.3-2.0米之间，并且图像重访率很高。

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图3: Maxar公司的超高分辨率光电图像示例，显示了浮式生产和储存，卸载装置，以及一艘油轮。

高分辨率图像提供的更高分辨率能够支持一系列的下游使用场景。比如，可以在更精细的尺度上检测土壤侵蚀，还可以在灾害之后对建筑物的损坏进行分类。机器学习方法必须要适应超高分辨率卫星图像。随着敏锐度的提高，像素的数量和可识别的类别数量已经增加了几个数量级。计算机视觉研究对此给予的回应包括，降低计算成本以学习卫星图像的有效表示，建立方法来减轻标注人员的工作负担，设计大型软件框架，来方便计算机视觉从业者对丰富的图像来源进行处理。

通常来说，现有用于其它非航空RGB图像的计算机视觉方法，能够很好迁移到卫星图像上来，这使得提供高精度结果的商业化超高分辨率图像能够立即被投入使用。

然而，尽管高分辨率光电图像带来如此多的益处，它仍具有一定的局限性。

对于战争和自然灾害等高度混乱和危险的情况，持续并且可靠的地面观测是至关重要的。遗憾的是，在这一点上，光电图像无法满足人们的全部监测需求。光电图像只能在白天探测到光源，而现实情况是，在任何一个时间，都有接近2/3的地面被云层覆盖。我们必须考虑云层问题，否则想要知道地面上发生了什么重要的事情时，这种地面上的阻碍就成了一个大麻烦。为了解决这个问题，机器学习方法试图去移除图像上的云层，来预测在无云的情况下观测目标会是什么样，但是这个过程中所丢失的信息基本上是不可恢复的。

3
SAR：夜间也能持续监测地面

合成孔径雷达（SAR）图像是一种主动遥感，卫星将微波雷达波脉冲向下传输到地球表面，这些雷达波从地面和地面的任何物体上反射回卫星。通过在时间和空间维度上将这些脉冲处理形成SAR图像，其中的每一个像素都是由不同雷达散射的叠加。

雷达波能穿透云层，而且由于卫星持续地产生雷达波，所以即使在夜间也能照亮地球表面。合成孔径雷达用途广泛，可用于估测地表粗糙度、绘制大面积洪水范围，以及监测受保护水域中是否有非法渔船出没。

目前，有多个SAR卫星星座在运行。哥白尼哨兵1号星座向人们提供分辨率在10-80米之间的图像（最常见的是10米分辨率图像）。大多数商业SAR提供商，如芬兰的ICEYE的公司和美国的Capella Space公司，能够提供分辨率在0.5米的图像。随着卫星星座数量的增长和政府法规的发展，在即将推出的发射项目中，其它商业SAR提供商的目标是制作出分辨率在0.5米以下且具有高重访率的图像。

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图4: Capella Space公司提供的乌克兰-白俄罗斯边界上的超高分辨率合成孔径雷达图像

虽然合成孔径雷达图像乍一看可能与光电图像非常相似，但其物理原理却大不相同，这导致图像产出中出现了许多有趣的效应，这些效应可能是违反直觉的，并且与现代计算机视觉不相容。有三种常见的效应：极化效应（polarization），叠掩效应（layover），多路径效应（multi-path）。

极化效应

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图5: 来自哨兵1号（Sentinel-1）辐射测量地形校正图像，在乌克兰第聂伯罗（Dnipro）的同一区域，VH极化（左）和VV极化（右）显示出差异。雷达在相应的局部区域的回波可能不同。

SAR卫星上的雷达天线经常发射极化的雷达波。极化方向是波电场的方向。地面上的物体对雷达波的不同极化给予不同的反应。因此，SAR卫星通常以双极化或四极化模式运行，在水平（H）或垂直（V）方向上传播极化波，从而产生HH、HV、VH和VV四种波段。所以，尽管我们可以将此与电光图像中的RGB波段进行对比，但其物理学原理是不同的。

叠掩效应

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图6: Capella公司的超高分辨率SAR图像示例。体育场的上部似乎与其后方的停车场重叠。

叠掩效应是指雷达波束先到达距离更近的目标物体顶部，后达到更远的目标物体底部，因而顶部先成像，导致物体的顶部与底部图像形成重叠。当物体特别高时，这种情况就会发生。从视觉上看，高层建筑呈现出侧卧状，而山脉看起来则是山峰与基底相交。

多路径效应

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图7: 斜向SAR图像中桥梁的多径效应示例

当雷达波从地面上的物体反射，并在返回 SAR 传感器之前发生多次反弹时，就会发生多路径效应。多径效应会导致目标物体在生成的图像中以各种变换形式出现。这种效应在 SAR 图像中随处可见，但在城市地区、森林和其他密集环境中尤为明显。

基于传统RGB图像的现有计算机视觉方法并未考虑到上述这些效应。在光电卫星图像上训练的物体检测器，预设一个特定物体只会出现一次，或者该物体在不同的环境中看起来相对相似，而不是可能与周围的物体呈现镜像、分散或者交叠状态。遮挡的本质和光电图像中遮挡假设的视觉原理，不能直接运用到SAR图像上来。

总而言之，现有的计算机视觉技术可以应用于 SAR 图像，但性能会降低，并且会出现一套系统性错误，而这些错误可以通过专门针对SAR图像模式的技术方法来解决。

4
SAR图像的计算机视觉技术用于乌克兰情报分析

在乌克兰，图像分析师目前使用区域上空可获取的光电图像和 SAR 图像。当光电图像可用时，为该模式构建的现有计算机视觉工具可有助于加快情报收集过程。但是，当只有 SAR 图像可用时，这些工具就失效了。图像分析人员不得不求助于人工分析，这既耗费时间又容易出错。国际上的一些其它机构正在探索这个问题，但就可用数据量而言，这仍然是一个未被充分研究的领域。

伯克利人工智能研究中心创建了一套初始方法和模型，这些方法和模型从公开发布的 BigEarthNet-MM 数据集和Capella 的 Open Data 数据中，集中学习RGB图像、SAR图像以及RGB+SAR共配图像的鲁棒表示。这两个数据集都包含RGB和SAR图像。通过使用这些模型，图像分析师能够交替使用 RGB、SAR 或 RGB+SAR共配图像来执行多种下游视觉任务，例如图像分类、语义分割、目标检测或变化检测。

SAR与EO图像是具有不同现象学特征的数据源，在这个问题上，研究人员发现在使用SAR图像来进行表示学习时，Vision Transformer (ViT) 是一种特别有效的架构，因为它消除了卷积神经网络所固有的尺度和位移不变的归纳偏差。在进行RGB、SAR和RGB+SAR图像的表示学习时，MAERS方法表现最佳，它基于何恺明等人（2021）提出的掩码化自动编码器（Masked Autoencoder，MAE)，这是一种可扩展的自监督学习网络：它将掩码化数据作为输入，学习对输入数据的编码，然后学习对数据的解码，对非掩码输入数据进行重建。

与过往流行的对比学习视觉表示框架不同，MAE网络并不预设数据中存在某些可能对于SAR特征而言成问题的增强不变性，相反，它只依赖对原始输入数据的重建，这对于 RGB、SAR或RGB+ SAR模型来说是一个不可知过程。

如图8所示，通过学习RGB、SAR和RGB+SAR通道的独立输入投影层，MAERS进一步对MAE加以扩展，使用共享的ViT网络对这些投影层的输出进行编码，然后使用独立的输出投影层对RGB、SAR或RGB+SAR通道进行解码。其后，输入投影层和共享的ViT网络可以运用到下游任务中，比如目标检测或变化检测，在这些任务中，RGB、SAR或RGB+SAR都可以进入输入编码器。

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图8: 上方为MAERS学习联合表示过程的可视化，下方为一个编码器，可用于执行下游任务，比如用RGB或SAR或RGB+ SAR模型进行对象检测。

学习RGB、SAR和RGB+SAR模式的表示，有助于执行一系列的下游任务，如基于内容的图像检索、分类、分割和检测。为了证明所学习的表示方法的有效性，研究者在已有的基准上进行了实验：一是对BigEarthNet-MM数据集中共配的EO和SAR场景进行多标签分类；二是对SpaceNet 6数据集中超高分辨率的EO和SAR图像进行语义分割。

对BigEarth-MM数据集进行多标签分类

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图9:（左）对哨兵2号的EO图像和哨兵1号的SAR图像进行分割，将其用于执行BigEarth-MM Challenge规定的多标签分类任务。给多模型编码器添加了一个线性层，然后进行端到端的微调。

MAERS使用一组用于ViT编码器的ImageNet权重进行初始化，然后在BigEarthNet-MM数据集上对RGB、SAR和RGB+SAR图像进行20个周期的预训练。研究者在MAERS编码器上附加了一个单一的线性层，并通过对整个模型进行20个周期的微调来学习多标签分类任务。

结果显示在表1中。经过微调的MAERS，优于BigEarthNet-MM论文所呈现的最佳RGB+SAR结果。而且，为了RGB、SAR和RGB+SAR输入模式的表示学习，对本身已经近乎完美的MAE架构加以调整后，它依然产生了最好的结果。

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

表1: BigEarthNet-MM测试集所报告的每一类F2分数。

对EO和SAR图像进行语义分割

研究者进一步做了对建筑足迹进行语义分割的迁移学习实验，这是一项“及时雨”性质的任务，将有助于图像分析人员了解乌克兰所遭受的破坏情况，并且它是在对建筑损失做评估之前的一个先行工作。对于政府官员、记者，和想要了解俄罗斯对基础设施和平民袭击的范围和严重程度的人权组织来说，建筑损失评估都有直接的意义。

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图10: 构建基于SAR图像的MAERS分割示例，取自SpaceNet6。其中左边显示的是RGB图像，右边显示的是叠加了分割结果的SAR图像。SAR图像以VV、VH和VV/VH波段的假色显示。

在该实验中，研究者使用SpaceNet 6数据集作为一个开放和公开的基准，来其用以构建来自Capella Space的VHR SAR图像中的足迹检测的表示学习的有效性。他们使用这个编码器与UperNet架构串联用于语义分割。图11显示了在只有SAR图像输入的SpaceNet 6的封闭验证组件中，在训练使用SAR或RGB图像的分割模型上分割建筑所占用的IoU性能。与从头开始训练RGB+SAR模型或采用完全相同的结构调整ImageNet权值相比，MAERS预训练模型可提高约13个点。

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

图11: 使用带有ViT主干网络的UperNet分割模型，在SpaceNet 6 Challenge上构建分割IoU。

这表明，MAERS可以学习RGB+SAR模式的鲁棒表示，因此在完成下游任务时，使用EO或SAR图像都是可行的。需要注意的是，在建筑物分割任务中，SAR图像的现象学特征使其具有一定劣势，而使用EO图像执行该任务可获得大于90的IoU得分。这便给SAR技术留下了一个巨大的空白，有待进一步研究。不过，当环境条件不利于EO图像的捕获时，从SAR图像中获得其性能仍十分重要。

5
技术与人道主义的合流

目前这项研究只得出了初步结果，但仍显示出了很强的说服力。研究人员表示，他们将向人道主义伙伴提供研究模型，帮助他们对居民区和其他平民区进行环境变化检测，以更好地揭示入侵者在乌克兰犯下的战争罪行。

当前，人道主义组织正密切关注着乌克兰的战争，这些模型将有助于提高人道主义工作的效率。不过，与任何其它技术一样，我们需要警惕技术被不恰当地滥用。研究人员考虑到了这一点，他们在设计模型时，参考了在人道主义背景下进行情报和图像分析的人员所提供的意见，将他们的想法、评论和批评纳入考虑，从而提供了一种符合人类利益的工具，并在使用安全方面加上了一把锁。

原文链接：https://bair.berkeley.edu/blog/?refresh=1

为了帮助乌克兰分析情报，伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析

雷峰网(公众号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

标签