兰德报告：人工智能对抗性攻击的操作可行性

标题摘要内容

来源: | 作者:AI丹 | 发布时间: 2022-12-23 | 4003 次浏览 | 分享到:

人工智能对抗性攻击

自2010年以来，人工智能（AI）和机器学习系统飞速发展，创新成果不断涌现，有利于在战场上作出更快、更好的决策。然而，其他研究表明，专门研制的对抗性例子能愚弄训练有素的人工智能算法，从而导致预测失误。对抗性攻击通过分析神经网络参数，修改输入，产生干扰，导致分类错误。

1 研究背景

对抗性攻击可能会对AI系统在操作环境中的安全性和有效性构成重大威胁，这已引起研究界广泛关注。2013年至2020年，数千篇论文都致力于识别新的攻击载体并加强防御。尽管该领域学术研究越来越多，但许多提议的对抗性攻击向量在现实世界的相关性有待商榷。研究人员经常开发新的攻击方法，但没有考虑其可行性和实用性。

美国国防部要正确评估AI系统的潜在漏洞，就需要从操作可行性和对现实世界的影响来看待对抗性攻击。早期对抗性攻击通过轻微干扰图像像素来攻击图像分类系统。然而，这在物理世界中并不实用，因为对手不太可能直接向远程传感器注入噪声。有的研究人员为物体分类系统引入了对抗性补丁，提出了一个想法，即一个足够大的彩色图案贴纸可以愚弄AI系统。这种攻击后来扩展至物体检测模型。有的还考察了相关研究，并批判性分析了一些针对此类安全威胁设计的模型。他们得出的结论是，许多威胁模型不现实，是凭空想象的。本报告希望回答以下有关对抗性攻击的问题：一是恶意行为者可以成功发起哪些类型的对抗性攻击？二是该行为者需要拥有哪些知识和资源来发起这样的攻击？三是这种攻击的效果如何？四是多模态系统能否充分挫败这种攻击？

2 分析方法

为了解军事AI系统受攻击的可能性，本研究设计了一个场景来构建分析。设想在不久的将来，国防部（蓝方）希望通过使用多模态AI系统来定位一个高价值的敌人（红方）资产。红方的目标是确保蓝方不能发现其高价值资产。

蓝方依靠来自各种情报、监视和侦察（ISR）传感器的数据反馈来定位高价值资产。用三种传感器模式来设置虚像，提供强有力的检测：光电成像（EO）、合成孔径雷达（SAR）和信号情报（SIGINT）。假设人类只能分析一小部分情报，因此蓝方寻求利用AI系统来及时分析情报。在这个场景中，我们假设ISR传感器以某种方式探测到高价值物体，数据融合系统评估来自每种模式的探测结果，以确定该资产是否实际存在。由于红方资产的战术，蓝方雇用了人类来审查积极的检测结果以进行确认，该情景把分析的框架分为两部分：

每种传感器模式特有的漏洞是什么？

数据融合能否解决多模态系统的检测错误？

在本报告的其余部分，使用技术分析和实验的混合方法来分析这三种传感器模式背景下的对抗性攻击。还考虑了防御性技术，包括使用数据融合来消除分类不匹配。

3 研究建议

战争中永远存在欺骗、诱敌和伪装等战术，但技术进步意味着这些战术也在不断发展。随着许多国家大量投资军事AI系统，对抗性攻击有可能提高这些战术。分析表明，许多旨在隐藏物体的对抗性攻击目前缺乏实操性。对抗性补丁对光电系统影响有限。对SAR图像的对抗性攻击在理论上是可能的，但缺乏影响合成孔径雷达传感器的实用方法。在最好的情况下，对语音分类系统的对抗性攻击（假设有一个全知全能的对抗者，可以用数字方式注入噪声）不如传统的信号操纵技术有效，比如添加静态。最后，数据融合可以在消除来自多个传感器的检测中发挥重要作用。简单化系统，如多数投票，不能满足现实世界需要。

尽管已有以上发现，国防部仍应采取以下措施，更好地保护其AI系统。

一、实行实操性强的威胁评估。对于一个给定的AI系统，考虑它应如何支持蓝方任务以及任务所需的算法性能。威胁评估包括：确定红方是否想干扰特定任务或系统；确定红方可以采取哪些举措影响AI输出；了解红方采取行动所需的成本；确定蓝方有哪些解决措施（例如，重新培训或改变AI系统）以及与之相关的成本。

二、防止向对手披露AI系统信息。学术界通常会共同商定一套针对特定应用的启发式AI开发规范。例如，如果对手被告知蓝方（国防部）拥有图像识别系统，对手就会认为卷积神经网络在驱动该系统。然而，在设计一个AI系统时，还有做无数其他设计决策。蓝方可以用各种方式实现卷积神经网络。如果对手不知道某些设计决策，其攻击就不那么有效。虽然这因人而异，但一般来说，每一条缺失的信息都会迫使对手投入额外资源来开发其对抗性攻击。因此，蓝方应优先保护模型参数和其训练数据集。

三、跟上对抗性攻击的发展速度。对抗性攻击不断发展，但不同于网络攻击，大多数成果都在学术界公开发表。需保持战略态势意识，监测文献和更新每种攻击的信息和部署要求清单。这种意识对蓝方的OODA环（观察、调整、决策及行动）至关重要；二战中引入电子战表明学习快速检测攻击和在早期开发应对措施的重要性。为实现这一目标，国防部应该通过模拟或实际操作来复制对手攻击，确定其行动的相关性。此外，国防部应深入了解AI系统使用的传感器；这种评估应包括传感器的脆弱性以及对手可以操纵传感器感知的其他物理方式。同时，国防部应积极投资研发，创新AI防御手段。

四、开发稳健的预防系统。巧妙的预处理技术利用了对抗性攻击的固有脆弱性。通过适当的预处理和精心设计的AI模型，可以轻松解决基于图像攻击的规模依赖性和音频中的采样率攻击。如果蓝方设计一个数据融合系统来摄取多传感器模式的AI检测，红方在没有数字输入方法时难以同时欺骗三种类型的传感器。顽固的对手总是会找到破解系统的方法，但蓝方可以让该对手付出极大代价。例如，以不同的分辨率处理一幅图像，可以减少对手对光电系统的攻击概率。这迫使红方创建多倍的对抗性补丁，这些补丁可能有一个足球场那么大。

五、提供反应迅速的AI支持。尽管我们研究的对抗性攻击现在并不构成重大操作风险，但在未来可能会发生变化。抵御对抗性攻击的OODA环在很大程度上取决于蓝方识别攻击速度。当试图检测导致假阴性的对抗性攻击时，蓝方处于劣势，因为设计对抗性攻击时要注重其隐蔽性。虽然多模态传感系统可以提供潜在的解决方案，但国防部应该投资响应式AI支持，增加检测层。人类可以通过监测AI失败模式的算法和快速识别系统受到对抗性攻击的时间，来提高检测对抗性攻击的概率。如果蓝方能在短短几天内检测到一个足球场大小的对抗性补丁，那么对抗者就不太可能不断地重新涂抹这样的补丁。

4 研究局限

本研究将AI定义为利用神经网络进行决策的系统，将对抗性攻击定义为旨在愚弄分类器的基于AI的技术集合。在报告中重点关注黑盒攻击的操作可行性。尽管本报告没有涉及对抗性攻击的数字传输，但本文描述的许多实验和技术分析都依赖于数字传输和白盒攻击。对这种攻击的探索使我们能够研究对抗性攻击发展的其他的操作挑战。最后，对抗性攻击是针对特定模型的。我们提出的攻击成功率是为了说明漏洞背景，而不是提供明确的解决方案。蓝方模型设计和红方攻击决策有无限的组合可以影响这些数值，我们的研究只探索了几个这样的组合。然而，大多数AI系统和对抗性攻击都是以类似的方式开发的；因此，本报告可以为该领域提供更广泛的定性操作分析。

本文来源于元战略

标准信息