计算机工程与设计

对抗深度强化学习为自动驾驶汽车保驾护航

 

对于自动驾驶汽车(AV)而言,要想在未来的智能交通系统中以真正自主的方式运行,它必须能够处理通过大量传感器和通信链路所收集的数据。这对于减少车辆碰撞的可能性和改善道路上的车流量至关重要。然而,这种对通信和数据处理的依赖性使得AV很容易受到网络物理攻击。最近,美国弗吉尼亚理工大学电气与计算机工程系的Aidin Ferdowsi和Walid Saad教授、瑞典爱立信研究院的Ursula Challita教授,以及美国罗格斯大学的Narayan B. Mandayam教授,针对自动驾驶汽车系统中的“安全性”问题,提出了一种新型对抗深度强化学习(RL)框架,以解决自动驾驶汽车的安全性问题。

可以这样说,为了能够在未来的智能城市中有效地运行,自动驾驶汽车(AV)必须依靠车内传感器,如摄像头和雷达,以及车辆间的通信。这种对于传感器和通信链路的依赖使得AV暴露于攻击者的网络物理(CP)攻击之下,他们试图通过操纵它们的数据来控制AV。因此,为了确保安全和最佳的AV动力学控制,AV中的数据处理功能必须针对这种CP攻击具有强大的鲁棒性。为此,本文分析了在存在CP攻击情况下监视AV动力学的状态估计过程,并提出了一种新的对抗深度强化学习(RL)算法,以最大化AV动力学控制针对CP攻击的鲁棒性。我们在博弈论框架中对攻击者的行为和AV对CP攻击的反应进行了研究。在制定的游戏中,攻击者试图向AV传感器读数中注入错误数据,以操纵车辆间的最佳安全间距,并潜在地增加AV事故的风险或减少道路上的车流量。与此同时,AV作为一名防守者,试图将间距的偏差最小化,以确保具有针对攻击者行为的鲁棒性。由于AV没有关于攻击者行为的信息,并且由于数据值操作的无限可能性,因此玩家以往交互的结果被输入到长短期记忆网络(LSTM)块中。每个玩家的LSTM块学习由其自身行为产生预期间距偏差,并将它们馈送给其RL算法。然后,攻击者的RL算法选择能够最大化间距偏差的动作,而AV的RL算法试图找到最小化这种偏差的最佳动作。模拟结果表明,我们所提出的对抗深度RL算法可以提高AV动力学控制的鲁棒性,因为它可以最小化AV间的间距偏差。

图1:文中所提出的对抗深度强化学习算法的体系结构

智能交通系统(ITS)将包括自动驾驶汽车(AV)、路边智能传感器(RSS)、车辆通信,甚至是无人机。为了在未来的ITS中能够以真正自主的方式运行,AV必须能够处理通过大量传感器和通信链路所收集的大量ITS数据。这些数据的可靠性对于减少车辆碰撞的可能性和改善道路上的车流量至关重要。然而,这种对通信和数据处理的依赖性使得AV很容易受到网络物理攻击。特别是,攻击者可能会在AV数据处理阶段进行插入,通过注入错误数据来降低测量的可靠性,并最终导致事故或危及ITS中的交通流量。这样的流量中断还可以波及到其他相互依赖的关键基础设施,例如为ITS提供服务的电网或蜂窝通信系统。

最近,科学家们已经提出了一些解决车辆内部安全问题的安全性解决方、T. Olovsson和E. Jonsson在他们所著的《联网汽车车载网络的安全问题》中,确定了车辆控制器的关键漏洞所在,并提出了许多入侵检测算法用以保护该控制器。此外,在《对联网汽车的实际无线攻击和车辆内部的安全协议》中,作者指出,AVs当前安全协议中的远程无线攻击可能会中断其控制器区域网络。他们分析了AVs车辆内部网络对局外无线攻击的脆弱性。同时,《插入式车辆的安全性问题》的作者解决了插电式电动汽车的安全性挑战,同时考虑了它们对电力系统的影响。此外,在《关于嵌入式汽车网络安全威胁和保护机制的调查》中介绍了嵌入式汽车网络安全威胁和保护机制的调查。

此外,科学家们还研究了车辆通信安全挑战和解决方案,分析了当前车辆通信体系架构的安全漏洞。另外,科学家们发现,通过使用短期认证方案和合作车辆计算架构,可以减轻由信标加密引起的计算开销。

图2:在攻击者只攻击信标信息的情况下,AV和攻击者的行为、regret以及我们提出的算法的偏差。

然而,在设计安全解决方案时,以往的一些研究成果中的体系构架和解决方案没有兼顾AV 的网络层与物理层之间的相互依赖性。此外,现有的研究没有对攻击者的行为和目标进行合理的建模。在这种情况下,攻击者的行为和目标的这种网络物理依赖性将有助于提供更好的安全解决方案。另外,在一些以往的研究成果中,现有技术没有提供能够增强AV动力学控制应对攻击的鲁棒性的解决方案。然而,设计一个最佳且安全的ITS需要对车辆间传感器和车辆间通信的攻击具有鲁棒性。而且,现有的ITS安全性研究往往假设攻击者的行为处于稳定状态,然而在许多真实情况下,攻击者可能会自适应地改变其策略以增强攻击对ITS的影响。