基于激光的语言控制系统音频注入攻击

徐浩洋   ·   发表于 2022-01-11 13:33:01   ·   技术文章

没有人比我更爱看 柠檬 的朋友圈和公众号


1 动机

那天看柠檬的公众号下面有掌控安全的视频连接,里面讲的是黑客能否把广场舞大妈的音箱hacked?

里面说了一些内容让我半信半疑,而且看到评论区有很多喷的


毕竟做学术要严谨,我就想好好求证一下,不先下结论谁对谁错,于是翻遍了各大数据库,除了百度,因为我信不过百度。

后来那肯定是找到了————美国密歇根大学和东京电气通信大学2020年的一个实验研究。


那肯定是真的了。

2 参考


巧了,正好鄙人是学电气工程及其自动化的,既然写篇文章就不能光论对错,要讲技术原理。

于是我就花了好长时间去研究他。

19页的部分一次文献(为表尊重大家时间,鄙人先读后写按照自己逻辑不机翻):


3 大体流程

聂风师傅说过一句话hack就是把不正常的东西注入进去让他当作XX指令代码来执行。这种注入方式就是利用光信号来注入攻击。


首先,语音经常无意地对光做出反应,好像光就是声音,这就引起了思考,是否可以用光来对语音设备注入?


利用这一效应,我们可以通过简单地调制激光的振幅来向麦克风注入声音。攻击可控语音系统。

引入他的名字LightCommands,一种可以在远距离隐蔽地将命令注入语音控制系统的攻击。


此时发现5毫瓦的激光功率(相当于一个激光笔)足以控制许多流行的声控智能家居设备,而大约60毫瓦则足以获得对手机和平板电脑的控制。


但是攻击设备还有个前提就是你可以对设备下指令,而不是与语音设备聊天,于是就利用到了VC设备。

什么是VC系统?
语音可控系统,术语“语音可控(VC)系统”是指主要由用户以自然语言(例如英语)直接说出的语音命令控制的系统。虽然存在一些重要的例外情况,但 VC 系统通常会立即对用户发出的语音命令进行操作,而无需进一步交互。例如,当用户命令 VC 系统“打开车库门”时,车库门立即打开。按照术语,典型的 VC 系统由三个主要部分组成:(i) 语音捕获,(ii) 语音识别,和 (iii) 命令执行。首先,语音捕获子系统负责将用户产生的声音转换为电信号。接下来,语音识别子系统负责检测获取信号中的唤醒词(例如,“Alexa”、“OK Google”、“Hey Portal”或“Hey Siri”)并随后使用信号解释语音命令的含义最后,命令执行子系统根据识别的语音命令启动相应的应用程序或执行操作*

和vc系统建立起了沟通之后就是有所行动,能行动的前提就是:

身份验证不足:
VC系统通常缺乏任何用户认证机制,或者即使存在这些机制,它们的实现也是不正确的(例如,允许对密码进行暴力破解)。


拿下之后语音命令可以来解锁目标的智能锁保护的前门,在电子商务网站上购物、定位、解锁和启动各种车辆(例如特斯拉和福特)前提是这些车辆已连接到目标的 Google 帐户。


4 hack距离

攻击视角

注入场景

使用长焦镜头来聚焦激光,演示了对VC系统的第一次指令注入攻击,该攻击实现了长达110米的距离(我们可以安全使用的最大距离)。

跨建筑物和穿过封闭的玻璃窗的时候,控制VC系统的距离范围只受攻击者的功率预算、光学和瞄准能力的限制。

大约 60 mW 的激光功率足以成功攻击所有测试的设备但是大大超过了法定的 5 mW 限制。所以按照美国法律来测试5 mW 低功率激光器。对于大的攻击距离(几十米),激光聚焦需要一个大直径的镜头,不能通过通常用于激光指示器的小镜头来完成。因此,我们将激光器安装到 Opteka 650-1300 mm 高清远摄镜头,直径为 86 mm(第二个图)最后,为了模拟攻击者的真实瞄准条件,避免使用电子扫描镜,并将镜头和激光安装在齿轮摄像机头(Manfrotto 410 Junior Geared Tripod Head)和三脚架上。激光瞄准和聚焦是手动完成的,目标也安装在一个单独的三脚架上。有关我们设置的图片,请参见上面的图。
结果直接上图:

5 声信号注入攻击(x)

其实也可以将合成音频命令播放给附近的VC系统,而无需任何特殊的操作系统权限。虽然这些攻击传输的命令很容易被人注意到,但是也可以伪装声音,变成让人听不懂听不见不会在意的但是设备会执行的声音。

这个他们操作过,确实可行,但是,由于发射器以低功率运行,这种攻击都仅限于短距离(从 2 厘米到 175 厘米),MEMS 传感器对超声波信号很敏感,一旦增加功率,操作系统会崩溃。

6 激光注入攻击(√)

通过用强光照亮受害者的照相机,对摄像机和LiDARs发起了拒绝服务攻击。后来到更复杂的攻击,将精确控制的信号注入激光雷达系统,使目标看到一个虚幻的物体。展示了对医用输液泵的攻击,使用光攻击光学传感器,该传感器计算给药滴数的数量。展示了如何使用各种传感器(例如红外和光传感器)来激活和在受感染设备之间传输恶意软件。另一侧重于使用光在计算设备内注入故障,从而导致安全漏洞。更具体地说,众所周知,激光会导致半导体中的软件(临时)错误,其中电离辐射也会导致类似的错误。利用这种效应,对智能卡和微控制器的第一次光诱导故障攻击,证明了翻转存储单元中单个位的可能性。随后在许多后续行动中利用了这种效应,使用激光引起的故障来破坏硬件的数据和逻辑流,提取密钥并转储设备的内存。MEMS 麦克风 MEMS 是芯片上机械组件的集成实现,通常采用蚀刻工艺制造。虽然有许多不同的 MEMS 传感器(例如,加速度计和陀螺仪)。

重点关注MEMS 的麦克风,它们在移动和嵌入式应用(例如智能手机和智能扬声器)中因为它们的占地面积小和低廉的价格特别受欢迎。

MEMS 麦克风结构

(左)设备上的 MEMS 麦克风的横截面
(中)拆包麦克风上的振膜和 ASIC。
(右)PCB 上声学端口的放大图

该麦克风由振膜和 ASIC 电路组成。隔膜是响应声波而弯曲的薄膜。膜片和固定背板作为平行板电容器工作,其电容会随着膜片的机械变形而变化,因为它会响应交变的声压。最后,ASIC 芯片将电容变化转换为麦克风输出上的电压信号。麦克风安装。后端口 MEMS 麦克风安装在印刷电路板 (PCB) 的表面上,麦克风的孔径通过 PCB 上的空腔暴露出来(图的第三列)。反过来,空腔是声学路径的一部分,该声学路径将声音通过设备机箱中的孔(声学端口)引导到麦克风的孔径。最后,设备的声学端口通常具有精细网格,以防止灰尘和异物进入麦克风。

7 激光源激光的选择

激光是一种发射相干光束的设备,该光束在很长的距离内保持狭窄并聚焦到一个狭窄的点。虽然存在其他替代品,重点关注激光发射二极管,这种二极管在激光指示器等消费类激光产品中很常见。接下来,由于激光二极管发出的光强度与二极管的驱动电流成正比,我们可以使用能够进行幅度调制的激光驱动器轻松地通过光束强度对模拟信号进行编码。激光安全性和可用性。由于强烈的、紧密聚焦的光可能具有潜在危险,因此有适当的标准来规范从激光系统发出的光,这些标准根据光束暴露造成的伤害可能性将激光分为几类,现在描述的两种主要类型的设备。

低功率 3R 类系统
This class contains devices whose output power is less than 5 mW at visible wavelength (400–700 nm).


高功率 3B 类和 4 类系统
emit between 5 and 500 mW are classified as class 3B systems, and, lasers that emit over 500 mW of power are categorized as class 4!

为什么选这俩?原文就表达了三个事儿,安全!容易买!性价比高!


8 实验及其原理

一个蓝色的欧司朗PLT5 450B 450纳米的激光二极管,连接到一个Thorlabs LDC205C激光驱动器。用驱动器增加二极管的直流电流,直到它发出连续的5 mW激光束,同时用Thorlabs S121C光电二极管功率传感器测量光强度。随后,该光束被引向SparkFun MEMS麦克风分线板上的声学端口,该分线板安装了Analog Devices ADMP401 MEMS麦克风。最后,泰克产的MSO5204示波器记录二极管电流和麦克风的输出,

(左)由激光电流驱动器、PC、音频放大器和示波器组成的信号注入可行性设置。
(中)带有光束的激光二极管瞄准 MEMS 麦克风分线板。
(右)二极管电流和麦克风输出波形


实验是在一个普通的办公环境中进行的,环境噪声主要来自人的讲话、计算机和空调系统。通过将声音转换为光来注入信号。为了将声音信号转化为光,我们将声音信号的强度编码为激光束的强度,其中大的声音使光强度发生较大的变化,小的声音对应较小的变化。接下来,由于激光二极管发出的光束强度与提供的电流方向一致,我们使用激光驱动器来调节激光二极管的电流,作为在驱动器的输入端口播放的音频文件的函数。这导致音频波形直接被编码在激光器发出的光的强度中。更具体地说,我们用电流驱动器在二极管的电流上调制一个正弦波,通过更具体地说,使用电流驱动器通过幅度调制二极管电流 It 之上的正弦波调制 (AM)

It = IDC + (Ipp/2)sin(2πft)

表达的量:
其中 IDC 是直流偏置,Ipp 是峰峰值幅度,f 是频率。
此处设置的 IDC = 26.2 mA、Ipp = 7 mA 和 f = 1 kHz。

Check:
使用笔记本电脑的板载声卡播放正弦波,扬声器输出通过Neoteck NTK059 音频放大器连接到激光驱动器上的调制输入端口。激光驱动器在其输出电流上执行正弦波的幅度调制(AM),无需额外的定制电路或软件。最后,由于激光二极管发射的光强度与激光驱动器提供的电流成正比,这导致 1 kHz 正弦波直接编码在激光二极管发射的光强度中。观察麦克风输出,麦克风输出显示了 1 kHz 正弦波,它与注入信号的频率相匹配,没有任何明显的失真。

在成功演示了通过激光束注入音频信号的可能性之后,现在继续描述二极管的光强度响应(作为电流的函数)和麦克风对基于激光的音频注入的频率响应。

为了查看波长依赖性,我们还检查了 638 nm 红色激光器 (Ushio HL63603TG),以及之前实验中使用的蓝色激光器。激光电流对光特性。首先检查二极管电流和激光器光功率之间的关系。为此,将激光束对准Thorlabs S121C 功率传感器,同时用直流电流驱动二极管,即公式中的 Ipp = 0。考虑到二极管的不同特性,检查蓝色和红色激光分别为 300 和 200 mA。

关于图:

图的第一列显示了蓝色和红色激光器的电流与光 (I-L) 曲线。横轴是二极管电流IDC,纵轴是光功率。一旦提供给激光器的电流高于二极管特定阈值(由 Ith 表示),激光器发射的光功率随着提供的电流线性增加。因此,当|sin(2πft)|Ith,就有电流到光的(近似)线性转换。激光电流到声音特性。现在继续描述光注入对 MEMS 麦克风的影响。通过将具有可变电流幅度 (Ipp) 和恒定电流偏移 (IDC) 的调幅 (AM) 激光束对准安装在分线板上的 Analog Devices ADMP401 麦克风的孔径来实现这一点。随后监控麦克风输出的峰峰值电压,绘制结果信号。图的第二列显示了调制信号 Ipp 与蓝色和红色激光二极管的结果信号 Vpp 之间的关系。结果表明,驱动交流电流 Ipp(参见偏置电流)是强注入的关键:
可以通过增加驱动交流电流 Ipp 线性增加麦克风接收的音量。

选IDC和Ipp值:给定一个能发射最大平均功率为L mW的激光二极管,想选择IDC和Ipp的值,使其产生最强的麦克风输出信号,同时使激光器发射的平均光功率小于或等于L mW。从上图的最左边一栏,推断出激光器的输出功率与激光器的驱动电流成线性比例,It=IDC+Ipp sin(2πft),而平均功率主要取决于IDC,因为Ipp×sin(2πft)平均为零。因此,为了保持在L mW的功率预期内,同时在传声器输出端获得最强的信号,攻击者必须首先确定直流电流偏移IDC,从而使二极管输出L mW的光,然后再通过设置Ipp/2 = IDC -Ith,使传声器输出信号的振幅最大化。

表征激光音频注入的频率响应。接下来开始描述麦克风对不同频率的激光注入声音信号的响应。设置音调的幅度,使其适合线性区域(蓝色激光的 IDC = 200 mA 和 Ipp = 150 mA,IDC = 150 mA 和 Ipp = 75 mA红色激光)。然后记录麦克风的输出电平,同时改变光调制正弦波的频率 f。上图的第三列显示了获得的蓝色和红色激光的频率响应。水平轴是频率,而垂直轴是麦克风输出的峰峰值电压。两种激光器的响应非常相似,覆盖了 20 Hz-20 kHz 的整个可听频带,这意味着可以注入任何音频信号。

激光的选择
最后,注意到注射的颜色不敏感。尽管蓝光和红光位于可见光谱的其他边缘,但注入的音频信号的电平在相同的范围内,并且频率响应曲线的形状也相似。因此,与制作 LightCommands 的其他因素相比,颜色在选择激光方面的优先级较低。在本文中,我们始终使用 450 nm 蓝色激光,主要是因为 (i) 大功率二极管的可用性更高,以及 (ii) 由于波长较短,在聚焦方面具有优势。

机械或电气转化
麦克风对光敏感的物理根本原因同时考虑光电和光声效应,并尝试通过使用激光选择性地照亮麦克风内部结构的不同部分来区分它们。
光电效应。对半导体芯片的传统激光故障注入攻击,可以通过晶体管,从而导致设备的数字逻辑不规则(可以参考国内的数电)。同样,MEMS 麦克风的封装内也有 ASIC,用于将振膜的电容变化转换为电信号。此类 ASIC 可以通过麦克风的外露声学端口通过激光进行外部照明。当强光照射到半导体芯片上时,它会在晶体管上感应出光电流,其中电流的强度与光强度成正比。麦克风 ASIC 的模拟部分将此光电流识别为来自振膜的真实信号,从而使麦克风将光视为声音。

什么是光声效应
麦克风的光敏性也可以归因于光声效应,它将光能转换为动能并在被照明的材料上引起机械振动。自 1880 年亚历山大·格雷厄姆·贝尔 (Alexander Graham Bell) 发现它以来,这种效应已经为人们所熟知 100 多年,现在用于光谱学和生物成像。

(接上文)这种效应是普遍的,选择性激光照明,通过注意到光电效应发生在 ASIC 上,而光声效应发生在隔膜上,我们可以进一步缩小麦克风光敏感的根本原因。因此,通过使用激光有选择地照亮不同的麦克风组件,我们试图精确地显示物理根本原因。我们通过打开 Analog Devices ADMP401 麦克风的金属封装并使用聚焦激光束将模拟信号注入其振膜和 ASIC 组件来实现这一点。在使用显微镜将 200 μm 激光光斑聚焦在麦克风组件上后,我们观察到最强的信号,同时将激光对准麦克风的 ASIC

这种直接注入非常有效,小于 0.1 mW 的激光功率就足以使麦克风饱和。我们认为这表明激光可以在麦克风的 ASIC 内引起光电转换,因为在我们的攻击中,光会从麦克风的金属封装反射到 ASIC 上。用不透明环氧树脂覆盖麦克风的 ASIC(图 (右))后,将激光对准 ASIC 不再产生任何信号。然而,即使经过治疗,当激光光斑对准麦克风的振膜时,麦克风仍然会产生信号。基于这些结果,得出结论,除了在麦克风的 ASIC 上观察到的光电效应外,MEMS 隔膜内还有另一种光感应转换。由于振膜是一个简单的电容器,假设这种效应是由于麦克风振膜的物理运动(即光致机械振动)造成的。接下来,虽然上述不是对不同 MEMS 麦克风的全面调查,但该分析确实提供了对本文中观察到的物理效应的根本原因的整体理解。最后,对于本文其余部分中进行的实验,将激光瞄准通过麦克风的声学端口。假设我们的攻击同时照亮了麦克风的 ASIC 和振膜,从而导致了光声和光电效应的某种组合。

9 攻击的一堆目标

针对几种具有语音控制功能的消费类设备进行了攻击测试。


目标是最流行的语音助手——即 Alexa、Siri、Portal 和 Google Assistant。接下来,为了探索不同的硬件变化(而不是算法变化)如何影响我们的攻击性能,我们在运行相同语音识别后端的多个设备上对我们的攻击进行了基准测试:Alexa、Siri、Portal 和 Google Assistant,总结如上表所示。对于部分设备,通过不同的测试,来探索不同硬件模型在攻击性能上的差异。最后,还考虑了具有内置语音识别功能的第三方设备,例如EcoBee恒温器。

10 探索激光功率要求

攻击者在理想条件下控制声控系统所需的最小激光功率
命令选择:我们选择了四种不同的语音命令,代表语音可控系统执行的常见操作。
现在是几点?
将此命令用作我们实验的基线,因为它只需要设备正确识别命令并访问 Internet 即可恢复当前时间。
将音量设置为零
在这里,展示了攻击者控制 VC 系统输出的能力。希望这是攻击者发出的第一个语音命令,以避免引起目标合法所有者的注意。
购买激光笔
通过这个命令,展示了攻击者如何潜在地代表用户(并以用户为代价)订购各种产品。攻击者随后可以在目标居民附近等待交货并收集购买的物品。
打开车库门
最后,展示了攻击者如何与用户链接到目标 VC 系统的其他系统进行交互,车库门开启器是具有明显安全含义的示例之一。
(功率信息都在上面表)
探索最小功率实验图,


但是我很不认同这个,个人认为如果落地到实战当然越大越好,当然,我保留我的想法。

11 攻击说话人身份验证

首先区分说话人识别功能(旨在识别特定用户的语音并个性化设备内容)和说话人身份验证功能(旨在限制对特定用户的访问控制)。虽然不是这项工作的主要主题,但在现在在基于光的命令注入的上下文中讨论这两个特性。智能扬声器没有扬声器身份验证。对于智能扬声器设备,在撰写本文时默认禁用扬声器识别。接下来,即使细心的用户启用了该功能,智能扬声器也被设计为可供多个用户使用。因此,他们的说话人识别功能通常仅限于内容个性化而不是身份验证,将未知的声音视为客人。通过经验验证这一点,我们发现 Google Home 和 Alexa 智能扬声器会阻止对无法识别的语音进行语音购买(大概是因为他们不知道应该为购买计费的帐户),同时允许以前未听到的语音执行安全关键语音命令,例如作为解锁门。最后,语音身份验证(与个性化相反)不适用于智能扬声器,这是常见的家庭智能助理部署。

手机和平板电脑。对于此类设备,由于高处理能力和单一所有者使用,默认情况下启用扬声器身份验证。语音认证概述。在对所有者说出特定句子的语音样本进行个性化处理后,平板电脑或手机会连续收听麦克风并获取一组语音样本。收集的音频随后被设备的专有语音识别系统使用,旨在识别设备所有者说出特定于助手的唤醒词(例如,“Hey Siri”或“OK Google”)。最后,当与主人的声音匹配成功时,手机或平板设备继续执行语音命令。绕过语音认证。直观地说,攻击者可以使用设备合法所有者说出所需语音命令的真实录音来破坏扬声器身份验证功能。或者,如果没有这样的录音可用,使用语音合成技术,例如从所有者语音的其他录音中拼接相关音素来构建命令。仅唤醒安全。然而, Google 和 Apple 仅使用说话人识别来验证唤醒词,而不是整个命令。例如,经过训练可识别女性声音的 Android 和 iOS 手机能够正确执行命令,其中只有女性声音说出唤醒词,而其余命令则使用男性声音说出。因此,为了绕过语音认证,攻击者只需要在所有者的语音中记录设备的唤醒词(可以通过记录所有者说出的任何命令来获得)。再现唤醒词。最后,探索了使用文本转语音 (TTS) 技术来再现所有者的声音的可能性,该声音说的是基于平板电脑或手机的语音助手的唤醒词。女性声音训练所有手机和平板电脑设备。然后,使用 NaturalReader ,这是一种在线 TTS 工具,用于生成特定于每个设备的唤醒词,希望提供的语音之一的特征会错误地匹配用于个性化的人类语音。有关由 NaturalReader 提供的设备特定语音配置


该配置错误地匹配用于训练的女性语音。接下来,将合成生成的以女性声音说出的唤醒词与以英语为母语的男性发音的语音命令连接起来。使用这些录音,成功hacked。因此,得出结论,虽然语音识别能够在攻击者和所有者的声音之间强制执行一些相似性,但它不能提供足够的熵来形成足够的命令注入攻击的对策。特别是,在 NaturalReader 支持的 18 种英语语音中,我们能够找到与人类女性语音相匹配的人工语音,用于我们所有四款平板电脑和手机,无需使用任何额外的定制。

12 尝试更真实的攻击条件

低功率跨建筑攻击
攻击者从另一座更高的建筑物瞄准垂直放置在窗台上的目标设备。
实验条件:我们使激光二极管、远摄镜头和激光驱动器,以 5 mW(相当于激光指示器)运行二极管,调制参数与上面相同。接下来,我们离地 15 米的窗户附近直立放置了 Google Home 设备(只有顶部麦克风)。攻击者的激光被放置在附近钟楼内的平台上,该钟楼位于地面以上 43 米处。总体而言,攻击者和激光之间的距离为 75 米

激光聚焦和瞄准:将激光器安装到 Opteka 650-1300 毫米长焦镜头上。接下来,为了远距离瞄准激光,将长焦镜头安装在曼富图 410 齿轮三脚架云台上。这使我们能够将激光束精确地瞄准远距离的目标设备,实现的精度远远超过使用常规(非齿轮)三脚架头(攻击者的手臂直接移动激光模块)可能达到的精度。最后,为了从远处看到激光点和设备的麦克风端口,我们使用了消费级的 Meade Infinity 102 望远镜。一样可以hack。

左图,Google Home 麦克风的端口通过望远镜清晰可见。在上述条件下,我们已经成功地将命令注入到 Google Home 目标中。我们注意到,尽管其 5 mW 的低功率和大风条件(由于激光移动而导致一些光束摆动),激光束成功地注入了语音命令,同时穿透了一个封闭的双窗格玻璃窗。虽然造成的反射可以忽略不计,但双窗格窗口并未对注入的信号造成任何可见的失真,激光束以 21.8 度的角度击中目标的顶部麦克风,并在不需要任何设备的情况下成功注入命令——或特定于窗口的校准。因此,我们得出结论,在远距离和现实攻击条件下,跨建筑激光命令注入是可能的。最后,由于安全要求,实验是在夜间进行的,图左是通过连接在望远镜目镜上的手机摄像头拍摄的。不幸的是,由于手机-目镜对准不完善,结果会稍微失焦,并且激光光斑过饱和。然而,当人类观察者直接观察时,Google Home 的焦点非常清晰,带有一个小的激光点。
攻击身份验证
当前的一些 VC 系统试图通过要求额外的用户身份验证步骤来保护敏感命令的未经授权的执行。对于手机和平板设备,Siri 和 Alexa 应用程序要求用户在执行某些命令之前解锁手机(例如,解锁前门、禁用家庭警报系统)。但是,对于除用户语音之外没有其他形式输入的设备(例如,支持语音的智能扬声器、相机和恒温器),基于数字的 PIN 码用于在执行关键命令之前对用户进行身份验证。 PIN 窃听。用户说出的 PIN 号码本质上容易受到窃听攻击,这可以使用激光麦克风远程执行(使用激光反射测量玻璃窗的声学振动),或使用常见的音频窃听技术。此外,在一个应用程序中,相同的 PIN 用于验证多个关键命令(例如,“解锁汽车”和“启动引擎”),而用户经常在不同的应用程序中重复使用 PIN 码。在这两种情况下,增加受 PIN 保护的命令的数量增加了 PIN 窃听攻击的机会。 PIN 暴力破解
我们还观察到 PIN 验证机制的错误实现。虽然 Alexa 自然支持 PIN 身份验证(在需要与电话应用程序交互之前将用户限制为 3 次错误尝试)

Google Assistant将 PIN 身份验证委托给通常缺乏安全经验的第三方设备供应商。在评估这种设计选择时,研究对 August Smart Lock Pro 进行 PIN 暴力破解攻击的可行性,这是撰写本文时亚马逊上评论最多的智能锁。首先,我们发现 August 没有强制实施合理的 PIN 码长度,允许包含 1 到 6 位数字的 PIN 用于开门。接下来,观察到August在撰写本文时并没有限制用户允许的错误尝试次数,也没有在错误尝试之间实施时间延迟机制,允许攻击者解锁目标的门就是简单地枚举所有可能的 PIN 码。根据经验验证这一点,编写了一个程序,该程序使用合成语音枚举所有 4 位 PIN 码。每次尝试失败后,Google Home 设备都会回复“抱歉,安全码不正确,我可以要你的安全码来解锁前门吗?”,一次解锁尝试持续了大约 13 秒,需要 36 小时来枚举整个 4 位数空间(3 位数需要 3.6 小时)。在 3 位和 4 位的情况下,当输入正确的 PIN 时,门成功解锁。 PIN 绕过。最后,我们发现,虽然诸如用于 August 锁的“解锁前门”或用于响铃警报的“禁用警报系统”之类的命令需要 PIN 码,但其他命令(例如使用启用了助手功能的车库门开启的“打开车库门”)通常需要不需要任何身份验证。因此,即使一个命令不可用,攻击者通常也可以通过使用其他命令来实现类似的目标。

攻击汽车
许多现代汽车都有蜂窝互联网连接,允许车主通过移动设备上的专用应用程序执行某些操作。在某些情况下,这种连接已经进一步发展(由供应商或第三方),将目标的汽车连接到 VC 系统,允许语音解锁和/或预热(这通常需要发动机启动) )。因此,攻击者可能会使用受损的 VC 系统来访问目标的汽车。
特斯拉:特斯拉汽车允许车主使用特斯拉提供的专用手机应用程序与汽车互动。在我们的手机上安装应用程序并将其链接到特斯拉 Model S 车辆后,我们安装了“EV Car” 集成,将其链接到车辆。虽然“EV Car”不是特斯拉官方提供的,但在使用车主凭证成功配置后,能够获得多项功能,其中包括获取有关车辆当前位置的信息、锁定和解锁车门以及后备箱,启动和停止车辆充电和气候控制系统。接下来,注意到能够仅使用语音命令执行所有这些任务,而无需 PIN 码或按键接近度。最后,无法在没有钥匙接近的情况下启动汽车。福特汽车:对于较新的车辆,福特提供了一个名为“FordPass”的手机应用程序,该应用程序连接到汽车的福特 SYNC 系统,并允许车主通过互联网与汽车进行交互。下一步,福特还提供了福特派谷歌助手集成,具有与特斯拉的“电动汽车”集成类似的功能。虽然福特为远程发动机启动和车门解锁等关键语音命令实施了 PIN 保护,但就像在没锁一样,没有针对 PIN 暴力破解的保护。最后,当我们能够远程打开车门并启动发动机时,将车辆移出“停车位”会立即停止发动机,从而阻止解锁的汽车被驾驶。
探索隐形攻击
到目前为止所描述的攻击可以通过三种方式被目标 VC 系统的用户发现。首先,用户可能会在命令注入成功后注意到目标设备上的指示灯。接下来,用户可能会听到设备确认注入的命令。最后,当攻击者试图将激光瞄准目标麦克风端口时,用户可能会注意到该点。虽然第一个问题是我们的攻击(实际上是任何命令注入攻击)的限制,但是攻击者需要解决其余两个问题的选项。
声学隐形:为了解决设备所有者听到目标设备确认执行语音命令(或在暴力破解过程中要求输入 PIN 码)的问题,攻击者可以通过要求设备降低其扬声器音量来开始攻击。对于某些设备(EcoBee、Google Nest Camera IQ 和 Fire TV),音量可以降至完全为零,而对于其他设备,可以将其设置为几乎听不见的水平。此外,攻击者还可以滥用设备功能来实现相同的目标。对于 Google Assistant,启用“请勿打扰模式”会使提醒、广播消息和其他语音通知静音。对于 Amazon Echo 设备,启用“耳语模式”可将攻击期间的设备响应量显着降低到几乎听不见的水平。
光学隐身性:攻击者还可以使用不可见的激光波长来避免所有者将激光瞄准目标设备。然而,由于激光点对攻击者也是不可见的,因此需要对适当波长敏感的相机进行瞄准。通过实验验证这一点,我们复制了对 Google Home 设备的攻击使用 980 nm 红外激光器(Lilly Electronics 30 mW 激光模块)。然后我们将激光器连接到 Thorlabs LDC205C 驱动器,将其功率限制在 5 mW。最后,由于红外激光产生的光点对人类来说是不可见的,我们使用智能手机相机瞄准激光(因为这些相机通常不包含红外滤光片)。使用这个设置,成功地将语音命令注入到距离大约 30 厘米的 Google Home 中,设置与第前面相同。红外激光产生的光点在手机摄像头上几乎看不到,人眼完全看不到。
避免精确瞄准的需要
迄今为止描述的攻击的另一个限制是需要将激光点精确地瞄准目标的麦克风端口。虽然在前面通过使用齿轮式相机三脚架头实现了这种瞄准,但这里将展示如何完全避免精确瞄准的需要。攻击者可以使用更高功率的激光并将其功率与更大的激光光斑尺寸进行交易,这使得瞄准变得相当容易。事实上,高于 4W 的激光模块通常可以在常见的电子商务网站上用于激光雕刻。由于出于安全考虑,无法在露天环境中测试如此高功率的激光器,因此我们决定使用激光激发的磷光体手电筒(Acebeam W30,500 流明),它在技术上是一种激光器,但作为手电筒出售带有扩束光学元件(使其成为 3B 类系统)。为了允许语音调制,我们修改了手电筒,去掉了原来的电流驱动器,并将其二极管端子连接到 Thorlabs LDC240C 激光驱动器(见图 11)。只是用闪光灯代替了激光二极管和远摄镜头。使用此设置,我们成功地在大约 10 米的范围内向 Google Home 设备注入命令,同时以 1 W 的输出功率运行手电筒。

(左)手电筒照亮的目标设备。
(右)安装在齿轮三脚架头上的改装激光手电筒瞄准 10 米外的目标。
接下来,手电筒产生的光束点大到足以覆盖整个目标(及其麦克风端口),而无需使用额外的聚焦光学器件和瞄准设备。然而,虽然大光斑有助于不精确的瞄准,但手电筒的快速发散光束也限制了攻击的最大范围。最后,手电筒产生的大光斑(覆盖整个设备表面)也可用于将声音同时注入多个麦克风,从而可能会破坏基于软件的异常检测对策。
降低攻击成本
虽然本文中描述的所有攻击所使用的设置都是使用现成的组件构建的,但一些设备(例如激光驱动器和二极管)是为实验室使用而设计的,这使得组装和测试对于没有经验的用户,展示了一种低成本设置,可以使用即兴手段和现成的消费组件轻松构建,激光二极管和光学。修改现成的激光指示器可能是获得具有准直光学器件的激光源的简单方法。特别是,廉价的激光笔通常没有电流调节器,它们的阳极和阴极直接连接到电池上。因此,我们可以通过鳄鱼夹轻松地将电流驱动器连接到指针的电池连接器。


一种廉价的基于激光笔的设置。
激光驱动器
带有模拟调制端口的激光电流驱动器是我们设置中最专业的仪器,因为我们使用了价格约为 1,500 美元的科学级激光驱动器。
然而,还有更便宜的替代品,例如 Wavelength Electronics LD5CHA 驱动器,售价约为 300 美元。
声源和实验结果:最后,攻击者需要一种播放录制音频命令的方法。我们使用普通的板载笔记本电脑声卡(Dell XPS 15 9570),使用 Neoteck NTK059 耳机放大器进行放大。有关完整的低成本设置的图片,请参见上图。我们已经通过实验验证了使用此设置成功将命令注入到位于 15 米距离的 Google Home 中,主要范围限制是激光聚焦光学器件和出于安全原因人为限制的 5 mW 功率预算。最后,通过用前面部分中的长焦镜头替换激光光学元件,以便宜的设置实现了 110 米的射程。

攻击非 MEMS 麦克风
尽管智能扬声器、手机和平板电脑通常使用 MEMS 麦克风,因为它们占用空间小,但还研究了攻击更大的传统非 MEMS 麦克风的可行性。
使用 Sanwa 400-MC010 驻极体电容麦克风凭经验验证了这一点,将(蓝色)激光束对准麦克风的金属网

使用参数:例如,IDC = 200 mA 和 Ipp = 150 mA,在 5 秒内播放频率从 0 到 10 kHz 线性变化的啁啾信号。图 (右)显示了麦克风记录的音频的频谱图,清楚地显示了对应于线性频率扫描的重复对角线。因此,得出结论,结果也适用于 MEMS 麦克风之外的驻极体电容麦克风。

13 应对策略

基于软件的方法:
额外的身份验证层

或者,让 VC 系统在命令执行之前询问用户一个简单的随机问题可能是一种有效的方法防止攻击者获得成功的命令执行。但是,请注意,添加额外的交互层通常是以牺牲可用性为代价的。

制造商可以尝试使用传感器融合技术,以期检测基于光的命令注入。更具体地说,语音助手通常有多个麦克风,由于声音传播的全向性,它们应该接收相似的信号。同时,当攻击者使用单个激光时,只有一个麦克风接收到信号,而其他麦克风则什么也没有。因此,制造商可以尝试通过比较来自多个麦克风的信号来减轻本文中提出的攻击,而忽略使用单个激光注入的命令。但是,攻击者可以尝试通过使用多个激光或宽光束同时向所有设备的麦克风注入光来破坏这种比较对策

传感器的入侵检测技术可以潜在地用于识别并随后阻止这种不规则的命令注入


基于硬件的方法
可以使用屏障或衍射膜来减少到达麦克风膜片的光量,这些屏障或衍射膜在物理上阻挡直光束,同时允许声波绕过它。


有一个硅板或可移动的快门,两者都消除了对隔膜的视线。然而,重要的是要注意,这些屏障应该对所有波长的光(包括红外线和紫外线)都是不透明的,从而防止攻击者使用不同颜色的光穿过屏障。最后,还可以在设备级别实施遮光屏障,方法是在麦克风孔的顶部放置一个不透明的盖子,从而减弱撞击麦克风的光量。

14限制

硬件限制。LightCommands 继承了光相关物理的所有限制。
因此,即使有时可以攻击织物覆盖的设备(Google Home Mini),相信对于织物覆盖的麦克风端口,覆盖层的厚度可以防止成功的攻击(例如,在Apple Homepods 的案例)。
此外,与声音不同,LightCommands 需要仔细瞄准和视线访问。
展示了如何通过使用望远镜从设备的外观远程确定麦克风的助手类型和位置来部分克服这一限制。最后,虽然通过窗户可见的智能扬声器通常可以访问视线,但智能手表、手机和平板电脑等移动设备的情况却有所不同。这是因为与静态智能扬声器不同,这些设备通常是移动的,需要攻击者快速瞄准并注入命令。当结合攻击此类设备所需的精确瞄准和更高的激光功率时,成功的 LightCommands 攻击可能特别具有挑战性。因此,将系统探索此类设备的任务留给未来。

用户名金币积分时间理由
奖励系统 50.00 0 2022-02-13 18:06:38 投稿满 5 赞奖励
柠檬 10.00 0 2022-01-26 17:05:11 一个受益终生的帖子~~
Track-劲夫 80.00 0 2022-01-26 14:02:13 一个受益终生的帖子~~

打赏我,让我更有动力~

1 条回复   |  直到 2022-1-26 | 1085 次浏览

柠檬
发表于 2022-1-26

就冲你开头,这个赞必须给你安排上

评论列表

  • 加载数据中...

编写评论内容
登录后才可发表内容
返回顶部 投诉反馈

© 2016 - 2024 掌控者 All Rights Reserved.