基于数据溯源模型的智能音箱本地端数字取证系统及方法与流程

2021-10-29 21:00:00 来源：中国专利 TAG：取证系统数字方法数据

1.本发明属于计算机技术中数据处理技术领域，涉及的是一种应用在智能音箱系统中的数字取证方法和系统，尤其是一种基于数据溯源模型的针对本地端设备和数据的数字取证方法和系统。

背景技术：

2.随着物联网技术和人工智能技术的发展，智能音箱的应用越来越广泛。诸多智能音箱设备厂商不断地给消费者提供使用性友好的智能音箱产品，来便利消费者的日常生活。智能音箱系统融合了多项技术，包括物联网技术、移动技术、网络技术、以及云计算技术等。以智能音箱设备为中心，内置有人工智能增强的智能个人语音助手，一个完整的智能音箱系统还包含了物联网设备、移动设备及应用、智能音箱云服务、第三方云服务等多个模块。这些模块结合在一起，可以拓展用户操作、帮助用户处理事项、控制智能设备以及回答用户问题等，给用户带来了便利。
3.不可否认的是，智能音箱系统依然面临一些安全和隐私的问题，例如，系统中的设备可能因为外部攻击或者内部异常处于不正确的运行状态，智能个人语音助手的不恰当反馈会误导用户，用户命令的执行结果不符合用户期望、用户敏感数据被错误使用等。这些安全和隐私问题的发生需要正确而详尽的解释，这就需要使用到数字取证技术。因为智能音箱系统持续运行的特性，其会产生大量记录系统行为和状态的取证相关数据。此外，智能音箱系统的组件因为“触发
‑
条件
‑
行为”的规则串联在一起，可以用来解释系统的行为和状态。因此，智能音箱系统是一个很好的数字取证目标。
4.然而，在智能音箱系统中进行数字取证并不是一项容易的工作。因为包含多种技术和设备，智能音箱系统是复杂且异构的。尽管系统中存在多种类型的数字取证数据，这些不同类型的数据分别需要对应的数据获取和分析方法。因为这些数字取证数据服务于整个系统的共同目标，存在内在关联，所以需要取证调查人员能够从总体的视角来分析和理解这些数据。此外，因为商业上和隐私法规上的原因，云服务端的数据通常是不可访问的、不可获取的，而云端数据又往往包含一些关键的功能控制和数据处理的信息。相比较而言，本地端的设备更容易被掌控，其数据更容易被获取。已有的工作提出了一些应用于智能音箱系统的数字取证方案。然而，这些方案通常只考虑特定的或者有限的数据类型，缺乏从总体视角的思考。此外，它们也依旧不能解决如上所述在智能音箱系统中进行数字取证所面临的困难。

技术实现要素：

5.针对现有技术在智能音箱系统中进行数字取证的不足，本发明提供一种全新的基于数据溯源模型针对智能音箱系统本地端设备和数据的数字取证方法和系统。整个系统通过第三方硬件设备实现，且能够独立运行，不需要改变智能音箱系统的架构，不需要智能音箱系统的参与，不需要用户的主动操作。其使用多个分布式部署的数据获取模块从智能音
箱系统本地端设备中获取不同类型的数字取证数据，并基于数据溯源模型定义了与类型无关的统一数据格式，从而可以一致化管理数字取证数据。本发明基于数据溯源图从全局视角对智能音箱系统进行安全性分析，从而可以发现安全隐患，增强智能音箱系统的安全性。
6.为了达到上述目的，本发明提供如下技术方案：
7.基于数据溯源模型的智能音箱本地端数字取证系统，包括取证数据收集模块、数据溯源生成模块、取证分析模块和前端显示模块；
8.所述取证数据收集模块用于根据数据类型和来源的不同，使用分布式部署的、目的性不同的数据收集插件从智能音箱系统的本地环境中收集取证原始数据；
9.所述数据溯源生成模块用于处理、分析和归纳取证数据收集模块收集到的取证原始数据，使用数据溯源模型进行封装，并进一步生成溯源数据图，保存到数据库中；
10.所述取证分析模块用于基于定义好的安全策略，利用数据溯源图进行系统安全性分析，判断智能音箱系统中是否存在攻击痕迹和安全隐患；
11.所述前端显示模块用于给用户提供可视化交互接口来配置系统、监测状态、查询结果以及获取通知，向用户可视化展示系统安全性分析的结果，并且在发现攻击痕迹和安全隐患时生成相应的警告并发送给用户。
12.进一步的，所述取证数据收集模块用于实现以下功能：
13.a、通过多个自动化脚本从智能音箱系统本地端设备中收集其产生的取证相关原始数据；
14.所述本地端设备至少包括：智能音箱设备和用户的安卓智能手机；所述取证相关原始数据至少来源于：
15.安卓智能手机中智能音箱系统客户端软件保存的数据，至少包含：
16.用户和智能音箱之间的对话信息以及客户端软件的日志文件；
17.网络通信数据，至少包含：
18.智能音箱系统本地端设备之间的网络通信数据以及智能音箱系统本地端设备和云服务器端之间的网络通信数据；
19.b、分析用户和智能音箱之间的对话信息；所述用户和智能音箱之间的对话信息至少既包含了用户对智能音箱所说的内容和智能音箱对用户的反馈内容；
20.c、分析智能音箱系统安卓客户端软件日志文件。
21.进一步的，所述用户和智能音箱之间的对话信息以图形用户界面的形式展示给用户，通过以下方式中的至少一种提取：
22.通过使用图形用户界面分析工具解析文件对象模型树并从相关图形用户界面组件的属性中提取对话文本信息；
23.对于使用矢量图进行渲染的智能音箱客户端，对图形用户界面进行截屏，使用光符识别技术从截屏图片中识别文本信息。
24.进一步的，所述数据溯源生成模块用于实现以下功能：
25.a、对数据收集阶段收集到的取证原始数据进行处理；使用自然语言处理的技术从文本数据中提取关键信息；
26.b、使用数据溯源模型对处理后的取证原始数据进行封装；基于开放溯源模型定义其使用的数据溯源模型，包含三种数据类别：
27.(1)代理，指智能音箱系统中某一个行为的创建者或者目标；
28.(2)实体，指某项行为所导致的中间状态或者数据在传输过程中的载体；
29.(3)行为，指代理和实体之间在行为上的关联，即智能音箱系统中发生的一个具体操作，包括代理执行的行为，以及导致实体产生的行为；
30.c、根据溯源数据项生成溯源数据图；溯源数据图是一个有向无环图，其节点是溯源数据项，也就是代理、实体和行为，其边指示节点之间的因果关联；节点之间的因果关联由节点所属场景的上下文信息和时间信息来决定；生成的溯源数据图保存在数据库中。
31.进一步的，所述取证分析模块用于实现以下功能：
32.b、安全策略生成；安全策略用于定义智能音箱系统应该如何正确运行，至少包括：
33.(7)智能音箱系统中各个组成部分之间的“触发
‑
条件
‑
操作”规则；
34.(8)敏感数据关键词名单；
35.(9)系统各项状态的阈值；
36.b、执行安全性分析；持续地比对数据溯源图和安全策略，验证数据溯源图中包含的工作流和数据流是否符合安全策略；如果不匹配，将会依据安全策略的要求，生成相应的安全警报；
37.c、利用前后溯追踪解释异常现象的产生原因并确定其影响范围；从溯源数据图中的任一节点出发，通过前溯追踪，能够遍历导致该节点产生的一系列节点，从而解释该节点产生的原因；从溯源数据图中的任一节点出发，通过后溯追踪，能够搜寻该节点导致了哪些节点的产生，对整个智能音箱系统产生了哪些影响；通过结合前后溯追踪，从全局的角度了解整个智能音箱系统的运行状态，并生成相应的安全分析报告。
38.进一步的，用户能够通过前端显示模块配置安全策略。
39.基于数据溯源模型的智能音箱本地端数字取证方法，包括如下步骤：
40.(1)配置阶段；将工具部署到智能音箱系统的本地环境中；
41.(2)启动阶段：接收到外部的启动命令后，进行工具的初始化操作，并调用取证数据收集模块；
42.(3)数据收集阶段：根据数据类型和来源的不同，使用分布式部署的、目的性不同的数据收集插件从智能音箱系统的本地环境中收集取证原始数据；
43.(4)数据处理阶段：处理、分析和归纳取证数据收集阶段收集到的取证原始数据，使用数据溯源模型进行封装，并进一步生成溯源数据图，保存到数据库中；
44.(5)取证分析阶段：基于定义好的安全策略，利用数据溯源图进行系统安全性分析，判断智能音箱系统中是否存在攻击痕迹和安全隐患；
45.(6)结果展示和通知生成阶段：向用户可视化展示系统安全性分析的结果，并且在发现攻击痕迹和安全隐患时生成相应的警告并发送给用户。
46.进一步的，所述数据收集阶段包括如下子步骤：
47.a、通过多个自动化脚本从智能音箱系统本地端设备中收集其产生的取证相关原始数据；
48.所述本地端设备至少包括：智能音箱设备和用户的安卓智能手机；所述取证相关原始数据至少来源于：
49.安卓智能手机中智能音箱系统客户端软件保存的数据，至少包含：
50.用户和智能音箱之间的对话信息以及客户端软件的日志文件；
51.网络通信数据，至少包含：
52.智能音箱系统本地端设备之间的网络通信数据以及智能音箱系统本地端设备和云服务器端之间的网络通信数据；
53.b、分析用户和智能音箱之间的对话信息；所述用户和智能音箱之间的对话信息至少既包含了用户对智能音箱所说的内容和智能音箱对用户的反馈内容；
54.c、分析智能音箱系统安卓客户端软件日志文件。
55.进一步的，数据处理阶段具体包括如下子步骤：
56.a、对数据收集阶段收集到的取证原始数据进行处理；使用自然语言处理的技术从文本数据中提取关键信息；
57.b、使用数据溯源模型对处理后的取证原始数据进行封装；基于开放溯源模型定义其使用的数据溯源模型，包含三种数据类别：
58.(1)代理，指智能音箱系统中某一个行为的创建者或者目标；
59.(2)实体，指某项行为所导致的中间状态或者数据在传输过程中的载体；
60.(3)行为，指代理和实体之间在行为上的关联，即智能音箱系统中发生的一个具体操作，包括代理执行的行为，以及导致实体产生的行为；
61.c、根据溯源数据项生成溯源数据图；溯源数据图是一个有向无环图，其节点是溯源数据项，也就是代理、实体和行为，其边指示节点之间的因果关联；节点之间的因果关联由节点所属场景的上下文信息和时间信息来决定；生成的溯源数据图保存在数据库中。
62.进一步的，所述取证分析阶段具体包括如下子步骤：
63.a、安全策略生成；安全策略用于定义智能音箱系统应该如何正确运行，至少包括：
64.(10)智能音箱系统中各个组成部分之间的“触发
‑
条件
‑
操作”规则；
65.(11)敏感数据关键词名单；
66.(12)系统各项状态的阈值；
67.b、执行安全性分析；持续地比对数据溯源图和安全策略，验证数据溯源图中包含的工作流和数据流是否符合安全策略；如果不匹配，将会依据安全策略的要求，生成相应的安全警报；
68.c、利用前后溯追踪解释异常现象的产生原因并确定其影响范围；从溯源数据图中的任一节点出发，通过前溯追踪，能够遍历导致该节点产生的一系列节点，从而解释该节点产生的原因；从溯源数据图中的任一节点出发，通过后溯追踪，能够搜寻该节点导致了哪些节点的产生，对整个智能音箱系统产生了哪些影响；通过结合前后溯追踪，从全局的角度了解整个智能音箱系统的运行状态，并生成相应的安全分析报告。
69.与现有技术相比，本发明具有如下优点和有益效果：
70.1.本发明利用数据溯源模型封装不同类型的取证数据，并使用数据溯源图为取证调查提供了全局上的分析视角，从而可以更准确地对智能音箱系统进行安全性分析。
71.2.本发明不修改智能音箱系统架构，不影响智能音箱系统的正常运行，不需要外部支持，不会对智能音箱系统产生额外的性能负担，不需要对网络协议、设备固件和系统架构做任何修改。
72.3.本发明方案灵活度高，适配性强，可以方便快捷地部署在智能音箱系统中。
73.4.基于数据溯源模型和数据溯源图，本发明可以应用到各类智能音箱系统中，兼容常见设备和数据类型。
74.5.本发明能够自动化运行，不需要用户的参与，不需要设备制造商提供支持。
附图说明
75.图1为本发明提供的方法及系统实现环境部署图。
76.图2为本发明系统模块化设计和工作流程图。
77.图3为本发明的数据流程图。
具体实施方式
78.以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
79.图1所示的为本发明提供的基于数据溯源模型的智能音箱本地端数字取证方法及系统实现环境部署图。本发明既可以运行在第三方的独立硬件中，也可以依附于智能音箱系统中的设备。智能音箱系统分为云端和本地端两个部分。其中云端通过网络链接与本地端链接，云端包括云服务和第三方服务，本地端包括控制终端、智能音箱、物联网设备，物联网设备能够获取周围物理环境数据。本发明应用于本地端的设备，主要是从智能音箱、控制终端和网络通信中收集取证数据，进行安全性分析。
80.图2所示的为本发明提供的基于数据溯源模型的智能音箱本地端数字取证系统模块化设计和工作流程图。本发明系统包括取证数据收集模块、数据溯源生成模块、取证分析模块和前端显示模块。取证数据收集模块、数据溯源生成模块、取证分析模块和前端显示模块彼此独立运行，且不需要智能音箱厂商的支持，也不需要改变网络协议类型、智能音箱系统组织架构以及本地端设备固件等。取证数据收集模块、数据溯源生成模块和取证分析模块均是自动化运行的，不需要用户的参与和智能音箱系统的支持。取证数据收集模块是插件化设计的、分布式部署的，能够根据不同的数据类型和来源，采用不同的数据收集方法。数据溯源生成模块和取证分析模块是自适应的、通用的，能够应用到不同的智能音箱系统中，并能够动态调整其安全防护策略。前端显示模块是操作上友好的、可视化的、易于用户理解的，使得用户可以及时获取智能音箱系统安全信息，监控系统状态。
81.取证数据收集模块用于从智能音箱系统中本地端设备中收集取证原始数据。数据溯源生成模块用于使用数据溯源模型封装收集到的取证原始数据，并且生成数据溯源图。取证分析模块用于利用数据溯源图基于安全策略进行取证分析。前端显示模块用于给用户提供可视化交互接口来配置系统、监测状态、查询结果以及获取通知。
82.一旦被部署和启动，取证数据收集模块便会开始运行。分布式部署的数据收集器便会从不同的设备当中收集不同类型的取证原始数据。接着，数据溯源生成模块负责对收集到的取证原始数据进行处理：(1)对数据进行预处理，剔除冗余数据，提取关键信息，保留有效信息；(2)使用数据溯源模型对预处理后的数据进行封装；(3)在封装后的数据溯源项基础上生成数据溯源图。这些数据溯源图将会保存在数据库中供后续使用。取证分析模块
将会从数据库中查询安全策略信息和数据溯源图信息。查询到的安全策略信息用于安全策略的生成。生成的安全策略和查询到的数据溯源图将会共同服务于安全性分析和前后溯追踪，从而生成最终结果，通过前端显示模块展现给用户。此外，用户还可以通过前端显示模块为系统配置相应的安全策略。
83.图3所示的为本发明的数据流程图。数据收集模块输出的数据包括用户和智能音箱之间的对话文本信息、系统操作信息和状态信息以及网络传输明文数据。其中对话文本信息通过分析智能音箱安卓客户端图形界面获取，系统操作信息和状态信息通过解析智能音箱安卓客户端日志文件获取，网络传输明文数据通过使用中间人技术监听网络数据流获取。通过使用自然语言技术和文本分析技术预处理数据收集模块输出的数据，这些数据将会转变为关键词组，而后，封装进数据溯源模型中，并生成数据溯源图。安全策略的来源有内部来源和外部来源。最终，数据溯源图和安全策略将会影响取证分析的结果。
84.基于上述系统，本发明还提供了基于数据溯源模型的智能音箱本地端数字取证方法，包括如下步骤：
85.(1)配置阶段；将工具部署到智能音箱系统的本地环境中。
86.(2)启动阶段：接收到外部的启动命令后，进行工具的初始化操作，并调用取证数据收集模块。
87.(3)数据收集阶段：根据数据类型和来源的不同，取证数据收集模块使用分布式部署的、目的性不同的数据收集插件从智能音箱系统的本地环境中收集取证原始数据。本步骤具体包括如下子步骤：
88.a、通过多个自动化脚本从智能音箱系统本地端设备中收集其产生的取证相关原始数据。主要涉及到的智能音箱系统本地端设备有：(1)智能音箱设备；(2)用户的安卓智能手机。
89.主要涉及到的取证相关原始数据来源有：(1)安卓智能手机中智能音箱系统客户端软件保存的数据，包含用户和智能音箱之间的对话信息以及客户端软件的日志文件；(2)网络通信数据，包含智能音箱系统本地端设备之间的网络通信数据以及智能音箱系统本地端设备和云服务器端之间的网络通信数据。
90.b、分析用户和智能音箱之间的对话信息。用户和智能音箱之间的对话信息既包含了用户对智能音箱所说的内容，包括用户的问题和命令等，也包含了智能音箱对用户的反馈内容，包括对于用户问题的回答和依据用户命令执行的操作等。对话信息通常不会保存在客户端软件的文件当中，但是会以图形用户界面(gui)的形式展示给用户。由于安卓系统图形用户界面以文件对象模型(dom)树的形式展现，因此使用图形用户界面分析工具，如layout inspector，可以解析该dom树并从相关图形用户界面组件的属性中提取对话文本信息。对于使用矢量图(svg)进行渲染的智能音箱客户端，则图形用户界面分析工具无法起到作用，因此将会对图形用户界面进行截屏，使用光符识别技术(ocr)，从截屏图片中识别文本信息。对话文本信息将会保存到数据库中。
91.c、分析智能音箱系统安卓客户端软件日志文件。智能音箱系统安卓客户端软件作为智能音箱系统的控制中心，会同步整个系统的数据。因此，其日志文件会保存智能音箱系统的操作信息和运行状态信息。该日志文件是非加密的，其内容组织为定义好的数据格式。每一个日志条目可以概括为四项，即时间戳项、服务项、行为项和目标项。时间戳项指的是
该日志条目生成的时间点，也代表该条目表示的行为项发生的时间。行为项指的是智能音箱系统中的某项具体行为。服务项指的是执行行为项的主体，而目标项则是行为项要操作的目标。一个自动化脚本将会持续监测日志文件的变化，并将新生成的日志条目解析为对应的时间戳项、服务项、行为项和目标项，并保存到数据库中。
92.d、分析无线网络通信数据。智能音箱、智能音箱系统的安卓客户端软件和智能音箱系统的云服务器端之间通过无线网络通信进行数据的交互，其使用的协议通常是超文本传输协议(http或https)。由于http协议通常是加密的，因此使用一款安全的http协议解码器fiddler来解密http网络数据流。fiddler的部署和运行基于中间人(mitm)技术。由于http需要使用网络代理，因此，fiddler证书将会首先安装到智能手机当中。任意一个智能设备，比如手提电脑，将被设立为网络接入点(ap)，供智能音箱和手机进行网络连接。最终，该网络接入点将可以监测智能音箱、智能音箱系统的安卓客户端软件和智能音箱系统的云服务器端之间的无线网络通信内容。其解密后的明文内容，将会保存到数据库中。
93.系统中取证数据收集模块实现的具体功能与本步骤相同。
94.(4)数据处理阶段：数据溯源生成模块负责处理、分析和归纳取证数据收集模块收集到的取证原始数据，使用数据溯源模型进行封装，并进一步生成溯源数据图，保存到数据库中。本步骤具体包括如下子步骤：
95.a、对数据收集阶段收集到的取证原始数据进行处理。由于该取证原始数据都是以文本的形式存在，因此，使用自然语言处理(nlp)的技术从文本数据中提取关键信息。第一步，使用中文分词模块jieba对文本进行预处理，对文本信息进行分词和去停用词处理，删除冗余信息，保留含有关键语义的词组。第二步，对预处理后的文本使用word2vec模型进行语料训练。最后一步是特征提取，对于语料训练后的文本，使用word2vec的词向量技术获取文本中的关键词，从而理解文本含义。
96.b、使用数据溯源模型对处理后的取证原始数据进行封装。数据溯源模型定义了一种能够应用于不同数据类型的统一数据格式。数据溯源生成模块基于开放溯源模型(open provenance model)定义其使用的数据溯源模型，包含三种数据类别：(1)代理(agent)，指的是智能音箱系统中某一个行为的创建者或者目标，可以是智能音箱中的任一主体，如用户、移动应用、智能音箱、云服务、智能设备等。(2)实体(entity)，指的是某项行为所导致的中间状态或者数据在传输过程中的载体，可以是命令、网络消息、问题、回复、设备状态等。(3)行为(action)，指的是代理和实体之间在行为上的关联，也就是智能音箱系统中发生的一个具体操作，既可以是代理执行的行为，也可以是导致实体产生的行为，可以是用户说话、操控移动应用、进行网络连接等。
97.c、根据溯源数据项生成溯源数据图。溯源数据图是一个有向无环图，其节点是溯源数据项，也就是代理、实体和行为，其边指示节点之间的因果关联。节点之间的因果关联由节点所属场景的上下文信息和时间信息来决定。生成的溯源数据图将会保存在数据库中。
98.系统中数据溯源生成模块实现的具体功能与本步骤相同。
99.(5)取证分析阶段：基于定义好的安全策略，取证分析模块利用数据溯源图进行系统安全性分析，判断智能音箱系统中是否存在攻击痕迹和安全隐患。本步骤具体包括如下子步骤：
100.a、安全策略生成。安全策略定义了智能音箱系统应该如何正确运行，包括：(1)智能音箱系统中各个组成部分之间的“触发
‑
条件
‑
操作”规则；(2)敏感数据关键词名单；(3)系统各项状态的阈值等。用户可以通过前端显示模块配置安全策略，同时取证分析模块也会内置预先定义的安全策略。
101.b、执行安全性分析。因为数据溯源图包含了系统各项运行状态信息和操作行为序列，所以取证分析模块持续地比对数据溯源图和安全策略，验证数据溯源图中包含的工作流和数据流是否符合安全策略。如果不匹配，将会依据安全策略的要求，生成相应的安全警报。
102.c、利用前后溯追踪解释异常现象的产生原因并确定其影响范围。数据溯源图的节点之间包含因果关联信息，可以用来解释某个现象发生的根本原因以及该现象对整个智能音箱系统产生的后续影响。从溯源数据图中的任一节点出发，通过前溯追踪，可以遍历导致该节点产生的一系列节点，从而可以解释该节点产生的原因，包括时间、地点和操作主体等。从溯源数据图中的任一节点出发，通过后溯追踪，可以搜寻该节点导致了哪些节点的产生，对整个智能音箱系统产生了哪些影响。通过结合前后溯追踪，取证分析模块可以从全局的角度了解整个智能音箱系统的运行状态，并生成相应的安全分析报告。
103.系统中取证分析模块实现的具体功能与本步骤相同。
104.(6)结果展示和通知生成阶段：前端显示模块向用户可视化展示系统安全性分析的结果，并且在发现攻击痕迹和安全隐患时生成相应的警告并发送给用户。
105.本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于数据溯源模型的智能音箱本地端数字取证系统及方法与流程

相关文献

最热文献