处理输入媒体馈送的制作方法

2022-07-30 11:18:26 来源：中国专利 TAG：

1.本公开内容涉及媒体馈送领域，并且特别地涉及使用人工智能(ai)引擎处理用于人的监视的输入媒体馈送。

背景技术：

2.新技术开创了新的机遇。例如，数码摄像机和通信技术的发展使得能够以相对较低的成本使用视频监控来提供对人的监视。这对老年人或残疾人特别有用，如此，他们可以通过生活在他们自己的家中而不是在有工作人员的护理机构中来享受大大改善的生活质量。
3.视频监视当然有用，但是出现了隐私问题。几乎没有人享受被使用视频监视连续监视，即使它主要用于人何时需要帮助的基于机器的监视。

技术实现要素：

4.一个目的是减少在媒体馈送中捕获的敏感数据的暴露，同时允许在本地数据上训练中央模型。
5.根据第一方面，提供了一种用于处理用于人的监视的输入媒体馈送的方法。该方法由包括媒体捕获设备和本地人工智能ai引擎的媒体处理设备执行。该方法包含以下步骤：使用媒体捕获设备获得输入媒体馈送；将输入媒体馈送提供给本地ai引擎以提取输入媒体馈送的至少一个特征；以及在避免传送输入媒体馈送的情况下传送包括所提取的至少一个特征的中间结果以训练中央ai模型。中间结果包括所提取的至少一个特征的标签。该标签是从另一本地ai引擎的最终结果获得的。本地ai引擎形成媒体处理设备的一部分。
6.本地ai引擎和/或中央ai设备可以基于神经网络。
7.标签可以从本地ai引擎的最终结果获得。这意味着存储中间结果直到本地ai引擎推断出其最终结果。
8.中间结果可以包括边界框。
9.该方法还可以包括以下步骤：在避免传送输入媒体馈送的情况下将至少一个特征传送至中央ai设备。
10.输入媒体馈送可以包括多种媒体类型。
11.媒体捕获设备可以包括摄像机，并且输入媒体馈送可以包括视频馈送。
12.媒体捕获设备可以包括麦克风，并且输入媒体馈送可以包括音频馈送。
13.媒体捕获设备可以包括雷达，并且输入媒体馈送包括雷达数据馈送。
14.根据第二方面，提供了一种用于处理用于人的监视的输入媒体馈送的媒体处理设备。该媒体处理设备包括：媒体捕获设备；本地人工智能ai引擎；处理器；以及存储指令的存储器，所述指令在由处理器执行时使媒体处理设备进行如下操作：使用媒体捕获设备获得输入媒体馈送；向本地ai引擎提供输入媒体馈送，以提取输入媒体馈送的至少一个特征；以及在避免传送输入媒体馈送的情况下传送包括所提取的至少一个特征的中间结果以训练
中央ai模型。中间结果包括所提取的至少一个特征的标签。该标签是从另一本地ai引擎的最终结果获得的。
15.本地ai引擎和/或中央ai设备可以基于神经网络。
16.标签可以从本地ai引擎的最终结果获得。这意味着存储中间结果直到本地ai引擎推断出其最终结果。
17.中间结果可以包括边界框。
18.媒体处理设备还可以包括指令，所述指令在由处理器执行时使得媒体处理设备：在避免传送输入媒体馈送的情况下向中央ai设备传送至少一个特征。
19.输入媒体馈送可以包括多种媒体类型。
20.媒体捕获设备可以包括摄像机，并且输入媒体馈送包括视频馈送。
21.媒体捕获设备可以包括麦克风，并且输入媒体馈送包括音频馈送。
22.媒体捕获设备可以包括雷达，并且输入媒体馈送包括雷达数据馈送。
23.根据第三方面，提供了一种用于处理用于人的监视的输入媒体馈送的计算机程序。所述计算机程序包括计算机程序代码，所述计算机程序代码在包括媒体捕获设备和本地人工智能ai引擎的媒体处理设备上运行时，使媒体处理设备进行如下操作：使用媒体捕获设备获得输入媒体馈送；向本地ai引擎提供输入媒体馈送，以提取输入媒体馈送的至少一个特征；以及在避免传送输入媒体馈送的情况下传送包括所提取的至少一个特征的中间结果以训练中央ai模型。中间结果包括所提取的至少一个特征的标签。该标签是从另一本地ai引擎的最终结果获得的。
24.根据第四方面，提供了一种计算机程序产品，该计算机程序产品包括根据第三方面的计算机程序以及存储所述计算机程序的计算机可读装置。
25.通常，除非在本文中以其他方式明确限定，否则权利要求中所使用的所有术语都将根据它们在技术领域中的普通含义来解释。除非另有明确说明，否则所有对“一/一个/该元件、装置、部件、手段、步骤等”的引用应被公开解释为指代元件、装置、部件、手段、步骤等的至少一个实例。本文中公开的任何方法的步骤不必以所公开的确切顺序执行，除非明确说明。
附图说明
26.现在参照附图，通过示例的方式描述各方面和实施方式，在附图中：
27.图1是示出了可以应用本文中提出的实施方式的环境的示意图；
28.图2是示出用于处理输入媒体馈送的方法的实施方式的流程图；
29.图3是示出图1的媒体处理设备的部件的示意图；以及
30.图4示出了包括计算机可读装置的计算机程序产品的一个示例。
具体实施方式
31.现在将在下文中参照附图更全面地描述本公开内容的各方面，在附图中示出了本发明的某些实施方式。然而，这些方面可以以许多不同的形式来体现并且不应被解释为限制性的；而是，这些实施方式通过示例的方式被提供，使得本公开内容将是透彻且完整的，并且以便将本发明的所有方面的范围充分传达给本领域技术人员。在整个说明书中，相同
的附图标记指相同的元件。
32.图1是示出了可以应用本文中提出的实施方式的环境的示意图。要被监视的人5至少一部分时间出现在物理空间14中。人5也可以被称为主要行动者。物理空间14例如可以是房间、公寓、房屋、办公室等。媒体处理设备1被配置成基于媒体捕获设备3来监视人。媒体处理设备1包含有时被称为在“边缘”的本地人工智能(ai)引擎4。可以存在在相同或互补场景上并行工作的一个或更多个媒体处理设备1。
33.媒体处理设备1连接至网络6，网络6可以是基于互特网协议(ip)的网络。网络可以例如包括本地无线网络、蜂窝网络、有线局域网、广域网(例如因特网)等中的任何一个或更多个。还连接至网络6的是有时被称为在“云”中的中央ai设备7。如下面更详细说明的，基于来自一个或更多个媒体处理设备1中的本地ai引擎4中的本地ai模型的中间结果8来训练中央ai设备7。
34.经训练的中央ai设备7可以用于连续部署以改善一个或更多个本地ai引擎4的性能。媒体处理设备1和/或中央ai设备7基于输入数据来推断结果。这样的结果的非限制性示例是：躺在地板上、呼吸、尖叫、特定手势、用户缺席、用户在场等。结果用于确定是否触发警报以帮助人5。当在媒体处理设备1中执行结果的推断时，这具有能够更快地反应的优点，即具有更少的等待时间。当在中央ai设备7中执行结果的推断时，这具有有着更大计算能力的优点，并且在其推断中可以更准确，因为它可以基于来自多个媒体处理设备的多个馈送。在一个实施方式中，首先使用媒体处理设备1来推断结果，并且随后使用中央ai设备7作为第二意见。例如，如果确定人5已经跌倒在地板上并且不能起身，则可以触发警报。
35.当人5需要帮助时，警报可以例如导致指派看护者或医务人员去往物理空间14。
36.可以存在一个或更多个媒体捕获设备3来覆盖更小或更大的物理空间。媒体捕获设备3可以基于视频、音频、雷达、红外传感器等中的任何一个或更多个。
37.图2是示出用于处理用于人的监视的输入媒体馈送的方法的实施方式的流程图。该方法由媒体处理设备执行。如上所述，媒体处理设备包括媒体捕获设备和本地ai引擎。对于相同的物理空间，该方法的若干实例可以由不同的媒体处理设备或至少不同的机器学习模型并行地执行。
38.在获得输入媒体步骤40中，媒体处理设备使用媒体捕获设备来获得输入媒体馈送。输入媒体馈送可以是单个媒体类型。可替选地，输入媒体馈送包括多种媒体类型。媒体馈送的目的是监视人并且使得能够确定人何时需要帮助。
39.媒体捕获设备可以包括摄像机，在这种情况下，输入媒体馈送包括视频馈送。可替选地或另外地，媒体捕获设备可以包括麦克风，在这种情况下，输入媒体馈送包括音频馈送。可替选地或另外地，媒体捕获设备可以包括雷达，在这种情况下，输入媒体馈送包括雷达数据馈送。使用若干不同的媒体馈送提高了确定人的状态的能力。另外，可以将一个媒体馈送馈送到用于不同目的的不同ai模型，例如，可以将视频馈送馈送到用于确定姿势(站立、坐下、躺下)的ai模型以及用于确定人是否处于痛苦中的ai模型两者。
40.在提取特征步骤42中，媒体处理设备通过本地ai引擎(也称为机器学习模型)来提供输入媒体馈送，以提取输入媒体馈送的至少一个特征。本地ai引擎可以基于神经网络。
41.术语“特征”在此应用于机器学习的上下文中。因此，术语“特征”在此被定义为被观察的现象的各个可测量特性或特征。例如，当应用于视觉数据时，特征可以是边缘或ai模
型的早期层擅长突出呈现的其他形状。
42.当场景是静态的时，神经网络可以屏蔽掉对推断没有贡献的这样的静态信息(不管媒体类型)。某些情景在白天期间以及随着季节改变，例如光线、装饰、人的来往。有时这些变化对于训练机器学习模型而言是重要的，但是有时这些变化只是重复出现的模式(例如取决于一天中的时间的光线)，由此可以基于此来定制特征提取。以这种方式，主要是训练和域特定推断所需的信息将被传递到后面的特征提取层并且用于训练。
43.在传送中间结果步骤43中，媒体处理设备在避免传送输入媒体馈送的情况下传送包括所提取的至少一个特征(来自步骤42)的中间结果以训练中央ai模型。中央ai模型可以例如基于一个或更多个神经网络。中间结果包含至少一个特征(来自本地ai引擎中的中间级)。中间结果还可以包括所提取的至少一个特征的标签。在ml训练中使用标签来指示针对某组输入数据的正确结果。标签是从使用相同的传感器数据或其他传感器数据来评估同一场景的另一ai模型的最终结果中获得的。中间结果还可以包括限定包含相关数据的图像内的矩形子区域的边界框。例如，中间结果可以包括包含人的边界框，但是边界框被定义为包含人的最小矩形，因此忽略人周围的大多数不相关数据。在处理图像或视频数据时，可以在相对早期的层中提取边界框。当这个步骤由若干媒体处理设备针对同一决策设备执行时，中央ai模型将大大改进。中间结果是在结果的推断之前从本地ai模型获得的，即在最终层之前从中间层获得的。在从中央模型中的若干源屏蔽和汇集之后，中间结果是不可逆的。
44.在可选的传送特征数据步骤44中，媒体处理设备在避免传送输入媒体馈送的情况下将至少一个特征传送至决策设备。换句话说，输入媒体馈送从不离开媒体处理设备。在一个实施方式中，特征数据作为在步骤43中传送的中间结果的一部分被传送。所传送的特征可以用于中央(机器学习)模型，该中央模型基于用于推断的若干这样的特征馈送。
45.当中央ai模型在尽可能多的本地中间数据上进行训练时，它将更好地普遍化。因此，本地数据馈送的多源化将有助于中央模型进行特征提取和标记，从而允许这样的过程在较少的人工干预的情况下发生，同时与现有技术相比仍然提高了隐私性。训练后的中央模型的适用部分可以作为连续部署过程的一部分部署在本地ai引擎中。可选地，本地ai引擎对任何接收到的新模型进行评估，并且仅在新模型在评估中表现更好的情况下替换旧的本地ai模型。
46.使用本文提出的实施方式，媒体处理设备使用本地ai引擎来在本地处理媒体馈送。由于媒体数据处理器包括媒体捕获设备，因此在媒体馈送不需要离开媒体处理设备的情况下执行该媒体馈送的处理。根据本文的实施方式，代替向中央ai引擎提供隐私性敏感媒体流以用于训练，媒体处理设备在此向中央ai引擎提供中间特征(即中间结果)。中间特征被配置成不是隐私性敏感的，由此人可以舒适地允许媒体处理设备及其媒体捕获设备连续地活动。此外，通过传送中间特征来代替媒体馈送，需要传输更少的数据，从而有效地减少了媒体处理引擎与中央ai引擎之间的通信上的带宽使用。因此，可以基于匿名的本地传感器数据来训练中央ai模型，并且训练后的中央ai模型可以用于本地ai模型的连续部署，即本地ai模型的连续改进。
47.此外，使用来自另一本地ai引擎的标记，该标记由另一本地ai引擎的完整结果来执行。另一本地ai引擎的标记不依赖于为其传送中间结果的本地ai引擎。通过运行其他本地ai引擎来执行标记，这导致自动标记。这使得用于训练中央ai模型的过程能够在没有手
动标记的情况下执行，从而大大地减少了工作量并且提高了训练的可靠性。换句话说，这实现了无监督训练。此外，这允许中央ai模型的重复自动训练。
48.图3是示出图1的媒体处理设备1的部件的示意图。使用能够执行存储在存储器64中的软件指令67的合适的中央处理单元(cpu)、多处理器、微控制器、数字信号处理器(dsp)等中的一个或更多个的任何组合来提供处理器60，因此该存储器64可以是计算机程序产品。可替选地，可以使用专用集成电路(asic)、现场可编程门阵列(fpga)等来实现处理器60。处理器60可以被配置成执行以上参照图2描述的方法。
49.存储器64可以是随机存取存储器(ram)和/或只读存储器(rom)的任何组合。存储器64还包括永久存储装置，该永久存储装置例如可以是磁存储器、光学存储器、固态存储器或甚至远程安装的存储器中的任何单个存储器或者组合。
50.还设置了数据存储器66以用于在处理器60中执行软件指令期间读取和/或存储数据。数据存储器66可以是ram和/或rom的任何组合。
51.媒体处理设备1还包括用于与外部实体和/或内部实体通信的i/o接口62。例如，i/o接口62允许媒体处理设备1与网络6通信。可选地，i/o接口62还包括用户接口。
52.省略了媒体处理设备1的其他部件，以避免混淆本文所提出的构思。
53.图4示出了包括计算机可读装置的计算机程序产品90的一个示例。在该计算机可读装置上，可以存储计算机程序91，该计算机程序可以使处理器执行根据本文中描述的实施方式的方法。在该示例中，计算机程序产品是光盘例如cd(致密盘)或dvd(数字多功能盘)或蓝光盘。如上所说明的，也可以在设备的存储器例如图3的计算机程序产品64中体现计算机程序产品。虽然计算机程序91在此被示意性地示出为所描绘的光盘上的轨道，但是计算机程序可以以适合于诸如可移动固态存储器(例如，通用串行总线(usb)驱动器)的计算机程序产品的任何方式存储。
54.现在此处将用罗马数字来列举实施方式的集合。
55.i.一种用于处理输入媒体馈送的方法，该方法由媒体处理设备执行，媒体处理设备包括媒体捕获设备和本地人工ai引擎，该方法包括以下步骤：
56.使用媒体捕获设备获得输入媒体馈送；
57.将输入媒体馈送提供给本地ai引擎以提取输入媒体馈送的至少一个特征；以及
58.在避免传送输入媒体馈送的情况下传送包括所提取的至少一个特征的中间结果以训练中央ai模型。
59.ii.根据实施方式i所述的方法，其中，本地ai引擎基于神经网络。
60.iii.根据前述实施方式中任一项所述的方法，其中，中间结果包括所提取的至少一个特征的标签。
61.iv.根据前述实施方式中任一项所述的方法，其中，标签是从本地ai引擎的最终结果获得的。
62.v.根据前述实施方式中任一项所述的方法，其中，标签是从另一本地ai引擎的最终结果获得的。
63.vi.根据前述实施方式中任一项所述的方法，其中，中间结果包括边界框。
64.vii.根据前述实施方式中任一项所述的方法，还包括以下步骤：
65.在避免传送输入媒体馈送的情况下将至少一个特征传送至中央ai设备。
66.viii.根据前述实施方式中任一项所述的方法，其中，输入媒体馈送包括多种媒体类型。
67.ix.根据前述实施方式中任一项所述的方法，其中，媒体捕获设备包括摄像机，并且输入媒体馈送包括视频馈送。
68.x.根据前述实施方式中任一项所述的方法，其中，媒体捕获设备包括麦克风，并且输入媒体馈送包括音频馈送。
69.xi.根据前述实施方式中任一项所述的方法，其中，媒体捕获设备包括雷达，并且输入媒体馈送包括雷达数据馈送。
70.xii.一种用于处理输入媒体馈送的媒体处理设备，该媒体处理设备包括：
71.媒体捕获设备；
72.本地人工智能ai引擎；
73.处理器；以及
74.存储指令的存储器，所述指令在由处理器执行时使媒体处理设备进行如下操作：
75.使用媒体捕获设备获得输入媒体馈送；
76.向本地ai引擎提供输入媒体馈送，以提取输入媒体馈送的至少一个特征；以及
77.在避免传送输入媒体馈送的情况下传送包括所提取的至少一个特征的中间结果以训练中央ai模型。
78.xiii.根据实施方式xii所述的媒体处理设备，其中，本地ai引擎基于神经网络。
79.xiv.根据实施方式xii或xiii所述的媒体处理设备，其中，中间结果包括所提取的至少一个特征的标签。
80.xv.根据实施方式xii至xiv中任一项所述的媒体处理设备，其中，标签是从本地ai引擎的最终结果获得的。
81.xvi.根据实施方式xii至xv中任一项所述的媒体处理设备，其中，标签是从另一本地ai引擎的最终结果获得的。
82.xvii.根据实施方式xii至xvi中任一实施方式所述的媒体处理设备，其中，中间结果包括边界框。
83.xviii.根据实施方式xii至xvii中任一项所述的媒体处理设备，还包括指令，所述指令在由处理器执行时使媒体处理设备进行如下操作：
84.在避免传送输入媒体馈送的情况下向中央ai设备传送至少一个特征。
85.xix.根据实施方式xii至xviii中任一项所述的媒体处理设备，其中，输入媒体馈送包括多种媒体类型。
86.xx.根据实施方式xii至xix中任一项所述的媒体处理设备，其中，媒体捕获设备包括摄像机，并且输入媒体馈送包括视频馈送。
87.xxi.根据实施方式xii至xx中任一项所述的媒体处理设备，其中，媒体捕获设备包括麦克风，并且输入媒体馈送包括音频馈送。
88.xxii.根据实施方式xii至xxi中任一实施方式所述的媒体处理设备，其中，媒体捕获设备包括雷达，并且输入媒体馈送包括雷达数据馈送。
89.xxiii.一种用于处理输入媒体馈送的计算机程序，所述计算机程序包括计算机程序代码，所述计算机程序代码在包括媒体捕获设备和本地人工智能ai引擎的媒体处理设备
上运行时，使得媒体处理设备进行如下操作：
90.使用媒体捕获设备获得输入媒体馈送；
91.向本地ai引擎提供输入媒体馈送，以提取输入媒体馈送的至少一个特征；以及
92.在避免传送输入媒体馈送的情况下传送包括所提取的至少一个特征的中间结果以训练中央ai模型。
93.xxiv.一种计算机程序产品，其包括根据实施方式xxiii所述的计算机程序，以及其上存储有所述计算机程序的计算机可读装置。
94.以上已经参考几个实施方式主要描述了本公开内容的各个方面。然而，如由本领域技术人员容易理解的，在如由所附专利权利要求限定的本发明的范围内，除了上面公开的实施方式之外的其他实施方式同样是可能的。因此，虽然在本文中已经公开了各个方面和实施方式，但是其他方面和实施方式对于本领域技术人员而言将是明显的。本文中公开的各个方面和实施方式是出于说明的目的，而不旨在进行限制，其中真实范围和精神由所附权利要求指示。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：等值线和/或等值面生成方法、系统、设备及存储介质与流程

处理输入媒体馈送的制作方法

相关文献

最热文献