服药过程的监督方法、装置、终端设备及存储介质与流程

2021-10-20 00:50:00 来源：中国专利 TAG：终端设备人工智能服药装置监督

1.本技术属于人工智能技术领域，尤其涉及一种服药过程的监督方法、装置、终端设备及存储介质。

背景技术：

2.在疾病预防和控制过程中，居家治疗患者服药的依从性对治疗效果和愈后有着很大的影响。目前，监督患者服药的通用方法为：要求患者拍摄服药过程视频并上传给医院系统，由医院的医护人员查看视频，确定患者是否按要求服药。然而，这种方法需要耗费医护人员大量的时间和精力。因此，现有监督患者服药的方法中，存在医护人员无法高效地监督患者的药物服用过程是否符合标准的问题。

技术实现要素：

3.本技术实施例提供了一种服药过程的监督方法、装置、终端设备及存储介质，可以解决现有监督患者服药的方法中，存在医护人员无法高效地监督患者的药物服用过程是否符合标准的问题。
4.第一方面，本技术实施例提供了一种服药过程的监督方法，包括：
5.采集患者的服药视频，所述服药视频由多帧视频图像组成；
6.根据光流估计算法，对所述多帧视频图像进行抽帧处理，得到包括多帧目标视频图像的目标服药视频；
7.通过人脸关键点检测模型和姿态估计模型，分别识别所述多帧目标视频图像，得到在所述目标服药视频中所述患者服药时的多个服药阶段；
8.基于所述多帧目标视频图像在所述目标服药视频中的图像顺序，确定所述多个服药阶段的阶段顺序，以监督所述患者的服药过程。
9.在一实施例中，所述根据光流估计算法，对所述多帧视频图像进行抽帧处理，得到包括多帧目标视频图像的目标服药视频，包括：
10.s1、针对所述多帧视频图像中任意相邻的两帧视频图像，获取当前帧视频图像中第一图像区域的第一像素信息，所述任意相邻的两帧视频图像包括当前帧视频图像以及与所述当前帧视频图像相邻的下一帧视频图像；
11.s2、根据所述光流估计算法和所述第一像素信息，从所述下一帧视频图像中确定与所述第一图像区域相似的第二图像区域；
12.s3、根据所述第二图像区域的第二像素信息和所述第一像素信息，计算所述第一图像区域与所述第二图像区域的光流值；
13.s4、若所述光流值小于第一预设值，则删除所述下一帧视频图像，并对剩余的多帧视频图像循环执行s1
‑
s4步骤，直到所述任意相邻的两帧视频图像中，所述当前帧视频图像中第一图像区域与所述下一帧视频图像中第二图像区域的光流值大于或等于所述第一预设值。
14.在一实施例中，所述第一图像区域包括多个第一像素点，所述第一像素信息分别包括所述多个第一像素点的第一像素值和第一位置信息；
15.所述根据所述光流估计算法和所述第一像素信息，从所述下一帧视频图像中确定与所述第一图像区域相似的第二图像区域，包括：
16.根据所述多个第一像素点的第一位置信息，分别确定所述多个第一像素点在进行多次预设位移后，在所述下一帧视频图像中对应的多个图像区域；
17.针对所述下一帧视频图像的任一图像区域，分别根据所述多个第一像素点的第一位置信息，确定对所述多个第一像素点进行预设位移后，在当前图像区域中与所述多个第一像素点一一对应的图像像素点；
18.分别计算所述多个第一像素点的第一像素值，与对应的所述图像像素点的图像像素值的像素点差异值；
19.将多个像素点差异值之和作为所述第一图像区域与所述当前图像区域的图像差异值；
20.从所述多个图像区域对应的图像差异值中，将最小图像差异值对应的图像区域确定为所述下一帧视频图像的第二图像区域。
21.在一实施例中，根据所述第二图像区域的第二像素信息和所述第一像素信息，计算所述第一图像区域与所述第二图像区域的光流值，包括：
22.确定所述第二图像区域的第二像素信息；
23.根据所述第二像素信息与所述第一像素信息，确定所述第一图像区域与所述第二图像区域的位移向量；
24.根据所述位移向量计算所述光流值。
25.在一实施例中，所述服药阶段包括第一展示阶段、第二展示阶段、送药阶段以及吞咽阶段；
26.所述通过人脸关键点检测模型和姿态估计模型，分别识别所述多帧目标视频图像，得到在所述目标服药视频中所述患者服药时的多个服药阶段中，包括：
27.针对任一目标视频图像，根据所述姿态估计模型识别当前目标视频图像，得到所述当前目标视频图像中所述患者的手部关键点位置，以及，根据所述人脸关键点检测模型识别所述当前目标视频图像，得到所述当前目标视频图像中所述患者的嘴部关键点位置；
28.若所述手部关键点位置与所述嘴部关键点位置不重合，且根据所述嘴部关键点位置判定所述患者处于闭口状态时，则判定在所述当前目标视频图像中所述患者处于第一展示阶段；
29.若所述手部关键点位置与所述嘴部关键点位置重合，则判定在所述当前目标视频图像中所述患者处于送药阶段；
30.根据所述嘴部关键点位置计算嘴部关键点的横纵比，若所述横纵比小于第二预设值，则判定在所述当前目标视频图像中所述患者处于第二展示阶段；
31.若根据所述嘴部关键点位置判定所述患者处于闭口状态，且未检测到所述手部关键点位置时，则判定在所述当前目标视频图像中所述患者处于吞咽阶段。
32.在一实施例中，所述嘴部关键点位置包括左嘴角关键点位置、右嘴角关键点位置、上嘴唇关键点位置和下嘴唇关键点位置；
33.所述根据所述嘴部关键点位置计算嘴部关键点的横纵比，包括：
34.基于所述左嘴角关键点的位置和所述右嘴角关键点位置，计算所述患者左嘴角与右嘴角之间的横距离；以及，
35.基于所述上嘴唇关键点位置和所述下嘴唇关键点位置，计算所述患者上嘴唇与下嘴唇之间的纵距离；
36.计算所述横距离与所述纵距离之间的比值，将所述比值作为所述嘴部关键点的横纵比。
37.在一实施例中，在所述基于所述多帧目标视频图像在所述目标服药视频中的图像顺序，确定所述多个服药阶段的阶段顺序之后，还包括：
38.若确定所述服药阶段的阶段顺序依次为第一展示阶段、送药阶段、第二展示阶段和吞咽阶段，则判定所述患者已按照规定进行服药；否则执行预设提醒操作以对所述患者进行提醒。
39.第二方面，本技术实施例提供了一种服药过程的监督装置，包括：
40.采集模块，用于采集患者的服药视频，所述服药视频由多帧视频图像组成；
41.抽帧模块，用于根据光流估计算法，对所述多帧视频图像进行抽帧处理，得到包括多帧目标视频图像的目标服药视频；
42.识别模块，用于通过人脸关键点检测模型和姿态估计模型，分别识别所述多帧目标视频图像，得到在所述目标服药视频中所述患者服药时的多个服药阶段；
43.确定模块，用于基于所述多帧目标视频图像在所述目标服药视频中的图像顺序，确定所述多个服药阶段的阶段顺序，以监督所述患者的服药过程。
44.第三方面，本技术实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。
45.第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。
46.第五方面，本技术实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的方法。
47.本技术实施例与现有技术相比存在的有益效果是：根据光流估计算法，对患者上传的服药视频进行抽帧处理，得到数量较少的视频图像组成的目标服药视频，以减少终端设备对目标服药视频的处理时间。而后，通过已有成熟的人脸关键点检测模型和姿态估计模型，分别识别目标视频图像，得到目标视频图像中患者服药时的服药阶段，以对患者的服药顺序进行监督。其中，采用已有的上述两种成熟模型对目标视频图像进行识别时，可综合两种模型的识别结果判定目标视频图像中患者服药时的各个服药阶段，进一步的提高终端设备对目标视频图像进行识别的准确率。基于此，还可使终端设备无需采集大量样本去训练行为识别模型，减少终端设备重新训练行为识别模型的训练时间。
附图说明
48.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述
中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
49.图1是本技术一实施例提供的一种服药过程的监督方法的实现流程图；
50.图2是本技术一实施例提供的一种服药过程的监督方法的s102的一种实现方式示意图；
51.图3是本技术一实施例提供的一种服药过程的监督方法的s1022的一种实现方式示意图；
52.图4是本技术一实施例提供的一种服药过程的监督方法的s1023的一种实现方式示意图；
53.图5是本技术一实施例提供的一种服药过程的监督方法的s103的一种实现方式示意图；
54.图6是本技术一实施例提供的一种服药过程的监督方法的s1032的一种实现方式示意图；
55.图7是本技术一实施例提供的一种服药过程的监督装置的结构框图；
56.图8是本技术一实施例提供的一种终端设备的结构框图。
具体实施方式
57.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
58.还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
59.另外，在本技术说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
60.本技术实施例提供的服药过程的监督方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra
‑
mobile personal computer，umpc)、上网本等终端设备上，本技术实施例对终端设备的具体类型不作任何限制。
61.请参阅图1，图1示出了本技术实施例提供的一种服药过程的监督方法的实现流程图，该方法包括如下步骤：
62.s101、采集患者的服药视频，所述服药视频由多帧视频图像组成。
63.在本技术实施例中，上述患者为需要服用药物的患者，其中，终端设备可通过摄像装置采集患者的服药视频。通常的，监督患者服药的通用方法为要求患者主动拍摄服药过程的视频并上传给医院，由医护人员查看视频中的患者是否按要求服药。因此，上述服药视频可以为患者主动上传至终端设备的视频。可以理解的是，服药视频通常默认是在患者服药期间对患者进行拍摄的，基于此，终端设备可认为上述服药视频中的每帧视频图像均拍摄有患者服药时的图像。
64.s102、根据光流估计算法，对所述多帧视频图像进行抽帧处理，得到包括多帧目标
视频图像的目标服药视频。
65.在本技术实施例中，上述光流估计算法包括但不限于稀疏光流估计算法、稠密光流估计算法以及深度学习算法等，对此不作限定。在本实施例中，上述光流估计算法可以为稀疏光流估计算法，具体为lucas
‑
kanade算法。具体的，光流意为光的流动。在计算机视觉中，定义图像中对象的移动，这个移动可以是相机移动或者物体移动引起的。具体是指，当前帧视频图像中代表同一对象(物体)像素点移动到下一帧视频图像的移动量，其可使用二维向量表示。
66.基于此，终端设备可根据光流估计算法，计算相邻两帧视频图像中同一像素点(像素点的个数可以为一个，也可以为多个像素点组成的图像区域)的光流值。在光流值小于预设值时，即代表相邻两帧视频图像高度相似。因此，终端设备可删除下一帧视频图像，之后，对剩余的视频图像再次进行上述光流估计算法处理，以使目标服药视频中任意相邻两帧视频图像之间的光流值大于或等于预设值。因目标服药视频中的各个目标视频图像均拍摄有患者服药时的图像，因此，每帧目标视频图像可表示为患者的任一服药过程。以此，可在保证剩余的目标视频图像中包含患者服药时的多个服药阶段，与全部视频图像中包含患者服药时的多个服药阶段一致时，减少终端设备所需处理的视频图像的数量，提高终端设备识别用户服药过程的处理效率。
67.s103、通过人脸关键点检测模型和姿态估计模型，分别识别所述多帧目标视频图像，得到在所述目标服药视频中所述患者服药时的多个服药阶段。
68.在本技术实施例中，上述人脸关键点检测模型和姿态估计模型均可以是已有的成熟模型，用于分别检测人脸关键点位置和患者姿态。需要说明的是，若采集已有的服药视频直接训练行为识别模型，则需要采集足够多的服药视频作为训练样本。然而，在实际情况中，训练行为识别模型的服药视频的数量通常较少，以至于训练得到的行为识别模型很难准确判断患者的服药阶段。基于此，终端设备可通过采用开源的训练好的模型(人脸关键点检测模型和姿态估计模型)识别患者服药时的服药阶段。以此，可减少终端设备重新训练行为识别模型的训练时间，且采用已有的上述两种成熟模型对目标视频图像进行识别，综合判定目标视频图像中患者服药时的服药阶段，可进一步的提高终端设备对目标视频图像进行识别的准确率。
69.在本技术实施例中，上述服药阶段包括但不限于展示药品的展示阶段，送药入口的送药阶段以及吞咽药物的吞咽阶段，对此不作限定。其中，目标视频图像的数量通常具有多帧，且多帧相邻的目标视频图像在被终端设备识别时，可被判定处于同一种服药阶段。示例性的，对于展示阶段，人脸关键点检测模型和姿态估计模型在识别第一帧目标视频图像以及第二帧目标视频图像时，均识别出两帧目标视频图像的图像特征符合展示药品的展示阶段的结果。此时，终端设备可判定第一帧目标视频图像以及第二帧目标视频图像均记录的为患者服药时的展示阶段。
70.在本技术实施例中，上述人脸关键点检测模型可以识别目标视频图像中的人脸关键点信息，例如嘴唇上的关键点信息，并基于关键点信息判断患者处于张口状态或闭口状态。上述姿态估计模型可以识别目标图像中手部关键点位置(手掌或手指)与嘴部关键点位置是否重合，判断患者处于送药阶段以及吞咽阶段，对此不作限定。
71.s104、基于所述多帧目标视频图像在所述目标服药视频中的图像顺序，确定所述
多个服药阶段的阶段顺序，以监督所述患者的服药过程。
72.在本技术实施例中，上述s103已说明每帧目标视频图像均包含有一种服药阶段，且目标视频图像为终端设备对原有视频图像进行抽帧后得到的。基于此，终端设备在确定每帧目标视频图像中患者的服药阶段后，可根据目标视频图像的图像顺序确定患者服药阶段的阶段顺序。此时，终端设备得到的服药阶段的阶段顺序即可认为是对患者的服药过程进行监督。
73.在本技术实施例中，终端设备对上述服药过程进行监督的目的在于：监督患者是否安装规定进行服药。基于此，终端设备在确定患者服药阶段的阶段顺序后，还可将阶段顺序与规定的服药顺序进行比较。若判定阶段顺序与规定的服药顺序不一致，则可对患者进行提醒，以对其服药过程进行纠正。
74.在本实施例中，根据光流估计算法，对患者上传的服药视频进行抽帧处理，得到数量较少的视频图像组成的目标服药视频，以减少终端设备对目标服药视频的处理时间。而后，通过已有成熟的人脸关键点检测模型和姿态估计模型，分别识别目标视频图像，得到目标视频图像中患者服药时的服药阶段，以对患者的服药顺序进行监督。其中，采用已有的上述两种成熟模型对目标视频图像进行识别时，可综合两种模型的识别结果判定目标视频图像中患者服药时的各个服药阶段，进一步的提高终端设备对目标视频图像进行识别的准确率。基于此，还可使终端设备无需采集大量样本去训练行为识别模型，减少终端设备重新训练行为识别模型的训练时间
75.参照图2，在一实施例中，在s102根据光流估计算法，对所述多帧视频图像进行抽帧处理，得到包括多帧目标视频图像的目标服药视频中，具体包括如下子步骤s1021
‑
1024，详述如下：
76.s1021、针对所述多帧视频图像中任意相邻的两帧视频图像，获取当前帧视频图像中第一图像区域的第一像素信息，所述任意相邻的两帧视频图像包括当前帧视频图像以及与所述当前帧视频图像相邻的下一帧视频图像。
77.在本技术实施例中，上述当前帧视频图像为终端设备当前处理的视频图像，通常的，终端设备可根据每帧视频图像的图像顺序，依次处理视频图像。即终端设备初始处理服药视频的多帧视频图像时，可将第一帧视频图像确定为当前帧视频图像，以及将第二帧视频图像确定为相邻的下一帧视频图像。需要说明的是，当前帧视频图像与下一帧视频图像均为相对概念，在当前帧视频图像变换时，下一帧视频图像也相对改变。
78.在本技术实施例中，上述第一图像区域可以为当前帧图像中的某一像素点，也可以为当前帧图像中包含的多个像素点组成的区域，对此不作限定。其中，第一像素信息包括但不限于第一图像区域中每个像素点的第一像素值，以及每个像素点的第一位置信息。其中，第一像素值可以只为该像素点的灰度值，对此不作限定。上述第一位置信息用于表示该第一像素点在当前帧视频图像的位置。
79.具体的，对于任一当前帧视频图像，其均由多个像素点组成。基于此，终端设备可将当前帧视频图像中任意一点作为坐标原点，并建立平行于当前帧视频图像两边的x轴和y轴，生成图像坐标系。之后，终端设备可根据图像坐标系生成每个第一像素点的点坐标(即第一位置信息)。其中，坐标原点可以为当前帧视频图像的中心点或者当前帧视频图像左上角的像素点，对此不作限定。
80.s1022、根据所述光流估计算法和所述第一像素信息，从所述下一帧视频图像中确定与所述第一图像区域相似的第二图像区域。
81.s1023、根据所述第二图像区域的第二像素信息和所述第一像素信息，计算所述第一图像区域与所述第二图像区域的光流值。
82.在本技术实施例中，上述光流值已在上述s102中进行解释，对此不再进行说明。可以理解的是，在计算出当前帧视频图像中代表同一对象(物体)像素点移动到下一帧视频图像的移动量后，可进行向量计算得到对应的光流值。示例性的，以第一图像区域为一个像素点进行示例说明，若第一像素点在当前帧视频图像中的位置为i(x1，y1)，在下一帧视频图像中的位置为j(x2，y2)，则可认为第一像素点向下一帧视频图像的移动量中，移动距离为：移动方向为：此时，移动距离d即为两帧视频图像之间的光流值。
83.需要说明的是，光流值被计算出来的前提假设有：(1)相邻帧之间的亮度恒定；(2)相邻视频帧的取帧时间连续，或者，相邻帧之间物体的运动比较“微小”；(3)保持空间一致性；即，同一帧图像的像素点具有相同的运动。基于此，可认为当前帧视频图像中i像素点的像素值，与下一帧视频图像中的j像素点的像素值应是相同的。因此，终端设备可根据第一像素信息中的第一像素值，从下一帧视频图像中确定与第一像素值相同的j像素点。之后，基于第一像素信息中的第一位置信息与j像素点的位置信息计算光流值。需要补充的是，下一帧视频图像中的坐标系应当与当前帧视频图像中的坐标系一致。即在当前帧视频图像中的左下角为坐标原点构建坐标系时，下一帧视频图像中也应当以左下角为坐标原点构建坐标系。
84.需要说明的是，对于第一图像区域只包括一个第一像素点时，则在下一帧视频图像中可能包含多个与当前帧视频图像i像素点的第一像素值相同的像素点。此时，计算出的光流值则具有多个。然而，患者服药视频的时长大约为10秒，患者服药视频包含的视频图像的帧数约为300帧。此时，相邻帧视频图像之间的同一个像素点的距离通常非常接近。基于此，终端设备还可将上述最小光流值对应的像素点，确定为下一帧视频图像中与i像素点相同的像素点。即将最小光流值对应的像素点做为下一帧视频图像中的第二图像区域。
85.s1024、若所述光流值小于第一预设值，则删除所述下一帧视频图像，并对剩余的多帧视频图像循环执行s1021
‑
s1024步骤，直到所述任意相邻的两帧视频图像中，所述当前帧视频图像中第一图像区域与所述下一帧视频图像中第二图像区域的光流值大于或等于所述第一预设值。
86.在本技术实施例中，上述第一预设值可以为用户根据实际情况进行设置的数值。其中，若光流值小于第一预设值，则代表下一帧视频图像与当前帧视频图像并无多大区别，即可删除下一帧视频图像。之后，终端设备可对剩余的多个视频图像重复执行上述s1021
‑
s1024步骤。直到任意相邻的两帧视频图像中，当前帧视频图像的第一像素点，与下一帧视频图像中第二图像区域的光流值大于或等于第一预设值。即判定当前帧视频图像与下一帧视频图像不相似。
87.具体的，在第一帧视频图像与第二帧视频图像之间的光流值小于第一预设值时，可删除第二帧视频图像。此时，原服药视频中的第三帧视频图像即与第一帧视频图像为相
邻的视频图像。之后，若第三帧视频图像与第一帧视频图像的光流值大于或等于第一预设值，则可保留第三帧视频图像。之后，将第三帧视频图像作为当前帧视频图像，重复上述s1021
‑
s1024步骤。
88.参照图3，在一实施例中，所述第一图像区域包括多个第一像素点，所述第一像素信息分别包括所述多个第一像素点的第一像素值和第一位置信息；
89.在s1022根据所述光流估计算法和所述第一像素信息，从所述下一帧视频图像中确定与所述第一图像区域相似的第二图像区域中，具体包括如下子步骤s10221
‑
10225，详述如下：
90.s10221、根据所述多个第一像素点的第一位置信息，分别确定所述多个第一像素点在进行多次预设位移后，在所述下一帧视频图像中对应的多个图像区域。
91.在本技术实施例中，上述s1023中已说明光流值被计算出来的前提(保持空间一致性；即，同一帧图像的像素点具有相同的运动)。因第一图像区域中第一像素点位移的方向和距离不确定，因此，终端设备可设定每个第一像素点进行预设位移的位移向量均为d，其中，d＝{d1，d2，...，dn}。可以理解的是，因每次进行预设位移的向量是不同的。因此，第一图像区域在进行多次预设位移后，分别在下一帧视频图像中对应覆盖的图像区域也相对不同。基于此，在进行多次上述预设位移后，得到的多个图像区域应当包含第一图像区域在下一帧视频图像中所有可能覆盖的区域。即终端设备可根据多个第一像素点的第一位置信息和每次的预设位移，分别确定第一图像区域每次在下一帧视频图像中对应的图像区域。
92.s10222、针对所述下一帧视频图像的任一图像区域，分别根据所述多个第一像素点的第一位置信息，确定对所述多个第一像素点进行预设位移后，在当前图像区域中与所述多个第一像素点一一对应的图像像素点。
93.在本技术实施例中，上述已说明如何根据第一像素点的第一位置信息和每次的预设位移，分别确定在下一帧视频图像中对应的多个图像区域。因此，对于多个图像区域中的任一图像区域，终端设备可基于每个第一像素点的第一位置信息，以及对应的位移向量d，在当前图像区域中确定与多个第一像素点一一对应的图像像素点。
94.示例性的，若第一图像区域中左下角顶点的位置信息为i(x，y)，且第一图像区域的图像宽度为wx，高度为wy，则第一图像区域中右上角的第一像素点的位置信息为(x wx，y wy)。若此时第一图像区域的预设位移为(dx，dy)，则可确定位移后的第一像素点i在下一帧视频图像中的位置则为(x dx，y dy)，位移后的第一图像区域的右上角的第一像素点在下一帧视频图像中的位置则为(x wx dx，y wy dy)。同样的，第一图像区域中其余的第一像素点也可参照上述方法一一进行确定，对此不再进行详细描述。
95.s10223、分别计算所述多个第一像素点的第一像素值，与对应的所述图像像素点的图像像素值的像素点差异值。
96.s10224、将多个像素点差异值之和作为所述第一图像区域与所述当前图像区域的图像差异值。
97.在本技术实施例中，上述s10222已说明如何多个第一像素点进行预设位移后，在当前图像区域中与多个第一像素点一一对应的图像像素点。基于此，第一图像区域与当前图像区域的图像差异，则可根据如下公式进行计算：
其中，a(a，b)表示当前帧视频图像中第一像素点a的第一像素值；a，b分别表示第一像素点在当前帧视频图像的坐标信息；两个整数wx和wy分别设定了当前帧视频图像上的矩形窗口的大小(矩形窗口的宽度和高度)；a的取值范围属于(x，x wx)，b的取值范围属于(y，y wy)；其中，上述预设位移可以由用户预先在终端设备进行设置，具体可参照上述s1021中的集合d。
98.具体的，从上述式子可看出，当确定了第一像素点的第一位置信息、x、wx、y、wy后，可依次改变向量d，得到下一帧视频图像中的多个图像区域。之后，对于任意图像区域，可分别计算每个第一像素点的第一像素值与下一帧视频图像对应像素点的像素值之间的像素点差异值。而后，对每个像素点差异值进行求平方。即采用该公式(a(a，b)
‑
b(a d
x
，b d
y
))2计算第一像素点a的第一像素值与下一帧视频图像中相同像素点b的像素值之间的差异值(差值)后，进行求平方，得到第一像素点a与像素点b之间的像素点差异值。之后，根据求和公式，计算出两帧图像区域中所有像素点之间的像素点差异值之和ε(d)。即可得到第一图像区域与当前图像区域之间的图像差异值。
99.s10225、从所述多个图像区域对应的图像差异值中，将最小图像差异值对应的图像区域确定为所述下一帧视频图像的第二图像区域。
100.在本技术实施例中，上述s10222
‑
s10224为针对其中一个图像区域进行计算的结果。然而，根据上述s1021中的集合d可知，在改变向量d之后，可重新得到下一帧视频图像中新的图像区域。此时，可通过上述s10222
‑
s10224重新计算出ε(d)值。基于此，终端设备可从计算出的多个ε(d)值中，确定最小ε(d)值。最后，终端设备可将最小ε(d)值对应的图像区域，作为第一图像区域在下一帧视频图像中的覆盖区域。可以理解的是，ε(d)值越小，两个图像区域之间的图像差异值越小，也即两个图像区域之间相似度越高。因此，终端设备可确定最小ε(d)值对应的图像区域为第二图像区域。
101.参照图4，在一实施例中，在s1023根据所述第二图像区域的第二像素信息和所述第一像素信息，计算所述第一图像区域与所述第二图像区域的光流值中，具体包括如下子步骤s10231
‑
10233，详述如下：
102.s10231、确定所述第二图像区域的第二像素信息。
103.s10232、根据所述第二像素信息与所述第一像素信息，确定所述第一图像区域与所述第二图像区域的位移向量。
104.s10233、根据所述位移向量计算所述光流值。
105.在本技术实施例中，上述s1023中已说明如何根据第二像素信息与第一像素信息，计算光流值，具体可参照上述1023中的示例说明，对此不再进行解释。
106.需要说明的是，基于上述是s10221
‑
s10225的步骤可知，终端设备将最小ε(d)值对应的图像区域作为第二图像区域。此时，最小ε(d)值中的d值即为第一图像区域与第二图像区域之间的位移向量(d
x
，d
y
)。基于此，终端设备可直接根据向量计算公式对位移向量(d
x
，d
y
)进行向量计算，得到的数值即为光流值。
107.在其他应用中，上述从下一帧视频图像中确定与第一图像区域光流值最小的第二图像区域时，还可引入图像金字塔光流计算法进行计算。具体的，在使用上述方法计算时，对于下一帧视频图像，首先将下一帧视频图像进行图层处理，得到多层视频图像。之后，在
最高一层的图像上计算其与上一帧视频图像中的光流值；之后，将上一层的计算结果(光流值)作为初始值传递给下一层图像，以使当前层的图像可基于初始值的基础上，计算当前层的图像与上一帧视频图像的光流值；最后，再将当前层的光流值作为初始值传递给下一层图像，重复上述计算过程，直到将光流值传递给最后一层图像，即原始图像层。此时，原始图像层与上一帧视频图像之间计算出来的光流值即为最终两帧图像区域中的结果。其中，上述图像金字塔光流计算方法可在opencv(开源计算机视觉)中进行实现，其实现函数具体为calcopticalflowpyrlk函数，对此不进行详细描述。
108.参照图5，在一实施例中，所述服药阶段包括第一展示阶段、第二展示阶段、送药阶段以及吞咽阶段；
109.在s103通过人脸关键点检测模型和姿态估计模型，分别识别所述多帧目标视频图像，得到在所述目标服药视频中所述患者服药时的多个服药阶段中，具体包括如下子步骤s1031
‑
1035，详述如下：
110.s1031、针对任一目标视频图像，根据所述姿态估计模型识别当前目标视频图像，得到所述当前目标视频图像中所述患者的手部关键点位置，以及，根据所述人脸关键点检测模型识别所述当前目标视频图像，得到所述当前目标视频图像中所述患者的嘴部关键点位置。
111.在本技术实施例中，上述第一展示阶段为展示药品的阶段；上述送药阶段为患者将要将药品放入口中的阶段(药品还未放入口中)；上述第二展示阶段为展示患者已将药品放入口中的阶段；上述吞咽阶段为患者闭口服药的阶段。其中，每个服药阶可段对应的动作规则均可用用户预先进行设定，以使姿态估计模型和人脸关键点检测模型根据识别到的关键点位置，确定患者在当前目标视频图像的动作。之后，终端设备可将该识别到的动作与预先设定的动作规则进行比较，确定患者服药时的各个阶段。
112.在本技术实施例中，上述姿态估计模型可以为进行手势识别的检测模型，其可检测出患者手部关键点位置。其中，手部关键点包括但不限于各个手指的端点、关节点等位置。上述人脸关键点检测模型用于检测人脸关键点位置，其中，人脸关键点包括但不限于眼睛、鼻子、嘴巴、耳朵等关键点位置。在本实施例中，因需要检测患者的服药阶段，因此，人脸关键点检测模型可主要检测患者的嘴部关键点位置。需要说明的是，上述人脸关键点检测模型和姿态估计模型均为已有的成熟模型，对此不做详细描述。
113.s1032、若所述手部关键点位置与所述嘴部关键点位置不重合，且根据所述嘴部关键点位置判定所述患者处于闭口状态时，则判定在所述当前目标视频图像中所述患者处于第一展示阶段。
114.在本技术实施例中，因姿态估计模型和人脸关键点检测模型均是识别同一帧目标视频图像，因此，检测到的手部关键点位置和嘴部关键点位置可以直接进行比较。其中，若检测到手部关键点位置与嘴部关键点不重合，且根据嘴部关键点位置判定患者处于闭口状态，则可判定所述患者处于第一展示阶段。即目标视频帧图像记录的为患者展示药品的视频图像。
115.在本技术实施例中，判定患者是否处于闭口状态，可通过检测到的嘴部关键点位置进行判定。示例性的，嘴部关键点位置包括但不限于上嘴唇、下嘴唇、左嘴角以及右嘴角等关键点位置。通常的，在患者处于闭口状态时，上嘴唇关键点和下嘴唇关键点之间的距离
通常远小于左嘴角关键点与右嘴角关键点之间的距离。基于此，终端设备可通过左嘴角关键点位置以及右嘴角关键点位置，计算左右嘴角之间的横距离。以及，通过上嘴唇关键点位置和下嘴唇关键点位置，计算上下嘴唇之间的纵距离。最后，计算横距离与纵距离之间的比值。若比值大于或等于第二预设值时，则可判定患者处于闭口状态。其中，第二预设值可以为患者根据实际情况进行设置的数值，对此不作限定。通常的，第二预设值可以为0.5。
116.可以理解的是，当横距离与纵距离大于或等于第二预设值时，患者虽然可能处于张口状态，但张口程度属于无法将药品送入口中的程度。基于此，终端设备也可判定此时患者处于闭口状态。
117.s1033、若所述手部关键点位置与所述嘴部关键点位置重合，则判定在所述当前目标视频图像中所述患者处于送药阶段。
118.在本技术实施例中，若手部关键点位置与嘴部关键点重合，则可判定患者处于送药阶段。具体的，在手部关键点位置中，手指部分的关键点通常用于拿取药品放入口中。此时，为确定药品是否送入口中，则可在确定手指部分的关键点与嘴部关键点重合时，即认定患者处于送药阶段。需要补充的是，在判定患者是否处于送药阶段的状态时，终端设备可以不考虑患者是否处于张口状态还是闭口状态。
119.需要补充的是，因手部关键点位置与嘴部关键点位置均具有多个，终端设备可只获取手指部分的关键点位置，以及上嘴唇、下嘴唇、左嘴角以及右嘴角的关键点位置。基于此，终端设备可在确定任一手指部分的关键点位置与任一嘴部关键点位置重合时，即判定在当前目标视频图像中患者处于送药阶段。
120.s1034、根据所述嘴部关键点位置计算嘴部关键点的横纵比，若所述横纵比小于第二预设值，则判定在所述当前目标视频图像中所述患者处于第二展示阶段。
121.在本技术实施例中，上述计算嘴部关键点的横纵比已在上述s1032中进行解释，对此不再进行说明。可以理解的是，当横纵比小于第二预设值时，则代表患者的张口程度已达到可将药品送入口中的程度。需要补充的是，在其他应用中，对于第二展示阶段，终端设备还可通过其他识别模型，识别药品所处的位置是否处于嘴唇关键点位置之间(处于上嘴唇与下嘴唇的关键点位置之间，且同时处于左嘴角与右嘴角的关键点位置之间)，以进一步的确定患者所处的服药阶段是否为第二展示阶段。
122.s1035、若根据所述嘴部关键点位置判定所述患者处于闭口状态，且未检测到所述手部关键点位置时，则判定在所述当前目标视频图像中所述患者处于吞咽阶段。
123.在本技术实施例中，若根据嘴部关键点位置判定患者处于闭口状态时，且未检测到手部关键点位置，则可判定患者处于吞咽阶段。需要说明的是，对于患者服药过程中最后的一个阶段，其只需检测患者是否再次处于闭口状态即可。此时，与第一展示阶段和送药阶段不同的是，吞咽阶段需手部关键点检测模型从目标视频图像中未检测到手部关键点位置。以此，可使终端设备准确识别目标视频图像中患者所处的服药阶段。
124.参照图6，在一实施例中，所述嘴部关键点位置包括左嘴角关键点位置、右嘴角关键点位置、上嘴唇关键点位置和下嘴唇关键点位置；
125.在s1032根据所述嘴部关键点位置计算嘴部关键点的横纵比中，具体包括如下子步骤s10321
‑
s10323，详述如下：
126.s10321、基于所述左嘴角关键点的位置和所述右嘴角关键点位置，计算所述患者
左嘴角与右嘴角之间的横距离。以及，
127.s10322、基于所述上嘴唇关键点位置和所述下嘴唇关键点位置，计算所述患者上嘴唇与下嘴唇之间的纵距离。
128.s10323、计算所述横距离与所述纵距离之间的比值，将所述比值作为所述嘴部关键点的横纵比。
129.在本技术实施例中，上述基于左嘴角关键点的位置和右嘴角关键点位置，计算患者左嘴角与右嘴角之间的横距离。具体的，上述左嘴角关键点的位置和右嘴角关键点的位置均为二维坐标。基于此，终端设备可计算两个二维坐标之间的横坐标差值的平方，与纵坐标差值的平方之和，而后进行开根号得到左嘴角与右嘴角之间的横距离。同样的，上述上嘴唇与下嘴唇之间的纵距离计算方式与其相似，对此不再进行描述。
130.在一实施例中，在s104基于所述多帧目标视频图像在所述目标服药视频中的图像顺序，确定所述多个服药阶段的阶段顺序之后，还包括：
131.若确定所述服药阶段的阶段顺序依次为第一展示阶段、送药阶段、第二展示阶段和吞咽阶段，则判定所述患者已按照规定进行服药；否则执行预设提醒操作以对所述患者进行提醒。
132.在本技术实施例中，上述服药阶段的阶段顺序可以为用户预先在终端设备内部进行设置的顺序。可以理解的是，当确定服药阶段的阶段顺序不依次为上述预设的阶段顺序时，则可对患者进行预设的提醒操作，以提醒患者在服药过程中按规定执行。其中，上述预设的提醒操作包括但不限于：通过短信、电话等形式进行提醒。
133.在本技术实施例中，上述确定服药阶段的阶段顺序除依次为第一展示阶段、送药阶段、第二展示阶段和吞咽阶段之外，其实际服药阶段的阶段顺序还包括但不限于：第一展示阶段
‑
送药阶段(送药阶段之后未检测到其余服药阶段，则判定患者实际未服用药品)；第一展示阶段
‑
送药阶段
‑
第二展示阶段(第二展示阶段之后未检测到其余服药阶段，则判定患者实际未服用药品)；第一展示阶段
‑
送药阶段
‑
吞咽阶段(送药阶段后直接进入吞咽阶段，则判定患者未按照规定进行服药)，本实施例对患者服药阶段的各个阶段顺序不作限定。
134.需要补充的是，对于上述多种服药阶段的阶段顺序，用户还可预先设置每种服药阶段对应的提醒方式，以对患者进行提醒。示例性的。对于上述判定患者实际未服用药品的服药阶段，可设置重度等级的提醒方式。例如，通过短信与电话结合的形式进行提醒。对于判定患者已服药，却未按照规定进行服药的阶段顺序，可设置轻度等级的提醒方式。例如，通过短信或电话的形式进行提醒，对此不作限定。
135.请参阅图7，图7是本技术实施例提供的一种服药过程的监督装置的结构框图。本实施例中服药过程的监督装置包括的各模块用于执行图1至图6对应的实施例中的各步骤。具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图7，服药过程的监督装置700包括：采集模块710、抽帧模块720、识别模块730以及确定模块740，其中：
136.采集模块710，用于采集患者的服药视频，所述服药视频由多帧视频图像组成。
137.抽帧模块720，用于根据光流估计算法，对所述多帧视频图像进行抽帧处理，得到包括多帧目标视频图像的目标服药视频。
138.识别模块730，用于通过人脸关键点检测模型和姿态估计模型，分别识别所述多帧目标视频图像，得到在所述目标服药视频中所述患者服药时的多个服药阶段。
139.确定模块740，用于基于所述多帧目标视频图像在所述目标服药视频中的图像顺序，确定所述多个服药阶段的阶段顺序，以监督所述患者的服药过程。
140.在一实施例中，抽帧模块720还用于：
141.s1、针对所述多帧视频图像中任意相邻的两帧视频图像，获取当前帧视频图像中第一图像区域的第一像素信息，所述任意相邻的两帧视频图像包括当前帧视频图像以及与所述当前帧视频图像相邻的下一帧视频图像；
142.s2、根据所述光流估计算法和所述第一像素信息，从所述下一帧视频图像中确定与所述第一图像区域相似的第二图像区域；
143.s3、根据所述第二图像区域的第二像素信息和所述第一像素信息，计算所述第一图像区域与所述第二图像区域的光流值；
144.s4、若所述光流值小于第一预设值，则删除所述下一帧视频图像，并对剩余的多帧视频图像循环执行s1
‑
s4步骤，直到所述任意相邻的两帧视频图像中，所述当前帧视频图像中第一图像区域与所述下一帧视频图像中第二图像区域的光流值大于或等于所述第一预设值。
145.在一实施例中，所述第一图像区域包括多个第一像素点，所述第一像素信息分别包括所述多个第一像素点的第一像素值和第一位置信息；抽帧模块720还用于：
146.根据所述多个第一像素点的第一位置信息，分别确定所述多个第一像素点在进行多次预设位移后，在所述下一帧视频图像中对应的多个图像区域；针对所述下一帧视频图像的任一图像区域，分别根据所述多个第一像素点的第一位置信息，确定对所述多个第一像素点进行预设位移后，在当前图像区域中与所述多个第一像素点一一对应的图像像素点；分别计算所述多个第一像素点的第一像素值，与对应的所述图像像素点的图像像素值的像素点差异值；将多个像素点差异值之和作为所述第一图像区域与所述当前图像区域的图像差异值；从所述多个图像区域对应的图像差异值中，将最小图像差异值对应的图像区域确定为所述下一帧视频图像的第二图像区域。
147.在一实施例中，抽帧模块720还用于：
148.确定所述第二图像区域的第二像素信息；根据所述第二像素信息与所述第一像素信息，确定所述第一图像区域与所述第二图像区域的位移向量；根据所述位移向量计算所述光流值。
149.在一实施例中，所述服药阶段包括第一展示阶段、第二展示阶段、送药阶段以及吞咽阶段；识别模块730还用于：
150.针对任一目标视频图像，根据所述姿态估计模型识别当前目标视频图像，得到所述当前目标视频图像中所述患者的手部关键点位置，以及，根据所述人脸关键点检测模型识别所述当前目标视频图像，得到所述当前目标视频图像中所述患者的嘴部关键点位置；若所述手部关键点位置与所述嘴部关键点位置不重合，且根据所述嘴部关键点位置判定所述患者处于闭口状态时，则判定在所述当前目标视频图像中所述患者处于第一展示阶段；若所述手部关键点位置与所述嘴部关键点位置重合，则判定在所述当前目标视频图像中所述患者处于送药阶段；根据所述嘴部关键点位置计算嘴部关键点的横纵比，若所述横纵比
小于第二预设值，则判定在所述当前目标视频图像中所述患者处于第二展示阶段；
151.若根据所述嘴部关键点位置判定所述患者处于闭口状态，且未检测到所述手部关键点位置时，则判定在所述当前目标视频图像中所述患者处于吞咽阶段。
152.在一实施例中，所述嘴部关键点位置包括左嘴角关键点位置、右嘴角关键点位置、上嘴唇关键点位置和下嘴唇关键点位置；识别模块730还用于：
153.基于所述左嘴角关键点的位置和所述右嘴角关键点位置，计算所述患者左嘴角与右嘴角之间的横距离；以及，基于所述上嘴唇关键点位置和所述下嘴唇关键点位置，计算所述患者上嘴唇与下嘴唇之间的纵距离；计算所述横距离与所述纵距离之间的比值，将所述比值作为所述嘴部关键点的横纵比。
154.在一实施例中，服药过程的监督装置700还包括：
155.判定模块，用于若确定所述服药阶段的阶段顺序依次为第一展示阶段、送药阶段、第二展示阶段和吞咽阶段，则判定所述患者已按照规定进行服药；否则执行预设提醒操作以对所述患者进行提醒。
156.当理解的是，图7示出的服药过程的监督装置的结构框图中，各单元/模块用于执行图1至图6对应的实施例中的各步骤，而对于图1至图6对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述，此处不再赘述。
157.图8是本技术另一实施例提供的一种终端设备的结构框图。如图8所示，该实施例的终端设备800包括：处理器810、存储器820以及存储在存储器820中并可在处理器810运行的计算机程序830，例如服药过程的监督方法的程序。处理器810执行计算机程序830时实现上述各个服药过程的监督方法各实施例中的步骤，例如图1所示的s101至s104。或者，处理器810执行计算机程序830时实现上述图7对应的实施例中各模块的功能，例如，图7所示的模块710至740的功能，具体请参阅图7对应的实施例中的相关描述。
158.示例性的，计算机程序830可以被分割成一个或多个单元，一个或者多个单元被存储在存储器820中，并由处理器810执行，以完成本技术。一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序830在终端设备800中的执行过程。
159.终端设备800可包括，但不仅限于，处理器810、存储器820。本领域技术人员可以理解，图8仅仅是终端设备800的示例，并不构成对终端设备800的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
160.所称处理器810可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
161.存储器820可以是终端设备800的内部存储单元，例如终端设备800的硬盘或内存。存储器820也可以是终端设备800的外部存储设备，例如终端设备800上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器820还可以既包括终端设备800的内部存储单元也包括外部存储设备。
162.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
163.本技术实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
164.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
165.以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：面向配电房智能值守作业的机器人视觉系统和方法与流程
下一篇：一种联邦学习方法、装置、设备以及存储介质与流程

服药过程的监督方法、装置、终端设备及存储介质与流程

相关文献

最热文献