口呼指令的唇语识别方法、装置、终端设备及存储介质与流程

2022-07-13 14:15:02 来源：中国专利 TAG：

1.本技术属于唇语识别技术领域，尤其涉及一种口呼指令的唇语识别方法、装置、终端设备及存储介质。

背景技术：

2.轨道交通系统中，火车、地铁等列车驾驶员在驾驶列车经过各目标站点时，需要进行手指口呼，手指口呼是列车驾驶员作业标准化的一部分，即在执行目标指令时，列车驾驶员需要手指确认指令以及口呼确认指令，以确保每个目标指令的操作都能万无一失。手指指令通常通过采集列车驾驶员在目标站点的操作视频进行手势识别来确认，而口呼指令通常通过对列车驾驶员口呼的语音信号进行识别，来判断列车驾驶员是否正确口呼相应的指令，但由于列车驾驶舱内噪声较大、噪声来源复杂以及驾驶员口呼的语音信号信噪比较低等原因，导致语音信号识别的精度较低，往往存在误判的情况。

技术实现要素：

3.本技术实施例提供了一种口呼指令的唇语识别方法、装置、终端设备及存储介质，可以解决现有技术在判断驾驶员是否正确口呼相应的指令时，存在的语音信号识别精度较低而导致误判的问题。
4.本技术实施例的第一方面提供了一种口呼指令的唇语识别方法，所述唇语识别方法包括：
5.当检测到列车行驶至距离目标站点预设距离时，获取图像采集装置连续采集的n帧人脸图像，所述人脸图像是位于所述列车的目标车厢内的驾驶员的脸部图像，所述目标车厢是指所述列车的驾驶员所在的车厢，n为大于1的整数；
6.根据每帧所述人脸图像，获取对应的待识别图像，所述待识别图像为对应的所述人脸图像中嘴唇区域的图像；
7.每当获取到的所述待识别图像的图像数量达到m帧时，将m帧连续的所述待识别图像输入到唇语识别模型中，得到所述m帧连续的所述待识别图像对应于至少两个口呼指令的第一概率值，m为小于或等于n的整数；
8.基于至少两个所述口呼指令的第一概率值，确定与所述m帧连续的所述待识别图像匹配的口呼指令；
9.根据与每m帧连续的所述待识别图像匹配的口呼指令，确定与所述n帧人脸图像匹配的口呼指令。
10.可选地，根据每帧所述人脸图像，获取对应的待识别图像包括：
11.将n帧所述人脸图像按照采集时间的先后顺序输入至嘴唇检测模型中，得到每帧所述人脸图像对应的待识别图像。
12.可选地，将n帧所述人脸图像按照采集时间的先后顺序输入至嘴唇检测模型中，得到每帧所述人脸图像对应的待识别图像包括：
13.将n帧所述人脸图像按照采集时间的先后顺序输入至嘴唇检测模型中，得到每帧所述人脸图像中嘴唇存在的第二概率值以及所述嘴唇区域的位置坐标；
14.根据所述人脸图像中嘴唇存在的第二概率值以及所述嘴唇区域的位置坐标，确定所述人脸图像对应的待识别图像。
15.可选地，根据所述人脸图像中嘴唇存在的第二概率值以及所述嘴唇区域的位置坐标，确定所述人脸图像对应的待识别图像包括：
16.若所述第二概率值大于或等于概率阈值，则根据所述嘴唇区域的位置坐标，对所述人脸图像进行裁剪，得到所述人脸图像对应的待识别图像。
17.可选地，每当获取到的所述待识别图像的图像数量达到m帧时，将m帧连续的所述待识别图像输入到唇语识别模型中包括：
18.根据所述人脸图像采集时间的先后顺序，缓存获取到的所述人脸图像对应的待识别图像；
19.当缓存的所述待识别图像的图像数量达到m帧时，将m帧连续的所述待识别图像输入到所述唇语识别模型中。
20.可选地，基于至少两个所述口呼指令的第一概率值，确定与所述m帧连续的所述待识别图像匹配的口呼指令包括：
21.获取至少两个所述口呼指令的第一概率值中的最大值；
22.确定所述最大值对应的口呼指令为与所述m帧连续的所述待识别图像匹配的口呼指令。
23.可选地，在确定所述n帧人脸图像匹配的口呼指令之后，还包括：
24.获取目标口呼指令，所述目标口呼指令是指所述目标站点处要求的口呼指令；
25.若与所述n帧人脸图像匹配的口呼指令与所述目标口呼指令相同，则确定与所述n帧人脸图像匹配的口呼指令符合所述目标站点处的要求；
26.若与所述n帧人脸图像匹配的口呼指令与所述目标口呼指令不相同，则确定与所述n帧人脸图像匹配的口呼指令不符合所述目标站点处的要求。
27.本技术实施例的第二方面提供了一种口呼指令的唇语识别装置，所述唇语识别装置包括：
28.图像获取模块，用于当检测到列车行驶至距离目标站点预设距离时，获取图像采集装置连续采集的n帧人脸图像，所述人脸图像是位于所述列车的目标车厢内的驾驶员的脸部图像，所述目标车厢是指所述列车的驾驶员所在的车厢，n为大于1的整数；
29.嘴唇获取模块，用于根据每帧所述人脸图像，获取对应的待识别图像，所述待识别图像为对应的所述人脸图像中嘴唇区域的图像；
30.唇语识别模块，用于每当获取到的所述待识别图像的图像数量达到m帧时，将m帧连续的所述待识别图像输入到唇语识别模型中，得到所述m帧连续的所述待识别图像对应于至少两个口呼指令的第一概率值，m为小于或等于n的整数；
31.第一指令匹配模块，用于基于至少两个所述口呼指令的第一概率值，确定与所述m帧连续的所述待识别图像匹配的口呼指令；
32.第二指令匹配模块，用于根据与每m帧连续的所述待识别图像匹配的口呼指令，确定与所述n帧人脸图像匹配的口呼指令。
33.可选地，嘴唇获取模块具体可以包括如下子模块：
34.嘴唇检测子模块，用于将n帧所述人脸图像按照采集时间的先后顺序输入至嘴唇检测模型中，得到每帧所述人脸图像对应的待识别图像。
35.可选地，嘴唇检测子模块具体可以包括如下单元：
36.概率获取单元，用于将n帧所述人脸图像按照采集时间的先后顺序输入至嘴唇检测模型中，得到每帧所述人脸图像中嘴唇存在的第二概率值以及所述嘴唇区域的位置坐标；
37.嘴唇图像确定单元，用于根据所述人脸图像中嘴唇存在的第二概率值以及所述嘴唇区域的位置坐标，确定所述人脸图像对应的待识别图像。
38.可选地，嘴唇图像确定单元具体可以用于：
39.若所述第二概率值大于或等于概率阈值，则根据所述嘴唇区域的位置坐标，对所述人脸图像进行裁剪，得到所述人脸图像对应的待识别图像。
40.可选地，唇语识别模块具体可以包括如下子模块：
41.缓存子模块，用于根据所述人脸图像采集时间的先后顺序，缓存获取到的所述人脸图像对应的待识别图像；
42.图像数量确定子模块，用于当缓存的所述待识别图像的图像数量达到m帧时，将m帧连续的所述待识别图像输入到所述唇语识别模型中。
43.可选地，第一指令匹配模块具体可以包括如下子模块：
44.指令概率获取子模块，用于获取至少两个所述口呼指令的第一概率值中的最大值；
45.指令匹配子模块，用于确定所述最大值对应的口呼指令为与所述m帧连续的所述待识别图像匹配的口呼指令。
46.可选地，口呼指令的唇语识别装置具体还可以包括如下模块：
47.目标获取模块，用于获取目标口呼指令，所述目标口呼指令是指所述目标站点处要求的口呼指令；
48.判断模块，用于若与所述n帧人脸图像匹配的口呼指令与所述目标口呼指令不相同，则确定与所述n帧人脸图像匹配的口呼指令不符合所述目标站点处的要求，将违规信息上报至服务器，并进行语音播报，所述违规信息用于表征与n帧人脸图像匹配的口呼指令不符合目标站点处的口呼指令要求。
49.本技术实施例的第三方面提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的口呼指令的唇语识别方法。
50.本技术实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的口呼指令的唇语识别方法。
51.本技术实施例的第五方面提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述第一方面所述的口呼指令的唇语识别方法。
52.本技术实施例与现有技术相比存在的有益效果是：在本技术实施例中，可以在检
测到列车行驶至距离目标站点预设距离时，获取图像采集装置连续采集的n帧人脸图像，其中人脸图像是位于列车的目标车厢内的驾驶员的脸部图像，并根据每帧人脸图像，获取每帧人脸图像对应的待识别图像，每当获取到的待识别图像的图像数量达到m帧时，就将m帧连续的待识别图像输入到唇语识别模型中，得到m帧连续的待识别图像对应于至少两个口呼指令的第一概率值，其中待识别图像是指人脸图像中嘴唇区域的图像；然后基于第一概率值，确定m帧连续的待识别图像匹配的口呼指令，最后根据每m帧连续的待识别图像匹配的口呼指令，确定出n帧人脸图像匹配的口呼指令。上述方案基于唇语识别模型识别驾驶员的口呼指令，其驾驶舱内的噪声对人脸图像的获取无影响且基于唇语识别模型判断驾驶员是否正确口呼相应的指令，可以解决语音信号识别精度低而导致误判的问题。
附图说明
53.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
54.图1是本技术实施例一提供的一种口呼指令的唇语识别方法的流程示意图；
55.图2是获取待识别图像的流程示意图；
56.图3是口呼指令识别的整体流程图；
57.图4是本技术实施例二提供的一种口呼指令的唇语识别方法的流程示意图；
58.图5是本技术实施例三提供的一种口呼指令的唇语识别装置的结构示意图；
59.图6是本技术实施例四提供的一种终端设备的结构示意图。
具体实施方式
60.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
61.应当理解，当在本技术说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
62.还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
63.如在本技术说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0064]
另外，在本技术说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0065]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术
的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
[0066]
本技术实施例提供的口呼指令的唇语识别方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本、个人数字助理(personal digital assistant，pda)等终端设备上，本技术实施例对终端设备的具体类型不作任何限制。
[0067]
应理解，本实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
[0068]
根据对口呼指令的识别方法研究表明，在判断驾驶员是否按照规定进行口呼指令时，主要通过回看驾驶员在站点处的操作视频，由人工进行判断驾驶员是否按照规定进行口呼指令，但回看操作视频的判断方式不仅费时费力，而且大量的机械重复的工作会导致回看操作视频的工作人员精神疲劳，导致误判漏判的情况出现，而在现有技术中，为了解决人工判断容易产生的精神疲劳，出现了一种通过对列车驾驶员口呼的语音信号进行识别，来判断列车驾驶员是否正确口呼相应的指令的方法，但由于列车驾驶舱内噪声较大、噪声来源复杂以及驾驶员口呼的语音信号信噪比较低等原因，导致语音信号识别的精度较低，往往也存在误判的情况。
[0069]
基于此，本技术提出了一种口呼指令的唇语识别方法，在检测到列车行驶至距离目标站点预设距离时，可以通过获取图像采集装置采集的人脸图像，得到人脸图像对应的待识别图像，其中，待识别图像是指人脸图像中嘴唇区域的图像，而且每当得到的待识别图像的图像数量达到m帧时，将m帧连续的待识别图像输入到唇语识别模型中，得到m帧连续的待识别图像对应于至少两个口呼指令的第一概率值，基于第一概率值，确定m帧连续的待识别图像匹配的口呼指令，最后根据每m帧连续的待识别图像匹配的口呼指令，确定出在目标站点处获取的人脸图像匹配的口呼指令。上述方案基于唇语识别模型识别驾驶员的口呼指令，不仅驾驶舱内的噪声对人脸图像的获取无影响，而且唇语识别模型无需识别出驾驶员所说的每个字，只需判断对应的口呼指令出现的概率，降低了唇语识别方法的复杂度。
[0070]
为了说明本技术的技术方案，下面通过具体实施例来说明。
[0071]
参照图1，示出了本技术实施例一提供的一种口呼指令的唇语识别方法的流程示意图。如图1所示，该口呼指令的唇语识别方法可以包括如下步骤：
[0072]
步骤101，当检测到列车行驶至距离目标站点预设距离时，获取图像采集装置连续采集的n帧人脸图像。
[0073]
其中，预设距离大于或者等于0，图像采集装置位于列车的目标车厢内，用于连续采集人脸图像，且目标车厢是是指列车的驾驶员所在的车厢，人脸图像是指位于列车的目标车厢内的驾驶员的脸部图像，n为大于零的整数。
[0074]
在本技术实施例中，可以根据目标站点的位置、预设距离以及传感器的探测距离，确定出传感器的安装位置，例如当传感器的探测距离小于预设距离时，可以将传感器安装
在目标站点的位置与距离目标站点预设距离的位置之间，且传感器的安装位置与距离目标站点预设距离的位置之间的距离差值为该传感器的探测距离；当传感器的探测距离等于预设距离时，可以将传感器安装在目标站点处；当传感器的探测距离大于预设距离时，可以将传感器安装在距离目标站点处的目标距离处，此时传感器的安装位置不在目标站点的位置与距离目标站点预设距离的位置之间，且传感器的探测距离与预设距离的差值为目标距离。可以通过在传感器的安装位置处安装传感器以检测列车是否行驶至距离目标站点预设距离处，当传感器检测到列车在距离目标站点预设距离处出现时，终端设备可以控制图像采集装置连续采集n帧人脸图像，图像采集装置可以将连续采集的n帧人脸图像传输至终端设备中，以此终端设备可以获取图像采集装置连续采集的n帧人脸图像。其中，图像采集装置可以是指任一带有图像采集功能以及图像传输功能的装置，例如双目摄像头、单目摄像头等。
[0075]
在本技术实施例中，当检测到列车行驶至距离目标站点预设距离时，获取图像采集装置连续采集的n帧人脸图像，可以是指在列车行驶至距离目标站点处还有预设距离时，获取图像采集装置连续采集的n帧人脸图像，其中，可以设置预设距离大于零或者等于零，当预设距离大于零时，该预设距离可以保证终端设备能够获取到驾驶员在目标车厢内完整的口呼指令的唇部动作(即每一时刻的人脸图像)，并可以减少因获取的口呼指令的唇部动作不完整而导致的口呼指令的唇语识别方法精度降低；当预设距离等于零时，可以是指在列车行驶到目标站点处时，获取图像采集装置连续采集的n帧人脸图像，可以减少终端设备获取到驾驶员多余的无效唇部动作，以提高终端设备在进行口呼指令唇语识别时的运行速度。
[0076]
应理解，本技术实施例中，在距离目标站点预设距离处安装的传感器可以是任一能够感应列车且具有通讯功能的传感器，例如具有通讯功能的红外传感器，当红外传感器检测到列车在距离目标站点预设距离处出现时，可以通过红外传感器自身的通讯功能，将列车行驶至距离目标站点预设距离的信号传输至终端设备，使终端设备可以获取图像采集装置连续采集的n帧人脸图像。
[0077]
步骤102，根据每帧人脸图像，获取对应的待识别图像。
[0078]
其中，待识别图像是指对应的人脸图像中的嘴唇区域的图像。
[0079]
在本技术实施例中，由于在进行口呼指令的唇语识别时，需要根据人脸图像中的嘴唇区域进行唇语识别，因此，可以在获取到每帧人脸图像后，识别出每帧人脸图像中嘴唇区域，得到人脸图像中嘴唇区域的图像。
[0080]
在一种可能的实施方式中，根据每帧人脸图像，获取对应的待识别图像包括：
[0081]
将n帧人脸图像按照采集时间的先后顺序输入至嘴唇检测模型中，得到每帧人脸图像对应的待识别图像。
[0082]
在本技术实施例中，可以基于嘴唇检测模型识别出每帧人脸图像中的嘴唇区域，进而根据识别出每帧人脸图像中的嘴唇区域，获取每帧人脸图像对应的待识别图像。
[0083]
其中，由于将人脸图像输入至嘴唇检测模型时，是按照人脸图像的采集时间的先后顺序输入的，因此，得到的每帧人脸图像对应的待识别图像也是按照采集时间先后顺序得到的。
[0084]
在一种可能的实施方式中，将n帧人脸图像按照采集时间的先后顺序输入至嘴唇
检测模型中，得到每帧人脸图像对应的待识别图像包括：
[0085]
将n帧人脸图像按照采集时间的先后顺序输入至嘴唇检测模型中，得到每帧人脸图像中嘴唇存在的第二概率值以及嘴唇区域的位置坐标；
[0086]
根据人脸图像中嘴唇存在的第二概率值以及嘴唇区域的位置坐标，确定人脸图像对应的待识别图像。
[0087]
其中，嘴唇检测模型可以包括28个2d卷积层、1个第一全局池化层以及1个第一全连接层，且28个2d卷积层的卷积核尺寸可以为3
×
3，其中第6、12、18、24层的卷积核的跨步步长为2，嘴唇检测模型可以通过以下方式识别人脸图像中的嘴唇区域。
[0088]
按照人脸图像采集时间的先后顺序，依次将n帧人脸图像输入至嘴唇检测模型中，输入尺寸可以设置为3
×
224
×
224；利用28个2d卷积层对输入的人脸图像进行卷积，以对人脸图像进行特征提取，输出尺寸为128
×
14
×
14的特征图，该特征图用于表征人脸图像中的嘴唇特征，再通过第一全局池化层将上述嘴唇特征拼接为128维的特征向量；最后第一全连接层基于拼接后的128维的特征向量，获取一个1
×
5的向量，该1
×
5向量中的第一个数据用于表征人脸图像中嘴唇存在的第二概率值，第二个数据、第三个数据、第四个数据以及第五个数据分别表示嘴唇区域的四个位置坐标，上述四个位置坐标可以用于对人脸图像中的嘴唇区域进行识别，以识别出人脸图像中的嘴唇区域。
[0089]
在一种可能的实施方式中，根据人脸图像中嘴唇存在的第二概率值以及嘴唇区域的位置坐标，确定人脸图像对应的待识别图像包括：
[0090]
若第二概率值大于或等于概率阈值，则根据嘴唇区域的位置坐标，对人脸图像进行裁剪，得到人脸图像对应的待识别图像。
[0091]
在本技术实施例中，由于图像采集装置是对人脸图像进行连续采集，并不判定人脸图像中是否存在嘴唇，因此输入嘴唇检测模型的人脸图像因为采集角度等问题可能导致人脸图像中不存在嘴唇区域，所以需要根据嘴唇检测模型输出的嘴唇存在的第二概率值来判断人脸图像中是否存在嘴唇。
[0092]
示例性地，假设当嘴唇存在的第二概率值大于或等于80％(即概率阈值为90％)时，确认人脸图像中存在嘴唇区域，此时可以根据嘴唇区域的位置坐标，对嘴唇区域进行定位，如图2所示的获取待识别图像的流程示意图，在人脸图像中虚线内的区域为根据嘴唇区域的位置坐标定位出的嘴唇区域，根据定位出的嘴唇区域对人脸图像进行裁剪，得到如图2所示的人脸图像中嘴唇区域的图像(即待识别图像)；若嘴唇存在的第二概率值小于80％，可以认为人脸图像中不存在嘴唇区域，那么嘴唇检测模型输出的嘴唇区域的位置坐标为不准确的位置坐标，所以若嘴唇存在的第二概率值小于80％，则该第二概率值对应的人脸图像无法作为唇语识别的待识别图像，需要将该第二概率值对应的人脸图像删除。
[0093]
步骤103，每当获取到的待识别图像的图像数量达到m帧时，将m帧连续的待识别图像输入到唇语识别模型中，得到m帧连续的待识别图像对应于至少两个口呼指令的第一概率值。
[0094]
在本技术实施例中，根据嘴唇检测模型，得到待识别图像后，可以首先将待识别图像按照对应人脸图像的采集时间的先后顺序进行拼接，即按照待识别图像按照对应人脸图像的采集时间的先后顺序获取待识别图像，每当获取到的待识别图像的图像数量达到m帧时，就将该m帧待识别图像作为唇语识别模型的输入，由唇语识别模型识别该m帧待识别图
像对应的口呼指令。
[0095]
其中，唇语识别模型可以包括12个3d卷积层，1个第二全局池化层、4个隐藏层以及1个全连接层，且12个3d卷积层的卷积核尺寸可以为3
×3×
3，其中第4、8层的卷积核步长为2，用于把尺寸为128
×
64的待识别图像缩放到32
×
8，同时将m帧的待识别图像缩放至k帧(k为小于n的整数)，例如将100帧的待识别图像缩放至25帧，以提取具有高维语义信息的特征，唇语识别模型可以通过以下方式识别该m帧待识别图像对应于至少两个口呼指令的第一概率值。
[0096]
示例性地，如图3所示的口呼指令识别的整体流程图，假设m＝100，在通过检测模型得到待识别图像后，按照待识别图像对应人脸图像的采集时间的先后顺序对待识别图像进行拼接，即每获取到100帧待识别图像，将该100帧待识别图像拼接为一个整体(例如拼接为一个子视频)，然后将拼接后的100帧待识别图像作为一个整体输入到唇语识别模型中，每张待识别图像的输入尺寸可以设置为128
×
64；利用12个3d卷积层对输入的100帧待识别图像进行卷积，以对待识别图像进行特征提取，输出尺寸为32
×
8的100帧特征图，再通过第二全局池化层计算上述100帧特征图的平均值，得到一个25
×
128维的向量，将25
×
128维的向量输入到由4个隐藏层组成的长短期记忆网络(long short-term memory，lstm)，得到输出为25
×
256维的向量，将25
×
256维的向量输入到第二全连接层，可以得到1
×
(num_cls 1)的向量，其中num_cls为终端设备中存储的需要识别的口呼指令对应的第一概率值，例如图3中所示指令1、指令2、
···
、指令n，若该100帧待识别图像存在非口呼指令的唇语，则统一判定为无指令，输出无指令对应的第一概率值。以此得到100帧连续的待识别图像对应于至少两个口呼指令的第一概率值，即若100帧连续的待识别图像对应的口呼指令为指令1，则唇语识别模型输出的1
×
(num_cls 1)的向量可以表示为[20％，95％，30％，
···
，15％]。
[0097]
在一种可能的实施方式中，每当获取到的待识别图像的图像数量达到m帧时，将m帧连续的待识别图像输入到唇语识别模型中包括：
[0098]
根据人脸图像采集时间的先后顺序，缓存获取到的人脸图像对应的待识别图像；
[0099]
当缓存的待识别图像的图像数量达到m帧时，将m帧连续的待识别图像输入到唇语识别模型中。
[0100]
在本技术实施例中，在获取到待识别图像时，可以首先按照人脸图像采集的先后顺序对待识别图像进行缓存，当缓存的待识别图像的图像数量达到m帧时，将缓存的m帧连续的待识别图像输入到唇语识别模型中，继续对其他的待识别图像进行缓存，再次缓存到m帧时，将再次缓存的m帧待识别图像输入到唇语识别模型中，直到将所有待识别图像均输入到唇语识别模型中为止。
[0101]
步骤104，基于至少两个口呼指令的第一概率值，确定与m帧连续的待识别图像匹配的口呼指令。
[0102]
在本技术实施例中，可以根据唇语识别模型输出的至少两个口呼指令的第一概率值，确定每m帧连续的待识别图像匹配的口呼指令。
[0103]
在一种可能的实施方式中，基于至少两个口呼指令的第一概率值，确定与m帧连续的待识别图像匹配的口呼指令包括：
[0104]
获取至少两个口呼指令的第一概率值中的最大值；
[0105]
确定最大值对应的口呼指令为与m帧连续的待识别图像匹配的口呼指令。
[0106]
在本技术实施例中，至少两个第一概率值中的最大值对应的口呼指令可以确定为该m帧连续的待识别图像匹配的口呼指令。
[0107]
示例性地，假设第一个m帧连续的待识别图像构成的整体为子视频1，子视频1对应于三个口呼指令的第一概率值分别为指令1为20％、指令2为50％、指令3为90％。则可以确认与子视频1匹配的口呼指令为指令3；第二个m帧连续的待识别图像构成的整体为子视频2，子视频2对应于三个口呼指令的第一概率值分别为无指令为80％、指令2为50％、指令3为60％。则可以确认与子视频2匹配的口呼指令为无指令，以此可以确定与每m帧连续的待识别图像匹配的口呼指令。
[0108]
步骤105，根据与每m帧连续的待识别图像匹配的口呼指令，确定与n帧人脸图像匹配的口呼指令。
[0109]
在本技术实施例中，由于每m帧连续的待识别图像是由n帧人脸图像通过嘴唇检测模型得出的，因此可以与每m帧连续的待识别图像匹配的口呼指令，确定与n帧人脸图像匹配的口呼指令。
[0110]
示例性地，例如根据n帧人脸图像可以得到3个m帧连续的待识别图像，分别可以称为子视频3、子视频4、子视频5，若得出与子视频1匹配的口呼指令为指令1、与子视频4匹配的口呼指令为指令3、与子视频5匹配的口呼指令为指令6，则可以确定与n帧人脸图像匹配的口呼指令为指令1、指令3以及指令6。
[0111]
在本技术实施例中，可以在检测到列车行驶至距离目标站点预设距离时，获取图像采集装置连续采集的n帧人脸图像，其中人脸图像是位于列车的目标车厢内的驾驶员的脸部图像，并根据每帧人脸图像，获取每帧人脸图像对应的待识别图像，每当获取到的待识别图像的图像数量达到m帧时，就将m帧连续的待识别图像输入到唇语识别模型中，得到m帧连续的待识别图像对应于至少两个口呼指令的第一概率值，其中待识别图像是指人脸图像中嘴唇区域的图像；然后基于第一概率值，确定m帧连续的待识别图像匹配的口呼指令，最后根据每m帧连续的待识别图像匹配的口呼指令，确定出n帧人脸图像匹配的口呼指令。上述方案基于唇语识别模型识别驾驶员的口呼指令，其驾驶舱内的噪声对人脸图像的获取无影响且基于唇语识别模型判断驾驶员是否正确口呼相应的指令，可以解决语音信号识别精度低而导致误判的问题。
[0112]
参见图4，示出了本技术实施例二提供的一种口呼指令的唇语识别方法的流程示意图。如图4所示，该口呼指令的唇语方法可以包括如下步骤：
[0113]
步骤401，当检测到列车行驶至距离目标站点预设距离时，获取图像采集装置连续采集的n帧人脸图像。
[0114]
步骤402，根据每帧人脸图像，获取对应的待识别图像。
[0115]
步骤403，每当获取到的待识别图像的图像数量达到m帧时，将m帧连续的待识别图像输入到唇语识别模型中，得到m帧连续的待识别图像对应于至少两个口呼指令的第一概率值。
[0116]
步骤404，基于至少两个口呼指令的第一概率值，确定与m帧连续的待识别图像匹配的口呼指令。
[0117]
步骤405，根据与每m帧连续的待识别图像匹配的口呼指令，确定与n帧人脸图像匹
配的口呼指令。
[0118]
本实施例步骤401-405与前述实施例步骤101-105相同，可以相互参阅，本实施例在此不再赘述。
[0119]
步骤406，获取目标口呼指令。
[0120]
其中，目标口呼指令是指目标站点处要求的口呼指令，
[0121]
在本技术实施例中，目标口呼指令可以存储在目标站点处的通信设备中，当检测到列车行驶至距离目标站点预设距离时，目标站点处的通信设备接收到终端设备获取目标口呼指令的信号后，向终端设备发送目标口呼指令，而终端设备接收目标站点处的通信设备发送的目标口呼指令，可以避免终端设备自身的存储器存储信息过多而影响运行速度。
[0122]
在本技术实施例中，目标口呼指令还可以直接存储在自身的存储器中，当检测到列车行驶至距离目标站点预设距离时，直接从终端设备自身的存储器中调用与目标站点相对应的目标口呼指令，可以在目标站点处的通信设备处于离线状态时，仍保证系统的运行。
[0123]
步骤407，若与n帧人脸图像匹配的口呼指令与目标口呼指令不相同，则确定与n帧人脸图像匹配的口呼指令不符合目标站点处的要求，将违规信息上报至服务器，并进行语音播报。在本技术实施例中，与n帧人脸图像匹配的口呼指令与目标口呼指令不相同可以是指与n帧人脸图像匹配的口呼指令与目标口呼指令不完全相同，例如，与n帧人脸图像匹配的口呼指令包括指令1、指令2和指令3，而获取得到的目标站点处的目标口呼指令包括指令1、指令2、指令3和指令5，此时，与n帧人脸图像匹配的口呼指令与目标口呼指令不完全相同，可以认为列车驾驶员省略了指令5的口呼指令，即不符合目标站点处的口呼指令要求。
[0124]
其中，违规信息用于表征与n帧人脸图像匹配的口呼指令不符合目标站点处的口呼指令要求，即列车驾驶员的口呼指令不符合目标站点处的口呼指令要求。
[0125]
在一种可能的实施方式中，口呼指令的唇语识别方法还包括：
[0126]
若与n帧人脸图像匹配的口呼指令与目标口呼指令相同，则确定与n帧人脸图像匹配的口呼指令符合目标站点处的要求。
[0127]
在本技术实施例中，每个目标站点处的目标口呼指令可以包含有i个，i为大于零的整数，将与n帧人脸图像匹配的口呼指令与i个目标口呼指令进行依次对比，若与n帧人脸图像匹配的口呼指令与i个目标口呼指令的数量以及口呼指令的内容均相同，则确定与n帧人脸图像匹配的口呼指令符合目标站点处的要求。
[0128]
在一种可能的实施方式中，确定与n帧人脸图像匹配的口呼指令符合目标站点处的要求后还包括：
[0129]
将获取的n帧人脸图像与识别结果上报服务器，其中识别结果是指与n帧人脸图像匹配的口呼指令符合目标站点处的目标口呼指令要求。
[0130]
在本技术实施例中，将唇语识别的识别结果与目标口呼指令上传至服务器，便于工作人员对识别结果进行复查或抽查。
[0131]
相较于实施例一，本技术实施例利用实施例一得到的与n帧人脸图像匹配的口呼指令，对列车员是否正确口呼了相应的指令进行了判断，在列车驾驶员没有按照要求口呼指令时，通过语音播报的方式提醒驾驶员，可以帮助驾驶员集中精力。
[0132]
参见图5，示出了本技术实施例三提供的一种口呼指令的唇语识别装置的结构示意图，为了便于说明，仅示出了与本技术实施例相关的部分。
[0133]
口呼指令的唇语识别装置具体可以包括如下模块：
[0134]
图像获取模块501，用于当检测到列车行驶至距离目标站点预设距离时，获取图像采集装置连续采集的n帧人脸图像，人脸图像是位于列车的目标车厢内的驾驶员的脸部图像，目标车厢是指列车的驾驶员所在的车厢，n为大于1的整数；
[0135]
嘴唇获取模块502，用于根据每帧人脸图像，获取对应的待识别图像，待识别图像为对应的人脸图像中嘴唇区域的图像；
[0136]
唇语识别模块503，用于每当获取到的待识别图像的图像数量达到m帧时，将m帧连续的待识别图像输入到唇语识别模型中，得到m帧连续的待识别图像对应于至少两个口呼指令的第一概率值，m为小于或等于n的整数；
[0137]
第一指令匹配模块504，用于基于至少两个口呼指令的第一概率值，确定与m帧连续的待识别图像匹配的口呼指令；
[0138]
第二指令匹配模块505，用于根据与每m帧连续的待识别图像匹配的口呼指令，确定与n帧人脸图像匹配的口呼指令。
[0139]
在本技术实施例中，嘴唇获取模块502具体可以包括如下子模块：
[0140]
嘴唇检测子模块，用于将n帧人脸图像按照采集时间的先后顺序输入至嘴唇检测模型中，得到每帧人脸图像对应的待识别图像。
[0141]
在本技术实施例中，嘴唇检测子模块具体可以包括如下单元：
[0142]
概率获取单元，用于将n帧人脸图像按照采集时间的先后顺序输入至嘴唇检测模型中，得到每帧人脸图像中嘴唇存在的第二概率值以及嘴唇区域的位置坐标；
[0143]
嘴唇图像确定单元，用于根据人脸图像中嘴唇存在的第二概率值以及嘴唇区域的位置坐标，确定人脸图像对应的待识别图像。
[0144]
在本技术实施例中，嘴唇图像确定单元具体可以用于：
[0145]
若第二概率值大于或等于概率阈值，则根据嘴唇区域的位置坐标，对人脸图像进行裁剪，得到人脸图像对应的待识别图像。
[0146]
在本技术实施例中，唇语识别模块503具体可以包括如下子模块：
[0147]
缓存子模块，用于根据人脸图像采集时间的先后顺序，缓存获取到的人脸图像对应的待识别图像；
[0148]
图像数量确定子模块，用于当缓存的待识别图像的图像数量达到m帧时，将m帧连续的待识别图像输入到唇语识别模型中。
[0149]
在本技术实施例中，第一指令匹配模块具体可以包括如下子模块：
[0150]
指令概率获取子模块，用于获取至少两个口呼指令的第一概率值中的最大值；
[0151]
指令匹配子模块，用于确定最大值对应的口呼指令为与m帧连续的待识别图像匹配的口呼指令。
[0152]
在本技术实施例中，口呼指令的唇语识别装置具体还可以包括如下模块：
[0153]
目标获取模块，用于获取目标口呼指令，目标口呼指令是指目标站点处要求的口呼指令；
[0154]
判断模块，用于若与所述n帧人脸图像匹配的口呼指令与所述目标口呼指令不相同，则确定与所述n帧人脸图像匹配的口呼指令不符合所述目标站点处的要求，将违规信息上报至服务器，并进行语音播报，所述违规信息用于表征与n帧人脸图像匹配的口呼指令不
符合目标站点处的口呼指令要求。
[0155]
本技术实施例提供的口呼指令的唇语识别装置可以应用在前述方法实施例中，详情参见上述方法实施例的描述，在此不再赘述。
[0156]
图6是本技术实施例四提供的终端设备的结构示意图。如图6所示，该实施例的终端设备600包括：至少一个处理器610(图6中仅示出一个)处理器、存储器620以及存储在所述存储器620中并可在所述至少一个处理器610上运行的计算机程序621，所述处理器610执行所述计算机程序621时实现上述口呼指令的唇语识别方法实施例中的步骤。
[0157]
所述终端设备600可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器610、存储器620。本领域技术人员可以理解，图6仅仅是终端设备600的举例，并不构成对终端设备600的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。
[0158]
所称处理器610可以是中央处理单元(central processing unit，cpu)，该处理器610还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0159]
所述存储器620在一些实施例中可以是所述终端设备600的内部存储单元，例如终端设备600的硬盘或内存。所述存储器620在另一些实施例中也可以是所述终端设备600的外部存储设备，例如所述终端设备600上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。进一步地，所述存储器620还可以既包括所述终端设备600的内部存储单元也包括外部存储设备。所述存储器620用于存储操作系统、应用程序、引导装载程序(boot loader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器620还可以用于暂时地存储已经输出或者将要输出的数据。
[0160]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0161]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0162]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员
可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0163]
在本技术所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0164]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0165]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0166]
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0167]
本技术实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行时可实现上述各个方法实施例中的步骤。
[0168]
以上所述实施例仅用以说明本技术的技术方案，而非对其限制。尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种推理系统业务性能评估的方法与流程

口呼指令的唇语识别方法、装置、终端设备及存储介质与流程

相关文献

最热文献