一种基于语音识别的直播间违规操作检测方法及系统与流程

2022-09-07 23:33:52 来源：中国专利 TAG：

1.本发明属于直播技术领域，具体涉及一种基于语音识别的直播间违规操作检测方法及系统。

背景技术：

2.随着计算机应用技术的不断发展，使网络直播更多地走进了人们的日常生活当中，人们能够通过观看网络直播来进行购物，和娱乐等，然而，网络直播在方便了人们生活的同时，还存在着一些问题，举例如网络直播间可能会进行包括发表不文明和不合规定的敏感言论在内的违规操作，为了避免网络直播间的这类违规操作造成不好的影响，应该在直播的过程中及时检测这类违规操作，并且采取一定的应对措施，但是，现有技术中通过网络直播间的语音数据来检测违规操作的方法，通常会具有检测时间长，检测结果准确度低的问题，因此研究一种能够解决该问题的基于语音识别的直播间违规操作检测方法及系统是十分重要的。

技术实现要素：

3.针对上述提出的技术问题，本发明提供一种基于语音识别的直播间违规操作检测方法，依靠一种基于语音识别的直播间违规操作检测系统来实现，通过实时收集直播间产生的语音数据，同时对语音数据的内容进行识别，并且判断语音数据的内容中是否包含有敏感词，来检测直播间的违规操作，旨在提高语音检测结果的准确性。
4.为了达到上述的发明目的，给出如下所述的一种基于语音识别的直播间违规操作检测方法，具体包括以下的步骤：s1、实时收集直播间产生的语音数据；s2、针对所述语音数据的内容进行识别，并且得到对于语音数据的内容的识别结果；s3、判断当所述识别结果中包含有敏感词时，则认定直播间存在进行违规操作的问题；其中，所述s2具体包括如下的方法一：s211、通过语音识别终端模块的输入单元输入直播间产生的语音数据；s212、语音识别终端模块的第一识别单元将所述语音数据与语音识别终端模块的第一词典单元中存储的语音特征数据进行匹配度的计算；s213、当匹配度结果大于等于预设的匹配度阈值时，则得到关于所述语音数据的内容的识别结果，当匹配度结果小于预设的匹配度阈值时，则向语音识别服务器模块发送识别请求和语音数据；s214、语音识别服务器模块的第二识别单元通过使用语音识别服务器模块的第二词典单元中存储的语音特征数据来对所述语音数据的内容进行识别；s215、所述第二识别单元将关于语音数据的识别结果，以及在识别语音数据的过
程中使用到的语音特征数据通过通信模块发送给语音识别终端模块；s216、语音识别终端模块接收对语音数据的识别结果，并且将所述第二识别单元进行语音识别时使用的语音特征数据存储到所述第一词典单元中。
5.作为本发明的一种优选技术方案，所述s2具体还包括如下的方法二：s221、通过语音识别终端模块的输入单元输入直播间产生的语音数据；s222、语音识别终端模块的第一识别单元将所述语音数据与语音识别终端模块的第一词典单元中存储的语音特征数据进行匹配度的计算；s223、当匹配度结果大于等于预设的第一匹配度阈值时，则继续下个步骤，当匹配度结果小于预设的第一匹配度阈值时，则向语音识别服务器模块发送识别请求和语音数据；s224、判断所述语音数据中是否包含有固定词，当语音数据不包含固定词时，则直接使用所述第一词典单元对语音数据的内容进行识别，反之，则继续下个步骤；s225、继续判断所述匹配度结果是否大于等于预设的第二匹配度阈值，当前者大于等于后者时，则直接使用所述第一词典单元对语音数据的内容进行识别，反之，则向语音识别服务器模块发送识别请求和语音数据；s226、语音识别服务器模块的第二识别单元通过使用语音识别服务器模块的第二词典单元中存储的语音特征数据来对所述语音数据的内容进行识别，并且将使用到的第二词典单元中的语音特征数据发送给语音识别终端模块；s227、语音识别服务器模块的分析单元对语音数据进行分析，同时提取语音数据中的固定词，还将对语音数据的识别结果和所述固定词发送给语音识别终端模块；s228、语音识别终端模块接收对语音数据的识别结果，并且将所述第二识别单元进行语音识别时使用的语音特征数据，以及所述固定词存储到所述第一词典单元中。
6.与现有技术相比，本发明的有益效果至少如下所述：1、本发明公开一种基于语音识别的直播间违规操作检测方法，包括：首先实时收集直播间产生的语音数据，其次针对所述语音数据的内容进行识别，并且得到对于语音数据的内容的识别结果，最后判断当所述识别结果中包含有敏感词时，则认定直播间存在进行违规操作的问题，还能够在检测出直播间的违规操作时采取处理措施；2、本发明解决了现有技术中通过直播间的语音数据来检测违规操作的方法，通常具有的检测时间长，检测结果准确度低的问题，本发明在语音识别终端模块无法识别直播间的语音数据时，依靠语音识别服务器模块对语音数据进行识别，并且语音识别终端模块存储语音识别服务器模块使用的语音特征数据，减少对语音识别服务器模块的访问，提高语音识别的速度，本发明还能够在输入语音识别终端模块的语音数据为句子时，避免对语音数据进行错误的识别，从而提高语音识别的准确度。
附图说明
7.图1为本发明的一种基于语音识别的直播间违规操作检测方法的步骤流程图；图2为本发明的s2具体执行的方法一；图3为本发明的s2具体执行的方法二；图4为本发明的一种基于语音识别的直播间违规操作检测系统的组成结构图；
图5为本发明的语音识别终端模块的组成结构图；图6为本发明的语音识别服务器模块的组成结构图。
具体实施方式
8.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
9.可以理解，本技术所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本技术的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。
10.参考如图1所示，本发明提供一种基于语音识别的直播间违规操作检测方法，主要通过执行如下的步骤过程来实现：s1、实时收集直播间产生的语音数据；s2、针对上述的语音数据的内容进行识别，并且得到对于语音数据的内容的识别结果；s3、判断当上述的识别结果中包含有敏感词时，则认定直播间存在进行违规操作的问题。
11.其中，参考如图2所示，上述的步骤s2具体可以执行如下的方法一：s211、通过语音识别终端模块的输入单元输入直播间产生的语音数据；s212、语音识别终端模块的第一识别单元将上述的语音数据与语音识别终端模块的第一词典单元中存储的语音特征数据进行匹配度的计算；s213、当匹配度结果大于等于预设的匹配度阈值时，则得到关于上述的语音数据的内容的识别结果，当匹配度结果小于预设的匹配度阈值时，则向语音识别服务器模块发送识别请求和语音数据；s214、语音识别服务器模块的第二识别单元通过使用语音识别服务器模块的第二词典单元中存储的语音特征数据来对上述的语音数据的内容进行识别；s215、上述的第二识别单元将关于语音数据的识别结果，以及在识别语音数据的过程中使用到的语音特征数据通过通信模块发送给语音识别终端模块；s216、语音识别终端模块接收对语音数据的识别结果，并且将上述的第二识别单元进行语音识别时使用的语音特征数据存储到上述的第一词典单元中；具体的，在上述的方法一中，语音识别终端模块可以是手机，平板电脑等设备，而语音识别服务器模块可以是服务器设备，方法一使用第一识别单元将直播间的语音数据与第一词典单元中存储的语音特征数据进行匹配度的计算，因为语音识别终端模块的存储空间和计算能力有限，所以第一词典单元中存储的语音特征数据的数量有限，在无法使用第一词典单元来识别直播间的语音数据时，需要向语音识别服务器模块发送语音识别请求，同时将直播间的语音数据也发送给语音识别服务器模块，由于语音识别服务器模块与语音识别终端模块相比，具有更大的存储空间，和更强的计算能力，第二词典单元中存储的语音特征数据的数量也更多，内容也更全面，从而第二识别单元能够使用第二词典单元更快的
完成对直播间的语音数据的内容的识别，又因为语音识别终端模块存储了第二识别单元进行语音识别时使用的语音特征数据，使第一词典单元具有了学习能力，在语音识别终端模块下次对相同的语音数据进行识别时，不需要再借助于语音识别服务器模块，就能够快速且准确的得出对于语音数据的内容的识别结果。
12.进一步的，参考如图3所示，上述的步骤s2具体可以执行如下的方法二：s221、通过语音识别终端模块的输入单元输入直播间产生的语音数据；s222、语音识别终端模块的第一识别单元将上述的语音数据与语音识别终端模块的第一词典单元中存储的语音特征数据进行匹配度的计算；s223、当匹配度结果大于等于预设的第一匹配度阈值时，则继续下个步骤，当匹配度结果小于预设的第一匹配度阈值时，则向语音识别服务器模块发送识别请求和语音数据；s224、判断上述的语音数据中是否包含有固定词，当语音数据不包含固定词时，则直接使用上述的第一词典单元对语音数据的内容进行识别，反之，则继续下个步骤；s225、继续判断上述的匹配度结果是否大于等于预设的第二匹配度阈值，当前者大于等于后者时，则直接使用上述的第一词典单元对语音数据的内容进行识别，反之，则向语音识别服务器模块发送识别请求和语音数据；s226、语音识别服务器模块的第二识别单元通过使用语音识别服务器模块的第二词典单元中存储的语音特征数据来对上述的语音数据的内容进行识别，并且将使用到的第二词典单元中的语音特征数据发送给语音识别终端模块；s227、语音识别服务器模块的分析单元对语音数据进行分析，同时提取语音数据中的固定词，还将对语音数据的识别结果和上述的固定词发送给语音识别终端模块；s228、语音识别终端模块接收对语音数据的识别结果，并且将上述的第二识别单元进行语音识别时使用的语音特征数据，以及上述的固定词存储到上述的第一词典单元中；进一步的，上述的方法一和上述的方法二中的第一识别单元将语音数据与上述的第一词典单元中存储的语音特征数据进行匹配度计算的过程包括，在上述的语音数据为词，词组的情况下，针对语音数据和语音特征数据进行完全匹配，仅当二者完全相同时，则匹配度结果为1，反之，则匹配度结果为0；进一步的，上述的方法一和上述的方法二中的第一识别单元将语音数据与上述的第一词典单元中存储的语音特征数据进行匹配度计算的过程包括，在上述的语音数据为句子的情况下，针对语音数据和语音特征数据进行部分匹配，匹配度结果为语音数据与语音特征数据相同的词和词组的个数占语音数据的词和词组的总个数的比例值；进一步的，上述的方法二中的第二匹配度阈值大于第一匹配度阈值；具体的，在上述的方法一的基础之上，发明人又发现，在方法一中语音识别终端模块存储了语音识别服务器模块进行语音识别时使用的语音特征数据，其中，当语音识别终端模块存储的语音特征数据是词，词组时，语音识别终端模块在下次对相同的语音数据进行识别时，能够以百分之百的准确率来识别语音数据，然而，当语音识别终端模块存储的语音特征数据是句子时，因为针对句子采用的是部分匹配的方式，当匹配度结果大于匹配度阈值时即认为语音数据是可被识别的，所以当句子中存在固定词的情况下，有很大的可能
性会对语音数据进行错误的识别，举例如语音识别终端模块存储的语音特征数据是“这件商品的产地是北京”，而直播间的语音数据是“这件商品的产地是河南”，因为计算得到的匹配度结果是0.8，且已经超过了匹配度阈值0.7，导致了直播间的语音数据被错误的识别，由此，针对该技术问题，发明人又提出了对语音数据进行识别的方法二；在上述的方法二中，首先，输入直播间的语音数据，并且将语音数据与语音特征数据进行匹配度的计算，当匹配度结果小于第一匹配度阈值时，说明语音识别终端模块无法识别语音数据，需要依靠语音识别服务器模块来对语音数据进行识别，而当匹配度结果大于等于第一匹配度阈值时，可以继续下个步骤，接着，判断语音数据中是否包含有固定词，当语音数据不包含固定词时，语音识别终端模块直接对语音数据的内容进行识别，而当语音数据包含固定词时，则继续下个步骤，其次，因为当语音数据包含固定词时，对语音数据进行错误识别的可能性比较高，所以在该步骤中继续判断上述的匹配度结果是否大于等于第二匹配度阈值，尤其的，设置第二匹配度阈值大于第一匹配度阈值，在匹配度结果大于等于第二匹配度阈值的情况下，语音识别终端模块直接对语音数据的内容进行识别，否则就依靠语音识别服务器模块来对语音数据进行识别，这样做能够避免将直播间的语音数据识别成错误的结果，举例如语音特征数据是“这件商品的产地是北京”，直播间的语音数据是“这件商品的产地是河南”，虽然匹配度结果为0.8，但是因为其小于第二匹配度阈值1，依然需要依靠语音识别服务器模块来对语音数据进行识别，就保证了对语音数据的识别准确度，再次，语音识别服务器模块将语音数据的识别结果，使用到的语音特征数据，以及语音数据中的固定词都发送给语音识别终端模块，最后，语音识别终端模块对语音识别服务器模块发来的数据进行存储。上述的方法二在输入的语音数据为句子时，避免对语音数据进行错误的识别，同时提高对直播间语音数据的识别准确度。
13.除了以上内容所描述的一种基于语音识别的直播间违规操作检测方法之外，当检测到直播间存在违规操作时，语音识别终端模块的处理单元能够及时采取一定的应对措施，应对措施包括对直播间进行封号处理，强制结束直播等。
14.参考如图4所示，本发明还提供一种基于语音识别的直播间违规操作检测系统，用来实现如以上内容所描述的一种基于语音识别的直播间违规操作检测方法，具体包括如下的模块：语音识别终端模块，用于收集直播间的语音数据，并且对上述的语音数据的内容进行识别与处理；通信模块，用于在语音识别终端模块和语音识别服务器模块之间进行数据的传递；语音识别服务器模块，用于在上述的语音识别终端模块无法识别直播间产生的语音数据的内容时，对直播间产生的语音数据的内容进行识别与分析。
15.参考如图5所示，语音识别终端模块又包括输入单元，第一词典单元，第一识别单元，以及处理单元：上述的输入单元用于输入直播间产生的语音数据；上述的第一词典单元用于存储用来识别上述的语音数据的内容的语音特征数据，上述的语音特征数据包括词，词组，以及句子；上述的第一识别单元用于通过上述的第一词典单元存储的语音特征数据来识别
直播间产生的上述的语音数据的内容；上述的处理单元用于根据对直播间产生的语音数据的内容的识别结果执行相应的处理。
16.参考如图6所示，语音识别服务器模块又包括第二词典单元，第二识别单元，以及分析单元：上述的第二词典单元用于存储用来识别直播间产生的语音数据的内容的语音特征数据，上述的语音特征数据包括词，词组，以及句子；上述的第二识别单元用于通过上述的第二词典单元存储的语音特征数据来识别直播间产生的上述的语音数据的内容；上述的分析单元用于对直播间产生的上述的语音数据进行分析，并且提取上述的语音数据中包含的固定词。
17.应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
18.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一个非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（rom）、可编程rom（prom）、电可编程rom（eprom）、电可擦除可编程rom（eeprom）或闪存。易失性存储器可包括随机存取存储器（ram）或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram（sram）、动态ram（dram）、同步dram（sdram）、双数据率sdram（ddrsdram）、增强型sdram（esdram）、同步链路（synchlink）dram（sldram）、存储器总线（rambus）直接ram（rdram）、直接存储器总线动态ram（drdram）、以及存储器总线动态ram（rdram）等。
19.以上上述的实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
20.以上上述的实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
21.以上上述的仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：车内语音清晰度评价方法、装置、设备及可读存储介质与流程

一种基于语音识别的直播间违规操作检测方法及系统与流程

相关文献

最热文献