一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法、装置及设备与流程

2022-04-30 15:55:39 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种数据处理方法、装置及设备。


背景技术:

2.随着互联网技术的快速发展,互联网上的信息内容急剧增多,然而,在这些信息中可能携带着一些违法违规的不良信息,包括极端言论、赌博、欺诈等内容,这些内容严重影响到互联网的信息安全。
3.目前,针对文本类的不良信息,现有的识别方法通常为通过预先设置好的敏感词,对获取到的文本信息进行匹配识别,并将匹配到的词语作为该文本信息的敏感词。然而,上述设置的敏感词中的很多敏感词在某些语境下可能并不能做为敏感词,例如,针对敏感词“黄色”来说,它在特殊的语境中所表达的语义会被作为敏感内容,而它在如“一朵黄色的小花”等语境中所表达的语义则应为非敏感内容,而不应作为敏感词输出。因此,通过上述方式对敏感词进行检测可能存在识别准确率低、误报率高等问题。


技术实现要素:

4.本说明书实施例的目的是提供一种能够有效提高敏感词识别准确率的技术问题。
5.为了解决上述技术问题,本发明实施例是这样实现的:
6.第一方面,本说明书实施例提供了一种数据处理方法,包括:
7.获取待识别的目标文本;
8.基于第一敏感词集合对所述目标文本进行敏感词筛选,得到所述目标文本中包含的第一敏感词,所述第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值;
9.若所述第一敏感词在预设语境下的语义唯一,则确定所述第一敏感词为所述目标文本中的目标敏感词;
10.若所述第一敏感词在预设语境下的语义不唯一,则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
11.第二方面,本说明书实施例提供了一种数据处理装置,包括:
12.文本获取模块,被配置为获取待识别的目标文本;
13.敏感词筛选模块,被配置为基于第一敏感词集合对所述目标文本进行敏感词筛选,得到所述目标文本中包含的第一敏感词,所述第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值;
14.第一敏感词确定模块,被配置为若所述第一敏感词在预设语境下的语义唯一,则确定所述第一敏感词为所述目标文本中的目标敏感词;
15.第二敏感词确定模块,被配置为若所述第一敏感词在预设语境下的语义不唯一,则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
16.第三方面,本说明书实施例提供的一种数据处理设备,所述数据处理设备包括:
17.处理器;以及
18.被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如第一方面中所述的数据处理方法中的步骤。
19.第四方面,本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如第一方面中所述的数据处理方法中的步骤。
20.可以看出,本说明书实施例中,通过预先将敏感程度较低的敏感词存储到第一敏感词集合中,在对目标文本进行敏感词筛选的过程中,即可通过该第一敏感词集合将目标文本中所包含的敏感程度较低且不容易识别出来的敏感词识别出来,然后,基于筛选出来的敏感词在预设语境下的语义来对上述敏感词做进一步的检测,从而实现了对在预设语境下可能存在不同解释的敏感词是否属于目标敏感词做进一步的辨别,进而有效提高了对敏感词识别的准确率。进一步的,针对预先确定出的第一敏感词集合中所包含的在预设语境下语义唯一的敏感词,在识别到目标文本中包含该预设语境下的敏感词时,即可将该敏感词确定为目标敏感词的处理,可以进一步提高对敏感词识别的识别效率。
附图说明
21.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
22.图1为本说明书一种数据处理方法实施例;
23.图2为本说明书一种数据处理系统架构示意图;
24.图3为本说明书一种数据处理方法实施例;
25.图4为本说明书又一种数据处理方法实施例;
26.图5为本说明书又一种数据处理方法实施例;
27.图6为本说明书又一种数据处理方法实施例;
28.图7a为本说明书又一种数据处理方法实施例;
29.图7b为本说明书又一种数据处理方法实施例;
30.图8为本说明书一种数据处理装置实施例;
31.图9为本说明书一种数据处理设备实施例。
具体实施方式
32.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
33.本技术的发明构思如下:
34.随着互联网技术的快速发展,互联网上的信息内容急剧增多,然而,在这些信息中可能携带着一些违法违规的不良信息,包括极端言论、赌博、欺诈等内容,这些内容严重影响到互联网的信息安全。目前,针对文本类的不良信息,现有的识别方法通常为通过预先设置好的敏感词,对获取到的文本信息进行匹配识别,并将匹配到的词语作为该文本信息的敏感词。然而,上述设置的敏感词中的很多敏感词在某些语境下可能并不能做为敏感词,例如,针对敏感词“黄色”来说,它在特殊的语境中所表达的语义会被作为敏感内容,而它在如“一朵黄色的小花”等语境中所表达的语义则应为非敏感内容,而不应作为敏感词输出。因此,通过上述方式对敏感词进行检测可能存在识别准确率低、误报率高等问题。基于上述问题,本技术方案通过预先将敏感程度较低的敏感词存储到第一敏感词集合中,在对目标文本进行敏感词筛选的过程中,即可通过该第一敏感词集合将目标文本中所包含的敏感程度较低且不容易识别出来的敏感词识别出来,然后,基于筛选出来的敏感词在预设语境下的语义来对上述敏感词做进一步的检测,从而实现了对在预设语境下可能存在不同解释的敏感词是否属于目标敏感词做进一步的辨别,进而有效提高了对敏感词识别的准确率。进一步的,针对预先确定出的第一敏感词集合中所包含的在预设语境下语义唯一的敏感词,在识别到目标文本中包含该预设语境下的敏感词时,即可将该敏感词确定为目标敏感词的处理可以进一步提高对敏感词识别的识别效率。
35.如图1所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的一个服务器,也可以是由多个不同的服务器构成的服务器集群,该服务器可以是某网站的后台服务器,也可以是提供业务服务的服务器等,具体可以根据实际情况设定。该方法可以应用于对某业务的处理等。
36.如图2所示,本说明书实施例中的数据处理方法对应的系统架构中可以包括服务器201和一个或多个终端设备202,服务器201与每个终端设备202之间通信连接,终端设备202可以包括多种,例如,手机、平板电脑等移动终端设备,还可以如笔记本电脑等终端设备,还可以如智能手表、手环等可穿戴设备等。用户终端设备202可以向服务器201发送待识别的目标文本,服务器201可以基于预先设置的第一敏感词集合对上述待识别的目标文本进行敏感词筛选得到第一敏感词,然后,基于上述第一敏感词的语义在上述预设语境下的语义是否唯一的方式,采用相应的识别方法来对敏感词进行检测,具体的,在服务器202检测到上述第一敏感词在预设语境下的语义唯一的情况下,则确定第一敏感词为目标文本中的目标敏感词。在服务器202检测到上述第一敏感词在预设语境下的语义不唯一的情况下,则基于目标文本、第一敏感词对应的第一语义特征和第一敏感词对应的第二语义特征,确定第一敏感词是否为目标文本中的目标敏感词。
37.该方法具体可以包括以下步骤:
38.在步骤s102中,获取待识别的目标文本。
39.其中,上述目标文本可以是来源于某网页的文本(如某论坛中用户发表或分享的信息的文本),或者,也可以是来源于某客服平台用于对客服服务情况进行质检的文本(如客服与用户之间进行语音对话的文本等)等,本说明书实施例对上述目标文本的来源不作具体限定。另外,上述目标文本可以是未经过分词处理的文本,或者,也可以是经过分词处理后的文本,本说明书实施例对上述目标文本的具体形式不作具体限定。
40.在实施中,针对文本类的不良信息,现有的识别方法通常为通过预先设置好的敏
感词,对获取到的文本信息进行匹配识别,并将匹配到的词语作为该文本信息的敏感词。然而,上述设置的敏感词中的很多敏感词在某些语境下可能并不能做为敏感词,例如,针对敏感词“黄色”来说,它在特殊的语境中所表达的语义会被作为敏感内容,而它在如“一朵黄色的小花”等语境中所表达的语义则应为非敏感内容,而不应作为敏感词输出。因此,通过上述方式对敏感词进行检测可能存在识别准确率低、误报率高等问题。基于此,需要提供一种能够有效提高敏感词识别准确率的技术方案。本说明书实施例提供一种可实现的处理方式,具体可以包括以下内容:
41.在一种可选的实现方式中,以某网站对某网页的内容进行质检为例,该网站所对应的终端设备可以获取待识别的上述某网页的文本内容,然后,将上述文本内容作为待识别的目标文本发送至上述执行主体,这样,上述执行主体可以获取到上述待识别的目标文本。
42.在步骤s104中,基于第一敏感词集合对目标文本进行敏感词筛选,得到目标文本中包含的第一敏感词,第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值。
43.作为示例,上述第一敏感词集合中所包含的敏感词可以为某网站或者某平台根据自身实际需求预先设置的敏感词,例如,针对一些对某平台客服人员的服务质量进行质检的场景来说,可以将获取到的客服与客户之间进行语音对话的文本中携带的如“有什么资格”、“有什么本事”、“什么素质”中的“资格”、“本事”、“素质”等设置为第一敏感词集合中的敏感词。
44.在一些可选的实现方式中,上述敏感词的敏感程度可以通过敏感词识别模型或相应的规则来进行衡量。作为示例,以上述第一预设阈值为60%、目标文本中包括:“赌博”、“素质”、“投诉”等敏感词,假设将上述目标文本输入至上述敏感词识别模型中或者基于上述规则对目标文本进行识别,得到的敏感词识别结果为:与对“赌博”对应的识别准确率为98%,与“投诉”对应的识别准确率为80%,与“素质”对应的识别准确率为50%,由于上述敏感词识别模型或相应的规则对“素质”这个词识别的准确率低于上述第一预设阈值,则可以将“素质”添加上述第一敏感词集合中。
45.在步骤s106中,若第一敏感词在预设语境下的语义唯一,则确定第一敏感词为目标文本中的目标敏感词。
46.作为示例,上述预设语境可以是某网站或者某平台根据自身实际需求预先设置的语境,例如,以前述实施例中对某平台客服人员的服务质量进行质检的场景来说,上述预设语境可以为客服为客户提供服务过程中的语境。上述目标敏感词可以为有责敏感词,或者,也可以为无责敏感词。上述有责敏感词可以用于表征需要追究当事人责任的敏感词,具体的,该有责敏感词可以是某网站或者某平台根据自身实际需求,结合业务场景预先设置的可以用于追究有关当事人责任的敏感词。还以上述对某平台客服人员的服务质量进行质检的场景来说,如果检测到某客服对应的为客户提供服务过程中的沟通文本中存在“有什么资格”、“有什么本事”、“什么素质”、“素质真低”等这些表征客服服务质量差的语义,则可以将“本事”、“素质”、“资格”作为有责敏感词。而对于上述“高素质”等预设语境等能够表征客服服务质量好的语义,则可以将其中包含的“素质”作为无责敏感词,上述无责敏感词可以为用于表征不需要追究当事人责任的敏感词,具体的,该无责敏感词可以是某网站或者某平台根据自身实际需求,结合业务场景预先设置的不需要追究有关当事人责任的敏感词。
47.在一种可选的实现方式中,可以结合具体的业务场景预先对包含上述第一敏感词的大批量文本数据进行筛选,得到上述第一敏感词在预设语境下的语义信息,若该第一敏感词在预设语境下的语义只有一种,则可以确定该第一敏感词为目标文本中的目标敏感词。具体的,以第一敏感词为“资格”来说,若在通过对客服服务质量进行质检的预设语境中,在预先对大批量的包含“资格”的文本数据进行语义检测后,检测到“资格”这个词在上述预设语境中的语义只有一种,例如:“有什么资格”、“就这资格”表征的都是同一种语义,则可以确定“资格”为上述目标文本中的目标敏感词。
48.在步骤s108中,若第一敏感词在预设语境下的语义不唯一,则基于目标文本、第一敏感词对应的第一语义特征和第一敏感词对应的第二语义特征,确定第一敏感词是否为目标文本中的目标敏感词。
49.作为示例,上述第一语义特征可以为与该第一敏感词对应的有责敏感词语义特征,上述第二语义特征可以为与该第一敏感词对应的无责敏感词语义特征。
50.在一种可选的实现方式中,可以结合具体的业务场景预先对包含上述第一敏感词的大批量文本数据进行筛选,得到上述第一敏感词在预设语境下的语义信息,若该第一敏感词在预设语境下的语义不唯一,则需要通过计算该第一敏感词在上述目标文本中的语义信息分别与上述第一敏感词对应的第一语义特征和对敏感词对应的第二语义特征,确定上述第一敏感词是否为目标文本中的目标敏感词。具体的,以第一敏感词为“素质”来说,若在通过对客服服务质量进行质检的预设语境中,在预先对大批量的包含“素质”的文本数据进行语义检测后,检测到“素质”这个词在上述预设语境中的语义包括多种,例如:“什么素质”、“素质真低”、“没素质”、“素质高”、“有素质”表征的是不同的语义,则可以通过确定该第一敏感词在上述目标文本中的语义特征分别与上述第一敏感词对应的第一语义特征和对敏感词对应的第二语义特征,确定上述第一敏感词是否为目标文本中的目标敏感词。
51.可以看出,本说明书实施例中,可以通过预先将敏感程度较低的敏感词存储到第一敏感词集合中,在对目标文本进行敏感词筛选的过程中,即可通过该第一敏感词集合将目标文本中所包含的敏感程度较低且不容易识别出来的敏感词识别出来,然后,基于筛选出来的敏感词在预设语境下的语义来对上述敏感词做进一步的检测,从而实现了对在预设语境下可能存在不同解释的敏感词是否属于目标敏感词做进一步的辨别,进而有效提高了对敏感词识别的准确率。进一步的,针对预先确定出的第一敏感词集合中所包含的在预设语境下语义唯一的敏感词,在识别到目标文本中包含该预设语境下的敏感词时,即可将该敏感词确定为目标敏感词的处理可以进一步提高对敏感词识别的识别效率。本说明书一个或多个实施例中,为了提高对上述目标文本中存在的目标敏感词进行识别的识别效率,可以预先将上述第一敏感词集合中所包含的敏感词按照词性划分成不同的子集合,可以基于该子集合确定第一敏感词为目标文本中的目标敏感词。
52.具体的,上述第一敏感词集合可以包括名词词性对应的敏感词子集合、动词词性对应的敏感词子集合和形容词词性对应的敏感词子集合中的一种或多种。如图3所示,上述步骤s106的具体处理过程可以多种多样,以下再提供一种可选的处理方法,具体可以参见下述步骤s1062-步骤s1064的具体处理过程。
53.在步骤s1062中,若第一敏感词在预设语境下的语义唯一,则获取第一敏感词在目标文本中的目标词性。
54.作为示例,上述目标词性可以包括:名词、动词、形容词等。
55.在一种可选的实现方式中,在检测出上述第一敏感词在预设语境下的语义唯一的情况下,可以基于预设词性识别算法如hanlp、jieba、ltp等确定第一敏感词在上述目标文本中的目标词性。
56.在步骤s1064中,基于目标词性,确定第一敏感词为目标词性对应的敏感词子集合中的目标敏感词。
57.在一种可选的实现方式中,以上述第一敏感词在目标文本中的目标词性为名词为例,可以对本实施例中预先设置的名词词性对应的敏感词子集合进行检测,如果在上述名词词性对应的敏感词子集合中查找到与上述第一敏感词对应的敏感词,则可以确定上述第一敏感词为目标文本中的目标词性对应的敏感词子集合中的目标敏感词。
58.这样,在对上述目标文本进行敏感词识别的过程中,无需将确定出的第一敏感词与上述第一敏感词集合中所包含的多个敏感词进行匹配,而仅需要基于确定出的第一敏感词对应词性的子集合对上述第一敏感词进行匹配的方法,进一步有效提高了对目标文本进行识别的识别效率。
59.以上是基于第一敏感词在预设语境下的语义只唯一的情况下,对上述目标文本进行识别的具体过程,下面来对第一敏感词在预设语境下的语义不唯一的情况下,对上述目标文本进行识别的具体过程进行详细的说明。
60.本说明书中一个或多个实施例中,上述第一敏感词集合可以包括敏感词对应的第一语义特征和第二语义特征。
61.如图4所示,上述步骤s108的处理方法可以多种多样,以下再提供一种可选的处理方法,具体可以参见下述步骤s1082-步骤s1086的具体处理过程。
62.在步骤s1082中,基于第一敏感词,从第一敏感词集合中获取第一敏感词对应的第一语义特征和第一敏感词对应的第二语义特征。
63.作为示例,上述第一语义特征可以为该第一敏感词对应的有责敏感词语义特征,上述第二语义特征可以为该第一敏感词对应的无责敏感词语义特征。
64.在一种可选的实现方式中,本说明书实施例可以针对在预设语境下存在语义不唯一的第一敏感词,预先构建针对该第一敏感词的第一语义特征和第二语义特征,然后,将上述第一敏感词、第一敏感词对应的第一语义特征、以及第一敏感词对应的第二语义特征对应存储在上述第一敏感词集合中,这样,当检测到上述第一敏感词在预设语境下的语义不唯一的情况下,可以基于该第一敏感词的标识信息从上述第一敏感词集合中获取到与上述第一敏感词对应的第一语义特征和第二语义特征。
65.在步骤s1084中,基于目标文本,确定第一敏感词在目标文本中的第三语义特征。
66.在步骤s1086中,基于第三语义特征、第一语义特征以及第二语义特征,确定第一敏感词是否为目标文本中的目标敏感词。
67.在一种可选的实现方式中,可以基于上述第三语义特征、第一语义特征、第二语义特征,通过分别确定第三语义特征与第一语义特征的相似度,以及确定第三语义特征与第二语义特征的相似度,从而进一步确定第一敏感词是否为目标文本中的目标敏感词。
68.这样,在检测到上述第一敏感词在预设语境下的语义不唯一的情况下,通过获取该第一敏感词对应的第一语义特征和第二语义特征,并基于确定的该第一敏感词在上述目
标文本中的第三语义特征,通过计算上述第三语义特征与第一语义特征的相似度,以及第三语义特征与第二语义特征的相似度,从而可以进一步确定第一敏感词是否为目标文本中的目标敏感词的方法,从而实现了对在预设语境下可能存在不同解释的敏感词是否属于目标敏感词做进一步的辨别,进而有效提高了对敏感词识别的准确率。进一步的,如图5所示,上述步骤s1086的具体处理方法可以多种多样,以下再提供一种可选的处理方法,具体可以参见下述步骤s10862-步骤s10864的具体处理过程。
69.在步骤s10862中,基于第三语义特征、第一语义特征以及第二语义特征,确定第三语义特征与第一语义特征之间的第一相似度,以及第三语义特征与第二语义特征之间的第二相似度。
70.在步骤s10864中,基于第一相似度和第二相似度,确定第一敏感词是否为目标文本中的目标敏感词。
71.在一种可选的实现方式中,可以基于上述第三语义特征、第一语义特征、第二语义特征,分别计算出上述第三语义特征与上述第一语义特征之间的第一相似度,以及上述第三语义特征与上述第二语义特征之间的第二相似度,在上述第一相似度大于上述第二相似度的情况下,确定上述第一敏感词为目标文本中的目标敏感词。
72.这样,当检测到上述第一敏感词在预设语境下的语义不唯一的情况下,可以基于上述第一相似度和第二相似度的大小,进而确定上述第一敏感词是否为目标文本中的目标敏感词的方法,有效提高了对上述第一敏感词进行识别的识别准确率。
73.考虑到,在实际应用过程中,不仅需要对敏感词识别模型不容易识别出来的敏感词(如上述第一敏感词集合中敏感词)进行检测,还需要对目标文本中所包含的敏感词的敏感程度大于预设阈值的敏感词(如“赌博”、“黄色”等)进行检测,基于此,如图6所示,本说明书实施例提供的方法还可以包括下述步骤s110的具体处理过程。
74.在步骤s110中,将目标文本中除与第一敏感词集合中相同的敏感词之外的文本信息输入到第一模型中,得到目标文本中的目标敏感词,第一模型是基于多个敏感程度高于第一预设阈值的敏感词训练得到。
75.作为示例,上述第一模型可以为敏感词识别模型。
76.在一种可选的实现方式中,考虑到采用敏感词识别模型对敏感词进行识别的过程中,对于一些敏感程度低于预设阈值的敏感词,通过上述敏感词识别模型可能会存在误识别,或者存在识别不出来的问题。基于此,本说明书实施例提供的方法中在对目标文本进行识别的过程中,可以基于上述预先筛选出的第一敏感词集合所包含的敏感词采用如上述实施例图1-图5提供的方法进行识别,从而可以得到目标文本对应的多个目标敏感词。通过将目标文本中除与上述第一敏感词集合中相同的敏感词之外的文本信息输入到第一模型中,得到与上述目标文本对应的多个目标敏感词,这样,基于上述第一敏感词集合得到的多个目标敏感词,以及基于上述第一模型得到的多个目标敏感词,从而可以确定出与目标文本对应的目标敏感词。
77.这样,通过将目标文本中除与第一敏感词集合中相同的敏感词之外的文本信息输入到第一模型中,通过第一模型输出文本信息中所包含的敏感程度高于第一预设阈值的目标敏感词,以及,结合基于上述第一敏感词集合中所包含的敏感词识别出的敏感程度低于第一预设阈值的目标敏感词,从而不仅能够识别出目标文本中所包含的敏感程度高于第一
预设阈值的目标敏感词,而且还能够识别出敏感程度低于第一预设阈值的目标敏感词,进一步有效提升了对上述目标文本中所包含的目标敏感词进行识别的识别准确率。
78.进一步的,本说明书一个或多个实施例中,在上述步骤s102获取待识别的目标文本之前,上述方法还可以包括下述步骤a2-步骤a6的具体处理过程。
79.在步骤a2中,将预设样本输入至第一模型中,输出预设样本中包含的多个敏感词。
80.其中,上述预设样本可以是基于具体的业务场景获取的样本,例如,可以是用于对某网页内容进行质检的文本信息,或者,也可以是用于对某客服服务质量进行质检的文本信息等,本说明书实施例对上述预设样本的内容不做具体限定。
81.在步骤a4中,基于预设样本中包含的多个敏感词,确定预设样本中所包含的多个敏感词的敏感程度,上述敏感程度用于评价预设样本中包含的多个敏感词中的每个敏感词的识别准确率。
82.在一种可选的实现方式中,上述敏感词的敏感程度可以是基于对上述预设样本中预先标注的敏感词进行识别后确定的,作为示例,若上述预设样本中包括10个敏感词,分别为5个“投诉”、2个“报警”和3个“素质”。上述识别结果可以为:对于“投诉”,识别正确的个数为4个,识别错误的个数为1个;对于“报警”,识别正确的个数为2个,识别错误的个数为0个;对于“素质”,识别正确的个数为1个,识别错误的个数为2个,则可以确定出“投诉”的敏感程度为80%,“报警”的敏感程度为100%,“素质”的敏感程度为33%。
83.在步骤a6中,基于预设样本中所包含的多个敏感词的敏感程度,确定第一敏感词集合,以及用于对第一模型进行模型训练的第二敏感词集合。
84.在一些可选的实现方式中,可以基于上述预设样本中所包含的多个敏感词的敏感程度,将敏感程度小于第一预设阈值(如50%)的多个敏感词存储在上述第一敏感词集合中,而将上述敏感程度大于上述第一预设阈值的多个敏感词存储在第二敏感词集合中。
85.这样,通过将预设样本输入至第一模型中,输出预设样本中包含的多个敏感词,然后,基于上述预设样本中包含的多个敏感词,确定预设样本中所包含的多个敏感词的敏感程度,之后,基于预设样本中所包含的多个敏感词的敏感程度,确定第一敏感词集合,以及用于对所述第一模型进行模型训练的第二敏感词集合的方法,由于上述第二敏感词集合中所包含的多个敏感词的敏感程度为高于第一预设阈值的敏感词,也即上述第一模型对上述第二敏感词集合中所包含的敏感词识别准确率较高,采用上述第二敏感词集合中所包含的敏感词来对上述第一模型进行训练,可以有效提高上述第一模型的识别准确度。另外,由于上述第一敏感词集合中所包含的敏感词为敏感程度低于第一预设阈值的敏感词,也即上述第一模型对第一敏感词集合中所包含的敏感词识别的准确率较低。因此,可以将上述敏感程度低于上述第一预设阈值的敏感词存储在上述第一敏感词集合中,后续可以通过采用第一敏感词集合中所包含的多个敏感词来对待识别的目标文本中所包含的敏感程度较低的敏感词进行识别,从而使得采用本说明书实施例提供的方法,不仅能够识别出目标文本中所包含的敏感程度高于第一预设阈值的目标敏感词,而且还能够识别出敏感程度低于第一预设阈值的目标敏感词,进一步有效提升了对上述目标文本中所包含的目标敏感词进行识别的识别准确率。
86.进一步的,本说明书一个或多个实施例中,为了提高后续对待识别目标文本中存在的目标敏感词进行识别的识别效率,可以预先将上述第一敏感词集合中所包含的敏感词
按照词性划分成不同的子集合,具体的,上述步骤a6的处理方法可以多种多样,以下再提供一种可选的处理方法,具体可以参见下述步骤a62-步骤a66的具体处理过程。
87.在步骤a62中,若多个敏感词中包括在预设语境下的语义唯一的多个敏感词,则获取语义唯一的多个敏感词在预设样本中的词性,上述词性包括名词、动词、形容词中的至少一种。
88.在一种可选的实现方式中,以上述预设语境为对客服服务质量进行质检的场景为例,预设语境为客服与客户的进行沟通的语境为例,以“素质”和“投诉”这两个敏感词为例进行说明,若上述“素质”在该预设文本中出现了3次,且这3次在上述预设语境中的语义均为同一种语义,则获取“素质”在该预设语境中的词性。若上述“投诉”在该预设文本中出现了6次,且这6次在上述预设语境中的语义均为同一种语义,则获取“投诉”在该预设语境中的词性。在步骤a64中,基于语义唯一的多个敏感词的敏感程度和上述语义唯一的多个敏感词的词性,确定各种词性各自对应的敏感词子集合。
89.在一种可选的实现方式中,假设上述第一预设阈值为60%,基于上述实施例确定出的“素质”的敏感程度为33%,“投诉”的敏感程度为80%,“素质”在上述预设语境中对应的词性是名词,“投诉”在上述预设语境中对应的词性是动词,则可以将“素质”存储在上述第一敏感词集合中与名词词性对应的敏感词子集合中,将“投诉”存储在上述第一敏感词集合中与动词词性对应的敏感词子集合中。
90.在步骤a66中,基于各种词性各自对应的敏感词子集合,确定第一敏感词集合。
91.这样,后续在对待识别的目标文本进行识别的过程中,仅需基于上述按照词性划分的敏感词子集合中所包含的敏感词来对目标文本中所包含的敏感词进行识别,而无需基于第一敏感词集合中所包含的大量的敏感词对目标文本中所包含的敏感词进行识别的方法,进一步提升了对待识别目标文本中存在的目标敏感词进行识别的识别效率。
92.本说明书一个或多个实施例中,上述步骤a6的具体处理过程可以多种多样,以下再提供一种可选的处理方法,具体可以参见下述步骤a68-步骤a70的具体处理过程。
93.在步骤a68中,基于多个敏感词的敏感程度,确定多个敏感词各自对应的第一识别准确率,以及预设样本中所有敏感词的第二识别准确率。
94.在一种可选的实现方式中,以上述步骤a4中的示例为例,若上述预设样本中包括10个敏感词,分别为5个“投诉”、2个“报警”和3个“素质”。在通过上述第一模型对上述敏感词进行识别的过程中,对于“投诉”,识别正确的个数为4个,识别错误的个数为1个。对于“报警”,识别正确的个数为2个,识别错误的个数为0个。对于“素质”,识别正确的个数为1个,识别错误的个数为2个。则可以确定出与“投诉”对应的第一识别准确率为80%,与“报警”对应的第一识别准确率为100%,与“素质”对应的第一识别准确率为33%。上述第一模型对上述预设样本中所有敏感词的第二识别准确率为70%。
95.在步骤a70中,基于多个敏感词各自对应的第一识别准确率和第二识别准确率,确定第一敏感词集合和第二敏感词集合。
96.在一种可选的实现方式中,可以将第一识别准确率小于第二识别准确率的敏感词存储在第一敏感词集合,将上述第一识别准确率大于第二识别准确率的敏感词存储在第二敏感词集合中。作为示例,以上述步骤a68中的示例为例,则可以将敏感词“投诉”与“报警”存储在上述第二敏感词集合中。将敏感词“素质”存储在上述第一敏感词集合中。
97.进一步的,上述步骤a70的具体处理方法可以多种多样,以下再提供一种可选的处理方法,具体可以参见下述步骤a6702-步骤a706的具体处理过程。
98.在步骤a702中,在第一识别准确率小于第二识别准确率,且第一识别准确率与第二识别准确率之间的差值满足预设条件的情况下,确定与第一识别准确率对应的敏感词的标识,将携带上述标识的敏感词添加至第二敏感词集合。
99.在一些可选的实现方式中,若出现第一识别准确率小于第二识别准确率,且上述第一识别准确率与上述第二识别准确率之间的差值小于第二预设阈值的情况,则可以说明上述第一模型对上述敏感词进行识别的识别准确率虽然不能达到第二识别准确率,但是由于差距较小,可以通过采取如数据增广的方式对上述第一模型进行优化,从而可以提高上述第一模型对该敏感词对识别准确率,因此,可以将上述第一识别准确率小于第二识别准确率,且第一识别准确率与第二识别准确率之间的差值小于第二预设阈值的敏感词存储在上述第二敏感词集合中。作为示例,以第二识别准确率为70%,第二预设阈值为5%,上述第一模型对敏感词“黄色”的第一识别准确率为68%为例,由于上述敏感词“黄色”对应的第一识别准确率68%低于第二识别准确率70%,但是,由于上述第一识别准确率与第二识别准确率之间的差值2%小于上述第二预设阈值为5%,则可以将上述敏感词“黄色”添加至第二敏感词集合。或者,在步骤a704中,在第一识别准确率大于第二识别准确率的情况下,确定与第一识别准确率对应的敏感词的标识,将携带上述标识的敏感词添加至第二敏感词集合。
100.在一些可选的实现方式中,若出现上述第一识别准确率大于第二识别准确率的敏感词的情况,则可以说明上述第一模型对该敏感词的识别准确率已经优于第一模型对上述预设样本进行识别的整体水平,此时,可以确定与上述第一识别准确率对应的敏感词的标识,将携带上述标识的敏感词存储至上述第二敏感词集合,并可以基于上述第二敏感词集合中的敏感词对上述第一模型进行训练。作为示例,以第二识别准确率为70%,以上述第一模型对敏感词“赌博”的第一识别准确率为98%,对敏感词“报警”的第一识别准确率为80%为例,则可以将上述敏感词“赌博”、“报警”添加至第二敏感词集合。或者,在步骤a686中,在第一识别准确率小于第二识别准确率,且第一识别准确率与第二识别准确率之间的差值不满足预设条件的情况下,确定与第一识别准确率对应的敏感词的标识,将携带上述标识的敏感词添加至第一敏感词集合。
101.在一些可选的实现方式中,若出现在第一识别准确率小于第二识别准确率,且第一识别准确率与上述第二识别准确率之间的差值大于第二预设阈值的情况,则可以说明上述第一模型对上述敏感词进行识别的识别准确率较小,但考虑到上述第一识别准确率与上述第二识别准确率之间的差值可能较大,因此,如果采用上述敏感词对第一模型进行训练,则可能会对第一模型的识别准确率造成较大影响,基于此,可以通过确定上述第一识别准确率与第二识别准确率之间的差值大于第二预设阈值的敏感词所携带的标识,并将携带上述标识的敏感词对应的敏感词集合确定为第一敏感词集合。作为示例,以第二识别准确率为70%,第二预设阈值为5%,上述第一模型对敏感词“素质”的第一识别准确率为50%,对敏感词“资格”的第一识别准确率40%为例,由于上述敏感词“素质”、“资格”各自对应的第一识别准确率均低于第二识别准确率,且第一识别准确率与第二识别准确率之间的差值也均大于上述第二预设阈值,则可以将上述敏感词“素质”、“资格”添加至第一敏感词集合。进
一步的,本说明书一个或多个实施例中,还提供一种训练第一模型的方法,该方法具体可以包括下述步骤b2-步骤b4的具体处理过程。
102.在步骤b2中,在第一识别准确率小于第二识别准确率,且第一识别准确率与第二识别准确率之间的差值满足预设条件的情况下,对携带有上述标识的敏感词进行数据增广处理,得到多个包含有携带标识的敏感词。
103.其中,上述对携带有上述标识的敏感词进行数据增广的方式可以包括:对该敏感词进行近义词替换,也即将该目标文本中包含的该敏感词替换成该敏感词的近义词。或者,也可以对该敏感词所在目标文本中其它字进行随机删除。或者,也可以随机置换该敏感词所在目标文本中的任意邻近的字;或者,还可以采用中文等价字替换(如1、一、壹等);或者,还可以使用unilm做生成式相似句生成的方式实现对携带有上述标识的敏感词进行数据增广,本说明书实施例对上述携带有上述标识的敏感词进行数据增广的方法不做具体限定。
104.在一种可选的实现方式中,在第一识别准确率小于第二识别准确率,且第一识别准确率与第二识别准确率之间的差值小于预设条件的情况下,可以对携带有上述标识的敏感词进行数据增广处理,增加数据的标注量,或者,还可以采用人工修正的方式对上述第一模型识别错误的敏感词进行人工核验或人工修正以提升第一模型对上述敏感词的识别准确率。
105.在步骤b4中,基于多个包含有携带上述标识的敏感词,以及第二敏感词集合中所包含的敏感词对第一模型进行迭代训练,得到训练后的第一模型。
106.可以看出,本说明书实施例中,可以通过预先将敏感程度较低、不容易被识别出的敏感词进行筛选,然后,基于上述筛选出的敏感词在预设语境下的语义是否唯一。在检测出第一敏感词在预设语境下的语义唯一的情况下,则确定第一敏感词为目标文本中的目标敏感词,在上述第一敏感词在预设语境下的语义不唯一的情况下,则基于目标文本、第一敏感词对应的第一语义特征和第一敏感词对应的第二语义特征,确定第一敏感词是否为目标文本中的目标敏感词的方法,有效提高了对敏感词识别的准确率。
107.以下通过具体的应用场景对上述数据处理方法进行详细说明。该场景可以具体包括某客服平台对客服服务进行质检的场景,该场景可以具体包括:预设语境可以为客服与客户进行沟通的语境,上述目标敏感词可以为有责敏感词,该有责敏感词可以为可以用于追究客服责任的敏感词,如图7a所示,具体可以包括以下内容:
108.在步骤c2中,将已标注文本输入至第一模型中,采用机器学习方法对第一模型进行训练,得到训练后的第一模型,其中,上述深度学习方法可以为bert、robert、lstm等。
109.在步骤c4中,将预设样本输入至上述训练后的第一模型中,输出与上述预设样本对应的有责敏感词识别结果。
110.在步骤c6中,对上述有责敏感词识别结果进行统计,确定第一模型对预设样本中各有责敏感词的第一识别准确率key_p,以及第一模型对预设样本中有责敏感词的第二识别准确率whole_p。
111.在步骤c8中,在第一识别准确率key_p大于第二识别准确率whole_p的情况下,确定与第一识别准确率对应的敏感词的标识,将携带上述标识的敏感词对应的敏感词集合确定为第二敏感词集合。
112.在步骤c10中,在第一识别准确率key_p小于第二识别准确率whole_p,且第一识别
准确率key_p与第二识别准确率whole_p之间的差值小于第二预设阈值m%的情况下(即whole_p-key_p≤m%的情况下),确定与第一识别准确率对应的敏感词的标识,将携带上述标识的敏感词存储至第二敏感词集合。
113.或者,在步骤c12中,在第一识别准确率小于第二识别准确率,且第一识别准确率与第二识别准确率之间的差值大于第二预设阈值m%的情况下,确定与第一识别准确率对应的敏感词的标识,将携带上述标识的敏感词对应的敏感词存储至第一敏感词集合key_list。
114.在步骤c14中,针对上述步骤c12中,第一识别准确率小于第二识别准确率,且第一识别准确率与第二识别准确率之间的差值大于第二预设阈值的敏感词,判断上述敏感词在预设语境中的语义是否唯一。
115.在步骤c16中,若是,则根据上述敏感词的词性,将上述敏感词添加到与该词性对应的敏感词子集合中。
116.在步骤c18中,若否,则基于与上述预设语境对应的预设样本构建该敏感词的语义向量,确定该敏感词在有责条件下的第一语义特征,和该敏感词在无责条件下的第二语义特征,并将该敏感词、与该敏感词对应的第一语义特征、与该敏感词对应的第二语义特征对应添加到预设子集合rule_list中,其中,上述预设子集合为第一敏感词集合中的子集合。
117.至此,通过上述步骤c2-步骤c18可以得到用于训练上述第一模型的第二敏感词集合,以及第一敏感词集合,上述步骤c2-步骤c18的具体识别过程可以参见前述实施例的具体实施过程。
118.下面将结合图7b对获取的待识别的目标文本进行识别的过程进行详细描述,在上述对敏感词进行识别的过程中,上述第一敏感集合可以包括:名词词性对应的敏感词子集合(n_list)、动词词性对应的敏感词子集合(v_list)、形容词词性对应的敏感词子集合(adj_list),以及上述预设子集合。如图7b所示,上述对获取的待识别的目标文本进行识别的具体过程可以包括下述步骤d1-步骤d21的具体处理过程。
119.在步骤d1中,获取待识别的目标文本。
120.在步骤d2中,加载名词词性对应的敏感词子集合,用于对上述步骤d1中的待识别的目标文本进行检测,判断上述目标文本中是否包含有上述名词词性对应的敏感词子集合中的敏感词。
121.在步骤d3中,判断上述步骤d2中的检测结果是否为空值,即待识别的目标文本中是否包含名词词性敏感词。如果检测结果不为空值,即待识别文本中包含名词词性的子集合中的敏感词,执行步骤d4和步骤d5。如果检测结果为空值,执行步骤d6。
122.在步骤d4中,对待识别的目标文本中的敏感词(步骤d3中的名词词性的敏感词)的词性进行识别,输出该敏感词在待识别的目标文本中的词性。其中,词性识别的工具或方法有:hanlp、jieba、ltp或者使用规则等方法。
123.在步骤d5中,依据步骤d4中的词性识别结果判断该敏感词是否为有责敏感词,判断规则为:如果在步骤d4中进行词性识别后得到的词性识别结果为名词,即识别结果与该敏感词在预设语境下的语义一致,则认为该敏感词在待识别的目标文本中是有责敏感词;否则,为无责敏感词。如果为有责敏感词,则加入到part_result中;否则,舍弃该敏感词,不进行最终的输出。其中,part_result为使用语义判别得到的有责敏感词结果集合。
124.在步骤d6中,加载动词词性的敏感词集合,用于对步骤d1中的待识别的目标文本进行检测,是否包含有上述动词词性的子集合中的敏感词。
125.在步骤d7中,判断上述步骤d6中的检测结果是否为空值。即待识别的目标文本中是否包含动词词性的敏感词。如果检测结果不为空值,即待识别的目标文本中包含动词词性的子集合中的敏感词,执行步骤d8和步骤d9。如果检测结果为空值,执行步骤d10。
126.在步骤d8中,对待识别的目标文本中该敏感词(步骤d7中的动词词性敏感词)的词性进行识别,输出该敏感词在待识别的目标文本中的词性。
127.在步骤d9中,依据步骤d8的词性识别结果判断该敏感词是否为有责敏感词,判断规则为:如果在步骤d8中的进行词性识别后得到的词性识别结果为动词,即识别结果与该敏感词在预设语境下的语义一致,则认为该敏感词在待识别的目标文本中是有责敏感词;否则,为无责敏感词。如果为有责敏感词,则加入到part_result中;否则,舍弃该敏感词,不进行最终的输出。
128.在步骤d10中,加载形容词词性对应的敏感词子集合,用于对上述步骤d1中的待识别的目标文本进行检测,判断上述目标文本中是否包含有上述形容词词性对应的敏感词子集合中的敏感词。
129.在步骤d11中,判断上述步骤d10中的检测结果是否为空值,即待识别的目标文本中是否包含形容词词性敏感词。如果检测结果不为空值,即待识别的目标文本中包含形容词词性的子集合中的敏感词,执行步骤d12和步骤d13。如果检测结果为空值,执行步骤d14。
130.在步骤d12中,对待识别的目标文本中的敏感词(步骤d11中的形容词词性的敏感词)的词性进行识别,输出该敏感词在待识别的目标文本中的词性。
131.在步骤d13中,依据步骤d12中的词性识别结果判断该敏感词是否为有责敏感词,判断规则为:如果步骤d12的词性识别结果为形容词,即识别结果与该敏感词在预设语境下的语义一致,则认为该敏感词在待识别的目标文本中是有责敏感词;否则,为无责敏感词。如果为有责敏感词,则加入到part_result中;否则,舍弃该敏感词,不进行最终的输出。
132.在步骤d14中,加载预设子集合rule_list,用于对上述步骤d1中的待识别的目标文本进行检测,是否包含上述预设子集合rule_list中的敏感词。
133.在步骤d15中,判断d14中的检测结果是否为空值,即待识别的目标文本中是否包含rule_list中的敏感词。如果检测结果不为空值,即待识别文本中包含rule_list中的敏感词,执行步骤d16和步骤d17。如果检测结果为空值,执行步骤d18。
134.在步骤d16中,计算该敏感词的第三语义特征与第一语义特征之间的语义相关度,以及第三语义特征与第二语义特征之间的语义相关度。输出第三语义特征与第一语义特征之间的语义相关度数值,以及第三语义特征与第二语义特征之间的语义相关度数值。
135.在步骤d17中,依据步骤d16中的语义相关度数值结果判断该敏感词是否为有责敏感词,判断规则为:如果步骤d16中的第三语义特征与第一语义特征的语义相关度数值大于上述第三语义特征与第二语义特征的语义相关度数值,则认为该敏感词在待识别的目标文本中是有责敏感词;否则,为无责敏感词。如果为有责敏感词,则加入到rule_result中;否则,舍弃该敏感词,不进行最终的输出。其中,rule_result为使用语义特征判别得到的有责敏感词结果集合。
136.在步骤d18中,加载第二敏感词集合key_list,用于对步骤d1中的待识别的目标文
本进行检测,判断上述待识别的目标文本中是否包含key_list中的敏感词。
137.在步骤d19中,判断步骤d18中的检测结果是否为空值,即待识别的目标文本中是否包含key_list中的敏感词。如果检测结果不为空值,即待识别的目标文本中包含key_list中的敏感词,执行步骤d20。如果检测结果为空值,则合并part_result和rule_result的结果作为待识别的目标文本的有责敏感词检测结果,并重复上述流程进入下一条待识别的目标文本的有责敏感词检测。
138.在步骤d20中,加载第一模型,使用第一模型对步骤d1中的待识别的目标文本进行有责敏感词检测,识别结果加入到model_result中。其中,model_result为使用上述第一模型识别得到的有责敏感词结果列表。
139.在步骤d21中,合并part_result、rule_result和model_result的结果作为待识别的目标文本的有责敏感词检测结果,并重复上述流程进入下一条待识别的目标文本的有责敏感词检测。
140.至此,通过上述步骤d1-步骤d21的处理过程,可以得到对上述待识别的目标文本中所包含的有责敏感词进行识别的识别结果。上述步骤d1-步骤d21的具体识别过程可以参见前述实施例的具体实施过程,在此不再赘述。
141.可以看出,本说明书实施例中,通过预先将敏感程度较低的敏感词存储到第一敏感词集合中,在对目标文本进行敏感词筛选的过程中,即可通过该第一敏感词集合将目标文本中所包含的敏感程度较低且不容易识别出来的敏感词识别出来,然后,基于筛选出来的敏感词在预设语境下的语义来对上述敏感词做进一步的检测,从而实现了对在预设语境下可能存在不同解释的敏感词是否属于目标敏感词做进一步的辨别,进而有效提高了对敏感词识别的准确率。进一步的,针对预先确定出的第一敏感词集合中所包含的在预设语境下语义唯一的敏感词,在识别到目标文本中包含该预设语境下的敏感词时,即可将该敏感词确定为目标敏感词的处理可以进一步提高对敏感词识别的识别效率。
142.以上为本说明书实施例提供的数据处理方法,基于同样的思路,本说明书实施例还提供一种数据处理装置,该数据处理装置中包括如上述实施例中的服务器的所有功能单元,如图8所示。
143.该数据处理装置包括:文本获取模块801,敏感词筛选模块802,第一敏感词确定模块803,第二敏感词确定模块804,其中,
144.文本获取模块801,被配置为获取待识别的目标文本;
145.敏感词筛选模块802,被配置为基于第一敏感词集合对所述目标文本进行敏感词筛选,得到所述目标文本中包含的第一敏感词,所述第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值;
146.第一敏感词确定模块803,被配置为若所述第一敏感词在预设语境下的语义唯一,则确定所述第一敏感词为所述目标文本中的目标敏感词;
147.第二敏感词确定模块804,被配置为若所述第一敏感词在预设语境下的语义不唯一,则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
148.可选地,所述第一敏感词集合包括名词词性对应的敏感词子集合、动词词性对应的敏感词子集合和形容词词性对应的敏感词子集合中的一种或多种;所述第一敏感词确定
模块,包括:
149.目标词性确定单元,被配置为若所述第一敏感词在预设语境下的词性唯一,则获取所述第一敏感词在所述目标文本中的目标词性;
150.第一确定单元,被配置为基于所述目标词性,确定所述第一敏感词为所述目标词性对应的敏感词子集合中的目标敏感词。
151.可选地,所述第一敏感词集合包括所述敏感词对应的第一语义特征和第二语义特征;
152.所述第二敏感词确定模块,包括:
153.语义特征获取单元,被配置为基于所述第一敏感词,从所述第一敏感词集合中获取所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征;
154.语义特征确定单元,被配置为基于所述目标文本,确定所述第一敏感词在所述目标文本中的第三语义特征;
155.第二确定单元,被配置为基于所述第三语义特征、所述第一语义特征以及所述第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
156.可选地,所述第二确定单元,包括:
157.第一确定子单元,被配置为基于所述第三语义特征、所述第一语义特征以及所述第二语义特征,确定所述第三语义特征与所述第一语义特征之间的第一相似度,以及所述第三语义特征与所述第二语义特征之间的第二相似度;
158.第二确定子单元,被配置为基于所述第一相似度和所述第二相似度,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
159.可选地,所述装置还包括:
160.文本信息输入模块,被配置为将所述目标文本中除与所述第一敏感词集合中相同的敏感词之外的文本信息输入到第一模型中,得到所述目标文本中的目标敏感词,所述第一模型是基于多个所述敏感程度高于所述第一预设阈值的敏感词训练得到。
161.可选地,所述装置还包括:
162.处理模块,被配置为将预设样本输入至第一模型中,输出所述预设样本中包含的多个敏感词;
163.敏感程度确定模块,被配置为基于所述预设样本中包含的多个敏感词,确定所述预设样本中所包含的多个敏感词的敏感程度,所述敏感程度用于评价所述预设样本中包含的多个敏感词中的每个敏感词的识别准确率;
164.敏感词集合确定模块,被配置为基于所述预设样本中所包含的多个敏感词的敏感程度,确定所述第一敏感词集合,以及用于对所述第一模型进行模型训练的第二敏感词集合。
165.可选地,所述敏感词集合确定模块,包括:
166.词性获取单元,被配置为若所述多个敏感词中包括在预设语境下的语义唯一的多个敏感词,则获取所述语义唯一的多个敏感词在所述预设样本中的词性,所述词性包括名词、动词、形容词中的至少一种;
167.子集合确定单元,被配置为基于所述语义唯一的多个敏感词的敏感程度和所述语义唯一的多个敏感词的词性,确定各种词性各自对应的敏感词子集合;
168.第三确定单元,被配置为基于所述各种词性各自对应的敏感词子集合,确定所述第一敏感词集合。
169.可选地,所述敏感词集合确定模块,包括:
170.准确率确定单元,被配置为基于所述多个敏感词的敏感程度,确定所述多个敏感词各自对应的第一识别准确率,以及所述预设样本中所有敏感词的第二识别准确率;
171.第四确定单元,被配置为基于所述多个敏感词各自对应的第一识别准确率和所述第二识别准确率,确定所述第一敏感词集合和所述第二敏感词集合。
172.可选地,第四确定单元,包括:
173.第二确定子单元,被配置为在第一识别准确率小于所述第二识别准确率,且所述第一识别准确率与所述第二识别准确率之间的差值满足预设条件的情况下,确定与所述第一识别准确率对应的敏感词的标识,将携带所述标识的敏感词添加至所述第二敏感词集合;
174.或者,第三确定子单元,被配置为在第一识别准确率大于所述第二识别准确率的情况下,确定与所述第一识别准确率对应的敏感词的标识,将携带所述标识的敏感词添加至所述第二敏感词集合;
175.或者,第四确定子单元,被配置为在第一识别准确率小于所述第二识别准确率,且所述第一识别准确率与所述第二识别准确率之间的差值不满足预设条件的情况下,确定与所述第一识别准确率对应的敏感词的标识,将携带所述标识的敏感词添加至所述第一敏感词集合。
176.可选地,所述装置还包括:
177.数据增广模块,被配置为在所述第一识别准确率小于所述第二识别准确率,且所述第一识别准确率与所述第二识别准确率之间的差值满足预设条件的情况下,对携带有所述标识的敏感词进行数据增广处理,得到多个包含有携带所述标识的敏感词;
178.模型训练模块,被配置为基于多个包含有携带所述标识的敏感词,以及所述第二敏感词集合中所包含的敏感词对所述第一模型进行迭代训练,得到训练后的第一模型。
179.可以看出,本说明书实施例中,通过预先将敏感程度较低的敏感词存储到第一敏感词集合中,在对目标文本进行敏感词筛选的过程中,即可通过该第一敏感词集合将目标文本中所包含的敏感程度较低且不容易识别出来的敏感词识别出来,然后,基于筛选出来的敏感词在预设语境下的语义来对上述敏感词做进一步的检测,从而实现了对在预设语境下可能存在不同解释的敏感词是否属于目标敏感词做进一步的辨别,进而有效提高了对敏感词识别的准确率。进一步的,针对预先确定出的第一敏感词集合中所包含的在预设语境下语义唯一的敏感词,在识别到目标文本中包含该预设语境下的敏感词时,即可将该敏感词确定为目标敏感词的处理可以进一步提高对敏感词识别的识别效率。
180.本说明书实施例提供的数据处理装置能够实现上述数据处理方法对应的实施例中的各个过程,为避免重复,这里不再赘述。
181.需要说明的是,本说明书实施例提供的数据处理装置与本说明书实施例提供的数据处理方法基于同一发明构思,因此该实施例的具体实施可以参见前述数据处理方法的实施,重复之处不再赘述。
182.对应上述实施例提供的数据处理方法,基于相同的技术构思,本说明书实施例还
提供了一种数据处理设备,该数据处理设备用于执行上述的数据处理方法,图9为实现本说明书各个实施例的一种数据处理设备的硬件结构示意图,图9所示的数据处理设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、用户输入单元906、接口单元907、存储器908、处理器909、以及电源910等部件。本领域技术人员可以理解,图9中示出的数据处理设备结构并不构成对数据处理设备的限定,数据处理设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
183.其中,接口单元907,用于获取待识别的目标文本;
184.处理器909,用于基于第一敏感词集合对所述目标文本进行敏感词筛选,得到所述目标文本中包含的第一敏感词,所述第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值;
185.处理器909,用于若所述第一敏感词在预设语境下的语义唯一,则确定所述第一敏感词为所述目标文本中的目标敏感词;
186.处理器909,用于若所述第一敏感词在预设语境下的语义不唯一,则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
187.本说明书实施例中,所述第一敏感词集合包括名词词性对应的敏感词子集合、动词词性对应的敏感词子集合和形容词词性对应的敏感词子集合中的一种或多种;
188.处理器909,用于若所述第一敏感词在预设语境下的语义唯一,则获取所述第一敏感词在所述目标文本中的目标词性;
189.处理器909,用于基于所述目标词性,确定所述第一敏感词为所述目标词性对应的敏感词子集合中的目标敏感词。
190.本说明书实施例中,所述第一敏感词集合包括所述敏感词对应的第一语义特征和第二语义特征;
191.处理器909,用于基于所述第一敏感词,从所述第一敏感词集合中获取所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征;
192.处理器909,用于基于所述目标文本,确定所述第一敏感词在所述目标文本中的第三语义特征;
193.处理器909,用于基于所述第三语义特征、所述第一语义特征以及所述第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
194.本说明书实施例中,处理器909,用于基于所述第三语义特征、所述第一语义特征以及所述第二语义特征,确定所述第三语义特征与所述第一语义特征之间的第一相似度,以及所述第三语义特征与所述第二语义特征之间的第二相似度;
195.处理器909,用于基于所述第一相似度和所述第二相似度,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
196.本说明书实施例中,处理器909,用于将所述目标文本中除与所述第一敏感词集合中相同的敏感词之外的文本信息输入到第一模型中,得到所述目标文本中的目标敏感词,所述第一模型是基于多个所述敏感程度高于所述第一预设阈值的敏感词训练得到。
197.本说明书实施例中,在所述获取待识别的目标文本之前,处理器909,用于将预设样本输入至第一模型中,输出所述预设样本中包含的多个敏感词;
198.处理器909,用于基于所述预设样本中包含的多个敏感词,确定所述预设样本中所包含的多个敏感词的敏感程度,所述敏感程度用于评价所述预设样本中包含的多个敏感词中的每个敏感词的识别准确率;
199.处理器909,用于基于所述预设样本中所包含的多个敏感词的敏感程度,确定所述第一敏感词集合,以及用于对所述第一模型进行模型训练的第二敏感词集合。
200.本说明书实施例中,处理器909,用于若所述多个敏感词中包括在预设语境下的语义唯一的多个敏感词,则获取所述语义唯一的多个敏感词在所述预设样本中的词性,所述词性包括名词、动词、形容词中的至少一种;
201.处理器909,用于基于所述语义唯一的多个敏感词的敏感程度和所述语义唯一的多个敏感词的词性,确定各种词性各自对应的敏感词子集合;
202.处理器909,用于基于所述各种词性各自对应的敏感词子集合,确定所述第一敏感词集合。
203.本说明书实施例中,处理器909,用于基于所述多个敏感词的敏感程度,确定所述多个敏感词各自对应的第一识别准确率,以及所述预设样本中所有敏感词的第二识别准确率;
204.处理器909,用于基于所述多个敏感词各自对应的第一识别准确率和所述第二识别准确率,确定所述第一敏感词集合和所述第二敏感词集合。
205.本说明书实施例中,处理器909,用于针对所述多个敏感词各自对应的第一识别准确率执行下述处理:
206.处理器909,用于在第一识别准确率小于所述第二识别准确率,且所述第一识别准确率与所述第二识别准确率之间的差值满足预设条件的情况下,确定与所述第一识别准确率对应的敏感词的标识,将携带所述标识的敏感词添加至所述第二敏感词集合;
207.或者,处理器909,用于在第一识别准确率大于所述第二识别准确率的情况下,确定与所述第一识别准确率对应的敏感词的标识,将携带所述标识的敏感词添加至所述第二敏感词集合;
208.或者,处理器909,用于在第一识别准确率小于所述第二识别准确率,且所述第一识别准确率与所述第二识别准确率之间的差值不满足预设条件的情况下,确定与所述第一识别准确率对应的敏感词的标识,将携带所述标识的敏感词添加至所述第一敏感词集合。
209.本说明书实施例中,处理器909,用于在所述第一识别准确率小于所述第二识别准确率,且所述第一识别准确率与所述第二识别准确率之间的差值满足预设条件的情况下,对携带有所述标识的敏感词进行数据增广处理,得到多个包含有携带所述标识的敏感词;
210.处理器909,用于基于多个包含有携带所述标识的敏感词,以及所述第二敏感词集合中所包含的敏感词对所述第一模型进行迭代训练,得到训练后的第一模型。
211.需要说明的是,本说明书实施例提供的数据处理设备900能够实现上述数据处理方法实施例中数据处理设备实现的各个过程,为避免重复,这里不再赘述。
212.优选的,本说明书实施例还提供一种数据处理设备,包括处理器909,存储器908,存储在存储器908上并可在所述处理器909上运行的计算机程序,该计算机程序被处理器909执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
213.进一步地,基于上述图1到图7所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为u盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
214.获取待识别的目标文本;
215.基于第一敏感词集合对所述目标文本进行敏感词筛选,得到所述目标文本中包含的第一敏感词,所述第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值;
216.若所述第一敏感词在预设语境下的语义唯一,则确定所述第一敏感词为所述目标文本中的目标敏感词;
217.若所述第一敏感词在预设语境下的语义不唯一,则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征,确定所述第一敏感词是否为所述目标文本中的目标敏感词。
218.需要说明的是,本说明书实施例提供的存储介质能够实现上述数据处理方法实施例中数据处理设备实现的各个过程,为避免重复,这里不再赘述。
219.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
220.本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
221.本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文本中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
222.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
223.以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献