一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

关键词提取方法、系统、电子设备及可读存储介质与流程

2022-05-27 00:13:11 来源:中国专利 TAG:


1.本发明涉及网络技术领域,具体而言,涉及一种关键词提取方法、系统、电子设备及可读存储介质。


背景技术:

2.随着网络技术的发展,互联网的业务不断增加,网上购物、网上支付等新型电商业务应运而生,服务端通可以提供类似问卷、答题等调研形式,收集消费者反馈信息,进而对消费者反馈的信息进行分析,提取关键词,并结合获得关键词对业务进行改进或者升级。
3.目前,可以利用词性滑块匹配算法进行关键词提取,这种方式虽然可以提升提取效果,但是由于在关键词提取过程中仅仅依据词性提取,容易提取到许多与业务无关的无效关键词,而且提取的关键词粒度较宽泛,无法为后续关键词分析提供依据。


技术实现要素:

4.本发明的目的之一在于提供一种关键词提取方法、系统、电子设备及可读存储介质,用以解决上述问题。
5.第一方面,本发明提供一种关键词提取方法,所述方法包括:获得待处理文本;对所述待处理文本进行分词处理,获得分词集合以及各个分词的词性;若所述分词集合仅存在一个分词,则在所述分词与预设的业务关键分词匹配时,或者,在所述分词的词性与预设的业务关键词性匹配,且所述分词不是预设的非业务关键分词时,确定所述分词为关键词;若所述分词集合存在多个分词,则根据所述分词集合中的各个分词以及所述各个分词的词性,从所述多个分词、以及由至少两个分词组成的分词组中确定出关键词。
6.第二方面,本发明提供一种关键词提取系统,包括:前端模块、关键词处理模块和数据存储模块;所述数据存储模块,用于维护业务关键分词、业务关键词性以及非业务关键分词;所述前端模块,用于获得待处理文本;所述关键词处理模块,用于:对所述待处理文本进行分词处理,获得分词集合以及各个分词的词性;若所述分词集合仅存在一个分词,则在所述分词与预设的业务关键分词匹配时,或者,在所述分词的词性与预设的业务关键词性匹配,且所述分词不是预设的非业务关键分词时,确定所述分词为关键词;若所述分词集合存在多个分词,则根据所述分词集合中的各个分词以及所述各个分词的词性,从所述多个分词、以及由至少两个分词组成的分词组中确定出关键词;所述数据存储模块,用于存储所述待处理文本对应的关键词。
7.第三方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的方法。
8.第四方面,本发明提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
9.本发明提供的一种关键词提取方法、系统、电子设备及可读存储介质,方法包括:
获得待处理文本,对待处理文本进行分词处理,获得分词集合以及各个分词的词性;若分词集合仅存在一个分词,则在分词与预设的业务关键词匹配时,或者,在分词的词性与预设的业务关键词性匹配,且分词不是预设的非业务关键词时,确定分词为关键词;若分词集合存在多个分词,则根据分词集合中的各个分词以及各个分词的词性,从多个分词、以及由至少两个分词组成的分词组中确定出关键词,本发明实施例在进行关键词提取过程中,结合关键词和关键词对应的词性确定分词是否为关键词,避免单一词性提取造成的无意义提取,同时本发明实施例还可以确定出分词组是否为关键词,从而可以细化关键词提取粒度,提取到的分词组可以为后续分析提供依据。
附图说明
10.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
11.图1为本发明实施例中的一种关键词提取方法的应用环境示意图;
12.图2为本发明实施例提供的电子设备的结构示意图;
13.图3为本发明实施例提供的关键词提取系统的功能模块图;
14.图4为本发明实施例提供的一种用户终端界面的示意图;
15.图5为本发明实施例提供的一元分词的用户配置界面;
16.图6为本发明实施例提供的多元分词的用户配置界面;
17.图7为本发明实施例提供的分词负反馈的用户配置界面;
18.图8为本发明实施例提供的一种关键词的展示界面;
19.图9为本发明实施例提供的一种关键词提取模型的示意图;
20.图10为本发明实施例提供的关键词提取方法的示意性流程图;
21.图11为本发明实施例提供的步骤s404的第一种实现方式的示意性流程图;
22.图12为本发明实施例提供的步骤s404-2a的一种实施方式的示意性流程图;
23.图13为本发明实施例提供的步骤s404-3a的一种实施方式的示意性流程图;
24.图14为本发明实施例提供的步骤s404的第二种实施方式的示意性流程图。
具体实施方式
25.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
26.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一
个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
28.在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
29.此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
30.需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
31.首先介绍本发明实施例中涉及的相关术语。
32.词性:句子都是由多个词组成,根据某些定义将这些词进行分类,例如:动词、名词、介词等等,这些分词类别的名称,被称为词性。
33.分词:给出一段短语,对短语进行切分,切分到最小粒度出来的每一段被称为词,切分的过程就叫分词。例如,短语为“不是很满意”,那么对应的分词有“不是”、“很”和“满意”。
34.一元分词:只包含一个词的分词,称之为一元分词。
35.二元分词:由两个词组成的分词,称之为二元分词。
36.三元分词:由三个词组成的分词,称之为三元分词。
37.前缀匹配:分词过程中,某些词固定在前与临近的下一个词可以组成有意义的分词,这种通过固定在前的词进行匹配的方式称之为前缀匹配。
38.后缀匹配:分词过程中,某些词固定在后与临近的上一个词可以组成有意义的分词,这种通过固定在后的词进行匹配的方式称之为后缀匹配。
39.随着电商业务的普及,消费者可以通过终端应用获得各种各样的业务服务,商家也可以通过提供类似问卷、答题等调研形式,收集消费者反馈信息,如图1所示,图1为本发明实施例中的一种关键词提取方法的应用环境示意图,其中,终端102通过网络104与服务器106连接,在终端102中具有终端应用。
40.在一种可能的场景中,服务器106发放调研问卷到消费者对应的终端102上,邀请消费者对商家、商品、服务等做出开放性评价,终端102在收到的问卷之后,获得消费者提供的反馈数据,并发送给服务器106。服务器106在收到反馈数据之后,可以对反馈数据进行分析,提取与商家、商品或者服务有关的关键词,并结合获得关键词对业务进行改进或者升级。
41.目前,依靠人工的方式提取效率低下,成本较高,因此,相关技术提出使用人工智能技术提取关键词,但这种关键词提取方式效果非常差,原因是调研反馈的文本通常较短(99.9%的反馈文本长度少于200字,而超过200字的反馈基本都是复制粘贴的无效内容),因此提取的关键字非常少,并且准确率极低,频繁出现无法提取到关键字的情况。
42.为了改善上述缺陷,提升关键词提取效果,相关技术还提供了一种词性滑块匹配算法,该算法相比人工智能技术,提取效果较好,但是由于在关键词提取过程中仅仅依据词性提取,容易提取到许多与业务无关的无效关键词,而且提取的关键词粒度较宽泛,无法为后续关键词分析提供依据。
43.因此,本发明实施例提供了一种关键词提取方法,本发明实施例提供的关键词提
取方法的原则可以总结为:
44.1.某些特殊词性的分词可以直接提取为关键词,或者只需要剔除极少数不合理分词即可,比如:形容词、专有名词、成语等等。将这些词性列出,一并列出该词性中可以剔除的分词,也就是获得一个与业务有关的业务关键词性白名单和与业务无关的非业务关键分词黑名单。
45.2.某些词性的分词,适合提取和不适合提取的分词都比较多,或者只有少数分词适合提取,直接将可以提出的关键字列出,也就是获得一个与业务有关的业务关键词白名单。
46.3.某些分词经常作为前缀或者后缀与其它词组合出现,他们单独提出来并没有意义或意义不显著,但是组合起来能够反映出用户满意度程度或者态度,极少数需要三个分词组合而成的分词组才有意义,则将分词组确定为关键词,比如:不是-很-满意,不是-特别-满意,不是-很-卫生,不会-再-光顾。
47.例如,如表1所示,表1展示了在实际应用中从样本中提出的关键前缀和关键后缀对应的关键前后缀分词白名单、关键前后缀分词黑名单以及关键前后缀词性白名单示例:
48.表1
[0049][0050]
其中,表中的“前后缀标示”可以用来区分一个分词是关键前缀还是关键后缀,以关键前缀“特别”为例,“特别对”、“特别乱”均可以作为一个关键词,但是“特别爱”则不是一个关键词。
[0051]
通过以上这些原则,结合业务有关的业务关键词性白名单和与业务无关的非业务关键分词黑名单、与业务有关的业务关键词白名单、关键前缀和关键后缀对应的关键前后缀分词白名单、关键前后缀分词黑名单以及关键前后缀词性白名单,不仅可以提取出与业务有关的关键词,避免无效提取,还在提取过程中考虑与业务相关的分词组,获得的关键词提供的信息更加精准,粒度更细,方便后续做进一步分析和提取。
[0052]
下面对本发明实施例提供的用于执行关键词提取的电子设备、系统以及具体实施方式进行详细介绍。
[0053]
首先,请参见图2,图2为本发明实施例提供的电子设备的结构示意图,该电子设备200可以用来执行本发明实施例中的关键词提取方法,例如,该电子设备200可以是图1中的服务器106。
[0054]
如图2所示,电子设备200包括存储器201、处理器202和通信接口203,该存储器201、处理器202和通信接口203相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
[0055]
存储器201可用于存储软件程序及模块,如本发明实施例提供关键词提取系统400对应的程序指令/模块,可以软件或固件(firmware)的形式存储于存储器201中或固化在电子设备200的操作系统(operating system,os)中,处理器202通过执行存储在存储器201内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口203可用于与其他节点设备进行信令或数据的通信。
[0056]
其中,存储器201可以是但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-onlymemory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
[0057]
处理器202可以是一种集成电路芯片,具有信号处理能力。该处理器202可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0058]
可以理解的是,上述终端102包括但不限于移动终端、pc机等,具备存储器以及显示屏,以显示服务器106发送的文本获取数据(例如调查问卷),服务器106可以是单个服务器,也可以是服务器集群,服务器106也具备存储器显示屏,显示屏可以用来显示用户配置界面以及已经提取出来的关键词,存储器可以用来存储预先配置的基础分词数据。
[0059]
可以理解,图2所示的结构仅为示意,电子设备200还可以包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
[0060]
其次,下面将结合相关附图对本发明实施例提供的关键词提取系统进行详细介绍。
[0061]
请参见图3,图3为本发明实施例提供的关键词提取系统的功能模块图,该关键词提取系统300可以以软件或固件的形式存储于图2所示的电子设备200中。
[0062]
关键词提取系统300包括前端模块310、关键词处理模块320和数据存储模块330;其中,数据存储模块330,可以用于维护本发明实施例中预先配置好的业务关键分词、业务关键词性、非业务关键分词、关键前缀分词、关键后缀分词、关键前缀词性以及关键后缀词性,方便后续对待处理文本对应的分词进行匹配,提取待处理文本对应的关键词。
[0063]
前端模块310,用于获得待处理文本。
[0064]
关键词处理模块320,用于:
[0065]
对待处理文本进行分词处理,获得分词集合以及各个分词的词性;
[0066]
若分词集合仅存在一个分词,则在分词与预设的业务关键分词匹配时,或者,在分词的词性与预设的业务关键词性匹配,且分词不是预设的非业务关键分词时,确定分词为关键词;
[0067]
若分词集合存在多个分词,则根据分词集合中的各个分词以及各个分词的词性,从多个分词、以及由至少两个分词组成的分词组中确定出关键词;
[0068]
数据存储模块330,还用于存储待处理文本对应的关键词。
[0069]
下面对上述前端模块310、关键词处理模块320和数据存储模块330分别进行介绍。
[0070]
前端模块310可以但不限于包含业务关键分词配置单元、关键词展示单元、文本获取单元以及系统管理单元。
[0071]
文本获取单元用于向用户提供文本获取数据的,该文本获取数据可以但不限于是调研问卷,评价征求等,用户的终端在收到文本获取数据之后,可以提供提取关键词的反馈数据,文本获取单元获得反馈数据之后即可提供给关键词处理模块320进行关键词提取。
[0072]
例如,在一种可能的实施方式中,文本获取单元可以向用户终端发送调查问卷,那么在用户终端就会展示如图4所示的终端界面,用户可以图4所示的调查问卷中填写反馈信息,例如“不是很满意”,然后点击提交,终端收到提交操作指令之后,即可将“不是很满意”发送到服务器,服务器将“不是很满意”作为待处理文本,进行后续的关键词提取流程。
[0073]
业务关键分词配置单元可以用于展示配置与业务有关的基础分词数据的用户界面,基础分词数据包括但不限于是业务关键分词、业务关键词性、非业务关键分词、关键前缀分词、关键后缀分词、关键前缀词性以及关键后缀词性,系统用户可以在用户配置界面上实现配置功能,在可选地实施方式中,本发明实施例提供的一元分词配置功能和多元分词配置功能。
[0074]
其中,在一元分词配置规则中,配置的业务关键分词包含四个属性:业务关键分词、词性、类型、服务类型。业务关键分词可以有两种:业务关键分词和业务关键词性,例如:“商品”是一个业务关键分词,“i”是一个业务关键词性,表示习惯短语。如果业务关键分词是一个词性,则它对应的词性与业务关键分词一致,例如:“麦德龙”是一个业务关键分词,其词性为“nr”,业务关键分词“i”是一个词性,其词性也是为“i”。
[0075]
针对每一个业务关键分词,其对应的类型有四种:白名单词、黑名单词、白名单词性、黑名单词性,其中,白名单词指得是在业务关键词白名单中的分词,黑名单词指得是在非业务关键词名单中的词,白名单词性和黑名单词性同理,此处不再赘述。服务类型指的是业务关键分词是通过哪个厂商提供的分词功能得的到。
[0076]
在实际场景中,业务关键分词配置单元可以以用户配置界面的形式展现给系统用户,系统用户可以在用户配置界面中对业务关键分词进行编辑处理和删除处理,还可以批量操作多个业务关键分词,详细的用户配置界面如图5所示,图5为本发明实施例提供的一元分词的用户配置界面。
[0077]
从图5中可以看出,针对每个业务关键分词,用户配置界面中展示了每个业务关键分词对应的词性、类型、服务类型以及可供用户操作的标识。用户可以对任意一个业务关键分词进行编辑或者删除。
[0078]
其中,在图5中还展示了多元分词规则和分词负反馈,多元分词规则有两种:二元分词组合规则和三元分词组合规则。多元分词规则都是以固定的关键前缀分词或关键后缀分词为中心,针对每个业务关键词,含有七个属性:关键词、匹配类型、二元词白名单、二元词黑名单、二元词性白名单、三元词性白名单和服务类型。
[0079]
关键词:通过归纳总结出的某些固定分词,一般表示加强、否定、弱化等等,他们与某些分词组合起来提取为最终关键字才比较有意义。例如:“不够”可以作为一个关键前缀,和“满意”组合成“不够满意”,表示了满意的程度。
[0080]
匹配类型:当前关键词是前缀匹配还是后缀匹配。
[0081]
二元词白名单:该名单中的分词与当前关键词组合成的词组为一个有意义的关键词。通常这些分词所属词性下的分词,绝大部分都不合适与该关键字组合,因此单独把它们作为组合白名单分词配置。
[0082]
二元词性白名单:该名单中的词性下绝大部分的分词都可以和当前关键字组合起来提取为有意义的关键字,对于该词性下少部分不合适的分词,配置到二元词黑名单中。
[0083]
二元词黑名单:该名单中的分词与当前关键字组合起来无意义,不应该作为关键字组合提取。通常这些分词所属词性下的分词,只有少部分不合适与该关键字组合,因此在配置时把这些分词所属的词性配置为白名单,但单独把这部分不合适的分词配置为黑名单,用作规则配置时排除。
[0084]
三元分词白名单:极少数分词,与当前关键字组合也没有意义,但是再组合下一个分词就也能作为有意义的关键字组合提取。这部分分词都是通过归纳总结而得出。
[0085]
服务类型:同“一元分词规则”中描述。多元分词规则配置功能与一元分词规则配置一致,请参见图6,图6为本发明实施例提供的多元分词的用户配置界面。
[0086]
分词规则配置是动态的,可以随时更新。来源主要是关键字展示页面系统用户的反馈,请参见图7,图7为本发明实施例提供的分词负反馈的用户配置界面,用户可以反馈不合理分词,这部分不合理分词汇总到分词负反馈的用户配置界面,系统管理员可以评估是否需要更新。
[0087]
接下来介绍本发明实施例提供的关键词处理模块320,从图3中可以看出,关键词处理模块320可以包括业务关键分词管理单元,关键词管理单元、数据采集单元、关键词处理引擎以及日志管理单元和权限管理单元。
[0088]
其中,日志管理单元用于管理关键词提取系统在运行过程中的生成日志的功能,权限管理单元用于维护系统用户的系统权限,包括但不限于是对关键词的增加、删除、查找以及修改。
[0089]
数据采集单元用于从前端模块的文本获取单元中获得待处理文本,以实现对待处理文本的关键词提取。
[0090]
业务关键分词管理单元,用于将系统用户配置的基础分词数据提供给关键词处理引擎,以实现对基础分词数据的配置更新、打标功能。
[0091]
关键词管理单元用于管理已经提取出来的关键字进行展示、隐藏、追踪、剔除、打标反馈等功能。系统用户可以配合业务属性筛选数据范围,该数据范围内被提取出来的关键字通过关键字管理模块查询返回到页面做展示。
[0092]
其中,展示模式支持词云图样式和列表样式,并且支持翻页联动;如图8所示,图8为本发明实施例提供的一种关键词的展示界面。
[0093]
隐藏功能是针对特定数据范围提取的关键字暂时不展示某些关键字,但不影响下一次查询;追踪功能支持查看每一个提取的关键字具体来源于哪几条数据源,进行更进一步的处理;剔除功能是针对特定数据范围提取的关键字剔除不展示这部分关键字,但不影响其他数据范围;打标反馈是将认为不合理的关键提交给系统管理员处理,由系统管理员决定是否需要加入全局配置。
[0094]
关键词处理引擎可以是一个关键词提取模型,如图9所示,图9为本发明实施例提
供的一种关键词提取模型的示意图,从图9中可以看出,该关键词提取模型中,获得待处理文本之后,通过基本分词接口得到待处理文本对应的基础分词,然后基于获得的基础分词,提取以某些关键词开头的三元分词、提取以某些关键词为前缀或后缀组合而成的二元分词以及提取精确命中预设的业务关键分词或者业务关键词性的一元分词。
[0095]
因此,在执行本发明实施例提供的关键词提取方法时,可以启动关键词提取系统,将预先配置的基础分词数据加载到内存中,然后关键词处理引擎根据内存中的基础分词数据执行关键词提取,避免单一词性造成的无效提取,同时本发明实施例还可以确定出分词组是否为关键词,从而可以细化关键词提取粒度,提取到的分词组可以为后续分析提供依据。
[0096]
下面以上述电子设备200执行本发明实施例提供的为例,结合上述关键词提取系统有关内容,介绍本发明实施例提供的关键词提取方法,请参见图10,图10为本发明实施例提供的关键词提取方法的示意性流程图,该方法可以包括:
[0097]
s401,获得待处理文本。
[0098]
s402,对待处理文本进行分词处理,获得分词集合以及各个分词的词性。
[0099]
s403,若分词集合仅存在一个分词,则在分词与预设的业务关键词匹配时,或者,在分词的词性与预设的业务关键词性匹配,且分词不是预设的非业务关键词时,确定分词为关键词。
[0100]
s404,若分词集合存在多个分词,则根据分词集合中的各个分词以及各个分词的词性,从多个分词、以及由至少两个分词组成的分词组中确定出关键词。
[0101]
根据本发明实施例提供的关键词提取方法,首先获得待处理文本,然后对待处理文本进行分词处理,获得分词集合以及分词的词性;若分词集合仅存在一个分词,则在分词与预设的业务关键词匹配时,或者,在分词的词性与预设的业务关键词性匹配,且分词不是预设的非业务关键词时,确定分词为关键词;若分词集合存在多个分词,则根据分词集合中的各个分词以及各个分词的词性,从多个分词、以及由至少两个分词组成的分词组中确定出关键词,本发明实施例在进行关键词提取过程中,结合关键词和关键词对应的词性确定分词是否为关键词,避免单一词性提取造成的无意义提取,同时本发明实施例还可以确定出分词组是否为关键词,从而可以细化关键词提取粒度,提取到的分词组可以为后续分析提供依据。
[0102]
下面结合相关附图,对上述各个步骤进行示例性说明。
[0103]
在步骤s401中,获得待处理文本。
[0104]
在本发明实施例中,待处理文本指的是用来提取关键字的数据源,用户的评价信息、意见反馈、调研问卷等,都可以作为数据源。待处理文本可以但不限于是文本长度小于预设长度的文本,例如,待处理文本少于200字。
[0105]
在步骤s402中,对待处理文本进行分词处理,获得分词集合以及各个分词的词性。
[0106]
在本发明实施例中,待处理文本提交之后,可以先通过基本分词接口将文本做最原子粒度的切分,提供基本分词的算法和厂商可以是现有的任意一种,但基本分词的结果相同,每一个基本分词都包含一个分词和一个词性。
[0107]
在步骤s403,若分词集合仅存在一个分词,则在分词与预设的业务关键分词匹配时,或者,在分词的词性与预设的业务关键词性匹配,且分词不是预设的非业务关键分词
时,确定分词为关键词。
[0108]
根据前述内容可知,关键词提取系统预先配置有业务关键分词白名单和业务关键词性白名单以及业务关键分词黑名单,因此,在仅有一个分词的情况下,将该分词分别与业务关键分词白名单中的业务关键分词、业务关键词黑名单中非业务关键分词进行匹配,以及将该分词的词性与业务关键词性白名单中的词性进行匹配,以确定该分词是否是与业务有关的关键词。
[0109]
因此,在一种可能的实施方式中,步骤s403中涉及的匹配方式可以是:
[0110]
a1,判断分词的词性是否与业务关键词性匹配;
[0111]
若是,则执行a2,若不是则执行a3。
[0112]
a2,判断该分词是否是非业务关键词;
[0113]
若是,则执行a5;若不是则执行a4;
[0114]
a3,判断该分词是否与业务关键词匹配;
[0115]
若是,则执行a4,若不是则执行a5。
[0116]
a4,确定该分词为关键词。
[0117]
a5,结束。
[0118]
通过上述方式可以精准获得与业务有关的关键词,避免提取到无效或者无意义的关键词,提高了关键词提取的准确度。
[0119]
在步骤s404中,若分词集合存在多个分词,则根据分词集合中的各个分词以及各个分词的词性,从多个分词、以及由至少两个分词组成的分词组中确定出关键词。
[0120]
本发明实施例中,若存在多个分词,不仅可以判断某个一元分词是否为一个关键词,还可以判断至少有两个分词组合而成的多元分词是否是关键词,从而可以细化关键词提取的粒度,使得提取到的关键词可以为后续分词提供依据。
[0121]
下面介绍步骤s404的两种可能的实施方式。
[0122]
第一种:步骤s404可以采用前缀优先匹配的原理,从多个分词或者有多个分词组成的分词中确定出关键词,因此,步骤s404可以图如图11所示,图11为本发明实施例提供的步骤s404的第一种实现方式的示意性流程图:
[0123]
s404-1a,按照分词集合中多个分词的排列顺序,从多个分词中取出第一分词。
[0124]
可以理解的是,对待处理文本进行分词处理之后,可以将得到的多个分词,然后每个分词在待处理文本中的位置,可以得到多个分词的排列顺序,例如,待处理文本为“不是很满意”,那么得到的多个分词的排列顺序可以为“不是”、“很”、“满意”,那么取出的第一分词即为“不是”,以此类推,依次取出每个分词进行后续的关键词判断流程。
[0125]
s404-2a,当确定第一分词为预设的关键前缀分词,将第一分词与第二分词组合得到第一分词组,或者,将第一分词、第二分词以及第三分词进行组合得到第二分词组,并从第一分词组、第二分词组中确定关键词。
[0126]
其中,第二分词是与第一分词相邻的下一个分词,第三分词是与第二分词相邻的下一个分词。
[0127]
本发明实施例中,若第一分词是一个关键前缀分词,单独将第一分词提取处理是毫无疑义的,可以进一步判断第一分词之后的多个分词与第一分词组合而成的分词组是否为关键词,这样可以提取到有意义的关键词,避免无效提取。
[0128]
在一种场景中,若仅存在两个分词,则将第一分词和第二分词进行组合得到第一分词组,然后确定第一分词组是否为关键词。
[0129]
在另一种场景中,若存在三个及以上个分词,则可以获得第一分词、第二分词和第三分词,然后将第一分词和第二分词进行组合得到第一分词组、将第一分词、第二分词以及第三分词进行组合得到第二分词组是否为关键词,通过这种方式可以提取有意义的分词组,为后续进行关键词分析提供依据。
[0130]
因此,在一种可能的实施方式中,上述步骤s404-2a可以包括以下步骤:
[0131]
其中,针对上述步骤s404-2a,本发明实施例还给出一种可能的实施方式,请参见图12,图12为本发明实施例提供的步骤s404-2a的一种实施方式的示意性流程图:
[0132]
s404-2a-1,当确定第一分词为预设的关键前缀分词,判断第二分词是否为预设的关键三元分词。
[0133]
其中,关键三元分词表征该分词后面可以组合一个分词,与第一分词一起组合成一个三元分词,如图所示,针对关键分词“不是”,其配置有关键三元分词“很”,那么针对“不是很满意”这个文本,单独提取“不是很”、“不是”或者“很”都是无意义的,在确定“不是”是一个关键前缀分词之后,确定“很”是“不是”的一个关键三元分词,那么可以取出“很”之后的分词“满意”,进而确定“不是-很-满意”是否为一个关键词,这样提取出来的关键词,相较于关键词“满意”,更能反映用户对服务的态度以及满意程度。
[0134]
s404-2a-2,若是,在存在第三分词的情况下,将第三分词分别与第一分词对应关键前缀分词白名单、关键前缀分词黑名单进行匹配,以及将第三分词的词性与第一分词对应关键前缀词性白名单进行匹配,并在匹配成功的情况下,确定第二分词组为关键词。
[0135]
其中,在步骤s404-2a-2中,将第三分词分别与第一分词对应关键前缀分词白名单、关键前缀分词黑名单进行匹配,以及将第三分词的词性与第一分词对应关键前缀词性白名单进行匹配,可以如下:
[0136]
b1,判断第三分词的词性是否位于关键前缀词性白名单中;
[0137]
若是,则执行b2,若不是则执行b3;
[0138]
b2,判断第三分词是否位于关键前缀分词黑名单中;
[0139]
若是,则执行步骤b5,若不是则执行b4。
[0140]
b3,判断第三分词是否位于关键前缀分词白名单中;
[0141]
若是,则执行b4,若不是则执行b5。
[0142]
b4,确定第二分词组为关键词,并将第二分词组中的各个分词从分词集合中移除。
[0143]
b5,将第一分词从分词集合中移除。
[0144]
通过上述实现方式可以精准获得与业务有关的分词组,避免提取到无效或者无意义的关键词,提高了关键词提取的准确度。
[0145]
s404-2a-3,若不是,或者,若不存在第三分词,将第二分词分别与第一分词对应关键前缀分词白名单、关键前缀分词黑名单进行匹配,以及将第二分词的词性与第一分词对应关键前缀词性白名单进行匹配,并在匹配成功的情况下,确定第一分词组为关键词。
[0146]
在可选地实施方式中,上述步骤s404-2a-3可以按照和上述步骤b1至步骤b5的方式执行,此处不再赘述。
[0147]
通过上述过程,可以确定出由第一分词作为关键分词前缀,得到的分词组是否为
关键词,细化了关键词提取的粒度。
[0148]
接下来介绍第一分词不是关键前缀分词的情况下,如何提取出有效的分词组作为关键词,请继续参见步骤s404-3a。
[0149]
s404-3a,当确定第一分词不是预设的关键前缀分词,从第一分词、第一分词与第二分词组合得到的第三分词组中确定关键词。
[0150]
可以理解的是,当第一分词不是关键前缀分词,则可以结合与第一分词相邻的第二分词来判断第一分词和第二分词进行组合是否是一个有意义的分词组,因此,针对上述步骤s404-3a,本发明实施例给出了一种可能的实施方式,请参见图13,图13为本发明实施例提供的步骤s404-3a的一种实施方式的示意性流程图:
[0151]
s404-3a-1,当确定第一分词不是预设的关键前缀分词,判断第二分词是否为预设的关键后缀分词;
[0152]
s404-3a-2,若是,则将第一分词分别与第二分词对应关键后缀分词白名单、关键后缀分词黑名单进行匹配,以及将第一分词的词性与第二分词对应关键后缀词性白名单进行匹配,并在匹配成功的情况下,确定第三分词组为关键词。
[0153]
其中,步骤s404-3a-2中的匹配过程与上述步骤b1至步骤b5的匹配过程类似,此处不再赘述。
[0154]
s404-3a-3,若否,则在第一分词的词性与预设的业务关键词性匹配,且第一分词不是预设的非业务关键词时,或者,在第一分词与预设的业务关键分词匹配时,确定第一分词为关键词。
[0155]
其中,步骤s404-3a-3的实现方式可以参见上述步骤a1至步骤a5,区别在于,在本实施例方式中步骤a5可以为将第一分词从分词集合中剔除。然后可以从分词集合中取出下一个第一分词执行上述步骤s404-1a至步骤s404-3a,此处不再赘述。
[0156]
通过上述实施方式可以看出,在第一分词不是关键前缀分词的情况下,可以进一步判断第二分词是否是一个关键后缀分词,在第二分词是关键后缀分词的情况下,进一步判断第一分词和第二分词组合而成的分词组是否是一个关键词,实现了细化关键词提取的效果,避免无效提取。
[0157]
通过上述前缀优先匹配的方式,可以获得与业务有关的关键词组,实现细化了关键词提取粒度的效果。
[0158]
接下来将结合附图对本发明实施例中的步骤s404的第二种实施方式进行介绍。
[0159]
第二种:步骤s404可以采用后缀优先匹配的原理提取关键分词组,因此,步骤s404可以图如图14所示,图14为本发明实施例提供的步骤s404的第二种实施方式的示意性流程图:
[0160]
s404-1b,按照多个分词的排列顺序,从多个分词中取出第一分词和第二分词;其中,第二分词是与第一分词相邻的下一个分词。
[0161]
s404-2b,当确定第二分词不是预设的关键后缀分词,将第一分词与第二分词组合得到第一分词组,或者,将第一分词、第二分词以及第三分词进行组合得到第二分词组,并从第一分词组、第二分词组以及第一分词中确定关键词;其中,第三分词是与第二分词相邻的下一个分词。
[0162]
在一种可能的实施方式中,步骤s404-2b可以包括如下步骤:
[0163]
c1,当确定第二分词不是预设的关键后缀分词,判断第一分词是否为预设的关键前缀分词;
[0164]
c2,若否,在第一分词的词性与预设的业务关键词性匹配,且所述第一分词不是预设的非业务关键词时,或者,在所述第一分词与预设的业务关键分词匹配时,确定第一分词为关键词。
[0165]
其中,步骤c2的实施方式与上述步骤s404-3a-3的实施方式类似,此处不再赘述。
[0166]
c3,若是,判断第二分词是否为预设的关键三元分词;
[0167]
c4,若是,在存在第三分词的情况下,将第三分词分别与第一分词对应关键前缀分词白名单、关键前缀分词黑名单进行匹配,以及将第三分词的词性与第一分词对应关键前缀词性白名单进行匹配,并在匹配成功的情况下,确定第二分词组成的分词组为关键词。
[0168]
c5,若不是,或者,若不存在第三分词,将第二分词分别与第一分词对应关键前缀分词白名单、关键前缀分词黑名单进行匹配,以及将第二分词的词性与第一分词对应关键前缀词性白名单进行匹配,并在匹配成功的情况下,确定第一分词组为关键词。
[0169]
s404-3b,当确定第二分词是预设的关键后缀分词,将第一分词分别与第二分词对应关键后缀分词白名单、关键后缀分词黑名单进行匹配,以及将第一分词的词性与第二分词对应关键后缀词性白名单进行匹配,并在匹配成功的情况下,确定第一分词和第二分词组合而成分词组为关键词。
[0170]
其中,上述步骤c4、步骤c5以及步骤s404-3b实施方式与上述步骤b1至b5的实现方式类似,此处不再赘述。
[0171]
通过上述后缀优先匹配的方式,可以获得与业务有关的关键词组,实现细化了关键词提取粒度的效果。
[0172]
可选地,在确定了单个分词为关键词或者确定了某个分词组为关键词后,为了不影响后续分词的关键词判断,在步骤s404之后,还可以包括如下步骤:
[0173]
步骤1,当确定任意一个分词为关键词后,提取任意一个分词,并将任意一个分词从分词集合中删除;或者,
[0174]
步骤2,在确定分词组为关键词后,提取分词组,并将分词组中的各个分词从分词集合中删除。
[0175]
可选地,为了及时更新与业务有关的关键词,以使在后续关键词提取过程中可以更加全面、准确的提取关键词,本发明实施例还给出了一种可能的实施方式:
[0176]
步骤1,根据被确定为关键词的分词更新业务关键词,以及根据分词的词性,更新业务关键词性;或者,
[0177]
步骤2,根据被确定为关键词的分词组中的各个分词以及各个分词对应的词性,更新关键前缀分词白名单、关键前缀词性白名单、关键后缀分词白名单以及关键后缀词性白名单。
[0178]
也就是说,系统用户还可以针对不合理或遗漏的关键字提取做反馈,这部分分词会汇聚到分词管理页面,但不会作为正式有效的分词配置,系统用户可以针对分词反馈确认是否需要更新分词配置,更新后的分词配置可以实时下发到内存中,以待后续在进行关键词提取时使用。
[0179]
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算
机程序被处理器执行时实现如前述实施方式中任一项的排班方法。该计算机可读存储介质可以是,但不限于,u盘、移动硬盘、rom、ram、prom、eprom、eeprom、磁碟或者光盘等各种可以存储程序代码的介质。
[0180]
应该理解到,在本发明所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0181]
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0182]
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0183]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献