一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

实体库扩充方法、装置、计算机设备及存储介质与流程

2022-07-02 08:45:43 来源:中国专利 TAG:


1.本发明涉及计算机,更具体地说是指实体库扩充方法、装置、计算机设备及存储介质。


背景技术:

2.随着服务机器人在生活中的广泛使用,人们对服务机器人的也提出了更高的需求,希望通过机器人给人类带来更好的服务,这在餐饮行业中显的尤为明显。由于餐饮行业的菜品名称没有规则限制,每个餐厅都可以有自己独特的菜品名,每个顾客提供的菜品名称也都千差万别,菜品名的多样性为在餐饮行业的服务机器人在理解顾客语义方面带来了很大的困难。
3.餐饮行业的服务机器人一般是通过拾取顾客的语音内容,转换为语义文本后,从固定的实体库内匹配出对应的菜品名称,但是,由于菜品的不断扩充,而菜品对应的实体库则是固定的,很容易导致服务器机器人无法准确识别出顾客所提及的菜品信息,导致顾客的体验感较差。
4.因此,有必要设计一种新的方法,实现能识别在自定义的菜品实体库不存在的菜名,且可将识别出的菜名加入菜品实体库,扩充菜品实体库,以提高后续菜品识别的效率和准确率。


技术实现要素:

5.本发明的目的在于克服现有技术的缺陷,提供实体库扩充方法、装置、计算机设备及存储介质。
6.为实现上述目的,本发明采用以下技术方案:实体库扩充方法,包括:
7.获取语音对话内容;
8.将所述语音对话内容进行asr转换,以得到语义文本;
9.采用ner技术提取所述语义文本内的菜品名,以得到提取结果;
10.判断所述提取结果是否存在菜品名;
11.若所述提取结果存在菜品名,则将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理;
12.若所述提取结果不存在菜品名,则采用人工提取所述语义文本内的菜品名,以得到提取结果,并执行所述将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理。
13.其进一步技术方案为:所述采用ner技术提取所述语义文本内的菜品名,以得到提取结果,包括:
14.对预设的菜品实体库内的实体进行处理,以得到菜品切词库;
15.对所述语义文本进行预处理,以得到预处理结果;
16.根据所述菜品切词集召回所述预处理结果命中的词语,以得到召回结果;
17.判断所述召回结果是否有命中的词语;
18.若所述召回结果有命中的词语,则根据所述召回结果确定所述语义文本内的菜品名,以得到提取结果;
19.若所述召回结果没有命中的词语,则确定所述提取结果不存在菜品名。
20.其进一步技术方案为:所述对预设的菜品实体库内的实体进行处理,以得到菜品切词库,包括:
21.对预设的菜品实体库内的实体进行切词,以得到初始词库;
22.对所述初始词库内的词语进行同义词和近似词的扩充,以得到菜品切词库。
23.其进一步技术方案为:所述对所述语义文本进行预处理,以得到预处理结果,包括:
24.对所述语义文本进行切词,并标注词性,以得到预处理结果。
25.其进一步技术方案为:所述根据所述召回结果确定所述语义文本内的菜品名,以得到提取结果,包括:
26.判断所述提取结果是否是有连续命中词语;
27.若所述提取结果有连续命中词语,则判断所述预处理结果内的动词与命中的词语之间是否存在其他词语;
28.若所述预处理结果内的动词与命中的词语之间存在其他词语,则判断所述动词与命中的词语之间是否存在“的”字;
29.若所述动词与命中的词语之间存在“的”字,则将所述预处理结果中的最后一个“的”字之后的词语与命中的词语联合形成菜品名,以得到提取结果;
30.若所述动词与命中的词语之间不存在“的”字,则将所述动词与命中的词语之间的词语与命中的词语联合形成菜品名,以得到提取结果;
31.若所述预处理结果内的动词与命中的词语之间不存在其他词语,则将命中的词语联合形成菜品名,以得到提取结果。
32.其进一步技术方案为:所述判断所述提取结果是否是有连续命中词语之后,还包括:
33.若所述提取结果没有连续命中词语,则判断所述命中的词语之间是否存在“的”字;
34.若所述命中的词语之间存在“的”字,则确定最后一个“的”字后面命中的词语作为菜品名,以得到提取结果;
35.若所述命中的词语之间不存在“的”字,则将第一个命中的词语到最后一个命中的词语之间的所有词语联合形成菜品名,以得到提取结果。
36.本发明还提供了实体库扩充装置,包括:
37.内容获取单元,用于获取语音对话内容;
38.转换单元,用于将所述语音对话内容进行asr转换,以得到语义文本;
39.提取单元,用于采用ner技术提取所述语义文本内的菜品名,以得到提取结果;
40.判断单元,用于判断所述提取结果是否存在菜品名;
41.扩充单元,用于若所述提取结果存在菜品名,则将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理;
42.人工处理单元,用于若所述提取结果不存在菜品名,则采用人工提取所述语义文本内的菜品名,以得到提取结果,并执行所述将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理。
43.其进一步技术方案为:所述提取单元包括:
44.实体处理子单元,用于对预设的菜品实体库内的实体进行处理,以得到菜品切词库;
45.预处理子单元,用于对所述语义文本进行预处理,以得到预处理结果;
46.召回子单元,用于根据所述菜品切词集召回所述预处理结果命中的词语,以得到召回结果;
47.召回结果判断子单元,用于判断所述召回结果是否有命中的词语;
48.第一确定子单元,用于若所述召回结果有命中的词语,则根据所述召回结果确定所述语义文本内的菜品名,以得到提取结果;
49.第二确定子单元,用于若所述召回结果没有命中的词语,则确定所述提取结果不存在菜品名。
50.本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
51.本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
52.本发明与现有技术相比的有益效果是:本发明通过对获取的语音对话内容进行asr转换,形成语义文本,并采用ner技术提取所述语义文本内的菜品名,当提取结果存在菜品名时,则将提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理,当提取结果不存在菜品名时,则采用人工审核方式提取菜品名,并对预设的菜品实体库进行扩充,实现能识别在自定义的菜品实体库不存在的菜名,且可将识别出的菜名加入菜品实体库,扩充菜品实体库,以提高后续菜品识别的效率和准确率。
53.下面结合附图和具体实施例对本发明作进一步描述。
附图说明
54.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
55.图1为本发明实施例提供的实体库扩充方法的应用场景示意图;
56.图2为本发明实施例提供的实体库扩充方法的流程示意图;
57.图3为本发明实施例提供的实体库扩充方法的子流程示意图;
58.图4为本发明实施例提供的实体库扩充方法的子流程示意图;
59.图5为本发明实施例提供的实体库扩充方法的子流程示意图;
60.图6为本发明实施例提供的实体库扩充装置的示意性框图;
61.图7为本发明实施例提供的实体库扩充装置的提取单元的示意性框图;
62.图8为本发明实施例提供的实体库扩充装置的实体处理子单元的示意性框图;
63.图9为本发明实施例提供的实体库扩充装置的第一确定子单元的示意性框图;
64.图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
65.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
66.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
67.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
68.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
69.请参阅图1和图2,图1为本发明实施例提供的实体库扩充方法的应用场景示意图。图2为本发明实施例提供的实体库扩充方法的示意性流程图。该实体库扩充方法应用于服务器中。该服务器与机器人进行数据交互,该服务器可以是独立的服务器,也可以是机器人的控制器,机器人上集成有拾音器,利用拾音器获取语音对话内容,并将其转换为语义文本,采用ner技术提取所述语义文本内的菜品名,当提取到菜品名时,则将提取结果扩充至预设的菜品实体库内,若提取不到时,则切换为人工提取的方式进行菜品名的提取,再将取结果扩充至预设的菜品实体库内。本实施例的方法支持用户自定义菜品实体库,餐饮服务机器人基于用户自定义的菜品实体库识别出顾客与机器人对话中提到的菜品名,即使在用户自定义菜品实体库不存在某菜名时,也能识别出顾客话术中的菜名,将识别出的菜名加入实体库,使菜品实体库不断的扩充,同时也提高了后续菜品识别的效率和准确率。
70.在其他实施例中,上述的机器人也可以替换为终端。
71.图2是本发明实施例提供的实体库扩充方法的流程示意图。如图2所示,该方法包括以下步骤s110至s160。
72.s110、获取语音对话内容。
73.在本实施例中,语音对话内容是指在进行语音交互过程中采用拾音器拾取的语音数据。
74.在获取语音对话内容之前,会先自定义菜品实体库,以形成预设的菜品实体库,支持用户自定义菜品实体库,若餐饮服务的机器人自带通用的系统菜品实体库,用户可以选择不添加个性化的菜品实体,但由于菜品名称的特性—多种基础菜品名与形容词的堆叠,尽可能多的让菜品实体库中涵盖基础菜名,如“饺子”、“披萨”。
75.s120、将所述语音对话内容进行asr转换,以得到语义文本。
76.在本实施例中,语义文本是指对语音对话内容进行asr(自动语音识别技术,automatic speech recognition)转换后得到的文本。
77.当用户和机器人进行语音交互时,用户语音会通过asr转换为语义文本。
78.顾客和机器人进行语音交互时,顾客语音通过asr转换为语义文本,服务器将基于现有的菜品实体库对该语义文本进行菜品实体提取,此时会出现两种情况:一是若预设的菜品实体库中的存在与语义文本中相匹配的菜品,但此时并不能判定菜名识别成功,可能存在匹配的菜品名是顾客真实目标菜品名的一个子集,比如语义文本是“我想吃新奥尔良烤鸡披萨”,如果菜品实体库中有“披萨”实体和“新奥尔良烤肉”实体,语义文本中将会识别出“披萨”菜品实体和“新奥尔良烤肉”菜品实体,此时匹配出了不止一个菜品实体,又或者“我要吃至尊披萨”,“吃”为动词,与预设的菜品实体库中匹配出了“披萨”,“吃”与“披萨”之间存在“至尊”,然而“至尊披萨”也是一个菜名,但机器人识别菜品此时只能识别菜名为“披萨”,由以上情况可知,即使语义文本匹配到了菜品实体库中的实体,也不一定可以得到准确的菜品名,因此需要将语义文本采用ner技术做进一步的菜品名识别;二是语义文本中不存在与预设的菜品实体库匹配的实体,这种情况同样需要将语义文本采用ner技术做菜品名的识别。将以上两种情况的语义文本采用ner技术进行实体识别,若预测出菜品名,为了验证预测菜品的准确性,需要经过人工审核,若没有预测出菜品名需要经过人工提取,此时,将经过人工处理的菜品名加入到菜名实体库中并去重,就可以到达识别实体同时扩充实体库的效果。
79.在本实施例中,上述提及的实体实则为菜品名。
80.s130、采用ner技术提取所述语义文本内的菜品名,以得到提取结果。
81.在本实施例中,提取结果是指采用ner(命名实体识别,named entity recognition)技术提取所述语义文本内的菜品名的结果,其包括两种情况,一种是提取结果为菜品名,另外一种是提取结果不存在菜品名的提示信息。
82.在一实施例中,请参阅图3,上述的步骤s130可包括步骤s131~s136。
83.s131、对预设的菜品实体库内的实体进行处理,以得到菜品切词库。
84.在本实施例中,菜品切词库是指预设的菜品实体库内的菜品名称的词语构成的集合。
85.在一实施例中,请参阅图4,上述的步骤s131可包括步骤s1311~s1312。
86.s1311、对预设的菜品实体库内的实体进行切词,以得到初始词库。
87.在本实施例中,初始词库是指对预设的菜品实体库内的菜品名进行切词后形成的词语集合。
88.由于菜品名大多都是由若干个基础菜名与首饰词的随意叠加,因此,将菜品名进一步的细粒度切分,如:“东北饺子”切词为“东北”“饺子”,有利于提高后续对实体的识别准确率。
89.s1312、对所述初始词库内的词语进行同义词和近似词的扩充,以得到菜品切词库。
90.具体地,将初始词库中的词语进行同义词与近义词的扩充,从而丰富初始词库,以形成菜品切词库,得到同一食物或类似口味的不同表达,如将“饺子”的同义词“水饺”加入初始词库,将“麻辣”的近义词“香辣”“爆辣”“特辣”“香麻”加入初始词库,将初始词库集中的词称为token。
91.s132、对所述语义文本进行预处理,以得到预处理结果。
92.在本实施例中,预处理结果是指对语义文本进行切词处理后标注词性形成的结
果。
93.具体地,对所述语义文本进行切词,并标注词性,以得到预处理结果。这里进行词性标注的主要原因是为了提取语义文本中的动词,用于后续的菜品名该实体识别。比如:“我想吃东北饺子”切词并词性标注,形成的预处理结果为:{'我':'r','想':'v','吃':'v','东北':'ns','饺子':'n'}。
94.s133、根据所述菜品切词集召回所述预处理结果命中的词语,以得到召回结果。
95.在本实施例中,召回结果是指存在所述预处理结果也存在所述菜品切词集内的词语。召回结果也存在两种情况,一种是存在对应的词语,另外一种是没有符合要求的词语,这个符合要求的词语是指基于菜品切词集召回的语义文本中命中的token,这种情况出现在原先的语义文本中可能并不存在菜品名,或者由于菜品名为店铺独创,太过另类,从而导致没有任何命中,比如:“大叔你好芒”,切词后为{'大叔':'n','你好':'l','芒':'ng'},无法在菜品切词集中匹配到token,则表明所述提取结果不存在菜品名,这种情况将进入人工识别环节。
96.s134、判断所述召回结果是否有命中的词语;
97.s135、若所述召回结果有命中的词语,则根据所述召回结果确定所述语义文本内的菜品名,以得到提取结果。
98.在一实施例中,请参阅图5,上述的步骤s135可包括步骤s1351~s1359。
99.s1351、判断所述提取结果是否是有连续命中词语。
100.在本实施例中,判断提取结果是否连续命中词语的情况包括了只有一个命中的词语。
101.s1352、若所述提取结果有连续命中词语,则判断所述预处理结果内的动词与命中的词语之间是否存在其他词语;
102.s1353、若所述预处理结果内的动词与命中的词语之间存在其他词语,则判断所述动词与命中的词语之间是否存在“的”字;
103.s1354、若所述动词与命中的词语之间存在“的”字,则将所述预处理结果中的最后一个“的”字之后的词语与命中的词语联合形成菜品名,以得到提取结果。
104.在本实施例中,预处理结果中的最后一个动词与命中的token间存在其他词,但存在“的”字时,说明动词与“的”字之间为修饰词,不能作为菜品名的一部分,应将最后一个“的”字后的词语与命中的token联合作为菜品名。如“我想吃东北饺子馆的好吃的精品水饺”,“水饺”为命中的token,这个文本中存在两个“的”,在动词“吃”与最后一个“的”之间都是修饰词,因此之后最后一个“的”后面的“精品”与命中的“水饺”联合即“精品水饺”才是菜品名。
105.s1355、若所述动词与命中的词语之间不存在“的”字,则将所述动词与命中的词语之间的词语与命中的词语联合形成菜品名,以得到提取结果。
106.在本实施例中,预处理结果中的最后一个动词与命中的token间存在其他词,但不存在“的”时,说明命中的token前存在前缀,应将动词与命中的token间的词语与命中的token联合作为菜品名。比如:{'我':'r','想':'v','吃':'v','精品':'n','水饺':'n'},“水饺”为命中token,“吃”为命中token前的最后一个动词,在“吃”和“水饺”间存在“精品”,这里将“精品水饺”当作一个菜品名。
107.s1356、若所述预处理结果内的动词与命中的词语之间不存在其他词语,则将命中的词语联合形成菜品名,以得到提取结果。
108.在本实施例中,预处理结果中的最后一个动词与命中的token间不存在其他词,则将连续命中的token联合作为一个菜品名。比如:{'我':'r','想':'v','吃':'v','牛肉':'n','芝士':'ns','披萨':'n'},“牛肉”、“芝士”、“披萨”为命中token,动词“吃”与命中token之间也不存在其他词,则“牛肉芝士披萨”为菜品名。
109.在本实施例中,上述的命中的token也就是所述预处理结果命中的词语。
110.s1357、若所述提取结果没有连续命中词语,则判断所述命中的词语之间是否存在“的”字;
111.s1358、若所述命中的词语之间存在“的”字,则确定最后一个“的”字后面命中的词语作为菜品名,以得到提取结果。
112.在本实施例中,当命中的token不连续,命中的词语之间存在“的”,说明“的”字前的token只作为修饰词,只保留最后一个“的”字后面命中的token为菜名。如:{'我':'r','想':'v','吃':'v','东北':'ns','的':'uj','水饺':'n'},“东北”和“水饺”都是命中的token,但两个token中存在“的”,这意味着“东北”此时作为了“水饺”的修饰词,因此“水饺”才是菜品名。
113.s1359、若所述命中的词语之间不存在“的”字,则将第一个命中的词语到最后一个命中的词语之间的所有词语联合形成菜品名,以得到提取结果。
114.当命中的token不连续,命中的词语之间不存在“的”字,说明命中的token之间存在非修辞词的添加词,将第一个命中的token到最后一个命中的token之间的所有词语联合作为一个菜品名。比如:{'我':'r','想':'v','吃':'v','东北':'ns','酸菜':'n','馅':'n','水饺':'n'},“东北”和“水饺”为命中token,之间存在“酸菜”“馅”,但由于不存在“的”,也就意味着没有修饰词,则“东北酸菜馅饺子”为菜品名。
115.s136、若所述召回结果没有命中的词语,则确定所述提取结果不存在菜品名。
116.s140、判断所述提取结果是否存在菜品名;
117.s150、若所述提取结果存在菜品名,则将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理;
118.s160、若所述提取结果不存在菜品名,则采用人工提取所述语义文本内的菜品名,以得到提取结果,并执行所述步骤s150。
119.当采用ner技术无法提取到对应的菜品名时,需要采用人工提取的方式进行菜品名的提取,以确保独创的菜品名也能扩充到预设的菜品实体库内。
120.上述的实体库扩充方法,通过对获取的语音对话内容进行asr转换,形成语义文本,并采用ner技术提取所述语义文本内的菜品名,当提取结果存在菜品名时,则将提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理,当提取结果不存在菜品名时,则采用人工审核方式提取菜品名,并对预设的菜品实体库进行扩充,实现能识别在自定义的菜品实体库不存在的菜名,且可将识别出的菜名加入实体库,扩充菜品实体库,以提高后续菜品识别的效率和准确率。
121.图6是本发明实施例提供的一种实体库扩充装置300的示意性框图。如图6所示,对应于以上实体库扩充方法,本发明还提供一种实体库扩充装置300。该实体库扩充装置300
包括用于执行上述实体库扩充方法的单元,该装置可以被配置于服务器中。具体地,请参阅图6,该实体库扩充装置300包括内容获取单元301、转换单元302、提取单元303、判断单元304、扩充单元305以及人工处理单元306。
122.内容获取单元301,用于获取语音对话内容;转换单元302,用于将所述语音对话内容进行asr转换,以得到语义文本;提取单元303,用于采用ner技术提取所述语义文本内的菜品名,以得到提取结果;判断单元304,用于判断所述提取结果是否存在菜品名;扩充单元305,用于若所述提取结果存在菜品名,则将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理;人工处理单元306,用于若所述提取结果不存在菜品名,则采用人工提取所述语义文本内的菜品名,以得到提取结果,并执行所述将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理。
123.在一实施例中,如图7所示,所述提取单元303包括实体处理子单元3031、预处理子单元3032、召回子单元3033、召回结果判断子单元3034、第一确定子单元3035以及第二确定子单元3036。
124.实体处理子单元3031,用于对预设的菜品实体库内的实体进行处理,以得到菜品切词库;预处理子单元3032,用于对所述语义文本进行预处理,以得到预处理结果;召回子单元3033,用于根据所述菜品切词集召回所述预处理结果命中的词语,以得到召回结果;召回结果判断子单元3034,用于判断所述召回结果是否有命中的词语;第一确定子单元3035,用于若所述召回结果有命中的词语,则根据所述召回结果确定所述语义文本内的菜品名,以得到提取结果;第二确定子单元3036,用于若所述召回结果没有命中的词语,则确定所述提取结果不存在菜品名。
125.在一实施例中,如图8所示,所述实体处理子单元3031包括切词模块30311以及词语扩充模块30312。
126.切词模块30311,用于对预设的菜品实体库内的实体进行切词,以得到初始词库;词语扩充模块30312,用于对所述初始词库内的词语进行同义词和近似词的扩充,以得到菜品切词库。
127.在一实施例中,所述预处理子单元3032,用于对所述语义文本进行切词,并标注词性,以得到预处理结果。
128.在一实施例中,如图9所示,所述第一确定子单元3035包括第一判断模块30351、第二判断模块30352、第三判断模块30353、第一联合模块30354、第二联合模块30355、第三联合模块30356、第四判断模块30357、第四联合模块30358以及第五联合模块30359。
129.第一判断模块30351,用于判断所述提取结果是否是有连续命中词语;第二判断模块30352,用于若所述提取结果有连续命中词语,则判断所述预处理结果内的动词与命中的词语之间是否存在其他词语;第三判断模块30353,用于若所述预处理结果内的动词与命中的词语之间存在其他词语,则判断所述动词与命中的词语之间是否存在“的”字;第一联合模块30354,用于若所述动词与命中的词语之间存在“的”字,则将所述预处理结果中的最后一个“的”字之后的词语与命中的词语联合形成菜品名,以得到提取结果;第二联合模块30355,用于若所述动词与命中的词语之间不存在“的”字,则将所述动词与命中的词语之间的词语与命中的词语联合形成菜品名,以得到提取结果;第三联合模块30356,用于若所述
预处理结果内的动词与命中的词语之间不存在其他词语,则将命中的词语联合形成菜品名,以得到提取结果。第四判断模块30357,用于若所述提取结果没有连续命中词语,则判断所述命中的词语之间是否存在“的”字;第四联合模块30358,用于若所述命中的词语之间存在“的”字,则确定最后一个“的”字后面命中的词语作为菜品名,以得到提取结果;第五联合模块30359,用于若所述命中的词语之间不存在“的”字,则将第一个命中的词语到最后一个命中的词语之间的所有词语联合形成菜品名,以得到提取结果。
130.需要说明的是,所属领域的技术人员可以清楚地了解到,上述实体库扩充装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
131.上述实体库扩充装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
132.请参阅图10,图10是本技术实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
133.参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
134.该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种实体库扩充方法。
135.该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
136.该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种实体库扩充方法。
137.该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
138.其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
139.获取语音对话内容;将所述语音对话内容进行asr转换,以得到语义文本;采用ner技术提取所述语义文本内的菜品名,以得到提取结果;判断所述提取结果是否存在菜品名;若所述提取结果存在菜品名,则将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理;若所述提取结果不存在菜品名,则采用人工提取所述语义文本内的菜品名,以得到提取结果,并执行所述将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理。
140.在一实施例中,处理器502在实现所述采用ner技术提取所述语义文本内的菜品名,以得到提取结果步骤时,具体实现如下步骤:
141.对预设的菜品实体库内的实体进行处理,以得到菜品切词库;对所述语义文本进行预处理,以得到预处理结果;根据所述菜品切词集召回所述预处理结果命中的词语,以得到召回结果;判断所述召回结果是否有命中的词语;若所述召回结果有命中的词语,则根据所述召回结果确定所述语义文本内的菜品名,以得到提取结果;若所述召回结果没有命中
的词语,则确定所述提取结果不存在菜品名。
142.在一实施例中,处理器502在实现所述对预设的菜品实体库内的实体进行处理,以得到菜品切词库步骤时,具体实现如下步骤:
143.对预设的菜品实体库内的实体进行切词,以得到初始词库;对所述初始词库内的词语进行同义词和近似词的扩充,以得到菜品切词库。
144.在一实施例中,处理器502在实现所述对所述语义文本进行预处理,以得到预处理结果步骤时,具体实现如下步骤:
145.对所述语义文本进行切词,并标注词性,以得到预处理结果。
146.在一实施例中,处理器502在实现所述根据所述召回结果确定所述语义文本内的菜品名,以得到提取结果步骤时,具体实现如下步骤:
147.判断所述提取结果是否是有连续命中词语;若所述提取结果有连续命中词语,则判断所述预处理结果内的动词与命中的词语之间是否存在其他词语;若所述预处理结果内的动词与命中的词语之间存在其他词语,则判断所述动词与命中的词语之间是否存在“的”字;若所述动词与命中的词语之间存在“的”字,则将所述预处理结果中的最后一个“的”字之后的词语与命中的词语联合形成菜品名,以得到提取结果;若所述动词与命中的词语之间不存在“的”字,则将所述动词与命中的词语之间的词语与命中的词语联合形成菜品名,以得到提取结果;若所述预处理结果内的动词与命中的词语之间不存在其他词语,则将命中的词语联合形成菜品名,以得到提取结果。
148.在一实施例中,处理器502在实现所述判断所述提取结果是否是有连续命中词语步骤之后,还实现如下步骤:
149.若所述提取结果没有连续命中词语,则判断所述命中的词语之间是否存在“的”字;若所述命中的词语之间存在“的”字,则确定最后一个“的”字后面命中的词语作为菜品名,以得到提取结果;若所述命中的词语之间不存在“的”字,则将第一个命中的词语到最后一个命中的词语之间的所有词语联合形成菜品名,以得到提取结果。
150.应当理解,在本技术实施例中,处理器502可以是中央处理单元(central processing unit,cpu),该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
151.本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
152.因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
153.获取语音对话内容;将所述语音对话内容进行asr转换,以得到语义文本;采用ner技术提取所述语义文本内的菜品名,以得到提取结果;判断所述提取结果是否存在菜品名;若所述提取结果存在菜品名,则将所述提取结果扩充至预设的菜品实体库内,并对预设的
菜品实体库内的菜品名进行去重处理;若所述提取结果不存在菜品名,则采用人工提取所述语义文本内的菜品名,以得到提取结果,并执行所述将所述提取结果扩充至预设的菜品实体库内,并对预设的菜品实体库内的菜品名进行去重处理。
154.在一实施例中,所述处理器在执行所述计算机程序而实现所述采用ner技术提取所述语义文本内的菜品名,以得到提取结果步骤时,具体实现如下步骤:
155.对预设的菜品实体库内的实体进行处理,以得到菜品切词库;对所述语义文本进行预处理,以得到预处理结果;根据所述菜品切词集召回所述预处理结果命中的词语,以得到召回结果;判断所述召回结果是否有命中的词语;若所述召回结果有命中的词语,则根据所述召回结果确定所述语义文本内的菜品名,以得到提取结果;若所述召回结果没有命中的词语,则确定所述提取结果不存在菜品名。
156.在一实施例中,所述处理器在执行所述计算机程序而实现所述对预设的菜品实体库内的实体进行处理,以得到菜品切词库步骤时,具体实现如下步骤:
157.对预设的菜品实体库内的实体进行切词,以得到初始词库;对所述初始词库内的词语进行同义词和近似词的扩充,以得到菜品切词库。
158.在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述语义文本进行预处理,以得到预处理结果步骤时,具体实现如下步骤:
159.对所述语义文本进行切词,并标注词性,以得到预处理结果。
160.在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述召回结果确定所述语义文本内的菜品名,以得到提取结果步骤时,具体实现如下步骤:
161.判断所述提取结果是否是有连续命中词语;若所述提取结果有连续命中词语,则判断所述预处理结果内的动词与命中的词语之间是否存在其他词语;若所述预处理结果内的动词与命中的词语之间存在其他词语,则判断所述动词与命中的词语之间是否存在“的”字;若所述动词与命中的词语之间存在“的”字,则将所述预处理结果中的最后一个“的”字之后的词语与命中的词语联合形成菜品名,以得到提取结果;若所述动词与命中的词语之间不存在“的”字,则将所述动词与命中的词语之间的词语与命中的词语联合形成菜品名,以得到提取结果;若所述预处理结果内的动词与命中的词语之间不存在其他词语,则将命中的词语联合形成菜品名,以得到提取结果。
162.在一实施例中,所述处理器在执行所述计算机程序而实现所述判断所述提取结果是否是有连续命中词语步骤之后,还实现如下步骤:
163.若所述提取结果没有连续命中词语,则判断所述命中的词语之间是否存在“的”字;若所述命中的词语之间存在“的”字,则确定最后一个“的”字后面命中的词语作为菜品名,以得到提取结果;若所述命中的词语之间不存在“的”字,则将第一个命中的词语到最后一个命中的词语之间的所有词语联合形成菜品名,以得到提取结果。
164.所述存储介质可以是u盘、移动硬盘、只读存储器(read-only memory,rom)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
165.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专
业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
166.在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
167.本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
168.该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
169.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献