分词方法以及装置、电子设备及存储介质与流程

2022-11-30 15:30:04 来源：中国专利 TAG：

1.本公开涉及信息技术领域，尤其涉及一种分词方法及装置、电子设备及存储介质。

背景技术：

2.在语义识别的过程中，语句的分词是非常重要的。精确的分词结果，电子设备才能提炼出精确的语义。尤其是在智能语音系统中，电子设备需要参与对话，输出足够人性化的对话之前是需要提炼出对话对方输出语句的精确语义。
3.相关技术中提供了多种分词方式，但是这些分词方式都或多或少具有分词精确度或者准确性进一步提升的问题。

技术实现要素：

4.本公开实施例提供一种分词方法及装置、电子设备及存储介质。
5.本公开实施例第一方面提供一种分词方法，所述方法包括：
6.在使用第一分词方式对目标文本进行分词时，确定所述目标文本的n种分词组合；其中，所述n为正整数；
7.基于分词字典，确定第m种所述分词组合中每个词的词信息；其中，所述n为小于或等于所述n的正整数；
8.根据所述词信息，确定第m种分词组合的分词分数；
9.根据n种所述分词组合的分词分数，确定所述目标文本的第一分词结果。
10.基于上述方案，所述基于分词字典，确定第m种所述分词组合中每个词的词信息，包括：
11.确定第m种所述分词组合中每个词的词性和词频；
12.所述根据所述词信息，确定第m种分词组合的分词分数，包括：
13.根据所述第m种所述分词组合中每个词的词性和词频，确定第m种所述分词组合的分词分数。
14.基于上述方案，所述基于分词字典，确定第m种所述分词组合中每个词的词信息，还包括：
15.当第m种所述分词组合种存在至少一个词具有多种词性时，根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性。
16.基于上述方案，所述当第m种所述分词组合种存在至少一个词具有多种词性时，根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性，包括：
17.当第m种所述分词组合种存在至少一个词具有多种词性时，将第m种所述分词组合输入基于语境确定词性的深度学习模型，得到所述深度学习模型输出的词性。
18.基于上述方案，所述方法还包括：
19.确定第m种所述分词组合包含的词个数；
20.确定n种所述分词组合各分词组合包含的词个数总和；
21.根据所述第m种分词组合包含的词个数和所述词个数总和，确定第m种所述分词组合的词长度分数；
22.所述根据所述词信息，确定第m种分词组合的分词分数，包括：
23.根据所述词信息以及所述词长度分数，确定第m种分词组合的分词分数。
24.基于上述方案，所述方法还包括：
25.采用第二分词方式进行目标文本的分词，得到第二分词结果；
26.采用第三分词方式进行所述目标文本的分词，得到第三分词结果；
27.当所述第二分词结果和所述第三分词结果不一致时，确定采用所述第一分词方式对所述目标文本进行分词。
28.基于上述方案，所述方法还包括：
29.当所述第二分词结果和所述第三分词结果一致时，将所述第二分词结果或所述第三分词结果确定为所述目标文本的分词结果。
30.基于上述方案，所述分词词典包括：预设类别名称词、口语化词以及标准词典词。
31.基于上述方案，所述方法还包括：
32.根据所述目标文本的应用场景，确定所述预设类别名称词。
33.基于上述方案，所述方法还包括：
34.收集所述目标文本的应用场景的历史语句；
35.根据所述历史语句，获取所述口语化词。
36.本公开实施例第二方面提供一种分词装置，所述装置包括：
37.第一分词模块，用于在使用第一分词方式对目标文本进行分词时，确定所述目标文本的n种分词组合；其中，所述n为正整数；
38.词信息模块，用于基于分词字典，确定第m种所述分词组合中每个词的词信息；其中，所述n为小于或等于所述n的正整数；
39.分词分数模块，用于根据所述词信息，确定第m种分词组合的分词分数；
40.分词结果模块，用于根据n种所述分词组合的分词分数，确定所述目标文本的第一分词结果。
41.基于上述方案，所述词信息模块，具体用于确定第m种所述分词组合中每个词的词性和词频；
42.所述分词分数模块，用于根据所述第m种所述分词组合中每个词的词性和词频，确定第m种所述分词组合的分词分数。
43.基于上述方案，所述词信息模块，具体用于当第m种所述分词组合种存在至少一个词具有多种词性时，根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性。
44.基于上述方案，所述词信息模块，具体用于当第m种所述分词组合种存在至少一个词具有多种词性时，将第m种所述分词组合输入基于语境确定词性的深度学习模型，得到所述深度学习模型输出的词性。
45.基于上述方案，所述装置还包括：
46.第一确定模块，用于确定第m种所述分词组合包含的词个数；
47.第二确定模块，用于确定n种所述分词组合各分词组合包含的词个数总和；
48.第三确定模块，用于根据所述第m种分词组合包含的词个数和所述词个数总和，确定第m种所述分词组合的词长度分数；
49.所述分词分数模块，具体用于根据所述词信息以及所述词长度分数，确定第m种分词组合的分词分数。
50.基于上述方案，所述装置还包括：
51.第二分词模块，用于采用第二分词方式进行目标文本的分词，得到第二分词结果；
52.第三分词模块，用于采用第三分词方式进行所述目标文本的分词，得到第三分词结果；
53.第四确定模块，用于当所述第二分词结果和所述第三分词结果不一致时，确定采用所述第一分词方式对所述目标文本进行分词。
54.基于上述方案，所述装置还包括：
55.第五确定模块，用于当所述第二分词结果和所述第三分词结果一致时，将所述第二分词结果或所述第三分词结果确定为所述目标文本的分词结果。
56.基于上述方案，所述分词词典包括：预设类别名称词、口语化词以及标准词典词。
57.基于上述方案，所述装置还包括：
58.第六确定模块，用于根据所述目标文本的应用场景，确定所述预设类别名称词。
59.基于上述方案，所述装置还包括：
60.收集模块，用于收集所述目标文本的应用场景的历史语句；
61.第二获取模块，用于根据所述历史语句，获取所述口语化词。
62.本公开实施例第三方面提供一种电子设备，包括：
63.用于存储处理器可执行指令的存储器；
64.处理器，与所述存储器连接；
65.其中，所述处理器被配置为执行如第一方面任意技术方案提供的分词方法。
66.本公开实施例第四方面提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行如第一方面任意技术方案提供的分词方法。
67.本公开实施例提供的技术方案，会将目标文本中的每一种可能的分词进行拆分，得到分组组合，在结合各个分词组合中的每个词的词信息得到分词分数，该分词分数能反映当前分词组合的正确性，再结合分词分数定目标文本的分词结果，从而可以减少人一种可能的分词导致的分词结果不精确或者不准确的现象，提升分词准确度和/或精确度。
附图说明
68.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
69.图1是根据一示例性实施例示出的一种分词方法的流程示意图；
70.图2是根据一示例性实施例示出的一种分词方法的流程示意图；
71.图3a是根据一示例性实施例示出的一种前向最大匹配方式的分词流程示意图；
72.图3b是根据一示例性实施例示出的一种后向最大匹配方式的分词流程示意图；
73.图4根据一示例性实施例示出的一种分词词典的生成流程示意图；
74.图5是根据一示例性实施例示出的一种分词方法的流程示意图；
75.图6是根据一示例性实施例示出的一种第一分词方式的流程示意图；
76.图7是根据一示例性实施例示出的一种基于深度学习模型的分词示意图；
77.图8是根据一示例性实施例示出的分词装置的结构示意图；
78.图9是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
79.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置的例子。
80.如图1所示，本公开实施例提供一种分词方法，所述方法包括：
81.s110：在使用第一分词方式对目标文本进行分词时，确定所述目标文本的n种分词组合；其中，所述n为正整数；
82.s120：基于分词字典，确定第m种所述分词组合中每个词的词信息；其中，所述m为小于或等于所述n的正整数；
83.s130：根据所述词信息，确定第m种分词组合的分词分数；
84.s140：根据n种所述分词组合的分词分数，确定所述目标文本的第一分词结果。
85.本公开实施例提供一种分词方法，可以由各种电子设备执行。该电子设备包括但不限于终端设备和/或服务器。
86.该终端设备包括但不限于：手机、平板电脑、笔记本电脑、车载设备或者智能家电设备或者智能办公设备。
87.该分词方法可以用于多个语种的分词，示例性地，至少可以用于中文分词和/或英文分词。
88.在使用第一分词方式进行目标文本的分词时，会遍历出每一个该目标文本可能的分词组合。例如，假设目标文本包括s个单字；按在从1至s个单字的任意组合粒度，得到目标文本的每一个分词组合。
89.示例性地，目标文本为：我爱蔬菜；则该语句的分词组合包括：“我”、“爱”、“蔬”以及“菜”4个单字的分词组合；“我爱”、“蔬”以及“菜”这种2、1、1的分词组合；“我爱”以及“蔬菜”这种2、2的分词组合；“我爱蔬”以及“菜”的3、1的分词组合；“我爱蔬菜”的4字长词的分词组合、“我”、“爱蔬”、“菜”的1、2、1的分词组合；“我”以及“爱蔬菜”的1、3的分词组合等。
90.基于分词词典，查询每一种备选的分词词组中每一个词的词信息。该词信息包括词性和/或词频和/或词长等。
91.所述词性可包括：名词、动词、形容词、代词、助词、语气词、副词、状态等。不同语种可能对词具有不同的词性。例如，英文具有动名词，而中文无动名词。
92.词频可以理解为：分词词典中每个词被命中的次数与所有词被命中的总次数之间的比值。
93.示例性地，针对中文而言，词长可反映词包含单字个数等。
94.当然以上仅仅是词信息的举例。
95.在本公开实施例中，使用第一分词方式进行目标文本分词时，会得到n种分词，这n的大小可取决于目标文本包含的单字个数和/或单词个数。
96.在本公开实施例中，会基于分词词典获取每一种分词组合中每个词的词信息，如此根据对应词的词信息，对每一种分词组合中的各个词进行打分。然后结合每一种分词组合中所有词的打分，得到每一种分词组合中的分词分数。
97.在打分时，根据词性，确定该词在目标文本中语义表达重要性，重要性越高则打分越高。即根据词性可以确定对应词的语义丰富程度；语义丰富程度和打分正相关。通常情况下，名词的语义丰富程度将高于形容词或者助词的语义丰富程度。形容词和助词的语义丰富程度可能高于动词的语义丰富程度。动词的语义丰富程度高于语气助词和/或代词的语义丰富程度。
98.示例性地，将分词分数最高的分词组合，作为所述目标文本的第一分词结果，该第一分词结果可为该目标文本的最终分词结果。
99.所述目标文本可为：智能客户接收到的自然语句等或者从网络搜索到的自然语句。
100.本公开实施例提供的分词方法，会将目标文本中的每一种可能的分词进行拆分，得到分组组合，在结合各个分词组合中的每个词的词信息得到分词分数，该分词分数能反映当前分词组合的正确性，再结合分词分数定目标文本的分词结果，从而可以减少人一种可能的分词导致的分词结果不精确或者不准确的现象，提升分词准确度和/或精确度。
101.示例性地，所述s120可包括：确定第m种所述分词组合中每个词的词性和词频；
102.所述s130可包括：根据所述第m种所述分词组合中每个词的词性和词频，确定第m种所述分词组合的分词分数。
103.在本公开实施例中，可以通过查询分词词典，确定每一种分词组合中每一个词的词性和词频。然后得到每一种分词组合中各个词在词性和词频两个方面的打分；然后将各个分词组合中各个词的打分加权求和，将得到每一种分词组合的分词分数。
104.在一些实施例中，所述基于分词字典，确定第m种所述分词组合中每个词的词信息，还包括：
105.当第m种所述分词组合种存在至少一个词具有多种词性时，根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性。
106.若一个词具有多种词性，此时将根据该词所在目标文本的语境来确定该分词的词性。示例性地，在一种方式根据词在目标文本中的位置，确定目标文本提供的上下文，基于该目标文本提供的上下文确定对应词的词性。
107.在另一种方式，该目标文本可为多轮对话，或者目标文本可为一段话中的一句话等；因此，可以根据目标文本的前后语句得到目标文本的上下文，因此还可以根据目标文本的相邻语句提供的上下文，确定该目标文本中的每一个分词组合中各个词的词性。
108.在一些实施例中，可以结合上述多种方式，确定目标文本中每一个分词组合中的各个词的词性，具体实现方式不局限于上述方式。
109.在一些实施例中，所述当第m种所述分词组合种存在至少一个词具有多种词性时，根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性，包括：
110.当第m种所述分词组合种存在至少一个词具有多种词性时，将第m种所述分词组合
输入基于语境确定词性的深度学习模型，得到所述深度学习模型输出的词性。
111.在本公开实施例中，利用深度学习模型对各个分词组合进行处理，得到基于语境确定词性的词性输出。
112.示例性地，该深度学习模型会确定出第n中分词组合中各个分词分别为各种词性的概率，选择概率最高的词性作为对应分词的最终词性。
113.在一些实施例中，所述方法还包括：
114.确定第m种所述分词组合包含的词个数；
115.确定n种所述分词组合各分词组合包含的词个数总和；
116.根据所述第m种分词组合包含的词个数和所述词个数总和，确定第m种所述分词组合的词长度分数。
117.所述s130可包括：根据所述词信息以及所述词长度分数，确定第m种分词组合的分词分数。
118.如图2所示，本公开实施例提供一种分词方法，所述方法包括：
119.s210：采用第二分词方式进行目标文本的分词，得到第二分词结果；
120.s220：采用第三分词方式进行所述目标文本的分词，得到第三分词结果；
121.s230：当所述第二分词结果和所述第三分词结果不一致时，确定采用所述第一分词方式对所述目标文本进行分词。
122.此处的第二分词方式和第三分词方式均不同于第一分词方式。
123.示例性地，若所述第二分词方式为前向最大匹配方式，则所述第三分词方式为后向最大匹配方式。若所述第二分词方式为后向最大匹配方式，则所述第三分词方式为前向最大匹配方式。
124.如图3a所示，所述前向最大匹配方式可如下：
125.将目标文本中分词文本和分词词典中的词进行匹配；
126.如果匹配失败，则去掉文本中最后一个字，再次去词典中匹配；
127.重复该操作直到匹配成功或者只有单字。
128.然后，去掉文本中已经匹配的词，再次重复上面的操作，直到整个文本都匹配成功。
129.上述操作会得到目标文本中最长匹配词作为前向最大匹配方式的分词结果。
130.如图3b所示，所述后向最大匹配方式可如下：
131.将目标文本中分词文本和分词词典中的词进行匹配；
132.如果匹配失败，则去掉文本中最前面一个字，再次去词典中匹配；
133.重复该操作直到匹配成功或者只有单字。
134.然后，去掉文本中已经匹配的词，再次重复上面的操作，直到整个文本都匹配成功。
135.上述操作会得到目标文本中最长匹配词作为前向最大匹配方式的分词结果。
136.本公开实施例中，第二分词结果和第三分词结果不一致可以理解为：第二分词结果和第三分词结果不相同。
137.若第二分词方式得到第二分词结果和第三分词方式得到的第三分词结果不一致，说明当前没有找到最合适当前目标文本的分词方式，此时考虑启动本公开实施例提供的第
一分词方式进行分词，基于不同分词粒度对每一种分词方式进行处理，得到每一种分词组合的分词分数，从而减少因为第二分词方式和/或第三分词方式这种高效率但是可能存在分词组合方式遗漏方式，遗漏的分词组合。
138.在本公开实施例中，所述第二分词方式和所述第三分词方式的分词计算量都可以小于所述第一分词方式的计算量，或者，所述第二分词方式和所述第三分词方式的分词计算量之和小于第一分词方式的计算量。但是第一分词方式的分词精确度可高于第二分词方式的分词精确度和第三分词方式的精确度。
139.在一些实施例中，如图2所示，所述方法还包括：
140.s240：当所述第二分词结果和所述第三分词结果一致时，将所述第二分词结果或所述第三分词结果确定为所述目标文本的分词结果。
141.若第二分词结果和第三分词结果一致，可以理解为：所述第二分词结果和第三分词结果相同。若第二分词结果和第三分词结果相同，则说明当前的第二分词结果或者第三分词结果的准确性或者精确性较高，因此可直接将第二分词结果或第三分词结果作为目标文本的最终分词输出即可。
142.如此，在效率较高的第二分词方式和第三分词方式无法给出较为精确的分词结果时，才启用本公开实施例提供的第一分词方式进行目标文本的分词，从而实现了目标文本的分词精确性和效率的兼顾。
143.所述第一分词方式、第二分词方式以及第三分词方式使用到的分词词典都可以使用经典的标准词典。
144.在本公开实施例中为了提升分词精确度，会在标准词典的基础上，通过增加特定类别的名称词以及口语化词得到适用于本公开实施例中目标文本分词的分词词典。即在一些实施例中，所述分词词典包括：预设类别名称词、口语化词以及标准词典词。
145.示例性地，该预设类别名称词可包括：商品名称词和/或服务名称词。
146.所述口语化词可包括：语气助词的叠词和/或缩略语。示例性地，口语化词可包括“我的我的”。
147.为了提升分词效率，减少分词词典中不必要的词。在本公开实施例中，所述方法还包括：根据所述目标文本的应用场景，确定所述预设类别名称词。
148.例如，智能客服场景下，可以根据智能客服提供相关服务和/或商品的语音对话，则收集在应用场景下的服务和/或商品的商品名称词和/或服务名称词，以及与该商品名称词和/或服务名称词相关的口语化表达涉及的词。
149.将预设类别名称词加入到分词词典之后，此时不管是采用第一分词方式至第三分词方式中任意一种分词方式都能够识别并提炼出预设类别名称词。
150.在一些实施例中，所述方法还包括：
151.收集所述目标文本的应用场景的历史语句；
152.根据所述历史语句，获取所述口语化词。
153.收集当前时刻之前的目标文本发生的应用场景内产生的历史语句。该历史语句可为自然语言语句。
154.根据历史语句可提炼出在该应用场景下会发生或者发生频率高与预设值的口语化词。
155.将该口语化词添加到分词词典之后，基于该分词词典进行的分词，可以识别口语化词。
156.针对智能客服系统而言，常用的词典并不能很好满足智能客服所处的环境，主要是口语化严重和商品化名称很多。
157.且由于本技术的分词词典是基于目标文本的应用场景确定的，因此分词词典中不会有大量与目标文本无关的词匹配，从而能够提升分词效率。
158.口语化严重表现在用户在客服机器人对话的时候，会更多的带有“嗯”、“嗯嗯”、“好”、“好好”、“我的我的xx”等带有很多重复的词或字，
159.商品化名称很多主要表现，客服这种场景所特有的，对某商品或者服务的智能客服而言，用户更多的是咨询关于产品或服务有关的，比如：购买新机、商品物流、售后等等问题。
160.如果词典中缺少这些商品名称很有可能导致最后语音识别不能正确出相应的商品名称。分词算法中不管前向最大匹配算法还是后向最大匹配算法都会存在一个问题，分词结果对于某些词分词非常不准，比如：经常有意见，前向的结果可能是经常/有意/见，后向结果可能是经/常有/意见。
161.双向最大匹配算法依赖前向最大匹配算法、后向最大匹配算法的结果，在前向后向结果不一致时随机选择一个最为结果，其结果还是不准确。
162.如图4至图5所示，本公开实施例提供的分词方法，可包括：
163.步骤1：商品名称收集。
164.首先，构建一个商品名称数据库，在该数据库内定义好各种字段。这些字段可包括名称、发布时间、商品类别、商品子类别、是否中英混等字段。
165.定义好数据库之后，基于知识图谱获取商品和/或服务分类大全数据，导入到商品和/或服务名称至数据库中。然后通过各种网络技术，主要是编写相应代码提取网页中是商品的相关信息并导入到商品名称数据库中，同时防止重复导入相同名称的商品名称。
166.通过该方法累计收集商品名称的词条。
167.步骤2：口语化文本分析：
168.首先，通过获取已有的智能客服系统中语音识别子系统识别的文本，由于文本每天产生的量特别大，因此可以通过大数据的文本收集和统计，则进行口语化文本的分析，从而得到口语化词。
169.然后，针对一天内产生的文本，使用最大连续重复匹配方法统计其中重复的字或词，该相关技术中开源算法等算法可以统计出类似“嗯嗯嗯”“我的我的”这样重复的表达方式。
170.这里，假设有重复的字或词即为口语化的表达，对于智能客服系统而言，这样的设计是可行的，因为本身智能客服系统中口语化严重表现出来的这种重复的现象很多。
171.步骤3：词性统计，且可包括：
172.首先，将商品名称词全部标注成名词，将口语化根据具体情况标注成助词、语气词、动词或形容词等。
173.然后，针对标准词典原有的每个词，通过网上字典或标准词典自带的词性结果来标注词性结果；最后将商品名称词、口语化词以及词典词组合成新的词典，该新组成的词典
即为前述分词词典。后续分词词典可以简称为词典。
174.步骤4：词频统计，且可包括：
175.主要是统计词典中每个词出现的次数，由于人说每句话的时候，使用到的词有限，必然会出现有些词出现的次数较高，有些词出现的次数较低。统计词频可以直观看出每个词出现次数的高低。
176.首先，对之步骤2中智能客服系统中文本在加上已在其他项目中收集的文本合并在一起；
177.然后，对词典中的每个词分别在这些大量文本中逐条统计该词出现的次数并累加。
178.这样不断的对每个词统计词频，就可以拿到整个词典的词频统计。如图4所示，通过步骤1至步骤4操作，可得到智能客服专属的分词词典。
179.如图5所示，本公开实施例提供的分词方法还可包括：
180.步骤5：前向最大匹配可如下：
181.基于前面构建的词典，对于每个待分词的文本，如果文本中存在空格，以文本中的空格分成子文本。对于每个子文本，放到词典中去匹配，如果匹配失败，则去掉子文本中的最后一个字，再次匹配，直到匹配成功或者只剩下单字，将该结果保存到分词结果中。去掉已匹配的文本，剩下的子文本再次重复该操作，直到子文本中都匹配完成。重复上述的过程，直到每个子文本对完成匹配。
182.步骤6：后向最大匹配可如下：
183.基于前面构建的词典，对于每个待分词的文本，如果文本中存在空格，以文本中的空格分成子文本。
184.对于每个子文本，放到词典中去匹配，如果匹配失败，则去掉子文本中的最前面一个字，再次匹配，直到匹配成功或者只剩下单字，将该结果保存到分词结果中。
185.去掉已匹配的文本，剩下的子文本再次重复该操作，直到子文本中都匹配完成。重复上述的过程，直到每个子文本对完成匹配。
186.步骤7：前向最大匹配得到的分词结果和后向最大匹配得到的分词结果的对比。这一步主要对比步骤5和步骤6得到的分词结果是否一致，
187.如果一致直接返回前向最大匹配或后向最大匹配的分词结果；
188.否则就进入到词典文本匹配，对待分词的文本进行词典匹配，得到多种分词结果。
189.步骤8：词典文本匹配，此处的词典文本匹配即采用前述第一分词方式的分词处理。对于待分词的文本，根据词典的组合能得到多种分词结果。
190.首先，对词典按照词长度从大到小排序，然后遍历整个词典，当发现词被包含在待分词的文本中时，就截取出该部分，待分词的文本的剩余部分在用整个词典做文本匹配，直到最外层的词典遍历完。
191.由于，对于第一层的词典遍历时，对于每一个匹配到词，都需要对待分词的文本的剩余部分利用递归算法继续词典遍历，而使用的词典包含的词量非常大，会耗时较长的时间来处理。
192.在保证训练文本分词的效果的同时，尽量减少分词带来的时间消耗。
193.步骤9：分词分数计算。单个词在不同的语境中词性可能不一样，这里使用自然语
言处理(natural language processing，nlp)中的深度学习方法，给出每组词中每个词在词典中该词最可能的词性。若一个词具有多个备选词性时，采用深度学习模型基于语境给出准确的词性。
194.如图7所示，深度学习模块可包括：词语嵌入层(word embeddings)、双向长短记忆网(bi-directional long short-term memory，bi-lstm)编码器、以及条件随机场(conditional random field，crf)层。词语嵌入层将分词组合中对应词语转换成嵌入式向量，经过bi-lstm编码器编码之后，通过crf层输出各个分词的词性。
195.然后，对步骤8中得到的每组词计算分词分数，其公式如下：
[0196][0197]
其中，w表示带分词文本多组分词中的一组，α表示系数。α取值范围0.4-0.7，示例性地α取值为0.6。β表示系数，β取值范围0.2-0.5。示例性地β取值为0.3。
[0198]
p(w)表示改组词中每个单词的词性得分，每个词性分配一个分值，词性总分值为1。词性得分可如表1所示：
[0199][0200][0201]
表1fre(w)表示改组词中每个单词的词频得分可如下：
[0202][0203]
其中，f(w)表示单个单词w的频次，c表示词典中所有词。
[0204]
l(w)表示多组词语中每一组词语的得分，其主要计算形式如下：
[0205][0206]
其中，l(w)表示该分词分组w的长度，a表示所有符合条件的分词总组数。例如，一个分词分组包括y个词，则该分词分组的l(w)等于4。
[0207]
这样对于每一组词计算score(w)，取得分最高的那种词作为分词的结果。
[0208]
总体来说，本技术方案关键在于步骤8到步骤9，在双向分词结果不一致的情况，使
用第一分词方式那来对待分词的文本做分词处理，优化这部分的分词效果。
[0209]
如图8所示，本公开实施例提供一种分词装置，所述装置包括：
[0210]
第一分词模块110，用于在使用第一分词方式对目标文本进行分词时，确定所述目标文本的n种分词组合；其中，所述n为正整数；
[0211]
词信息模块120，用于基于分词字典，确定第m种所述分词组合中每个词的词信息；其中，所述m为小于或等于所述n的正整数；
[0212]
分词分数模块130，用于根据所述词信息，确定第m种分词组合的分词分数；
[0213]
分词结果模块140，用于根据n种所述分词组合的分词分数，确定所述目标文本的第一分词结果。
[0214]
本公开实施例提供过的分词装置可包含在各种电子设备中。
[0215]
在一些实施例中，所述第一分词模块110、词信息模块120、分词分数模块130以及所述分词结果模块140可为程序模块；所述程序模块被处理器执行之后，能够实现上述操作。
[0216]
在另一些实施例中，所述第一分词模块110、词信息模块120、分词分数模块130以及所述分词结果模块140可为软硬结合模块；所述软硬结合模块包括但不限于可编程阵列；所述可编程阵列包括但不限于：现场可编程阵列和/或复杂可编程阵列。
[0217]
在还有一些实施例中，所述第一分词模块110、词信息模块120、分词分数模块130以及所述分词结果模块140可为纯硬件模块；所述纯硬件模块包括但不限于：专用集成电路。
[0218]
在一些实施例中，所述词信息模块120，具体用于确定第m种所述分词组合中每个词的词性和词频；
[0219]
所述分词分数模块130，用于根据所述第m种所述分词组合中每个词的词性和词频，确定第m种所述分词组合的分词分数。
[0220]
在一些实施例中，所述词信息模块120，具体用于当第m种所述分词组合种存在至少一个词具有多种词性时，根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性。
[0221]
在一些实施例中，所述词信息模块120，具体用于当第m种所述分词组合种存在至少一个词具有多种词性时，将第m种所述分词组合输入基于语境确定词性的深度学习模型，得到所述深度学习模型输出的词性。
[0222]
在一些实施例中，所述装置还包括：
[0223]
第一确定模块，用于确定第m种所述分词组合包含的词个数；
[0224]
第二确定模块，用于确定n种所述分词组合各分词组合包含的词个数总和；
[0225]
第三确定模块，用于根据所述第m种分词组合包含的词个数和所述词个数总和，确定第m种所述分词组合的词长度分数；
[0226]
所述分词分数模块130，具体用于根据所述词信息以及所述词长度分数，确定第m种分词组合的分词分数。
[0227]
在一些实施例中，所述装置还包括：
[0228]
第二分词模块，用于采用第二分词方式进行目标文本的分词，得到第二分词结果；
[0229]
第三分词模块，用于采用第三分词方式进行所述目标文本的分词，得到第三分词
结果；
[0230]
第四确定模块，用于当所述第二分词结果和所述第三分词结果不一致时，确定采用所述第一分词方式对所述目标文本进行分词。
[0231]
在一些实施例中，所述装置还包括：
[0232]
第五确定模块，用于当所述第二分词结果和所述第三分词结果一致时，将所述第二分词结果或所述第三分词结果确定为所述目标文本的分词结果。
[0233]
在一些实施例中，所述分词词典包括：预设类别名称词、口语化词以及标准词典词。
[0234]
在一些实施例中，所述装置还包括：
[0235]
第六确定模块，用于根据所述目标文本的应用场景，确定所述预设类别名称词。
[0236]
在一些实施例中，所述装置还包括：
[0237]
收集模块，用于收集所述目标文本的应用场景的历史语句；
[0238]
第二获取模块，用于根据所述历史语句，获取所述口语化词。
[0239]
本公开实施例提供一种电子设备，包括：
[0240]
用于存储处理器可执行指令的存储器；
[0241]
处理器，与所述存储器连接；
[0242]
其中，所述处理器被配置为执行如前述任意技术方案提供的分词方法，具体可包括如图1至图7任一所示的方法。
[0243]
该电子设备包括但不限于各种固定终端和/或移动终端。
[0244]
该处理器可与存储器通过总线连接，该总线包括但不限于：ips总线和/或i2c总线等。
[0245]
在一些实施例中，所述电子设备还包括网络接口，同样地所述网络接口通过总线等于所述处理器连接。所述网络接口可用于所述电子设备连接到网络。
[0246]
本公开实施例提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行前述任意技术方案提供的分词方法，可如图1至7任意一个所述的分词方法。
[0247]
参照图9，本公开实施例提供一种电子设备，该电子设备为前述显示设备。电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，多媒体数据组件810，输入/输出(i/o)的接口812，传感器组件814，以及通信组件816。处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。
[0248]
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪
存储器，磁盘或光盘。
[0249]
电源组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。
[0250]
多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作状态，如拍摄状态或视频状态时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0251]
多媒体数据组件810被配置为输出和/或输入多媒体数据信号。例如，多媒体数据组件810包括一个麦克风(mic)，当电子设备800处于操作状态，如呼叫状态、记录状态和语音识别状态时，麦克风被配置为接收外部多媒体数据信号。所接收的多媒体数据信号可以被进一步存储在存储器804或经由通信组件816发送。
[0252]
在一些实施例中，多媒体数据组件810还包括一个扬声器，用于输出多媒体数据信号。
[0253]
i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，操作钮等。这些操作钮可包括但不限于：主页操作钮、音量操作钮、启动操作钮和锁定操作钮。
[0254]
传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
[0255]
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如wi-fi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0256]
在示例性实施例中，装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述任意一个实施例提供的分词方法。
[0257]
该分词方法可包括：
[0258]
在使用第一分词方式对目标文本进行分词时，确定所述目标文本的n种分词组合；其中，所述n为正整数；基于分词字典，确定第m种所述分词组合中每个词的词信息；其中，所述m为小于或等于所述n的正整数；根据所述词信息，确定第m种分词组合的分词分数；根据n种所述分词组合的分词分数，确定所述目标文本的第一分词结果。
[0259]
可以理解地，所述基于分词字典，确定第m种所述分词组合中每个词的词信息，包括：
[0260]
确定第m种所述分词组合中每个词的词性和词频；
[0261]
所述根据所述词信息，确定第m种分词组合的分词分数，包括：
[0262]
根据所述第m种所述分词组合中每个词的词性和词频，确定第m种所述分词组合的分词分数。
[0263]
可以理解地，所述基于分词字典，确定第m种所述分词组合中每个词的词信息，还包括：当第m种所述分词组合种存在至少一个词具有多种词性时，根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性。
[0264]
可以理解地，所述当第m种所述分词组合种存在至少一个词具有多种词性时，根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性，包括：
[0265]
当第m种所述分词组合种存在至少一个词具有多种词性时，将第m种所述分词组合输入基于语境确定词性的深度学习模型，得到所述深度学习模型输出的词性。
[0266]
可以理解地，所述方法还包括：确定第m种所述分词组合包含的词个数；确定n种所述分词组合各分词组合包含的词个数总和；根据所述第m种分词组合包含的词个数和所述词个数总和，确定第m种所述分词组合的词长度分数；
[0267]
所述根据所述词信息，确定第m种分词组合的分词分数，包括：根据所述词信息以及所述词长度分数，确定第m种分词组合的分词分数。
[0268]
可以理解地，所述方法还包括：采用第二分词方式进行目标文本的分词，得到第二分词结果；采用第三分词方式进行所述目标文本的分词，得到第三分词结果；当所述第二分词结果和所述第三分词结果不一致时，确定采用所述第一分词方式对所述目标文本进行分词。
[0269]
可以理解地，所述方法还包括：当所述第二分词结果和所述第三分词结果一致时，将所述第二分词结果或所述第三分词结果确定为所述目标文本的分词结果。
[0270]
可以理解地，所述分词词典包括：预设类别名称词、口语化词以及标准词典词。
[0271]
可以理解地，所述方法还包括：根据所述目标文本的应用场景，确定所述预设类别名称词。
[0272]
可以理解地，所述方法还包括：收集所述目标文本的应用场景的历史语句；根据所述历史语句，获取所述口语化词。
[0273]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0274]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并
且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种监测市场监管数据开放水平的大数据模型与计算方法与流程

分词方法以及装置、电子设备及存储介质与流程

相关文献

最热文献