词库构建方法、装置、电子设备和存储介质与流程

2022-06-08 11:08:56 来源：中国专利 TAG：

1.本技术属于输入法领域，具体涉及一种词库构建方法、装置、电子设备和存储介质。

背景技术：

2.生活中存在大量中英文数字混合的词。目前用户在使用输入法的过程中，对于混合的词往往通过不断切换键盘类型来进行输入，影响输入效率。
3.对于输入法应用来说，如何构建出包括混合的词汇的词库是目前研究的重要问题。
4.现有的混合词词库的构建方式主要有如下两种方式：(1)直接利用第三方开源工具切分一个包含英文和数字的句子，但该方式通常直接分别将英文和数字片段各当作一个词，但是单独的一个英文或数字无明显的语义指向，因此，词方法构建的混合词词库不合理。(2)先人工构建混合词词库，再利用第三方开源工具进行分词，但是该种方式需要投入大量人力，效率低下，且对于人工没有维护到的词，后续使用开源工具进行分词，仍然会存在第一种方案的缺陷。

技术实现要素：

5.本技术实施例的目的是提供一种词库构建方法、装置、电子设备和存储介质，能够解决现有技术中输入法中的混合词词库的构建不合理，以及需要大量人工，效率低下的问题。
6.第一方面，本技术实施例提供了一种词库构建方法，该方法包括：
7.对第一语料对应的第一分词结果中的各分词进行处理，得到n个i元组集合；i∈[1，k]，k和n为大于1的正整数；
[0008]
分别从每个i元组集合中筛选出包括预设字符的元组集合，对应得到目标i元组集合；其中，所述预设字符包括至少两种输入模式下输入的字符；
[0009]
统计目标元组集合中的各元组的频次；其中，所述目标元组集合为n个i元组集合中的集合；
[0010]
基于所述频次确定目标元组，并基于所述目标元组构建词库。
[0011]
第二方面，本技术实施例提供了一种词库构建装置，该装置包括：
[0012]
第一处理模块，用于对第一语料对应的第一分词结果中的各分词进行处理，得到n个i元组集合；i∈[1，k]，k和n均为大于1的正整数；
[0013]
筛选模块，用于分别从每个i元组集合中筛选出包括预设字符的元组集合，分别对应得到目标i元组集合；其中，所述预设字符包括至少两种输入模式下输入的字符；
[0014]
统计模块，用于统计目标元组集合中的各元组的频次；其中，所述目标元组集合为n个i元组集合中的集合；
[0015]
构建模块，用于基于所述频次确定目标元组，并基于所述目标元组构建词库。
[0016]
第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0017]
第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0018]
第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
[0019]
第六方面，本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
[0020]
在本技术实施例中，通过对第一语料对应的第一分词结果中的各分词进行处理，得到n个i元组集合，然后分别从每个i元组集合中筛选出包括预设字符的元组集合，分别对应得到目标i元组集合，由于预设字符为包括至少两种输入模式下输入的字符，如此得到的目标i元组集合中的元组为包含有至少两种输入模式下输入的字符，这样根据统计的目标元组集合中的各元组的频次所构建的词库中具有包含有至少两种输入模式下输入的字符，保证具有完整语义的预设字符不会被分开，且该词库构建过程中，无需大量人工，提升了词库的构建效率。
附图说明
[0021]
图1是根据一示例性实施例示出的词库构建方法的流程图；
[0022]
图2是根据一示例性实施例示出的对第一语料进行分词处理，得到第一分词结果的示意图；
[0023]
图3是根据一示例性实施例示出的对第一分词结果进行处理，得到i元组集合的示意图；
[0024]
图4是根据一示例性实施例示出的对i元组集合进行筛选，得到目标i元组集合的示意图；
[0025]
图5是根据一示例性实施例示出的确定第一候选元组的示意图；
[0026]
图6是根据一示例性实施例示出的利用本技术实施例提供的词库构建方法对第二语料进行分词，所得到第二分词结果的示意图；
[0027]
图7是根据一示例性实施例示出的词库构建装置的结构示意图；
[0028]
图8是根据一示例性实施例示出的一种电子设备的结构框图；
[0029]
图9是本技术实施例的一种电子设备的硬件结构示意图。
具体实施方式
[0030]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
[0031]
本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互
换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
[0032]
本技术实施例提供了一种词库构建方法、装置、电子设备和存储介质，通过对第一语料对应的第一分词结果中的各分词进行处理，得到i元组集合，然后分别从每个i元组集合中筛选出包括预设字符的元组集合，分别对应得到目标i元组集合，由于预设字符为包括至少两种输入模式下输入的字符，如此得到的目标i元组集合中的元组为包含有至少两种输入模式下输入的字符，这样根据统计的目标元组集合中的各元组的频次所构建的词库中具有包含有至少两种输入模式下输入的字符，保证具有完整语义的预设字符不会被分开，且该词库构建过程中，无需大量人工，提升了词库的构建效率。
[0033]
下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的词库构建方法进行详细地说明。
[0034]
图1是本技术实施例所提供的一种词库构建方法的流程示意图，该词库构建方法的执行主体可以为服务器，需要说明的是，上述执行主体并不构成对本技术实施例的限定。
[0035]
如图1所示，本技术实施例提供的词库构建方法可以包括步骤110-步骤140。
[0036]
下面对本技术实施例中的法词库构建方法进行详细说明。
[0037]
步骤110，对第一语料对应的第一分词结果中的各分词进行处理，得到i元组集合。
[0038]
其中，第一语料可以是获取到的文本信息，也可以是基于语音信息进行音字翻译所得到的文本信息，这里不做限定。
[0039]
在一个示例中，第一语料可以是一段话或几段话，如图1所示，第一语料可以是“今天天气不错呀”、“你的偶像是谁”、“ab是我的偶像”、“超级明星ab首发”和“这题答案是c吧”。
[0040]
需要说明的是，上述示例中的“ab”为由数字、中文和英文中的两者组成的人名，例如可以是有由英文和中文组成的人名，即a为英文字母，b为中文字。
[0041]
在本技术的一些实施例中，第一分词结果可以是对第一语料进行分词后，所得到的分词结果。
[0042]
对应的，在本技术的一些实施例中，在步骤110之前，上述所涉及的词库构建方法还可以包括：
[0043]
对第一语料进行分词处理，得到第一分词结果。
[0044]
在本技术的一些实施例中，对第一语料进行分词可以是利用现有的分词工具进行分词，如此，以提升对第一语料进行分词的效率。
[0045]
在一个示例中，继续参考图1，对图1中的第一语料进行分词后，所得到的第一分词结果如图1中的右图所示。
[0046]
i元组集合可以是对第一分词结果中的各分词进行处理后，所述得到的元组集合。这里的i∈[1，k]，k为正整数。
[0047]
在本技术的一些实施例中，为了进一步得到合理的输入法词库，步骤110具体可以包括：
[0048]
在i＝1的情况下，将第一分词结果中的各分词形成独立的元组，得到单元组集合；
[0049]
在i＞1的情况下，对第一分词结果中的各分词按照相邻的i个分词进行组合的方式进行组合，得到多元组集合。
[0050]
其中，单元组集合可以将第一分词结果中的各分词形成独立的元组所构成的集合。
[0051]
多元组集合，可以是将第一分词结果中的各分词按照相邻的i个分词进行组合的方式进行组合所构成的集合。
[0052]
在一个示例中，以第一语料为“今天天气真好呀”为例，对该第一语料进行分词处理后，得到的第一分词结果为“今天”/“天气”/“真好”/“呀”，当i＝1时，将上述的“今天”/“天气”/“真好”/“呀”中的各分词单独形成元组，即得到单元组集合：(今天)，(天气)，(真好)和(呀)。
[0053]
继续上述示例，当i＝2时，将第一分词结果“今天”/“天气”/“真好”/“呀”中的各分词按照相邻的2个分词进行组合的方式形成2元组集合：(今天，天气)，(天气，真好)和(真好，呀)。
[0054]
继续参数示例，当i＝3时，将第一分词结果“今天”/“天气”/“真好”/“呀”中的各分词按照相邻的3个分词进行组合的方式形成3元组集合：(今天，天气，真好)和(天气，真好，呀)。以此类推，可形成多元组集合。
[0055]
在另一示例中，如图2所示，以第一语料为图1中的右图为例，在得到第一分词结果(图2的右图所示)后，可根据第一分词结果，得到i元组集合，即可得到图3右图所示的结果。
[0056]
需要说明的是，为了简洁起见，图3右图中将单元组集合省略了，但是并不代表生成单元组集合。
[0057]
在本技术的实施例中，在i＝1的情况下，可以将第一分词结果中的各分词形成独立的元组，得到单元组集合；在i＞1的情况下，可以对第一分词结果中的各分词按照相邻的i个分词进行组合的方式进行组合，得到多元组集合，如此可得到精确的i元组集合，进而可基于该i元组集合，合理得到输入法词库。
[0058]
步骤120，分别从每个i元组集合中筛选出包括预设字符的元组集合，分别对应得到目标i元组集合。
[0059]
其中，预设字符可以是预设设置的字符，这里的预设字符可以是包括至少两种输入模式下输入的字符。
[0060]
在一个示例中，若输入法以中文为主，则这里的预设字符可以是包含英文字母和/或数字的字符。若输入法以英文字母为主，则这里的预设字符可以是包含中文和/或数字的字符。即这里的预设字符可以是包括至少两种输入模式下输入的字符。
[0061]
目标i元组集合可以是分别从每个i元组集合中筛选出包括预设字符的元组所对应构成的集合。
[0062]
在一个示例中，可以是从单元组集合中筛选出包括预设字符的元组，得到目标单元组集合。从2元组集合中筛选出包括预设字符的元组，得到目标2元组集合。从3元组集合中筛选出包括预设字符的元组，得到目标3元组集合。以此类推，得到目标i元组集合。
[0063]
在一个具体示例中，如图4所示，以输入法为中文为主，第一语料为图1右图为例，在得到图3中的右图所示的i元组集合后，可从各i元组集合中筛选出包括英文字母和数字的元组，对应得到目标i元组集合。
[0064]
步骤130，统计目标元组集合中的各元组的频次。
[0065]
其中，目标元组集合可以是n个i元组集合中的集合。具体的可以是i元组集合中的集合中的多元组集合。
[0066]
步骤140、基于频次确定目标元组，并基于目标元组构建词库。
[0067]
其中，目标元组可以是基于频次确定的元组。
[0068]
在本技术的一些实施例中，为了进一步得到保证具有完整语义的预设字符不会被分开的输入法词库，步骤130具体可以包括：
[0069]
统计目标q元组集合中的各元组在目标q j元组集合中出现的频次，其中，q为大于或等于2的正整数。
[0070]
对应的，步骤140具体可以包括：
[0071]
筛选出频次大于或等于预设频次阈值的目标q元组集合中的各元组，得到第一候选元组；其中，j为大于或等于1的正整数；
[0072]
基于第二候选元组，构建词库。
[0073]
其中，
[0074]
预设频次阈值可以是预先设置的目标q元组集合中的各元组在目标q j元组集合中出现的频次的阈值。该阈值可以根据用户需求自行设置，这里不做限定。
[0075]
第一候选元组可以是筛选出的频次大于或等于预设频次阈值的目标q元组集合中的各元组。
[0076]
在一个示例中，如图5所示，以q＝2，j＝1为例，在得到图4中的右图所示的目标多元组集合后，统计目标2元组集合中的各元组(a，b)/(明星，a)/(是，c)/(c，吧)在目标3元组集合(a，b，是)/(超级，明星，a)/(明星，a，b)/(a，b，首发)(答案，是，c)/(是，c，吧)中出现的频次，在该频次大于或等于预设频次阈值(例如预设频次阈值可以是2)的情况下，则将该频次大于或等于预设频次阈值的2元组(a，b)筛选出来，得到第一候选元组。
[0077]
在本技术的一些实施例中，在得到第一候选元组后，可基于该第一候选元组，构建输入法词库，具体的可以是将该每个第一候选元组作为一个整体，构建输入法词库。
[0078]
在本技术的实施例中，统计目标q元组集合中的各元组在目标q j元组集合中出现的频次，筛选出频次大于或等于预设频次阈值的目标q元组集合中的各元组，得到第一候选元组；然后基于第一候选元组，构建输入法词库，如此构建的输入法词库后续可确保具有完整文本语义的预设字符不会被分开，这样得到更加合理的输入法词库，且构建输入法词库的过程中，无需人工参与，提升了输入法词库的构建效率。
[0079]
在本技术的一些实施例中，上述是针对目标多元组而言，为了进一步得到保证具有完整语义的预设字符不会被分开的输入法词库，在所述基于频次确定目标元组，并基于目标元组构建输入法词库之前，上述所涉及的词库构建方法还可以包括：
[0080]
针对目标单元组集合，将目标单元组集合中去除无文本含义的元组，得到第二候选元组；
[0081]
对应的，所述基于第一候选元组，构建输入法词库，具体可以包括：
[0082]
基于第一候选元组和第二候选元组，构建输入法词库。
[0083]
其中，无文本含义是无具体的文本语义，例如，针对单独的一个数字或一个英文字母而言，其无特别的语义，这样的元组可称为无文本含义的元组。
[0084]
第二候选元组可以是将目标单元组集合中去除无文本含义的元组后，保留剩余的单元组所得到的元组。
[0085]
在一个示例中，继续参考图4，在得到目标单元组集合：(c)和(a)后，将该目标单元组集合中无文本含义的元组去除，即将目标单元组集合中单独的一个数字或一英文字母去除，即将图4中的元组(c)和元组(a)去除，然后保留单元组集合中剩余的元组，得到第一候选元组。
[0086]
在本技术的实施例中，针对目标单元组集合，将目标单元组集合中去除无文本含义的元组，得到第二候选元组，然后基于第一候选元组和第二候选元组，构建输入法词库，如此构建的输入法词库后续可确保具有完整文本语义的预设字符不会被分开，这样得到更加合理的输入法词库，且构建输入法词库的过程中，无需人工参与，提升了输入法词库的构建效率。
[0087]
在本技术的一些实施例中，为了避免用户在输入至少两种不同的输入模式下的字符时，不断切换输入法键盘，在步骤140之后，上述所涉及的词库构建方法还可以包括：
[0088]
基于输入法词库对语言模型进行训练，得到训练后的目标语言模型。
[0089]
其中，目标语言模型可以是基于构建的输入法词库对语言模型进行训练后，得到的训练好的语言模型。
[0090]
在本技术的一些实施例中，具体的在利用输入法词库对语言模型进行训练时，可以是利用输入法词库对语料进行分词处理，然后统计各i元组集合中各元组出现的频次，基于该频次计算两个分词在相邻位置出现的概率，基于该概率值确定语言模型的损失函数，在该损失函数小于预设阈值的情况下，则确定该语言模型训练完成。
[0091]
在本技术的实施例中，通过构建的输入法词库可对语音模型进行训练，得到目标语言模型，以便后续可基于该目标语言模型对待进行分词的语料进行分词，进而得到完整语义的预设字符不会被分开的分词结果。
[0092]
在本技术的一些实施例中，在所述基于输入法词库对语言模型进行训练，得到训练后的目标语言模型之后，上述所涉及的词库构建方法还可以包括：
[0093]
基于目标语言模型对第二语料进行分词处理，第二分词结果。
[0094]
其中，第二语料可以是待利用目标语言模型进行分词的语料。该第二语料与第一语料相同，可以是获取到的文本信息，也可以是基于语音信息进行音字翻译所得到的文本信息，这里不做限定。
[0095]
第二分词结果可以是利用目标语言模型对第二语料进行分词处理后所得到的分词结果。
[0096]
在本技术的一些实施例中，第二分词结果中可以存在至少两种输入模式下输入的字符所组成的分词。
[0097]
在一个示例中，如图6所示，在得到目标语言模型后，利用该目标语言模型可以对第二语料(这里第二语料还是以图1中的第一语料为例来进行说明)进行，就会得到如图6中的右图所示的分词结果(即第二分词结果)，在该第二分词结果中，“ab”(该“ab”分词具有两种输入模式下输入的字符，即分别为英文输入模式下输入的字符“a”，以及中文输入模式下输入的字符“b”)不会被切分为“a”和“b”。
[0098]
在本技术的一些实施例中，目前的输入法键盘(例如9键键盘)若想输入“q7”，则首
先要切换到英文输入模式下，输入“q”，然后切换到数字输入模式下输入“7”。然而，将本技术实施例中得到的目标语言模型内嵌至输入法中，用户可直接利用输入法键盘(9键键盘)输入“774”，则可直接出现“q7”这个候选词(现有的9键的输入法键盘，若输入“774”，则不会出现“q7”这个候选词)。如此，利用本技术实施例提供的词库构建方法，可实现用户在前端若想要输入至少两种输入模式下输入的字符时，可无需切换输入模式，提升了用户的输入体验，从根本上提升了语言模型的质量。
[0099]
在本技术的实施例中，通过基于目标语言模型对第二语料进行分词处理，第二分词结果，由于该目标语言模型是基于输入法词库构建的，故基于该目标语言模型分词处理后所得到的第二分词结果中存在至少两种输入模式下输入的字符所组成的分词，实现了具有完整语义的两个分词不会被分开的效果。
[0100]
本技术实施例提供的词库构建方法，执行主体可以为词库构建装置。本技术实施例中以词库构建装置执行词库构建方法为例，说明本技术实施例提供的词库构建装置。
[0101]
基于与上述的词库构建方法相同的发明构思，本技术还提供了一种词库构建装置。下面结合图7对本技术实施例提供的词库构建装置进行详细说明。
[0102]
图7是根据一示例性实施例示出的一种词库构建装置的结构框图。
[0103]
如图7所示，词库构建装置700可以包括：
[0104]
第一处理模块710，用于对第一语料对应的第一分词结果中的各分词进行处理，得到n个i元组集合；i∈[1，k]，k和n均为大于1的正整数；
[0105]
筛选模块720，用于分别从每个i元组集合中筛选出包括预设字符的元组集合，分别对应得到目标i元组集合；其中，所述预设字符包括至少两种输入模式下输入的字符；
[0106]
统计模块730，用于统计目标元组集合中的各元组的频次；其中，所述目标元组集合为n个i元组集合中的集合；
[0107]
构建模块740，用于基于所述频次确定目标元组，并基于所述目标元组构建词库。
[0108]
在本技术的实施例中，通过第一处理模块对第一语料对应的第一分词结果中的各分词进行处理，得到i元组集合，然后基于筛选模块分别从每个i元组集合中筛选出包括预设字符的元组集合，分别对应得到目标i元组集合，由于预设字符为包括至少两种输入模式下输入的字符，如此得到的目标i元组集合中的元组为包含有至少两种输入模式下输入的字符，这样根据统计的目标元组集合中的各元组的频次所构建的输入法词库中具有包含有至少两种输入模式下输入的字符，保证具有完整语义的预设字符不会被分开，且该词库构建过程中，无需大量人工，提升了词库的构建效率。
[0109]
在本技术的一些实施例中，为了进一步得到合理的输入法词库，第一处理模块710具体可以包括：
[0110]
第一处理单元，用于在i＝1的情况下，将所述第一分词结果中的各分词形成独立的元组，得到单元组集合；
[0111]
第二处理单元，用于在i＞1的情况下，对所述第一分词结果中的各分词按照相邻的i个分词进行组合的方式进行组合，得到多元组集合。
[0112]
在本技术的一些实施例中，为了进一步得到保证具有完整语义的预设字符不会被分开的输入法词库，统计模块730具体可以用于：统计目标q元组集合中的各元组在目标q j元组集合中出现的频次；
[0113]
对应的，构建模块740，可以包括：
[0114]
筛选单元，用于筛选出频次大于或等于预设频次阈值的目标q元组集合中的各元组，得到第一候选元组；其中，j为大于或等于1的正整数；
[0115]
构建单元，用于基于所述第一候选元组，构建输入法词库。
[0116]
在本技术的一些实施例中，为了进一步得到保证具有完整语义的预设字符不会被分开的输入法词库，构建模块740还可以包括：
[0117]
第一确定单元，用于针对目标单元组集合，将所述目标单元组集合中去除无文本含义的元组，得到第二候选元组；
[0118]
对应的，构建单元具体可以用于：
[0119]
基于所述第一候选元组和所述第二候选元组，构建输入法词库。
[0120]
在本技术的一些实施例中，为了避免用户在输入至少两种不同的输入模式下的字符时，不断切换输入法键盘，上述所涉及的输入法词库构建装置还可以包括：
[0121]
训练模块，用于基于所述输入法词库对语言模型进行训练，得到训练后的目标语言模型。
[0122]
在本技术的一些实施例中，上述所涉及的输入法词库构建装置还可以包括：
[0123]
第二处理模块，用于基于所述目标语言模型对第二语料进行分词处理，第二分词结果；其中，所述第二分词结果中存在至少两种输入模式下输入的字符所组成的分词。
[0124]
本技术实施例中的输入法词库构建装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device，mid)、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，还可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
[0125]
本技术实施例中的输入法词库构建装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术实施例不作具体限定。
[0126]
本技术实施例提供的输入法词库构建装置能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。
[0127]
可选地，如图8所示，本技术实施例还提供一种电子设备800，包括处理器801和存储器802，存储器802上存储有可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现上述词库构建方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0128]
需要说明的是，本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0129]
图9为实现本技术实施例的一种电子设备的硬件结构示意图。
[0130]
该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输
入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。
[0131]
本领域技术人员可以理解，电子设备900还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
[0132]
其中，处理器910，用于对第一语料对应的第一分词结果中的各分词进行处理，得到n个i元组集合；i∈[1，k]，k和n为大于1的正整数；以及分别从每个i元组集合中筛选出包括预设字符的元组集合，对应得到目标i元组集合；其中，所述预设字符包括至少两种输入模式下输入的字符；以及统计目标元组集合中的各元组的频次；其中，所述目标元组集合为n个i元组集合中的集合；以及基于所述频次确定目标元组，并基于所述目标元组构建词库。
[0133]
如此，通过对第一语料对应的第一分词结果中的各分词进行处理，得到i元组集合，然后分别从每个i元组集合中筛选出包括预设字符的元组集合，分别对应得到目标i元组集合，由于预设字符为包括至少两种输入模式下输入的字符，如此得到的目标i元组集合中的元组为包含有至少两种输入模式下输入的字符，这样根据统计的目标元组集合中的各元组的频次所构建的输入法词库中具有包含有至少两种输入模式下输入的字符，保证具有完整语义的预设字符不会被分开，且该词库构建过程中，无需大量人工，提升了词库的构建效率。
[0134]
可选地，处理器910可以具体用于：在i＝1的情况下，将第一分词结果中的各分词形成独立的元组，得到单元组集合；以及在i＞1的情况下，对第一分词结果中的各分词按照相邻的i个分词进行组合的方式进行组合，得到多元组集合。
[0135]
如此，在i＝1的情况下，可以将第一分词结果中的各分词形成独立的元组，得到单元组集合；在i＞1的情况下，可以对第一分词结果中的各分词按照相邻的i个分词进行组合的方式进行组合，得到多元组集合，如此可得到精确的i元组集合，进而可基于该i元组集合，合理得到输入法词库。
[0136]
可选地，处理器910还可以具体用于：统计目标q元组集合中的各元组在目标q j元组集合中出现的频次；q为大于或等于2的正整数；筛选出频次大于或等于预设频次阈值的目标q元组集合中的各元组，得到第一候选元组；其中，j为大于或等于1的正整数；基于所述第一候选元组，构建输入法词库。如此，统计目标q元组集合中的各元组在目标q j元组集合中出现的频次，筛选出频次大于或等于预设频次阈值的目标q元组集合中的各元组，得到第一候选元组；然后基于第一候选元组，构建输入法词库，如此构建的输入法词库后续可确保具有完整文本语义的预设字符不会被分开，这样得到更加合理的输入法词库，且构建输入法词库的过程中，无需人工参与，提升了输入法词库的构建效率。
[0137]
可选地，处理器910还可以用于：针对目标单元组集合，将所述目标单元组集合中去除无文本含义的元组，得到第二候选元组；基于所述第一候选元组和所述第二候选元组，构建输入法词库。
[0138]
如此，针对目标单元组集合，将目标单元组集合中去除无文本含义的元组，得到第二候选元组，然后基于第一候选元组和第二候选元组，构建输入法词库，如此构建的输入法
词库后续可确保具有完整文本语义的预设字符不会被分开，这样得到更加合理的输入法词库，且构建输入法词库的过程中，无需人工参与，提升了输入法词库的构建效率。
[0139]
可选地，处理器910还可以用于：基于输入法词库对语言模型进行训练，得到训练后的目标语言模型。
[0140]
如此，通过构建的输入法词库可对语音模型进行训练，得到目标语言模型，以便后续可基于该目标语言模型对待进行分词的语料进行分词，进而得到完整语义的预设字符不会被分开的分词结果。
[0141]
可选地，处理器910还可以用于：基于目标语言模型对第二语料进行分词处理，第二分词结果。其中，第二分词结果中存在至少两种输入模式下输入的字符所组成的分词。
[0142]
如此，通过基于目标语言模型对第二语料进行分词处理，第二分词结果，由于该目标语言模型是基于输入法词库构建的，故基于该目标语言模型分词处理后所得到的第二分词结果中存在至少两种输入模式下输入的字符所组成的分词，实现了具有完整语义的两个分词不会被分开的效果。
[0143]
应理解的是，本技术实施例中，输入单元904可以包括图形处理器(graphics processing unit，gpu)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072中的至少一种。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。
[0144]
存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器909可以包括易失性存储器或非易失性存储器，或者，存储器909可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本技术实施例中的存储器909包括但不限于这些和任意其它适合类型的存储器。
[0145]
处理器910可包括一个或多个处理单元；可选的，处理器910集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。
[0146]
本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指
令，该程序或指令被处理器执行时实现上述词库构建方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0147]
其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
[0148]
本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述词库构建方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0149]
应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0150]
本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述词库构建方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0151]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
[0152]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
[0153]
上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：任务执行方法、机器人、存储介质及计算机程序产品与流程

词库构建方法、装置、电子设备和存储介质与流程

相关文献

最热文献