一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本处理方法、装置及设备

2022-07-10 09:54:59 来源:中国专利 TAG:


1.本技术涉及数字出版技术领域,尤其涉及一种文本处理方法、装置及设备。


背景技术:

2.随着各技术领域的发展,文本数据的积累量与日俱增,如何高效的识别文本数据中的新词成为自然语言处理过程中的重要任务。
3.目前,可以根据开源的分词工具(hanlp)对文本数据进行处理,得到文本数据中的新词。但是,现有的开源的分词工具只能通过语义特征,得到文本数据中的新词,例如,通过上下文语义信息确定词语是否为新词。这样会将许多常用词语确定为新词,导致获取新词的准确率较低。


技术实现要素:

4.本技术实施例提供一种文本处理方法、装置及设备,用于解决现有技术中获取新词的准确率较低的技术问题。
5.第一方面,本技术实施例提供一种文本处理方法,该方法包括:
6.对待处理的文本信息进行切分处理,得到第一字符串集合,所述文本信息对应第一技术领域;
7.根据所述第一字符串集合中每个第一字符串的文本特征,在所述第一字符串集合中确定第二字符串集合,所述第二字符串集合中的第二字符串的文本特征满足预设要求;
8.获取预设词语集合,所述预设词语集合中包括所述第一技术领域中预设类型的词语;
9.根据所述第二字符串集合、所述预设词语集合和所述文本信息,确定所述文本信息中的目标词语集合。
10.在一种可能的实施方式中,根据所述第二字符串集合、所述预设词语集合和所述文本信息,确定所述文本信息中的目标词语集合,包括:
11.根据所述第二字符串集合和所述预设词语集合,在所述第二字符串集合中确定第一词语集合和第三字符串集合,所述第一词语集合中的词语为所述第二字符串集合和所述预设词语集合的交集,所述第三字符串集合为所述第二字符串集合中除所述第一词语集合之外的字符串的集合;
12.根据所述第一词语集合和所述第三字符串集合,在所述第三字符串集合中确定第二词语集合;
13.根据所述第二字符串集合、所述文本信息和所述第一词语集合,确定第三词语集合;
14.确定所述目标词语集合包括所述第一词语集合、所述第二词语集合和所述第三词语集合。
15.在一种可能的实施方式中,根据所述第一词语集合和所述第三字符串集合,在所
述第三字符串集合中确定第二词语集合,包括:
16.获取所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度;
17.根据所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度,在所述第三字符串集合中确定第二词语集合。
18.在一种可能的实施方式中,根据所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度,在所述第三字符串集合中确定第二词语集合,包括:
19.根据所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度,在所述第三字符串集合中确定第四字符串集合和第五字符串集合,所述第四字符串集合中的字符串与所述第一词语集合中词语之间的相似度大于或等于第一阈值,所述第五字符串集合中的字符串与所述第一词语集合中词语之间的相似度小于第一阈值;
20.根据第五字符串集合对所述文本信息进行分词处理,得到多个第一分词;
21.根据所述多个第一分词和所述第一词语集合,在所述多个第一分词中确定第一目标分词;
22.确定所述第二词语集合包括所述第四字符串集合和所述第一目标分词。
23.在一种可能的实施方式中,根据所述多个第一分词和所述第一词语集合,在所述多个第一分词中确定第一目标分词,包括:
24.获取每个第一分词的词向量、以及所述第一词语集合中每个词语的词向量;
25.根据每个第一分词的词向量、以及所述第一词语集合中每个词语的词向量,获取每个第一分词与所述第一词语集合中每个词语的相似度;
26.针对所述多个第一分词中的任意一个第一分词,若所述第一词语集合中存在词语与所述第一分词的相似度大于或等于第二阈值,则将所述第一分词确定为所述第一目标分词。
27.在一种可能的实施方式中,根据所述第二字符串集合、所述文本信息和第一词语集合,确定第三词语集合,包括:
28.根据所述第二字符串集合对文本信息进行分词处理,得到多个第二分词;
29.根据所述多个第二分词和所述第一词语集合,在所述多个第二分词中确定第三词语集合。
30.在一种可能的实施方式中,根据所述多个第二分词和所述第一词语集合,在所述多个第二分词中确定第三词语集合,包括:
31.获取每个第二分词的词向量、以及所述第一词语集合中每个词语的词向量;
32.根据每个第二分词的词向量、以及所述第一词语集合中每个词语的词向量,获取每个第二分词与所述第一词语集合中每个词语的相似度;
33.针对所述多个第二分词中的任意一个第二分词,若所述第一词语集合中存在词语与所述第二分词的相似度大于或等于第二阈值,则将所述第二分词确定为所述第三词语集合中的一个。
34.在一种可能的实施方式中,根据所述第一字符串集合中每个第一字符串的文本特征,在所述第一字符串集合中确定第二字符串集合,包括:
35.确定所述第一字符串集合中每个第一字符串的文本特征,所述文本特征包括如下
至少一种:所述第一字符串中字符的第一关联度、所述第一字符串与相邻字符串的第二关联度、所述第一字符串与常规词语的第一相似度;
36.针对任意一个第一字符串,若所述第一字符串的第一关联度大于或等于第三阈值,所述第一字符串的第二关联度大于或等于第四阈值,所述第一相似度小于或等于第五阈值,则确定所述第一字符串为所述第二字符串中的一个。
37.在一种可能的实施方式中,所述文本特征为所述第一字符串中字符的第一关联度时;确定所述第一字符串的文本特征,包括:
38.针对于任意一个第一字符串,确定至少一个拆分规则;
39.根据所述至少一个拆分规则对所述第一字符串进行拆分,得到至少一组字符子串;
40.根据所述至少一组字符子串,确定所述第一字符串中字符的第一关联度。
41.在一种可能的实施方式中,根据所述至少一组字符子串,确定所述第一字符串中字符的第一关联度,包括:
42.所述拆分规则的数量为1,所述至少一组字符子串的组数为1,确定每个字符子串在所述文本信息中出现的概率,根据所述出现的概率,确定所述第一字符串中字符的第一关联度;
43.所述拆分规则的数量大于1,所述至少一组字符子串的组数为至少两组,分别确定每组字符子串中的至少两个字符子串之间的关联度,根据每组字符子串中的至少两个字符子串之间的关联度,确定所述第一字符串中字符的第一关联度。
44.在一种可能的实施方式中,所述文本特征为所述第一字符串与相邻字符串的第二关联度;确定所述第一字符串的文本特征,包括:
45.获取所述第一字符串的左邻字符串和右邻字符串;
46.根据所述第一字符串和所述左邻字符串,确定所述第一字符串和所述左邻字符串的第三关联度;
47.根据所述第一字符串和所述右邻字符串,确定所述第一字符串和所述右邻字符串的第四关联度;
48.根据所述第三关联度和所述第四关联度,确定所述第一字符串与相邻字符串的第二关联度。
49.在一种可能的实施方式中,所述文本特征为所述第一字符串与常规词语的第一相似度;确定所述第一字符串的文本特征,包括:
50.获取常规词语集合;
51.获取所述文本信息中包括的多个第三分词;
52.针对于任意一个第一字符串,确定所述第一字符串的左侧m个字符和右侧n个字符,所述m为大于或等于1的整数,所述n为大于或等于1的整数;
53.根据所述m个字符、所述n个字符、所述第一字符串、所述常规词语集合和所述多个第三分词,确定所述第一字符串与常规词语的第一相似度。
54.在一种可能的实施方式中,根据所述m个字符、所述n个字符、所述第一字符串、所述常规词语集合和所述多个第三分词,确定所述第一字符串与常规词语的第一相似度,包括:
55.根据所述m个字符、所述n个字符和所述常规词语集合,确定所述第一字符串与所述常规词语的第二相似度;
56.根据所述第一字符串、所述常规词语集合和所述多个分词,确定所述第一字符串与所述常规词语的第三相似度;
57.根据所述第二相似度和所述第三相似度,确定所述第一字符串与所述常规词语的第一相似度。
58.第二方面,本技术实施例提供一种文本处理装置,该装置包括切分模块、第一确定模块、获取模块和第二确定模块,其中:
59.所述切分模块用于,对待处理的文本信息进行切分处理,得到第一字符串集合,所述文本信息对应第一技术领域;
60.所述第一确定模块用于,根据所述第一字符串集合中每个第一字符串的文本特征,在所述第一字符串集合中确定第二字符串集合,所述第二字符串集合中的第二字符串的文本特征满足预设要求;
61.所述获取模块用于,获取预设词语集合,所述预设词语集合中包括所述第一技术领域中预设类型的词语;
62.所述第二确定模块用于,根据所述第二字符串集合、所述预设词语集合和所述文本信息,确定所述文本信息中的目标词语集合。
63.在一种可能的实施方式中,所述第二确定模块具体用于:
64.根据所述第二字符串集合和所述预设词语集合,在所述第二字符串集合中确定第一词语集合和第三字符串集合,所述第一词语集合中的词语为所述第二字符串集合和所述预设词语集合的交集,所述第三字符串集合为所述第二字符串集合中除所述第一词语集合之外的字符串的集合;
65.根据所述第一词语集合和所述第三字符串集合,在所述第三字符串集合中确定第二词语集合;
66.根据所述第二字符串集合、所述文本信息和所述第一词语集合,确定第三词语集合;
67.确定所述目标词语集合包括所述第一词语集合、所述第二词语集合和所述第三词语集合。
68.在一种可能的实施方式中,所述第二确定模块具体用于:
69.获取所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度;
70.根据所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度,在所述第三字符串集合中确定第二词语集合。
71.在一种可能的实施方式中,所述第二确定模块具体用于:
72.根据所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度,在所述第三字符串集合中确定第四字符串集合和第五字符串集合,所述第四字符串集合中的字符串与所述第一词语集合中词语之间的相似度大于或等于第一阈值,所述第五字符串集合中的字符串与所述第一词语集合中词语之间的相似度小于第一阈值;
73.根据第五字符串集合对所述文本信息进行分词处理,得到多个第一分词;
74.根据所述多个第一分词和所述第一词语集合,在所述多个第一分词中确定第一目标分词;
75.确定所述第二词语集合包括所述第四字符串集合和所述第一目标分词。
76.在一种可能的实施方式中,所述第二确定模块具体用于:
77.获取每个第一分词的词向量、以及所述第一词语集合中每个词语的词向量;
78.根据每个第一分词的词向量、以及所述第一词语集合中每个词语的词向量,获取每个第一分词与所述第一词语集合中每个词语的相似度;
79.针对所述多个第一分词中的任意一个第一分词,若所述第一词语集合中存在词语与所述第一分词的相似度大于或等于第二阈值,则将所述第一分词确定为所述第一目标分词。
80.在一种可能的实施方式中,所述第二确定模块具体用于:
81.根据所述第二字符串集合对文本信息进行分词处理,得到多个第二分词;
82.根据所述多个第二分词和所述第一词语集合,在所述多个第二分词中确定第三词语集合。
83.在一种可能的实施方式中,所述第二确定模块具体用于:
84.获取每个第二分词的词向量、以及所述第一词语集合中每个词语的词向量;
85.根据每个第二分词的词向量、以及所述第一词语集合中每个词语的词向量,获取每个第二分词与所述第一词语集合中每个词语的相似度;
86.针对所述多个第二分词中的任意一个第二分词,若所述第一词语集合中存在词语与所述第二分词的相似度大于或等于第二阈值,则将所述第二分词确定为所述第三词语集合中的一个。
87.在一种可能的实施方式中,所述第一确定模块具体用于:
88.确定所述第一字符串集合中每个第一字符串的文本特征,所述文本特征包括如下至少一种:所述第一字符串中字符的第一关联度、所述第一字符串与相邻字符串的第二关联度、所述第一字符串与常规词语的第一相似度;
89.针对任意一个第一字符串,若所述第一字符串的第一关联度大于或等于第三阈值,所述第一字符串的第二关联度大于或等于第四阈值,所述第一相似度小于或等于第五阈值,则确定所述第一字符串为所述第二字符串中的一个。
90.在一种可能的实施方式中,所述第一确定模块具体用于:
91.针对于任意一个第一字符串,确定至少一个拆分规则;
92.根据所述至少一个拆分规则对所述第一字符串进行拆分,得到至少一组字符子串;
93.根据所述至少一组字符子串,确定所述第一字符串中字符的第一关联度。
94.在一种可能的实施方式中,所述第一确定模块具体用于:
95.所述拆分规则的数量为1,所述至少一组字符子串的组数为1,确定每个字符子串在所述文本信息中出现的概率,根据所述出现的概率,确定所述第一字符串中字符的第一关联度;
96.所述拆分规则的数量大于1,所述至少一组字符子串的组数为至少两组,分别确定每组字符子串中的至少两个字符子串之间的关联度,根据每组字符子串中的至少两个字符
子串之间的关联度,确定所述第一字符串中字符的第一关联度。
97.在一种可能的实施方式中,所述第一确定模块具体用于:
98.获取所述第一字符串的左邻字符串和右邻字符串;
99.根据所述第一字符串和所述左邻字符串,确定所述第一字符串和所述左邻字符串的第三关联度;
100.根据所述第一字符串和所述右邻字符串,确定所述第一字符串和所述右邻字符串的第四关联度;
101.根据所述第三关联度和所述第四关联度,确定所述第一字符串与相邻字符串的第二关联度。
102.在一种可能的实施方式中,所述第一确定模块具体用于:
103.获取常规词语集合;
104.获取所述文本信息中包括的多个第三分词;
105.针对于任意一个第一字符串,确定所述第一字符串的左侧m个字符和右侧n个字符,所述m为大于或等于1的整数,所述n为大于或等于1的整数;
106.根据所述m个字符、所述n个字符、所述第一字符串、所述常规词语集合和所述多个第三分词,确定所述第一字符串与常规词语的第一相似度。
107.在一种可能的实施方式中,所述第一确定模块具体用于:
108.根据所述m个字符、所述n个字符和所述常规词语集合,确定所述第一字符串与所述常规词语的第二相似度;
109.根据所述第一字符串、所述常规词语集合和所述多个分词,确定所述第一字符串与所述常规词语的第三相似度;
110.根据所述第二相似度和所述第三相似度,确定所述第一字符串与所述常规词语的第一相似度。
111.第三方面,本技术实施例提供一种文本处理设备,包括:存储器、处理器和通信接口,所述存储器用于存储程序指令,所述处理器用于调用存储器中的程序指令执行如第一方面任一项所述的文本处理方法。
112.第四方面,本技术实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序;所述计算机程序用于实现如第一方面任一项所述的文本处理方法。
113.第五方面,本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前述任一项所述的文本处理方法。
114.本技术实施例提供一种文本处理方法、装置及设备,对待处理的文本信息进行切分处理,得到多个第一字符串集合,文本信息对应第一技术领域,根据第一字符串集合中每个第一字符串的文本特征,在第一字符串集合中确定第二字符串集合,其中,第二字符串集合中的第二字符串的文本特征满足预设要求,获取预设词语集合,预设词语集合中包括第一技术领域中预设类型的词语,根据第二字符串集合、预设词语集合和文本信息,确定文本信息中的目标词语集合。在上述方法中,结合第一字符串集合中每个第一字符串的文本特征,可以准确的确定第二字符串集合,并且可以进一步根据第二字符串集合、预设词语集合和文本信息,可以在文本信息中准确的确定目标词语集合,进而提高了确定目标词语集合的准确率。
附图说明
115.图1为本技术实施例提供的一种应用场景的示意图;
116.图2为本技术实施例提供的一种文本处理方法的流程示意图;
117.图3为本技术实施例提供的文本信息进行切分处理的过程示意图;
118.图4为本技术实施例提供的确定第一词语集合的过程示意图;
119.图5为本技术实施例提供的确定第二词语集合的过程示意图;
120.图6为本技术实施例提供的确定第三词语集合的过程示意图;
121.图7为本技术实施例提供的一种确定第一字符串文本特征的流程示意图;
122.图8为本技术实施例提供的另一种确定第一字符串文本特征的流程示意图;
123.图9为本技术实施例提供的另一种确定第一字符串文本特征的流程示意图;
124.图10为本技术实施例提供的一种文本处理方法的过程示意图;
125.图11为本技术实施例提供的一种新词准确率变化曲线图;
126.图12为本技术实施例提供的另一种新词准确率变化曲线图;
127.图13为本技术实施例提供的一种文本处理装置的结构示意图;
128.图14为本技术实施例提供的文本处理设备的硬件结构示意图。
具体实施方式
129.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
130.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
131.在相关技术中,可以根据开源的分词工具(hanlp)对文本数据进行处理,进而可以得到文本数据中的新词,但是,现有的分词工具只能根据语义特征,得到文本数据中的新词,例如,分词工具可以根据词语的上下文语义信息,确定词语是否为新词。这样会将许多常用词语确定为新词,导致获取新词的准确率较低。
132.为了解决相关技术中获取新词的准确率较低的技术问题,本技术实施例提供一种文本处理方法,对待处理的文本信息进行切分处理,得到第一字符串集合,其中,待处理的文本信息为第一技术领域的文本信息,根据第一字符串集合中每个第一字符串中字符的第一关联度、第一字符串与相邻字符串的第二关联度、第一字符串与常规词语的第一相似度,在第一字符串集合中筛选第二字符串集合,获取预设词语集合,其中,预设词语集合可以包括第一技术领域中的新词,进而根据筛选的第二字符串集合、预设词语集合和文本信息,确定文本信息中的新词。结合第一字符串集合中每个第一字符串的文本特征对第一字符串进行筛选,可以得到准确的第二字符串集合,进而可以根据第二字符串集合、预设词语集合和文本信息,准确的确定文本信息中的新词,提高了获取新词的准确率。
133.为了便于理解,下面,结合图1,对本技术实施例的应用场景进行介绍。
134.图1为本技术实施例提供的一种应用场景的示意图。请参见图1,包括终端设备。可选的,终端设备可以为任意具有数据处理能力的设备。例如,终端设备可以为手机、电脑、车载设备、可穿戴设备、工业设备、人工智能设备/增强现实(augmented reality,ar)设备、虚拟现实(virtual reality,vr)设备等。
135.终端设备获取文本信息和预设词语集合,对文本信息进行切分处理,得到第一字符串集合,根据第一字符串集合中每个第一字符串的文本特征,在第一字符串集合中确定第二字符串集合,并根据预设词语集合、第二字符串集合和文本信息,确定文本信息中的目标词语集合。这样终端设备可以准确的在文本信息中,确定目标词语集合,提高了获取目标词语集合的准确率。
136.下面,通过具体实施例对本技术所示的技术方案进行详细说明。需要说明的是,如下实施例可以单独存在,也可以相互结合,对于相同或相似的内容,在不同的实施例中不再重复说明。
137.图2为本技术实施例提供的一种文本处理方法的流程示意图。请参见图2,该方法可以包括:
138.s201、对待处理的文本信息进行切分处理,得到第一字符串集合。
139.本技术实施例的执行主体可以为终端设备,也可以为设置在终端设备中的文本处理装置。其中,文本处理装置可以通过软件和/或硬件的结合来实现。
140.文本信息对应第一技术领域。可选的,待处理的文本信息为同一技术领域中的信息。例如,待处理的文本信息可以为地理学技术领域中的信息、测量学技术领域的信息或遥感学技术领域中的信息。
141.可选的,可以在第一技术领域的文件中获取待处理的文本信息。例如,第一技术领域为遥感学技术领域时,可以在遥感学技术领域的期刊中获取发表的论文,将论文中的文本内容确定为待处理的文本信息。
142.第一字符串集合中包括多个第一字符串。其中,第一字符串可以为文本信息中的词语,也可以为文本信息中不成词的文本。例如,第一字符串可以为“吃饭”“睡觉”等词语,也可以为“好”“的”“天你吃”等不成词的文本。
143.可选的,可以根据语言模型算法,对待处理的文本信息进行切分处理。例如,可以根据n-gram模型对待处理的文本信息进行切分,得到第一字符串集合。
144.下面,结合图3,详细说明对待处理文本信息进行切分处理的过程。
145.图3为本技术实施例提供的文本信息进行切分处理的过程示意图。请参见图3,包括文本信息。其中,文本信息中的文本内容为“今天天气真好”,根据n-gram模型对文本信息进行切分,其中,n为2个字节。对文本信息进行2字节切分后可以得到第一字符串集合,其中,第一字符串集合中包括多个长度为2个字节的第一字符串。例如,第一字符串集合中包括“今天”“天天”“天气”“气真”“真好”5个长度为2个字节的第一字符串。
146.可选的,根据不同的字节长度进行切分,得到的第一字符串集合中的第一字符串不同。例如,请参见图3,对文本信息进行3字节切分后,可以得到第一字符串集合中包括“今天天”“天天气”“天气真”“气真好”4个长度为3个字节的第一字符串。
147.可选的,在对文本信息进行切分时,可以根据不同的切分尺度对文本信息进行切
分,进而增加第一字符串集合中的第一字符串的数量,这样可以提高获取新词的准确率。例如,可以根据2个字节长度、3个字节长度、4个字节长度对文本信息进行切分,得到第一字符串集合,由于第一字符串集合中包括多个不同长度的第一字符串,因此可以提高获取文本信息中新词的准确率。
148.s202、根据第一字符串集合中每个第一字符串的文本特征,在第一字符串集合中确定第二字符串集合。
149.第一字符串的文本特征包括如下至少一种:第一字符串中字符的第一关联度、第一字符串与相邻字符串的第二关联度、第一字符串与常规词语的第一相似度。
150.第一字符串中字符的第一关联度用于指示第一字符串内部的“凝固度”。例如,第一字符串中字符的第一关联度越大,第一字符串内部的凝固度越大,第一字符串成词的概率越高。可选的,第一字符串中字符的第一关联度可以为第一字符串的互信息。
151.第一字符串与相邻字符串的第二关联度用于指示第一字符串前后文信息的丰富程度。例如,第一字符串与相邻字符串的第二关联度越大,第一字符串前后文信息的丰富程度越大,第一字符串成词的概率越高。可选的,第一字符串与相邻字符串的第二关联度可以为第一字符串的邻接熵。
152.第一字符串与常规词语的第一相似度用于指示第一字符串成为新词的概率。例如,第一字符串与常规词语的第一相似度越大,说明第一字符串成词为新词的概率越小。
153.第二字符串集合中的第二字符串的文本特征满足预设要求。例如,针对任意一个第一字符串,若第一字符串的第一关联度大于或等于第三阈值,第一字符串的第二关联度大于或等于第四阈值,第一相似度小于或等于第五阈值,则确定第一字符串为多个第二字符串中的一个。
154.s203、获取预设词语集合。
155.预设词语集合中包括第一技术领域中预设类型的词语。其中,预设类型的词语可以为第一技术领域中的新词。例如,第一技术领域为遥感学技术领域,预设词语集合中包括遥感技术领域中的新词。
156.可选的,可以根据人工构造预设词语集合或者在开源库中获取预设词语集合。例如,第一技术领域为遥感学技术领域时,可以通过人工构造遥感学技术领域中的新词的集合作为预设词语集合,也可以在开源库中获取遥感学技术领域中的新词的集合作为预设词语集合。
157.s204、根据第二字符串集合、预设词语集合和文本信息,确定文本信息中的目标词语集合。
158.目标词语集合可以为文本信息中第一技术领域的新词的集合。可以根据如下可行的实现方式,确定文本信息中的目标词语集合:根据第二字符串集合和预设词语集合,在第二字符串集合中确定第一词语集合和第三字符串集合。
159.其中,第一词语集合中的词语为第二字符串集合和预设词语集合的交集,第三字符串集合为第二字符串集合中除第一词语集合之外的字符串的集合。例如,若第二字符串集合中包括4个第一字符串:“权均值”“扬子克拉通”“克里金插值”“残差向量”,预设词语集合中包括词语:“扬子克拉通”“克里金插值”,则第一词语集合中包括2个词语:“扬子克拉通”“克里金插值”,第三字符串集合中包括2个文本段:“权均值”“残差向量”。
160.下面,结合图4,详细说明确定第一词语集合的过程。
161.图4为本技术实施例提供的确定第一词语集合的过程示意图。请参见图4,包括第二字符串集合和预设词语集合。其中,第二字符串集合中包括:克里金插值、矿区成矿、权均值、残差向量、扬子克拉通,预设词语集合中包括:克里金插值、侏罗系上统和扬子克拉通。
162.将第二字符串集合和预设词语集合的交集,确定为第一词语集合。其中,第一词语集合中包括:克里金插值和扬子克拉通。将第二字符串集合中除第一词语集合之外的字符串的集合确定为第三字符串集合,其中,第三字符串集合中包括:残差向量、权均值和矿区成矿。
163.根据第一词语集合和第三字符串集合,在第三字符串集合中确定第二词语集合。
164.可以根据如下可行的实现方式确定第二词语集合:获取第三字符串集合中各字符串与第一词语集合之间的相似度,根据第三字符串集合中各字符串与第一词语集合中各词语之间的相似度,在第三字符串集合中确定第二词语集合。
165.可选的,根据第三字符串集合中各字符串与第一词语集合中各词语之间的相似度,可以根据如下可行的实现方式确定第二词语集合:根据第三字符串集合中各字符串与第一词语集合中各词语之间的相似度,在第三字符串集合中确定第四字符串集合和第五字符串集合。其中,第四字符串集合中的字符串与第一词语集合中词语之间的相似度大于或等于第一阈值,第五字符串集合中的字符串与第一词语集合中词语之间的相似度小于第一阈值。例如,第四字符串集合中的每个字符串都与第一词语集合中的至少一个词语的相似度大于或等于第一阈值,第五字符串集合中的每个字符串都与第一词语集合中的每个词语的相似度小于第一阈值。例如,若第一词语集合的词语为“克里金插值”,第三字符串集合中包括2个字符串:“克里金差值”“加权均值”,则可以确定“克里金差值”与“克里金插值”的相似度较高,“加权均值”与“克里金插值”的相似度较低,因此,第四字符串集合中包括字符串“克里金差值”,第五字符串集合中包括字符串“加权均值”。
166.根据第五字符串集合对文本信息进行分词处理,得到多个第一分词。例如,可以将第五字符串集合添加至分词工具的自定义词库中,根据添加第五字符串集合的分词工具对文本信息进行分词处理,得到多个第一分词。根据多个第一分词和第一词语集合,在多个第一分词中确定第一目标分词。可选的,可以根据如下可行的实现方式确定第一目标分词:获取每个第一分词的词向量、以及第一词语集合中每个词语的词向量。其中,词向量可以为词语的特征向量。可选的,可以根据fast-text模型得到每个词语的词向量。根据每个第一分词的词向量、以及第一词语集合中每个词语的词向量,获取每个第一分词与第一词语集合中每个词语的相似度。例如,可以根据第一分词的词向量与第一词语集合中每个词语的词向量的余弦值,确定每个第一分词与第一词语集合中每个词语的相似度。可以根据如下公式计算第一分词的词向量与第一词语集合中每个词语的词向量的余弦值:
[0167][0168]
其中,xi,xj分别为两个词语,为xi的词向量,为xj的词向量,为词向量的范数,为词向量的范数,sim(xi,xj)用于指示xi和xj之间的相似度,用
于指示xi和xj之间的余弦值。
[0169]
针对多个第一分词中任意一个第一分词,若第一词语集合中存在词语与第一分词的相似度大于或等于第二阈值,则将第一分词确定为第一目标分词。例如,若第一词语集合中包括词语“克里金插值”,第一分词为“克里金差值”,则第一分词与第一词语集合中的词语的相似度大于第二阈值,确定第一目标分词为“克里金差值”。
[0170]
确定第二词语集合包括第四字符串集合和第一目标分词。例如,第四字符串集合中包括字符串“克里金差值”,第一目标分词为“扬子克拉通”,则第二词语集合中包括词语:“克里金差值”“扬子克拉通”。
[0171]
下面,结合图5,详细说明确定第二词语集合的过程。
[0172]
图5为本技术实施例提供的确定第二词语集合的过程示意图。请参见图5,包括第三字符串集合和第一词语集合。其中,第三字符串集合中包括:残差向量、扬子可拉通、权均值、矿区成矿、克里金差值。第一词语集合中包括:克里金插值、侏罗系上统、线阵相机和扬子克拉通。
[0173]
根据第三字符串中的字符串与第一词语集合中的词语的相似度,将第三字符串集合拆分为第四字符串集合和第五字符串集合。其中,第四字符串集合中包括:扬子可拉通、克里金差值,第五字符串集合中包括:残差向量、权均值、矿区成矿。将第五字符串集合中的字符串作为分词基础,根据分词工具对文本信息进行处理,得到第一分词:侏罗系上、残差向量、线阵相、矿区成矿。
[0174]
将多个第一分词与第一词语集合中的词语进行相似度匹配,得到第一目标分词。其中,第一目标分词中包括:侏罗系上、线阵相。将第四字符串集合和第一目标分词确定为第二词语集合。其中,第二词语集合中包括:扬子可拉通、侏罗系上、线阵相、克里金差值。
[0175]
根据第二字符串集合、文本信息和第一词语集合,确定第三词语集合。
[0176]
可以根据如下可行的实现方式确定第三词语集合:根据第二字符串集合对文本信息进行分词处理,得到多个第二分词。例如,可以将第二字符串集合添加至分词工具的自定义词库中,根据添加第二字符串集合的分词工具对文本信息进行分词处理,得到多个第二分词。根据多个第二分词和第一词语集合,在多个第二分词中确定第三词语集合。可选的,可以根据如下可行的实现方式,在多个第二分词中确定第三词语集合:获取每个第二分词的词向量、以及第一词语集合中每个词语的词向量,根据每个第二分词的词向量以及第一词语集合中每个词语的词向量,获取每个第二分词与第一词语集合中每个词语的相似度。例如,可以根据第二分词的词向量与第一词语集合中每个词语的词向量的余弦值,确定每个第二分词与第一词语集合中每个词语的相似度。
[0177]
针对多个第二分词中的任意一个第二分词,若第一词语集合中存在词语与第二分词的相似度大于或等于第二阈值,则将第二分词确定为第三词语集合中的一个。例如,若第一词语集合中包括词语“克里金插值”,第二分词为“克里金差值”,则第二词与第一词语集合中的词语的相似度大于第二阈值,将第二分词“克里金差值”确定为第三词语集合中的一个。
[0178]
下面,结合图6,详细说明确定第三词语集合的过程。
[0179]
图6为本技术实施例提供的确定第三词语集合的过程示意图。请参见图6,包括第二字符串集合和第一词语集合。其中,第二字符串集合中包括:克里金插值、矿区成矿、权均
值、残差向量、扬子克拉通。第一词语集合中包括:克里金插值、侏罗系上统、线阵相机、扬子克拉通。
[0180]
将第二字符串集合中的字符串作为分词基础,根据分词工具对文本信息进行处理,得到第二分词。其中,第二分词包括:克里金插值、均值、残差向、线阵相机、侏罗系上统。将多个第二分词与第一词语集合中的词语进行相似度匹配,将匹配度大于或等于预设阈值的第二分词确定为第三词语集合中的词语。其中,第三词语集合中包括:线阵相机、侏罗系上统、克里金插值。
[0181]
确定目标词语集合包括第一词语集合、第二词语集合和第三词语集合。例如,第一词语集合中包括词语“克里金插值”,第二词语集合中包括词语“扬子克拉通”,第三词语集合中包括词语“克里金差值”,则目标词语集合中包括:“克里金插值”“扬子克拉通”和“克里金差值”。
[0182]
可选的,可以根据目标词语集合和文本信息对目标词语集合的准确率进行验证。例如,可以根据分词工具对文本信息进行分词处理,得到多个分词,确定多个分词对目标词语集合中的词语的覆盖率,若覆盖率小于或等于预设阈值,则目标词语集合的准确率较高。
[0183]
可选的,在确定目标词语集合之后,可以按照预设的比例将第二字符串集合中的相似度较低的非目标词语删掉,得到新的第二字符串集合,进而根据新的第二字符串集合,确定新的目标词语集合。根据迭代的方式可以提高第二字符串集合中第二字符串的质量,进而可以提高获取新词的准确率。
[0184]
本技术实施例提供一种文本处理方法,对待处理的文本信息进行切分处理,得到第一字符串集合,文本信息对应第一技术领域,根据第一字符串集合中每个第一字符串的文本特征,在第一字符串集合中确定第二字符串集合,其中,第二字符串集合中包括第一技术领域中预设类型的词语,获取预设词语集合,预设词语集合中包括第一技术领域中预设类型的词语,根据第二字符串集合和预设词语集合,在第二字符串集合中确定第一词语集合和第三字符串集合,根据第一词语集合和第三字符串集合,在第三字符串集合中确定第二词语集合,根据第二字符串集合、文本信息和第一词语集合,确定第三词语集合,确定目标词语集合包括第一词语集合、第二词语集合和第三词语集合。在上述方法中,根据第一字符串的文本特征,可以准确的确定第二字符串集合,并根据第二字符串集合和预设词语集合,准确的确定第一词语集合,进一步根据第三字符串集合和第一词语集合,确定第二词语集合,根据第二字符串集合、文本信息和第一词语集合,确定第三词语集合,由于第二词语集合和第三词语集合中的词语与第一词语集合中的词语的相似度较大,因此,将第一词语集合、第二词语集合和第三词语集合中的所有词语确定为目标词语集合,可以提高获取文本信息中目标词语的准确率。
[0185]
在图2所示实施例的基础上,下面,结合图7-图9,详细说明确定第一字符串文本特征的方法。
[0186]
图7为本技术实施例提供的一种确定第一字符串文本特征的流程示意图。在图7所示的实施例中,第一字符串的文本特征为第一字符串中字符的第一关联度,请参见图7,该方法包括:
[0187]
s701、确定至少一个拆分规则。
[0188]
拆分规则用于拆分第一字符串。可选的,根据拆分规则可以将第一字符串拆分为
两个字符子串。例如,对于第一字符串a,可以根据拆分规则将第一字符串a拆分为字符子串a1和字符子串a2。
[0189]
可以根据第一字符串中的文字数量,确定至少一种拆分规则。可选的,根据文字数量确定拆分规则有如下三种情况:
[0190]
情况1:第一字符串中的文字数量为1。
[0191]
在第一字符串中的文字数量为1时,拆分规则为将第一字符串中的文字作为字符子串。
[0192]
情况2:第一字符串中的文字数量为2。
[0193]
在第一字符串中的文字数量为2时,拆分规则为将第一字符串按照1个字节进行拆分,将第一字符串拆分为两个字符子串。例如,第一字符串为“智能”,按照拆分规则对第一字符串进行拆分,可以到字符子串“智”和字符子串“能”。
[0194]
情况3:第一字符串中的文字数量大于2。
[0195]
在第一字符串中的文字数量大于2时,可以确定至少两种拆分规则,每种拆分规则得到的字符子串不同。例如,在第一字符串中的文字数量为3时,可以确定拆分规则为:按照1个字节和2个字节拆分,按照2个字节和1个字节拆分;在第一字符串文字数量为4时,可以确定拆分规则为:按照1个字节和3个字节拆分,按照2个字节和2个字节拆分,按照3个字节和1个字节拆分。例如,若第一字符串为“智能机”,则按照1个字节和2个字节拆分,可以得到字符子串“智能”和字符子串“机”;按照2个字节和1个字节拆分,可以得到字符子串“智”和字符子串“能机”。
[0196]
s702、根据至少一个拆分规则对第一字符串进行拆分,得到至少一组字符子串。
[0197]
可选的,根据至少一个拆分规则对第一字符串进行拆分时,每一个拆分规则可以确定一组字符子串,每组字符子串中包括两个字符子串。例如,若第一字符串中的文字数量为2,则可以确定一组字符子串,其中,该组字符子串中包括2个文字数量为1的字符子串;若第一字符串中的文字数量为4,则可以确定三组字符子串,其中,两组字符子串中包括文字数量为1的字符子串和文字数量为3的字符子串,另一组字符子串包括2个文字数量为2的字符子串。
[0198]
例如,若第一字符串为“智能手机”,则可以确定三种拆分规则,按照三种拆分规则,可以将第一字符串拆分为三组字符子串,第一组字符子串:“智”“能手机”,第二组字符子串:“智能”“手机”,第三组字符子串:“智能手”“机”。
[0199]
s703、根据至少一组字符子串,确定第一字符串中字符的第一关联度。
[0200]
可选的,确定第一字符串中字符的第一关联度有如下两种情况:
[0201]
情况1:拆分规则的数量为1,至少一组字符子串的组数为1。
[0202]
在拆分规则的数量为1时,可以将第一字符串拆分为两个文字数量为1的字符子串。例如,第一字符串为“智能”时,只有一种拆分规则,根据拆分规则得到的一组字符子串包括字符子串“智”和字符子串“能”。
[0203]
确定每个字符子串在文本信息中出现的概率。例如,可以根据分词工具,在文本信息中获取每个字符子串出现的概率。例如,字符子串为“智”和“能”时,可以在文本信息中匹配“智”出现的概率和“能”出现的概率。
[0204]
根据出现的概率,确定第一字符串中字符的第一关联度。可选的,可以根据如下公
式确定第一字符串中字符的第一关联度:
[0205][0206]
其中,x1表示第一字符串中的字符子串x1,x2表示第一字符串中的字符子串x2,pmi(x1,x2)为第一字符串中字符的第一关联度,p(x1)表示字符子串x1在文本信息中出现的概率,p(x2)表示字符子串x2在文本信息中出现的概率,p(x1,x2)表示字符子串x1和字符子串x2在文本信息中联合出现的概率。
[0207]
在该种情况下,对于一种拆分规则下的第一字符串,可以根据拆分后的字符子串在文本信息中的出现概率,确定第一字符串中字符的第一关联度,这样可以根据第一关联度,直观的反映第一字符串成词的概率,提高了对第一字符串的筛选的准确度,进而提高了获取新词的准确率。
[0208]
情况2:拆分规则的数量大于1,至少一组字符子串的组数为至少两组。
[0209]
在拆分规则的数量大于1时,可以将第一字符串拆分为至少两组字符子串,每组字符子串中包括2个字符子串。例如,第一字符串为“智能机”时,拆分规则的数量为2,根据拆分规则可以将第一字符串拆分为2组字符子串,一组字符子串为“智”“能机”,另一组字符子串为“智能”“机”。
[0210]
分别确定每组字符子串中的至少两个字符子串之间的关联度。可选的,可以根据情况1中的公式(2)计算每组字符子串中的至少两个字符子串之间的关联度,此处不再进行赘述。
[0211]
根据每组字符子串中的至少两个字符子串之间的关联度,确定第一字符串中字符的第一关联度。例如,若存在两组字符子串,第一组字符子串之间的关联度大于第二组字符子串之间的关联度,则将第一组字符子串之间的关联度,确定为第一字符串中字符的第一关联度。
[0212]
在该种情况下,多种拆分规则可以确定多组字符子串,根据字符子串之间关联度最大的一组字符子串对应的关联度,确定为第一字符串中字符的第一关联度,这样可以结合多组字符子串,准确的确定第一字符串中字符的第一关联度,进而提高获取新词的准确率。
[0213]
本技术实施例提供一种文本处理方法,确定至少一个拆分规则,根据至少一个拆分规则对第一字符串进行拆分,得到至少一组字符子串,根据至少一组字符子串,确定第一字符串中字符的第一关联度。在上述方法中,针对不同的拆分规则,分别确定每组字符子串中字符子串之间的关联度,进而可以准确的确定第一字符串中字符的第一关联度,提高了获取新词的准确率。
[0214]
图8为本技术实施例提供的另一种确定第一字符串文本特征的流程示意图。在图8所示的实施例中,第一字符串的文本特征为第一字符串与相邻字符串的第二关联度,请参见图8,该方法包括:
[0215]
s801、获取第一字符串的左邻字符串和右邻字符串。
[0216]
可选的,左邻字符串可以为第一字符串相邻的上文字符串。其中,上文字符串可以为文本信息中排列顺序在第一字符串之前的字符串。例如,第一字符串的上文中包括多个上文字符串,根据上文字符串和第一字符串在文本信息中的排列顺序,在多个上文字符串
中确定与第一字符串相邻的上文字符串为左邻字符串。
[0217]
可选的,右邻字符串可以为与第一字符串相邻的下文字符串。其中,下文字符串可以为文本信息中排列顺序在第一字符串之后的字符串。例如,第一字符串的下文中包括多个下文字符串,根据下文字符串和第一字符串在文本信息中的排列顺序,在多个下文字符串中确定与第一字符串相邻的下文字符串为右邻字符串。
[0218]
可选的,左邻字符串也可以为第一字符串下文中的字符串,右邻字符串也可以为第一字符串上文中的字符串,本技术实施例对此不作限定。
[0219]
s802、根据第一字符串和左邻字符串,确定第一字符串和左邻字符串的第三关联度。
[0220]
可选的,可以根据如下公式,确定第一字符串和左邻字符串的第三关联度:
[0221][0222]
其中,x为第一字符串,c
l
为第一字符串的左邻字符串,x
l
为第一字符串x的上文字符串的集合,p(c
l
丨x)为第一字符串x的左邻字符串为c
l
的概率。
[0223]
可选的,可以根据分词工具计算p(c
l
丨x)。
[0224]
根据公式(3)可以准确的得到第一字符串和左邻字符串的第三关联度。
[0225]
s803、根据第一字符串和右邻字符串,确定第一字符串和右邻字符串的第四关联度。
[0226]
可选的,可以根据如下公式,确定第一字符串和右邻字符串的第四关联度:
[0227][0228]
其中,x为第一字符串,cr为第一字符串的右邻字符串,xr为第一字符串x的下文字符串的集合,p(cr丨x)为第一字符串x的右邻字符串为cr的概率。
[0229]
可选的,可以根据分词工具计算p(cr丨x)。
[0230]
s804、根据第三关联度和第四关联度,确定第一字符串与相邻字符串的第二关联度。
[0231]
可选的,可以将第三关联度和第四关联度的最小值,确定为第一字符串与相邻字符串的第二关联度。例如,若第一字符串和左邻字符串的第三关联度小于第一字符串和右邻字符串的第四关联度,则可以将第一字符串和左邻字符串的第三关联度,确定为第一字符串与相邻字符串的第二关联度。
[0232]
可选的,可以将第三关联度和第四关联度差值的绝对值,确定为第一字符串与相邻字符串的第二关联度。例如,根据第一字符串和左邻字符串的第三关联度、第一字符串和右邻字符串的第四关联度,可以确定第三关联度和第四关联度差值的绝对值,将该绝对值确定为第一字符串与相邻字符串的第二关联度。
[0233]
本技术实施例提供一种文本处理方法,获取第一字符串的左邻字符串和右邻字符串,根据第一字符串和左邻字符串,确定第一字符串和左邻字符串的第三关联度,根据第一字符串和右邻字符串,确定第一字符串和右邻字符串的第四关联度,根据第三关联度和第四关联度,确定第一字符串与相邻字符串的第二关联度。在上述方法中,第三关联度可以准
确的反映第一字符串和左邻字符串之间的关系,第四关联度可以准确的反映第一字符串和右邻字符串之间的关系,进而根据第三关联度和第四关联度,可以准确的确定第一字符串与相邻字符串的第二关联度,进而可以提高获取新词的准确率。
[0234]
图9为本技术实施例提供的另一种确定第一字符串文本特征的流程示意图。在图9所示的实施例中,第一字符串的文本特征为第一字符串与常规词语的第一相似度,请参见图9,该方法包括:
[0235]
s901、获取常规词语集合。
[0236]
常规词语集合中的每个词语都为常用词语。可选的,可以根据开源数据库获取常规词语集合。例如,可以根据开源数据库中的常用词表获取常规词语集合。
[0237]
s902、获取文本信息中包括的多个第三分词。
[0238]
可选的,可以根据分词工具的常规词语集合为基础对文本信息进行处理,得到多个第三分词。
[0239]
s903、确定第一字符串的左侧m个字符和右侧n个字符。
[0240]
其中,m为大于或等于1的整数,n为大于或等于1的整数。可选的,可以第一字符串的左侧m个字符和右侧n个字符,可以为第一字符串起始位置的m个字符和终止位置的n个字符。
[0241]
可选的,确定第一字符串的左侧m个字符和右侧n个字符,有如下两种情况:
[0242]
情况1:m为1,n为1。
[0243]
若m为1,n为1,则确定第一字符串起始位置的第一个字符和终止位置的第一个字符。例如,若第一字符串为“今天天气很好”,则第一字符串左侧的m个字符为“今”,右侧的n个字符为“好”。
[0244]
情况2:m大于1,n大于1。
[0245]
若m大于1,n大于1,则确定第一字符串起始位置的第一个字符、起始位置开始的m个字符组成的字符串,以及第一字符串结束位置的第一个字符和结束位置倒数的n个字符组成的字符串。例如,若第一字符串为“今天天气很好”,m为2,n为2,则第一字符串左侧的m个字符分别为“今”和“今天”,右侧的n个字符分别为“很好”和“好”。例如,若第一字符串为“今天早上下雪了”,m为3,n为2,则第一字符串左侧的m个字符分别为“今”和“今天早”,右侧的n个字符分别为“了”和“雪了”。
[0246]
s904、根据m个字符、n个字符、第一字符串、常规词语集合和述多个第三分词,确定第一字符串与常规词语的第一相似度。
[0247]
可选的,可以根据如下可行的实现方式,确定第一字符串与常规词语的第一相似度:根据m个字符、n个字符和常规词语集合,确定第一字符串与常规词语集合的第二相似度。例如,可以根据m个字符和n个字符与常规词语集合进行匹配,若在常规词语集合中存在与m个字符或n个字符相同的字符,则第二相似度较高。可选的,可以根据匹配字符的数量,确定第一字符串与常规词语的第一相似度。例如,例如第一字符串中的m个字符和n个字符为4个,若其中一个与常规词语集合中的词语相同,则第一字符串与常规词语的第一相似度为25%。
[0248]
根据第一字符串、常规词语集合和多个分词,确定第一字符串与常规词语的第三相似度。例如,若第一字符串与常规词语集合中的任意一个词语相同,或第一字符串与多个
分词中的任意一个分词相同,则第一字符串与常规词语集合的第三相似度较大,若第一字符串与常规词语集合中的所有词语都不相同,且第一字符串与多个分词中的所有词语都不相同,则第一字符串与常规词语集合的第三相似度较低。
[0249]
根据第二相似度和第三相似度,确定第一字符串与常规词语的第一相似度。例如,可以根据第二相似度和第三相似度的和确定第一字符串与常规词语的第一相似度。
[0250]
可选的,若在常规词语集合中存在与m个字符或n个字符相同的字符,则第二相似度较高,此时,第一相似度大于第五阈值,第一字符串为常规词语,第一字符串不是多个第二字符串中的一个。例如,m个字符为“今”和“今天早”,n个字符为“了”和“雪了”,若常规词语集合中存在“今”“今天早”“了”“雪了”任意一个字符,则第一字符串为常规词语。
[0251]
可选的,若在常规词语集合或多个分词中存在任意一个与第一字符串相同的词语,第三相似度较高,此时第一相似度大于第五阈值,第一字符串为常规词语,第一字符串不是多个第二字符串中的一个。例如,第一字符串为“智能”,若常规词语集合或多个分词中存在词语“智能”,则第一字符串为常规词语。
[0252]
本技术实施例提供一种文本处理方法,获取常规词语集合,获取文本信息中包括的多个第三分词,确定第一字符串的左侧m个字符和右侧n个字符,根据m个字符、n个字符、第一字符串、常规词语集合和述多个第三分词,确定第一字符串与常规词语的第一相似度。在上述方法中,根据第二相似度和第三相似度,可以提高判断第一字符串是否为常规词语的准确度,使得第二字符串集合中的常规词语的字符串较少,进而可以提高获取新词的准确率。
[0253]
在上述任意一个实施例的基础上,下面,结合图10,通过具体示例,对文本处理方法进行详细说明。
[0254]
图10为本技术实施例提供的一种文本处理方法的过程示意图。请参见图10,对文本信息进行处理,得到第一字符串集合,根据第一字符串集合中的第一字符串的文本特征,对第一字符串集合进行筛选,得到第二字符串集合。根据第二字符串集合与预设词语集合进行匹配,得到第一词语集合和第三字符串集合。
[0255]
将第三字符串集合和第一词语集合进行相似度匹配,将第三字符串集合拆分为第四字符串集合和第五字符串集合。其中,第四字符串集合中的字符串与第一词语集合中的词语相似度较高,第五字符串集合中的字符串与第一词语集合中的词语相似度较低。将第五字符串集合作为分词工具的分词基础,对文本信息进行处理,得到第一分词。对第一分词和第一词语集合进行相似度匹配,在第一分词中确定第一目标分词。根据第一目标分词和第四字符串集合,得到第二词语集合。其中,第二词语集合中包括第一目标分词和第四字符串集合。
[0256]
将第二字符串集合作为分词工具的分词基础,对文本信息进行处理,得到第二分词,对第二分词和第一词语集合进行相似度匹配,在第二分词中确定第三词语集合。
[0257]
确定目标词语集合中包括第一词语集合、第二词语集合和第三词语集合。
[0258]
下面,结合图11-图12,详细说明本技术实施例中的文本处理方法的效果。
[0259]
图11为本技术实施例提供的一种新词准确率变化曲线图。请参见图11,包括坐标轴,其中,坐标轴的横轴为获取新词的数量,坐标轴的纵轴为新词准确率。坐标轴中包括线条1、线条2、线条3和线条4。其中,线条1为迭代一次文本处理方法时获取新词的数量和新词
准确率之间的关系,线条2为迭代两次文本处理方法时获取新词的数量和新词准确率之间的关系,线条3为迭代三次文本处理方法时获取新词的数量和新词准确率之间的关系,线条4为迭代四次文本处理方法时获取新词的数量和新词准确率之间的关系。
[0260]
请参见图11,可以确定获取500个新词时,新词的准确率高于获取2000个新词时新词的准确率。迭代次数为3次时,在获取500个新词时,新词的准确率为70%,在获取2000个新词时,新词的准确率为67%。在迭代三次本文处理方法时,本技术实施例中的文本处理方法获取的目标词语中的新词的准确率最高。
[0261]
图12为本技术实施例提供的另一种新词准确率变化曲线图。请参见图12,包括坐标轴,其中,坐标轴的横轴为迭代次数,坐标轴的纵轴为新词准确率。坐标轴中包括线条1、线条2、线条3和线条4。其中,线条1为获取500个新词时迭代次数和新词准确率的关系,线条2为获取1000个新词时迭代次数和新词准确率的关系,线条3获取1500个新词时迭代次数和新词准确率的关系,线条4为获取2000个新词时迭代次数和新词准确率的关系。请参见图12,可以确定迭代次数为3次时,获取的新词的准确率高于其它迭代次数的获取的新词的准确率最高。
[0262]
根据图11和图12所示的实施例,可以确定根据本技术实施例提供的文本处理方法,可以准确的获取文本信息中的新词,提高了获取文本信息中新词的准确率。
[0263]
图13为本技术实施例提供的一种文本处理装置的结构示意图。请参见图13,所述文本处理装置10包括切分模块11、第一确定模块12、获取模块13和第二确定模块14,其中:
[0264]
所述切分模块11用于,对待处理的文本信息进行切分处理,得到第一字符串集合,所述文本信息对应第一技术领域;
[0265]
所述第一确定模块12用于,根据所述第一字符串集合中每个第一字符串的文本特征,在所述第一字符串集合中确定第二字符串集合,所述第二字符串集合中的第二字符串的文本特征满足预设要求;
[0266]
所述获取模块13用于,获取预设词语集合,所述预设词语集合中包括所述第一技术领域中预设类型的词语;
[0267]
所述第二确定模块14用于,根据所述第二字符串集合、所述预设词语集合和所述文本信息,确定所述文本信息中的目标词语集合。
[0268]
在一种可能的实施方式中,所述第二确定模块14具体用于:
[0269]
根据所述第二字符串集合和所述预设词语集合,在所述第二字符串集合中确定第一词语集合和第三字符串集合,所述第一词语集合中的词语为所述第二字符串集合和所述预设词语集合的交集,所述第三字符串集合为所述第二字符串集合中除所述第一词语集合之外的字符串的集合;
[0270]
根据所述第一词语集合和所述第三字符串集合,在所述第三字符串集合中确定第二词语集合;
[0271]
根据所述第二字符串集合、所述文本信息和所述第一词语集合,确定第三词语集合;
[0272]
确定所述目标词语集合包括所述第一词语集合、所述第二词语集合和所述第三词语集合。
[0273]
在一种可能的实施方式中,所述第二确定模块14具体用于:
[0274]
获取所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度;
[0275]
根据所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度,在所述第三字符串集合中确定第二词语集合。
[0276]
在一种可能的实施方式中,所述第二确定模块14具体用于:
[0277]
根据所述第三字符串集合中各字符串与所述第一词语集合中各词语之间的相似度,在所述第三字符串集合中确定第四字符串集合和第五字符串集合,所述第四字符串集合中的字符串与所述第一词语集合中词语之间的相似度大于或等于第一阈值,所述第五字符串集合中的字符串与所述第一词语集合中词语之间的相似度小于第一阈值;
[0278]
根据第五字符串集合对所述文本信息进行分词处理,得到多个第一分词;
[0279]
根据所述多个第一分词和所述第一词语集合,在所述多个第一分词中确定第一目标分词;
[0280]
确定所述第二词语集合包括所述第四字符串集合和所述第一目标分词。
[0281]
在一种可能的实施方式中,所述第二确定模块14具体用于:
[0282]
获取每个第一分词的词向量、以及所述第一词语集合中每个词语的词向量;
[0283]
根据每个第一分词的词向量、以及所述第一词语集合中每个词语的词向量,获取每个第一分词与所述第一词语集合中每个词语的相似度;
[0284]
针对所述多个第一分词中的任意一个第一分词,若所述第一词语集合中存在词语与所述第一分词的相似度大于或等于第二阈值,则将所述第一分词确定为所述第一目标分词。
[0285]
在一种可能的实施方式中,所述第二确定模块14具体用于:
[0286]
根据所述第二字符串集合对文本信息进行分词处理,得到多个第二分词;
[0287]
根据所述多个第二分词和所述第一词语集合,在所述多个第二分词中确定第三词语集合。
[0288]
在一种可能的实施方式中,所述第二确定模块14具体用于:
[0289]
获取每个第二分词的词向量、以及所述第一词语集合中每个词语的词向量;
[0290]
根据每个第二分词的词向量、以及所述第一词语集合中每个词语的词向量,获取每个第二分词与所述第一词语集合中每个词语的相似度;
[0291]
针对所述多个第二分词中的任意一个第二分词,若所述第一词语集合中存在词语与所述第二分词的相似度大于或等于第二阈值,则将所述第二分词确定为所述第三词语集合中的一个。
[0292]
在一种可能的实施方式中,所述第一确定模块12具体用于:
[0293]
确定所述第一字符串集合中每个第一字符串的文本特征,所述文本特征包括如下至少一种:所述第一字符串中字符的第一关联度、所述第一字符串与相邻字符串的第二关联度、所述第一字符串与常规词语的第一相似度;
[0294]
针对任意一个第一字符串,若所述第一字符串的第一关联度大于或等于第三阈值,所述第一字符串的第二关联度大于或等于第四阈值,所述第一相似度小于或等于第五阈值,则确定所述第一字符串为所述多个第二字符串中的一个。
[0295]
在一种可能的实施方式中,所述第一确定模块12具体用于:
[0296]
针对于任意一个第一字符串,确定至少一个拆分规则;
[0297]
根据所述至少一个拆分规则对所述第一字符串进行拆分,得到至少一组字符子串;
[0298]
根据所述至少一组字符子串,确定所述第一字符串中字符的第一关联度。
[0299]
在一种可能的实施方式中,所述第一确定模块12具体用于:
[0300]
所述拆分规则的数量为1,所述至少一组字符子串的组数为1,确定每个字符子串在所述文本信息中出现的概率,根据所述出现的概率,确定所述第一字符串中字符的第一关联度;
[0301]
所述拆分规则的数量大于1,所述至少一组字符子串的组数为至少两组,分别确定每组字符子串中的至少两个字符子串之间的关联度,根据每组字符子串中的至少两个字符子串之间的关联度,确定所述第一字符串中字符的第一关联度。
[0302]
在一种可能的实施方式中,所述第一确定模块12具体用于:
[0303]
获取所述第一字符串的左邻字符串和右邻字符串;
[0304]
根据所述第一字符串和所述左邻字符串,确定所述第一字符串和所述左邻字符串的第三关联度;
[0305]
根据所述第一字符串和所述右邻字符串,确定所述第一字符串和所述右邻字符串的第四关联度;
[0306]
根据所述第三关联度和所述第四关联度,确定所述第一字符串与相邻字符串的第二关联度。
[0307]
在一种可能的实施方式中,所述第一确定模块12具体用于:
[0308]
获取常规词语集合;
[0309]
获取所述文本信息中包括的多个第三分词;
[0310]
针对于任意一个第一字符串,确定所述第一字符串的左侧m个字符和右侧n个字符,所述m为大于或等于1的整数,所述n为大于或等于1的整数;
[0311]
根据所述m个字符、所述n个字符、所述第一字符串、所述常规词语集合和所述多个第三分词,确定所述第一字符串与常规词语的第一相似度。
[0312]
在一种可能的实施方式中,所述第一确定模块12具体用于:
[0313]
根据所述m个字符、所述n个字符和所述常规词语集合,确定所述第一字符串与所述常规词语的第二相似度;
[0314]
根据所述第一字符串、所述常规词语集合和所述多个分词,确定所述第一字符串与所述常规词语的第三相似度;
[0315]
根据所述第二相似度和所述第三相似度,确定所述第一字符串与所述常规词语的第一相似度。
[0316]
本技术实施例提供的一种文本处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
[0317]
图14为本技术实施例提供的文本处理设备的硬件结构示意图。请参见图14,该文本处理设备20可以包括:处理器21和存储器22,其中,处理器21和存储器22可以通信;示例性的,处理器21和存储器22通过通信总线23通信,所述存储器22用于存储程序指令,所述处理器21用于调用存储器中的程序指令执行上述任意方法实施例所示的文本处理方法。
[0318]
可选的,文本处理设备20还可以包括通信接口,通信接口可以包括发送器和/或接收器。
[0319]
可选的,上述处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0320]
本技术实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序;所述计算机程序用于实现如上述任意实施例所述的文本处理方法。
[0321]
本技术实施例提供一种计算机程序产品,所述计算机程序产品包括指令,当所述指令被执行时,使得计算机执行上述文本处理方法。
[0322]
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(英文:read-only memory,缩写:rom)、ram、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetic tape)、软盘(英文:floppy disk)、光盘(英文:optical disc)及其任意组合。
[0323]
本技术实施例是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0324]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0325]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0326]
显然,本领域的技术人员可以对本技术实施例进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术实施例的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
[0327]
在本技术中,术语“包括”及其变形可以指非限制性的包括;术语“或”及其变形可以指“和/或”。本技术中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本技术中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献