文本预测方法、装置、电子设备及存储介质与流程

2021-10-20 00:56:00 来源：中国专利 TAG：自然语言电子设备装置可读文本

1.本发明涉及自然语言处理技术领域，尤其涉及一种文本预测方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.文本预测是一种根据文本推测文本后续内容的一种方法，现有技术中的文本预测，在通过常见词汇进行模型训练，进而进行文本预测时，预测结果的可用性较低。例如，初始文本为“我”，现有技术中文本预测结果中常出现重复的“我”或“啊”等重复、无用或语气词，这也容易使得上下文不连贯或者造成语义矛盾。因此，现有技术中文本预测无法得到语义丰富、可用性高的后续文本。

技术实现要素：

3.本发明提供一种文本预测方法、装置、电子设备及计算机可读存储介质，目的在于获取语义丰富的文本，提高文本预测结果的可用性。
4.为实现上述目的，本发明提供的一种文本预测方法，包括：
5.获取目标队列中文本的优先级；
6.根据所述优先级选取所述目标队列中优先级最大的优先文本；
7.利用预构建的文本回归预测模型预测所述优先文本的后续文本，得到多个不同后续文本和所述多个不同后续文本的预测概率；
8.判断所述优先文本的丰富度是否大于预设的丰富度阈值，得到判断结果；
9.根据所述判断结果选取不同的筛选操作，并结合所述预测概率从所述多个不同后续文本中筛选待连接文本，将所述待连接文本连接至所述优先文本，得到连接文本，将所述连接文本添加至所述目标队列；
10.返回所述获取目标队列中文本的优先级的步骤继续执行，直至从所述目标队列中选取到的优先文本包含结束符时，确定包含所述结束符的优先文本为预测文本。
11.可选的，所述获取目标队列中文本的优先级之前，所述方法还包括：
12.接收用户输入的初始文本，按照预设置的配置方式对所述初始文本进行配置；
13.将配置后的所述初始文本添加至所述目标队列。
14.可选的，所述按照预设置的配置方式对所述初始文本进行配置，包括：
15.将起始符添加至所述初始文本的前端，将分隔符添加至所述初始文本的后端；以及
16.对所述初始文本的优先级和丰富度进行初始化赋值。
17.可选的，所述将所述待连接文本连接至所述优先文本，得到连接文本之后，包括：
18.利用反语言模型对所述待连接文本进行丰富度计算，得到所述待连接文本块对应的丰富度，确定所述待连接文本对应的丰富度为所述待连接文本连接至所述优先文本后得到的连接文本的丰富度；
19.根据所述待连接文本对应的丰富度和预测概率计算所述待连接文本的优先级，确定所述待连接文本对应的优先级为所述待连接文本连接至所述优先文本后得到的连接文本的优先级。
20.可选的，所述所述根据判断结果选取不同的筛选操作，并结合所述预测概率从所述多个不同后续文本中筛选待连接文本，包括：
21.当所述优先文本的丰富度小于丰富度阈值时，从所述多个不同后续文本的预测概率中从大到小依次选取预测概率，当选取的预测概率之和大于第一概率阈值时，确定所述选取的预测概率为高概率集合；
22.将所述高概率集合中的预测概率进行归一化计算，根据归一化运算结果在所述高概率集合中抽取目标后续文本，确定所述目标后续文本为待连接文本。
23.可选的，所述根据所述判断结果选取不同的筛选操作，并结合所述预测概率从所述多个不同后续文本中筛选待连接文本包括：
24.当所述优先文本的丰富度大于丰富度阈值时，从所述多个不同后续文本的预测概率中筛选预测概率大于第二概率的后续文本，得到待连接文本。
25.可选的，所述利用预构建的文本回归预测模型预测所述优先文本的后续文本之前，所述方法还包括：
26.将预构建的训练样本集进行编码及清洗操作，得到编码数据；
27.利用所述编码数据对预构建的待训练文本回归预测模型进行第一阶段训练，得到初级文本回归测试模型；
28.利用预构建的本地数据，对所述初级文本回归测试模型进行第二阶段训练，得到所述文本回归测试模型。
29.为了解决上述问题，本发明还提供一种文本预测装置，所述装置包括：
30.优先文本选取模块，用于获取目标队列中文本的优先级，及根据所述优先级选取所述目标队列中优先级最大的优先文本；
31.模型预测模块，用于利用预构建的文本回归预测模型预测所述优先文本的后续文本，得到多个不同后续文本和所述多个不同后续文本的预测概率；
32.预测结果筛选模块，用于判断所述优先文本的丰富度是否大于预设的丰富度阈值，得到判断结果，及根据所述判断结果选取不同的筛选操作，并结合所述预测概率从所述多个不同后续文本中筛选待连接文本，将所述待连接文本连接至所述优先文本，得到连接文本，将所述连接文本添加至所述目标队列；
33.结果输出模块，用于返回能够获取目标队列中文本的优先级的所述优先文本选取模块继续执行，直至从所述目标队列中选取到的优先文本包含结束符时，确定包含所述结束符的优先文本为预测文本。
34.为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：
35.至少一个处理器；以及，
36.与所述至少一个处理器通信连接的存储器；其中，
37.所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的文本预测方法。
38.为了解决上述问题，本发明还提供一种计算机可读存储介质，包括存储数据区和存储程序区，存储数据区存储创建的数据，存储程序区存储有计算机程序；其中，所述计算机程序被处理器执行时实现上述所述的文本预测方法。
39.本发明实施例通过优先级筛选出优先级最大的优先文本，通过文本回归预测模型对优先文本进行预测，得到内容丰富不同语义的多个后续文本，且提高文本预测的预测效率，在得到内容丰富不同语义的多个后续文本之后，通过丰富度选取不同的筛选操作从多个后续文本中筛选待连接文本，进而添加至目标队列中直至得到包含结束符的文本，从而能够不断的得到内容丰富的文本，直到得到内容完整的文本。因此本发明提供的文本预测方法、装置、电子设备及计算机可读存储介质可以实现获取语义丰富的文本，提高文本预测结果的可用性的目的。
附图说明
40.图1为本发明一实施例提供的文本预测方法的流程示意图；
41.图2为本发明一实施例提供的文本预测装置的模块示意图；
42.图3为本发明一实施例提供的实现文本预测方法的电子设备的内部结构示意图；
43.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
44.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
45.本技术实施例提供一种文本预测方法。所述文本预测方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之，所述文本预测方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。
46.参照图1所示，为本发明一实施例提供的文本预测方法的流程示意图。在本实施例中，所述文本预测方法包括：
47.s1、获取目标队列中文本的优先级。
48.所述目标队列为具有预设存储结构的存储空间。
49.所述目标队列可以为新建的或者为预先构建的，在所述目标队列中存在至少一个文本，所述文本可以为字、词、句中的任意一项。
50.详细地，本发明实施例中，所述获取目标队列中文本的优先级之前，所述方法还包括：
51.接收用户输入的初始文本，按照预设置的配置方式对所述初始文本进行配置；
52.将配置后的所述初始文本添加至所述目标队列。
53.本发明实施例中，用户可以通过手机、电脑等电子设备的输入装置输入初始文本。
54.本发明一可选实施例中，对初始文本进行配置可以是对初始文本添加初始文本的标签。
55.优选地，本发明实施例中，所述按照预设置的配置方式对所述初始文本进行配置，包括：
56.将起始符添加至所述初始文本的前端，将分隔符添加至所述初始文本的后端；以及
57.对所述初始文本的优先级和丰富度进行初始化赋值。
58.本发明实施例中，所述起始符和分隔符可以为预先定义的不同符号，且起始符和分隔符的类型可以有多个。
59.例如，初始文本为“今天”，将起始符“</s>”及分隔符“</sep>”分别添加至所述初始文本的前端和后端，得到【</s>今天<.sep>】。
60.本发明实施例中所述优先级为一种概括预测后文本整体的是否可以继续推演的概率等级。丰富度标识预测的后续文本的丰富性有关，当丰富度越高时预测的高概率的后续文本越多。具体的，丰富度可以根据反语言模型处理得到的，丰富度的具体计算方法将在下述s5中详细阐述。
61.具体的，优先级的数值越大，标识优先级越高，丰富度的数值越大，标识丰富度就越高。
62.本发明实施例中，对初始文本的优先级和丰富度赋以具体的初始值。例如，对文本【</s>今天<.sep>】的优先级赋值为0，丰富度赋值为1。预构建一个目标队列，并设置所述目标队列的格式，将用户输入的初始文本导入所述目标队列，完成初始化过程。
63.s2、根据所述优先级选取所述目标队列中优先级最大的优先文本。
64.当目标队列中只有初始文本时，则筛选出初始文本为优先级最大的优先文本。
65.当目标队列中存在初始文本以外的其他文本时，则比较不同文本的优先级的大小，筛选出优先级最大的优先文本。
66.s3、利用预构建的文本回归预测模型预测所述优先文本的后续文本，得到多个不同后续文本和所述多个不同后续文本的预测概率。
67.所述文本回归预测模型用于根据输入的文本推断出该输入的文本的后续文本。
68.本发明实施例中，通过文本回归预测模型预测得到的后续文本可以包括结束符，例如句号。
69.详细地，本发明实施例中，所述利用预构建的文本回归预测模型预测所述优先文本的后续文本之前，所述方法还包括获取所述文本回归预测模型。
70.所述获取所述文本回归预测模型包括：
71.将预构建的训练样本集进行编码及清洗操作，得到编码数据；
72.利用所述编码数据对预构建的待训练文本回归预测模型进行第一阶段训练，得到初级文本回归测试模型；
73.利用预构建的本地数据，对所述初级文本回归测试模型进行第二阶段训练，得到所述文本回归测试模型。
74.具体的，本发明实施例中，所述编码操作为将所述训练文本集的数据类型转化为更适合模型训练的int64数据类型。所述清洗操作为将编码后的数据进行去重、去空值等操作，使得数据结构更加完整。
75.通过对训练样本集进行编码和清洗，能够提高数据利用的效率。
76.具体的，本发明实施例训练所述待训练文本回归测试模型包含两个训练阶段。
77.在第一个训练阶段中，利用所述编码数据对所述待训练文本回归预测模型进行训
练，得到初级文本回归测试模型。其中，所述初级文本回归预测模型能够预测出日常生活通用的高频词汇或语句。
78.在第二个训练阶段中，利用本地存储的个性化的本地数据对所述初级文本回归测试模型进行微调训练。其中，所述微调训练是指利用本地数据对初级文本回归测试模型进行继续训练，用于减小模型生成结果的偏差，提高准确率。
79.本发明实施例通过二个训练阶段，有助于模型适应本地用户的语言习惯以及适应本地用户所擅长的知识领域，得到具有本地特色的文本回归测试模型。
80.s4、判断所述优先文本的丰富度是否大于预设的丰富度阈值，得到判断结果。
81.本发明实施例中，丰富度阈值可以为预先设定的，例如，所述丰富度阈值为5。
82.当优先文本为初始文本时，所述优先文本的丰富度为初始化的丰富度值，例如优先文本的丰富度为1，此时，所述判断结果为优先文本的丰富度小于丰富度阈值。
83.s5、根据所述判断结果选取不同的筛选操作，并结合所述预测概率从所述多个不同后续文本中筛选待连接文本，将所述待连接文本连接至所述优先文本，得到连接文本，将所述连接文本添加至所述目标队列。
84.本发明一可选实施例中，当优先文本的丰富度大于丰富度阈值和优先文本的丰富度小于丰富度阈值时可以通过不同的筛选操作得到待连接文本。
85.在第一次循环过程中，所述优先文本的丰富度为1，小于所述丰富度阈值，可执行下述的第一筛选操作，当后续循环过程中出现丰富度大于所述丰富度阈值的优先文本，则进行下述的第二筛选操作。
86.优选的，所述根据判断结果选取不同的筛选操作结合所述预测概率从所述多个不同后续文本中筛选待连接文本，包括：
87.当所述优先文本的丰富度小于丰富度阈值时，从所述多个不同后续文本的预测概率中从大到小依次选取预测概率，当选取的预测概率之和大于第一概率阈值时，确定所述选取的预测概率为高概率集合；
88.将所述高概率集合中的预测概率进行归一化计算，根据归一化运算结果在所述高概率集合中抽取目标后续文本，确定所述目标后续文本为待连接文本。
89.本发明实施例中，第一概率阈值可以为0.9。
90.例如，当通过所述文本回归预测模型输出的后续文本为[“真好”：概率0.41；“真热”：概率0.3；“晴朗”：概率0.2；“阴天”：概率0.05]时，若概率阈值为0.9，则根据预测概率从大到小筛选，通过计算得到“真好”和“真热”概率和为0.71小于第一概率0.9，“真好”、“真热”及“晴朗”概率和为0.91，大于所述第一概率0.9，则提取后续文本“真好”、“真热”及“晴朗”为高概率集合。对所述高概率集合中的各个后续文本进行归一化操作后，得到“真好”、“真热”及“晴朗”的归一化概率分别为0.41/0.91、0.3/0.91及0.2/0.91，按照所述归一化概率从“真好”、“真热”及“晴朗”三个后续文本中抽取目标后续文本，若抽取得到“真好”，则“真好”为所述待连接文本。
[0091]
优选的，所述根据判断结果选取不同的筛选操作结合所述预测概率从所述多个不同后续文本中筛选待连接文本包括：
[0092]
当所述优先文本的丰富度大于丰富度阈值时，从所述多个不同后续文本的预测概率中筛选预测概率大于第二概率的后续文本，得到待连接文本。
[0093]
本发明实施例中，第一概率阈值可以为0.6。
[0094]
例如，若所述优先文本的丰富度大于所述丰富度阈值，经过所述文本回归预测模型得到后续文本为[“真好”：概率0.9；“真热”：概率0.8；“晴朗”：概率0.7；“阴天”：概率0.5
……
]，筛选大于所述第二概率0.6的后续文本，得到[真好”：概率0.9；“真热”：概率0.8；“晴朗”：概率0.7]都为待连接文本，将这三个待连接文本分别与优先文本进行连接，得到三个连接文本，并将这三个连接文本依次添加至目标队列中，则目标队列中的文本内容逐渐增多。
[0095]
又例如，若所述优先文本的丰富度大于所述丰富度阈值，经过所述文本回归预测模型得到后续文本为[“真好”：概率0.9；“真热”：概率0.6；“晴朗”：概率0.6；“阴天”：概率0.5
……
]，筛选大于所述第二概率0.6的后续文本，得到[真好”：概率0.9]都为待连接文本，将这一个待连接文本与优先文本进行连接，得到一个连接文本，并将这一个连接文本添加至目标队列中。
[0096]
进一步的，本发明实施例中，所述将所述待连接文本连接至所述优先文本，得到连接文本之后，所述方法还包括：
[0097]
利用反语言模型对所述待连接文本进行丰富度计算，得到所述待连接文本块对应的丰富度，确定所述待连接文本对应的丰富度为所述待连接文本连接至所述优先文本后得到的连接文本的丰富度；
[0098]
根据所述待连接文本对应的丰富度和预测概率计算所述待连接文本的优先级，确定所述待连接文本对应的优先级为所述待连接文本连接至所述优先文本后得到的连接文本的优先级。
[0099]
例如，初始文本为【</s>今天<.sep>】通过前述操作得到了连接文本为【</s>今天<.sep>天气】，则通过反语言模型计算“天气”的丰富度为5，则确定连接文本【</s>今天<.sep>天气】的丰富度为5。
[0100]
所述反语言模型是一种n
‑
gram模型，例如，反语言模型为2
‑
gram模型。具体的，在本发明实施例中，根据反语言模型计算得到的待连接文本的概率的值来确定丰富度。
[0101]
本发明实施例中，优先级公式为：
[0102]
pr＝p_aver s_anti
[0103]
其中，所述pr为优先级，所述s_anti为丰富度，p_aver为所述待连接文本中不同词语组合的平均概率，例如当产生的待连接文本为“特别冷”则p_aver为(p(特别) p(别冷))/2。
[0104]
例如，初始文本为【</s>今天<.sep>】通过前述操作得到了连接文本为【</s>今天<.sep>天气】，若优先级计算得到“天气”的优先级为3，则确定连接文本【</s>今天<.sep>天气】的优先级为3。
[0105]
本发明其他实施例中，还可以根据文本添加至目标队列的顺序来确定文本的优先级，例如，根据文本添加至目标队列的顺序依此增加优先级的数值，从而每次最新添加至目标队列的文本优先级为最高的。
[0106]
s6、返回所述获取目标队列中文本的优先级的步骤继续执行，直至从所述目标队列中选取到的优先文本包含结束符时，确定包含所述结束符的优先文本为预测文本。
[0107]
本发明实施例中，在将连接文本添加至目标队列之后，不断重复s1至s5的操作，从
而可以不断的得到连接文本以及连接文本的优先级和丰富度，直至从目标队列中选取到的优先文本包含结束符时，确定包含结束符的优先文本为预测文本，在确定预测文本之后可以通过显示装置输出预测文本。
[0108]
例如，目标队列中存在初始文本为“今”，通过执行s1
‑
s5得到连接文本为“今天”，再次执行s1
‑
s5得到连接文本为“今天天气”，再次执行s1
‑
s5得到连接文本为“今天天气特别”，再次执行s1
‑
s5得到连接文本为“今天天气特别好”，再次执行s1
‑
s5得到连接文本为结束符“</e>”，则将“今天天气特别好”与结束符一并添加至目标队列，当根据优先级确定“今天天气特别好</e>”为优先级最大的优先文本时，确定该文本为预测文本。
[0109]
本发明实施例通过优先级筛选出优先级最大的优先文本，通过文本回归预测模型对优先文本进行预测，得到内容丰富不同语义的多个后续文本，且提高文本预测的预测效率，在得到内容丰富不同语义的多个后续文本之后，通过丰富度选取不同的筛选操作从多个后续文本中筛选待连接文本，进而添加至目标队列中直至得到包含结束符的文本，从而能够不断的得到内容丰富的文本，直到得到内容完整的文本。因此本发明提供的文本预测方法可以实现获取语义丰富的文本，提高文本预测结果的可用性的目的。
[0110]
如图2所示，是本发明文本预测装置的模块示意图。
[0111]
本发明所述文本预测装置100可以安装于电子设备中。根据实现的功能，所述文本预测装置可以包括优先文本选取模块模块101、模型预测模块102、预测结果筛选模块103、结果输出模块104。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
[0112]
在本实施例中，关于各模块/单元的功能如下：
[0113]
所述优先级筛选模块101，用于获取目标队列中文本的优先级，及根据所述优先级选取所述目标队列中优先级最大的优先文本。
[0114]
所述目标队列为具有预设存储结构的存储空间。
[0115]
所述目标队列可以为新建的或者为预先构建的，在所述目标队列中存在至少一个文本，所述文本可以为字、词、句中的任意一项。
[0116]
详细地，本发明实施例中，所述装置还包括初始化模块，所述初始化模块，包括：
[0117]
接收单元，用于接收用户输入的初始文本，按照预设置的配置方式对所述初始文本进行配置；
[0118]
添加单元，用于将配置后的所述初始文本添加至所述目标队列。
[0119]
本发明实施例中，用户可以通过手机、电脑等电子设备的输入装置输入初始文本。
[0120]
本发明一可选实施例中，对初始文本进行配置可以是对初始文本添加初始文本的标签。
[0121]
优选地，本发明实施例中，所述添加单元具体用于：
[0122]
将起始符添加至所述初始文本的前端，将分隔符添加至所述初始文本的后端；以及
[0123]
对所述初始文本的优先级和丰富度进行初始化赋值。
[0124]
本发明实施例中，所述起始符和分隔符可以为预先定义的不同符号，且起始符和分隔符的类型可以有多个。
[0125]
例如，初始文本为“今天”，将起始符“</s>”及分隔符“</sep>”分别添加至所述初
始文本的前端和后端，得到【</s>今天<.sep>】。
[0126]
本发明实施例中所述优先级为一种概括预测后文本整体的是否可以继续推演的概率等级。丰富度标识预测的后续文本的丰富性，当丰富度越高时预测的高概率的后续文本越多。具体的，丰富度可以根据反语言模型处理得到的，丰富度的具体计算方法将在预测结果筛选模块103中详细阐述。
[0127]
具体的，优先级的数值越大，标识优先级越高，丰富度的数值越大，标识丰富度就越高。
[0128]
本发明实施例中，对初始文本的优先级和丰富度赋以具体的初始值。例如，对文本【</s>今天<.sep>】的优先级赋值为0，丰富度赋值为1。预构建一个目标队列，并设置所述目标队列的格式，将用户输入的初始文本导入所述目标队列，完成初始化过程。
[0129]
本发明实施例中，当目标队列中只有初始文本时，则筛选出初始文本为优先级最大的优先文本；当目标队列中存在初始文本以外的其他文本时，则比较不同文本的优先级的大小，筛选出优先级最大的优先文本。
[0130]
所述模型预测模块102，用于利用预构建的文本回归预测模型预测所述优先文本的后续文本，得到多个不同后续文本和所述多个不同后续文本的预测概率。
[0131]
所述文本回归预测模型用于根据输入的文本推断出该输入的文本的后续文本。
[0132]
本发明实施例中，通过文本回归预测模型预测得到的后续文本可以包括结束符，例如句号。
[0133]
详细地，本发明实施例中，所述装置还包括：模型训练模块。所述模型训练模块用于：
[0134]
所述利用预构建的文本回归预测模型预测所述优先文本的后续文本之前，将预构建的训练样本集进行编码及清洗操作，得到编码数据；
[0135]
利用所述编码数据对预构建的待训练文本回归预测模型进行第一阶段训练，得到初级文本回归测试模型；
[0136]
利用预构建的本地数据，对所述初级文本回归测试模型进行第二阶段训练，得到所述文本回归测试模型。
[0137]
具体的，本发明实施例中，所述编码操作为将所述训练文本集的数据类型转化为更适合模型训练的int64数据类型。所述清洗操作为将编码后的数据进行去重、去空值等操作，使得数据结构更加完整。
[0138]
通过对训练样本集进行编码和清洗，能够提高数据利用的效率。
[0139]
具体的，本发明实施例训练所述待训练文本回归测试模型包含两个训练阶段。
[0140]
在第一个训练阶段中，利用所述编码数据对所述待训练文本回归预测模型进行训练，得到初级文本回归测试模型。其中，所述初级文本回归预测模型能够预测出日常生活通用的高频词汇或语句。
[0141]
在第二个训练阶段中，利用本地存储的个性化的本地数据对所述初级文本回归测试模型进行微调训练。其中，所述微调训练是指利用本地数据对初级文本回归测试模型进行继续训练，用于减小模型生成结果的偏差，提高准确率。
[0142]
本发明实施例通过二个训练阶段，有助于模型适应本地用户的语言习惯以及适应本地用户所擅长的知识领域，得到具有本地特色的文本回归测试模型。
[0143]
所述预测结果筛选模块103，用于判断所述优先文本的丰富度是否大于预设的丰富度阈值，得到判断结果，及根据所述判断结果选取不同的筛选操作，并结合所述预测概率从所述多个不同后续文本中筛选待连接文本，将所述待连接文本连接至所述优先文本，得到连接文本，将所述连接文本添加至所述目标队列。
[0144]
本发明实施例中，丰富度阈值可以为预先设定的，例如，所述丰富度阈值为5。
[0145]
当优先文本为初始文本时，所述优先文本的丰富度为初始化的丰富度值，例如优先文本的丰富度为1，此时，所述判断结果为优先文本的丰富度小于丰富度阈值。
[0146]
本发明一可选实施例中，当优先文本的丰富度大于丰富度阈值和优先文本的丰富度小于丰富度阈值时可以通过不同的筛选操作得到待连接文本。
[0147]
在第一次循环过程中，所述优先文本的丰富度为1，小于所述丰富度阈值，可执行下述的第一筛选操作，当后续循环过程中出现丰富度大于所述丰富度阈值的优先文本，则进行下述的第二筛选操作。
[0148]
优选的，所述根据判断结果选取不同的筛选操作结合所述预测概率从所述多个不同后续文本中筛选待连接文本，包括：
[0149]
当所述优先文本的丰富度小于丰富度阈值时，从所述多个不同后续文本的预测概率中从大到小依次选取预测概率，当选取的预测概率之和大于第一概率阈值时，确定所述选取的预测概率为高概率集合；
[0150]
将所述高概率集合中的预测概率进行归一化计算，根据归一化运算结果在所述高概率集合中抽取目标后续文本，确定所述目标后续文本为待连接文本。
[0151]
本发明实施例中，第一概率阈值可以为0.9。
[0152]
例如，当通过所述文本回归预测模型输出的后续文本为[“真好”：概率0.41；“真热”：概率0.3；“晴朗”：概率0.2；“阴天”：概率0.05]时，若概率阈值为0.9，则根据预测概率从大到小筛选，通过计算得到“真好”和“真热”概率和为0.71小于第一概率0.9，“真好”、“真热”及“晴朗”概率和为0.91，大于所述第一概率0.9，则提取后续文本“真好”、“真热”及“晴朗”为高概率集合。对所述高概率集合中的各个后续文本进行归一化操作后，得到“真好”、“真热”及“晴朗”的归一化概率分别为0.41/0.91、0.3/0.91及0.2/0.91，按照所述归一化概率从“真好”、“真热”及“晴朗”三个后续文本中抽取目标后续文本，若抽取得到“真好”，则“真好”为所述待连接文本。
[0153]
优选的，所述根据判断结果选取不同的筛选操作结合所述预测概率从所述多个不同后续文本中筛选待连接文本，包括：
[0154]
当所述优先文本的丰富度大于丰富度阈值时，从所述多个不同后续文本的预测概率中筛选预测概率大于第二概率的后续文本，得到待连接文本。
[0155]
本发明实施例中，第一概率阈值可以为0.6。
[0156]
例如，若所述优先文本的丰富度大于所述丰富度阈值，经过所述文本回归预测模型得到后续文本为[“真好”：概率0.9；“真热”：概率0.8；“晴朗”：概率0.7；“阴天”：概率0.5
……
]，筛选大于所述第二概率0.6的后续文本，得到[真好”：概率0.9；“真热”：概率0.8；“晴朗”：概率0.7]都为待连接文本，将这三个待连接文本分别与优先文本进行连接，得到三个连接文本，并将这三个连接文本依次添加至目标队列中，则目标队列中的文本内容逐渐增多。
[0157]
又例如，若所述优先文本的丰富度大于所述丰富度阈值，经过所述文本回归预测模型得到后续文本为[“真好”：概率0.9；“真热”：概率0.6；“晴朗”：概率0.6；“阴天”：概率0.5
……
]，筛选大于所述第二概率0.6的后续文本，得到[真好”：概率0.9]都为待连接文本，将这一个待连接文本与优先文本进行连接，得到一个连接文本，并将这一个连接文本添加至目标队列中。
[0158]
进一步的，本发明实施例所述装置还包括丰富度优先级计算模块，用于：
[0159]
利用反语言模型对所述待连接文本进行丰富度计算，得到所述待连接文本块对应的丰富度，确定所述待连接文本对应的丰富度为所述待连接文本连接至所述优先文本后得到的连接文本的丰富度；
[0160]
根据所述待连接文本对应的丰富度和预测概率计算所述待连接文本的优先级，确定所述待连接文本对应的优先级为所述待连接文本连接至所述优先文本后得到的连接文本的优先级。
[0161]
例如，初始文本为【</s>今天<.sep>】通过前述操作得到了连接文本为【</s>今天<.sep>天气】，则通过反语言模型计算“天气”的丰富度为5，则确定连接文本【</s>今天<.sep>天气】的丰富度为5。
[0162]
所述反语言模型是一种n
‑
gram模型，例如，反语言模型为2
‑
gram模型。具体的，在本发明实施例中，根据反语言模型计算得到的待连接文本的概率的值来确定丰富度。
[0163]
本发明实施例中，优先级公式为：
[0164]
pr＝p_aver s_anti
[0165]
其中，所述pr为优先级，所述s_anti为丰富度，p_aver为所述待连接文本中不同词语组合的平均概率，例如当产生的待连接文本为“特别冷”则p_aver为(p(特别) p(别冷))/2。
[0166]
例如，初始文本为【</s>今天<.sep>】通过前述操作得到了连接文本为【</s>今天<.sep>天气】，若优先级计算得到“天气”的优先级为3，则确定连接文本【</s>今天<.sep>天气】的优先级为3。
[0167]
本发明其他实施例中，还可以根据文本添加至目标队列的顺序来确定文本的优先级，例如，根据文本添加至目标队列的顺序依此增加优先级的数值，从而每次最新添加至目标队列的文本优先级为最高的。
[0168]
所述结果输出模块104，用于返回能够获取目标队列中文本的优先级的所述优先文本选取模块继续执行，直至从所述目标队列中选取到的优先文本包含结束符时，确定包含所述结束符的优先文本为预测文本。
[0169]
本发明实施例中，在将连接文本添加至目标队列之后，不断触发前述模块101
‑
103执行操作，从而可以不断的得到连接文本以及连接文本的优先级和丰富度，直至从目标队列中选取到的优先文本包含结束符时，确定包含结束符的优先文本为预测文本，在确定预测文本之后可以通过显示装置输出预测文本。
[0170]
例如，目标队列中存在初始文本为“今”，通过触发前述模块执行操作得到连接文本为“今天”，再次触发前述模块执行操作得到连接文本为“今天天气”，再次触发前述模块执行操作得到连接文本为“今天天气特别”，再次触发前述模块执行操作得到连接文本为“今天天气特别好”，再次触发前述模块执行操作得到连接文本为结束符“</e>”，则将“今天
天气特别好”与结束符一并添加至目标队列，当根据优先级确定“今天天气特别好</e>”为优先级最大的优先文本时，确定该文本为预测文本。
[0171]
本发明实施例通过优先级筛选出优先级最大的优先文本，通过文本回归预测模型对优先文本进行预测，得到内容丰富不同语义的多个后续文本，且提高文本预测的预测效率，在得到内容丰富不同语义的多个后续文本之后，通过丰富度选取不同的筛选操作从多个后续文本中筛选待连接文本，进而添加至目标队列中直至得到包含结束符的文本，从而能够不断的得到内容丰富的文本，直到得到内容完整的文本。因此本发明提供的文本预测装置可以实现获取语义丰富的文本，提高文本预测结果的可用性的目的。
[0172]
如图3所示，是本发明实现文本预测方法的电子设备的结构示意图。
[0173]
所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如文本预测程序12。
[0174]
其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card，smc)、安全数字(secure digital，sd)卡、闪存卡(flash card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如文本预测程序12的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。
[0175]
所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行文本预测程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。
[0176]
所述总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0177]
图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
[0178]
例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi
‑
fi模块等，在此
不再赘述。
[0179]
进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如wi
‑
fi接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。
[0180]
可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light
‑
emitting diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0181]
应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
[0182]
所述电子设备1中的所述存储器11存储的文本预测程序12是多个计算机程序的组合，在所述处理器10中运行时，可以实现：
[0183]
获取目标队列中文本的优先级；
[0184]
根据所述优先级选取所述目标队列中优先级最大的优先文本；
[0185]
利用预构建的文本回归预测模型预测所述优先文本的后续文本，得到多个不同后续文本和所述多个不同后续文本的预测概率；
[0186]
判断所述优先文本的丰富度是否大于预设的丰富度阈值，得到判断结果；
[0187]
根据所述判断结果选取不同的筛选操作，并结合所述预测概率从所述多个不同后续文本中筛选待连接文本，将所述待连接文本连接至所述优先文本，得到连接文本，将所述连接文本添加至所述目标队列；
[0188]
返回所述获取目标队列中文本的优先级的步骤继续执行，直至从所述目标队列中选取到的优先文本包含结束符时，确定包含所述结束符的优先文本为预测文本。
[0189]
进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)。
[0190]
进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。
[0191]
本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：
[0192]
获取目标队列中文本的优先级；
[0193]
根据所述优先级选取所述目标队列中优先级最大的优先文本；
[0194]
利用预构建的文本回归预测模型预测所述优先文本的后续文本，得到多个不同后续文本和所述多个不同后续文本的预测概率；
[0195]
判断所述优先文本的丰富度是否大于预设的丰富度阈值，得到判断结果；
[0196]
根据所述判断结果选取不同的筛选操作，并结合所述预测概率从所述多个不同后
续文本中筛选待连接文本，将所述待连接文本连接至所述优先文本，得到连接文本，将所述连接文本添加至所述目标队列；
[0197]
返回所述获取目标队列中文本的优先级的步骤继续执行，直至从所述目标队列中选取到的优先文本包含结束符时，确定包含所述结束符的优先文本为预测文本。
[0198]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0199]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0200]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
[0201]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
[0202]
因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图表记视为限制所涉及的权利要求。
[0203]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0204]
此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。
[0205]
最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：一种用于文本搜索的方法及设备与流程
下一篇：高光谱图像解混方法、装置及电子设备与流程

文本预测方法、装置、电子设备及存储介质与流程

相关文献

最热文献