文本纠错方法、电子设备及相关产品与流程

2022-12-20 20:36:23 来源：中国专利 TAG：

1.本技术涉及信息处理技术领域，具体涉及一种文本纠错方法、电子设备及相关产品。

背景技术：

2.目前，用户在与智能机器人的交互过程中，可以通过语音、文字、图片等方式输入相关信息对智能机器人进行提问。然而，在用户输入过程中，由于字音相似、字形相近、键位误触等原因，用户输入信息存在错误，导致智能机器人无法识别用户输入信息，用户体验较差。

技术实现要素：

3.本技术实施例提供了一种文本纠错方法、电子设备及相关产品，有利于准确识别用户输入信息，对用户输入信息进行纠错，提高用户满意度。
4.第一方面，本技术实施例提供一种文本纠错方法，所述方法包括：
5.使用预设模型对用户输入信息进行识别，得到纯文本信息；
6.提取所述纯文本信息中的实体；
7.根据预设语料库对所述实体进行合法性验证；
8.在所述实体未通过所述合法性验证时，根据所述预设语料库对所述实体进行纠错，得到修正文本。
9.第二方面，本技术实施例提供一种文本纠错装置，所述装置包括：识别单元、提取单元、验证单元和纠错单元，其中，
10.所述识别单元，用于使用预设模型对用户输入信息进行识别，得到纯文本信息；
11.所述提取单元，用于提取所述纯文本信息中的实体；
12.所述验证单元，用于根据预设语料库对所述实体进行合法性验证；
13.所述纠错单元，用于在所述实体未通过所述合法性验证时，根据所述预设语料库对所述实体进行纠错，得到修正文本。
14.第三方面，本技术实施例提供了一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本技术实施例第一方面中的步骤的指令。
15.第四方面，本技术实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本技术实施例第一方面中所描述的部分或全部步骤。
16.第五方面，本技术实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本技术实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
17.实施本技术实施例，具备如下有益效果：
18.可以看出，本技术实施例中所描述的文本纠错方法、电子设备及相关产品，使用预设模型对用户输入信息进行识别，得到纯文本信息；提取纯文本信息中的实体；根据预设语料库对实体进行合法性验证；在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本，一方面，有利于对用户输入信息进行准确识别，另一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度。
附图说明
19.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1a是本技术实施例提供的一种电子设备的结构示意图；
21.图1b是本技术实施例提供的一种文本纠错方法的流程示意图；
22.图2是本技术实施例提供的一种文本纠错方法的流程示意图；
23.图3是本技术实施例提供的一种电子设备的结构示意图；
24.图4a是本技术实施例提供的一种文本纠错装置的功能单元组成框图；
25.图4b是本技术实施例提供的一种文本纠错装置的功能单元组成框图；
26.图4c是本技术实施例提供的一种文本纠错装置的功能单元组成框图。
具体实施方式
27.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
28.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
29.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.本技术实施例所涉及到的电子设备可以是包含其它功能诸如个人数字助理和/或音乐播放器功能的便携式电子设备，诸如手机、平板电脑、具备无线通讯功能的可穿戴电子设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载ios系统、android系统、microsoft系统或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备，诸如膝上型计算机(laptop)等。还应当理解的是，在其他一
些实施例中，上述电子设备也可以不是便携式电子设备，而是台式计算机。电子设备还可以包括服务器。
31.如图1a所示，图1a是本技术实施例提供的一种电子设备的结构示意图。该电子设备包括处理器和存储器等等。其中，存储器与处理器连接。处理器是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器内的软体程序和/或模块，以及调用存储在存储器内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控，处理器可以为中央处理器(central processing unit/processor，cpu)、图形处理器(graphics processing unit，gpu)或者网络处理器(neural-network processing unit，npu)。
32.进一步地，处理器可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器中。
33.其中，存储器用于存储软体程序和/或模块，处理器通过运行存储在存储器的软件程序和/或模块，从而执行电子设备的各种功能应用。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的软体程序等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
34.基于上述图1a所描述的电子设备，能够执行如下文本纠错方法，具体步骤如下：
35.使用预设模型对用户输入信息进行识别，得到纯文本信息；
36.提取所述纯文本信息中的实体；
37.根据预设语料库对所述实体进行合法性验证；
38.在所述实体未通过所述合法性验证时，根据所述预设语料库对所述实体进行纠错，得到修正文本。
39.可以看出，本技术实施例中所描述的电子设备，可使用预设模型对用户输入信息进行识别，得到纯文本信息；提取纯文本信息中的实体；根据预设语料库对实体进行合法性验证；在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本，一方面，有利于对用户输入信息进行准确识别，另一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度。
40.请参阅图1b，图1b是本技术实施例提供的一种文本纠错方法的流程示意图，如图所示，应用于如图1a所示的电子设备，本文本纠错方法包括：
41.101、使用预设模型对用户输入信息进行识别，得到纯文本信息。
42.其中，上述用户输入信息包括可识别图像、音频信息、文本信息中的其中一种或多种。在用户输入信息为可识别图像时，对应的预设模型可以是光学字符识别(optical character recognition，ocr)模型。ocr模型可以是基于深度学习的ocr模型，基于深度学习的ocr模型主要通过文本定位和文本识别实现将形状转换为计算机文字。在用户输入信息为音频信息时，对应的预设模型可以是通过java、python等编程语言构建的识别模型。若用户输入信息为文本信息，例如富文本信息，也可使用ocr模型提取对富文本信息进行文本定位和文本识别。
43.其中，上述纯文本信息可以是指不附加文本修饰的文本信息，文本修饰例如粗体、下划线、斜体、图形、符号、特殊字符或特殊打印格式等。
44.可以看出，本技术实施例中，电子设备将用户输入信息转换为纯文本信息，由于纯文本信息格式较为统一，使用纯文本信息能够降低数据处理过程中的错误率，确保文本纠错的准确率。
45.102、提取所述纯文本信息中的实体。
46.其中，上述实体可以是指纯文本信息中的人名、机构名、地名、时间、日期、货币、百分比、住址、电子邮箱、电话号码和会议名称等。
47.具体地，本技术实施例中，电子设备可以使用基于知识图谱的命名实体识别模型对纯文本信息中的实体进行提取。在基于知识图谱的命名实体识别模型中，知识图谱可以是由多个实体(节点)和实体之间的关系(边)所构成的。其中，实体之间的关系可以是指实体之间的逻辑关系、多个实体各自对应的分类标签等。如此，在考虑实体间的关系的基础上对纯文本信息中的实体进行提取，能够提高提取的精确度。
48.103、根据预设语料库对所述实体进行合法性验证。
49.其中，电子设备中可以预先存储预设语料库。预设语料库可以为管理员自行设置或者系统默认，在此不作限定。
50.其中，上述合法性验证包括对实体的合法性验证，以及对实体之间的逻辑关系的合法性验证，在此不作限定。对实体的合法性验证可以是指验证实体是否存在拼写错误等情况，对实体之间的逻辑关系的合法性验证可以是指验证实体之间是否存在成分多余、成分缺漏等，多个实体能否组成通顺流畅的语句等情况。
51.举例来说，提取用户输入信息的纯文本信息得到的实体为“店梯”、“不”、“名称”，合法性验证可以是对“店梯”、“不”、“名称”这三个实体是否存在拼写错误的验证，也可以是对三个实体是否存在成分多余、成分缺漏，能否组成通顺流畅的语句的验证。
52.104、在所述实体未通过所述合法性验证时，根据所述预设语料库对所述实体进行纠错，得到修正文本。
53.举例来说，提取用户输入信息的纯文本信息得到的实体为“店梯”，若“店梯”未通过合法性验证，则根据预设语料库对“店梯”进行纠错，得到的修正文本为“电梯”。
54.可以看出，本技术实施例中，电子设备可使用预设模型对用户输入信息进行识别，得到纯文本信息；提取纯文本信息中的实体；根据预设语料库对实体进行合法性验证；在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本，一方面，有利于对用户输入信息进行准确识别，另一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度。
55.可选地，在上述步骤103，根据预设语料库对所述实体进行合法性验证之前，所述方法还可以包括如下步骤：
56.031、获取通用语料库、网络流行语料库、企业数据语料库中至少一个语料库中的语料作为初始语料；
57.032、对所述初始语料进行预处理得到样本语料；
58.033、根据预设的分类标签对所述样本语料进行标注，得到多个样本语料集，每一所述样本语料集对应一个分类标签；
59.034、分别对所述每一样本语料集进行训练，得到多个训练后的样本语料集，其中，所述样本语料集中包括多个样本语料；
60.035、根据所述多个训练后的样本语料集构建所述预设语料库。
61.其中，上述通用语料库中可以包括各个领域中通用的、在用法和语义方面相对固定的语料。
62.其中，上述网络流行语料库中可以包括网络流行语料，网络流行语料库中的语料相较于通用语料库中的语料，具有较大的可变性。由于网络流行语料更新速率较快，因此，可以设置预定频率，以预定频率更新网络流行语料库，如此，能够保持网络流行语料库中的数据准确度，进而确保预设语料库的数据准确度。预定频率可以根据电子设备的处理器性能、预设语料库的应用场景、用户需求等因素综合设定，在此不做限定，例如可以是一天更新一次，三天更新一次，七天更新一次、十天更新一次、十五天更新一次、三十天更新一次等。
63.其中，上述企业数据语料库可以包括某一领域内一个或多个企业的语料，例如行业内术语、企业职位、产品名称等。
64.其中，上述预处理可以是指去除初始语料中相同的语料。
65.其中，上述预设的分类标签可以为管理员自行设置或者系统默认，在此不作限定。例如可以包括生活类、政治类、文学类、编程类、商业类等分类标签。
66.具体地，电子设备可以获取通用语料库、网络流行语料库、企业数据语料库中的语料作为初始语料，并对初始语料中相同的语料进行筛选，如此，能够避免存在重复的样本语料。
67.根据预设的分类标签对样本语料进行标注，得到多个样本语料集，其中，每一样本语料集中的语料均对应同一种分类标签，如此，能够将不同分类标签的语料进行区分，明确不同语料的所属领域或使用场景，便于区分不同语料的语义信息。
68.进一步地，电子设备可以分别对每一样本语料集进行训练，训练可以使用有监督、半监督或无监督等方法进行，例如可以是支持向量机(support vector machine，svm)、算法梯度提升树(gradient boosting decison tree，gbdt)等方式，在此不做限定。根据多个训练后的样本语料集构建预设语料库。
69.可以看出，本技术实施例中，电子设备可通过对样本语料进行标注、对样本语料集进行训练，构建预设语料库，并根据预设语料库对实体进行合法性验证；在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本，一方面，有利于对用户输入信息进行准确识别，另一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度。
70.在一个可能的示例中，上述步骤103，所述根据预设语料库对所述实体进行合法性验证，可以包括如下步骤：
71.1031、获取所述实体的语义信息和所述预设语料库中每一语料的语义信息；
72.1032、根据所述实体的语义信息和所述每一语料的语义信息，计算所述实体与所述每一语料之间的相似度，得到多个所述相似度；
73.1033、若多个所述相似度均小于或等于预设相似度阈值，则认为所述实体未通过所述合法性验证；
74.1034、若所述多个相似度中存在任意一个相似度大于所述预设相似度阈值，则认为所述实体通过所述合法性验证。
75.其中，语义信息可以是实体或语料所指代的事物的含义，例如“电梯”的语义信息可以包括“运输设备”、“扶手电梯”、“升降机”、“公司名称”、“游戏名称”等。不同的实体或语料可以对应相同的语义信息，例如“电梯厢”、“电梯轿厢”、“轿厢”均可以表示同一个事物，则它们的语义信息可以相同。
76.其中，预设相似度阈值可以由管理员或用户设定或系统默认，在此不做限定。预设相似度阈值可以根据应用场景、用户需求等因素综合设定，在此不做限定，例如可以是95％、90％、85％、80％、60％等。
77.具体地，电子设备可以使用相似度计算模型来计算实体与语料之间的相似度。相似度计算模型可以包括融合层、全连接层和输出层。获取实体的语义信息和预设语料库中每一语料的语义信息后，将实体的语义信息和预设语料库中每一语料的语义信息输入相似度计算模型，由相似度计算模型对语义信息进行融合、全连接处理后，输出实体与每一语料之间的相似度，也即是说，输出多个相似度。
78.进一步地，分别判断每一相似度与预设相似度阈值的大小关系。
79.可以理解地，在实体存在拼写错误的情况下，实体对应的语义信息与预设语料库中语料对应的语义信息，例如“店梯”对应的语义信息与“电梯”对应的语义信息，可能存在较大区别。若实体与预设语料库中每一语料的相似度都较小，则可以认为该实体存在拼写错误。
80.若实体与预设语料库中的某一语料相似度较大，而与其他语料的相似度较小，则可以认为该实体不存在拼写错误，或存在拼写错误但不至引起误认，由于未引起误认，因此，也可以认为该实体通过合法性验证。
81.若实体与预设语料库中多个语料的相似度较大，则可以认为该实体存在多种语义信息。例如，“苹果”的语义信息可以是“水果”，也可以是“公司”，还可以是“电影”、“歌曲”等，又如，“电梯”的语义信息可以是“台阶式电梯”、也可以是“履带式电梯”、“轿厢电梯”等。此时也可以认为上述实体通过了合法性验证。
82.综上，若多个相似度均小于或等于预设相似度阈值，也即是说，该实体与预设语料库中的每一个语料的相似度都较小，则认为实体未通过合法性验证。
83.若多个相似度中存在任意一个相似度大于预设相似度阈值，也即是说，存在一个或多个相似度大于预设相似度阈值，则认为实体通过合法性验证。
84.可以看出，本技术实施例中，电子设备可通过计算实体的语义信息和语料的语义信息的相似度，判断实体是否通过合法性验证，在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本，一方面，有利于对用户输入信息进行准确识别，另一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度。
85.在一个可能的示例中，上述步骤104，所述根据所述预设语料库对所述实体进行纠错，得到修正文本，可以包括如下步骤：
86.1041、确定所述多个相似度中的最大值对应的语料为目标语料；
87.1042、根据所述目标语料对所述实体进行纠错，得到所述修正文本。
88.具体地，在实体未通过合法性验证的情况下，可以确定与该实体的语义信息相似
度最大的语义信息对应的语料为目标语料，并根据目标语料对实体进行纠错，得到修正文本。
89.举例来说，通过预设语料库对“店梯”进行合法性验证，判断出“店梯”未通过合法性验证，且在预设语料库中，“店梯”对应的语义信息与“电梯”对应的语义信息相似度最高，则确定“电梯”为目标语料，并根据“电梯”对“店梯”进行纠错，得到的修正文本为“电梯”。
90.可以看出，本技术实施例中，电子设备可通过确定相似度最高的语义信息对应的语料为目标语料，并根据目标语料对实体进行纠错，得到修正文本，一方面，有利于对用户输入信息进行准确识别，另一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度。
91.在一个可能的示例中，所述方法还可以包括如下步骤：
92.105、确定所述修正本文对应的目标任务场景；
93.106、获取当前任务场景；
94.107、判断所述当前任务场景与所述目标任务场景是否一致；
95.108、在所述当前任务场景与所述目标任务场景不一致时，根据所述修正文本确定反馈列表，并向用户推送所述反馈列表。
96.其中，目标任务场景可以是指修正文本对应的场景。当前任务场景可以是指对话上文或下文对应的场景。
97.具体地，电子设备确定修正文本对应的目标任务场景并获取当前任务场景，在判断出当前任务场景与目标任务场景不一致时，根据修正文本确定反馈列表，并结合目标任务场景、当前任务场景向用户推送反馈列表。
98.在一个可能的示例中，上述步骤108，所述根据所述修正文本确定反馈列表，可以包括如下步骤：
99.1081、确定所述修正文本对应的语义信息；
100.1082、根据所述预设语料库中所述每一语料对应的语义信息，对所述修正文本对应的语义信息进行反馈检索，得到多个反馈文本；
101.1083、根据所述多个反馈文本确定所述反馈列表。
102.具体地，在当前任务场景与目标任务场景不一致的情况下，电子设备根据预设语料库中语料对应的语义信息，对修正文本对应的语义信息进行反馈检索，得到多个反馈文本，并根据反馈文本生成反馈列表，向用户进行推送，以最终确定用户输入信息对应的反馈信息。
103.举例来说，智能机器人与用户在交互过程中发生的对话如下：智能机器人提问：“请问您想查询的是？”用户通过输入法输入的信息为：“店梯”。
104.电子设备使用预设模型对用户输入信息进行识别，得到的纯文本信息为“店梯”，提取“店梯”中的实体，得到的实体为“店梯”。根据预设语料库对“店梯”进行合法性验证，根据“店梯”的语义信息和预设语料库中每一语料的语义信息，计算“店梯”与语料库中每一语料的相似度。由于“店梯”与语料库中的语料相似度均小于预设相似度阈值，则认为“店梯”未通过合法性验证。根据“店梯”与语料库中每一语料的相似度，选择相似度最高的语料“电梯”为目标语料，对“店梯”进行纠错，得到的修正文本为“电梯”。
105.进一步地，确定“电梯”对应的目标任务场景有多个，分别为“设备”、“公司”、“游
戏”。若在上述对话中，获取到的当前任务场景为“设备”，则可以认为当前任务场景与目标任务场景不一致。
106.确定“电梯”对应的语义信息为“运输设备”、“公司名称”、“游戏名称”，根据语料库中各个语料对应的语义信息，对“电梯”对应的多个语义信息进行反馈检索，得到多个反馈文本，分别为“电梯是用于高速升降的运输设备。”，“电梯是一家公司的名称。”，“电梯是一种游戏的名称。”。
107.根据当前任务场景“设备”，检索出语义信息为“运输设备”对应的反馈文本，即“电梯是用于高速升降的运输设备。”，将该反馈文本排在反馈列表的第一位，其余反馈文本可以根据用户提问热度、大众知名度等因素进行排序，在此不做限定。
108.例如，最终生成的反馈列表可以是：
109.1、电梯是用于高速升降的运输设备。
110.2、电梯是一家公司的名称。
111.3、电梯是一种游戏的名称。
112.此外，提取的纯文本信息中的实体为“电梯”时，如上文所述，由于“电梯”的语义信息可以是“运输设备”，也可以是“公司名称”，还可以是“电影名称”等，该实体与预设语料库中多个语料的相似度较大，即，该实体存在多种语义信息，此时也可以认为该实体通过合法性验证。
113.此种情况下，电子设备也可确定该实体对应的目标任务场景，并获取当前任务场景，判断当前任务场景与目标任务场景是否一致。在当前任务场景与目标任务场景不一致时，根据实体对应的语义信息和预设语料库中每一语料对应的语义信息，并结合当前任务场景和目标任务场景确定反馈文本，根据反馈文本生成反馈列表并向用户推送。
114.可以看出，本技术实施例中所描述的文本纠错方法，电子设备可使用预设模型对用户输入信息进行识别，得到纯文本信息；提取纯文本信息中的实体；根据预设语料库对实体进行合法性验证；在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本；并根据修正文本确定目标任务场景，判断当前任务场景与目标任务场景是否一致，在当前任务场景与目标任务场景不一致时，根据修正文本对应的语义信息、预设语料库中语料的语义信息、目标任务昌吉和当前任务场景确定反馈文本，根据反馈文本生成反馈列表并向用户推送，一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度，另一方面，在修正文本对应的语义信息为多个的情况下，根据当前任务场景和目标任务场景对多个反馈文本进行排序，生成反馈列表并向用户推送，能够较大程度地匹配当前任务场景，且不遗漏其余任务场景的反馈文本，有利于优化用户体验。
115.与上述图1b所示的实施例一致地，请参阅图2，图2是本技术实施例提供的一种文本纠错方法的流程示意图，应用于如图1a所示的电子设备，本文本纠错方法包括：
116.201、使用预设模型对用户输入信息进行识别，得到纯文本信息；
117.202、提取所述纯文本信息中的实体；
118.203、根据预设语料库对所述实体进行合法性验证；
119.204、在所述实体未通过所述合法性验证时，根据所述预设语料库对所述实体进行纠错，得到修正文本。
120.205、确定所述修正本文对应的目标任务场景；
121.206、获取当前任务场景；
122.207、判断所述当前任务场景与所述目标任务场景是否一致；
123.208、在所述当前任务场景与所述目标任务场景不一致时，根据所述修正文本确定反馈列表，并向用户推送所述反馈列表。
124.其中，上述步骤201-步骤208的具体描述可以参照上述图1b所描述的文本纠错方法的相应步骤，在此不再赘述。
125.可以看出，本技术实施例中所描述的文本纠错方法，电子设备可使用预设模型对用户输入信息进行识别，得到纯文本信息；提取纯文本信息中的实体；根据预设语料库对实体进行合法性验证；在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本；确定修正本文对应的目标任务场景；获取当前任务场景；判断当前任务场景与目标任务场景是否一致；在当前任务场景与目标任务场景不一致时，根据修正文本对应的语义信息、预设语料库中语料的语义信息、目标任务昌吉和当前任务场景确定反馈文本，根据反馈文本生成反馈列表并向用户推送，一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度，另一方面，在修正文本对应的语义信息为多个的情况下，根据当前任务场景和目标任务场景对多个反馈文本进行排序，生成反馈列表并向用户推送，能够较大程度地匹配当前任务场景，且不遗漏其余任务场景的反馈文本，有利于优化用户体验。
126.与上述实施例一致地，请参阅图3，图3是本技术实施例提供的一种电子设备的结构示意图，如图所示，该包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，本技术实施例中，上述程序包括用于执行以下步骤的指令：
127.使用预设模型对用户输入信息进行识别，得到纯文本信息；
128.提取所述纯文本信息中的实体；
129.根据预设语料库对所述实体进行合法性验证；
130.在所述实体未通过所述合法性验证时，根据所述预设语料库对所述实体进行纠错，得到修正文本。
131.可以看出，本技术实施例中所描述的电子设备，可使用预设模型对用户输入信息进行识别，得到纯文本信息；提取纯文本信息中的实体；根据预设语料库对实体进行合法性验证；在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本，一方面，有利于对用户输入信息进行准确识别，另一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度。
132.进一步地，在一个可能的示例中，在所述根据预设语料库对所述实体进行合法性验证之前，上述程序还包括用于执行以下步骤的指令：
133.获取通用语料库、网络流行语料库、企业数据语料库中至少一个语料库中的语料作为初始语料；
134.对所述初始语料进行预处理得到样本语料；
135.根据预设的分类标签对所述样本语料进行标注，得到多个样本语料集，每一所述样本语料集对应一个分类标签；
136.分别对所述每一样本语料集进行训练，得到多个训练后的样本语料集，其中，所述
样本语料集中包括多个样本语料；
137.根据所述多个训练后的样本语料集构建所述预设语料库。
138.在一个可能的示例中，在所述根据预设语料库对所述实体进行合法性验证方面，上述程序包括用于执行以下步骤的指令：
139.获取所述实体的语义信息和所述预设语料库中每一语料的语义信息；
140.根据所述实体的语义信息和所述每一语料的语义信息，计算所述实体与所述每一语料之间的相似度，得到多个所述相似度；
141.若多个所述相似度均小于或等于预设相似度阈值，则认为所述实体未通过所述合法性验证；
142.若所述多个相似度中存在任意一个相似度大于所述预设相似度阈值，则认为所述实体通过所述合法性验证。
143.在一个可能的示例中，在所述根据所述预设语料库对所述实体进行纠错，得到修正文本方面，上述程序包括用于执行以下步骤的指令：
144.确定所述多个相似度中的最大值对应的语料为目标语料；
145.根据所述目标语料对所述实体进行纠错，得到所述修正文本。
146.在一个可能的示例中，上述程序包括用于执行以下步骤的指令：
147.确定所述修正本文对应的目标任务场景；
148.获取当前任务场景；
149.判断所述当前任务场景与所述目标任务场景是否一致；
150.在所述当前任务场景与所述目标任务场景不一致时，根据所述修正文本确定反馈列表，并向用户推送所述反馈列表。
151.在一个可能的示例中，在所述根据所述修正文本确定反馈列表方面，上述程序还包括用于执行以下步骤的指令：
152.确定所述修正文本对应的语义信息；
153.根据所述预设语料库中所述每一语料对应的语义信息，对所述修正文本对应的语义信息进行反馈检索，得到多个反馈文本；
154.根据所述多个反馈文本确定所述反馈列表。
155.上述主要从方法侧执行过程的角度对本技术实施例的方案进行了介绍。可以理解的是，为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
156.本技术实施例可以根据上述方法示例对进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本技术实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
157.请参阅图4a，图4a是本技术实施例中所涉及的文本纠错装置400的功能单元组成框图，所述装置400包括：识别单元401、提取单元402、验证单元403和纠错单元404，其中，
158.所述识别单元401，用于使用预设模型对用户输入信息进行识别，得到纯文本信息；
159.所述提取单元402，用于提取所述纯文本信息中的实体；
160.所述验证单元403，用于根据预设语料库对所述实体进行合法性验证；
161.所述纠错单元404，用于在所述实体未通过所述合法性验证时，根据所述预设语料库对所述实体进行纠错，得到修正文本。
162.可以看出，本技术实施例中所描述的文本纠错装置，可使用预设模型对用户输入信息进行识别，得到纯文本信息；提取纯文本信息中的实体；根据预设语料库对实体进行合法性验证；在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本，一方面，有利于对用户输入信息进行准确识别，另一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度。
163.在一个可能的示例中，在所述根据预设语料库对所述实体进行合法性验证方面，所述验证单元403具体用于：
164.获取所述实体的语义信息和所述预设语料库中每一语料的语义信息；
165.根据所述实体的语义信息和所述每一语料的语义信息，计算所述实体与所述每一语料之间的相似度，得到多个所述相似度；
166.若多个所述相似度均小于或等于预设相似度阈值，则认为所述实体未通过所述合法性验证；
167.若所述多个相似度中存在任意一个相似度大于所述预设相似度阈值，则认为所述实体通过所述合法性验证。
168.在一个可能的示例中，在所述根据所述预设语料库对所述实体进行纠错，得到修正文本方面，所述纠错单元404具体用于：
169.确定所述多个相似度中的最大值对应的语料为目标语料；
170.根据所述目标语料对所述实体进行纠错，得到所述修正文本。
171.在一种可能的示例中，在所述根据预设语料库对所述实体进行合法性验证之前，如图4b所示，与上述图4a相比较，装置400还可包括：第一获取单元405、预处理单元406、标注单元407、训练单元408和构建单元409，其中，
172.所述第一获取单元405，用于获取通用语料库、网络流行语料库、企业数据语料库中至少一个语料库中的语料作为初始语料；
173.所述预处理单元406，用于对所述初始语料进行预处理得到样本语料；
174.所述标注单元407，用于根据预设的分类标签对所述样本语料进行标注，得到多个样本语料集，每一所述样本语料集对应一个分类标签；
175.所述训练单元408，用于分别对所述每一样本语料集进行训练，得到多个训练后的样本语料集，其中，所述样本语料集中包括多个样本语料；
176.所述构建单元409，用于根据所述多个训练后的样本语料集构建所述预设语料库。
177.在一种可能的示例中，如图4c所示，与上述图4a相比较，装置400还可包括：确定单元410、第二获取单元411、判断单元412和反馈单元413，其中，
178.所述确定单元410，用于确定所述修正本文对应的目标任务场景；
179.所述第二获取单元411，用于获取当前任务场景；
180.所述判断单元412，用于判断所述当前任务场景与所述目标任务场景是否一致；
181.所述反馈单元413，用于在所述当前任务场景与所述目标任务场景不一致时，根据所述修正文本确定反馈列表，并向用户推送所述反馈列表。
182.在一个可能的示例中，在所述根据所述修正文本确定反馈列表方面，所述反馈单元413具体用于：
183.确定所述修正文本对应的语义信息；
184.根据所述预设语料库中所述每一语料对应的语义信息，对所述修正文本对应的语义信息进行反馈检索，得到多个反馈文本；
185.根据所述多个反馈文本确定所述反馈列表。
186.可以看出，本技术实施例提供的文本纠错装置，电子设备可通过对样本语料进行标注、对样本语料集进行训练，构建预设语料库，并根据预设语料库对实体进行合法性验证；在实体未通过合法性验证时，根据预设语料库对实体进行纠错，得到修正文本，一方面，有利于对用户输入信息进行准确识别，另一方面，能够在用户输入信息中的实体未通过合法性验证时进行纠错，提高用户满意度。
187.可以理解的是，本实施例的文本纠错装置的各程序模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。
188.本技术实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括控制平台。
189.本技术实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括控制平台。
190.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
191.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
192.在本技术所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。
193.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
194.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
195.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例上述方法的全部或部分步骤。而前述的存储器包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
196.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：read-only memory，简称：rom)、随机存取器(英文：random access memory，简称：ram)、磁盘或光盘等。
197.以上对本技术实施例进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

文本纠错方法、电子设备及相关产品与流程

相关文献

最热文献