一种混合神经网络和字符信息的文本编码方法及系统与流程

2022-11-28 13:59:06 来源：中国专利 TAG：

1.本发明涉及人工智能自然语言处理技术领域，特别是涉及一种混合神经网络和字符信息的文本编码方法及系统。

背景技术：

2.深度神经网络机器学习算法是自然语言处理人工智能技术的主要方法。使用神经网络处理文本时，首先要使用文本编码方法将文本转换为数字矩阵，数字矩阵由文本词序列中每个词对应的向量和文本整体的向量拼接而成。常用的文本编码方法有深度神经网络预训练模型的方法、词向量的方法、独热编码的方法、潜在语义分析的方法。词向量、独热编码、潜在语义分析都依赖语料和语料中词的个数，受分词的影响大，词的规模不可控，难以处理未登录词，严重干扰工程的迭代速度。随着大模型的流行，涌现出了不少使用超大规模数据训练得到的预训练深度神经网络大模型，比如ernie、cpm、bert、deberta、gpt，这些大模型蒸馏得到的预训练小模型，达到了工业级的速度要求，同时以极小的差距继承了大模型强大的编码能力，并由于主流预训练模型的分词粒度小、词表完备，使得预训练模型具备了开箱即用的特点。然而，单纯使用预训练模型得到的文本编码，存在数据偏见和信息丢失的问题，不能表达常识和经验知识，在刻画文本特征上有显而易见的不足，影响了下游任务的训练收敛和推理泛化。

技术实现要素：

3.为了克服现有技术的不足，本发明的目的是提供一种混合神经网络和字符信息的文本编码方法及系统，本发明消除了单纯使用神经网络预训练模型带来的数据偏见和信息丢失问题，提高了下游模型的训练收敛速度和推理泛化能力，加快了应用落地的工程迭代速度。
4.为实现上述目的，本发明提供了如下方案：一种混合神经网络和字符信息的文本编码方法，包括：获取待编码文本，使用预训练神经网络根据细粒度分词对所述待编码文本编码，得到第一词序列编码和第一文本编码；使用simhash根据粗粒度分词对所述待编码文本进行编码，得到第二词序列编码和第二文本编码；使用simhash根据词和文本的标签对所述待编码文本编码，得到第三词序列编码和第三文本编码；混合第一词序列编码、第一文本编码、第二词序列编码、第二文本编码、第三词序列编码和第三文本编码，得到最终词序列编码和最终文本编码。
5.优选地，所述使用预训练神经网络根据细粒度分词对所述文本编码，得到第一词序列编码和第一文本编码，包括：使用预训练模型的分词器对所述待编码文本进行分词，得到细粒度分词；
根据所述细粒度分词，使用预训练神经网络对所述待编码文本进行编码，得到所述第一词序列编码和所述第一文本编码。
6.优选地，所述使用simhash根据粗粒度分词对所述待编码文本进行编码，得到第二词序列编码和第二文本编码包括：使用传统粗粒度分词器对所述文本分词，得到粗粒度分词；计算每个粗粒度词的simhash，得到粗粒度词的simhash字符信息编码；将所述粗粒度词的simhash字符信息编码赋予所述细粒度词，得到所述第二词序列编码；根据所述粗粒度分词，计算待所述编码文本的simhash，得到第二文本编码。
7.优选地，所述使用simhash根据词和文本的标签对所述待编码文本编码，得到第三词序列编码和第三文本编码包括：使用实体提取方法从所述文本中提取实体词，并用实体名对所述实体词打上标签；计算实体词的标签的simhash，得到实体词的标签的simhash编码；将所述实体词的标签的simhash编码赋予所述细粒度词得到第三词序列编码；计算所述待编码文本标签的simhash得到所述第三文本编码。
8.优选地，所述实体提取方法包括：基于词库的方法和基于正则表达式的方法。
9.优选地，所述混合第一词序列编码、第一文本编码、第二词序列编码、第二文本编码、第三词序列编码和第三文本编码，得到最终词序列编码和最终文本编码包括：拼接所述第一词序列编码中对应所述细粒度词的向量、所述第二词序列编码中对应所述细粒度词的向量和所述第三词序列编码中对应所述细粒度词的向量得到所述细粒度词的最终向量；将所述细粒度词的最终向量排成矩阵，得到所述最终词序列编码；拼接所述第一文本编码向量、所述第二文本编码向量、所述第三文本编码向量，得到文本整体的最终文本编码向量。
10.一种混合神经网络和字符信息的文本编码系统，包括：获取模块，用于获取待编码文本；第一编码模块，用于使用预训练神经网络根据细粒度分词对所述待编码文本编码，得到第一词序列编码和第一文本编码；第二编码模块，用于使用simhash根据粗粒度分词对所述待编码文本进行编码，得到第二词序列编码和第二文本编码；第三编码模块，用于使用simhash根据词和文本的标签对所述待编码文本编码，得到第三词序列编码和第三文本编码；第四编码模块，用于混合第一词序列编码、第一文本编码、第二词序列编码、第二文本编码、第三词序列编码和第三文本编码，得到最终词序列编码和最终文本编码。
11.根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种混合神经网络和字符信息的文本编码方法及系统，本发明既利用到了预训练模型学习到的语义信息，又引入了词和文本的符号信息，融合了常识和经验知识，消除了单纯使用神经网络预训练模型带来的数据偏见和信息丢失问题，消弭了连接
主义和符号主义之间的鸿沟，打破了语料词库的限制，提高了下游模型的训练收敛速度和推理泛化能力，加快了应用落地的工程迭代速度。
附图说明
12.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
13.图1为本发明实施例提供的待编码文本混合编码的程序结构图；图2为本发明实施例提供的待编码文本混合编码的示例图；图3为本发明实施例提供的预训练模型细粒度分词与传统粗粒度分词对齐的流程图；图4为本发明实施例提供的预训练模型细粒度分词与实体词对齐的流程图；图5为本发明实施例提供的基于词库的对实体词打标签的总体流程图；图6为本发明实施例提供的基于正则表达式的对实体词打标签的总体流程图。
具体实施方式
14.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
15.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
16.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤、过程、方法等没有限定于已列出的步骤，而是可选地还包括没有列出的步骤，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤元。
17.本发明的目的是提供一种混合神经网络和字符信息的文本编码方法及系统，本发明本发明消除了单纯使用神经网络预训练模型带来的数据偏见和信息丢失问题，提高了下游模型的训练收敛速度和推理泛化能力，加快了应用落地的工程迭代速度。
18.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
19.如图1-2所示，本发明提供了一种混合神经网络和字符信息的文本编码方法，包括以下步骤：获取待编码文本，例如接收到的待编码文本是“北京明天的天气”，使用预训练神经网络根据细粒度分词对所述待编码文本编码，得到第一词序列编码和第一文本编码；
使用simhash根据粗粒度分词对所述待编码文本进行编码，得到第二词序列编码和第二文本编码；使用simhash根据词和文本的标签对所述待编码文本编码，得到第三词序列编码和第三文本编码；混合第一词序列编码、第一文本编码、第二词序列编码、第二文本编码、第三词序列编码和第三文本编码，得到最终词序列编码和最终文本编码。
20.具体的，所述使用预训练神经网络根据细粒度分词对所述文本编码，得到第一词序列编码和第一文本编码，包括：使用预训练模型的分词器对所述待编码文本进行分词，得到细粒度分词，对“北京明天的天气”得到的细粒度分词是“北京明天的天气”；根据所述细粒度分词，使用预训练神经网络对所述待编码文本进行编码，得到所述第一词序列编码和所述第一文本编码。
21.具体的，如图3所示，所述使用simhash根据粗粒度分词对所述待编码文本进行编码，得到第二词序列编码和第二文本编码包括：使用传统粗粒度分词器对所述文本分词，得到粗粒度分词，对“北京明天的天气”得到的粗粒度分词是“北京明天的天气”；计算每个粗粒度词的simhash，得到粗粒度词的simhash字符信息编码；将所述粗粒度词的simhash字符信息编码赋予所述细粒度词，得到所述第二词序列编码；根据所述粗粒度分词，计算待所述编码文本的simhash，得到第二文本编码，对每个细粒度词，根据在文本中出现的起止位置，找到所在的粗粒度词，将所在的粗粒度词的simhash字符信息编码赋予所述细粒词；对于文本整体，根据全部粗粒度词计算文本的simhash得到第二文本编码。
22.具体的，所述使用simhash根据词和文本的标签对所述待编码文本编码，得到第三词序列编码和第三文本编码包括：使用实体提取方法从所述文本中提取实体词，并用实体名对所述实体词打上标签；例如，对“北京明天的天气”提取到的实体词有“北京”和“明天”，用实体名对实体词打标签，得到“北京”的标签是“城市,首都”、“明天”的标签是“时间”；计算实体词的标签的simhash，得到实体词的标签的simhash编码；将所述实体词的标签的simhash编码赋予所述细粒度词得到第三词序列编码；如图4所示，对每个细粒度词，根据所述细粒度词在文本中出现的起止位置以及每个实体词在文本中出现的起止位置，找到所述细粒度词所在的实体词，将所在的实体词的标签的simhash编码赋予所述细粒度词；位于实体词外的细粒度词的标签编码置为全零向量；使用文本标签提取算法比如语义角色标注提取核心词作为文本的标签；计算所述待编码文本标签的simhash得到所述第三文本编码，如图2所示，对“北京明天的天气”得到的文本标签是“天气”，计算文本标签的simhash得到第三文本编码。
23.具体的，所述的实体提取方法包括：基于词库的方法和基于正则表达式的方法，基于词库对实体词打标签的总体流程如图5所示，根据实体词库使用字符串匹配算法从文本中提取实体词，记录实体词在文本中出现的位置及所属的实体名，基于正则表达式对实体
词打标签的总体流程如图6所示，根据正则表达式从文本中搜索实体词，记录实体词在文本中出现的位置及所属的实体名，将实体名作为实体词的标签。
24.具体的，所述混合第一词序列编码、第一文本编码、第二词序列编码、第二文本编码、第三词序列编码和第三文本编码，得到最终词序列编码和最终文本编码包括：拼接所述第一词序列编码中对应所述细粒度词的向量、所述第二词序列编码中对应所述细粒度词的向量和所述第三词序列编码中对应所述细粒度词的向量得到所述细粒度词的最终向量；将所述细粒度词的最终向量排成矩阵，得到所述最终词序列编码；拼接所述第一文本编码向量、所述第二文本编码向量、所述第三文本编码向量，得到文本整体的最终文本编码向量；如图2所示，“北京明天的天气”的细粒度词所含的行与预训练神经网络模型编码包含的列框定的矩阵为第一词序列编码、与字符simhash包含的列框定的矩阵为第二词序列编码，与标签simhash 编码包含的列框定的矩阵为第三词序列编码，第一词序列编码与第二词序列编码和第三词序列编码拼接成最终词序列编码；余下的最后一行为文本整体的最终文本编码。
25.进一步的，一种混合神经网络和字符信息的文本编码系统，包括：获取模块，用于获取待编码文本；第一编码模块，用于使用预训练神经网络根据细粒度分词对所述待编码文本编码，得到第一词序列编码和第一文本编码；第二编码模块，用于使用simhash根据粗粒度分词对所述待编码文本进行编码，得到第二词序列编码和第二文本编码；第三编码模块，用于使用simhash根据词和文本的标签对所述待编码文本编码，得到第三词序列编码和第三文本编码；第四编码模块，用于混合第一词序列编码、第一文本编码、第二词序列编码、第二文本编码、第三词序列编码和第三文本编码，得到最终词序列编码和最终文本编码。
26.本发明提供了一种混合神经网络和字符信息的文本编码方法及系统，本发明既利用到了预训练模型学习到的语义信息，又引入了词和文本的符号信息，融合了常识和经验知识，消除了单纯使用神经网络预训练模型带来的数据偏见和信息丢失问题，消弭了连接主义和符号主义之间的鸿沟，打破了语料词库的限制，提高了下游模型的训练收敛速度和推理泛化能力，加快了应用落地的工程迭代速度。
27.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
28.本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于隐式光传输函数合并的绘制方法和装置

一种混合神经网络和字符信息的文本编码方法及系统与流程

相关文献

最热文献