一种文字处理方法、设备及存储介质与流程

2021-10-29 20:14:00 来源：中国专利 TAG：计算机文字处理可读方法设备

1.本发明涉及计算机技术领域，具体涉及一种文字处理方法、设备及计算机可读存储介质。

背景技术：

2.随着计算机技术的不断发展，网络中涌现出海量的信息。其中一部分信息为携带文字的信息，在对这些携带文字的信息进行处理时，会涉及对文字的处理；例如，语义识别、文本纠错、文字识别等。以文本纠错为例，在对文字进行处理的过程包括确定目标文字的形近字的过程；例如，确定某个错别字的形近字，并从该错别字的形近字中确定出正确字对该错别字进行修改。目前，主要通过混淆字典来查找目标文字的形近字，效率较低，由于缺乏判断标准，通过混淆字典难以判断目标文字与各个形近字的文字相似程度，准确度较低。

技术实现要素：

3.本发明实施例提供了一种文字处理方法、设备及存储介质，能够确定提高文字相似识别的效率和准确性。
4.一方面，本技术实施例提供了一种文字处理方法，该方法包括：
5.获取至少两个参考文字，对所述至少两个参考文字进行拆分，得到所述至少两个参考文字的拆分字形；所述至少两个参考文字的拆分字形包括拆分文字；
6.基于所述至少两个参考文字和所述至少两个参考文字的拆分字形，构建文字字形图；所述文字字形图包括每个参考文字与所属的拆分字形之间的关联关系；
7.将所述每个参考文字和所述拆分文字确定为待识别文字，基于所述文字字形图生成每个待识别文字的文字特征向量；
8.根据所述每个待识别文字的文字特征向量，确定所述每个待识别文字之间的文字相似度。
9.一方面，本技术提供了一种文字处理装置，该处理装置包括：
10.获取单元，用于获取至少两个参考文字，对所述至少两个参考文字进行拆分，得到所述至少两个参考文字的拆分字形；所述至少两个参考文字的拆分字形包括拆分文字；
11.处理单元，用于基于所述至少两个参考文字和所述至少两个参考文字的拆分字形，构建文字字形图；所述文字字形图包括每个参考文字与所属的拆分字形之间的关联关系；以及用于将所述每个参考文字和所述拆分文字确定为待识别文字，基于所述文字字形图生成每个待识别文字的文字特征向量；以及用于根据所述每个待识别文字的文字特征向量，确定所述每个待识别文字之间的文字相似度。
12.一方面，本技术提供了一种智能设备，包括处理器、存储器和通信接口，所述处理器、所述存储器和所述通信接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述的文字处理方法。
13.一方面，本技术提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，上述的文字处理方法被实现。
14.一方面，本技术提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文字处理方法。
15.本技术实施例中，获取至少两个参考文字，对至少两个参考文字进行拆分，得到至少两个参考文字的拆分字形，基于至少两个参考文字和至少两个参考文字的拆分字形，构建文字字形图，文字字形图包括每个参考文字与所属的拆分字形之间的关联关系，将每个参考文字和拆分文字确定为待识别文字，基于文字字形图生成每个待识别文字的文字特征向量，根据每个待识别文字的文字特征向量，确定每个待识别文字之间的文字相似度。可见，该文字字形图通过拆分字形来建立各个参考文字之间的关联关系，并基于各个参考文字之间的关联关系得到每个参考文字的文字特征向量，通过每个参考文字的文字特征向量确定各个参考文字的相似度，提高了文字相似识别的效率和准确性。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1为本技术实施例提供的一种文字处理的场景架构图；
18.图2为本技术实施例提供的一种文字处理方法的流程示意图；
19.图3为本技术实施例提供的一种文字字形图的示意图；
20.图4为本技术实施例提供的一种文字处理方法的流程示意图；
21.图5a为本技术实施例提供的一种确定关联文本序列的流程图；
22.图5b为本技术实施例提供的一种通过文字字形模型处理待识别文字的过程示意图；
23.图5c为本技术实施例提供的一种存在错误文本标题的页面校正示意图；
24.图6为本技术实施例提供的一种文字处理装置的结构示意图；
25.图7为本技术实施例提供的一种智能设备的结构示意图。
具体实施方式
26.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。
27.本技术实施例涉及人工智能(artificial intelligence，ai)及机器学习(machine learning，ml)。其中，ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最隹结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智
能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
28.ai技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本技术实施例主要涉及自然语言处理技术。
29.自然语言处理(nature language processing，nlp)。nlp是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本技术实施例主要涉及自然语言处理技术中的文本处理技术。
30.ml是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ml是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。ml和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本技术实施例主要涉及采用文字字形图对初始词向量模型进行训练，得到目标词向量模型。
31.请参阅图1，图1为本技术实施例提供的一种文字处理的场景架构图。如图1所示，场景架构图包括了终端设备101和服务器102。其中，终端设备101为用户所使用的设备，终端设备101可以包括但不限于：智能手机(如android手机、ios手机等)、平板电脑、便携式个人计算机、移动互联网设备(mobile internet devices，mid)等设备；终端设备往往配置有显示装置，显示装置也可为显示器、显示屏、触摸屏等等，触摸屏也可为触控屏、触控面板等等，本发明实施例不做限定。
32.服务器102是指能够为终端设备101提供文字处理服务的后台设备。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端和服务器之间可以通过有线通信或者无线通信方式进行直接或间接地连接，本技术在此不做限制。
33.需要说明的是，图1所示的文字处理场景中终端设备和服务器的数量仅为举例，例如，终端设备和服务器的数量可以为多个，本技术并不对终端设备和服务器的数量进行限定。在一个实施例中，文字处理系统可以只包括搭载文字处理装置的终端设备101，或者只包括搭载文字处理装置的服务器102。
34.图1所示的文字处理场景中，文字可以包括但不限于：汉字、英文文字、日本文字、韩国文字等。下面以汉字为例对本技术的文字处理的主要流程进行说明：(1)获取至少两个参考文字，对至少两个参考文字进行拆分，得到至少两个参考文字的拆分字形，拆分字形包括拆分文字；例如，对参考文字“零”进行拆分，得到拆分字形“雨”和“令”，由于“雨”和“令”均为文字，因此“零”的拆分字形包括拆分文字“雨”和“令”；又如，对参考文字“邻”进行拆
分，得到拆分字形“令”和“阝”，由于“令”为文字，“阝”非文字，因此“邻”的拆分字形包括拆分文字“令”。(2)基于至少两个参考文字和至少两个参考文字的拆分字形，构建文字字形图，文字字形图包括每个参考文字与所属的拆分字形之间的关联关系；例如，由于参考文字“零”和参考文字“邻”均包括拆分字形(文字)“令”，因此在文字字形图中参考文字“零”和参考文字“邻”均与“令”存在关联(即参考文字“零”和参考文字“邻”通过拆分字形(文字)“令”相连接)。(3)将每个参考文字和拆分文字确定为待识别文字，基于文字字形图(即根据文字字形图中各个参考文字之间的关联关系)生成每个待识别文字的文字特征向量(如通过与目标文字相关联的n个文字来表示目标文字)。(4)根据每个待识别文字的文字特征向量，确定每个待识别文字之间的文字相似度；例如，目标文字1通过n个与目标文字1相关联的第一关联文字来表示，目标文字2通过m个与目标文字2相关联的第二关联文字来表示，根据n个第一关联文字与m个第二关联文字中相同文字数量，确定目标文字与目标文字2的相似度。
35.本技术实施例中，获取至少两个参考文字，对至少两个参考文字进行拆分，得到至少两个参考文字的拆分字形，基于至少两个参考文字和至少两个参考文字的拆分字形，构建文字字形图，文字字形图包括每个参考文字与所属的拆分字形之间的关联关系，将每个参考文字和拆分文字确定为待识别文字，基于文字字形图生成每个待识别文字的文字特征向量，根据每个待识别文字的文字特征向量，确定每个待识别文字之间的文字相似度。可见，该文字字形图通过拆分字形来建立各个参考文字之间的关联关系，并基于各个参考文字之间的关联关系得到每个参考文字的文字特征向量，通过每个参考文字的文字特征向量确定各个参考文字的相似度，提高了文字相似识别的效率和准确性。
36.下面结合附图，以汉字为例对本技术实施例提供的文字处理方案进行详细介绍。
37.请参见图2，图2为本技术实施例提供的一种文字处理方法的流程示意图。该文字处理方案可由智能设备来执行，该智能设备具体可以是图1中的终端设备101或者服务器102；该方案包括步骤s201
‑
s204，其中：
38.s201、智能设备获取至少两个参考文字，对至少两个参考文字进行拆分，得到至少两个参考文字的拆分字形。
39.对参考文字进行拆分的拆分方法包括按照文字的结构(如上下结构、左右结构、内外结构等)进行拆分、按照部首进行拆分。拆分字形是对文字进行拆分后得到的偏旁和文字；例如，对文字“邻”进行拆分，得到拆分字形包括文字“令”和偏旁“阝”。需要说明的是，对每个参考文字进行拆分后可以得到至少一个拆分字形；例如，对参考文字“林”进行拆分后可以得到拆分字形“木”。若参考文字无法进行进一步拆分，则将该文字作为拆分文字；例如，参考文字“一”无法进行进一步拆分，则将“一”作为拆分文字。
40.在一种实施方式中，智能设备按照文字的结构对参考文字进行x次拆分，得到参考文字的拆分字形；其中，x为正整数。例如，x＝1，按照文字的结构对参考文字“霖”进行拆分，得到拆分字形“雨”和“林”，由于x＝1，故不再对“雨”和“林”进行进一步拆分；又如，x＝2，按照文字的结构对参考文字“霖”进行拆分，得到拆分字形“雨”和“林”，对“林”进行第二次拆分，得到拆分字形“木”。在一个实施例中，智能设备按照文字的结构对参考文字进行拆分，直至将参考文字拆分为不可拆分的文字(无法再拆分为其他文字)；例如，按照文字的结构对参考文字“藿”进行拆分，得到拆分字形“艹”和“霍”，按照文字的结构对拆分字形对“霍”进行进一步拆分得到拆分字形“雨”和“隹”，由于“雨”和“隹”均为不可拆分的文字，因此不
再对“雨”和“隹”进行进一步拆分。
41.在另一种实施方式中，按照文字的部首对参考文字进行拆分，得到参考文字的拆分字形。例如，参考文字“藿”的部首为“艹”，按照部首对参考文字进行拆分得到拆分字形“艹”和“霍”。
42.s202、智能设备基于至少两个参考文字和至少两个参考文字的拆分字形，构建文字字形图。
43.文字字形图中包括每个参考文字与每个参考文字的拆分字形之间的关联关系。在一种实施方式中，每个参考文字与所属的拆分字形(即每个参考文字的拆分字形)之间的关联关系是指连接关系。具体地，智能设备通过建立每个参考文字与所属的拆分字形之间的连接，构建文字字形图。图3为本技术实施例提供的一种文字字形图的示意图。如图3所示，参考文字“霍”、参考文字“需”、参考文字“霖”和参考文字“零”均包括拆分字形“雨”，分别建立参考文字“霍”、参考文字“需”、参考文字“霖”和参考文字“零”与拆分字形“雨”的连接；同理，智能设备建立其他参考文字与拆分字形的连接，可得到图3所示的文字字形图。
44.可以理解的是，参考文字“霍”和参考文字“霖”通过拆分字形“雨”相互连通，两个参考文字之间的关联大小，与这两个文字之间最短路径包括的拆分字形和/或参考文字的数量成反比；其中，最短路径是指包括拆分字形和/或参考文字的数量最少的路径(如图3所示，“藿”与“需”之间的最短路径为“藿
”→“
霍
”→“
雨
”→“
需”)。例如，如图3所示，由于“藿”与“扇”的最短路径包括的拆分字形和/或参考文字的数量为6，“藿”与“需”的最短路径包括的拆分字形和/或参考文字的数量为4，因此，“藿”与“需”的关联性大于“藿”与“扇”的关联性。
45.s203、智能设备将每个参考文字和拆分文字确定为待识别文字，基于文字字形图生成每个待识别文字的文字特征向量。
46.待识别文字包括参考文字和拆分字形中不可拆分的文字。基于文字字形图生成每个待识别文字的文字特征向量是指根据文字字形图中各个参考文字之间的关联关系，生成每个待识别文字的文字特征向量。在一种实施方式中，如图3所示，文字字形图中每个连接节点对应一个参考文字，或者对应一个参考文字的拆分字形。根据文字字形图获取每个参考文字的关联文本序列，参考文字i的关联文本序列包括与参考文字i依次进行连接的m个连接节点，参考文字i为文字字形图中的任一个参考文字，m为小于或等于文字字形图中的连接节点的总数量的正整数。
47.智能设备基于从文字字形图中获取的每个参考文字的关联文本序列对初始模型进行训练，得到文字字形模型。在一种实施方式中，智能设备通过用于训练的文字的关联文本序列对初始模型中的参数进行优化训练，得到文字字形模型。在得到文字字形模型后，将待识别文字作为文字字形模型的输入，得到文字字形模型输出的每个待识别文字的文字特征向量。
48.s204、智能设备根据每个待识别文字的文字特征向量，确定每个待识别文字之间的文字相似度。
49.在一种实施方式中，智能设备计算各个待识别文字的文字特征向量之间的向量距离，并根据各个待识别文字的文字特征向量之间的向量距离确定各个待识别文字之间的相似度。具体地，智能设备对各个待识别文字的文字特征向量之间的向量距离进行加权处理，
或者求导数处理，得到各个待识别文字之间的相似度。
50.本技术实施例中，智能设备获取至少两个参考文字，对至少两个参考文字进行拆分，得到至少两个参考文字的拆分字形，基于至少两个参考文字和至少两个参考文字的拆分字形，构建文字字形图，文字字形图包括每个参考文字与所属的拆分字形之间的关联关系，将每个参考文字和拆分文字确定为待识别文字，基于文字字形图生成每个待识别文字的文字特征向量，根据每个待识别文字的文字特征向量，确定每个待识别文字之间的文字相似度。可见，该文字字形图通过拆分字形来建立各个参考文字之间的关联关系，并基于各个参考文字之间的关联关系得到每个参考文字的文字特征向量，通过每个参考文字的文字特征向量确定各个参考文字的相似度，提高了文字相似识别的效率和准确性。
51.请参见图4，图4为本技术实施例提供的另一种文字处理方法的流程示意图。该文字处理方案可由智能设备来执行，该智能设备具体可以是图1中的终端设备101或者服务器102；该方案包括步骤s401
‑
s408，其中：
52.s401、智能设备获取至少两个参考文字，对至少两个参考文字进行拆分，得到至少两个参考文字的拆分字形。
53.步骤s401的具体实施方式可参考图2中步骤s201的实施方式，在此不再赘述。
54.s402、智能设备建立参考文字i与参考文字i的拆分字形之间的连边。
55.参考文字i为至少两个参考文字中的任一个参考文字，参考文字i所属的拆分字形是指对参考文字i进行拆分后得到的拆分字形。在一种实施方式中，智能设备将至少两个参考文字中的各个参考文字分别与所属的拆分字形连接(即建立连边)，得到文字字形图。
56.可以理解的是，若参考文字1所属的拆分字形和参考文字2所属的拆分字形中存在相同的目标拆分字形1，则在文字字形图中参考文字1与参考文字2通过该目标拆分字形1相连接；同理，若参考文字1所属的拆分字形和参考文字2所属的拆分字形中存在相同的目标拆分字形1，参考文字2所属的拆分字形和参考文字3所属的拆分字形中存在相同的目标拆分字形2，则在文字字形图中参考文字1与参考文字3通过目标拆分字形1，参考文字2，以及目标拆分字形2相连接。请参考图3，由于参考文字“焦”和参考文字“霍”的拆分字形中存在相同的目标拆分字形“隹”，因此参考文字“焦”和参考文字“霍”通过拆分字形“隹”相连接；同理，参考文字“霍”和参考文字“需”的拆分字形中存在相同的目标拆分字形“雨”，因此参考文字“霍”和参考文字“需”通过拆分字形“雨”相连接，参考文字“焦”和参考文字“需”通过拆分字形“隹”，参考文字“霍”，以及拆分字形“雨”相连接。
57.s403、智能设备根据参考文字i的文字属性信息与参考文字i的拆分字形的字形属性信息，确定参考文字i与所属的拆分字形之间的连边的连边权重。
58.参考文字的文字属性信息包括笔画数量以及读音，若拆分字形为文字，则拆分字形的字形属性信息包括笔画数量以及读音；若拆分字形为非文字(如“丬”，“阝”等)，则拆分字形的字形属性信息包括笔画数量。
59.在一种实施方式中，参考文字i与所属的拆分字形(即参考汉字i的拆分字形)的连边为有向边，即参考文字i与所属的拆分字形的连边包括参考文字i针对所属的拆分字形的第一连边(即由参考文字i指向所属的拆分字形的连边为第一连边)，以及参考文字i所属的拆分字形针对参考文字i的第二连边(即由参考文字i所属的拆分字形指向参考文字i的连边为第二连边)。智能设备根据参考文字i的文字属性信息与所属的拆分字形的字形属性信
息，获取参考文字i针对所属的拆分字形的第一连边权重，获取参考文字i所属的拆分字形针对参考文字i的第二连边权重；并将第一连边权重和第二连边权重，确定为参考文字i与所属的拆分字形之间的连边的连边权重。
60.具体地，智能设备将每个参考文字与每个参考文字的拆分字形确定为文字字形图中的连接节点。然后获取参考文字i的第一笔画信息(第一笔画信息包括参考文字i的笔画数量)以及文字字形图中参考文字i的相邻连接节点的第一节点数量，将第一笔画信息和第一节点数量确定为参考文字i的文字属性信息；同理，获取参考文字i的拆分字形的第二笔画信息(第一笔画信息包括参考文字i的拆分字形的笔画数量)以及文字字形图中参考文字i的拆分字形的相邻连接节点的第二节点数量，将第二笔画信息和第二节点数量确定为字形属性信息；根据参考文字i的第一笔画信息和参考文字i所属的拆分字形的字形属性信息，确定第一连边权重，并根据参考文字i所属的拆分字形的第二笔画信息和参考文字i的文字属性信息，确定第二连边权重。在一个实施例中，由连接节点i(即参考文字i所在的连接节点)至连接节点j(即参考文字i所属的拆分字形所在的连接节点)的连边权重w
ij
的计算公式为：
[0061][0062]
其中，s
i
为连接节点i对应的参考文字i的笔画数量，s
j
为连接节点j对应的拆分字形的笔画数量，d
j
为连接节点j的相邻连接节点的数量，a为动态参数(如a＝0.5)。
[0063]
请参考图3，参考文字“邻”的第一笔画信息包括“邻”的笔画数量为7，参考文字“邻”的相邻连接节点的第一节点数量为2(即s
i
＝7，d
i
＝2)；拆分字形“令”的第二笔画信息包“令”的笔画数量为5，拆分字形“令”的相邻连接节点的第二节点数量为3(即s
j
＝5，d
j
＝3)。基于上述连边权重公式，设a＝0.5，可以计算由参考文字“邻”至拆分字形“令”的有向边的连边权重为：(5/(2 0.5)
×
1/3)2＝4/9；同理，可以计算由拆分字形“令”值参考文字“邻”的有向边的连边权重为：(5/(2 0.5)
×
1/2)2＝1。
[0064]
在另一种实施方式中，参考文字i与所属的拆分字形(即参考文字i的拆分字形)的连边为无向边。智能设备根据参考文字i的文字属性信息与所属的拆分字形的字形属性信息，并根据参考文字i的文字属性信息和拆分字形的字形属性信息计算参考文字i与所属的拆分字形之间的连边的连边权重。在一个实施例中，参考文字i与所属的拆分字形之间的连边的连边权重是对参考文字i与所属的拆分字形之间的有向边的权重进行均值计算得到的；例如，参考文字“邻”与所属的拆分字形“令”之间的连边的连边权重为：(1 4/9)/2＝13/18。在另一个实施例中，参考文字i与所属的拆分字形之间的连边的连边权重w的计算公式为：
[0065][0066]
其中，s
i
为连接节点i对应的参考文字i的笔画数量，s
j
为连接节点j对应的拆分字形的笔画数量，d
i
为连接节点i的相邻连接节点的数量，d
j
为连接节点j的相邻连接节点的数量，a为动态参数(如a＝0.5)。
[0067]
在又一种实施方式中，参考文字的文字属性信息与该参考文字的拆分字形的字形属性信息中均包括读音，智能设备根据参考文字的读音(如读音音调、前鼻音、后鼻音等)的相似程度(如发音完全相同的参考文字与所属拆分字形的相似度>拼音相同，但音调不同的参考文字与所属拆分字形的相似度>鼻音不同的参考文字与所属拆分字形的相似度>平舌音与翘舌音不同的参考文字与所属拆分字形的相似度)，确定参考文字与该参考文字的拆分字形之间的连边的连边权重；其中，读音的相似度与连边权重的大小成正比。进一步地，可以结合参考文字的笔画数量以及读音，和该参考文字拆分字形的笔画数量以及读音；从多个维度(笔画和读音)综合确定参考文字i与该参考文字的拆分字形之间的连边的连边权重。
[0068]
可选的，智能设备将文字字形图中的各个连边的连边权重设为默认值，即文字字形图中各个参考文字与所属的拆分字形之间的连边的连边权重均相同；例如，将文字字形图中各个参考文字与所属的拆分字形之间的连边的连边权重都设为1。
[0069]
更进一步地，智能设备根据各个参考文字与各个参考文字所属的拆分字形之间的连边的连边权重，生成携带连边权重的文字字形图(即生成的文字字形图包括各个参考文字与各个参考文字所属的拆分字形之间的连接关系，以及各个参考文字与各个参考文字所属的拆分字形之间的连边的连边权重)。智能设备将每个参考文字和拆分文字确定为待识别文字，待识别文字包括参考文字和拆分字形中不可拆分的文字。
[0070]
s404、智能设备根据文字字形图确定参考文字i的关联文本序列。
[0071]
需要说明的是，若步骤s403未执行将每个参考文字与所属的拆分字形确定为文字字形图中的连接节点，则智能设备将每个参考文字与所属的拆分字形确定为文字字形图中的连接节点；否则不再执行将每个参考文字与所属的拆分字形确定为文字字形图中的连接节点的步骤。
[0072]
在一种实施方式中，智能设备从文字字形图中获取参考文字i的至少两个待选关联文本序列；参考文字i的每一个待选关联文本序列包括与参考文字i依次进行连接的m个连接节点，m为小于或等于文字字形图中的连接节点的总数量的正整数。智能设备根据与每个待选关联文本序列相关联的连边的连边权重，分别获取每个待选文本关联序列对应的连边权重和；将至少两个待选文本关联序列中所属的连边权重和最大的待选文本关联序列，确定为参考文字i的关联文本序列。图5a为本技术实施例提供的一种确定关联文本序列的流程图。如图5a所示，设m＝3，参考文字“扇”的待选关联文本序列包括：扇
→
羽
→
翟；扇
→
羽
→
翎；扇
→
羽
→
诩。由图5a中各个连边的连边权重可以计算得到待选关联文本序列1：“扇
→
羽
→
翟”对应的连边权重和为7，待选关联文本序列2：“扇
→
羽
→
翎”对应的连边权重和为9，待选关联文本序列3：“扇
→
羽
→
诩”对应的连边权重和为11，则智能设备将待选关联文本序列3：“扇
→
羽
→
诩”确定为参考文字“扇”的关联文本序列。
[0073]
需要说明的是，m的值越大，则参考文字i的每一个待选关联文本序列携带的特征信息越大，计算复杂度越大，即参考文字i的每一个待选关联文本序列携带的特征信息的信息量与计算复杂度成正比。
[0074]
进一步地，智能设备基于各个参考文字的关联文本序列对初始模型进行训练(即通过各个参考文字的关联文本序列对初始模型中的参数进行优化训练)，得到文字字形模型。在一种实施方式中，预先收集用于训练的参考文字及其拆字结果，并使用步骤s403中的
公式计算参考文字与所属的拆分字形之间的连边的连边权重；然后采用无监督的词向量算法(如node2vec算法、word2vec算法等)从构建好的文字字形图中获取各个参考文字的字形向量，并采用各个参考文字的字形向量对初始模型中的参数进行优化训练，得到文字字形模型。在得到文字字形模型后，将待识别文字作为文字字形模型的输入，得到文字字形模型输出的每个待识别文字的文字特征向量。图5b为本技术实施例提供的一种通过文字字形模型处理待识别文字的过程示意图。如图5b所示，将待识别文字输入文字字形模型的输入层，文字字形模型的输入层在获取输入数据后，通过隐含层对输入层输入的数据(待识别文字)进行处理(特征提取)，最后通过输出层输出处理结果(待识别文字的文字特征向量)。
[0075]
s405、智能设备根据每个待识别文字的文字特征向量，确定每个待识别文字之间的文字相似度。
[0076]
步骤s405的具体实施方式可参考图2中步骤s204的实施方式，在此不再赘述。
[0077]
s406、智能设备获取待校正文本标题。
[0078]
待校正文本标题是由终端设备上传至智能设备中，或者是由用户输入智能设备中的；该待校正文本标题是对待校正标题进行预处理(如删除标题中的标的符号、空格等)后得到的。
[0079]
s407、智能设备根据每个待识别文字之间的文字相似度，获取待校正文本标题所包含的待识别文字的相似文字。
[0080]
在一种实施方式中，智能设备将待校正文本标题所包含的待识别文字作为文字字形模型的输入，并获取文字字形模型输出的待校正文本标题所包含的各个待识别文字的特征向量，并基于该特征向量获取待校正文本标题所包含的待识别文字的相似文字。具体地，智能设备根据待校正文本标题所包含的各个待识别文字的特征向量确定各个待识别文字之间的文字相似度，将相似度高于阈值的文字确定为待校正文本标题所包含的待识别文字的相似文字。
[0081]
s408、智能设备根据相似文字对待校正文本标题进行校正，得到校正文本标题。
[0082]
在一种实施方式中，智能设备从待校正文本标题所包含的待识别文字的相似文字中筛选出正确文字，并用正确文字替换待校正文本标题中的错误文字，得到校正文本标题。具体地，智能设备将文字字形模型输出的待校正文本标题所包含的各个待识别文字的特征向量作为文本纠错模型的输入，并获取文本纠错模型输出的校正文本标题；其中，文本纠错模型是通过训练文字的读音、笔画、结构等多个维度特征向量对神经网络模型进行训练后得到的。
[0083]
图5c为本技术实施例提供的一种存在错误文本标题的页面校正示意图。如图5c所示，用户在触发功能页面501中的“搜一搜”功能后，转跳至搜索页面502，搜索页面502包括搜索输入框5021，用户在搜索输入框5021中输入需要搜索的内容来搜索感兴趣的内容。如搜索页面502所示，若不对网络中的文本标题进行处理，则搜索的结果中可能会出现带有错字的标题，如“xxxx佺网视频会员”、“龙物视频”、“稿笑视频”、“气车介绍”等，这些包含错字的标题会极大影响用户的体验，甚至成为非法用户执行非法操作(如发布虚假广告)的途径。通过上述步骤s401
‑
步骤s408对文本标题进行优化后的搜索页面如搜索页面503所示，如搜索页面503所示，通过校正文本标题可以改善用户搜索体验，并可以辅助内容优化模型对搜索结果进行优化，过滤搜索结果中的非法信息。
[0084]
本技术实施例中，在图2实施例的基础上，基于文字字形图中参考文字的文字属性与所属拆分字形的字形属性计算文字字形图中各个连边的连边权重，并基于携带连边权重的文字字形图对初始模型进行训练，得到训练后的文字字形模型，该文字字形模型除了可以根据每个文字的文字特征向量预测各个文字间的相似度，提高文字相似识别的效率和准确性外，还可以用于辅助文本(形近字)纠错，以及用于辅助文字识别(根据相似度将与待识别图像中的文字的相似度最高的文字确定为目标文字)等，进而提升文本处理过程的便捷性。
[0085]
上述详细阐述了本技术实施例的方法，为了便于更好地实施本技术实施例的上述方案，相应地，下面提供了本技术实施例的装置。
[0086]
请参见图6，图6为本技术实施例提供的一种文字处理装置的结构示意图，该文字处理装置可以搭载在上述方法实施例中的智能设备上，该智能设备具体可以是图1中的终端设备101，或者服务器102上。图6所示的文字处理装置可以用于执行上述图2和图4所描述的方法实施例中的部分或全部功能。其中，各个单元的详细描述如下：
[0087]
获取单元601，用于获取至少两个参考文字，对所述至少两个参考文字进行拆分，得到所述至少两个参考文字的拆分字形；所述至少两个参考文字的拆分字形包括拆分文字；
[0088]
处理单元602，用于基于所述至少两个参考文字和所述至少两个参考文字的拆分字形，构建文字字形图；所述文字字形图包括每个参考文字与所属的拆分字形之间的关联关系；
[0089]
以及用于将所述每个参考文字和所述拆分文字确定为待识别文字，基于所述文字字形图生成每个待识别文字的文字特征向量；
[0090]
以及用于根据所述每个待识别文字的文字特征向量，确定所述每个待识别文字之间的文字相似度。
[0091]
在一个实施例中，所述至少两个参考文字包括参考文字i，i为小于或等于所述至少两个参考文字的总数量的正整数；所述处理单元602用于，基于所述至少两个参考文字和所述至少两个参考文字的拆分字形，构建文字字形图，具体用于：
[0092]
建立所述参考文字i与所述参考文字i的拆分字形之间的连边；
[0093]
根据所述参考文字i的文字属性信息与所述参考文字i的拆分字形的字形属性信息，确定所述参考文字i与所属的拆分字形之间的连边的连边权重；
[0094]
根据所述参考文字i与所属的拆分字形之间的连边的连边权重，生成所述文字字形图。
[0095]
在一个实施例中，所述处理单元602用于，基于所述文字字形图生成每个待识别文字的文字特征向量，具体用于：
[0096]
将所述每个参考文字与所述每个参考文字的拆分字形确定为所述文字字形图中的连接节点；
[0097]
根据所述文字字形图确定所述参考文字i的关联文本序列；所述关联文本序列包括与所述参考文字i依次进行连接的m个连接节点，m为小于或等于所述文字字形图中的连接节点的总数量的正整数；
[0098]
基于所述关联文本序列训练初始模型，得到文字字形模型；
[0099]
基于所述文字字形模型生成所述每个待识别文字的文字特征向量。
[0100]
在一个实施例中，所述处理单元602用于，根据所述文字字形图确定所述参考文字i的关联文本序列，具体用于：
[0101]
从所述文字字形图中获取所述参考文字i的至少两个待选关联文本序列；
[0102]
根据与每个待选关联文本序列相关联的连边的连边权重，分别获取所述每个待选文本关联序列对应的连边权重和；
[0103]
将所述至少两个待选文本关联序列中所属的连边权重和最大的待选文本关联序列，确定为所述参考文字i的所述关联文本序列。
[0104]
在一个实施例中，所述处理单元602用于，根据所述参考文字i的文字属性信息与所述参考文字i的拆分字形的字形属性信息，确定所述参考文字i与所属的拆分字形之间的连边的连边权重，具体用于：
[0105]
根据所述文字属性信息和所述字形属性信息，获取所述参考文字i针对所属的拆分字形的第一连边权重，获取所述参考文字i的拆分字形针对所述参考文字i的第二连边权重；
[0106]
将所述第一连边权重和所述第二连边权重，确定为所述参考文字i与所属的拆分字形之间的连边的连边权重。
[0107]
在一个实施例中，所述处理单元602用于，根据所述文字属性信息和所述字形属性信息，获取所述参考文字i针对所属的拆分字形的第一连边权重，获取所述参考文字i的拆分字形针对所述参考文字i的第二连边权重，具体用于：
[0108]
将所述每个参考文字与所述每个参考文字的拆分字形确定为所述文字字形图中的连接节点；
[0109]
获取所述参考文字i的第一笔画信息以及所述文字字形图中所述参考文字i的相邻连接节点的第一节点数量，将所述第一笔画信息和所述第一节点数量确定为所述文字属性信息；
[0110]
获取所述参考文字i的拆分字形的第二笔画信息以及所述文字字形图中所述参考文字i的拆分字形的相邻连接节点的第二节点数量，将所述第二笔画信息和所述第二节点数量确定为所述字形属性信息；
[0111]
根据所述文字属性信息中的所述第一笔画信息和所述字形属性信息，确定所述第一连边权重，并根据所述字形属性信息中的所述第二笔画信息和所述文字属性信息，确定所述第二连边权重。
[0112]
在一个实施例中，所述每个待识别文字包括第一待识别文字和第二待识别文字；所述处理单元602用于，根据所述每个待识别文字的文字特征向量，确定所述每个待识别文字之间的文字相似度，具体用于：
[0113]
计算所述第一待识别文字的文字特征向量和第二待识别文字的文字特征向量之间的向量距离；
[0114]
根据所述向量距离确定所述第一待识别文字和第二待识别文字之间的文字相似度。
[0115]
在一个实施例中，所述处理单元602，还用于：
[0116]
获取待校正文本标题；
[0117]
根据所述每个待识别文字之间的文字相似度，获取所述待校正文本标题所包含的待识别文字的相似文字；
[0118]
根据所述相似文字对所述待校正文本标题进行校正，得到校正文本标题。
[0119]
根据本技术的一个实施例，图2和图4所示的文字处理方法所涉及的部分步骤可由图6所示的文字处理装置中的各个单元来执行。例如，图2中所示的步骤s201可由图6所示的获取单元601执行，步骤s202
‑
步骤s204可由图6所示的处理单元602执行。图4中所示的步骤s401和步骤s406可由图6所示的获取单元601执行，步骤s402
‑
步骤s405，步骤s407和步骤s408可由图6所示的处理单元602执行。图6所示的文字处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本技术的其它实施例中，文字处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。
[0120]
根据本技术的另一个实施例，可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行如图2和图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的文字处理装置，以及来实现本技术实施例的文字处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算装置中，并在其中运行。
[0121]
基于同一发明构思，本技术实施例中提供的文字处理装置解决问题的原理与有益效果与本技术方法实施例中文字处理装置解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。
[0122]
请参阅图7，图7为本技术实施例提供的一种智能设备的结构示意图，所述智能设备至少包括处理器701、通信接口702和存储器703。其中，处理器701、通信接口702和存储器703可通过总线或其他方式连接。其中，处理器701(或称中央处理器(central processing unit，cpu))是终端的计算核心以及控制核心，其可以解析终端内的各类指令以及处理终端的各类数据，例如：cpu可以用于解析用户向终端所发送的开关机指令，并控制终端进行开关机操作；再如：cpu可以在终端内部结构之间传输各类交互数据，等等。通信接口702可选的可以包括标准的有线接口、无线接口(如wi
‑
fi、移动通信接口等)，受处理器701的控制可以用于收发数据；通信接口702还可以用于终端内部数据的传输以及交互。存储器703(memory)是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器703既可以包括终端的内置存储器，当然也可以包括终端所支持的扩展存储器。存储器703提供存储空间，该存储空间存储了终端的操作系统，可包括但不限于：android系统、ios系统、windows phone系统等等，本技术对此并不作限定。
[0123]
在本技术实施例中，处理器701通过运行存储器703中的可执行程序代码，用于执行如下操作：
[0124]
通过通信接口702获取至少两个参考文字，对所述至少两个参考文字进行拆分，得到所述至少两个参考文字的拆分字形；所述至少两个参考文字的拆分字形包括拆分文字；
[0125]
基于所述至少两个参考文字和所述至少两个参考文字的拆分字形，构建文字字形图；所述文字字形图包括每个参考文字与所属的拆分字形之间的关联关系；
[0126]
将所述每个参考文字和所述拆分文字确定为待识别文字，基于所述文字字形图生成每个待识别文字的文字特征向量；
[0127]
根据所述每个待识别文字的文字特征向量，确定所述每个待识别文字之间的文字相似度。
[0128]
作为一种可选的实施例，所述至少两个参考文字包括参考文字i，i为小于或等于所述至少两个参考文字的总数量的正整数；处理器701基于所述至少两个参考文字和所述至少两个参考文字的拆分字形，构建文字字形图的具体实施例为：
[0129]
建立所述参考文字i与所述参考文字i的拆分字形之间的连边；
[0130]
根据所述参考文字i的文字属性信息与所述参考文字i的拆分字形的字形属性信息，确定所述参考文字i与所属的拆分字形之间的连边的连边权重；
[0131]
根据所述参考文字i与所属的拆分字形之间的连边的连边权重，生成所述文字字形图。
[0132]
作为一种可选的实施例，处理器701基于所述文字字形图生成每个待识别文字的文字特征向量的具体实施例为：
[0133]
将所述每个参考文字与所述每个参考文字的拆分字形确定为所述文字字形图中的连接节点；
[0134]
根据所述文字字形图确定所述参考文字i的关联文本序列；所述关联文本序列包括与所述参考文字i依次进行连接的m个连接节点，m为小于或等于所述文字字形图中的连接节点的总数量的正整数；
[0135]
基于所述关联文本序列训练初始模型，得到文字字形模型；
[0136]
基于所述文字字形模型生成所述每个待识别文字的文字特征向量。
[0137]
作为一种可选的实施例，处理器701根据所述文字字形图确定所述参考文字i的关联文本序列的具体实施例为：
[0138]
从所述文字字形图中获取所述参考文字i的至少两个待选关联文本序列；
[0139]
根据与每个待选关联文本序列相关联的连边的连边权重，分别获取所述每个待选文本关联序列对应的连边权重和；
[0140]
将所述至少两个待选文本关联序列中所属的连边权重和最大的待选文本关联序列，确定为所述参考文字i的所述关联文本序列。
[0141]
作为一种可选的实施例，处理器701根据所述参考文字i的文字属性信息与所述参考文字i的拆分字形的字形属性信息，确定所述参考文字i与所属的拆分字形之间的连边的连边权重的具体实施例为：
[0142]
根据所述文字属性信息和所述字形属性信息，获取所述参考文字i针对所属的拆分字形的第一连边权重，获取所述参考文字i的拆分字形针对所述参考文字i的第二连边权重；
[0143]
将所述第一连边权重和所述第二连边权重，确定为所述参考文字i与所属的拆分字形之间的连边的连边权重。
[0144]
作为一种可选的实施例，处理器701根据所述文字属性信息和所述字形属性信息，
获取所述参考文字i针对所属的拆分字形的第一连边权重，获取所述参考文字i的拆分字形针对所述参考文字i的第二连边权重的具体实施例为：
[0145]
将所述每个参考文字与所述每个参考文字的拆分字形确定为所述文字字形图中的连接节点；
[0146]
获取所述参考文字i的第一笔画信息以及所述文字字形图中所述参考文字i的相邻连接节点的第一节点数量，将所述第一笔画信息和所述第一节点数量确定为所述文字属性信息；
[0147]
获取所述参考文字i的拆分字形的第二笔画信息以及所述文字字形图中所述参考文字i的拆分字形的相邻连接节点的第二节点数量，将所述第二笔画信息和所述第二节点数量确定为所述字形属性信息；
[0148]
根据所述文字属性信息中的所述第一笔画信息和所述字形属性信息，确定所述第一连边权重，并根据所述字形属性信息中的所述第二笔画信息和所述文字属性信息，确定所述第二连边权重。
[0149]
作为一种可选的实施例，所述每个待识别文字包括第一待识别文字和第二待识别文字；处理器701根据所述每个待识别文字的文字特征向量，确定所述每个待识别文字之间的文字相似度的具体实施例为：
[0150]
计算所述第一待识别文字的文字特征向量和第二待识别文字的文字特征向量之间的向量距离；
[0151]
根据所述向量距离确定所述第一待识别文字和第二待识别文字之间的文字相似度。
[0152]
作为一种可选的实施例，处理器701还用于：
[0153]
获取待校正文本标题；
[0154]
根据所述每个待识别文字之间的文字相似度，获取所述待校正文本标题所包含的待识别文字的相似文字；
[0155]
根据所述相似文字对所述待校正文本标题进行校正，得到校正文本标题。
[0156]
基于同一发明构思，本技术实施例中提供的智能设备解决问题的原理与有益效果与本技术方法实施例中文字处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。
[0157]
本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行上述方法实施例所述的文字处理方法。
[0158]
本技术实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法实施例所述的文字处理方法。
[0159]
本技术实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文字处理的方法。
[0160]
本技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
[0161]
本技术实施例装置中的模块可以根据实际需要进行合并、划分和删减。
[0162]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，可读存储介质可以包括：闪存盘、只读存储器(read
‑
only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0163]
以上所揭露的仅为本技术一种较佳实施例而已，当然不能以此来限定本技术之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本技术权利要求所作的等同变化，仍属于发明所涵盖的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于经由APIS的基于云的专业知识递送的系统和方法与流程

一种文字处理方法、设备及存储介质与流程

相关文献

最热文献