一种融入笔画、结构信息的联机手写汉字识别方法和系统与流程

2022-09-07 21:33:25 来源：中国专利 TAG：

1.本发明属于模式识别、人工智能领域，具体涉及一种融入笔画、结构信息的联机手写汉字识别方法和系统。

背景技术：

2.目前，针对联机手写汉字识别的方法主要通过识别坐标点序列的方法进行识别，并获得了相当不错的效果，但是这种基于坐标点序列的方法很少将坐标点序列中蕴含的笔画、结构信息进行综合考虑，因而存在以下不足之处：
3.(1)基于坐标点序列级别的识别算法，学习到的神经网络模型大多会依赖于训练数据的数据类型，比如每个人的书写习惯不同，同一笔画，不同的人书写，弯曲程度、快慢程度不同，这就导致采集的对应于这一笔画的坐标点序列中坐标点的位置、多少会有区别，当训练数据不够充分时，模型无法在训练数据中学习到笔画中最基本的特征，在面对未知的测试数据时，无法识别。
4.(2)笔画、结构信息是汉字比较核心的特征，基于坐标点序列级别的识别算法，在一定程度上忽略了笔画、结构的信息，导致算法模型的可解释程度较低。

技术实现要素：

5.(一)要解决的技术问题
6.本发明要解决的技术问题是如何提供一种融入笔画、结构信息的联机手写汉字识别方法和系统，以解决当训练数据不够充分时，模型无法在训练数据中学习到笔画中最基本的特征，在面对未知的测试数据时，无法识别，以及算法模型的可解释程度较低等问题。
7.(二)技术方案
8.为了解决上述技术问题，本发明提出一种融入笔画、结构信息的联机手写汉字识别方法，该方法包括如下步骤：
9.s1、在坐标点序列学习阶段，通过长短期记忆网络(long short-term memory，lstm)学习坐标点序列中的时序特征；
10.s2、在笔画序列学习阶段，通过坐标点序列相邻点之间的关系，找出坐标序列的拐点，将连续两个拐点之间的坐标点视为一个笔画对应的坐标点，对其进行处理形成笔画特征，并将笔画特征送入长短期记忆网络学习笔画序列特征；
11.s3、在结构特征学习阶段，笔画序列学习阶段输出的笔画序列特征，在时间维度，平均分成两部分，将每一个部分进行处理，形成结构特征；
12.s4、将结构特征进行处理，送入softmax分类器进行分类识别。
13.进一步地，所述步骤s1具体包括：给定输入时间序列x＝(x1,x2,
…
,x
t
,
…
,x
t
)，其中，x
t
为列向量，列向量包括横纵坐标m
t
,n
t
，将输入时间序列各个时间时刻的向量x
t
送入递归神经网络进行计算，得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：
[0014][0015][0016]
其中，h0表示隐含层状态向量的初始状态，h0＝0，h1表示在时刻1的隐含层状态向量，h
t
表示在时刻t的隐含层状态向量，表示计算隐含层状态的函数，θ表示相应的神经网络的参数；经过t个时刻的迭代，在神经网络的顶层产生t个隐含层状态h＝(h1,h2,
…
,h
t
,
…
,h
t
)，即为通过单向递归神经网络提取到的正向时序特征；递归神经网络是长短期记忆网络。
[0017]
进一步地，所述步骤s1之前，还包括采样和预处理的步骤，采样频率为khz级别，然后对采样点进行预处理，把两点之间的横纵垂直距离和整个字的长宽做了比值，如果比值小于0.02则去除其中一个点，直到所有相邻两点横纵距离和长宽比值都大于0.02，得到输入时间序列。
[0018]
进一步地，所述步骤s2具体包括：假设当前坐标点x
t
(m
t
,n
t
)，m
t
为横坐标，n
t
为纵坐标，相邻的4个坐标点的坐标为，x
t-1
(m
t-1
,n
t-1
)，x
t-2
(m
t-2
,n
t-2
)，x
t 1
(m
t 1
,n
t 1
)，x
t 2
(m
t 2
,n
t 2
)，那么，分别根据横纵坐标计算x
t
，x
t-1
，x
t 1
，三个点在x
t
处的夹角θ1，以及x
t
，x
t-2
，x
t 2
三个点在x
t
处的夹角θ2，假如，θ1和θ2均小于90度，那么判定当前的点是拐点，确定为每一笔画的边界。
[0019]
进一步地，所述步骤s2还包括：基于笔画的分界线，划分隐含层状态h＝(h1,h2,
…
,h
t
,
…
,h
t
)，t个隐含层状态，假设通过笔画切分，共得到i个笔画，对每一笔画涵盖的隐含层状态求和，得到输入p＝(p1,p2,
…
,pi,
…
,pi)；其中，)；其中，表示在第i个笔画中对应的h＝(h1,h2,
…
,h
t
,
…
,h
t
)中的隐含层状态，r表示第i个笔画中共包含的坐标点的个数；然后将p＝(p1,p2,
…
,pi,
…
,pi)送入到长短时记忆(long short-termmemory)网络中学习，得到笔画序列特征，q＝(q1,q2,
…
,qi,
…
,qi)。
[0020]
进一步地，所述步骤s3具体包括：
[0021]
将笔画序列特征q＝(q1,q2,
…
,qi,
…
,qi)，在时间维度上平均分成两部分，将这两部分分别送入到长短时记忆(long short-term memory)网络中学习，得到memory)网络中学习，得到然后将这两部份进行加和处理，得到联机手写汉字结构特征，
[0022]
本发明提供一种融入笔画、结构信息的联机手写汉字识别系统，该系统包括如下模块：
[0023]
坐标点序列时序信息模块：基于长短期记忆网络(long short-term memory，lstm)学习坐标点序列中的时序特征；
[0024]
笔画序列提取模块：通过坐标点相邻点之间的关系，找出坐标序列的拐点，确定每一笔画的边界，进而提取笔画序列；
[0025]
笔画序列特征学习模块：基于长短期记忆网络(long short-term memory，lstm)
学习笔画序列中的笔画序列特征；
[0026]
结构特征学习模块：对笔画序列特征学习模块输出的笔画序列特征，在时间维度上进行分块处理，形成结构特征；
[0027]
决策判断模块：依据学习到的汉字结构特征进行分类，分类损失采用softmax损失函数。
[0028]
进一步地，所述坐标点序列时序信息模块基于长短期记忆网络(long short-term memory，lstm)学习笔画序列中的时序特征；
[0029]
给定输入时间序列x＝(x1,x2,
…
,x
t
,
…
,x
t
)，其中，x
t
为列向量，列向量包括横纵坐标m
t
,n
t
，将输入时间序列各个时间时刻的向量x
t
送入递归神经网络进行计算，得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：
[0030][0031][0032]
其中，h0表示隐含层状态向量的初始状态，h0＝0，h1表示在时刻1的隐含层状态向量，h
t
表示在时刻t的隐含层状态向量，表示计算隐含层状态的函数，θ表示相应的神经网络的参数；经过t个时刻的迭代，在神经网络的顶层产生t个隐含层状态h＝(h1,h2,
…
,h
t
,
…
,h
t
)，即为通过单向递归神经网络提取到的正向时序特征。
[0033]
进一步地，所述笔画序列提取模块采用相邻坐标点之间的关系，找出坐标序列的拐点，确定每一笔画的边界，进而提取笔画序列，具体包括：
[0034]
假设当前坐标点x
t
(m
t
,n
t
)，m
t
为横坐标，n
t
为纵坐标，相邻的4个坐标点的坐标为，x
t-1
(m
t-1
,n
t-1
)，x
t-2
(m
t-2
,n
t-2
)，x
t 1
(m
t 1
,n
t 1
)，x
t 2
(m
t 2
,n
t 2
)，那么，分别根据横纵坐标计算x
t
，x
t-1
，x
t 1
，三个点在x
t
处的夹角θ1，以及x
t
，x
t-2
，x
t 2
三个点在x
t
处的夹角θ2，假如，θ1和θ2均小于90度，那么判定当前的点是拐点，确定为每一笔画的边界；
[0035]
笔画序列特征学习模块基于笔画序列提取模块确定笔画的分界线，划分坐标点序列时序特征学习模块输出的h＝(h1,h2,
…
,h
t
,
…
,h
t
)，t个隐含层状态，假设通过笔画切分，共得到i个笔画，对每一笔画涵盖的隐含层状态求和，那么笔画序列特征学习模块的输入p＝(p1,p2,
…
,pi,
…
,pi)；
[0036]
其中，其中，表示在第i个笔画中对应的h＝(h1,h2,
…
,h
t
,
…
,h
t
)中的隐含层状态，r表示第i个笔画中共包含的坐标点的个数；
[0037]
然后将p＝(p1,p2,
…
,pi,
…
,pi)送入到长短时记忆(long short-term memory)网络中学习，得到笔画序列特征，q＝(q1,q2,
…
,qi,
…
,qi)。
[0038]
进一步地，结构特征学习模块将笔画序列特征q＝(q1,q2,
…
,qi,
…
,qi)，在时间维度上平均分成两部分，将这两部分分别送入到长短时记忆(long short-termmemory)网络中学习，得到termmemory)网络中学习，得到
[0039]
然后将这两部份进行加和处理，得到结构特征学习模块输出的联机手写汉字结构
特征，
[0040]
(三)有益效果
[0041]
本发明提出一种融入笔画、结构信息的联机手写汉字识别方法和系统，本发明的有益效果是：
[0042]
(1)本发明提出一种融入笔画、结构信息的手写汉字识别方法，此方法在基于坐标点序列的联机手写汉字的识别过程中，引入笔画等结构性的特征，既考虑了坐标点序列中的时序信息，又融入了笔画、结构这种汉字固有的核心特征信息，在一定程度上能够提升联机手写汉字识别精确度。
[0043]
(2)本发明提出的一种融入笔画、结构信息的手写汉字识别方法有助于手写汉字识别的鲁棒性，以及小样本学习的特性。
附图说明
[0044]
图1为本发明融合笔画、结构信息的联机手写汉字识别总体架构图；
[0045]
图2为坐标序列的拐点提取示意图。
具体实施方式
[0046]
为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。
[0047]
针对现有的基于坐标点序列级别的手写识别技术中存在的问题，本发明的目的在于提供一种融合笔画、结构信息的手写汉字识别方法。基于坐标点序列级别的手写识别技术主要是将坐标点序列直接送入递归神经网络或者时序卷积神经网络当中，通过序列直接学习手写汉字的特征，进而对输入的手写汉字样本的坐标点序列进行分类识别；融合笔画、结构信息的联机手写汉字识别方法，也是将将坐标点序列直接送入递归神经网络当中，不同的是，在对坐标点序列进行一定程度的学习之后，通过坐标点序列中相邻点之间的关系，判断出拐点，将递归神经网络相邻拐点间的输出，作为一个笔画的特征，然后将所有笔画的特征再按照时序送入递归神经网络，然后再将笔画序列输出的特征序列，在时间维度，平均分成两部分，将每一个部分进行组合，形成结构性的特征，然后送入分类器进行分类。
[0048]
本发明提出的方法不仅保留了基于坐标点序列识别方法中提取坐标点序列中天然时序特征的优势，而且融入了笔画、结构这种汉字固有的核心特征信息，在一定程度上能够提升手写汉字识别的鲁棒性，以及小样本学习的特性。本发明主要面向联机手写汉字识别任务，也可为其他时间序列数据的识别提供网络模型搭建思路。
[0049]
本发明解决相关技术问题所用的技术方案是：一种融入笔画、结构信息的联机手写汉字识别方法和系统。该方法涵盖坐标点序列学习、笔画序列学习、结构特征学习以及分类决策四个阶段。
[0050]
s1、在坐标点序列学习阶段，主要通过长短期记忆网络(long short-term memory，lstm)学习坐标点序列中的时序特征。
[0051]
s2、在笔画序列学习阶段，通过坐标点序列相邻点之间的关系，找出坐标序列的拐点，将连续两个拐点之间的坐标点视为一个笔画对应的坐标点，对其进行处理形成笔画特
征，并将笔画特征送入长短期记忆网络(long short-term memory，lstm)学习笔画序列特征。
[0052]
s3、在结构特征学习阶段，笔画序列学习阶段输出的笔画序列特征，在时间维度，平均分成两部分，将每一个部分进行处理，形成结构特征。
[0053]
s4、将结构特征进行处理，送入softmax分类器进行分类识别。
[0054]
图1是融合笔画、结构信息的联机手写汉字识别系统总体架构，包括如下模块：
[0055]
(1)坐标点序列时序信息模块：主要基于长短期记忆网络(long short-term memory，lstm)学习坐标点序列中的时序特征。
[0056]
(2)笔画序列提取模块，主要通过坐标点相邻点之间的关系，找出坐标序列的拐点，确定每一笔画的边界，进而提取笔画序列。
[0057]
(3)笔画序列特征学习模块，主要基于长短期记忆网络(long short-term memory，lstm)学习笔画序列中的笔画序列特征。
[0058]
(4)结构特征学习模块，主要是对笔画序列特征学习模块输出的笔画序列特征，在时间维度上进行分块处理，形成结构特征。
[0059]
(5)决策判断模块：决策判断模块主要依据学习到的汉字结构特征进行分类，分类损失拟采用softmax损失函数。
[0060]
图1为融合笔画、结构信息的联机手写汉字识别总体架构图，主要基于数据流向给出本发明的融合笔画、结构信息的联机手写汉字识别方法的各模块详细设计及相互做用图。
[0061]
图1为融合笔画、结构信息的联机手写汉字识别总体架构图，主要包括：坐标点序列时序信息模块，笔画序列提取模块，笔画序列特征学习模块，结构特征学习模块以及决策判断五大核心模块，具体方法包括下列步骤：
[0062]
1.坐标点序列时序信息模块：
[0063]
主要是基于长短期记忆网络(long short-term memory，lstm)学习笔画序列中的时序特征。
[0064]
给定输入时间序列x＝(x1,x2,
…
,x
t
,
…
,x
t
)，其中，x
t
为列向量，列向量包括横纵坐标m
t
,n
t
，将输入时间序列各个时间时刻的向量x
t
送入递归神经网络进行计算，得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：
[0065][0066][0067]
其中，h0表示隐含层状态向量的初始状态，h0＝0，h1表示在时刻1的隐含层状态向量，h
t
表示在时刻t的隐含层状态向量，表示计算隐含层状态的函数，θ表示相应的神经网络的参数。经过t个时刻的迭代，在神经网络的顶层产生t个隐含层状态h＝(h1,h2,
…
,h
t
,
…
,h
t
)，即为通过单向递归神经网络提取到的正向时序特征。
[0068]
在本发明中，单向递归神经网络是长短期记忆(long short-term memory)类型以及相关变种类型。
[0069]
所述步骤s1之前，还包括采样和预处理的步骤，采样频率为khz级别，然后对采样点进行预处理，把两点之间的横纵垂直距离和整个字的长宽做了比值，如果比值小于0.02
则去除其中一个点，直到所有相邻两点横纵距离和长宽比值都大于0.02，得到输入时间序列。
[0070]
2.笔画序列提取模块
[0071]
笔画序列提取模块：本模块主要采用相邻坐标点之间的关系，找出坐标序列的拐点，确定每一笔画的边界，进而提取笔画序列，主要过程如下：
[0072]
假设当前坐标点x
t
(m
t
,n
t
)，m
t
为横坐标，n
t
为纵坐标，相邻的4个坐标点的坐标为，x
t-1
(m
t-1
,n
t-1
)，x
t-2
(m
t-2
,n
t-2
)，x
t 1
(m
t 1
,n
t 1
)，x
t 2
(m
t 2
,n
t 2
)，那么，分别根据横纵坐标计算x
t
，x
t-1
，x
t 1
，三个点在x
t
处的夹角θ1，以及x
t
，x
t-2
，x
t 2
三个点在x
t
处的夹角θ2，假如，θ1和θ2均小于90度，那么判定当前的点是拐点，确定为每一笔画的边界，如图2所示。
[0073]
3.笔画序列特征学习模块
[0074]
笔画序列特征学习模块，主要基于笔画序列提取模块确定笔画的分界线，划分坐标点序列时序特征学习模块输出的h＝(h1,h2,
…
,h
t
,
…
,h
t
)，t个隐含层状态，假设通过笔画切分，共得到i个笔画，对每一笔画涵盖的隐含层状态求和，那么笔画序列特征学习模块的输入p＝(p1,p2,
…
,pi,
…
,pi)。
[0075]
其中，其中，表示在第i个笔画中对应的h＝(h1,h2,
…
,h
t
,
…
,h
t
)中的隐含层状态，r表示第i个笔画中共包含的坐标点的个数。
[0076]
然后将p＝(p1,p2,
…
,pi,
…
,pi)送入到长短时记忆(long short-termmemory)网络中学习，得到笔画序列特征，q＝(q1,q2,
…
,qi,
…
,qi)。
[0077]
4.结构特征学习模块
[0078]
结构特征学习模块主要是将笔画序列特征q＝(q1,q2,
…
,qi,
…
,qi)，在时间维度上平均分成两部分，将这两部分分别送入到长短时记忆(long short-term memory)网络中学习，得到memory)网络中学习，得到
[0079]
然后将这两部份进行加和处理，得到结构特征学习模块输出的联机手写汉字结构特征，
[0080]
4.分类决策模块
[0081]
分类决策模块主要是通过学习到的融合笔画、结构信息的联机手写汉字结构特征，使用sofmax分类器进行分类决策。
[0082]
本发明的有益效果是：
[0083]
(1)本发明提出一种融入笔画、结构信息的手写汉字识别方法，此方法在基于坐标点序列的联机手写汉字的识别过程中，引入笔画等结构性的特征，既考虑了坐标点序列中的时序信息，又融入了笔画、结构这种汉字固有的核心特征信息，在一定程度上能够提升联机手写汉字识别精确度。
[0084]
(2)本发明提出的一种融入笔画、结构信息的手写汉字识别方法有助于手写汉字识别的鲁棒性，以及小样本学习的特性。
[0085]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：控制系统的在线预警方法、装置、计算机设备及介质与流程

一种融入笔画、结构信息的联机手写汉字识别方法和系统与流程

相关文献

最热文献