一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数学文本的语义分类方法

2022-07-16 15:38:05 来源:中国专利 TAG:

技术特征:
1.一种数学文本的语义分类方法,其特征在于,包括:s1:对获取的数学资源进行标注,得到数学文本数据集,并划分出训练数据集;s2:通过bert预训练模型得到数学文本数据集中的数学文本的词嵌入向量,其中,数学文本的词嵌入向量包括具有线性结构特征的自然语言文本词嵌入向量以及具有树形结构特征的数学表达式的词嵌入向量;s3:构建数学文本的语义分类模型,语义分类模型包括聚合模块、拼接模块、多层前馈神经网络和分层softmax回归模型,其中,聚合模块用于对自然语言文本词嵌入向量采用直接平均聚合的方法得到文本聚合向量、对数学表达式的词嵌入向量采用树型长短期记忆网络的方法进行聚合得到数学表达式聚合向量,拼接模块用于对文本聚合向量和数学表达式聚合向量进行拼接,得到数学文本的嵌入矢量,多层前馈神经网络和分层softmax回归模型用于根据数学文本的嵌入矢量进行语义分类;s4:利用训练数据集对数学文本的语义分类模型进行训练,得到训练好的语义分类模型;s5:利用训练好的语义分类模型进行数学文本的语义分类。2.如权利要求1所述的数学文本的语义分类方法,其特征在于,步骤s1包括:选取高等数学教材及其习题解析,历年研究生入学考试数学试题及其解析作为数学资源,并采用人工标注的方式进行标注,数学资源为z,抽取n个知识属性作为标签,得到标签集合l={l1,

,l
n
},l1,

,l
n
分别表示第1个和第n个标签。3.如权利要求2所述的数学文本的语义分类方法,其特征在于,在对获取的数学资源进行标注之后,所述方法还包括:对标注好的数学资源进行预处理,具体包括:定义数学资源中第i个数学表达式为m
i
,去除字符串长度小于阈值的数学表达式;定义数学表达式m
i
的上下文为c
i
={t
k
|t
k
∈z,|k-p
i
|≤r},其中t
k
表示第k个自然语言单词,p
i
为数学表达式m
i
作为一个整体在序列中的位置,r最大为64;当m
i
由多个连等式或者多个不等式共同构成时,则以等号和不等号为标志,将m
i
进一步切分为子表达式使数学表达式最多包含一个等号或不等号,得到数据集其中i表示数学表达式序号,w代表子表达式编号,j为标签编号。4.如权利要求1所述的数学文本的语义分类方法,其特征在于,聚合模块对自然语言文本词嵌入向量采用直接平均聚合的方法得到文本聚合向量的方式为:其中,代表第n’个词t
n
通过bert预训练模型得到的词嵌入向量,代表自然语言文本c
i
的聚合向量,c
i
={t1,

,t
n'
}表示具有线性序列特征的自然语言文本,即表达式的上下文,t1表示自然语言文本中的第一个词,t
n'
表示自然语言文本中的第n’个词。5.如权利要求1所述的数学文本的语义分类方法,其特征在于,对于具有树形结构特征的表达式首先将转换为表达式树,其中,表达树中的每一个节点表示一个操作符或操作数,聚合模块对数学表达式的词嵌入向量采用子树和树型长短期记忆网络进行聚合得到数学表达式聚合向量,包括:对于表达式树的任意节点m
p
,s(m
p
)表示其子节点集合,根据下式得到节点m
p
的聚合向
量:其中tree_lstm代表子树和树型长短期记忆网络child-sum tree-lstms的一个运算模块,代表节点m
p
通过bert预训练模型得到的词嵌入向量,p和q表示节点编号,代表m
p
的子节点m
q
的聚合向量,代表节点m
p
的聚合向量;根据节点m
p
的聚合向量得到数学表达式树的根节点聚合向量,作为整个数学表达式的聚合向量,记为

技术总结
本发明提供了一种数学文本的语义分类方法。首先根据高等数学教材的层级结构,从中提取出数学文本数据集,然后利用BERT预训练模型得到数据集的词嵌入表达,分别对具有线性序列特征的自然语言文本词向量和具有树形结构特征的数学语言文本词向量采用平均聚合方法和Tree-LSTM聚合方法,再对两个聚合向量进行拼接处理,最后将拼接向量送入多层前馈神经网络,采用Hierachical Softmax回归模型输出分类结果。本发明的方法可以大大提高数学文本的分类精度。分类精度。分类精度。


技术研发人员:董石 唐家玉 陶雪云 田元 夏丹 闵秋莎 左明章
受保护的技术使用者:华中师范大学
技术研发日:2022.04.28
技术公布日:2022/7/15
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献