一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向工程领域设计计算公式的检索方法与装置与流程

2022-04-02 07:25:52 来源:中国专利 TAG:

技术特征:
1.一种面向工程领域设计计算公式的检索方法,其特征在于:包括以下步骤:步骤1:识别文档中的设计计算公式,将其转化为操作树,对该操作树进行嵌入表达,具体包括:步骤1.1:对于文档中印刷体公式,使用公式识别工具将其转换为中间表达式f。步骤1.2:使用上下文无关文法描述中间表达式中操作对象和操作符的语法模式以构建词汇表,定义操作符的计算优先级顺序,并对f进行分词,得到由操作对象和操作符组成的序列,最后根据操作符的计算优先级,结合堆栈这一数据结构,将序列转换为公式操作树t。步骤1.3:对操作树t的节点信息进行one-hot编码,结构信息进行哈夫曼编码,两者拼接之后得到计算公式操作树的嵌入矩阵m
opt
。步骤2:获取计算公式的关联文本并对其进行嵌入表达,具体包括:步骤2.1:对于文档中的印刷体公式,根据相对位置关系定位描述其输出参数的语句,去停用词处理之后作为公式的关联文本d。步骤2.2:以书籍和标准中的计算公式为数据来源,构建专业领域的语句相似度标注数据集,使用文本嵌入的预训练模型对关联文本d进行嵌入表达,获取关联文本的向量e
d
。所述步骤3:融合计算公式的操作树嵌入和其关联文本的嵌入,得到包含文本语义的公式向量,具体包括:步骤3.1:以书籍和标准中的计算公式及其描述语句为数据来源,建立包含文本描述的公式相似度标注数据集;将公式及其关联文本进行组合,作为一个样本,标注不同样本对之间是否相似。步骤3.2:构建神经网络模型,使用步骤3.1所述的标注数据集对其进行训练和验证。步骤3.3:以计算公式操作树的嵌入矩阵m
opt
及公式关联文本的嵌入向量e
d
为输入,由步骤3.2中的神经网络模型输出包含文本语义的公式向量e
f
。步骤4:检索时使用向量相似性度量方法衡量不同公式之间的相似程度,返回相似度最高的结果,具体包括:步骤4.1:使用向量相似性度量方法衡量公式向量e
f
与数据集中公式向量的相似程度,返回相似程度结果。步骤4.2:对相似程度进行排名,相似度越高排名越靠前,返回排名首位的公式,作为检索结果。2.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤1所述的设计计算公式,为工程领域设计标准、设计计算手册和设计说明书中描述参数计算过程的公式。3.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤1.1所述的公式识别工具包括mathpix、inftyreader工具。4.根据权利要求书3所述的一种面向工程领域设计计算公式的检索方法,其特征在于:使用公式识别工具mathpix提供的接口完成公式识别任务。5.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤1.1所述的中间表达式,其形式包括latex表达式,mathml表达式。使用latex表达式作为中间表达式的形式。
6.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤1.1所述的上下文无关文法,包括:bnf文法、正则表达式,使用bnf文法描述操作符号和操作对象的语法模式。7.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤2.1所述的相对位置关系,包括关联文本在公式上方最近一行、关联文本在公式文本下方最近一行两种情况。8.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于,步骤2.2所述的文本嵌入的预训练模型,包括文本嵌入模型bert以及句子嵌入模型sbert。针对短文本形式的关联文本使用sbert输出其嵌入向量。9.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法与装置,其特征在于,步骤3.2所述的神经网络模型,其结构包括长短期记忆网络lstm、循环神经网络rnn和门控循环单元gru。使用gru作为神经网络的基本结构组成。10.一种面向工程领域设计计算公式的检索装置,其特征在于:该装置包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。所述处理器执行所述计算机程序时实现如权利要求1中步骤1到步骤4所述方法。

技术总结
本发明公开了一种面向工程领域设计计算公式的检索方法与装置;所述方法首先解析工程领域设计计算文档中的印刷体公式并将其转化为操作树,对该操作树进行嵌入表达。其次,获取计算公式的关联文本并对其进行嵌入表达。最终融合计算公式的操作树嵌入和其关联文本的嵌入,得到包含文本语义的公式向量。以该向量为介质进行公式检索。在对设计计算公式进行嵌入表达时不仅表达了公式计算过程的语义,还融合了与公式关联文本的语义,从而提高了公式检索的准确率。的准确率。的准确率。


技术研发人员:孟航程 程振波 肖刚 刘星光 李琴 孙力 张皓鑫 王亚明 徐雪松 陆佳炜 张元鸣
受保护的技术使用者:浙江工业大学
技术研发日:2021.12.24
技术公布日:2022/4/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献