一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种关键信息与上市公司公告文本语义匹配方法及装置与流程

2022-02-21 04:50:23 来源:中国专利 TAG:

技术特征:
1.一种关键信息与上市公司公告文本语义匹配方法,其特征在于,包括:关键信息提取阶段;s1:采集数据,构建马尔科夫链矩阵;s2:根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;s3:筛选关键信息,输入关键信息,并设置与关键信息相关的词首和词根,并根据关键信息候选词语集中的候选词语筛选出最终关键信息;最终关键信息与字段信息对齐阶段;s4:根据最终关键信息和字段信息,分别得到最终关键信息向量表征和字段信息向量表征;所述字段信息为上市公司公告文本关键信息;字段为上市公司公告文本中关键信息的类型;s5:采用生成对抗网络对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;s6:最终关键信息与字段信息对齐,基于所述新生成的最终关键信息向量表征与所有的字段信息的向量表征,计算语义相似度,选择与最终关键信息语义相似度最大的字段信息,作为对齐字段信息,根据对齐字段信息得到与最终关键信息语义匹配的上市公司公告文本。2.根据权利要求1所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,s1中,包括步骤:s1.1:采集常规文本数据和上市公司公告文本数据,提取所述常规文本数据和上市公司公告文本数据中的所有字符,并去重形成常用字典;s1.2:计算常用字典中的常规文本中两中文连续字符和的条件转移概率,构建常规文本的马尔科夫链矩阵,记为;计算常用字典中的上市公司公告文本中两中文连续字符和的条件转移概率,构建上市公司公告文本的马尔科夫链矩阵,记为;其中,i表示字符在常用字典中的索引,j表示字符在常用字典中的索引,n表示常用字典中的字符总数,常规文本的马尔科夫链矩阵中的元素表示两连续字符在常规文本中的条件转移概率,上市公司公告文本的马尔科夫链矩阵中的元素表示两连续字符在上市公司公告文本中的条件转移概率。3.根据权利要求2所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,s2中,包括步骤:s2.1:根据常规文本的马尔科夫链矩阵和上市公司公告文本的马尔科夫链矩阵,计算两矩阵之间的信息熵,并提取两矩阵中信息熵大于阈值的两中文连续字符;其中,两矩阵之间的信息熵记为,公式为:
其中,表示常规文本的马尔科夫链矩阵,表示上市公司公告文本的马尔科夫链矩阵;s2.2:采用分词法对常用字典中的上市公司公告文本进行中文分词,若词语中包含提取后的两中文连续字符,则提取所述词语为候选词语;进而构建关键信息候选词语集;所述词语记为,其中,t、i、j、k均表示字符在常用字典中的索引,候选词语表示常见于上市公司公告文本的连续字符,或不常见于常规文本中的连续字符。4.根据权利要求3所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,s3中,筛选出最终关键信息的步骤为:s3.1:设置与关键信息相关的词首和词根;s3.2:若词首与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将所述词首与所述候选词语组合,并将组合后的词首和候选词语作为最终关键信息;若词根与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将所述候选词语与所述词根组合,并将组合后的候选词语和词根作为最终关键信息;若所述词首、词根均与所述关键信息候选词语集中的候选词语在上市公司公告文本中的位置相邻,则将所述词首、候选词语、词根依次组合,并将组合后的词首、候选词语、词根作为最终关键信息;s3.3:根据最终关键信息构建关键信息候选集。5.根据权利要求4所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,s4中,得到最终关键信息向量表征和字段信息向量表征的具体过程为:将关键信息候选集中的最终关键信息输入至常规文本预训练好的词向量模型中,获得关键信息候选集中所有词语的词向量,所有词语的词向量记为,基于所有词语的词向量进行向量加法求和运算,并计算平均值,得到最终关键信息向量表征,所述最终关键信息向量表征记为:;计算公式为:其中,n表示关键信息候选集的词语总数,m表示第m个词语;将字段信息输入至常规文本预训练好的词向量模型中,获得字段信息中所有字段的词向量,所有字段的词向量记为,基于所有字段的词向量进行向量加法求和运算,并计算平均值,得到字段信息向量表征,所述字段信息向量表征记为:;计算公式为:
其中,m表示字段的总数,a表示第a个字段。6.根据权利要求5所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,s5中,所述生成对抗网络包括判别网络和生成网络,所述判别网络包括三层全连接网络,用于判别最终关键信息与字段信息的语义相似性;所述生成网络包括三层全连接网络,用于生成最终关键信息迁移学习后的向量表征,最终关键信息迁移学习后的向量表征即新生成的最终关键信息向量表征。7.根据权利要求6所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,所述判别网络采用梯度下降法进行训练,并修正判别网络的权重参数;所述生成网络采用梯度上升法训练,并修正生成网络的权重参数。8.根据权利要求1所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,所述新生成的最终关键信息向量表征与字段信息向量表征在n维欧式空间中的距离相近。9.根据权利要求6所述的一种关键信息与上市公司公告文本语义匹配方法,其特征在于,s6中,计算语义相似度的方法为:采用余弦相似度计算新生成的最终关键信息与所有字段信息的语义相似度,计算公式为:其中,为新生成的最终关键信息向量表征,表示字段信息向量表征。10.一种关键信息与上市公司公告文本语义匹配装置,其特征在于,包括关键信息提取模块、以及关键信息与字段信息对齐模块,所述关键信息提取模块用于在数据中筛选出最终关键信息;所述关键信息与字段对齐模块用于将最终关键信息与所有字段信息进行对齐,得到与最终关键信息语义匹配的字段信息,进而得到与最终关键信息语义匹配的上市公司公告文本。

技术总结
本发明公开了一种关键信息与上市公司公告文本语义匹配方法及装置,方法包括:构建马尔科夫链矩阵;根据马尔科夫链矩阵,提取候选词语,构建关键信息候选词语集;筛选关键信息;根据最终关键信息和字段信息,得到最终关键信息向量表征和字段信息向量表征;对最终关键信息向量表征进行迁移学习,得到新生成的最终关键信息向量表征;最终关键信息与字段信息对齐,得到与最终关键信息语义匹配的上市公司公告文本;装置包括关键信息提取模块、以及关键信息与字段对齐模块;本发明提供的这种方法及装置适用于类型众多的上市公司公告文档的关键信息提取,且能够将关键信息与字段信息进行对齐,进而得到与关键信息语义匹配的上市公司公告文本。公告文本。公告文本。


技术研发人员:胡为民 郑喜
受保护的技术使用者:深圳市迪博企业风险管理技术有限公司
技术研发日:2021.12.21
技术公布日:2022/1/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献