一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种建立审计专业词库的方法及设备与流程

2021-10-24 07:22:00 来源:中国专利 TAG:自然语言 词库 审计 建立 方法

技术特征:
1.一种建立审计专业词库的方法,其特征在于,包括如下步骤:s1、获取审计相关文档;s2、对所述审计相关文档进行预处理;s3、根据非审计专业词库,对预处理后的审计相关文档进行分词并去除停用词,得到若干个独立词;s4、通过2

gram分词算法,对若干个独立词进行拼接,得到若干个拼接词;s5、分别计算各所述拼接词的词频、自由度;s6、预设第一阈值、第二阈值;将词频超过第一阈值且自由度超过第二阈值的拼接词作为新词存入审计专业词库。2.根据权利要求1所述的一种建立审计专业词库的方法,其特征在于,步骤s6还包括,通过人工进一步审核新词;将通过审核的新词存入审计专业词库。3.根据权利要求1所述的一种建立审计专业词库的方法,其特征在于,步骤s6还包括,将词频不超过第一阈值或自由度不超过第二阈值的拼接词作为停用词存入非审计专业词库。4.根据权利要求3所述的一种建立审计专业词库的方法,其特征在于,所述预处理具体为:使用poi工具或tika工具,将非结构化文档转换为结构化文档。5.根据权利要求4所述的一种建立审计专业词库的方法,其特征在于,步骤s5中,计算拼接词的自由度的具体步骤为:预设第三阈值;计算所述拼接词内部的互信息;计算互信息大于第三阈值的拼接词的自由度:预设第四阈值;计算互信息大于第三阈值的拼接词的左邻居信息熵,若所述左邻居信息熵不超过第四阈值,则继续向左扩展计算下一左邻居信息熵,直至达到最左边界处或一左邻居信息熵超过第四阈值,记该超过第四阈值的左邻居信息熵为第一标度值;计算所有含有第一标度值的拼接词的右邻居信息熵,若所述右邻居信息熵不超过第四阈值,则继续向右扩展计算下一右邻居信息熵;直至达到最右边界处或右邻居信息熵超过第四阈值,记该超过第四阈值的右邻居信息熵为第二标度值;取第一标度值、第二标度值中的较小者为对应拼接词的自由度。6.一种审计专业词库建立设备,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如权利要求1

5任一权利要求所述的一种建立审计专业词库的方法。

技术总结
本发明涉及一种建立审计专业词库的方法,包括如下步骤:获取审计相关文档;对所述审计相关文档进行预处理;根据非审计专业词库,对预处理后的审计相关文档进行分词并去除停用词,得到若干个独立词;通过2


技术研发人员:王秋琳 郑略省 吕世雷 张萍 庄莉 梁懿
受保护的技术使用者:国网信息通信产业集团有限公司 国网信通亿力科技有限责任公司
技术研发日:2021.07.14
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜