一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

适用于生命科学的文本识别方法和系统与流程

2022-02-22 04:51:30 来源:中国专利 TAG:

技术特征:
1.一种适用于生命科学的文本识别方法,其特征在于,包括:步骤1:在生命科学文献数据库中,使用bert预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;步骤2:对识别出的段落进行预处理,得到待识别文本;步骤3:通过word2vec模型,对待识别文本中的每个词进行向量表示;步骤4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;步骤5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。2.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,将文献数据库中已标识的生命科学内容段落作为训练集,对预训练模型进行文本分类微调,并通过微调后的模型对未标识的生命科学内容进行段落识别。3.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,通过自然语言处理工具包nltk和生命科学词表,对识别出的段落进行分句、分词和去停用词,并对分词结果进行聚合、去重和表述统一的替换。4.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,将预处理后的文本以句为单位输入预设词向量模型,得到文本内所有词的相关词向量,再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量,得到降维后的相应词向量,而后通过计算句中已降维词向量的平均值,得到相应的句向量。5.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,通过余弦相似度比对已知文本名称和相关段落文本中的句子,得到相似度最高的文本,并通过设置阈值的方式过滤不符合预设要求的文本。6.一种适用于生命科学的文本识别系统,其特征在于,包括:模块m1:在生命科学文献数据库中,使用bert预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;模块m2:对识别出的段落进行预处理,得到待识别文本;模块m3:通过word2vec模型,对待识别文本中的每个词进行向量表示;模块m4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;模块m5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。7.根据权利要求6所述的适用于生命科学的文本识别系统,其特征在于,将文献数据库中已标识的生命科学内容段落作为训练集,对预训练模型进行文本分类微调,并通过微调后的模型对未标识的生命科学内容进行段落识别。8.根据权利要求6所述的适用于生命科学的文本识别系统,其特征在于,通过自然语言处理工具包nltk和生命科学词表,对识别出的段落进行分句、分词和去停用词,并对分词结果进行聚合、去重和表述统一的替换。9.根据权利要求6所述的适用于生命科学的文本识别系统,其特征在于,将预处理后的文本以句为单位输入预设词向量模型,得到文本内所有词的相关词向量,再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量,得到降维后的相应词向量,
而后通过计算句中已降维词向量的平均值,得到相应的句向量。10.根据权利要求6所述的适用于生命科学的文本识别系统,其特征在于,通过余弦相似度比对已知文本名称和相关段落文本中的句子,得到相似度最高的文本,并通过设置阈值的方式过滤不符合预设要求的文本。

技术总结
本发明提供了一种适用于生命科学的文本识别方法和系统,包括:步骤1:在生命科学文献数据库中,使用BERT预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;步骤2:对识别出的段落进行预处理,得到待识别文本;步骤3:通过Word2vec模型,对待识别文本中的每个词进行向量表示;步骤4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;步骤5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。本发明解决了通过人工识别实验方法中所存在的查找困难、工作量大、成本高、效率低的问题。效率低的问题。效率低的问题。


技术研发人员:谢伟
受保护的技术使用者:迪普佰奥生物科技(上海)股份有限公司
技术研发日:2021.10.26
技术公布日:2022/1/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献