适用于生命科学的文本识别方法和系统与流程

2022-02-22 04:51:30 来源：中国专利 TAG：

技术特征：
1.一种适用于生命科学的文本识别方法，其特征在于，包括：步骤1：在生命科学文献数据库中，使用bert预训练法对所有文献进行语义化训练，得到一个生命科学领域的文献预训练模型，使用预训练模型在文献中识别出关于生命科学的段落；步骤2：对识别出的段落进行预处理，得到待识别文本；步骤3：通过word2vec模型，对待识别文本中的每个词进行向量表示；步骤4：对得到的词向量以句为单位进行加权平均和主成分分析，得到对应目标向量；步骤5：对目标向量化后的文本，通过余弦相似度进行比对，得到符合预设要求的文本。2.根据权利要求1所述的适用于生命科学的文本识别方法，其特征在于，将文献数据库中已标识的生命科学内容段落作为训练集，对预训练模型进行文本分类微调，并通过微调后的模型对未标识的生命科学内容进行段落识别。3.根据权利要求1所述的适用于生命科学的文本识别方法，其特征在于，通过自然语言处理工具包nltk和生命科学词表，对识别出的段落进行分句、分词和去停用词，并对分词结果进行聚合、去重和表述统一的替换。4.根据权利要求1所述的适用于生命科学的文本识别方法，其特征在于，将预处理后的文本以句为单位输入预设词向量模型，得到文本内所有词的相关词向量，再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量，得到降维后的相应词向量，而后通过计算句中已降维词向量的平均值，得到相应的句向量。5.根据权利要求1所述的适用于生命科学的文本识别方法，其特征在于，通过余弦相似度比对已知文本名称和相关段落文本中的句子，得到相似度最高的文本，并通过设置阈值的方式过滤不符合预设要求的文本。6.一种适用于生命科学的文本识别系统，其特征在于，包括：模块m1：在生命科学文献数据库中，使用bert预训练法对所有文献进行语义化训练，得到一个生命科学领域的文献预训练模型，使用预训练模型在文献中识别出关于生命科学的段落；模块m2：对识别出的段落进行预处理，得到待识别文本；模块m3：通过word2vec模型，对待识别文本中的每个词进行向量表示；模块m4：对得到的词向量以句为单位进行加权平均和主成分分析，得到对应目标向量；模块m5：对目标向量化后的文本，通过余弦相似度进行比对，得到符合预设要求的文本。7.根据权利要求6所述的适用于生命科学的文本识别系统，其特征在于，将文献数据库中已标识的生命科学内容段落作为训练集，对预训练模型进行文本分类微调，并通过微调后的模型对未标识的生命科学内容进行段落识别。8.根据权利要求6所述的适用于生命科学的文本识别系统，其特征在于，通过自然语言处理工具包nltk和生命科学词表，对识别出的段落进行分句、分词和去停用词，并对分词结果进行聚合、去重和表述统一的替换。9.根据权利要求6所述的适用于生命科学的文本识别系统，其特征在于，将预处理后的文本以句为单位输入预设词向量模型，得到文本内所有词的相关词向量，再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量，得到降维后的相应词向量，
而后通过计算句中已降维词向量的平均值，得到相应的句向量。10.根据权利要求6所述的适用于生命科学的文本识别系统，其特征在于，通过余弦相似度比对已知文本名称和相关段落文本中的句子，得到相似度最高的文本，并通过设置阈值的方式过滤不符合预设要求的文本。

技术总结
本发明提供了一种适用于生命科学的文本识别方法和系统，包括：步骤1：在生命科学文献数据库中，使用BERT预训练法对所有文献进行语义化训练，得到一个生命科学领域的文献预训练模型，使用预训练模型在文献中识别出关于生命科学的段落；步骤2：对识别出的段落进行预处理，得到待识别文本；步骤3：通过Word2vec模型，对待识别文本中的每个词进行向量表示；步骤4：对得到的词向量以句为单位进行加权平均和主成分分析，得到对应目标向量；步骤5：对目标向量化后的文本，通过余弦相似度进行比对，得到符合预设要求的文本。本发明解决了通过人工识别实验方法中所存在的查找困难、工作量大、成本高、效率低的问题。效率低的问题。效率低的问题。

技术研发人员：谢伟
受保护的技术使用者：迪普佰奥生物科技（上海）股份有限公司
技术研发日：2021.10.26
技术公布日：2022/1/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种预训练增强的代码克隆检测方法与流程

适用于生命科学的文本识别方法和系统与流程

相关文献

最热文献