文本识别方法、装置、设备及存储介质与流程

2022-06-02 08:08:12 来源：中国专利 TAG：

技术特征：
1.一种文本识别方法，其特征在于，所述方法包括：获取待识别的文本；通过识别模型对所述文本进行识别，得到所述文本的识别结果，所述识别结果用于标识所述文本是否为汇编文本，其中，所述识别模型包括深度模型和宽度模型，所述识别模型用于通过如下方式对所述文本进行识别：基于所述文本确定目标特征，所述目标特征包括所述文本对应的向量特征、字数特征、标题与正文的相关度特征和话题离散度特征；将所述目标特征中的所述向量特征输入所述深度模型，得到第一识别结果，并将所述目标特征中的所述向量特征或所述目标特征包括的所述字数特征、所述标题与正文的相关度特征和所述话题离散度特征输入所述宽度模型，得到第二识别结果；将所述第一识别结果和所述第二识别结果进行加权合并，得到所述文本的识别结果。2.根据权利要求1所述的方法，其特征在于，所述识别模型的训练过程包括多次训练过程，每次训练过程用于执行如下操作：从业务系统抽取文本样本，并将与预设匹配规则匹配的文本样本标记为正样本，将与所述预设匹配规则不匹配的文本样本标记为负样本；根据所述正样本和所述负样本训练所述识别模型，并基于所述识别模型针对所述正样本和所述负样本输出的预测识别结果，更新所述预设匹配规则，直到达到预设的训练停止条件，其中，更新的所述预设匹配规则被用于在下次迭代训练过程中确定正样本和负样本。3.根据权利要求2所述的方法，其特征在于，所述识别模型输出的预测识别结果用于表征所述文本样本为汇编文本样本的概率，所述基于所述识别模型针对所述正样本和所述负样本输出的预测识别结果，更新所述预设匹配规则，包括：基于所述识别模型针对所述正样本和所述负样本输出的预测识别结果对应的概率，将所述文本样本进行排序，并选取满足预设排序位置的目标文本样本；根据所述目标文本样本，更新所述预设匹配规则。4.根据权利要求3所述的方法，其特征在于，在将与预设匹配规则匹配的文本样本标记为正样本，将与所述预设匹配规则不匹配的文本样本标记为负样本后，所述方法还包括：获取对所述目标文本样本的样本类型的人工识别结果，并在所述目标文本样本中确定所述人工识别结果和所述预测识别结果不同的误标文本样本，其中，所述样本类型为负样本类型或正样本类型；基于所述误标文本样本，生成目标匹配规则；基于所述目标匹配规则在所述文本样本中进行匹配，得到匹配文本，并基于所述误标文本样本的样本类型，修改对所述匹配文本标记的样本类型。5.根据权利要求2-4任一项所述的方法，其特征在于，在将与预设匹配规则匹配的文本样本标记为正样本后，所述方法还包括：基于所述正样本的标题和正文，在所述正样本中筛选目标正样本，并确定对所述目标正样本的样本类型的人工识别结果；若所述目标正样本标记的样本类型与所述目标正样本对应的所述人工识别结果不一致，则将所述目标正样本标记为负样本。6.根据权利要求2-4任一项所述的方法，其特征在于，所述从业务系统抽取文本样本，
包括：基于所述预设匹配规则对所述业务系统在预设时间段内的文本样本进行匹配，得到候选文本样本，并确定所述候选文本样本的发布用户；从所述业务系统中抽取所述发布用户发布的所有文本样本。7.根据权利要求1-4任一项所述的方法，其特征在于，所述目标特征还包括所述文本对应的向量与预设词向量的相关度特征，其中，所述文本对应的向量包括文本对应的字向量、词向量和句向量中的任一者，所述预设词向量为用于表征预设文本类型的关键词对应的向量。8.一种文本识别装置，其特征在于，包括：获取模块，用于获取待识别的文本；识别模块，用于通过识别模型对所述文本进行识别，得到所述文本的识别结果，所述识别结果用于标识所述文本是否为汇编文本，其中，所述识别模型包括深度模型和宽度模型，所述识别模型用于通过如下方式对所述文本进行识别：基于所述文本确定目标特征，所述目标特征包括所述文本对应的向量特征、字数特征、标题与正文的相关度特征和话题离散度特征；将所述目标特征中的所述向量特征输入所述深度模型，得到第一识别结果，并将所述目标特征中的所述向量特征或所述目标特征包括的所述字数特征、所述标题与正文的相关度特征和所述话题离散度特征输入所述宽度模型，得到第二识别结果；将所述第一识别结果和所述第二识别结果进行加权合并，得到所述文本的识别结果。9.一种电子设备，其特征在于，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。10.一种非临时性计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。

技术总结
本公开涉及一种文本识别方法、装置、设备及存储介质，该方法包括：获取待识别的文本；通过识别模型对文本进行识别，得到文本的识别结果，识别结果用于标识文本是否为汇编文本，其中，识别模型包括深度模型和宽度模型，识别模型用于通过如下方式对文本进行识别：基于文本确定目标特征，目标特征包括文本对应的向量特征、字数特征、标题与正文的相关度特征和话题离散度特征；将目标特征中的向量特征输入深度模型，得到第一识别结果，并将目标特征中的向量特征或目标特征包括的字数特征、标题与正文的相关度特征和话题离散度特征输入宽度模型，得到第二识别结果；将第一识别结果和第二识别结果进行加权合并，得到文本的识别结果。得到文本的识别结果。得到文本的识别结果。

技术研发人员：李轩增
受保护的技术使用者：北京字节跳动网络技术有限公司
技术研发日：2022.03.01
技术公布日：2022/6/1

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于SAAS系统的金融安全支付的平台系统的制作方法

文本识别方法、装置、设备及存储介质与流程

相关文献

最热文献