错别字识别方法、装置、设备及可读存储介质与流程

2021-11-26 21:31:00 来源：中国专利 TAG：

技术特征：
1.一种错别字识别方法，其特征在于，包括：获取针对已发布的媒体内容的目标评论数据；根据所述目标评论数据包含的各个词语的上下文信息，提取所述目标评论数据对应的目标文本特征；基于所述目标文本特征，确定所述目标评论数据中包含有针对错别字的目标评论内容；基于所述目标评论内容，确定所述媒体内容中的错别字信息。2.如权利要求1所述的方法，其特征在于，所述根据所述目标评论数据包含的各个词的上下文信息，提取所述目标评论数据的目标文本特征，包括：将所述目标评论数据输入已训练的评论数据分类模型；基于所述评论数据分类模型中的语言学习子模型，对所述目标评论数据包含的各个词语的上下文信息进行特征提取，获得所述目标评论数据对应的目标文本特征；其中，所述语言学习子模型是将历史评论数据作为训练样本，基于所述训练样本包含的各个词语的上下文信息，对所述语言学习子模型进行特征学习的训练得到的。3.如权利要求2所述的方法，其特征在于，所述评论数据分类模型还包括预测子模型，基于所述目标文本特征，确定所述目标评论数据中包含有针对错别字的目标评论内容，包括：将所述目标文本特征输入所述预测子模型；基于所述预测子模型已学习的第一关联度，预测所述目标文本特征与目标数据识别结果之间的第二关联度，所述第一关联度是基于历史评论数据对应的历史文本特征和所述目标数据识别结果之间的关联程度确定的，所述目标数据识别结果用于表征文本数据中包含有针对错别字的评论内容；若所述第二关联度大于关联度阈值，则确定所述目标评论数据中包含所述目标评论内容。4.如权利要求2所述的方法，其特征在于，所述语言学习子模型是通过下列方式训练得到的：基于历史评论数据集合，对所述语言学习子模型进行训练操作，一次训练操作包括：针对从所述历史评论数据集合获得的各个历史评论数据，分别执行文本预测操作，确定所述各个历史评论数据各自对应的预测偏差；并基于各个历史评论数据各自对应的预测偏差，对所述语言学习子模型进行参数调整；其中，所述文本预测操作包括：按照所述各个历史评论数据中一个历史评论数据的语言形式关联的分词规则，对所述一个历史评论数据进行分词处理，获得所述一个历史评论数据包含的至少一个词语；基于预设词语掩膜，屏蔽所述至少一个词语中的部分词语；以及确定所述部分词语在所述一个历史评论数据中的上下文信息，并从预配置的候选词库中，选取出与确定的上下文信息之间的匹配度满足匹配度条件的候选词语，所述候选词库基于所述历史评论数据集合确定；将所述部分词语和选取出的候选词语之间的偏差信息，确定为所述一个历史评论数据对应的预测偏差。
5.如权利要求1
‑
4任一项所述的方法，其特征在于，所述基于所述目标评论内容，确定所述媒体内容中的错别字信息，包括：基于用于识别所述错别字信息的预配置的正则表达式，对所述目标评论内容进行解析，获得相应的解析结果；基于所述解析结果，确定所述目标评论内容关联的至少一个错别字，和所述至少一个错别字在所述媒体内容中的文本位置信息；将所述至少一个错误字和所述文本位置信息，确定为所述媒体内容中的错别字信息。6.如权利要求5所述的方法，其特征在于，所述方法进一步包括：若基于所述解析结果未获得所述错别字信息，则基于预配置的错别字检测规则，对所述媒体内容进行错别字检测，获得检测结果；根据所述检测结果，确定所述媒体内容中是否包含对应的错别字信息。7.如权利要求1
‑
4任一项所述的方法，其特征在于，所述基于所述目标评论内容，确定所述媒体内容中的错别字信息，包括：获取发布所述目标评论数据的目标账户的账户信息；基于所述账户信息，确定所述目标评论数据的置信度；确定所述置信度达到置信度阈值时，基于所述目标评论内容，确定所述媒体内容中的错别字信息。8.一种错别字识别装置，其特征在于，包括：数据获取单元，用于获取针对已发布的媒体内容的目标评论数据；特征提取单元，用于根据所述目标评论数据包含的各个词语的上下文信息，提取所述目标评论数据对应的目标文本特征；第一识别单元，用于基于所述目标文本特征，确定所述目标评论数据中包含有针对错别字的目标评论内容；第二识别单元，用于基于所述目标评论内容，确定所述媒体内容中的错别字信息。9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1
‑
7中任一权利要求所述方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1
‑
7中任一项所述的方法。

技术总结
本申请提供一种错别字识别方法、装置、设备及可读存储介质，涉及计人工智能技术领域，以提升识别媒体内容中的错别字的准确度。该方法包括：获取针对已发布的媒体内容的目标评论数据，根据所述目标评论数据包含的各个词语的上下文信息，提取所述目标评论数据对应的目标文本特征，基于所述目标文本特征，确定所述目标评论数据中包含有针对错别字的目标评论内容，基于所述目标评论内容，确定所述媒体内容中的错别字信息。该方法中能够识别出历史媒体内容中未出现过的错别字或特殊词，进而提升识别媒体内容中的错别字的准确度，且在识别错别字的过程中，不需要对整个媒体内容进行检测，提升了识别媒体内容中的错别字的效率。提升了识别媒体内容中的错别字的效率。提升了识别媒体内容中的错别字的效率。

技术研发人员：王晨琛
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.03.01
技术公布日：2021/11/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种机器翻译模型性能检测方法、以及相关设备与流程

错别字识别方法、装置、设备及可读存储介质与流程

相关文献

最热文献