一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法及装置与流程

2022-07-31 06:17:43 来源:中国专利 TAG:

技术特征:
1.一种数据处理方法,其特征在于,所述方法包括:获取多个意图分类分别对应的意图标签,以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签;对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括所述意图分类对应的意图标签的文本,根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇,预测与所述意图分类对应的意图标签的语义相关的第一词汇,根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词;对于多个文本中的任意一个文本,对于所述文本中的任意一个词汇,根据包括所述文本中的除所述词汇以外的词汇,预测与所述词汇的语义相关的第二词汇,根据分别与所述文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取所述文本体现的意图分类。2.根据权利要求1所述的方法,其特征在于,所述获取多个意图分类分别对应的意图标签,包括:获取多个意图分类涉及的目标场景相关的多个场景词汇;对于多个意图分类中的任意一个意图分类,在标注所述意图分类的关键词为一个的情况下,在多个场景词汇中筛选与标注所述意图分类的一个关键词之间的语义相似度大于预设相似度的至少一个场景词汇;至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签;或者,在标注所述意图分类的关键词为至少两个的情况下,在多个场景词汇中筛选与标注所述意图分类的至少两个关键词之间的平均语义相似度大于预设相似度的至少一个场景词汇,至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签。3.根据权利要求1所述的方法,其特征在于,与所述意图分类对应的意图标签的语义相关的第一词汇为至少两个;所述根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词,包括:统计与所述意图分类对应的意图标签的语义相关的各个第一词汇分别在包括所述意图分类对应的意图标签的文本中的第一出现频次;在与所述意图分类对应的意图标签的语义相关的各个第一词汇中,按照第一出现频次由高至低的顺序选择至少一个第一词汇;根据选择的至少一个第一词汇获取所述意图分类对应的候选词。4.根据权利要求3所述的方法,其特征在于,所述根据选择的至少一个第一词汇获取所述意图分类对应的候选词,包括:在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇;根据选择的至少一个第一词汇中的剩余的第一词汇,获取所述意图分类对应的候选词。5.根据权利要求4所述的方法,其特征在于,所述在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇,包括:
对于选择的至少一个第一词汇中的任意一个第一词汇,获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性;在所述显著性小于预设显著性的情况下,在选择的至少一个第一词汇中剔除所述第一词汇。6.根据权利要求5所述的方法,其特征在于,所述获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性,包括:统计所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次;根据第一出现频次以及第二出现频次计算所述显著性。7.根据权利要求6所述的方法,其特征在于,所述根据第一出现频次以及第二出现频次计算所述显著性,包括:根据第一出现频次以及第二出现频次,计算所述第一词汇分别在包括每一个意图分类对应的意图标签的文本中的出现频次之间的期望,以及,计算所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次之间的方差;根据所述期望、所述方差以及第一出现频次计算所述显著性。8.根据权利要求7所述的方法,其特征在于,所述根据所述期望、所述方差以及第一出现频次计算所述显著性,包括:计算第一出现频次与所述期望之间的差值;计算所述差值与所述方差之间的比值;根据所述比值获取所述显著性。9.根据权利要求1所述的方法,其特征在于,所述根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇,预测与所述意图分类对应的意图标签的语义相关的第一词汇,包括:确定所述意图分类所涉及的目标场景;在适用于不同的场景的预测模型中,获取适用于目标场景的预测模型;将包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇输入适用于目标场景的预测模型中,以使适用于目标场景的预测模型对包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇处理,得到与所述意图分类对应的意图标签的语义相关的第一词汇。10.根据权利要求9所述的方法,其特征在于,适用于目标场景的预测模型是根据在目标场景中生成的文本对初始的预测模型优化后得到的,初始的预测模型是根据在各个场景中生成的文本训练得到的。11.根据权利要求1所述的方法,其特征在于,所述根据分别与所述文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取所述文本体现的意图分类,包括:确定各个意图分类分别对应的候选词分别与第二词汇之间的相同的词汇的数量;根据对应的候选词与第二词汇之间的相同的词汇的数量大于预设数量的意图分类,获取所述文本体现的意图分类。
12.一种数据处理装置,其特征在于,所述装置包括:第一获取模块,用于获取多个意图分类分别对应的意图标签,以及,第二获取模块,用于获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签;筛选模块,用于对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括所述意图分类对应的意图标签的文本,第一预测模块,用于根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇,预测与所述意图分类对应的意图标签的语义相关的第一词汇,第三获取模块,用于根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词;第二预测模块,用于对于多个文本中的任意一个文本,对于所述文本中的任意一个词汇,根据包括所述文本中的除所述词汇以外的词汇,预测与所述词汇的语义相关的第二词汇,第四获取模块,用于根据分别与所述文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取所述文本体现的意图分类。13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时实现如权利要求1至11中任一项的方法的步骤。14.一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如权利要求1至11中任一项的方法的步骤。

技术总结
本申请提供了一种数据处理方法及装置。根据包括一个意图分类对应的意图标签的文本中的词汇之间的语义关系以及上下文关系,可以准确得到与该意图分类对应的意图标签的语义相关的第一词汇,从而得到该意图分类对应的候选词。之后若要得到一个文本的意图分类,可以根据这个文本中的词汇之间的语义关系或上下文关系及各个意图分类分别对应的候选词获取这个文本体现的意图分类。可见,可以自动化地得到文本体现的意图分类,可以没有人工参与,由于借助的是文本中的词汇之间的语义关系或上下文关系以及各个意图分类分别对应的候选词来得到文本体现的意图分类,如此可以提高得到的文本体现的意图分类的效率以及准确率等,以及,可以降低人工成本等。可以降低人工成本等。可以降低人工成本等。


技术研发人员:李国荣 马腾岳 陈粮阳 陈起进 徐晓舟 任卫军 黄薛蕾
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:2022.04.02
技术公布日:2022/7/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献