一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于机器学习的数据标签推荐方法与流程

2021-11-03 12:56:00 来源:中国专利 TAG:

技术特征:
1.一种基于机器学习的数据标签推荐方法,其特征在于,包括如下步骤:s1,接收待预测数据;s2,对待预测数据进行预处理,预处理包括中文分词、关键词提取、词向量转换;s3,计算待预测数据与每种标签对应数据之间的相似度得分,s3具体包括:s31,计算待预测数据与同一标签的多个对应数据之间的相似度值,以及计算待预测数据的关键词与该标签的关键词之间的相似度值;s32,将步骤s31中得到的相似度值,进行均值归一化,并构成一个凸线性组合;s33,重复步骤s31和s32,计算得到待预测数据与不同标签之间的凸线性组合;s34,计算待预测数据与每种标签之间的凸组合值,得到待预测数据与每种标签之间最终的相似度得分;s4,将相似度得分最高的标签进行推荐。2.根据权利要求1所述的一种基于机器学习的数据标签推荐方法,其特征在于,在步骤s2中的中文分词与关键词提取之间,还包括如下步骤:s21,采用ner将特殊词项筛选出来并替换掉;所述特殊词项包括人名,地名,组织机构名;s22,对同义词做一致性处理,替换为统一的词;s23,对文本中所有表征文本含义的词项进行词性分析。3.根据权利要求1所述的一种基于机器学习的数据标签推荐方法,其特征在于,所述关键词提取具体指:先对待预测数据的文本内容采用jieba分词,以剔除无用的停用词;再结合lda主题信息与词汇语义信息,提取初步关键词;最后对初步关键词分析语义信息,筛除其中的虚词,得到最终关键词。4.根据利要求1所述的一种基于机器学习的数据标签推荐方法,其特征在于,所述词向量转换具体指:先将提取到的关键词利用word2vec算法转换为词向量;然后利用tf

idf算法计算每一个关键词的tf

idf得分,根据得分的比例按照凸组合规则得到一组关键词凸组合系数;最后将词向量通过核函数进行维度扩展,得到最终的词向量。5.根据权利要求4所述的一种基于机器学习的数据标签推荐方法,其特征在于,所述步骤s31中:若待预测数据中的某类数据或关键词具有多个,则分别计算每个该类数据或每个关键词与同一标签之间的相似度值,并根据得到的多个相似度值及所述关键词凸组合系数计算得到凸线性组合值,以作为待预测数据中的该类数据或关键词与该标签之间的相似度值。6.根据权利要求4所述的一种基于机器学习的数据标签推荐方法,其特征在于,所述步骤s31中:若同一标签的某类数据或关键词具有多个,则分别计算待预测数据中对应类型的一个数据与该标签的多个数据或关键词之间的相似度值,并根据得到的多个相似度值及所述关键词凸组合系数计算得到凸线性组合值,以作为待预测数据中该类型的一个数据与该标签之间的相似度值。7.根据权利要求1所述的一种基于机器学习的数据标签推荐方法,其特征在于,所述步骤s31中的相似度值具体为组合多项数据的类平均余弦相似度,或根据公共子串和字符前后缀计算得到的编辑距离相似度。8.根据权利要求7所述的一种基于机器学习的数据标签推荐方法,其特征在于,所述组
合多项数据的类平均余弦相似度具体指,计算待预测数据中关键词向量与标签对应的每一条数据向量之间夹角的余弦值,将所有的值相加后取平均,计算公式为:其中,li表示某个标签类别,d表示待预测数据,similarity(dk, d)表示待预测数据与某个标签类别下某一条数据的余弦相似度,m表示标签类别li包含的数据量;其中,a
i
和b
i
分别代表向量a和b的各分量。9.根据权利要求5所述的一种基于机器学习的数据标签推荐方法,其特征在于,所述编辑距离相似度的计算公式为:其中,s和t分别为两个字符串,lm是s串的长度,lcs是两个字符串的最长公共子串长度,ld是通过编辑距离levenshtein算法得到的ld矩阵计算出的ld距离,δ是矩阵ld从左上角开始的对角线上的元素中值第1次发生改变的元素行下标,此下标之前的元素即两字符串的公共前缀。10.根据权利要求1所述的一种基于机器学习的数据标签推荐方法,其特征在于,所述步骤s4具体为:若最高的相似度得分高于设定的阈值,则将该相似度得分最高的标签进行推荐。

技术总结
一种基于机器学习的数据标签推荐方法,属于信息识别技术领域。本发明包括如下步骤:S1,接收待预测数据;S2,对待预测数据进行预处理,预处理包括中文分词、关键词提取、词向量转换;S3,计算待预测数据与每种标签对应数据之间的相似度得分;S4,将相似度得分最高的标签进行推荐。本发明能够高效地为数据推荐准确的标签。签。签。


技术研发人员:张黎 孟婷婷 苏伟华 谢委员
受保护的技术使用者:闪捷信息科技有限公司
技术研发日:2021.08.10
技术公布日:2021/11/2
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献