一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

词语挖掘方法、装置、电子设备和可读存储介质与流程

2021-12-18 02:03:00 来源:中国专利 TAG:

技术特征:
1.一种词语挖掘方法,包括:获取搜索数据;将所述搜索数据中的第一标识信息、搜索语句与第二标识信息作为节点,将第一标识信息与搜索语句之间的关系、第一标识信息与第二标识信息之间的关系以及搜索语句与第二标识信息之间的关系作为边,构建行为图谱;根据所述行为图谱中具有预设标签的搜索语句,得到所述行为图谱中每个搜索语句的标签向量;根据所述标签向量,确定所述行为图谱中的目标搜索语句;从所述目标搜索语句中提取目标词,将所述目标词作为所述搜索数据的词语挖掘结果。2.根据权利要求1所述的方法,其中,所述将所述搜索数据中的第一标识信息、搜索语句与第二标识信息作为节点,将第一标识信息与搜索语句之间的关系、第一标识信息与第二标识信息之间的关系以及搜索语句与第二标识信息之间的关系作为边,构建行为图谱包括:获取已知目标词;将所述已知目标词、第一标识信息、搜索语句与第二标识信息作为节点;将第一标识信息与搜索语句之间的关系、第一标识信息与第二标识信息之间的关系、搜索语句与第二标识信息之间的关系以及搜索语句与已知目标词之间的关系作为边,构建行为图谱。3.根据权利要求1所述的方法,其中,所述根据所述行为图谱中具有预设标签的搜索语句,得到所述行为图谱中每个搜索语句的标签向量包括:根据所述行为图谱中预设的节点之间的关系,确定每个搜索语句的相邻搜索语句;根据所述相邻搜索语句的预设标签,得到每个搜索语句的标签向量。4.根据权利要求3所述的方法,其中,所述根据所述行为图谱中预设的节点之间的关系,确定每个搜索语句的相邻搜索语句包括:针对每个搜索语句,将与当前搜索语句具有同一个第一标识信息和/或同一个第二标识信息的搜索语句,作为当前搜索语句的相邻搜索语句。5.根据权利要求3所述的方法,其中,所述根据所述相邻搜索语句的敏感标签,得到每个搜索语句的标签向量包括:针对每个搜索语句,根据相邻搜索语句的数量与不同的预设标签的出现次数,得到每个搜索语句属于不同的预设标签的概率信息,作为每个搜索语句的标签向量;根据搜索语句中验证样本的标签向量与标注结果计算损失值;在确定计算得到的损失值不满足预设条件的情况下,将每个搜索语句的标签向量中最大概率值对应的预设标签作为每个搜索语句的预设标签之后,转至执行根据相邻搜索语句的数量与不同的预设标签的出现次数,得到每个搜索语句属于不同的预设标签的概率信息,作为每个搜索语句的标签向量的步骤,直至计算得到的损失值满足预设条件为止。6.根据权利要求1所述的方法,其中,所述根据所述标签向量,确定所述行为图谱中的目标搜索语句包括:针对每个搜索语句,将当前搜索语句的标签向量中最大概率值对应的预设标签,作为
当前搜索语句的标注标签;获取所述标注标签的标签阈值;在确定最大概率值大于所述标签阈值的情况下,将当前搜索语句作为目标搜索语句。7.根据权利要求1所述的方法,还包括,在从所述目标搜索语句中提取目标词之后,根据所述目标词得到第一样本集与第二样本集;计算所述第一样本集与第二样本集之间的匹配度;在确定所述匹配度满足预设条件的情况下,将所述目标词作为所述搜索数据的词语挖掘结果。8.一种词语挖掘装置,包括:获取单元,用于获取搜索数据;构建单元,用于将所述搜索数据中的第一标识信息、搜索语句与第二标识信息作为节点,将第一标识信息与搜索语句之间的关系、第一标识信息与第二标识信息之间的关系以及搜索语句与第二标识信息之间的关系作为边,构建行为图谱;处理单元,用于根据所述行为图谱中具有预设标签的搜索语句,得到所述行为图谱中每个搜索语句的标签向量;确定单元,用于根据所述标签向量,确定所述行为图谱中的目标搜索语句;挖掘单元,用于从所述目标搜索语句中提取目标词,将所述目标词作为所述搜索数据的词语挖掘结果。9.根据权利要求8所述的装置,其中,所述构建单元在将所述搜索数据中的第一标识信息、搜索语句与第二标识信息作为节点,将第一标识信息与搜索语句之间的关系、第一标识信息与第二标识信息之间的关系以及搜索语句与第二标识信息之间的关系作为边,构建行为图谱时,具体执行:获取已知目标词;将所述已知目标词、第一标识信息、搜索语句与第二标识信息作为节点;将第一标识信息与搜索语句之间的关系、第一标识信息与第二标识信息之间的关系、搜索语句与第二标识信息之间的关系以及搜索语句与已知目标词之间的关系作为边,构建行为图谱。10.根据权利要求8所述的装置,其中,所述处理单元在根据所述行为图谱中具有预设标签的搜索语句,得到所述行为图谱中每个搜索语句的标签向量时,具体执行:根据所述行为图谱中预设的节点之间的关系,确定每个搜索语句的相邻搜索语句;根据所述相邻搜索语句的预设标签,得到每个搜索语句的标签向量。11.根据权利要求10所述的装置,其中,所述处理单元在根据所述行为图谱中预设的节点之间的关系,确定每个搜索语句的相邻搜索语句时,具体执行:针对每个搜索语句,将与当前搜索语句具有同一个第一标识信息和/或同一个第二标识信息的搜索语句,作为当前搜索语句的相邻搜索语句。12.根据权利要求10所述的装置,其中,所述处理单元在根据所述相邻搜索语句的预设标签,得到每个搜索语句的标签向量时,具体执行:针对每个搜索语句,根据相邻搜索语句的数量与不同的预设标签的出现次数,得到每
个搜索语句属于不同的预设标签的概率信息,作为每个搜索语句的标签向量;根据搜索语句中验证样本的标签向量与标注结果计算损失值;在确定计算得到的损失值不满足预设条件的情况下,将每个搜索语句的标签向量中最大概率值对应的预设标签作为每个搜索语句的预设标签之后,转至执行根据相邻搜索语句的数量与不同的预设标签的出现次数,得到每个搜索语句属于不同的预设标签的概率信息,作为每个搜索语句的标签向量的步骤,直至计算得到的损失值满足预设条件为止。13.根据权利要求8所述的装置,其中,所述确定单元在根据所述标签向量,确定所述行为图谱中的目标搜索语句时,具体执行:针对每个搜索语句,将当前搜索语句的标签向量中最大概率值对应的预设标签,作为当前搜索语句的标注标签;获取所述标注标签的标签阈值;在确定最大概率值大于所述标签阈值的情况下,将当前搜索语句作为目标搜索语句。14.根据权利要求8所述的装置,还包括评估单元,用于执行,在所述挖掘单元从所述目标搜索语句中提取目标词之后,根据所述目标词得到第一样本集与第二样本集;计算所述第一样本集与第二样本集之间的匹配度;在确定所述匹配度满足预设条件的情况下,将所述目标词作为所述搜索数据的词语挖掘结果。15.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1

7中任一项所述的方法。16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1

7中任一项所述的方法。17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1

7中任一项所述的方法。

技术总结
本公开提供了一种词语挖掘方法、装置、电子设备和可读存储介质,涉及自然语言处理、深度学习、云服务等人工智能技术领域。词语挖掘方法包括:获取搜索数据;将所述搜索数据中的第一标识信息、搜索语句与第二标识信息作为节点,将第一标识信息与搜索语句之间的关系、第一标识信息与第二标识信息之间的关系以及搜索语句与第二标识信息之间的关系作为边,构建行为图谱;根据所述行为图谱中具有预设标签的搜索语句,得到所述行为图谱中每个搜索语句的标签向量;根据所述标签向量,确定所述行为图谱中的目标搜索语句;从所述目标搜索语句中提取目标词,将所述目标词作为所述搜索数据的词语挖掘结果。本公开能够提升词语挖掘的准确性与效率。与效率。与效率。


技术研发人员:张阳 杨双全 韩磊 周科科 谢奕 周炜 陈珺仪 史东建 白桂华 李轩
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.08.12
技术公布日:2021/12/17
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献