一种关键词筛选方法、设备和存储介质与流程

2023-03-29 02:01:33 来源：中国专利 TAG：

1.本技术涉及信息处理技术领域，更具体地说，它涉及一种关键词筛选方法、设备和计算机可读存储介质。

背景技术：

2.随着企业之间的竞争越来越激烈，企业在经营过程中时常需要与同行进行对比，来找到与同行的差距和不同，以便准确地部署经营策略或者及时调整经营方向。
3.随着大数据的发展，目前可以通过人工智能来识别企业的同行，在人工智能筛选企业的同行之前，通常需要先了解该企业的主营信息(包括核心产品信息或者核心服务信息)，才能更精准的找到该企业的同行。那么，如何从与企业相关的多种信息中提取真实有效的主营信息成为亟待解决的问题。而该问题的关键在于如何更精确的找出该企业的主营信息的关键词。

技术实现要素：

4.为了至少解决上述技术问题，本技术提供一种关键词筛选方法，其可以更精确的找出该企业的主营信息的关键词，从而更精准的找到该企业的同行，进而为企业提供更有用的信息。
5.第一方面，本技术提供一种关键词筛选方法，所述关键词用于反应营业主体的主营业务，所述关键词的筛选范围为从数据源中提取的多个准关键词，所述准关键词与所述营业主体相关，所述数据源中包括所述营业主体的经营信息，所述准关键词与所述经营信息相关，所述关键词筛选方法包括以下步骤：获取每个准关键词的特征信息；对所述每个准关键词的特征信息进行归一化处理；根据归一化处理后的所述特征信息构建模型；通过所述模型从所述多个准关键词中选出至少一个关键词。
6.通过采用上述技术方案，可以通过模型从多个准关键词中选取核心的关键词，从而使关键词更准确地反应营业主体的特征，进而可以更精准的找到该营业主体的同行。
7.可选的，所述特征信息包括相似信息、连边关系信息以及通用信息中的至少一种。
8.通过采用上述技术方案，可以根据各个准关键词的各种特征信息来筛选关键词，从而使关键词更加客观和准确。
9.可选的，所述相似信息包括准关键词间相似度和相似词频权重中的至少一种。
10.通过采用上述技术方案，可以选出高频出现的相似度高的关键词。
11.可选的，所述连边关系信息包括上下位匹配数、前后缀匹配数、领域词匹配数、模糊匹配字段数、总字段数、字段内准关键词数、字段间准关键词数、全字段准关键词数以及官网互信中的至少一种。
12.通过采用上述技术方案，可以根据准关键词的连边关系来选择关键词。
13.可选的，所述通用信息包括：完全匹配字段数、黑名单虚词、主营句式词、名称互信、词频数、全局词频以及词来源中的至少一种。
14.通过采用上述技术方案，可以根据与判断关键词相关的特征来选择关键词。
15.可选的，所述模型包括二分类模型。
16.可选的，所述通过模型从所述多个准关键词中选出至少一个关键词，包括：设置筛选阈值；根据所述模型针对多个准关键词输出的结果和所述筛选阈值选出至少一个关键词。
17.可选的，所述二分类模型为机器学习二分类模型。
18.通过采用上述技术方案，可以使机器学习更高效，迭代开发速度更快。
19.第二方面，本技术提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一方法的步骤。
20.第三方面，本技术提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。
21.综上所述，本技术可以从与营业主体相关的多种信息中提取真实有效的核心主营信息，从而更精确的找到营业主体的同行,进而使营业主体可以获取更加准确的商业信息，利用营业主体的经营。
附图说明
22.图1示出了本技术其中一实施例的关键词筛选方法的流程图；以及图2示出了本技术其中一实施例的从数据源中提取准关键词的方法的流程图。
具体实施方式
23.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图1-附图2及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
24.图1示出了本技术其中一实施例的关键词筛选方法的流程图。如图1所示，本技术提供一种关键词筛选方法，其中该关键词用于反应营业主体(企业、事业单位、个体工商户等)的特征(主要指主营业务)，该关键词主要为营业主体的主营业务相关的词，例如主营产品名称、主营服务名称等。该关键词筛选方法可以包括步骤s101-s105。在步骤s101处，从数据源提取与上述营业主体相关的准关键词，其中数据源可以是营业主体的官网、百度、顺企网等网站，数据源中可以包括上述营业主体的经营信息，该经营信息例如可以是经营范围、服务内容等信息。其中上述准关键词与该经营信息相关，该准关键词可以是主营产品名称、主营服务名称等，例如工业机器人、机器人生产线系统的设计、开发、集成等。在一个实施方式中，从数据源中提取准关键词的方法可以包括s201-s205。
25.图2示出了本技术其中一实施例的从数据源中提取准关键词的方法的流程图，如图2所示，在步骤s201处，从数据源获取企业信息文本，并采用预处理方法处理企业文本信息，以获取符合预设格式的模型输入语句。其中，企业信息是指和该企业的注册和经营有关的信息，一般包括：企业名称，企业所在地，法人代表，注册资本，经营范围，经营资质，员工人数，企业网址、联系方式以及企业披露在公开渠道的经营内容介绍等。企业信息文本即是基于前述信息形成的文本信息。在一个实施方式中，企业信息文本用于输入并训练深度学习模型，符合预设格式的语句利于快速有效的完成模型训练。预设格式的限定包括对于企
业信息文本中的中文分词、词形还原和词干抽取、词性标注、去除停用词以及向量空间表示的格式进行设置。进一步地，为了实现语句符合预设格式所采用的方法也即为预处理方法，比如，用于过滤无效文本的bert(bidirectional encoder representations from transformers，基于转换器的双向编码表征)的文本分类模型，nlpir中文分词软件以及jieba分词等，此处不作具体限定。模型输入语句即为采用预处理方法处理企业文本信息后得到的、符合预设格式的语句。
26.如上所述，通过各种线上渠道获取的与某个企业相关的、夹杂错误和干扰信息的企业信息，各类存在较多句式错误或不包含任何标点符号的无序文本均可作为干扰句式通过预处理方法进行过滤。与干扰句式对应的句式还包括主营句式以及准关键词句式等，均可作为有效句式进行进一步优化，以形成高质量的模型输入语句。
27.在步骤s202处，通过标注模型输入语句训练基于深度学习的准关键词实体抽取模型。其中，在一个实施方式中，基于深度学习的准关键词实体抽取模型是用于从企业信息文本中抽取准关键词实体的模型，可通过对主流的若干个深度学习模型进行训练得到，主流的深度学习模型包括cnn(卷积神经网络，convolutional neural network)、rnn(递归神经网络，recursive neural network)、lstm(longshort term memory，长短期神经网络)、rntn(recursive neural tensor network，递归张量网络模型)、bert以及gan(generative adversarial networks，生成对抗网络)等，此处不作具体限定。本领域技术人员容易理解的是，标注模型输入语句实质上是将模型输入语句基于词性标注、词语分割算法以及实体识别算法等分成较小的单元的过程，其中，较小的单元为单个单词或术语，实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词以及准关键词等。
28.在步骤s203处，基于准关键词实体抽取模型，获取模型输入语句对应的预测准关键词实体，并清洗预测准关键词实体以获取有效准关键词实体。其中，预测准关键词实体是通过训练后的准关键词实体抽取模型对企业信息文本进行信息提取后得到的准关键词的集合。有效准关键词实体是将预测准关键词实体中不符合词义完整性、词义正确性等存在错误信息的预测准关键词实体进行过滤后得到的有效准关键词的集合。具体地，判定语义完整性可采用主流的语义消歧算法，比如基于词典的词义消歧、基于规则的词义消歧、有监督词义消歧以及无监督和半监督词义消歧等来实现。
29.上述实施例通过清洗预测准关键词实体获取有效准关键词实体，可有效减小错误准关键词对准关键词的干扰，提高最终获取准关键词的准确性；减少因处理无效准关键词实体所占用的时间以提高后续对于有效准关键词实体进行一步词语优化的优化效率，提升整体性能。
30.在步骤s204处，基于有效准关键词实体和有效准关键词实体对应的准关键词特征维度数据，训练至少两个词语分类模型，以获取融合的词语评分模型，并通过评分模型提取符合词语分数阈值的核心准关键词。其中，准关键词特征维度数据是通过对有效准关键词实体进行多维度特征挖掘，比如词语成分特征、词语关键度特征以及词语来源可信度特征等，并根据挖掘得到的多种特征进行特征构建，形成关于有效准关键词实体的多维度特征信息。词语分类模型包括lr((logistic regression，逻辑回归)分类器和svm(surport vector machines，支持向量机)以及随机森林等分类算法，此处不作具体限定。融合的词语评分模型是通过融合多个训练后的词语分类模型来对有效准关键词实体进行评分的模型。
max(最小-最大)归一化方式对上述特征信息进行归一化操作。即将上述特征信息带入公式：进行归一化计算。
36.在步骤s104处，根据归一化处理后的所述特征信息构建模型。在实际应用中，该模型可以是二分类模型，例如机器学习二分类模型或深度学习二分类模型。以机器学习二分类模型为例，可以是gbdt模型。gbdt模型具有预测精度高，适合低维度数据，能处理非线性数据，可以处理各种类型的数据等优点。所以在实操过程中通常采用该模型进行计算。在一个应用场景中，可以采用网格搜索算法对参数进行调优，其中网格搜索算法是一种通过遍历给定的参数组合，选择最优参数组合来优化模型表现的方法。上述每个准关键词的所有特征信息均作为一组数据样本，用来预测(筛选)关键词，将每个准关键词的所有特征信息的值带入gbdt模型，可以得到每个准关键词相应的概率值。本领域技术人员可以理解的是，为了提高筛选的准确度，该gbdt模型可以提前被训练样本训练。
37.在步骤s105处，通过所述模型从所述准关键词中选出至少一个关键词。在实际场景中，可以包括以下步骤：首先，设置筛选阈值。因为二分类模型最终输出的是一个0-1的概率值，即当前准关键词针对当前营业主体而言属于高分词(分数越高，被筛选为关键词的概率越高)的概率是多少。假设对于a公司而言有五个准关键词(机械手、工业机器人、自动化设备、智能机械手、智能化设备)，最终预测出来工业机器人为高分的概率为0.97，自动化设备为高分的概率为0.2，智能化设备为高分的概率为0.5，机械手为高分的概率为0.7，智能机械手为高分的概率为0.8。那么针对这家营业主体而言输出的准关键词顺序为工业机器人、智能机械手、机械手、智能化设备、自动化设备。此处可以设定一个筛选阈值0.7。接着，根据上述模型针对多个准关键词输出的结果和筛选阈值选出至少一个关键词。即大于0.7的词才算这家营业主体的关键词，即工业机器人、智能机械手和机械手为当前营业主体的关键词，智能化设备、自动化设备则可能为不相关词。
38.同时，本技术还公开一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的方法的步骤。
39.另外，本技术还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。
40.本具体实施例仅仅是对本技术的解释，其并不是对本技术的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本技术的权利要求范围内都受到专利法的保护。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种关键词筛选方法、设备和存储介质与流程

相关文献

最热文献