智能销售信息推荐方法及系统与流程

2022-11-13 12:11:01 来源：中国专利 TAG：

1.本公开实施例涉及计算机技术领域，尤其涉及一种智能销售信息推荐方法及系统。

背景技术：

2.目前随着信息技术的发展，在面向企业客户的销售场景之下，在不需要人工过多干预前提下，自动挖掘当前企业客户的特征，据此寻找更多的潜在企业客户成为一种需求。
3.当前主流的解决方案是销售人员利用搜索引擎，根据个人的业务经验选择搜索关键词、搜索条件、筛选条件，对搜索返回的结果显示的企业，再查阅企业相关资料，根据业务经验判断潜在企业客户的可能性。这种方式耗时较多，且对潜在企业客户的预判准确率低下。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了智能销售信息推荐方法及系统。
5.第一方面，本公开实施例提供了一种智能销售信息推荐方法，包括：获取当前企业客户名单以及企业特征数据集；其中，所述企业特征数据集至少包括n个不同企业的特征数据，所述企业客户名单包含所述n个不同企业中的m个企业，m小于n；将所述n个不同企业的特征数据输入预测模型，以得到所述n个企业的第一分值；其中，所述预测模型是基于第一样本数据集对xgboost模型训练得到的，所述第一样本数据集包括第一训练集和第一验证集，所述第一训练集包括第一正样本和第一负样本，所述第一验证集包括第二正样本和第二负样本，所述第一正样本包含从所述m个企业的特征数据中随机抽取的指定数量的特征数据，所述第二正样本包含从所述m个企业的特征数据中抽取后剩余数量的特征数据，所述指定数量小于所述剩余数量，所述第一负样本和第二负样本均包含以预设百分比r从所述n个不同企业的特征数据中随机抽取的p个特征数据得到的随机负样本以及难分负样本；其中，r=p/n=1-a，a表示所述n个企业中能够成为潜在意向企业客户的比值；基于所述n个企业的第一分值，确定潜在的目标企业客户。
6.在一个实施例中，所述n个不同企业的特征数据包括企业画像特征数据和企业基本特征数据；在使用所述第一训练集对所述xgboost模型的训练过程中，使用所述第一验证集对所述xgboost模型的输出结果进行验证，同时观测模型评价指标是否满足预设条件，若否，则调节所述xgboost模型的超参数以及增加所述企业画像特征数据来重新训练。
7.在一个实施例中，该方法还包括：获取所述n个不同企业各自的企业介绍文本；将所述n个不同企业各自的企业介绍文本输入命名实体识别模型，以识别得到所
述n个不同企业对应的预设名词，所述预设名词包括至少一个业务名词和/或产品名词；其中，所述命名实体识别模型是基于样本企业介绍文本对bert模型预先训练得到的；计算所述n个不同企业对应的预设名词各自的第一逆向文件频率idf并形成第一idf字典，同时计算所述n个不同企业中每个企业对应的预设名词的第一词频tf并形成第一tf字典；基于所述第一idf字典、所述第一tf字典生成所述n个不同企业中每个企业对应的第一tf-idf以形成第一tf-idf字典；基于所述企业客户名单，从识别得到的所述n个不同企业的预设名词中选择确定所述m个企业对应的所有预设名词，计算所述m个企业对应的所有预设名词各自的第二词频tf并形成第二tf字典；基于所述第二tf字典、所述第一idf字典，生成所述m个企业对应的所有预设名词各自的第二tf-idf以形成第二tf-idf字典；基于所述第二tf-idf字典以及所述第一tf-idf字典，对所述n个不同企业中每个企业对应的预设名词的第一tf-idf和第二tf-idf进行加权求和计算，以得到所述n个不同企业中每个企业对应的第二分值；基于所述n个不同企业中每个企业的第二分值，以及所述n个企业的第一分值，确定所述n个不同企业中每个企业的最终分值；基于所述n个不同企业中每个企业的最终分值，确定潜在的目标企业客户。
8.在一个实施例中，所述基于所述n个不同企业中每个企业的第二分值，以及所述n个企业的第一分值，确定所述n个不同企业中每个企业的最终分值，包括：基于所述n个不同企业中每个企业的第二分值以及所述n个企业的第一分值，确定所述n个企业各自的分值特征数据；将所述n个企业各自的分值特征数据输入逻辑回归模型，得到所述n个企业中每个企业的最终分值；其中，所述逻辑回归模型是基于第二样本数据集对原始的逻辑回归模型训练得到的，所述第二样本数据集包括第二训练集和第二验证集，所述第二训练集包括第三正样本和第三负样本，所述第二验证集包括第四正样本和第四负样本；其中，所述第三正样本包含从所述n个企业的分值特征数据中匹配的所述m个企业的分值特征数据中随机抽取的所述指定数量的分值特征数据；所述第四正样本包含从所述m个企业的分值特征数据中抽取后所述剩余数量的分值特征数据；所述第三负样本和第四负样本均包含以所述预设百分比r从所述n个企业的分值特征数据中随机抽取的p个分值特征数据得到的随机负样本以及难分负样本。
9.在一个实施例中，所述指定数量与所述剩余数量的比值为3/7。
10.在一个实施例中，各所述企业基本特征数据包括企业成立年限、注册资本、行业类别、经营范围、所在地区中的一个或多个。
11.在一个实施例中，该方法还包括：对所述n个不同企业各自的企业画像特征数据和企业基本特征数据进行预处理，以得到所述企业特征数据集；其中所述预处理至少包含数据分箱和/或独热one-hot编码。
12.第二方面，本公开实施例提供一种智能销售信息推荐系统，包括：获取模块，用于获取当前企业客户名单以及企业特征数据集；其中，所述企业特征
数据集至少包括n个不同企业的特征数据，所述企业客户名单包含所述n个不同企业中的m个企业，m小于n；识别模块，用于将所述n个不同企业的特征数据输入预测模型，以得到所述n个企业的第一分值；其中，所述预测模型是基于第一样本数据集对xgboost模型训练得到的，所述第一样本数据集包括第一训练集和第一验证集，所述第一训练集包括第一正样本和第一负样本，所述第一验证集包括第二正样本和第二负样本，所述第一正样本包含从所述m个企业的特征数据中随机抽取的指定数量的特征数据，所述第二正样本包含从所述m个企业的特征数据中抽取后剩余数量的特征数据，所述指定数量小于所述剩余数量，所述第一负样本和第二负样本均包含以预设百分比r从所述n个不同企业的特征数据中随机抽取的p个特征数据得到的随机负样本以及难分负样本；其中，r=p/n=1-a，a表示所述n个企业中能够成为潜在意向企业客户的比值；确定模块，用于基于所述n个企业的第一分值，确定潜在的目标企业客户。
13.第三方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述智能销售信息推荐方法。
14.第四方面，本公开实施例提供一种电子设备，包括：处理器；以及存储器，用于存储计算机程序；其中，所述处理器配置为经由执行所述计算机程序来执行上述任一实施例所述智能销售信息推荐方法。
15.本公开实施例提供的技术方案与现有技术相比具有如下优点：本公开实施例提供的智能销售信息推荐方法及系统，获取当前企业客户名单以及企业特征数据集，所述企业特征数据集至少包括n个不同企业的特征数据，所述企业客户名单包含所述n个不同企业中的m个企业即当前目标企业也即种子企业；将所述n个不同企业的特征数据输入预测模型，以得到所述n个企业的第一分值；所述预测模型是基于第一样本数据集对xgboost模型训练得到的，所述第一样本数据集包括第一训练集和第一验证集，所述第一训练集包括第一正样本和第一负样本，所述第一验证集包括第二正样本和第二负样本，所述第一正样本包含从所述m个企业的特征数据中随机抽取的指定数量的特征数据，所述第二正样本包含从所述m个企业的特征数据中抽取后剩余数量的特征数据，所述指定数量小于所述剩余数量，所述第一负样本和第二负样本均包含以预设百分比r从所述n个不同企业的特征数据中随机抽取的p个特征数据得到的随机负样本以及难分负样本；其中，r=p/n=1-a，a表示所述n个企业中能够成为潜在意向企业客户的比值即潜在企业客户意向率；基于所述n个企业的第一分值，确定潜在的目标企业客户。本实施例基于面向企业客户的销售场景设置特定的样本数据集，基于该特定样本数据集对xgboost模型训练得到的预测模型来预测n个不同企业中可能成为潜在企业客户的第一分值如概率值，据此来确定最终的目标企业客户，其中，该特定的样本数据集的设置中充分考虑本技术的真实场景下的情况，将种子企业的特征数据作为模型的训练集和验证集中的正例样本，且训练集中的正例样本少于验证集中的正例样本（指定数量小于剩余数量），然后基于潜在企业客户意向率（实际场景中通常值较小）等比例生成训练集和验证集中的负例样本，且负例样本由难分负样本（hard negative sample）和随机负样本（random negative sample）组成，随机负样本的设
置是由于在本技术的真实场景下正例样本比例往往过小而造成数据失衡，同时一般难以获得数量较大的正式负例样本，因此用随机负例样本代替，同时结合难分负样本的设置以及把负例样本占比按照潜在企业客户意向率等比例放大（r=1-a），据此设置的样本数据集在训练时可以整体提升模型的泛化能力，最终使得基于训练得到的预测模型可高效且较为准确地自动推荐潜在的目标企业客户。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
17.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
18.图1为本公开实施例智能销售信息推荐方法流程图；图2为本公开实施例xgboost模型训练过程示意图；图3为本公开实施例命名实体识别模型训练过程及tf-idf计算分值过程示意图；图4本公开实施例中的逻辑回归模型的训练过程示意图；图5为本公开实施例智能销售信息推荐系统示意图；图6为本公开实施例的电子设备示意图。
具体实施方式
19.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
20.在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。
21.应当理解，在下文中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。
22.图1为本公开实施例的一种智能销售信息推荐方法流程图，该方法可以由个人计算机或者服务器执行，具体可以包括以下步骤：步骤s101：获取当前企业客户名单以及企业特征数据集；其中，所述企业特征数据集至少包括n个不同企业的特征数据。所述企业客户名单包含所述n个不同企业中的m个企业，m小于n。
23.示例性的，当前企业客户名单即种子企业名单可以由销售人员提供如从计算机中获取，当前企业客户名单也即当前已有的客户名单，其中可包含至少一个种子企业的信息如企业名称等。在一个实施例中，各企业的特征数据可以包含企业基本特征数据如企业成
立年限、注册资本、行业类别、经营范围、所在地区中的一个或多个。本实施例中可以预先构建企业常用结构化特征数据，如注册资本、成立年限、行业类别、地区等等，这些特征数据作为企业基本特征数据。具体可以面对不同行业和业务场景的潜客群体来定期或实时构建并供后续使用，相当于建立了行业所有企业的结构化特征数据的数据集即企业特征数据集，如图2中的“全量企业特征”数据表，即可包含n个不同企业的特征数据如企业基本特征数据。通常，企业客户名单中的企业是被包含于企业特征数据集中的企业，也即是企业特征数据集中的所有企业中的一部分，可称为种子企业。
24.步骤s102：将所述n个不同企业的特征数据输入预测模型，以得到所述n个企业的第一分值。其中，所述预测模型是基于第一样本数据集对xgboost模型训练得到的，所述第一样本数据集包括第一训练集和第一验证集，所述第一训练集包括第一正样本和第一负样本，所述第一验证集包括第二正样本和第二负样本，所述第一正样本包含从所述m个企业的特征数据中随机抽取的指定数量x的特征数据，所述第二正样本包含从所述m个企业的特征数据中抽取后剩余数量y的特征数据，所述指定数量x小于所述剩余数量y（x＜y），所述第一负样本和第二负样本均包含以预设百分比r从所述n个不同企业的特征数据中随机抽取的p个特征数据得到的随机负样本以及难分负样本；其中，r=p/n=1-a，a表示所述n个企业中能够成为潜在意向企业客户的比值即潜在企业客户意向率。
25.示例性的，参考图2中所示，第一样本数据集的构建过程如下：通过销售人员提供的当前企业客户名单，从“全量企业特征”数据表中匹配该名单中的m个企业的特征数据构成特征数据集，该特征数据集将作为模型的正例的样本存在，该m个企业统称为种子企业。对种子企业的特征数据集进行随机抽样，把特征数据集按照一定的比例（x/y）分为第一训练集的正例样本即第一正样本和第一验证集的正例样本即第二正样本。如图2中的种子企业特征训练集包含的是第一训练集中的正例样本即第一正样本，而种子企业特征验证集包含的是第一验证集的正例样本即第二正样本。
26.具体的，可根据业务人员提供的潜在企业客户意向率a，基于预设百分比r（r=1-a）随机抽取等比例生成第一训练集和第一验证集中的负例样本，也即是说，第一训练集和第一验证集中的负例样本即第一负样本和第二负样本是相同的。比如业务人员根据经验总结100（如n=100时）家企业会有1家企业有机会成为潜在客户，则潜在企业客户意向率为1%，则基于99%从100家企业的特征数据中随机抽取99家的特征数据作为第一训练集和第一验证集中的负例样本。另外，抽取的负例样本由两部分构成，分别由难分负样本和随机负样本组成。如图2中的负例样本中，随机企业数据集中包含的都是随机负样本，而难分样本数据集中包含的都是难分负样本。
27.本实施例中，按照上述方式设置好第一样本数据集后，即可利用其中的第一训练集对xgboost模型进行训练，xgboost模型对第一训练集进行学习，生成初步的模型识别结果，例如使用但不限于sklearn等机器学习框架进行学习，同时通过第一验证集对模型识别结果进行验证，观测模型评价指标如准确率、召回率是否满足预期，当满足时结束训练，不满足时继续迭代训练，这些具体可以参考现有技术理解。
28.训练结束后，即可将n个不同企业的特征数据输入训练得到的预测模型，得到输出的n个企业的第一分值如概率值，即图2中的全量企业得分，也即输出每家企业为正例的概率值。
29.步骤s103：基于所述n个企业的第一分值，确定潜在的目标企业客户。
30.示例性的，确定n个企业的第一分值中的最大值，将最大值对应的企业确定为潜在的目标企业客户，同时可以显示该目标企业客户的推荐信息。当然也可以对n个企业的第一分值按照从大到小的顺序排序，选取排序在前面的一个或多个第一分值对应的一个或多个企业为潜在的目标企业客户，本实施例中对此不作限制。
31.本实施例基于面向企业客户的销售场景设置特定的样本数据集，基于该特定样本数据集对xgboost模型训练，该特定的样本数据集的设置中充分考虑本技术的真实场景下的情况，将种子企业的特征数据作为模型的训练集和验证集中的正例样本，且训练集中的正例样本少于验证集中的正例样本（指定数量x小于剩余数量y），然后基于潜在企业客户意向率（实际场景中通常值较小如1%）等比例生成训练集和验证集中的负例样本，且负例样本由难分负样本和随机负样本组成，随机负样本的设置是由于在本技术的真实场景下正例样本比例往往过小而造成数据失衡，同时一般难以获得数量较大的正式负例样本，因此用随机负例样本代替，同时结合难分负样本的设置以及把负例样本占比按照潜在企业客户意向率等比例放大（r=1-a），据此设置的样本数据集在训练时可以整体提升模型的泛化能力，最终使得基于训练得到的预测模型可高效且较为准确地自动推荐潜在的目标企业客户。
32.在一个实施例中，所述n个不同企业的特征数据包括企业画像特征数据和企业基本特征数据；在使用所述第一训练集对所述xgboost模型的训练过程中，使用所述第一验证集对所述xgboost模型的输出结果进行验证，同时观测模型评价指标是否满足预设条件，若否，则调节所述xgboost模型的超参数以及增加所述企业画像特征数据来重新训练。
33.示例性的，根据业销售人员反馈的潜在企业客户的画像，对n个企业客户群体构建符合其企业画像的定制特征即构成企业画像特征数据。如某个企业客户为生产研发销售辅助类软件的it企业，则其潜客画像所需特征为与销售员工人数相关的定制特征，但不限于此。具体的画像过程可以参考现有技术理解，此处不再赘述。本实施例中在xgboost模型的训练过程中，使用第一验证集对xgboost模型的输出结果进行验证，同时观测模型评价指标如准确率、召回率是否大于预设阈值，若否，则调节所述xgboost模型的超参数如树深度、最小叶子节点权重、eta rate（类似learning rate）等，以及增加企业画像特征数据来重新训练。
34.也即是说，通过增加企业画像特征数据这一增加维度的特征数据，与企业基本特征数据融合，来更新企业特征数据集中对应企业的特征数据，据此来重新进行上述xgboost模型的训练过程，仅是训练样本数据更新，且在训练过程中通过调节xgboost模型的超参数，使得当模型评价指标如准确率、召回率大于预设阈值时，即可得到达到预期效果的模型。如此可使基于训练得到的预测模型更为准确地自动推荐潜在的目标企业客户，也即进一步提高推荐结果的准确性。
35.进一步的，在上述任一实施例的基础上，于在一个实施例中，该方法还可包括以下步骤1）~9）：1）：获取所述n个不同企业各自的企业介绍文本。
36.示例性的，n个不同企业各自的企业介绍文本（下文也称企业介绍文档）可以是企业的业务介绍、产品介绍文本，这些文本可以通过网络爬虫技术从企业官网等渠道获取。
37.2）：将所述n个不同企业各自的企业介绍文本输入命名实体识别模型，以识别得到
所述n个不同企业对应的预设名词，所述预设名词包括至少一个业务名词和/或产品名词；其中，所述命名实体识别模型是基于样本企业介绍文本对bert模型预先训练得到的。
38.示例性的，可以预先可把获取的样本企业介绍文本（包括业务介绍、产品介绍文本），以及对业务名词、产品名词的bio标注数据输入bert模型进行训练学习，获得可用于对业务名称与产品名词进行文本关键词抽取的命名实体识别模型即图3中的“实体识别模型”，也可以称为ner模型。
39.训练结束后，将n个不同企业各自的企业介绍文本输入该命名实体识别模型，以识别得到n个不同企业对应的预设名词，结合图3所示，例如将n个不同企业如公司a、公司b和公司c等各自的企业介绍文本输入实体识别模型，得到各公司如公司a、公司b和公司c各自的关键词识别结果。
40.3）：计算所述n个不同企业对应的预设名词各自的第一逆向文件频率idf并形成第一idf字典，同时计算所述n个不同企业中每个企业对应的预设名词的第一词频tf并形成第一tf字典。
41.示例性的，可以整理上述的关键词识别结果，获得每一家企业介绍文本对应的业务名词和产品名词，不同家企业的企业介绍文本中的重复名词不作去重处理。如公司a对应有名词“芯片设计、集成电路、机器人等”，公司b对应有名词“软件开发、人工智能、电商平台等”，公司c对应有名词“天然气、太阳能发电、清洁能源等”。然后计算全量企业即n个企业每个关键词识别结果中的名词的idf值，生成第一idf字典，具体的计算公式如下：idf=lg(n/d)；其中，idf（inverse document frequency，逆向文件频率）是一个衡量词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到。在本技术中每家企业对应一篇企业介绍文本，针对每个名词i（如芯片设计、集成电路、机器人等”），总文件数目等于n，d表示包含名词i的企业介绍文本的数目。在一示例中，计算的n个不同企业如公司a、公司b和公司c对应的第一idf字典包含如下结果：{芯片设计：0.68；集成电路：0.23；机器人：0.34；软件开发：0.15}。
42.接着，生成第一tf字典的过程是：基于以下公式计算n个不同企业中每个企业对应的名词的第一tf：tf
i,j
=f
i,j
/nj其中，词频(term frequency， tf)即词的频率，表示名词在一个文档中出现的频率。tf
i,j
表示名词i在企业介绍文档j中的词频，其中 f
i,j
表示企业介绍文档j中名词i出现的次数， nj表示企业介绍文档j中所有名词的总数量（名词不去重，即企业介绍文档j中的重复名词不去重处理）。在一个示例中，针对n个不同企业如公司a、公司b和公司c对应的第一tf字典包含如下结果：{公司a——芯片设计：0.15、集成电路：0.03、机器人：0.02；公司b——软件开发：0.16、人工智能：0.06、电商平台：0.12；公司c——天然气：0.15、太阳能发电：0.12、清洁能源：0.08}。
43.4）：基于所述第一idf字典、所述第一tf字典生成所述n个不同企业中每个企业对应的第一tf-idf以形成第一tf-idf字典；具体的，第一tf-idf字典即各企业tf-idf字典中，每个企业的名词i的tf-idf值等
于该名词i的tf值乘以对应的idf值，在一个示例中，第一tf-idf字典包含如下结果：{公司a——芯片设计：0.102、集成电路：0.0069、机器人：0.0068；公司b——软件开发：0.024；......}。
44.其中，名词“芯片设计”对应的tf-idf值0.102=tf*idf=0.15*0.68，其余的名词也是相同的计算方式，此处不再赘述。
45.5）：基于所述企业客户名单，从识别得到的所述n个不同企业的预设名词中选择确定所述m个企业对应的所有预设名词，计算所述m个企业对应的所有预设名词各自的第二词频tf并形成第二tf字典。
46.示例性的，根据种子企业客户名单如公司e、公司f、公司g，从模型识别得到的n个不同企业（包含公司e、公司f、公司g）的名词中匹配得到种子企业中每家企业的业务/产品名称构成所有种子企业对应的所有名词。然后计算生成种子企业对应的所有预设名词各自的第二词频tf并形成第二tf字典即种子客户整体tf字典。针对种子企业，计算对应的各名词的第二tf值时是计算的整体tf值，此处整体tf值计算逻辑不同的地方在于：针对一个名词i，可以理解为上述参数f
i,j
表示该名词i在所有介绍文档中出现的次数，nj则表示所有名词的总数量。也即，针对一个名词i，第二tf值等于名词i在所有种子企业的企业介绍文档中出现的次数除以所有种子企业对应的所有名词的总数量。例如有公司e、公司f、公司g三个种子企业，则有3个企业介绍文本，且匹配的该3个种子企业对应的所有名词的总数量为w，统计的名词i在该3个企业介绍文档中出现的次数为q，则名词i的第二tf值=q/w。在一个示例中，第二tf字典即种子客户整体tf字典包括如下结果：{芯片设计：0.11；集成电路：0.01；人工智能：0.01；电商平台：0.02}。
47.6）：基于所述第二tf字典、所述第一idf字典，生成所述m个企业对应的所有预设名词各自的第二tf-idf以形成第二tf-idf字典。
48.示例性的，得到种子客户整体tf字典即第二tf字典后，再基于第二tf字典、第一idf字典生成种子客户整体tf-idf字典即第二tf-idf字典，具体的生成计算方式也是针对名词i，将名词i对应的第二tf值与第一idf值配对相乘得到。在一个示例中，种子客户整体tf-idf字典即第二tf-idf字典包括如下结果：{芯片设计：0.0748；集成电路：0.0023；人工智能：0.011；电商平台：0.018}。其中，作为示例，名词“芯片设计”的整体tf-idf值即第二tf-idf值如下计算得到:第二tf-idf值（0.0748）=第二tf值（0.11）*第一idf值（0.68）。
49.7）：基于所述第二tf-idf字典以及所述第一tf-idf字典，对所述n个不同企业中每个企业对应的预设名词的第一tf-idf和第二tf-idf进行加权求和计算，以得到所述n个不同企业中每个企业对应的第二分值。
50.示例性的，得到上述种子客户整体tf-idf字典即第二tf-idf字典，以及上述各企业tf-idf字典即第一tf-idf字典之后，针对每个企业，对每个企业对应的名词的第一tf-idf和第二tf-idf进行加权求和计算，以得到每个企业对应的第二分值。
51.在一个具体示例中，企业j的第二分值表示企业j与种子企业的整体相似度，其可通过加权求和企业j对应的名词i的第一tf-idf值和第二tf-idf值得到，计算公式如下：
其中，w
i,d
表示企业j的名词i的第二tf-idf值(如果名词i只在种子企业的tf-idf字典出现，且未在企业j的tf-idf字典出现，则w
i,d
记作0），作为名词i对于种子企业整体的重要性系数即权重系数，而参数x
i,j
表示企业j的名词i的第一tf-idf值，如果企业j的企业介绍文档中一共有n个名词（i=1至n），则企业j与种子企业的整体相似度可以由以上公式加权求和得到即sj。
52.该公式的计算方式使得本方案同时考虑了名词i在企业j中的相对重要性，同时也考虑到该名词i对种子企业整体的重要性，而加权求和的次数n则考虑到了企业j的名词i与种子企业的匹配程度。因此，sj作为衡量企业j与种子企业的相似度的指标，既反映了企业j指定在方面名词（业务/产品方面）与种子企业相似度，同时降低了某些相对不重要名词对相似度的影响。
53.可选的，对上述相似度得分即第二分值可进行归一化处理，因为此处相似度数值普遍极小，因此此处使用归一化的方法是max-min normalization方法，使得相似度最终得分能较均匀分布在[0，1]区间内。
[0054]
x
normalization
=(x-min)/(max-min)其中，x为步骤7）输出的相似度即第二分值，min为所有相似度即n个企业的第二分值中的最小值，max则为其中的最大值，x
normalization
则为归一化后的相似度得分。通过归一化处理可以方便更好比较区别不同企业的第二分值。
[0055]
在一个具体示例中，例如参考图3所示，针对公司a，公司a的第二分值由第一tf-idf字典以及第二tf-idf字典中公司a的多个名词如“芯片设计”、“集成电路”等对应的第一tf-idf值和第二tf-idf值加权求和得到：0.102*0.0748 0.0069*0.0023 ...=0.00158。归一化之后公司a的第二分值为0.68，同理，公司b的第二分值为0.55，其余也是类似的计算方式，此处不再赘述。
[0056]
8）：基于所述n个不同企业中每个企业的第二分值，以及所述n个企业的第一分值，确定所述n个不同企业中每个企业的最终分值。
[0057]
示例性的，合并每个企业的第二分值以及第一分值得到每个企业的最终分值。
[0058]
9）：基于所述n个不同企业中每个企业的最终分值，确定潜在的目标企业客户。
[0059]
示例性的，确定n个企业的最终分值中的最大值，将最大值对应的企业确定为潜在的目标企业客户。
[0060]
需要说明的是，比如获取的种子企业客户均为芯片制造与芯片设计企业，在全量企业名单即n个不同企业中，企业a抽取的名词有{“网站设计”,“云服务器”,“程序开发”}，企业b的为{“芯片制造”,“芯片设计”,“电子元件”}。此时种子企业整体名称中有{“芯片制造”,“芯片设计”...“云服务器”,“程序开发”}，如果通过简单的名词匹配度计算或者名词语义相似度计算，企业a和企业b的相似度几乎一样，很显然这是有问题的。而这种问题在类似的本技术的推荐场景中往往会明显降低推荐的准确率。而本实施例的方案，基于训练得到的命名实体识别模型的抽取结果直接基本排除了噪音文本，为后面的相似度计算提供高质量来源的关键词。通过计算每家企业（n个企业）与当前企业客户（种子企业）在业务、产品
上的相似度得分即第二分值，该相似度得分使用加权求和计算方法，大幅降低了相对不重要关键词对相似度计算结果的影响。也即是说，通过命名实体识别模型先精准抽取业务、产品关键词，避免了文本噪音对相似度计算的影响，其次通过加权求和计算每家企业关键词的tf-idf得到相似度，进一步降低了相对不重要关键词对相似度计算的影响，从而使得该方案最终可进一步准确地自动推荐潜在的目标企业客户，推荐结果的准确性得到很大的提升。
[0061]
可选的，在上述实施例的基础上，于一个实施例中，上述基于所述n个不同企业中每个企业的第二分值，以及所述n个企业的第一分值，确定所述n个不同企业中每个企业的最终分值的步骤，具体可以包括以下子步骤：i）：基于所述n个不同企业中每个企业的第二分值以及所述n个企业的第一分值，确定所述n个企业各自的分值特征数据。
[0062]
ii）：将所述n个企业各自的分值特征数据输入逻辑回归模型，得到所述n个企业中每个企业的最终分值；其中，所述逻辑回归模型是基于第二样本数据集对原始的逻辑回归模型训练得到的，所述第二样本数据集包括第二训练集和第二验证集，所述第二训练集包括第三正样本和第三负样本，所述第二验证集包括第四正样本和第四负样本；其中，所述第三正样本包含从所述n个企业的分值特征数据中匹配的所述m个企业的分值特征数据中随机抽取的所述指定数量的分值特征数据；所述第四正样本包含从所述m个企业的分值特征数据中抽取后所述剩余数量的分值特征数据；所述第三负样本和第四负样本均包含以所述预设百分比r从所述n个企业的分值特征数据中随机抽取的p个分值特征数据得到的随机负样本以及难分负样本。
[0063]
本实施例中的逻辑回归（logistic regression）模型可对前两部分的输出得分即第一分值和第二分值进行拟合得到最终分值，其中逻辑回归模型的预先训练流程与xgboost模型的训练过程类似，区别主要在于训练的样本数据集中是分值特征数据构成的样本数据集。
[0064]
具体的，结合参考图4中所示，合并第一部分与第二部分的输出结果即n个不同企业的第一分值和第二分值即标签相似度得分，作为逻辑回归模型的输入特征数据即分值特征数据，分值特征数据表征企业得分特征如得分的分布特征。
[0065]
与xgboost模型的训练样本数据集的构建过程类似，通过匹配种子企业名单即当前企业客户名单，从n个企业各自的分值特征数据中匹配该名单中的m个企业的分值特征数据构成分值特征数据集，该分值特征数据集将作为模型的正例的样本存在，该m个企业统称为种子企业。对种子企业的分值特征即图4中的种子企业分数特征数据集进行随机抽样，把分值特征数据集按照一定的比例（x/y）分为第二训练集的正例样本即第三正样本，也即种子企业特征训练集中的正例，以及第二验证集的正例样本即第四正样本，也即种子企业特征训练集中的正例。
[0066]
生成第二训练集与第二验证集的正例样本后，根据业务人员提供的潜在企业客户意向率a，基于预设百分比r（r=1-a）随机抽取等比例的第二训练集和第二验证集中的负例样本，也即是说，第二训练集和第二验证集中的负例样本即第三负样本和第四负样本也是相同的。比如业务人员根据经验总结100（如n=100时）家企业会有1家企业有机会成为潜在客户，则潜在企业客户意向率为1%，则基于99%从100家企业的分值特征数据中随机抽取99
家的分值特征数据作为第二训练集和第二验证集中的负例样本。另外，抽取的负例样本由两部分构成，分别由难分负样本和随机负样本组成，难分负样本构成难分样本数据集，随机负样本构成随机企业数据集。然后通过原始的逻辑回归模型训练学习第二训练集的分值特征数据，得到初步的模型结果。使用第二验证集检验模型效果，以准确率、召回率、f1值为主要模型评估指标，不断调整模型已达预期效果。
[0067]
本实施例中，由于模型特征由两个得分即第一分值和第二分值构成，因此无法直接调整逻辑回归模型的特征，可通过调整前两部分的模型如xgboost模型和bert模型即标签相似度模型来影响逻辑回归模型的输出结果，从而调整逻辑回归模型的特征。一般来讲，如果前两部分模型效果比较理想的前提下，基于逻辑回归模型对最终的推荐效果会有进一步提升如推荐准确率进一步提升。可选的，为达到更好的推荐效果如推荐准确率更进一步提升，可调整逻辑回归的超参数，如penalty(正则化参数)、solver(损失函数)等，并可以结合交叉验证与网格搜索的方法，可以快速定位最优超参数组合，进而在逻辑回归模型达到预期理想状态后，应用训练得到的逻辑回归模型以及上述预测模型及命名实体识别模型对全量企业特征进行推理，输出最后的推荐结果。如此可以使目标企业客户的推荐准确率进一步提升。
[0068]
在上述任一实施例的基础上，于一个实施例中，所述指定数量x与所述剩余数量y的比值为：x/y=3/7。本实施例中基于上述特定样本数据集对xgboost模型训练，该特定的样本数据集的设置中充分考虑本技术的真实场景下的情况，以指定数量x与剩余数量y的比值将种子企业的特征数据作为模型的训练集和验证集中的正例样本，使得训练集中的正例样本少于验证集中的正例样本（指定数量x小于剩余数量y），其设置更符合本技术的真实场景下正例样本比例往往过小的实际情况，使得据此设置的样本数据集在训练时可以更好地提升模型的泛化能力，最终使得基于训练得到的预测模型可高效且较为准确地自动推荐潜在的目标企业客户。
[0069]
在上述任一实施例的基础上，于一个实施例中，该方法还可包括：对n个不同企业各自的企业画像特征数据和企业基本特征数据进行预处理，以得到所述企业特征数据集；其中所述预处理至少包含数据分箱和/或独热one-hot编码。
[0070]
例如合并每个企业的企业画像特征数据和企业基本特征数据，对不同类型的特征数据进行处理，如对有明显业务数值区间逻辑的特征数据进行合理分箱，对无序分类型特征数据作one-hot编码处理等，最后生成全量企业特征即构成企业特征数据集，之后进行上述的训练样本数据集的构建及训练过程。如此通过数据分箱和/或独热one-hot编码的预处理形成企业特征数据集再进行训练样本数据集的设置以及后续训练，可以提高目标企业客户的推荐准确率。
[0071]
需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。另外，也易于理解的是，这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。
[0072]
如图5所示，本公开实施例提供一种智能销售信息推荐系统，包括：获取模块401，用于获取当前企业客户名单以及企业特征数据集；其中，所述企业
特征数据集至少包括n个不同企业的特征数据，所述企业客户名单包含所述n个不同企业中的m个企业，m小于n；识别模块402，用于将所述n个不同企业的特征数据输入预测模型，以得到所述n个企业的第一分值；其中，所述预测模型是基于第一样本数据集对xgboost模型训练得到的，所述第一样本数据集包括第一训练集和第一验证集，所述第一训练集包括第一正样本和第一负样本，所述第一验证集包括第二正样本和第二负样本，所述第一正样本包含从所述m个企业的特征数据中随机抽取的指定数量的特征数据，所述第二正样本包含从所述m个企业的特征数据中抽取后剩余数量的特征数据，所述指定数量小于所述剩余数量，所述第一负样本和第二负样本均包含以预设百分比r从所述n个不同企业的特征数据中随机抽取的p个特征数据得到的随机负样本以及难分负样本；其中，r=p/n=1-a，a表示所述n个企业中能够成为潜在意向企业客户的比值；确定模块403，用于基于所述n个企业的第一分值，确定潜在的目标企业客户。
[0073]
在一个实施例中，所述n个不同企业的特征数据包括企业画像特征数据和企业基本特征数据；在使用所述第一训练集对所述xgboost模型的训练过程中，使用所述第一验证集对所述xgboost模型的输出结果进行验证，同时观测模型评价指标是否满足预设条件，若否，则调节所述xgboost模型的超参数以及增加所述企业画像特征数据来重新训练。
[0074]
在一个实施例中，该系统还包括关键词识别模块和tf-idf相似度计算模块；其中，关键词识别模块，用于：获取所述n个不同企业各自的企业介绍文本；将所述n个不同企业各自的企业介绍文本输入命名实体识别模型，以识别得到所述n个不同企业对应的预设名词，所述预设名词包括至少一个业务名词和/或产品名词；其中，所述命名实体识别模型是基于样本企业介绍文本对bert模型预先训练得到的。
[0075]
tf-idf相似度计算模块，用于：计算所述n个不同企业对应的预设名词各自的第一逆向文件频率idf并形成第一idf字典，同时计算所述n个不同企业中每个企业对应的预设名词的第一词频tf并形成第一tf字典；基于所述第一idf字典、所述第一tf字典生成所述n个不同企业中每个企业对应的第一tf-idf以形成第一tf-idf字典；基于所述企业客户名单，从识别得到的所述n个不同企业的预设名词中选择确定所述m个企业对应的所有预设名词，计算所述m个企业对应的所有预设名词各自的第二词频tf并形成第二tf字典；基于所述第二tf字典、所述第一idf字典，生成所述m个企业对应的所有预设名词各自的第二tf-idf以形成第二tf-idf字典；基于所述第二tf-idf字典以及所述第一tf-idf字典，对所述n个不同企业中每个企业对应的预设名词的第一tf-idf和第二tf-idf进行加权求和计算，以得到所述n个不同企业中每个企业对应的第二分值。
[0076]
确定模块，还用于基于所述n个不同企业中每个企业的第二分值，以及所述n个企业的第一分值，确定所述n个不同企业中每个企业的最终分值；基于所述n个不同企业中每个企业的最终分值，确定潜在的目标企业客户。
[0077]
在一个实施例中，所述确定模块，用于：基于所述n个不同企业中每个企业的第二分值以及所述n个企业的第一分值，确定所述n个企业各自的分值特征数据；将所述n个企业各自的分值特征数据输入逻辑回归模型，得到所述n个企业中每个企业的最终分值；其中，所述逻辑回归模型是基于第二样本数据集对原始的逻辑回归模型训练得到的，所述第二样本数据集包括第二训练集和第二验证集，所述第二训练集包括第三正样本和第三负样本，
所述第二验证集包括第四正样本和第四负样本；并且其中，所述第三正样本包含从所述n个企业的分值特征数据中匹配的所述m个企业的分值特征数据中随机抽取的所述指定数量的分值特征数据；所述第四正样本包含从所述m个企业的分值特征数据中抽取后所述剩余数量的分值特征数据；所述第三负样本和第四负样本均包含以所述预设百分比r从所述n个企业的分值特征数据中随机抽取的p个分值特征数据得到的随机负样本以及难分负样本。
[0078]
在一个实施例中，所述指定数量与所述剩余数量的比值为3/7。
[0079]
在一个实施例中，各所述企业基本特征数据包括企业成立年限、注册资本、行业类别、经营范围、所在地区中的一个或多个。
[0080]
在一个实施例中，该系统还可包括预处理模块，用于对所述n个不同企业各自的企业画像特征数据和企业基本特征数据进行预处理，以得到所述企业特征数据集；其中所述预处理至少包含数据分箱和/或独热one-hot编码。
[0081]
关于上述实施例中的系统，其中各个模块执行操作的具体方式以及带来的相应技术效果已经在有关该方法的实施例中进行了对应的详细描述，此处将不做详细阐述说明。
[0082]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0083]
本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项实施例所述智能销售信息推荐方法。
[0084]
示例性的，该可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦式可编程只读存储器（eprom或闪存）、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0085]
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0086]
本公开实施例还提供一种电子设备，包括处理器以及存储器，存储器用于存储计算机程序。其中，所述处理器配置为经由执行所述计算机程序来执行上述任一项实施例中智能销售信息推荐方法。
[0087]
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0088]
如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包
括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件（包括存储单元620和处理单元610）的总线630、显示单元640等。
[0089]
其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述方法实施例部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示方法的步骤。
[0090]
所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（ram）6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元（rom）6203。
[0091]
所述存储单元620还可以包括具有一组（至少一个）程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0092]
总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0093]
电子设备600也可以与一个或多个外部设备700（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（i/o）接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络（例如局域网（lan），广域网（wan）和/或公共网络，例如因特网）通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0094]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是cd-rom，u盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、或者网络设备等）执行根据本公开实施方式的上述各实施例的方法步骤。
[0095]
需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0096]
以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一
致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

智能销售信息推荐方法及系统与流程

相关文献

最热文献