简历与岗位匹配度预测方法及相关设备与流程

2022-03-16 12:34:45 来源：中国专利 TAG：

1.本技术涉及标签分类技术，尤其涉及一种简历与岗位匹配度预测方法及相关设备。

背景技术：

2.人岗匹配是在线招聘服务的核心，用于预测岗位与简历的匹配度。大多数相关的人岗匹配方法都将这个任务简化为岗位和简历中的自由文本属性之间的匹配，从而实现了较好的性能。然而，它们忽略了学历、工资等半结构化多元属性的贡献，这可能会导致预测不成功。

技术实现要素：

3.有鉴于此，本技术的目的在于提出一种简历与岗位匹配度预测方法及相关设备。
4.基于上述目的，本技术提供了一种预测简历信息与岗位信息的匹配度的方法，其特征在于，包括：
5.获取所述岗位信息中半结构化的每个岗位属性的第一键和第一值，以及所述简历信息中半结构化的每个简历属性的第二键和第二值，其中，所述第一键、第一值、第二键和第二值都是以文本数据表示的；
6.基于每个所述岗位属性的第一键和第一值、与所述岗位信息对应的第一源表示、每个所述简历属性的第二键和第二值、与所述简历信息对应的第二源表示，通过包括级联的预训练语言模型、transformer编码器和单标签分类模型的预测模型，预测所述简历信息与所述岗位信息的匹配度。
7.进一步的，所述预测所述简历信息与所述岗位信息的匹配度包括：
8.对于每个所述岗位属性的第一键和第一值，通过所述预训练语言模型分别将该第一键和该第一值编码到语义空间中，以得到第一键嵌入和第一值嵌入，并融合该第一键嵌入和该第一值嵌入，以得到该岗位属性的第一融合嵌入；
9.通过所述预训练语言模型将所述第一源表示编码到所述语义空间中，以得到第一源嵌入；
10.对于每个所述简历属性的第二键和第二值，通过所述预训练语言模型分别将该第二键和该第二值编码到所述语义空间中，以得到第二键嵌入和第二值嵌入，并融合该第二键嵌入和该第二值嵌入，以得到该简历属性的第二融合嵌入；
11.通过所述预训练语言模型将所述第二源表示编码到所述语义空间中，以得到第二源嵌入；
12.通过所述transformer编码器，进行包括每个所述岗位属性的第一融合嵌入的第一矩阵的内部交互以得到第一内部交互属性嵌入矩阵，并进行包括每个所述简历属性的第二融合嵌入的第二矩阵的内部交互以得到第二内部交互属性嵌入矩阵；
13.将所述第一内部交互属性嵌入矩阵中的每个元素分别与所述第一源嵌入融合，以
得到第一更新嵌入矩阵；
14.将所述第二内部交互属性嵌入矩阵中的每个元素分别与所述第二源嵌入融合，以得到第二更新嵌入矩阵；
15.通过所述transformer编码器，进行所述第一更新嵌入矩阵与所述第二更新嵌入矩阵之间的外部交互，以得到第一外部交互属性嵌入矩阵和第二外部交互属性嵌入矩阵；
16.通过所述单标签分类模型，根据所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵，预测所述简历信息与所述岗位信息的匹配度。
17.进一步的，所述融合该第一键嵌入和该第一值嵌入、所述融合该第二键嵌入和该第二值嵌入、所述将所述第一内部交互属性嵌入矩阵中的每个元素分别与所述第一源嵌入融合、所述将所述第二内部交互属性嵌入矩阵中的每个元素分别与所述第二源嵌入融合都包括相加融合操作。
18.进一步的，所述融合该第一键嵌入和该第一值嵌入、所述融合该第二键嵌入和该第二值嵌入、所述将所述第一内部交互属性嵌入矩阵中的每个元素分别与所述第一源嵌入融合、所述将所述第二内部交互属性嵌入矩阵中的每个元素分别与所述第二源嵌入融合都包括拼接融合操作。
19.进一步的，进行所述第一矩阵的内部交互以得到所述第一内部交互属性嵌入矩阵包括：利用所述transformer编码器中的多头自注意力机制，根据所述第一矩阵而得到第一多头自注意力矩阵；通过所述transformer编码器中的第一全连接前馈层，根据所述第一多头自注意力矩阵而得到所述第一内部交互属性嵌入矩阵；
20.进行所述第二矩阵的内部交互以得到所述第二内部交互属性嵌入矩阵包括：利用所述transformer编码器中的多头自注意力机制，根据所述第二矩阵而得到第二多头自注意力矩阵；通过所述transformer编码器中的第二全连接前馈层，根据所述第二多头自注意力矩阵而得到所述第二内部交互属性嵌入矩阵。
21.进一步的，进行所述外部交互以得到所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵包括：
22.将所述第一更新嵌入矩阵与所述第二更新嵌入矩阵拼接以得到联合矩阵；
23.利用所述transformer编码器中的多头自注意力机制，根据所述联合矩阵而得到多头自注意力联合矩阵；
24.通过所述transformer编码器中的第三全连接前馈层，根据所述多头自注意力联合矩阵而得到所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵。
25.进一步的，根据所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵预测所述匹配度包括：
26.分别通过所述单标签分类模型中的第一池化层和第二池化层，对所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵进行池化，以得到岗位向量和简历向量；
27.将所述岗位向量与所述简历向量聚合以得到聚合向量；
28.通过所述单标签分类模型中的多层感知机，对所述聚合向量进行语义融合，并根据语义融合后的所述聚合向量，利用单个神经元得到匹配分数；
29.利用激活函数，根据所述匹配分数而得到所述简历信息与所述岗位信息的匹配
度。
30.进一步的，所述池化是利用机器学习框架pytorch提供的自适应平均池化函数而进行的。
31.进一步的，所述预测模型是通过最小化二元交叉熵损失而被训练的。
32.基于同一构思，本技术还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一项所述的方法。
33.从上面所述可以看出，本技术提供的简历与岗位匹配度预测方法及相关设备，首先获取岗位信息和简历信息中半结构化的键(key)和值(value)及其来源(source)。然后基于每个岗位信息和简历信息属性的键和值、与对应的源表示，通过包括级联的预训练语言模型、transformer编码器和单标签分类模型的预测模型，预测所述简历信息与所述岗位信息的匹配度。从而通过全面地探索人岗匹配中半结构化多元属性的内部交互和外部交互，使得匹配结果更加准确。
附图说明
34.为了更清楚地说明本技术或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
35.图1为本技术实施例的岗位与简历信息示意图；
36.图2为本技术实施例的预测简历与岗位的匹配度的方法流程示意图；
37.图3为本技术实施例的预测匹配度方法流程示意图；
38.图4为本技术实施例的外部交互属性嵌入矩阵生成流程示意图；
39.图5为本技术实施例的岗位信息和简历信息的匹配度生成流程示意图；
40.图6为本技术实施例的岗位和简历中的多元属性示意图；
41.图7为本技术实施例的预测简历与岗位的匹配度的装置示意图；
42.图8为本技术实施例的电子设备结构示意图。
具体实施方式
43.为使本技术的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本技术进一步详细说明。
44.需要说明的是，除非另外定义，本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。
45.如背景技术部分所述，现有的人岗匹配方案还难以满足高效准确的人岗匹配需要。申请人在实现本技术的过程中发现，现有的人岗匹配方案忽略了这样一个事实：即在现实世界中，岗位和简历通常是由半结构化的多元属性(也称为特征)组成的，如学历、城市、工资等。每个属性由一个键(也被称为名称)和一个值(也被称为内容)组成。在匹配过程中缺乏考虑一些关键的属性，将导致不准确的预测结果。例如，参考图1，当人岗匹配算法只考虑岗位描述和工作经验时，它可能会错误地认为岗位和简历之间匹配度很高，即使岗位中的工作城市(“上海”)和人才期望的工作城市(“北京”)明显不匹配。相关解决方法只是从岗位和简历中提取实体，然后将其融合到自由文本的表征中，以增强缺失的语义。没有充分考虑抽取到的实体的来源，而这些实体对于匹配岗位和简历无疑是至关重要的。具体来说，例如，在图1中，岗位的城市属性中的实体“上海”和求职者的工作经历中的实体“上海”，在匹配岗位和简历时显然不能被同等对待。
46.此外，不同于在典型文本匹配任务中，文本的顺序特征和局部交互可以通过lstm和cnn进行很好地建模，从岗位或简历的半结构化属性中，尚不能很好地建模其语法和上下文特征，因为多元属性之间没有明确的关系。因此，对岗位或简历中的多元属性之间的复杂关系进行建模(即内部交互)是很有必要的。同时，岗位和简历的自由文本属性之间的外部交互也是影响匹配结果的重要因素。
47.有鉴于此，本说明书一个或多个实施例提供了一种简历与岗位匹配度预测方案，首先获取岗位信息和简历信息中半结构化的键(key)和值(value)及其来源(source)。然后基于每个岗位信息和简历信息属性的键和值、与对应的源表示，通过包括级联的预训练语言模型、transformer编码器和单标签分类模型的预测模型，预测所述简历信息与所述岗位信息的匹配度。从而通过全面地探索人岗匹配中半结构化多元属性的内部交互和外部交互，使得匹配结果更加准确。下面对本技术各具体实施例的技术方案进行说明。
48.参考图2，本说明书一个实施例的简历与岗位匹配度预测方法，包括以下步骤：
49.步骤s201、获取所述岗位信息中半结构化的每个岗位属性的第一键和第一值，以及所述简历信息中半结构化的每个简历属性的第二键和第二值，其中，所述第一键、第一值、第二键和第二值都是以文本数据表示的；
50.在本实施例中，为解决人岗匹配问题，需要预测招聘者发布的岗位信息和求职者上传的简历信息之间的匹配程度。一般来说，在在线招聘服务中，人岗匹配数据由三部分组成，即岗位、简历以及岗位与简历的互动记录。一个岗位由工作简介(例如，岗位名称、城市和工资)和岗位描述(例如，关于技能或经验的要求)组成。一份简历由求职者的个人简介(如：年龄、性别和学历)，以及工作经验(如：在以前/现在的公司的项目经验)组成。一条互动记录包括一个岗位和一份简历的id以及它们相应的匹配度。
51.在本步骤中，岗位信息和简历信息是由半结构化的多元属性组成的，其中每个属性由一个属性键和一个属性值构成。属性键通常用文本数据描述；而属性值可以是文本、类别或数字等。属性键和属性值遵循一定的从属关系，并且可以很容易地被转换为文本数据。例如，在一个岗位中，属性键可以是“岗位名称”、“最低工资”、“是否出差”等，他们对应的属性值分别以文本、数字和类别的形式给出，例如，“营销经理”、“1000”和“是”。我们可以通过人工操作轻松地将它们转化为“营销经理”,“1000rmb”和“需要出差”。属性源则用来表示属性的来源，它表示该属性是来自岗位信息还是来自简历信息。
52.步骤s202、基于每个所述岗位属性的第一键和第一值、与所述岗位信息对应的第一源表示、每个所述简历属性的第二键和第二值、与所述简历信息对应的第二源表示，通过包括级联的预训练语言模型、transformer编码器和单标签分类模型的预测模型，预测所述简历信息与所述岗位信息的匹配度。
53.在本实施例中，通过对岗位信息和简历信息中半结构化的属性键、属性值、属性源的处理，最终得到了所述简历信息与所述岗位信息的匹配度。考虑了岗位信息和简历信息中半结构化属性之间的关系，使得匹配结果更加准确。
54.在另外一些实施例中，参考图3，前述实施例的预测所述简历信息与所述岗位信息的匹配度包括：
55.步骤s301、对于每个所述岗位属性的第一键和第一值，通过所述预训练语言模型分别将该第一键和该第一值编码到语义空间中，以得到第一键嵌入和第一值嵌入，并融合该第一键嵌入和该第一值嵌入，以得到该岗位属性的第一融合嵌入；
56.步骤s302、通过所述预训练语言模型将所述第一源表示编码到所述语义空间中，以得到第一源嵌入；
57.步骤s303、对于每个所述简历属性的第二键和第二值，通过所述预训练语言模型分别将该第二键和该第二值编码到所述语义空间中，以得到第二键嵌入和第二值嵌入，并融合该第二键嵌入和该第二值嵌入，以得到该简历属性的第二融合嵌入；
58.步骤s304、通过所述预训练语言模型将所述第二源表示编码到所述语义空间中，以得到第二源嵌入；
59.在本实施例中，对于前述实施例中的获取岗位信息和简历信息，其还包括将岗位信息和简历信息中各属性的子部分(即属性键、属性值和属性源)编码到同一语义空间中，以统一各属性的子部分的表示。
60.作为一个具体的示例，可以采用和符号来分别表示出现在一条互动记录中的岗位信息和简历信息:
[0061][0062][0063]
其中，ji代表岗位中的第i个属性，i∈{1，2，
…
,m}。rj表示简历中的第j个属性，j∈{1,2,
…
,n}；m和n是和中相应的属性个数。对于岗位将第i个属性ji的键和值分别表示为和简历中的属性依此类推。此外中的属性依此类推。此外被用来表示岗位和简历之间的真实匹配结果的二元标签。即0表示不匹配(负例)，1表示匹配(正例)。
[0064]
基于上述符号，人岗匹配任务可以被表述为从现有的岗位-简历交互记录中学习一个预测函数，以便准确地预测出未见过的岗位-简历对的匹配度。常见的过程是构建一个人岗匹配算法，将岗位和简历编码为一个潜在的向量，然后应用分类函数来预测匹配度。上述过程可以表述为：
[0065][0066]
其中是岗位和简历之间的预测匹配度。是预测函数，其目
的是使尽可能接近真正的匹配标签
[0067]
在本实施例中，通过预训练语言模型bert对岗位信息和简历信息中各属性的子部分编码，其公式如下：
[0068][0069][0070][0071][0072]
其中，是中第i个属性和中第j个属性相应的属性键和属性值，i∈{1,2,
…
,m}且j∈{1，2，
…
，n}。d
em
是预先设置的bert输出的维度。同样地，源编码过程如下：
[0073]js
＝bert(js)，
[0074]rs
＝bert(rs)，
[0075]
其中，分别是和中属性对应的属性源。在本实施例中，采用bert最后一层的隐藏状态和池化操作来获取输出的属性键、属性值和属性源。
[0076]
在本实施例中，获取到的属性键和属性值需要建立起对应的联系，将每个属性键和对应的属性值特征融合，即可得到所有特征融合后的嵌入，对应于岗位的为第一融合嵌入，对应于简历的为第二融合嵌入，嵌入中的每一个元素对应一个具体的属性。
[0077]
具体的，将和中每个属性的属性值和属性键融合嵌入如下：
[0078][0079][0080]
其中，分别是中第i个属性和中第j个属性的融合嵌入后的表达。
[0081]
在对和中的所有属性进行上述融合嵌入操作后，得到和的矩阵表示如下：
[0082][0083][0084]
其中，和分别为和的矩阵表示(即第一矩阵和第二矩阵)。
[0085]
步骤s305、通过所述transformer编码器，进行包括每个所述岗位属性的第一融合嵌入的第一矩阵的内部交互以得到第一内部交互属性嵌入矩阵，并进行包括每个所述简历属性的第二融合嵌入的第二矩阵的内部交互以得到第二内部交互属性嵌入矩阵；
[0086]
在本步骤中，为了捕捉多元属性之间的关系，进行所述第一矩阵的内部交互以得到所述第一内部交互属性嵌入矩阵包括：利用所述transformer编码器中的多头自注意力
机制，根据所述第一矩阵而得到第一多头自注意力矩阵；通过所述transformer编码器中的第一全连接前馈层，根据所述第一多头自注意力矩阵而得到所述第一内部交互属性嵌入矩阵。
[0087]
进行所述第二矩阵的内部交互以得到所述第二内部交互属性嵌入矩阵包括：利用所述transformer编码器中的多头自注意力机制，根据所述第二矩阵而得到第二多头自注意力矩阵；通过所述transformer编码器中的第二全连接前馈层，根据所述第二多头自注意力矩阵而得到所述第二内部交互属性嵌入矩阵。
[0088]
作为一个具体的示例：
[0089][0090][0091]
mj＝concat(m
j1
，m
j2
，
…
，m
jh
)
·
oj，
[0092]
mr＝concat(m
r1
，m
r2
，
…
,m
rh
)
·
or，
[0093]
其中，和是可训练的网络参数；h∈{1,2,
…
,h}，h表示transformer编码器的头数。在本实施例中，设定dq＝dk＝dv＝d
in
/h。m
jh
和m
rh
是和在第h个头的自注意力矩阵表示。mj和mr是和的多头自注意力矩阵表示(即岗位的多头自注意力矩阵和简历的多头自注意力矩阵)。
[0094]
之后，将岗位的多头自注意力矩阵和简历的多头自注意力矩阵输入transformer编码器的前馈层，获得和的内部交互表示(即岗位的内部交互属性嵌入矩阵和简历的内部交互属性嵌入矩阵)如下：
[0095][0096][0097]
其中，分别是中第i个属性和中第j个属性的内部交互属性嵌入，i∈{1,2,
…
,m}且j∈{1,2,
…
,n}。
[0098]
步骤s306、将所述第一内部交互属性嵌入矩阵中的每个元素分别与所述第一源嵌入融合，以得到第一更新嵌入矩阵；
[0099]
步骤s307、将所述第二内部交互属性嵌入矩阵中的每个元素分别与所述第二源嵌入融合，以得到第二更新嵌入矩阵；
[0100]
在本步骤中，主要专注于岗位和简历之间的多元属性交互。进一步将属性源融合到经过内部交互的属性中，以表明属性的来源，并为岗位和简历产生更新的矩阵表示。获取
到的属性和属性源需要建立起对应的联系，将每个属性源和对应的属性特征融合嵌入，即可得，对应于岗位的第一更新嵌入矩阵，对应于简历的第二更新嵌入矩阵，矩阵中的每一个元素对应一个具体的属性。
[0101]
具体可以表示为：
[0102][0103][0104][0105][0106]
其中，分别是中第i个属性和中第j个属性的属性源特征融合后的表示。
[0107]
步骤s308、通过所述transformer编码器，进行所述第一更新嵌入矩阵与所述第二更新嵌入矩阵之间的外部交互，以得到第一外部交互属性嵌入矩阵和第二外部交互属性嵌入矩阵；
[0108]
在本步骤中，建模外部交互时需要借助于transformer编码器中的多头自注意力机制和前馈神经网络，得到岗位的第一外部交互属性嵌入矩阵和简历的第二外部交互属性嵌入矩阵。具体的，参考图4，其还可以包括以下步骤：
[0109]
步骤s401、将所述第一更新嵌入矩阵与所述第二更新嵌入矩阵拼接以得到联合矩阵；
[0110]
步骤s402、利用所述transformer编码器中的多头自注意力机制，根据所述联合矩阵而得到多头自注意力联合矩阵；
[0111]
步骤s403、通过所述transformer编码器中的第三全连接前馈层，根据所述多头自注意力联合矩阵而得到所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵。
[0112]
具体的，将和的第二岗位属性矩阵mj′
和第二简历属性矩阵mr′
合并为联合矩阵xe：
[0113][0114]
然后应用多头自注意力层来捕捉和之间的多元属性关系，将所述联合矩阵输入transformer编码器的自注意力层，得到多头自注意力联合矩阵，如下：
[0115][0116]
me＝concat(m
e1
，m
e2
，
…
，m
eh
)
·
oe，
[0117]
其中，和是可训练的网络参数；h∈{1，2，
…
，h}，h表示transformer编码器的头数。设定dq＝dk＝dv＝d
ex
/h。
之后，m
eh
是和在第h个头的自注意力联合表示。me是和的多头自注意力联合矩阵。
[0118]
最后，对me采用全连接的前馈层，得到和的外部交互表示，将所述多头自注意力联合矩阵输入transformer编码器的第三全连接前馈层，得到所述岗位的外部交互属性嵌入矩阵和所述简历的外部交互属性嵌入矩阵，如下所示：
[0119][0120][0121][0122]
其中，和是中第i个属性和中第j个属性的外部交互属性嵌入表示，i∈{1，2，
…
，m}且j∈{1，2，
…
，n}。最后，mj″
和mr″
是和各自的外部交互属性嵌入矩阵。
[0123]
步骤s309、通过所述单标签分类模型，根据所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵，预测所述简历信息与所述岗位信息的匹配度。
[0124]
在本步骤中，在探索了半结构化多元属性的内部与外部交互后，得到岗位和简历的丰富表示。通过分析岗位和简历的外部交互属性嵌入矩阵，可以得到人岗匹配的结果。
[0125]
从上面所述可以看出，本技术实施例首先获取岗位信息和简历信息的键和值及其来源。然后对岗位和简历各自的键和值之间的内部交互以及岗位和简历之间源与键和值的外部交互进行分层建模。将键嵌入和源嵌入分别融合到值嵌入中从而明确表明属性中值所对应的键和来源。最后，根据岗位和简历的外部交互属性嵌入矩阵来预测岗位与简历之间的匹配度。从而通过全面地探索人岗匹配中半结构化多元属性的内部和外部交互，使得匹配结果更加准确。
[0126]
在另外一些实施例中，前述实施例的所述融合该第一键嵌入和该第一值嵌入、所述融合该第二键嵌入和该第二值嵌入、所述将所述第一内部交互属性嵌入矩阵中的每个元素分别与所述第一源嵌入融合、所述将所述第二内部交互属性嵌入矩阵中的每个元素分别与所述第二源嵌入融合都包括相加融合操作。
[0127]
在另外一些实施例中，前述实施例的所述融合该第一键嵌入和该第一值嵌入、所述融合该第二键嵌入和该第二值嵌入、所述将所述第一内部交互属性嵌入矩阵中的每个元素分别与所述第一源嵌入融合、所述将所述第二内部交互属性嵌入矩阵中的每个元素分别与所述第二源嵌入融合都包括拼接融合操作。
[0128]
在本技术中，属性键和属性值的特征融合嵌入可以采用相加融合，也可以采用拼接融合，在相加融合时，获得的矩阵的元素数量是属性键数量与属性值数量的和，拼接融合时，获得的矩阵元素数量与属性键数量相同。
[0129]
具体的，融合嵌入过程可以表示为：
[0130][0131]
[0132]
其中，可以根据实际实验效果进行相加或拼接融合操作，分别是中第i个属性和中第j个属性的融合后的表达。d
in
可以是d
em
或者2
·dem
，取决于采用的融合策略，在相加融合时，d
in
是2
·dem
，拼接融合时，d
in
是d
em
。
[0133]
在另外一些实施例中，参考图5，前述实施例的所述根据所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵预测所述匹配度包括：
[0134]
步骤s501、分别通过所述单标签分类模型中的第一池化层和第二池化层，对所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵进行池化，以得到岗位向量和简历向量；
[0135]
步骤s502、将所述岗位向量与所述简历向量聚合以得到聚合向量；
[0136]
步骤s503、通过所述单标签分类模型中的多层感知机，对所述聚合向量进行语义融合，并根据语义融合后的所述聚合向量，利用单个神经元得到匹配分数；
[0137]
步骤s504、利用激活函数，根据所述匹配分数而得到所述简历信息与所述岗位信息的匹配度。
[0138]
在本实施例中，首先采用池化层将岗位和简历的矩阵表示分别转换为向量表示，聚合岗位和简历的向量，然后将聚合向量送入多层感知机(multi-layer perceptron，mlp)进行进一步的语义融合。可以采用单个神经元来输出匹配分数，最后利用激活函数根据所述匹配分数得到匹配结果，具体的，匹配分数被映射到[0,1]的范围。根据实际需求，可以选择预设范围内的岗位和简历输出确定或否定的结果。例如可以选择[0,0.5]内的匹配结果为匹配失败，输出0，(0.5,1]内的匹配结果为匹配成功，输出1。即0表示不匹配(负例)，1表示匹配(正例)。
[0139]
作为一个具体的示例，首先采用池化层将和的矩阵表示分别转换为向量表示如下：
[0140]
j＝pooling(mj″
),
[0141]
r＝pooling(mr″
),
[0142]
其中，j和r分别是和的向量表示。在本实施例中，采用开源机器学习框架pytorch提供的自适应平均池化函数。
[0143]
接下来，聚合和的向量，然后将聚合向量送入多层感知机(multi-layer perceptron，mlp)进行进一步的语义融合。然后，采用单个神经元来输出匹配分数作为预测标签。在本实施例中，将标签预测过程公式化描述如下：
[0144]gjr
＝concat(j,r,j-r)
[0145][0146]
其中，g
jr
是和的聚合向量；mlp在本实施例中指带有两个非线性层和一个relu层的多层感知机；sigmoid被用来将匹配分数映射到[0,1]的范围。具体的，匹配分数被sigmoid映射到[0,1]的范围。根据实际需求，可以选择预设范围内的岗位和简历输出确定或否定的结果。一般来说，预测阈值被默认设置为0.5。如果一个样本的预测匹配度超过0.5，就可以将其归类为正样本，即当前的岗位与当前的简历匹配。否则，它就是一个负样本。
[0147]
在另外一些实施例中，前述实施例的池化是利用机器学习框架pytorch提供的自适应平均池化函数而进行的。
[0148]
在另外一些实施例中，前述实施例的预测模型是通过最小化二元交叉熵损失而被训练的。
[0149]
在另外一些实施例中，为了使根据本技术的简历与岗位匹配度预测方法构建的模型(内部(internal)和外部(external)交互(interaction)模型，简称inexit模型)输出结果更准确，需要对模型进行训练，在模型的训练阶段，每个训练实例由一个岗位一份简历和它们相应的匹配度组成。在本实施例中，用小批量(mini-batch)策略从训练集中随机抽取训练实例。通过最小化以下二元交叉熵损失来训练模型的参数，以获得最佳训练轮次：
[0150][0151]
其中，是第i个训练实例的真实匹配度；是由模型生成的第i个训练实例的预测匹配度；n是训练实例的总数。本实施例中通过采用指数衰减来训练模型，以改变每个训练轮次的学习率，避免过拟合。
[0152]
作为一个具体的示例，从一项人岗智能匹配大赛提供的公开数据集中构建了一个包含半结构化多元属性的真实人岗匹配数据集。在所有的原始数据中，首先通过删除那些属性不完整的岗位和简历来清洗数据。然后，过滤那些没有明确信号表明当前岗位与岗位是否匹配的互动历史。值得注意的是，在原始数据中，不匹配的实例(负例)比匹配的实例(正例)多得多。为了减少数据的偏差，随机抽取了与正例数量相同的负例。最后，随机将80％的有用的互动历史分成训练，10％用于验证，剩下的10％用于测试。为了保护人才和公司的隐私，所有的互动历史都被匿名化，删除了身份属性，如性别、姓名、地址等。处理过的数据集的统计数据总结在表1中。如表1所示，值得一提的是，对于一个岗位和简历，分别有11个和12个属性，同时每个属性平均包含28.20和14.74个字。通常情况下，大量的属性可能会给人岗匹配方法在预测岗位和简历之间的准确匹配度带来更大挑战。此外，在图6中对岗位和简历中的多元属性进行了详细描述，包括不同属性源，即岗位和简历中的属性键描述，还介绍了每个属性键的相应值类型，它可以是数值、文本和类别。
[0153]
表1:数据集统计数据
[0154][0155]
接下来通过与有竞争力的人岗匹配基线模型进行比较来检验本技术提出的人岗匹配方法构建的模型的有效性。基线和本技术的模型总结如下：
[0156]
pjfnn：一个基于cnn的模型，其中采用了两个cnn来探索岗位描述和工作经验的语义表示。匹配度是通过余弦相似度计算的。
[0157]
bpjfnn:一个基于rnn的模型，它采用bilstm而不是cnn作为特征提取器。此外，它还利用一个聚合层来预测岗位和简历之间的匹配程度。
[0158]
jrmpm:它采用了一个内容记忆模块来探索招聘者和求职者的偏好，然后用来丰富他们的表征。
[0159]
apjfnn:bpjfnn的改进版，提出了一个分层的递归注意力模型，全面学习岗位和简历的能力感知表征。
[0160]
mv-con:它包括一个基于文本和基于关系的匹配组件，后接一个共同教学机制，其目的是从稀疏、嘈杂的jrm互动数据中学习匹配。
[0161]
inexit:本技术提出的人岗匹配方法建立的模型，探讨了内部和外部交互，其专注于为人岗匹配中的半结构化多元属性进行全面建模。
[0162]
在本具体的示例中，所有验证实验都是用python和开源机器学习框架pytorch实现的，并在配有一块nvidia rtx3090 gpu显卡的服务器上运行。属性的子部分嵌入通过预训练的bert-base-chinese语言模型进行初始化，其维度为d
em
＝768。多头自注意力机制的隐藏层大小和头数分别设置为768和8。为了降低模型的复杂度，本实施例对不同长度的属性子部分进行填充/截断。具体来说，将岗位描述和工作经验的值的长度设置为256；其余的子部分设置为16。
[0163]
在优化模型参数时，在本实施例中采用adaptive moment(adam)优化器来训练模型，最多训练20轮。采用早停(early stop)机制来确定训练阶段的最佳轮次，如果在验证集上的acc指标连续5轮不增加，训练就会被提前终止。还采用了层正则化(layer normalization)和梯度剪裁(gradient clipping)机制来避免过拟合。批训练的大小为16，丢弃率(dropout rate)为0.1。初始学习率设置为4*10-6
，学习率的衰减率为1*10-9
。至于融合策略，通过实验观察到，在分步融合机制中采用相加操作时，性能达到最佳。
[0164]
参考表2，为前述的几种现有基线模型和inexit在auc、acc、precision、recall和
f1评分上的表现，其中每一列中的最佳基线和最佳模型的结果分别用下划线和加粗表示。
[0165]
表2
[0166][0167]
具体来说，inexit在auc、acc、precision、recall以及f1指标上分别比最佳基线mv-con提高了4.28％、4.10％、4.80％、2.34％和3.56％。本实施例的inexit与最佳基线mv-con的预测结果之间的差异被0.01水平下的双尾配对t检验检测出具有统计学意义。值得注意的是，inexit在precision指标上有最高的性能改进(4.80％)，而在recall指标上对最佳基线mv-con的改进则最低(2.34％)。这种差异表明，比起被错分为正例的负例数量，有更多的正例被错误地归类为负例，而不是被错误地归类为正面的负面实例的数量。这可能是由于考虑了太多的属性，在匹配模式中引入了额外的噪音，导致接受一个岗位和简历之间的匹配比拒绝它更困难。在整体性能上观察到的现象证明，考虑半结构化多元属性可以在一定程度上有利于人岗匹配。本技术的人岗匹配方法相比与当前相关的方法具有一定优势。
[0168]
下面给出一个具体的实施场景，岗位信息为：
[0169]
岗位名称:运营主管薪资:6001-8000
[0170]
是否出差:是工作城市:c530
[0171]
招聘人数:3最低工作年限:3年
[0172]
岗位类型:无最低学历要求:本科
[0173]
招聘开始时间:2019.02.19招聘结束时间:2019.03.31
[0174]
岗位描述
[0175]
1.协助运营经理完成部门的计划任务。
[0176]
2.指导和督促运营助理开展落实各项工作，并定期进行培训和考核
[0177]
3.负责所辖区域的日常运营。
[0178]
4与商户保持良好的合作关系，及时跟进和回访维修和投诉。
[0179]
5.负责检查和监督工作人员的服务规范和工作条件。
[0180]
6.按时巡视门店，及时解决问题，如消防隐患、安全设施故障等。
[0181]
7.负责收取租金、物业费、能源带以及租赁期内的其他相关费用。
[0182]
应聘简历信息为：
[0183]
期望薪资:10001-15000当前薪资:10001-15000
[0184]
期望工作城市:c530当前居住城市:c530
[0185]
开始工作时间:2015年年龄:36岁
[0186]
学历:大专当前岗位类型:无
[0187]
期望工作行业:物业管理、建筑工程当前工作行业:商业中心物业管理期望岗位类型:物业管理、生产管理、运营
[0188]
工作经验
[0189]
1.曾担任客服工作，与商家进行业务洽谈，处理消费者投诉，善于维护群众关系。
[0190]
2.曾担任物业经理，协助运营部门进行物业管理。
[0191]
3.擅长员工管理，培训、考核和团队建设。
[0192]
4.曾负责消防检查、公共安全、监督和检查公共设施。
[0193]
5.曾负责商场的日常运营，主持各种事务，保管文档资科。
[0194]
在该示例中，由最好的基线模型mv-con和本技术实施例提出的inexit预测的匹配结果分别为：mv-con：0.58，inexit：0.17。相应的真实匹配结果为0，即不匹配。
[0195]
最佳基线mv-con给出的当前岗位和简历之间的预测匹配度为0.58，这表明在普遍接受的阈值(即0.5)下，匹配结果为正。在浏览了mv-con模型主要依赖的岗位描述和工作经验后，可以发现岗位和简历之间的匹配度很高。例如，在岗位描述中，招聘者要求求职者应负责“日常运营”。在工作经验中，求职者表露出相应的能力，使自己成为合适的人选，即“负责商场的日常运营”。此外，岗位描述和工作经验之间的其他重叠部分，如“培训”、“考核”、“投诉”、“安全”等字样，也为mv-con将岗位和简历归为匹配的正例提供了强有力的支持。
[0196]
然而，与最佳基线模型相比，本技术提出的inexit预测的岗位和简历之间的匹配度为0.17，这在普遍接受的阈值下接近于真实的匹配度0。mv-con和inexit之间的差异可以归因于inexit考虑了整个半结构化多元属性，而不仅仅是自由文本属性，即岗位描述和工作经验。在这种情况下，招聘者要求求职者的最低教育水平为“本科”，而且只能提供6,001到8,000的薪水。而求职者要求的是难以满足的薪水，即从10,001到15,000，而且学历水平不合格，即“大专”。鉴于上述观察，inexit很大概率会将当前岗位和简历归类为不匹配的负例。对真实案例的定性分析表明，本技术提出的inexit模型可以很好地利用半结构化多元属性来全面地匹配在线招聘服务中的岗位和简历。
[0197]
需要说明的是，本技术实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。
[0198]
需要说明的是，上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0199]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种简历与岗位匹配度预测装置。
[0200]
参考图7，所述简历与岗位匹配度预测装置，包括：
[0201]
获取模块701，被配置为获取所述岗位信息中半结构化的每个岗位属性的第一键和第一值，以及所述简历信息中半结构化的每个简历属性的第二键和第二值，其中，所述第一键、第一值、第二键和第二值都是以文本数据表示的；
[0202]
预测模块702、被配置为基于每个所述岗位属性的第一键和第一值、与所述岗位信息对应的第一源表示、每个所述简历属性的第二键和第二值、与所述简历信息对应的第二源表示，通过包括级联的预训练语言模型、transformer编码器和单标签分类模型的预测模型，预测所述简历信息与所述岗位信息的匹配度。
[0203]
在另外一些实施例中，所述预测模块702预测所述简历信息与所述岗位信息的匹配度具体包括：
[0204]
对于每个所述岗位属性的第一键和第一值，通过所述预训练语言模型分别将该第一键和该第一值编码到语义空间中，以得到第一键嵌入和第一值嵌入，并融合该第一键嵌入和该第一值嵌入，以得到该岗位属性的第一融合嵌入；
[0205]
通过所述预训练语言模型将所述第一源表示编码到所述语义空间中，以得到第一源嵌入；
[0206]
对于每个所述简历属性的第二键和第二值，通过所述预训练语言模型分别将该第二键和该第二值编码到所述语义空间中，以得到第二键嵌入和第二值嵌入，并融合该第二键嵌入和该第二值嵌入，以得到该简历属性的第二融合嵌入；
[0207]
通过所述预训练语言模型将所述第二源表示编码到所述语义空间中，以得到第二源嵌入；
[0208]
通过所述transformer编码器，进行包括每个所述岗位属性的第一融合嵌入的第一矩阵的内部交互以得到第一内部交互属性嵌入矩阵，并进行包括每个所述简历属性的第二融合嵌入的第二矩阵的内部交互以得到第二内部交互属性嵌入矩阵；
[0209]
将所述第一内部交互属性嵌入矩阵中的每个元素分别与所述第一源嵌入融合，以得到第一更新嵌入矩阵；
[0210]
将所述第二内部交互属性嵌入矩阵中的每个元素分别与所述第二源嵌入融合，以得到第二更新嵌入矩阵；
[0211]
通过所述transformer编码器，进行所述第一更新嵌入矩阵与所述第二更新嵌入矩阵之间的外部交互，以得到第一外部交互属性嵌入矩阵和第二外部交互属性嵌入矩阵；
[0212]
通过所述单标签分类模型，根据所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵，预测所述简历信息与所述岗位信息的匹配度。
[0213]
进一步的，所述融合该第一键嵌入和该第一值嵌入、所述融合该第二键嵌入和该第二值嵌入、所述将所述第一内部交互属性嵌入矩阵中的每个元素分别与所述第一源嵌入融合、所述将所述第二内部交互属性嵌入矩阵中的每个元素分别与所述第二源嵌入融合都包括相加融合操作。
[0214]
进一步的，所述融合该第一键嵌入和该第一值嵌入、所述融合该第二键嵌入和该第二值嵌入、所述将所述第一内部交互属性嵌入矩阵中的每个元素分别与所述第一源嵌入融合、所述将所述第二内部交互属性嵌入矩阵中的每个元素分别与所述第二源嵌入融合都包括拼接融合操作。
[0215]
进一步的，进行所述第一矩阵的内部交互以得到所述第一内部交互属性嵌入矩阵包括：利用所述transformer编码器中的多头自注意力机制，根据所述第一矩阵而得到第一多头自注意力矩阵；通过所述transformer编码器中的第一全连接前馈层，根据所述第一多头自注意力矩阵而得到所述第一内部交互属性嵌入矩阵；
[0216]
进行所述第二矩阵的内部交互以得到所述第二内部交互属性嵌入矩阵包括：利用所述transformer编码器中的多头自注意力机制，根据所述第二矩阵而得到第二多头自注意力矩阵；通过所述transformer编码器中的第二全连接前馈层，根据所述第二多头自注意力矩阵而得到所述第二内部交互属性嵌入矩阵。
[0217]
进一步的，进行所述外部交互以得到所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵包括：
[0218]
将所述第一更新嵌入矩阵与所述第二更新嵌入矩阵拼接以得到联合矩阵；
[0219]
利用所述transformer编码器中的多头自注意力机制，根据所述联合矩阵而得到多头自注意力联合矩阵；
[0220]
通过所述transformer编码器中的第三全连接前馈层，根据所述多头自注意力联合矩阵而得到所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵。
[0221]
进一步的，根据所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵预测所述匹配度包括：
[0222]
分别通过所述单标签分类模型中的第一池化层和第二池化层，对所述第一外部交互属性嵌入矩阵和所述第二外部交互属性嵌入矩阵进行池化，以得到岗位向量和简历向量；
[0223]
将所述岗位向量与所述简历向量聚合以得到聚合向量；
[0224]
通过所述单标签分类模型中的多层感知机，对所述聚合向量进行语义融合，并根据语义融合后的所述聚合向量，利用单个神经元得到匹配分数；
[0225]
利用激活函数，根据所述匹配分数而得到所述简历信息与所述岗位信息的匹配度。
[0226]
进一步的，所述池化是利用机器学习框架pytorch提供的自适应平均池化函数而进行的。
[0227]
进一步的，所述预测模型是通过最小化二元交叉熵损失而被训练的。
[0228]
为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0229]
上述实施例的装置用于实现前述任一实施例中相应的人岗匹配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0230]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的简历与岗位匹配度预测方法。
[0231]
图8示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0232]
处理器1010可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。
[0233]
存储器1020可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。
[0234]
输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0235]
通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0236]
总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0237]
需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。
[0238]
上述实施例的电子设备用于实现前述任一实施例中相应的简历与岗位匹配度预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0239]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的简历与岗位匹配度预测方法。
[0240]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0241]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的人岗匹配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0242]
所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本技术的范围(包括权利要求)被限于这些例子；在本技术的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本技术实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。
[0243]
另外，为简化说明和讨论，并且为了不会使本技术实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本技术实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台
的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本技术的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此，这些描述应被认为是说明性的而不是限制性的。
[0244]
尽管已经结合了本技术的具体实施例对本技术进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态ram(dram))可以使用所讨论的实施例。
[0245]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本技术实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：读取柱状图自动生成地质实体模型和智能设计锚杆的方法与流程

简历与岗位匹配度预测方法及相关设备与流程

相关文献

最热文献