简历内容提取方法及装置与流程

2022-09-04 08:04:30 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别涉及一种简历内容提取方法。本技术同时涉及一种简历内容提取装置、一种计算设备，以及一种计算机可读存储介质。

背景技术：

2.随着互联网技术的发展，电子文档形式的简历呈现爆发式增长。为了提高对大量简历的处理效率，可以对简历进行内容提取。
3.相关技术中，通常对简历中的内容进行分词，对分词结果进行关键词匹配，基于匹配结果，以实现简历内容提取。但是，在具体应用中，简历的版式往往多种多样，其中更不乏一些个性化版面设计，使得简历中内容的分布多样化，从而在对简历进行内容提取时，容易造成对简历中内容的分词结果不准确。因此，简单关键词匹配的方法容易导致简历内容提取结果不准确，且上述方法的泛化性较差，难以应用于不同版式的多种简历。

技术实现要素：

4.有鉴于此，本技术实施例提供了一种简历内容提取方法，以解决现有技术中存在的技术缺陷。本技术实施例同时提供了一种简历内容提取装置，一种计算设备，以及一种计算机可读存储介质。
5.根据本技术实施例的第一方面，提供了一种简历内容提取方法，包括：
6.获取待识别的简历文档；
7.对所述简历文档进行语义识别，将所述简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档；
8.从所述拼接后的文档中识别关键字段，根据所述关键字段，从所述简历文档中提取目标简历内容。
9.根据本技术实施例的第二方面，提供了一种简历内容提取装置，包括：
10.文档获取模块，被配置为获取待识别的简历文档；
11.文本拼接模块，被配置为对所述简历文档进行语义识别，将所述简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档；
12.内容提取模块，被配置为从所述拼接后的文档中识别关键字段，根据所述关键字段，从所述简历文档中提取目标简历内容。
13.根据本技术实施例的第三方面，提供了一种计算设备，包括：
14.存储器和处理器；
15.所述存储器用于存储计算机可执行指令，所述处理器执行所述计算机可执行指令时实现所述简历内容提取方法的步骤。
16.根据本技术实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述简历内容提取方法的步骤。
17.根据本技术实施例的第五方面，提供了一种芯片，其存储有计算机程序，该计算机
程序被芯片执行时实现所述简历内容提取方法的步骤。
18.本技术一实施例提供的方案，通过获取待识别的简历文档；对简历文档进行语义识别，将简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档，从拼接后的文档中识别关键字段，根据关键字段，从简历文档中提取目标简历内容。其中，多行文本的语义存在关联。因此，拼接后的文本可以保证简历文档中原本表达关联语义但进行了换行的目标文本处于一行，从而减少换行导致的词语分离。因此，从拼接后的文档中识别关键字段，可以减少换行导致的词语分离引起的关键字识别错误，从而提高简历内容提取的准确度。
附图说明
19.图1是本技术一实施例提供的一种简历内容提取系统的结构示意图；
20.图2是本技术一实施例提供的第一种简历内容提取方法的流程图；
21.图3是本技术一实施例提供的第二种简历内容提取方法的流程图；
22.图4是本技术一实施例提供的第三种简历内容提取方法的流程图；
23.图5是本技术一实施例提供的第四种简历内容提取方法的流程图；
24.图6是本技术一实施例提供的第五种简历内容提取方法的流程图；
25.图7是本技术一实施例提供的第六种简历内容提取方法的流程图；
26.图8是本技术一实施例提供的第七种简历内容提取方法的流程图；
27.图9是本技术一实施例提供的第八种简历内容提取方法的流程图；
28.图10是本技术一实施例提供的第九种简历内容提取方法的处理流程图；
29.图11是本技术一实施例提供的一种简历内容提取装置的结构示意图；
30.图12是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
31.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
32.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
33.应当理解，尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。
34.首先，对本发明一个或多个实施例涉及的名词术语进行解释。
35.信息提取：指从结构化文本、半结构化文本或非结构化文本中提取结构化信息的技术。其中，结构化文本是指标题等具有特定格式的文本。半结构化文本是指包含结构化文
本和非结构文本的文本。非结构化文本是指不包含标题等具有特定格式文本的文本，例如，正文内容、摘要等等。
36.命名实体识别(ner，named entity recognition)：指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。
37.实体：指文本中具有特定意义的实体词汇或者短语描述。
38.文本分类：指在给定的分类体系中，将文本指定分到某个或某几个类别中。
39.光学字符识别(ocr，optical character recognition)：指对一定形式的文件进行分析识别处理，获取文件中文字的过程。
40.自动机(ac-tree)：一种多模式匹配算法，常用于在输入的一串字符串中匹配有限组“字典”例如字典树(trie树)中的子串。
41.简历内容提取属于对信息提取技术在简历处理场景中的应用。其中，信息提取技术指对结构化、半结构化及非结构化数据进行分析处理，提取得到结构化文本信息，是自然语言处理领域一项基础且重要的技术。简历内容提取可以对简历进行解析，基于解析结果提取文档中的内容，对于公司招聘、人才评估及人才管理等都具有重要作用和实际意义。
42.图1是本技术一实施例提供的一种简历内容提取系统的结构示意图。
43.本技术实施例提供的简历内容提取方法的执行主体可以是服务器，也可以是终端，本技术实施例对此不作限定。并且，该终端可以是任何一种可与用户进行人机交互的电子产品，例如个人计算机(pc，personal computer)、移动终端、掌上电脑ppc(pocket pc)、平板电脑等等。该服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心，本技术实施例对此不做限定。
44.以执行主体是终端为例，则终端获取待识别的简历文档；对简历文档进行语义识别，将简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档，从拼接后的文档中识别关键字段，根据关键字段，从简历文档中提取目标简历内容。并且，在将简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档时，可能会用到文本拼接模型，该文本拼接模型可以通过服务器训练得到并且发送至终端。在根据关键字段，从简历文档中提取目标简历内容时，可能会用到命名实体识别ner模型，该命名实体识别ner模型可以通过服务器训练得到并且发送至终端。
45.以执行主体是服务器为例，则服务器获取待识别的简历文档；对简历文档进行语义识别，将简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档，从拼接后的文档中识别关键字段，根据关键字段，从简历文档中提取目标简历内容。并且，服务器可以自行基于第一训练样本训练得到文本拼接模型，且在将简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档时，使用文本拼接模型。服务器可以自行基于第二训练样本训练得到命名实体识别ner模型，且在根据关键字段，从简历文档中提取目标简历内容时，使用命名实体识别ner模型。
46.本技术实施例中，多行文本的语义存在关联。因此，拼接后的文本可以保证简历文档中原本表达关联语义但进行了换行的目标文本处于一行，从而减少换行导致的词语分离。因此，从拼接后的文档中识别关键字段，可以减少换行导致的词语分离引起的关键字识别错误，从而提高简历内容提取的准确度。
47.本领域技术人员应能理解上述终端和服务器仅为举例，其他现有的或今后可能出
现的终端或服务器如可适用于本技术实施例，也应包含在本技术实施例保护范围以内，并在此以引用方式包含于此。
48.在本技术中，提供了一种简历内容提取方法。本技术同时涉及一种简历内容提取装置、一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。
49.图2示出了根据本技术一实施例提供的第一种简历内容提取方法的流程图，具体包括以下步骤：
50.s202，获取待识别的简历文档。
51.在具体应用中，简历文档是指记录人员的基本信息、教育经历、工作经历、项目经历、实习经历、活动经历、荣誉证书、技能介绍等等内容的文档。简历文档的文档格式可以是多种的。示例性的，文档格式可以包括：文字文档(word文档)、演示文稿(ppt格式文档)、便携式文档(pdf文档)等等。任何文档格式的简历文档均可用于本技术，本实施例对此不作限制。
52.并且，获取待识别的简历文档的方式可以是多种的。示例性的，可以从数据库中查找待识别的简历文档。或者，示例性的，可以接收用户上传的简历文档，作为待识别的简历文档。这都是合理的。任何可以获取待识别的简历文档的方式均可用于本技术，本实施例对此不作限制。
53.s204，对简历文档进行语义识别，将简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档。
54.在具体应用中，受书写习惯和简历版式的影响，描述一个完整经历的内容很可能出现换行，产生多行文本。例如，内容“在学校s1的实验室l1，跟随教授p1完成项目pj1，获得成果a1”，是描述一个完整经历：获得成果a1。换行后变为第1行“在学校s1的实验室l1”，第2行“跟随教授p1完成项目”，第3行“pj1，获得成果a1”。对此，可以将简历文档中换行引起的多行内容拼接为一行，得到拼接后的文档。并且，换行引起的多行内容描述一个完整经历，因此，存在语义上的关联。因此，可以对简历文档进行语义识别，将简历文档中语义存在关联的多行文本拼接为一行。
55.其中，对简历文档进行语义识别的方式具体可以是多种的。示例性的，按照文字表述习惯，句号或者分号前的文本的语义存在关联。因此，可以从简历文档中查找预设标点，例如句号或者分号；将查找到的预设标点之间的多行文本，确定为语义存在关联的多行文本。并且，对于查找到的第一个预设标点，将该第一个预设标点之前的多行文本确定为语义存在关联的多行文本。或者，示例性的，可以利用预先训练得到的文本拼接模型将简历文档中语义存在关联的多行文本拼接为一行。为了便于理解和合理布局，后续以可选实施例的形式对第二种示例进行具体说明。
56.另外，为了更好地应对版式和内容多样化的简历文档，可以在进行语义识别之前，对简历文档进行文本提取和分块。为了便于理解和合理布局，后续以可选实施例的形式对文本提取和分块的方式进行具体说明。
57.s206，从拼接后的文档中识别关键字段，根据关键字段，从简历文档中提取目标简历内容。
58.其中，关键字段为目标简历内容中的字段，可以根据对目标简历内容的提取需求
设置具体的关键字段。例如，目标简历内容为描述经历的内容，则关键字段可以包括“时间”、经历的名称、经历产生的级别和结果等等。目标简历内容为证书，则关键字段可以为“证书”。目标简历内容为技能，则关键字段可以为“技能”、“特长”等等。
59.在具体应用中，关键字段是基于提取需求设置的字段，后续需要提取关键字段的具体数据，因而需要先从拼接后的文档中识别出关键字段，从拼接后的文档中识别关键字段的方式可以是多种的，一种可能的实现方式为逐行进行识别，具体的，分别对拼接后的文档的每一行与预设关键字段进行匹配，将匹配成功的字符确定为关键字段，其中对每一行进行上述匹配可以是串行或者并行进行，即一行匹配结束后，再匹配下一行，或者各行匹配并行进行；另一种可能的实现方式中，可以将文档作为整体进行是识别，直接对拼接后的文档与预设关键字段进行匹配，将匹配成功的字符确定为关键字段。
60.另外，根据关键字段，从简历文档中提取目标简历内容的方式也可以是多种的。下面以示例性说明的形式进行具体描述。
61.示例性的，可以根据关键字段在建立文档中的位置信息，确定简历文档的版式信息，提取处于指定版式信息所表征区域中的内容，作为目标简历内容。或者，示例性的，可以识别关键字段的字段类型，利用与字段类型对应的目标提取方式从拼接后的文档中提取关键字段数据，作为目标简历内容。或者，示例性的，可以对拼接后的分档进行分块，得到多个文本子块；识别关键字段的字段类型，利用与字段类型对应的目标提取方式，分别从每个文本子块中提取关键字段数据，作为目标简历内容。第二个示例与第三个示例类似，区别在于第二个示例未对拼接后的文档进行分块。为了便于理解和合理布局，后续以可选实施例的形式对第三个示例进行具体说明。第二个示例的实现可以参见后续关于第三个示例的可选实施例中相同的部分。
62.本技术一实施例提供的方案中，多行文本的语义存在关联。因此，拼接后的文本可以保证简历文档中原本表达关联语义、但进行了换行的目标文本处于一行，从而减少换行导致的词语分离。因此，从拼接后的文档中识别关键字段，可以减少换行导致的词语分离引起的关键字识别错误，从而提高简历内容提取的准确度。
63.在一种可选的实施方式中，如图3本技术一实施例提供的第二种简历内容提取方法的流程图所示，该方法中目标简历内容为描述经历的内容，该方法包括如下步骤；
64.s302，获取待识别的简历文档。
65.上述s302与上述图2实施例中的s202为相同步骤，在此不再赘述，详见上述图2实施例的描述。
66.s304，利用预设的文档字符提取工具，从简历文档中提取简历文本，并对简历文本进行分块，获得包括描述经历的目标文本块。
67.在具体应用中，预设的文档字符提取工具例如可以为pdfminer。pdfminer是一个可以从pdf文档中提取信息的工具。与其他pdf相关的工具不同，它注重的完全是获取和分析文本数据。pdfminer可以获取某一页中文本的准确位置和一些诸如字体、行数的关联信息。若利用pdfminer，则可以通过简历文档的扩展名，识别简历文档的文档格式，调用pdf转换接口将文档格式不为pdf格式的简历文档转换为pdf格式，进而利用pdfminer从简历文档中提取简历文本。其中，pdf转换接口可以由pdf文档应用程序提供。另外，为了进一步提高简历文本的提取准确度，可以将ocr与pdfminer结合。具体的，可以利用ocr识别简历文档中
的文字例如汉字；在此基础上，可以利用预设的文档字符提取工具pdfminer，从简历文档中提取准确度更高的字符，作为补正字符；利用补正字符对ocr的识别结果进行补正。这样，将可以适用于多种格式的文档的ocr，与识别准确度更高的pdfminer工具进行互补，可以进一步提高简历文本的提取准确度。
68.并且，对简历文本进行分块，具体可以包括：识别简历文本中的标题字段，将两个不同标题字段之间的内容划分为一个文本块。在此基础上，可以按照文本块所包括内容的差异，对划分得到的文本块进行分类。示例性的，可以分别将每个文本块的第一行相邻的标题字段确定为该文本块的标题；从预先建立的标题与文本块类型的对应关系中，查找与该文本块的标题对应的文本块类型。或者，可以分别将每个文本块输入预先训练得到的第一分类模型，得到该文本块的文本块类型。其中，第一分类模型为利用样本文本块以及样本文本块的类型标签训练得到的。这样，可以将一份完整的简历文档划分为例如包括基本信息的文本块、包括教育信息的文本块、包括工作信息的文本块、包括活动信息的文本块、包括荣誉证书的文本块、包括技能信息的文本块等等不同类型的文本块等。在此基础上，经历信息通过教育、工作、活动的信息产生。因此，获得包括描述经历的目标文本块，示例性的，获得包括描述经历的目标文本块具体可以包括：将包括教育信息的文本块、包括工作信息的文本块、包括活动信息的文本块中的至少一种，确定为目标文本块。
69.s306，对简历文档中的目标文本块进行语义识别，将目标文本块中语义存在关联的多行目标文本拼接为一行，得到拼接后的文档。
70.其中，目标文本块是指描述经历的数据对应的文本块。
71.实际应用中，利用预设的文档字符提取工具，从简历文档中提取简历文本，并对简历文本进行分块，可以获得简历文本包括的各个文本块，然后可以确定该各个文本块中是否包括描述经历的目标文本块，如果包括，则可以确定获得了包括描述经历的目标文本块，也即描述经历的数据是结构化数据，集中在目标文本块中，此时对该目标文本块进行语义识别，将目标文本块中语义存在关联的多行目标文本拼接为一行，可以得到拼接后的文档，以便后续直接从拼接后的文档中提取描述经历的具体数据。
72.具体实现时，确定该各个文本块中是否包括描述经历的目标文本块时，可以提取各个文本块的关键词(如标题)，基于预先设定的描述经历的目标文本块对应的设定关键词，确定各个文本块是否为描述经历的目标文本块。
73.示例的，假设描述经历的目标文本块对应的设定关键词为：教育、工作、活动，对简历文本进行分块获得的各个文本块为基本信息文本块、教育信息文本块、工作信息文本块、活动信息文本块、荣誉证书文本块、技能信息文本块，其中教育信息文本块、工作信息文本块和活动信息文本块命中了描述经历的目标文本块对应的设定关键词，也即此时获取到目标文本块为教育信息文本块、工作信息文本块和活动信息文本。
74.需要说明的是，对简历文本进行分块获得的各个文本块中，若存在包括描述经历的目标文本块，则说明描述经历的数据是结构化数据，描述经历的数据集中在目标文本块中，因而只需对目标文本块进行识别，提取描述经历的具体数据，无需对除目标文本块外的其他文本块进行识别匹配，提高了内容提取效率。
75.本技术实施例中，目标文本块是指对简历文本进行分块，获得的各个文本块中描述经历对应的文本块，为了后续可以获得目标文本块中描述经历的具体数据，可以对简历
文档中的目标文本块进行语义识别，将目标文本块中语义存在关联的多行目标文本拼接为一行，得到拼接后的文档，便于后续直接从拼接后的文档中识别获得描述经历的具体数据，拼接后的文档中语义存在关联的数据均被拼接在一行，避免了语义存在关联的数据由于换行导致的提取数据缺失，提高了提取数据的完整性。
76.s308，从拼接后的文档中识别关键字段，根据关键字段，从简历文档中提取目标简历内容。
77.上述s308与上述图2实施例中的s206为相同步骤，在此不再赘述，详见上述图2实施例的描述。
78.在一种可选的实施方式中，如图4本技术一实施例提供的第三种简历内容提取方法的流程图所示，在上述对简历文本进行分块之后，本技术实施例提供的简历内容提取方法还可以包括如下步骤：
79.s402，确定是否获得目标文本块；
80.s404，若未获得目标文本块，则从简历文本的各分块中识别关键字段，并执行根据关键字段，从简历文档中提取目标简历内容。
81.需要说明的是，对简历文本进行分块可以获得简历文本包括的各个文本块，然后可以确定该各个文本块中是否包括描述经历的目标文本块，如果不包括，则可以确定未获得包括描述经历的目标文本块，也即描述经历的数据是非结构化数据，描述经历的数据可能分散分布于简历文本的各个位置，因而简历文本的各分块中均可能会存在关键字段，此时可以从简历文本的各分块中识别关键字段，并执行根据关键字段，从简历文档中提取目标简历内容。
82.在具体应用中，对于非结构化文本的数据，即分散分布于简历文本的各个位置的描述经历的数据，很大概率不存在换行。因此，可以直接从简历文本的各分块中识别关键字段，并执行根据关键字段，从简历文档中提取目标简历内容。上述识别关键字段相当于对简历全文也就是简历文本的各分块进行关键字段匹配。
83.其中，关键字段可以为“毕业院校：院校名称”、“专业：专业名称”、“学历：学历名称”、“毕业时间：日期”等等。并且，院校名称、专业名称、学历名称和日期可以为模糊检索。“模糊检索”是与“精准搜索”相反的一个概念，是指从简历文本中按照关键字段的同义词进行检索，从而得出较多的检索结果。同义词可以根据具体需求配置。如配置了“学校名称”与“北京大学”、“清华大学”为同义词，检索“学校名称”，则包含“北京大学”、“清华大学”的内容会作为检索结果。类似的，可以设置专业名称、学历名称和日期的同义词。例如，从简历文档中提取得到目标简历内容“毕业院校：北京大学；专业：计算机；学历：硕士；毕业时间：2010年10月”。
84.本实施例可以实现对以非结构化文本形式描述(即分散分布于简历文本的各个位置)的目标简历内容进行提取，从而提高本技术实施例的应用范围。
85.在一种可选的实施方式中，如图5本技术一实施例提供的第四种简历内容提取方法的流程图所示，上述根据关键字段，从简历文档中提取目标简历内容，具体可以包括如下步骤：
86.s502，确定各关键字段之间的相似度。
87.在具体应用中，各关键字段之间的相似度的确定，可以是多种的。示例性的，可以
计算各关键字段之间的欧氏距离，作为相似度；或者，统计各关键字段中位置相同的相同字符的个数，作为相似度；或者，预先建立同义词库，将各关键字段与同义词库匹配，得到是否为同义词的匹配结果，作为上述相似度，这都是合理的。其中，同义词是指语义相同的词语，例如，完整词语与该完整词语的简写词语互为同义词。
88.s504，从各关键字段中，确定相似度达到相似条件的目标关键字段。
89.示例性的，相似条件具体可以包括：相似度大于相似度阈值、为同义词等等。相似度阈值可以根据具体场景进行设置，例如，针对表征时间的关键字段，相似度阈值可以为1，也就是说表征时间的关键字段完全相同才认定为重复，这样针对时间场景的设置可以进一步提高准确度。例如，可以避免将关键字段“2012年”与“2011年”确定为目标关键字段。
90.s506，对目标关键字段进行去重，以及对各关键字段中除目标关键字段以外的关键字段进行融合，获得目标简历内容。
91.其中，对目标关键字段进行去重是指：选择目标关键字段中的一个作为保留关键字段，将目标关键字段中除保留关键字段以外的关键字段删除。这样，本实施例可以实现对目标简历内容的去重，进一步提高简历内容提取的准确度。例如，由于书写习惯的差异，简历中很可能包括对目标简历内容分别进行简述和详述的两部分内容。这两部分内容的关键字段很可能重复，因此，可以执行本实施例提供的方案，进行去重以实现剔除冗余内容的效果。并且，对各关键字段中除目标关键字段以外的关键字段进行融合，是指：对不重复的关键字段按照差异性进行内容互补。例如，关键字段f1为“专业：”，关键字段f2为“钢琴专业”，则可以融合关键字段f1和关键字段f1，得到“专业：钢琴”。
92.在一种可选的实施方式中，如图6本技术一实施例提供的第五种简历内容提取方法的流程图所示，上述对简历文档进行语义识别，将简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档，具体可以包括如下步骤：
93.s602，利用预先训练得到的文本拼接模型，将简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档，其中，文本拼接模型为利用简历样本文档训练得到，简历样本文档包括对原始文本进行随机切割换行的多行切割文本，属于同一行原始文本的多行切割文本具有表征语义存在关联的标签。
94.在具体应用中，可以人工构建得到原始文本，或者，利用预设的文档字符提取工具从历史简历文档中提取原始文本。在此基础上，对原始文本进行随机切割并换行，得到多行切割文本，可以通过随机切割换行提高多行切割文本反映的换行情况的丰富程度，以提高对书写习惯和版式多样化适用性，进一步提高拼接准确度。示例性的，表征语义存在关联的标签具体可以为标签“1”，表征语义不存在关联的标签具体可以为标签“0”。例如，切割文本t1和切割文本t2语义存在关联，需要拼接，则标签为“1”；切割文本t2和切割文本t3语义不存在关联，不需要拼接，则标签为“0”。
95.在一种可选的实施方式中，如图7本技术一实施例提供的第六种简历内容提取方法的流程图所示，上述从拼接后的文档中识别关键字段，根据关键字段，从简历文档中提取目标简历内容，具体可以包括如下步骤：
96.s702，从拼接后的文档中识别关键字段，根据关键字段，确定简历文档的版式信息。
97.在具体应用中，根据关键字段，确定简历文档的版式信息可以包括：按照关键字段
在简历文档中的先后顺序，得到简历文档的版式信息。例如，关键字段在简历文档中的先后顺序依次为“时间”、“学校”、“专业”，则简历文档的版式信息为“时间学校专业”。
98.s704，根据版式信息，将简历文档划分为多个文本子块。
99.示例性的，根据版式信息，将简历文档划分为多个文本子块，具体可以包括：将两个相邻版式信息之间的文本，以及位置在前的版式信息划分为一个文本子块。例如，版式信息一“时间d1学校s1专业m1”和版式信息二“时间d2学校s2专业m2”之间的文本相邻，则版式信息一和版式信息二之间的文本t1，以及版式信息一为一个文本子块，也就是版式信息一对应的教育经历【时间d1学校s1专业m1，文本t1】，其中，文本t1可以为非结构化文本形式的描述经历的内容。另外，不同版式信息的划分具体可以包括：将时间、学校、专业中至少一个存在不同的各版式信息，划分为不同的版式信息。
100.s706，分别从各文本子块中提取关键字段数据，根据关键字段数据，获得目标简历内容。
101.在具体应用中，分别从各文本子块中提取关键字段数据的方式可以是多种的。示例性的，可以直接利用命名实体识别ner模型或者预设的表述规则，分别从各文本子块中提取关键字段数据。或者，示例性的，可以针对不同字段类型的关键字段数据，采用不同的目标提取方式进行提取。下面以可选实施例的形式对上述第二种示例进行具体说明。
102.在一种可选的实施方式中，如图8本技术一实施例提供的第七种简历内容提取方法的流程图所示，上述分别从各文本子块中提取关键字段数据，具体可以包括如下步骤：
103.s802，利用与关键字段的字段类型对应的目标提取方式，分别从各文本子块中，提取关键字段数据。
104.在具体应用中，确定字段类型对应的目标提取方式，具体可以包括：从预先建立的字段类型与提取方式的对应关系中，查找所确定的字段类型对应的目标提取方式。或者，调用携带字段类型的目标提取方式等等。本实施例通过与关键字段的字段类型对应的目标提取方式，进行关键字段对应的关键字段数据的提取，可以针对不同字段类型的关键字段数据的特点，设置更加合适的目标提取方式，从而提高提取效率和准确度。下面以可选实施例的形式对提取关键字段数据的方式进行说明。
105.在一种可选的实施方式中，如图9本技术一实施例提供的第八种简历内容提取方法的流程图所示，上述字段类型包括：第一字段类型，和/或者第二字段类型；相应地，上述利用与所述关键字段的字段类型对应的目标提取方式，分别从各文本子块中，提取关键字段数据，具体可以包括如下步骤：
106.s902，利用命名实体识别ner模型或者与第一字段类型对应的表述规则，分别从各文本子块中提取关键字段数据；
107.s904，利用命名实体识别ner模型，分别从各文本子块中提取候选关键字段数据，利用与第二字段类型对应的表述规则，从与候选关键字段数据对应的文本子块中提取补正数据，并利用补正数据对相应的候选关键字段数据进行补正，获得关键字段数据。
108.其中，上述字段类型中的第一字段类型是指提取得到的关键字段数据(即实体)较为准确，无需进行补正的类型。示例性的，由于数字信息的提取往往较为准确，无需进行补正，因而第一字段类型可以为数字信息类型，如时间类型，第一字段类型的关键字段数据可以包括：时间数据。
109.上述字段类型中的第二字段类型是指提取得到的关键字段数据(即实体)可能存在误差，需要进行补正的类型。示例性的，由于文字信息的提取过程受语义、分词、断句等影响，导致文字信息的提取可能会存在误差，需要通过规则进行补正，因而第二字段类型可以为文字信息类型，如第二字段类型可以为专业名称类型、公司名称类型、学校名称类型、学历类型、职级类型等等，第二字段类型的关键字段数据可以包括：具体的专业名称、具体的公司名称、具体的学校名称、具体的学历、具体的职级等等。字段类型对应的具体的关键字段数据，可以根据具体应用场景划分，以上仅为示例，以上示例中的字段数据的字段类型可以按照具体情况变更。
110.因此，第一字段类型和第二字段类型的关键字段数据均可以利用命名实体识别模型提取，区别在于，第二字段类型的关键字段数据因复杂程度，提取结果可能存在需要利用与第二字段类型对应的表述规则进行补正的情况。并且，在一种情况中，还可以直接利用与第一字段类型对应的表述规则，分别从各文本子块中提取第一字段类型的关键字段数据。为了便于理解，下面对各提取方式进行具体说明。
111.在具体应用中，命名实体识别ner模型为利用样本经历和样本经历的各关键字段数据标签训练得到的。具体的，ner模型的训练是有监督的训练过程，需进行一定量的数据标注，如一个样本教育经历，标注样本教育经历的开始时间、结束时间、学校、专业、学历等关键字段数据。进而，利用样本经历和样本经历的各关键字段数据标签，按照预设的训练规则，包括固定的训练轮数、早停设置参数等等进行训练。例如，固定的训练轮书为训练10轮结束，具体应用中可能会在训练小于10轮的情况下结束训练，也就是早停。早停是因为模型训练可能训练3至5轮已经拟合了，继续训练会造成过拟合，降低模型的准确度，因此，可以提前停止训练。这样，训练得到的ner模型就可以提取经历文本也就是各文本子块中的关键字段数据，或者待补正的候选关键字段数据。
112.示例性的，上述利用与第一字段类型对应的表述规则，分别从各文本子块中提取关键字段数据，具体可以包括：利用第一表述规则，分别从各文本子块中提取经历的开始时间和结束时间，获得时间数据。其中，第一表述规则具体可以为根据经历的开始时间和结束时间的表述格式设置的规则。例如，根据时间数据的表述格式设置的正则表达式。其中，任一正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。具体的，正则表达式可以为文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。
113.示例性的，与第二字段类型对应的表述规则具体可以包括：预设字典树、第二表述规则、第三表述规则中的至少一个；相应地，上述利用与第二字段类型对应的表述规则，从各文本子块中提取补正数据，具体可以包括如下步骤：
114.利用预设字典树、第二表述规则、和/或者第三表述规则分别从各文本子块中提取补正数据。
115.其中，预设字典树具体例如可以为ac-tree。ac-tree可以保证对于给定的长度为n的文本，和模式集合p{p1,p2,...pm}，在o(n)时间复杂度内，找到文本中的所有目标模式，而与模式集合的规模m无关。ac-tree的获取方式可以包括：构建关键字段数据的树型结构，并标注结束节点，即是否是一个关键字段数据的结束；为树型结构上的节点，构建匹配失败
时的失败节点，即匹配失败时，跳转到哪个节点继续匹配。ac-tree具体的应用过程包括：对候选名称进行一次遍历，对于每个字符都从关键字段数据的树型结构中进行匹配，从当前节点位置开始匹配。如果匹配成功，则从当前节点跳转到当前节点的子节点。如果当前节点为“结束节点”，则表示匹配成功；如果匹配失败，则从当前节点跳转到该节点对应的失败节点，继续匹配，直到匹配成功或当前节点为根节点。这样，可以通过失败节点的跳转，对存在字符缺失的关键字段数据进行字符补充。
116.第二表述规则可以为按照误提取的名称的表述格式设置的规则。例如，根据包含专业名称的课程名称的表述格式设置的正则表达式。这样，可以避免将包含专业名称的课程名称提取为专业名称。第三表述规则可以为按照误提取的级别的表述格式设置的规则。例如，根据包含学历的实验室名称的表述格式设置的正则表达式。这样，可以避免将包含学历的实验室名称提取为学历。并且，利用补正数据对相应的候选关键字段数据进行补正，获得关键字段数据，具体可以包括：利用补正数据替换相应的候选关键字段数据，获得关键字段数据。这样，通过替换，可以保证若关键字段的候选关键字段数据为空，则可以利用该关键字段的补正数据填补该空缺的关键字段数据；若关键字段的候选关键字段数据错误，例如缺字、乱码、乱序等等，则补正数据可以替换错误的数据。另外，在完成时间数据、名称数据以及级别数据的提取以后，可以提取描述经历的数据。具体的，可以分别从各文本子块中提取除时间数据、名称数据以及级别数据以外的文本，获得经历数据。
117.本实施例对不同类型的关键字段采用不同的方式提取关键字段数据，这样有针对性的差异化处理方式，可以进一步提高提取准确度。并且，经历数据是非结构化文本，直接识别以及提取通常存在难度和提取结果不够准确的问题。因此，本实施例针对描述经历的数据，分别从各文本子块中提取除时间数据、名称数据以及级别数据以外的文本，获得经历数据，可以降低提取非结构化文本的关键字段数据的难度，进一步提高简历内容提取的便捷性和准确度。
118.下述结合附图10，对上述本技术提供的简历内容提取方法在教育经历提取的应用为例，对简历内容提取方法进行进一步说明。其中，图10示出了本技术一实施例提供的第九种简历内容提取方法的处理流程图，具体包括以下步骤：
119.输入：简历文档；ocr识别字符校正；简历分块；
120.若不包含目标文本块，则全文搜索；输出：教育经历提取结果；
121.若包含目标文本块，则进行文本拼接，经历分子块，关键字段提取；输出：教育经历提取结果。
122.在具体应用中，因版式、书写习惯等原因，简历文档的内容往往多样化。例如，部分简历文档存在非结构化文本形式的教育经历内容，如“在学校s1的实验室l1，跟随教授p1完成项目pj1，获得成果a1
……”
。另一部分简历文档仅存在结构化文本形式的教育经历，如“日期d1，学校s1，专业m1，学历本科”，“日期d2，学校s2，专业m2，学历硕士研究生”。因此，为了更加准确地从非结构文本形式的内容中提取教育经历内容，以及适用于简历文档仅存在结构化文本形式的教育经历的情况，可以进行简历分块，从而针对包含目标文本块和不包含目标文本块的不同简历文档情况，采用不同的方式进行教育经历提取。为了实现简历分块，可以通过ocr识别字符校正提取简历文本，对简历文本进行分块。其中，ocr识别字符校正，具体可以包括：利用ocr识别工具从建立文档中提取候选字符，对候选字符进行校正，
得到简历文本。其中，校正可以包括：重复字符的去重、缺失字符的补充、错误字符的替换等等。
123.针对不包含目标文本块的情况，全文搜索是指对整个简历文档进行关键字段提取。并且，该关键字段为描述教育经历的字段。因此，完成全文搜索即可得到教育经历提取结果并输出。
124.针对包含目标文本块的情况：文本拼接，经历分子块以及关键字段提取可以看作简历解析的过程。简历解析的过程可以通过提取策略实现，提取策略具体可以包括：ner模型、正则模板和ac-tree。其中，文本拼接具体指对目标文本块进行换行拼接：将语义存在关联、但因书写习惯和版式原因被换行为多行的文本，拼接为一行。经历分子块是指根据版式信息，将目标文本块表征的经历划分为多个文本子块。关键字段提取是指针对不同字段类型的关键字段，提取就是提取该字段类型的关键字段对应的关键字段数据。这样，提取得到的各关键字段数据即可作为教育经历提取结果输出。
125.本实施例针对包含目标文本块和不包含目标文本块的不同简历文档情况，采用不同的方式进行教育经历提取，可以应对简历文档内容多样化，扩展本技术实施例的适用范围。并且，可以提高对包含目标文本块的简历文档的提取准确度。
126.另外，与上述教育经历提取的应用类似的，本技术实施例提供的简历内容提取方法可以应用于工作经历、项目经历、实习经历、活动经历等等多种类型的经历内容提取，区别在于具体的关键字段和提取得到的内容不同。对于相同部分在此不再赘述，可以参见上述图10关于教育经历提取实施例的描述。
127.与上述方法实施例相对应，本技术还提供了简历内容提取装置实施例，图11示出了本技术一实施例提供的一种简历内容提取装置的结构示意图。如图11所示，该装置包括：
128.文档获取模块1102，被配置为获取待识别的简历文档；
129.文本拼接模块1104，被配置为对所述简历文档进行语义识别，将所述简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档；
130.内容提取模块1106，被配置为从所述拼接后的文档中识别关键字段，根据所述关键字段，从所述简历文档中提取目标简历内容。
131.本技术一实施例提供的方案中，多行文本的语义存在关联。因此，拼接后的文本可以保证简历文档中原本表达关联语义、但进行了换行的目标文本处于一行，从而减少换行导致的词语分离。因此，从拼接后的文档中识别关键字段，可以减少换行导致的词语分离引起的关键字识别错误，从而提高简历内容提取的准确度。
132.在一种可选的实施方式中，所述文本拼接模块1104，进一步被配置为：
133.利用预先训练得到的文本拼接模型，将所述简历文档中语义存在关联的多行文本拼接为一行，得到拼接后的文档，其中，所述文本拼接模型为利用简历样本文档训练得到，所述简历样本文档包括对原始文本进行随机切割换行的多行切割文本，属于同一行原始文本的多行切割文本具有表征语义存在关联的标签。
134.在一种可选的实施方式中，所述内容提取模块1106，进一步被配置为：
135.从所述拼接后的文档中识别关键字段，根据所述关键字段，确定所述简历文档的版式信息；
136.根据所述版式信息，将所述简历文档划分为多个文本子块；
137.分别从各文本子块中提取关键字段数据，根据所述关键字段数据，获得目标简历内容。
138.在一种可选的实施方式中，所述内容提取模块1106，进一步被配置为：
139.利用与所述关键字段的字段类型对应的目标提取方式，分别从各文本子块中，提取关键字段数据。
140.在一种可选的实施方式中，所述字段类型包括：第一字段类型，和/或者第二字段类型；
141.相应地，所述内容提取模块1106，进一步被配置为：
142.利用命名实体识别ner模型或者与所述第一字段类型对应的表述规则，分别从各文本子块中提取关键字段数据；
143.利用命名实体识别ner模型，分别从各文本子块中提取候选关键字段数据，利用与所述第二字段类型对应的表述规则，从各文本子块中提取补正数据，并利用所述补正数据对相应的候选关键字段数据进行补正，获得关键字段数据。
144.在一种可选的实施方式中，所述目标简历内容为描述经历的内容；所述装置还包括分块模块，被配置为：
145.利用预设的文档字符提取工具，从所述简历文档中提取简历文本，并对所述简历文本进行分块，获得包括描述经历的目标文本块；
146.所述文本拼接模块1104，进一步被配置为：
147.对所述简历文档中的所述目标文本块进行语义识别，将所述目标文本块中语义存在关联的多行目标文本拼接为一行，得到拼接后的文档。
148.在一种可选的实施方式中，所述文本拼接模块1104，还被配置为：
149.若未获得所述目标文本块，则从所述简历文本的各分块中识别所述关键字段，并执行所述根据所述关键字段，从所述简历文档中提取目标简历内容。
150.在一种可选的实施方式中，所述内容提取模块1106，进一步被配置为：
151.确定各关键字段之间的相似度；
152.从所述各关键字段中，确定相似度达到相似条件的目标关键字段；
153.对所述目标关键字段进行去重，以及对所述各关键字段中除所述目标关键字段以外的关键字段进行融合，获得所述目标简历内容。
154.上述为本实施例的一种简历内容提取装置的示意性方案。需要说明的是，该简历内容提取装置的技术方案与上述的简历内容提取方法的技术方案属于同一构思，简历内容提取装置的技术方案未详细描述的细节内容，均可以参见上述简历内容提取方法的技术方案的描述。此外，装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
155.图12示出了根据本技术一实施例提供的一种计算设备的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接，数据库1250用于保存数据。
156.计算设备1200还包括接入设备1240，接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(pstn，public switched telephone network)、局域网(lan，localareanetwork)、广域网(wan，widearea network)、个域网(pan，personalarea network)或诸如因特网的通信网络的组合。接入设备1240可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic，network interface controller))中的一个或多个，诸如ieee802.11无线局域网(wlan，wireless localareanetworks)无线接口、全球微波互联接入(wi-max，worldwide interoperability for microwave access)接口、以太网接口、通用串行总线(usb，universal serial bus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc，nearfield communication)接口，等等。
157.在本技术的一个实施例中，计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图12所示的计算设备结构框图仅仅是出于示例的目的，而不是对本技术范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
158.计算设备1200可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。
159.其中，处理器1220用于执行所述简历内容提取方法的计算机可执行指令。
160.上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的简历内容提取方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述简历内容提取方法的技术方案的描述。
161.本技术一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于简历内容提取方法。
162.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的简历内容提取方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述简历内容提取方法的技术方案的描述。
163.本技术一实施例还提供一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述简历内容提取方法的步骤。
164.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
165.所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，randomaccess memory)、电载波信号、电信信号以及软件分发介质等。
166.需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本技术所必须的。
167.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
168.以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本技术的内容，可作很多的修改和变化。本技术选取并具体描述这些实施例，是为了更好地解释本技术的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

简历内容提取方法及装置与流程

相关文献

最热文献