一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

简历文档识别方法、装置、计算设备及存储介质与流程

2022-03-02 02:24:32 来源:中国专利 TAG:
1.本技术涉及文档识别
技术领域
:,特别涉及一种简历文档识别方法。本技术同时涉及一种简历文档识别装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
::2.随着互联网技术的发展,简历智能管理在招聘中得到了广泛应用,极大地提高了求职者和招聘方的处理效率,其中,简历智能管理是简历解析、人岗匹配、自动整合简历资源、简历智能查重、简历筛选等一系列应用的统称。简历文档识别是进行简历智能管理的重要前提,如何提高简历文档识别的准确性成为实现简历智能管理的关键。技术实现要素:3.有鉴于此,本技术实施例提供了一种简历文档识别方法,以解决现有技术中存在的技术缺陷。本技术实施例同时提供了一种简历文档识别装置,一种计算设备,以及一种计算机可读存储介质。4.根据本技术实施例的第一方面,提供了一种简历文档识别方法,包括:5.获取待识别的目标文档;6.从目标文档中提取文档信息;7.基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果,其中,简历文档识别处理包括规则验证和基于神经网络的分类识别。8.可选地,从目标文档中提取文档信息的步骤,包括:9.识别目标文档的文档格式;10.若目标文档的文档格式为文本格式,则从目标文档中提取字符串类型的文本内容;11.基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果的步骤,包括:12.利用预设的简历文本验证规则,对文本内容进行规则验证;13.在文本内容的规则验证成功的情况下,将文本内容输入第一简历识别模型,得到目标文档是否为简历文档的识别结果,其中,第一简历识别模型为预先利用多个样本简历文本对预设神经网络进行训练得到的文本分类模型。14.可选地,在从目标文档中提取字符串类型的文本内容的步骤之后,上述方法还包括:15.若提取失败,则将目标文档的文档格式转换为图像格式。16.可选地,在将目标文档的文档格式转换为图像格式的步骤之后,上述方法还包括:17.从目标文档中提取每一张图像的图像信息;18.基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果的步骤,包括:19.将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,其中,第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型;20.根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。21.可选地,在利用预设的简历文本验证规则,对文本内容进行规则验证的步骤之后,上述方法还包括:22.在文本内容的规则验证失败的情况下,确定目标文档为非简历文档。23.可选地,利用预设的简历文本验证规则,对文本内容进行规则验证的步骤,包括:24.从文本内容中提取各关键词;25.将各关键词分别与预设核心关键词库中的核心关键词进行匹配;26.若与核心关键词匹配成功的关键词数目达到第一预设阈值,则确定文本内容的规则验证成功。27.可选地,在将各关键词分别与预设核心关键词库中的核心关键词进行匹配的步骤之后,上述方法还包括:28.若与核心关键词匹配成功的关键词数目未达到第一预设阈值,则将各关键词分别与预设次要关键词库中的次要关键词进行匹配;29.若与次要关键词匹配成功的关键词数目达到第二预设阈值,则确定文本内容的规则验证成功;30.若与次要关键词匹配成功的关键词数目未达到第二预设阈值,则确定文本内容的规则验证失败。31.可选地,从目标文档中提取文档信息的步骤,包括:32.识别目标文档的文档格式;33.若目标文档的文档格式为图像格式,则从目标文档中提取每一张图像的图像信息;34.基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果的步骤,包括:35.将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,其中第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型;36.根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。37.可选地,识别目标文档的文档格式的步骤,包括:38.读取目标文档的文档名后缀;39.根据文档名后缀,确定目标文档的文档格式。40.可选地,在基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果的步骤之后,上述方法还包括:41.将识别结果发送至客户端进行展示。42.根据本技术实施例的第二方面,提供了一种简历文档识别装置,包括:43.获取模块,被配置为获取待识别的目标文档;44.提取模块,被配置为从目标文档中提取文档信息;45.简历识别模块,被配置为基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果,其中,简历文档识别处理包括规则验证和基于神经网络的分类识别。46.可选地,提取模块,进一步被配置为:47.识别目标文档的文档格式;48.若目标文档的文档格式为文本格式,则从目标文档中提取字符串类型的文本内容;49.简历识别模块,进一步被配置为:50.利用预设的简历文本验证规则,对文本内容进行规则验证;51.在文本内容的规则验证成功的情况下,将文本内容输入第一简历识别模型,得到目标文档是否为简历文档的识别结果,其中,第一简历识别模型为预先利用多个样本简历文本对预设神经网络进行训练得到的文本分类模型。52.可选地,提取模块,进一步被配置为:53.若提取失败,则将目标文档的文档格式转换为图像格式。54.可选地,提取模块,还被配置为从目标文档中提取每一张图像的图像信息;55.简历识别模块,进一步被配置为:56.将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,其中,第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型;57.根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。58.可选地,简历识别模块,进一步被配置为:59.在文本内容的规则验证失败的情况下,确定目标文档为非简历文档。60.可选地,简历识别模块,进一步被配置为:61.从文本内容中提取各关键词;62.将各关键词分别与预设核心关键词库中的核心关键词进行匹配;63.若与核心关键词匹配成功的关键词数目达到第一预设阈值,则确定文本内容的规则验证成功。64.可选地,简历识别模块,进一步被配置为:65.若与核心关键词匹配成功的关键词数目未达到第一预设阈值,则将各关键词分别与预设次要关键词库中的次要关键词进行匹配;66.若与次要关键词匹配成功的关键词数目达到第二预设阈值,则确定文本内容的规则验证成功;67.若与次要关键词匹配成功的关键词数目未达到第二预设阈值,则确定文本内容的规则验证失败。68.可选地,提取模块,进一步被配置为:69.识别目标文档的文档格式;70.若目标文档的文档格式为图像格式,则从目标文档中提取每一张图像的图像信息;71.简历识别模块,进一步被配置为:72.将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,其中,第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型;73.根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。74.可选地,提取模块,进一步被配置为:75.读取目标文档的文档名后缀;76.根据文档名后缀,确定目标文档的文档格式。77.可选地,该装置还包括:78.发送模块,被配置为将识别结果发送至客户端进行展示。79.根据本技术实施例的第三方面,提供了一种计算设备,包括:80.存储器和处理器;81.所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现上述任一简历文档识别方法的步骤。82.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述任一简历文档识别方法的步骤。83.本技术提供的简历文档识别方法,通过获取待识别的目标文档,然后从目标文档中提取文档信息,基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果。通过将验证规则与简历识别模型相结合来对目标文档进行识别,有效的提高了简历文档识别的准确性,同时由于在简历文档识别过程中进行了规则验证,进而减少了简历识别模型的计算量,从而提高了简历文档识别的效率。附图说明84.图1是本技术一实施例提供的一种简历文档识别系统的结构示意图;85.图2是本技术一实施例提供的一种简历文档识别方法的流程图;86.图3是本技术一实施例提供的另一种简历文档识别方法的流程图;87.图4是本技术一实施例提供的再一种简历文档识别方法的流程图;88.图5是本技术一实施例提供的一种对目标文档进行规则验证方法的流程图;89.图6是本技术一实施例提供的另一种对目标文档进行规则验证方法的流程图;90.图7是本技术一实施例提供的一种确定目标文档的文档格式的流程图;91.图8是本技术一实施例提供的又一种简历文档识别方法的流程图;92.图9是本技术一实施例提供的一种简历文档识别装置的结构示意图;93.图10是本技术一实施例提供的一种计算设备的结构框图。具体实施方式94.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。95.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。96.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。97.首先,对本发明一个或多个实施例涉及的名词术语进行解释。98.开放神经网络交换(onnx,openneuralnetworkexchange)格式:一个用于表示深度学习模型的标准,是一种针对机器学习所设计的开放式文件格式。它使得不同的人工智能框架可以采用相同格式存储模型数据并进行交互。99.在本技术中,提供了一种简历文档识别方法。本技术同时涉及一种简历文档识别装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。100.图1示出了本技术一个实施例提供的一种简历文档识别系统的结构示意图。101.本技术的简历文档识别系统包括训练端和应用端,训练端用来训练模型,应用端用来向训练端提供样本,并接收训练端训练好的模型,利用模型对待识别的目标文档进行识别处理得到识别结果,其中,应用端和训练端可以是一个终端设备中不同的应用程序,也可以是不同终端设备中的应用程序。102.在本实施例中,对简历识别模型进行训练可以通过以下方法实现:应用端选择简历文档数据作为正样本,再选择与简历文档相关的文档数据(例如个人信息表、简历说明、求职信息等)作为负样本,将正负样本作为模型的训练样本集发送至训练端,训练端将样本集中的正负样本输入至神经网络模型中,将经过多次迭代训练最终达到预设阈值的神经网络模型作为训练好的模型。103.应用端对目标文档进行识别具体可以通过以下方法实现:通过获取待识别的目标文档,从目标文档中提取文档信息,然后基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果。其中,简历文档识别处理包括规则验证和基于神经网络的分类识别(即上述训练好的模型)。104.通过上述方法,通过将验证规则与简历识别模型相结合来对目标文档进行识别,有效的提高了简历文档识别的准确性,同时由于在简历文档识别过程中进行了规则验证,进而减少了简历识别模型的计算量,从而提高了简历文档识别的效率。105.图2示出了根据本技术一实施例提供的一种简历文档识别方法的流程图,具体包括以下步骤:106.s202、获取待识别的目标文档。107.待识别的目标文档是指待进行简历识别的文档,其文档格式可以为文本格式、便携式文档格式(pdf,portabledocumentformat)或者图像格式等。在有对目标文档的简历识别需求时,用户可以在客户端上选择/输入待识别的目标文档,由执行主体获取该待识别的目标文档,执行主体可以是服务器或者客户端。108.s204、从目标文档中提取文档信息。109.在获取到待识别的目标文档后,执行主体便从目标文档中提取相应的文档信息,其中,文档信息是指目标文档中数据信息集,例如文字集、字符集、像素集等。110.从目标文档中提取文档信息的方式有多种,例如,可以利用神经网络模型(例如自然语言处理模型(nlp,naturallanguageprocessing)、卷积神经网络模型(cnn,convolutionalneuralnetwork)等)对目标文档中的文档信息进行提取,也可以利用无监督算法(例如词频-逆向文本频率(tf-idf,termfrequency-inversedocumentfrequency)等)对目标文档中的文档信息进行提取,本技术对目标文档中文档信息的提取方式不做限定。111.在本实施例中,之所以要提取目标文档中的文档信息,是由于目标文档有多种格式,针对不同格式的目标文档,相应的采用不同的方法对不同格式的目标文档进行简历识别,从而能够提高简历文档识别的准确率性。112.s206、基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果,其中,简历文档识别处理包括规则验证和基于神经网络的分类识别。113.简历文档识别处理包括规则验证和基于神经网络的分类识别,规则验证是指验证目标文档是否符合预设的验证规则,当目标文档不符合预设的验证规则时,便可确定该目标文档为非简历文档。对目标文档进行验证的规则有多种,例如,可以利用相似度对比的方式将目标文档与预设简历样本进行相似度对比,基于相似度对比结果验证目标文档是否符合验证规则;也可以是利用关键词匹配的方式将目标文档与预设关键词表进行关键词匹配,根据匹配结果验证目标文档是否符合验证规则。114.基于神经网络的分类识别是指利用神经网络模型对目标文档进行分类识别,例如,可以利用nlp神经网络模型、cnn神经网络模型等对目标文档进行分类识别,从而识别出目标文档是否为简历文档。115.通过将规则验证和神经网络相结合来对目标文档进行识别,能够有效提升简历文档识别的准确性。116.通过上述方法,通过将验证规则与简历识别模型相结合来对目标文档进行识别,有效的提高了简历文档识别的准确性,同时由于在简历文档识别过程中进行了规则验证,进而减少了简历识别模型的计算量,从而提高了简历文档识别的效率。117.在本技术实施例的一种实现方式中,s206之后,该简历文档识别方法还可以包括如下步骤:将识别结果发送至客户端进行展示。118.将识别结果发送至客户端进行展示是指将目标文档是否为简历文档的结果发送至客户端进行展示。119.将识别结果发送至客户端进行展示的方式有多种,可以是在客户端设置弹窗,当执行主体得到识别结果时将其发送至客户端,相应的,客户端接收到识别结果后弹出该目标文档是否为简历文档的窗口。或者,在客户端相应位置预设一块展示区域,当执行主体得到识别结果时将其发送至客户端,相应的,客户端接收到识别结果后,直接将该识别结果显示在客户端对应的展示区域。本技术对展示的方式不做任何限制。120.在本实施例中,将识别结果发送至客户端进行展示,能够快速看到目标文档是否是简历文档的识别结果,提高了用户的工作效率。121.图3示出了根据本技术一实施例提供的另一种简历文档识别方法的流程图,具体包括以下步骤:122.s302、识别目标文档的文档格式,若目标文档的文档格式为文本格式,则从目标文档中提取字符串类型的文本内容。123.在本实施例中,对目标文档的文档格式进行识别,由于文档的文档格式可以为文本格式、便携式文档格式(pdf,portabledocumentformat)或者图像格式等,不同文档格式的文档处理方式不同。如果识别出目标文档的文档格式为文本格式,则需要从目标文档中提取字符串类型的文本内容,具体可以采用字符串提取方法对文本内容进行提取,即识别出目标文档中的字符串,按照句子、段落等进行提取。这种提取方式可以将自然语言形式的文本转换为字符串形式文本,更有利于机器识别,提高简历文档的识别效率。124.在本技术实施例的一种实现方式中,在s302之后,该简历文档识别方法还可以包括如下步骤:125.若从目标文档中提取字符串类型的文本内容失败,则将目标文档的文档格式转换为图像格式。126.提取失败是指出现无法从文本格式的目标文档中提取出字符串类型的文本内容,或者提取出的字符串内容出现乱码、缺失等情况。127.在本实施例中,在从目标文档中提取字符串类型的文本内容的步骤之后,由于目标文档中的文本内容有元素样式上的差异,或者受字符编码的影响,有时会出现无法从目标文档中提取字符串类型的文本内容,或者提取出的字符串内容出现乱码、缺失等情况。当出现文本内容提取失败的情况时,将目标文档的文档格式转换为图像格式。128.在转换为图像格式之后,可以运用光学字符识别(ocr,opticalcharacterrecognition)技术对该目标文档进行文本提取,例如,针对pdf格式的目标文档,运用ocr技术,识别出文字区域,然后对文字区域进行矩形分割,拆分成不同的字符,然后对字符进行分类进而识别出文本内容。或者,也可以直接基于图像格式的目标文档进行简历文档识别。129.在本技术实施例的一种实现方式中,在将目标文档的文档格式转换为图像格式之后,可以从目标文档中提取每一张图像的图像信息。相应地,基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果的步骤,具体可以通过如下步骤实现:130.将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,其中,第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型;131.根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。132.第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型,其中,图像分类模型以onnx格式进行保存。133.在本技术实施例的一种可能的实现方式中,可以利用onnx格式将神经网络模型部署于客户端,如将其部署于pc端,也可将其部署于移动端,例如手机、平板电脑等。首先对图像分类模型进行训练,例如,选择简历文档数据作为正样本,再选择与简历文档相关的文档数据(例如个人信息表、简历说明、求职信息等)作为负样本,将正负样本作为图像识别模型的训练样本集,然后将样本集输入至神经网络模型中,将经过多次迭代训练最终达到预设阈值的神经网络模型作为训练好的图像分类模型,并将该图像分类模型以onnx格式进行保存。134.将提取的每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果。135.在得到每一张图像是否为简历图像的识别结果后,根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。136.例如,当获取到待识别的目标文档后,判断该目标文档的文档格式为文本格式,从所述目标文档中提取字符串类型的文本内容,提取失败则将该目标文档的格式由文本格式转换为图像格式,便从该目标文档中提取出每一张图像的图像信息。然后将每一张图像的图像信息分别输入至训练好的图像分类模型中,若图像分类模型输出的结果为“1”,则表示该图像是简历图像;若图像分类模型输出的结果是“0”,则表示该图像不是简历图像。在得到目标文档中每一张图像是否为简历图像之后,便根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。137.预设的简历图像验证规则可以有多种,例如,当目标文档中有两张图像时,若第一张图像为简历图像,则可确定该目标文档为简历文档;若第一张图像的识别结果为非简历图像,则可判定该目标文档为非简历文档。又例如,当目标文档中有多个图像时,预先设置一个阈值,当目标文档中识别为简历图像的数量达到预设阈值,或者目标文档中识别为简历图像的比例达到预设比例阈值时,便判定该目标文档为简历文档。138.在上述实施方式中,识别目标文档的文档格式,从文本格式的目标文档中提取字符串类型的文本内容失败后,将目标文档的文档格式由文本格式转换为图像格式,则从目标文档中提取每一张图像的图像信息,然后将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,然后根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。通过上述方法,不仅可以识别文本类型的目标文档是否为简历文档,也可以将文本格式的目标文档在提取文本内容失败后进行格式转换的再处理,进一步识别图片格式的目标文档是否为简历文档,满足了格式多样化的简历文档识别需求,也解决了因文本内容提取过程中字符串内容错误所引起的目标文档识别失败的问题,并且将验证规则与简历识别模型相结合的方式来对目标文档进行识别,进而提高了简历文档识别结果的准确性。并且由于以onnx格式保存的神经网络模型可以在不同的平台和设备上运行,且具有简小轻便的优点,因此将图像分类模型以onnx格式进行保存,使得图像分类模型更方便的部署于pc端或移动端等设备。139.s304、利用预设的简历验证规则,对文本内容进行验证。140.简历验证规则是指验证目标文档是否是简历文档的规则。上述验证规则可以是预先存储在数据库中的关键词、规则对照表、相似度匹配算法等。141.在本技术实施例中,简历验证规则为预设在数据库中的关键词,当提取出目标文档中的文本内容时,将文本内容与数据库中的预设关键词进行匹配,若文本内容中的关键词与数据库中的预设关键词匹配成功的关键词数目达到预设阈值,则确定文本内容验证成功,否则文本内容验证失败,进而得以实现对文本内容的验证。142.利用预设的简历验证规则对文本内容进行验证,可以筛除不符合验证规则的文本内容,进而减少了后续简历识别模型的计算量,提高了简历文档识别的效率。143.s306、在文本内容验证成功的情况下,将文本内容输入第一简历识别模型,得到目标文档是否为简历文档的识别结果。144.在本实施例中,利用预设的简历文本验证规则对文本内容进行验证,在验证成功的情况下,将文本内容输入第一简历识别模型中,得到目标文档是否为简历文档的识别结果,其中,第一简历识别模型为预先利用多个样本简历文本对预设神经网络模型进行训练得到的文本分类模型。预设神经网络模型可以为长短期记忆网络(lstm,long-shorttermmemory)模型、深度卷积神经网络(dcnn,deepconvolutionalnetworks)模型、循环神经网络(rnn,recurrentneuralnetwork)模型或者卷积循环神经网络(crnn,convolutionalrecurrentneuralnetwork)模型等。当文本内容验证成功时,将文本内容输入至神经网络模型(即训练好的文本分类模型)中,神经网络模型对输入的文本内容进行分类识别,进而判断出目标文档是否是简历文档。145.在本技术实施例的一种可能的实现方式中,可以利用onnx格式将神经网络模型部署于客户端,如将其部署于pc端,也可将其部署于移动端,例如手机、平板电脑等,其中,onnx格式为开放神经网络交换格式,是一个用于表示深度学习模型的标准,是一种针对机器学习所设计的开放式文件格式,使得不同的人工智能框架可以采用相同格式存储模型数据并进行交互,从而使以onnx格式保存的神经网络模型可以在不同的平台和设备上运行,同时它具有简小轻便的特点。146.在本技术实施例的一种实现方式中,在s304之后,该简历文档识别方法还可以包括如下步骤:147.在文本内容的规则验证失败的情况下,确定目标文档为非简历文档。148.在上述实施方式中,在文本内容的规则验证失败的情况下,说明目标文档不符合预设的简历验证规则,便直接确定目标文档为非简历文档。149.通过上述方法,从目标文档中提取字符串类型的文本内容更有利于机器识别,提高简历文档的识别效率;将目标文档的文档格式转换为图像格式,能够避免因提取文本失败而造成简历文档识别错误的问题,进而提高简历文档的识别效率。并且,将验证规则与简历识别模型相结合来对目标文档进行识别,在有效的提高了简历文档识别的准确性的同时,由于在简历文档识别过程中筛除了不符合验证规则的文本内容,进而减少了简历识别模型的计算量,提高了简历文档识别的效率。另外,由于以onnx格式保存的神经网络模型可以在不同的平台和设备上运行,且具有简小轻便的优点,因此将图像分类模型以onnx格式进行保存,使得图像分类模型更方便的部署于pc端或移动端等设备。150.图4示出了根据本技术一实施例提供的再一种简历文档识别方法的流程图,具体包括以下步骤:151.s402、识别目标文档的文档格式,若目标文档的文档格式为图像格式,则从目标文档中提取每一张图像的图像信息。152.如果识别出目标文档的文档格式为图像格式,则需要从目标文档中提取每一张图像的图像信息,具体可以采用像素提取方法对图像信息进行提取,即识别出目标文档中的每个像素点,按照一张一张图像进行提取像素集。153.s404、将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,其中,第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型。154.第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型,其中,图像分类模型以onnx格式进行保存。155.在本技术实施例的一种可能的实现方式中,可以利用onnx格式将神经网络模型部署于客户端,如将其部署于pc端,也可将其部署于移动端,例如手机、平板电脑等。首先对图像分类模型进行训练,例如,选择简历文档数据作为正样本,再选择与简历文档相关的文档数据(例如个人信息表、简历说明、求职信息等)作为负样本,将正负样本作为图像识别模型的训练样本集,然后将样本集输入至神经网络模型中,将经过多次迭代训练最终达到预设阈值的神经网络模型作为训练好的图像分类模型,并将该图像分类模型以onnx格式进行保存。156.将提取的每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果。157.s406、根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。158.在得到每一张图像是否为简历图像的识别结果后,根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。159.例如,当获取到待识别的目标文档后,判断该目标文档的文档格式为图像格式,便从目标文档中提取出每一张图像的图像信息。然后将每一张图像的图像信息分别输入至训练好的图像分类模型中,若图像分类模型输出的结果为“1”,则表示该图像是简历图像;若图像分类模型输出的结果是“0”,则表示该图像不是简历图像。在得到目标文档中每一张图像是否为简历图像之后,便根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。160.预设的简历图像验证规则可以有多种,例如,当目标文档中有两张图像时,若第一张图像为简历图像,则可确定该目标文档为简历文档;若第一张图像的识别结果为非简历图像,则可判定该目标文档为非简历文档。又例如,当目标文档中有多个图像时,预先设置一个阈值,当目标文档中识别为简历图像的数量达到预设阈值,或者目标文档中识别为简历图像的比例达到预设比例阈值时,便判定该目标文档为简历文档。161.在上述实施方式中,识别目标文档的文档格式,若目标文档的文档格式为图像格式,则从目标文档中提取每一张图像的图像信息,然后将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,然后根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。通过上述方法,不仅可以识别文本类型的目标文档是否为简历文档,也可以识别图片类型的目标文档是否为简历文档,满足了格式多样化的简历文档识别需求,并且将验证规则与简历识别模型相结合的方式来对目标文档进行识别,进而提高了简历文档识别结果的准确性。并且由于以onnx格式保存的神经网络模型可以在不同的平台和设备上运行,且具有简小轻便的优点,因此将图像分类模型以onnx格式进行保存,使得图像分类模型更方便的部署于pc端或移动端等设备。162.图5示出了根据本技术一实施例提供的一种对目标文档进行规则验证方法的流程图,具体包括以下步骤:163.s502、从文本内容中提取各关键词。164.s504、将各关键词分别与预设核心关键词库中的核心关键词进行匹配。165.s506,若与核心关键词匹配成功的关键词数目达到第一预设阈值,则确定文本内容的规则验证成功。166.在本实施例中,简历验证规则是预设在数据库中的关键词,首先预设一个核心关键词库,在提取出目标文档中的文本内容后,可以采用关键词识别模型,或者采用tf-idf方法,从文本内容中提取出各关键词,然后将提取出的各关键词与预设核心关键词库中的核心关键词进行匹配,若文本内容中的关键词与预设核心关键词库中的核心关键词匹配成功的关键词数目达到第一预设阈值,则确定文本内容验证成功,否则文本内容验证失败,进而得以实现对文本内容的验证。167.除了从文本内容中提取各关键词与预设核心关键词库中的核心关键词进行匹配以外,还可以将整个文本内容直接与预设核心关键词库中的核心关键词进行匹配,确定与核心关键词匹配成功的关键词数目。168.表1以简历验证为例,示意性地列举出了对文本内容进行验证的预设简历验证核心关键词。169.表1简历验证核心关键词库表[0170][0171]表1中,预先构建一个核心关键词库,其中,核心关键词库中可以预设核心关键词,例如“基本信息、基础信息、个人信息、个人资料、个人简介、教育背景、教育经历、工作背景、工作经验、职业经历、项目经验、项目经历、实习经历、在校经历、社团活动、学生工作、教育实践”等。[0172]在本技术实施例一种可能实现的方式中,核心关键词库对应第一预设阈值,第一预设阈值预设为“2”;从目标文档的文本内容中提取各关键词,例如提取出的关键词为“基本信息、实习经历、工作经验、兴趣爱好、性格特点”,则将上述关键词与核心关键词库中的核心关键词进行匹配,得到匹配成功的关键词为“基本信息、实习经历、工作经验”,则判定目标文档中的关键词与核心关键词库匹配成功的关键词数目为3个,达到了第一预设阈值,进而确定对目标文档的文本内容验证成功。[0173]在上述实施方式中,通过从文本内容中提取各关键词,将各关键词分别与预设核心关键词库的核心关键词进行匹配,若与核心关键词匹配成功的关键词数目达到第一预设阈值,则确定文本内容验证成功。通过上述方法,利用预设的简历验证规则在简历文档识别过程中筛除了不符合验证规则的文本内容,进而减少了简历识别模型的计算量,提高了简历文档识别的效率。[0174]图6示出了根据本技术一实施例提供的另一种对目标文档进行规则验证方法的流程图,具体包括以下步骤:[0175]s602、将各关键词分别与预设核心关键词库中的核心关键词进行匹配。[0176]s604、若与核心关键词匹配成功的关键词数目未达到第一预设阈值,则将各关键词分别与预设次要关键词库中的次要关键词进行匹配。[0177]s606、若与次要关键词匹配成功的关键词数目达到第二预设阈值,则确定文本内容的规则验证成功。[0178]s608、若与次要关键词匹配成功的关键词数目未达到第二预设阈值,则确定文本内容的规则验证失败。[0179]在本实施例中,简历验证规则是预设在数据库中的关键词,首先预设一个次要关键词库,在提取出目标文档中的文本内容后,可以采用关键词识别模型,或者采用tf-idf方法,从文本内容中提取出各关键词,然后将各关键词与预设核心关键词库中的核心关键词进行匹配,若与预设核心关键词库中的核心关键词匹配成功的关键词数目未达到第一预设阈值,则将各关键词分别与预设次要关键词库中的次要关键词进行匹配。若与次要关键词匹配成功的关键词数目达到第二预设阈值,则确定文本内容的规则验证成功。若与次要关键词匹配成功的关键词数目未达到第二预设阈值,则确定文本内容的规则验证失败。表2示意性地列举出了对文本内容进行验证的预设简历验证次要关键词。[0180]表2简历验证次要关键词库表[0181][0182]表2中,预先构建一个次要关键词库,其中,次要关键词库中预设有次要关键词,例如“创业经验、科研论文、科研方向、学术成果、获奖情况、专业能力、主修课程、校内职务、实践调研、求职意向、自我评价、所获荣誉、技能、特长”等。[0183]次要关键词库对应第二预设阈值,其中,第二预设阈值为可变阈值,可预设为第一可变阈值和第二可变阈值,第一可变阈值小于第二可变阈值,如分别为“3”和“5”。其中,第二预设阈值的设定与预设核心关键词库中的核心关键词匹配成功的关键词数目相关,如果匹配成功的关键词数目较多,第二预设阈值可设置较小,如果匹配成功的关键词数目较少,第二预设阈值可设置较大。具体地,可以预先设置第二预设阈值和匹配成功的关键词数目之间的对应关系,在确定匹配成功的关键词数目之后,可以根据对应关系选择相应的第二预设阈值。在一个实施例中,文本内容中的各关键词与核心关键词匹配成功的关键词数目大于零且小于第一预设阈值,同时与次要关键词匹配成功的数目大于第一可变阈值,或文本内容中的各关键词与核心关键词匹配成功的关键词数目为零,同时与次要关键词匹配成功的数目大于第二可变阈值,则确定文本内容的规则验证成功。通过设置第二预设阈值为可变阈值,可以提高简历识别的准确性。[0184]在本技术实施例第一种可能实现的方式中,当提取出文本格式目标文档的文本内容后,从文本内容中提取各关键词,例如提取出的关键词为“基本信息、课外活动、科研方向、学术成果、主修课程”,则将上述关键词与核心关键词库中的核心关键词进行匹配,得到匹配成功的关键词为“基本信息”,则判定目标文档中的关键词与核心关键词库匹配成功的关键词数目为1个,未达到第一预设阈值,当判定匹配结果未达到第一预设阈值时,则将目标文档中的各关键词与次要关键词库中的次要关键词进行匹配,得到匹配成功的关键词为“科研方向、学术成果、主修课程”,则判定目标文档中的关键词与次要关键词库匹配成功的关键词数目为3个,达到了第二预设阈值,进而确定对目标文档的文本内容验证成功。[0185]在本技术实施例第二种可能实现的方式中,当提取出文本格式目标文档的文本内容后,从文本内容中提取各关键词,例如提取出的关键词为“校内职务、实践调研、求职意向、自我评价、所获荣誉”,则判定目标文档中的关键词与核心关键词库匹配成功的关键词数目为0个,未达到第一预设阈值,当判定匹配结果未达到第一预设阈值时,则将目标文档中的各关键词与次要关键词库中的次要关键词进行匹配,得到匹配成功的关键词为“校内职务、实践调研、求职意向、自我评价、所获荣誉”,则判定目标文档中的关键词与次要关键词库匹配成功的关键词数目为5个,达到了第二预设阈值,进而确定对目标文档的文本内容验证成功。[0186]在本技术实施例第三种可能实现的方式中,当提取出文本格式目标文档的文本内容后,从文本内容中提取各关键词,例如提取出的关键词为“创业经验、作品展示、自我评价、交流实践、语言表达”,则判定目标文档中的关键词与核心关键词库匹配成功的关键词数目为0个,未达到第一预设阈值,当判定匹配结果未达到第一预设阈值时,则将目标文档中的各关键词与次要关键词库中的次要关键词进行匹配,得到匹配成功的关键词为“自我评价”,则判定目标文档中的关键词与次要关键词库匹配成功的关键词数目为1个,未达到第二预设阈值,进而确定对目标文档的文本内容验证失败。[0187]在本技术实施例第四种可能实现的方式中,当提取出文本格式目标文档的文本内容后,从文本内容中提取各关键词,例如提取出的关键词为“创业经验、作品展示、交流实践、语言表达、逻辑分析”,则判定目标文档中的关键词与核心关键词库匹配成功的关键词数目为0个,未达到第一预设阈值,当判定匹配结果未达到第一预设阈值时,则将目标文档中的各关键词与次要关键词库中的次要关键词进行匹配,得到匹配成功的关键词数目为0,则判定目标文档中的关键词与次要关键词库匹配成功的关键词数目未达到第二预设阈值,进而确定对目标文档的文本内容验证失败。[0188]在上述实施方式中,通过从文本内容中提取各关键词,将各关键词分别与预设核心关键词库的核心关键词进行匹配,若与核心关键词匹配成功的关键词数据未达到第一预设阈值,则将各关键词分别与预设次要关键词库中的次要关键词进行匹配,若与次要关键词匹配成功的关键词数据达到第二预设阈值,则确定文本内容验证成功,若与次要关键词匹配成功的关键词数目未达到第二预设阈值,则确定文本内容验证失败。通过上述方法,利用预设的简历验证规则在简历文档识别过程中筛除了不符合验证规则的文本内容,进而减少了简历识别模型的计算量,提高了简历文档识别的效率。[0189]图7示出了根据本技术一实施例提供的一种确定目标文档的文档格式的流程图,具体包括以下步骤:[0190]s702、读取目标文档的文档后缀;[0191]s704、根据文档名后缀,确定目标文档的文档格式。[0192]在本实施例中,当获取到待识别的目标文档之后,会根据获取到的目标文档的文档后缀,确定目标文档的文档格式。[0193]在本技术实施例的一种可能的实现方式中,待识别的目标文档可以是文本格式、便携式文档格式或者图片等格式。当获取到待识别的目标文档之后,读取目标文档的文档名后缀,若读取到目标文档的后缀是“.txt”、“.doc”、“.docx”时,判断该目标文档的文档格式为文本格式;若读取到目标文档的后缀是“.pdf”时,判断该目标文档的文档格式为pdf格式;若读取到目标文档的后缀是“.jpg”、“.png”时,判断该目标文档的文档格式为图片格式。[0194]通过读取目标文档的文档后缀,来确定目标文档的文档格式,可以快速且准确的判断出目标文档的格式类型,提高简历文档的识别效率。[0195]图8示出了根据本技术一实施例提供的又一种简历文档识别方法的流程图。[0196]输入待识别目标文档,根据待识别目标文档的文档名后缀确定待识别目标文档的文档格式。若待识别目标文档的文档名后缀为“.txt、.doc、.docx”,则确定待识别目标文档为文本格式,并从文本格式的待识别目标文档中提取字符串类型的文本内容,若待识别目标文档的文档名后缀为“.pdf”,则确定待识别目标文档为pdf格式,然后运用ocr技术识别出该待识别目标文档的文本内容,并提取字符串类型的文本内容。[0197]提取出文本内容后,利用预设的简历验证规则进行文本内容规则验证,若验证未通过,则输出待识别目标文档为非简历文档的识别结果;若验证通过,则将文本内容输入至训练好的文本分类模型中进行简历文档识别,文本分类模型输出待识别目标文档为简历文档或非简历文档的识别结果。[0198]若待识别目标文档位文本格式但对文本内容提取失败,或者待识别目标文档的文档名后缀为“jpg”、“.png”,则确定待识别目标文档为图像格式,或者识别出待识别目标文档为图像格式,将图像格式的待识别目标文档直接输入至图像分类模型中,得到每一张图像是否为简历图像的识别结果,然后根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则进行图像规则验证,得到目标文档是否为简历文档的识别结果。[0199]通过上述方法,通过将验证规则与简历识别模型相结合来对目标文档进行识别,有效的提高了简历文档识别的准确性,同时由于在简历文档识别过程中筛除了不符合验证规则的目标文档,进而减少了简历识别模型的计算量,提高了简历文档识别的效率。[0200]与上述方法实施例相对应,本技术还提供了一种简历文档识别装置实施例,图9示出了本技术一实施例提供的一种简历文档识别装置的结构示意图。如图9所示,该装置包括:[0201]获取模块902,被配置为获取待识别的目标文档;[0202]提取模块904,被配置为从目标文档中提取文档信息;[0203]简历识别模块906,被配置为基于文档信息,对目标文档进行简历文档识别处理,得到目标文档是否为简历文档的识别结果,其中,简历文档识别处理包括规则验证和基于神经网络的分类识别。[0204]可选地,提取模块904,进一步被配置为:[0205]识别目标文档的文档格式;[0206]若目标文档的文档格式为文本格式,则从目标文档中提取字符串类型的文本内容;[0207]简历识别模块906,进一步被配置为:[0208]利用预设的简历文本验证规则,对文本内容进行规则验证;[0209]在文本内容的规则验证成功的情况下,将文本内容输入第一简历识别模型,得到目标文档是否为简历文档的识别结果,其中,第一简历识别模型为预先利用多个样本简历文本对预设神经网络进行训练得到的文本分类模型。[0210]可选地,提取模块904,进一步被配置为:[0211]若提取失败,则将目标文档的文档格式转换为图像格式。[0212]可选地,提取模块904,还被配置为从目标文档中提取每一张图像的图像信息;[0213]简历识别模块906,进一步被配置为:[0214]将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,其中,第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型;[0215]根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。[0216]可选地,简历识别模块906,进一步被配置为:[0217]在文本内容的规则验证失败的情况下,确定目标文档为非简历文档。[0218]可选地,简历识别模块906,进一步被配置为:[0219]从文本内容中提取各关键词;[0220]将各关键词分别与预设核心关键词库中的核心关键词进行匹配;[0221]若与核心关键词匹配成功的关键词数目达到第一预设阈值,则确定文本内容的规则验证成功。[0222]可选地,简历识别模块906,进一步被配置为:[0223]若与核心关键词匹配成功的关键词数目未达到第一预设阈值,则将各关键词分别与预设次要关键词库中的次要关键词进行匹配;[0224]若与次要关键词匹配成功的关键词数目达到第二预设阈值,则确定文本内容的规则验证成功;[0225]若与次要关键词匹配成功的关键词数目未达到第二预设阈值,则确定文本内容的规则验证失败。[0226]可选地,提取模块904,进一步被配置为:[0227]识别目标文档的文档格式;[0228]若目标文档的文档格式为图像格式,则从目标文档中提取每一张图像的图像信息;[0229]简历识别模块906,进一步被配置为:[0230]将每一张图像的图像信息分别输入第二简历识别模型,得到每一张图像是否为简历图像的识别结果,其中,第二简历识别模型为预先利用多个样本简历图像对预设神经网络进行训练得到的图像分类模型;[0231]根据每一张图像是否为简历图像的识别结果,利用预设的简历图像验证规则,得到目标文档是否为简历文档的识别结果。[0232]可选地,提取模块904,进一步被配置为:[0233]读取目标文档的文档名后缀;[0234]根据文档名后缀,确定目标文档的文档格式。[0235]可选地,该装置还包括:[0236]发送模块,被配置为将识别结果发送至客户端进行展示。[0237]通过上述方法,利用将验证规则与简历识别模型相结合来对目标文档进行识别,有效的提高了简历文档识别的准确性,同时由于在简历文档识别过程中筛除了不符合验证规则的目标文档,进而减少了简历识别模型的计算量,提高了简历文档识别的效率。[0238]上述为本实施例的一种简历文档识别装置的示意性方案。需要说明的是,该简历文档识别装置的技术方案与上述的简历文档识别方法的技术方案属于同一构思,简历文档识别装置的技术方案未详细描述的细节内容,均可以参见上述简历文档识别方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。[0239]图10示出了根据本技术一实施例提供的一种计算设备的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接,数据库1050用于保存数据。[0240]计算设备1000还包括接入设备1040,接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(pstn,publicswitchedtelephonenetwork)、局域网(lan,localareanetwork)、广域网(wan,wideareanetwork)、个域网(pan,personalareanetwork)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,networkinterfacecard))中的一个或多个,诸如ieee802.11无线局域网(wlan,wirelesslocalareanetworks)无线接口、全球微波互联接入(wi-max,worldinteroperabilityformicrowaveaccess)接口、以太网接口、通用串行总线(usb,universalserialbus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,nearfieldcommunication)接口,等等。[0241]在本技术的一个实施例中,计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图10所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。[0242]计算设备1000可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。[0243]其中,处理器1020用于执行所述简历文档识别方法的计算机可执行指令。[0244]上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的简历文档识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述简历文档识别方法的技术方案的描述。[0245]本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于简历文档识别方法。[0246]上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的简历文档识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述简历文档识别方法的技术方案的描述。[0247]上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。[0248]所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。[0249]需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。[0250]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。[0251]以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属
技术领域
:技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献