一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种票单自动核验方法和系统与流程

2022-07-02 03:36:21 来源:中国专利 TAG:


1.本说明书涉及办公自动化领域,特别涉及一种票单自动核验方法和系统。


背景技术:

2.业务人员工作时常需要对大量的票单,例如:报销单、发票等进行核验,具体验证相关单据是否有效,以进行入账或报销等。在验证过程中,财务人员需要对票单上各个项目依次进行核对。
3.随着票单量增加,核验任务也大大增加,因此,有必要提供一种自动核验系统,减轻业务人员负担。


技术实现要素:

4.本说明书实施例之一提供一种票单自动核验方法,其包括获取所述票单的图像;基于光学字符识别确定所述票单的图像中的票单数据;获取对比数据;所述对比数据中包括与所述票单数据同类型的字段;判断所述票单数据是否与所述对比数据匹配,输出判断结果;其中所述判断结果为匹配时则通过核验。
5.本说明书实施例之一提供一种票单自动核验系统,其包括图像获取模块,用于获取所述票单的图像;数据识别模块,用于基于光学字符识别确定所述票单的图像中的票单数据;对比数据获取模型,用于获取对比数据;结果输出模块,用于判断所述票单数据是否与所述对比数据匹配,输出判断结果。
6.本说明书实施例之一提供一种票单自动核验装置,包括处理器,其特征在于,所述处理器用于执行上述票单自动核验方法方法。
7.本说明书实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行票单自动核验方法。
附图说明
8.本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
9.图1是根据本说明书一些实施例所示的票单自动核验系统的应用场景示意图;
10.图2是根据本说明书一些实施例所示的票单自动核验方法的示例性流程图;
11.图3a是根据本说明书一些实施例所示的票单自动核验系统的示例性界面;
12.图3b是根据本说明书另一些实施例所示的票单自动核验系统的示例性界面;
13.图4是根据本说明书一些实施例所示的核验相似度确定方法的示意图;
14.图5是根据本说明书一些实施例所示的票单自动核验系统的模块化示意图。
具体实施方式
15.为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
16.应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
17.如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
18.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
19.目前,财务人员核验手写或机打的单据及发票时通常为人工审核,人工审核存在误差的几率较大,并且一个票据中经常会包括多个条目需要核验,工作人员的负荷较重。基于这一现状,在一些实施例中,提出一种票单核验方法和系统,利用ocr技术辅助单据和发票的核验。
20.图1是根据本说明书一些实施例所示的票单自动核验系统100的应用场景示意图。
21.如图1所示,票单核验系统100可以包括服务器110、处理器120、存储设备130、用户终端140和网络150。
22.在一些应用场景中,票单核验系统100可以用于有票单信息核验需求的处理平台等。票单核验系统100可以通过实施本说明书中披露的方法和/或过程来进行票单的核验,以减少人力成本,提高核验效率。
23.在一些应用场景中,使用用户终端140的用户可以包括提交票单的用户,也可以包括核验票单的相关业务人员。
24.服务器110可以用于管理资源以及处理来自本系统至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。在一些实施例中,服务器110可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如,服务器110可以是分布式系统),可以是专用的也可以由其他设备或系统同时提供服务。在一些实施例中,服务器110可以是区域的或者远程的。在一些实施例中,服务器110可以在云平台上实施,或者以虚拟方式提供。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
25.处理器120可以处理从其他设备或系统组成部分中获得的数据和/或信息。处理器可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本说明书中描述的功能。在一些实施例中,处理器120可以包含一个或多个子处理设备(例如,单核处理设备
或多核多芯处理设备)。仅作为示例,处理器120可以包括中央处理器(cpu)、专用集成电路(asic)、专用指令处理器(asip)、图形处理器(gpu)、物理处理器(ppu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编辑逻辑电路(pld)、控制器、微控制器单元、精简指令集电脑(risc)、微处理器等或以上任意组合。
26.存储设备130可以用于存储数据和/或指令。存储设备130可以包括一个或多个存储组件,每个存储组件可以是一个独立的设备,也可以是其他设备的一部分。在一些实施例中,存储设备130可包括随机存取存储器(ram)、只读存储器(rom)、大容量存储器、可移动存储器、易失性读写存储器等或其任意组合。示例性的,大容量储存器可以包括磁盘、光盘、固态磁盘等。在一些实施例中,所述存储设备130可在云平台上实现。
27.数据指对信息的数字化表示,可以包括各种类型,比如二进制数据、文本数据、图像数据、视频数据等。指令指可控制设备或器件执行特定功能的程序。
28.用户终端140指用户所使用的一个或多个终端设备或软件。在一些实施例中,使用用户终端140的可以是一个或多个用户,可以包括直接使用服务的用户,也可以包括其他相关用户。在一些实施例中,用户终端140可以是移动设备140-1、平板计算机140-2、膝上型计算机140-3、台式计算机140-4等其他具有输入和/或输出功能的设备中的一种或其任意组合。
29.上述示例仅用于说明所述用户终端140设备范围的广泛性而非对其范围的限制。
30.网络150可以连接系统的各组成部分和/或连接系统与外部资源部分。网络150使得各组成部分之间,以及与系统之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络150可以是有线网络或无线网络中的任意一种或多种。例如,网络150可以包括电缆网络、光纤网络、电信网络、互联网、局域网络(lan)、广域网络(wan)、无线局域网络(wlan)、城域网(man)、公共交换电话网络(pstn)、蓝牙网络、紫蜂网络(zigbee)、近场通信(nfc)、设备内总线、设备内线路、线缆连接等或其任意组合。各部分之间的网络连接可以是采用上述一种方式,也可以是采取多种方式。在一些实施例中,网络可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中,网络150可以包括一个或以上网络接入点。例如,网络150可以包括有线或无线网络接入点,例如基站和/或网络交换点150-1、150-2、

,通过这些进出点系统100的一个或多个组件可连接到网络150上以交换数据和/或信息。
31.在一些实施例中,可以通过用户终端140获取用户提交的票单,经服务器110处理后确定核验的结果,并通过用户终端140呈现给用户。服务器110在处理时可以获取存储设备130上的数据或将数据保存到存储设备130,也可以通过网络150从其他来源获取用于核验的数据和将核验结果输出到其他目标对象。在一些实施例中,提交核验申请、设置核验规则等操作可以在用户终端140上进行。本说明书中的操作可以通过处理器120执行程序指令进行。上述方式仅为方便理解,本系统亦可以其他可行的操作方式实施本说明书中的方法。
32.在一些实施例中,服务器110、用户终端140以及其他可能的系统组成部分中可以包括存储设备130。
33.在一些实施例中,服务器110、用户终端140以及其他可能的系统组成部分中可以包括处理器120。
34.在一些实例中,可以在不同的设备上分别进行不同的功能,比如票单图像的获取、
票单数据的确定、对比数据的获取、票单数据与对比数据相似度的确定等等,本说明书对此不作限制。
35.应当注意的是,上述有关系统100的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对系统100进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
36.图2是根据本说明书一些实施例所示的票单自动核验方法的示例性流程图。在一些实施例中,流程200中的一个或多个步骤可以由图1中的处理器120执行,其包括:
37.步骤210,获取所述表单的图像。在一些实施例中,步骤210由图像获取模块510执行。
38.票单图像是指能够展示待核验票单信息的相关图像。在一些实施例中,票单图像可以由图像获取模块510通过扫描获取,也可以通过拍照获取。在一些实施例中,票单图像可以由业务人员通过扫描或拍照的方式人工获取,并通过图像获取模块510上传。其中,获取票单图像的设备包括但不限于扫描仪、数码相机、手机、摄像头等。在一些实施例中,图像获取模块510可以从数据库读取票单图像,可以通过程序接口获取票单图像,也可以通过其他方式获取票单图像。
39.在一些实施例中,待核验票单为发票。在一些实施例中,待核验票单还可以是其他单据,例如:报销单、差旅报销单、借款单、还款单、安全管理还款单、借款转移申请单、差旅申请单、支付证明单、缴款单、请款单、收付款凭证、审核表等其他日常事务常用单据等。
40.步骤220,基于光学字符识别确定所述票单的图像中的票单数据。在一些实施例中,步骤220由数据识别模块520执行。
41.光学字符识别技术(ocr技术)是一种对字符进行自动识别的技术,包括但不限于对文本资料的图像文件进行分析识别处理,获取文字及版面信息。在一些实施例中,通过光学字符识别技术可以将手写或打印文本的图像转换为机器编码的字符,以便于进一步处理。
42.在一些实施例中,数据识别模块520可以采用光学字符识别技术对票单图像进行识别,得到其中的票单数据。
43.票单数据是指可用于核验的票单上的信息,其形式可以是数字、字符、时间、文本、图形或其他类型中的一种或多种。
44.票单数据可以包括多项数据。例如:日期、编号、税号、税额、名称、公章等。需要说明的是,在一些实施例中,根据票单类型的不同,票单内数据的类型和位置也不同,例如待核验票单为发票时,票单数据可以包括抬头、日期、内容、编号、税号、税额。
45.步骤230,获取对比数据,所述对比数据中包括与所述票单数据同类型的字段。在一些实施例中,步骤230由对比数据获取模块530执行。
46.对比数据指的是用于票单核验的数据。在一些实施例中,对比数据可以是单个数据,也可以是多个数据的集合。
47.在一些实施例中,数据识别模块520在获取票单数据时已知可用于确定对比数据的信息,可以由对比数据获取模块530相应获取对比数据。例如,票单图像可以是与对比数据一同保存的。例如,用户可以在填写报销单时附上发票的图像,报销单中餐费的金额为对比数据,发票的图像与报销单的数据是一同保存的。
48.在一些实施例中,对比数据获取模块530可以基于业务人员的配置直接获取对比数据。具体地,业务人员可以基于业务需求人工配置对比数据,对比数据至少包括对比字段值和对比逻辑。对比数据获取模块530基于业务人员配置的对比字段值和对比逻辑获取对比数据。
49.字段值是指用于核验的字段对应的值,例如:“日期”这一字段对应的字段值可以是“2020年02月20日”,“税额”这一字段对应的字段值可以是“1379.31”,“抬头”这一字段对应的字段值可以是“xxx公司”。
50.对比逻辑是指将票单数据与对比数据进行对比时的逻辑,包括:确定对比方式、根据选择的对比值的类型确定展示的运算符。示例性的,对比方式可以包括逐行、累加、无中的至少一种,逐行为每一行单独进行比对,累加为所有行累加的和(或合集)进行比对。根据选择的对比值的类型确定展示的运算符可以包括为数值、时间、字段等类型的对比值选择运算符。在一些实施例中,对比值为数值型,运算符可以是=、》、《、≤、≥、≠等;在一些实施例中,对比值为时间型,运算符可以是早于(≤)、晚于(>)、等于(=)等;在一些实施例中,对比值为字段型,运算符可以是=、包含于、包含、不包含、为空(=空值)、不为空(≠空值)等。在一些实施例中,根据字段类型的不同,还可以是其他运算符。
51.在一些实施例中,相关业务人员可以在图1所示的票单自动核验系统中,通过输入设备直接设定对比数据。
52.在一些实施例中,对比数据获取模块530可以通过向量索引确定一个或多个候选对比数据。具体地,基于票单数据得到票单关键字段的代表向量,基于票单关键字段的代表向量,通过向量索引确定一个或多个候选对比数据。
53.在一些情况下,存在获取票单数据时未同时得到可以用于确定对比数据的信息或暂时无法获取相应的对比数据的情况,例如,票单图像和对比数据非同一时间保存。以报销单的核验为例,用户在系统中填写报销单,未同时上传相应的发票图像,后由于核验需要单独补充上传发票图像。此时,需要基于用户上传的发票图像中的数据找到对应的报销单中的数据用于核验。
54.在一些实施例中,对比数据获取模块530可以获取票单图像中的票单数据,并找到票单数据的关键字段,基于关键字段确定关键字段的代表向量,并通过向量索引找到与代表向量相似的一个或多个向量,从而确定相应的一个或多个候选对比数据,进而从一个或多个候选对比数据中确定用于核验的对比数据。
55.关键字段是指可以作为识别特征用于票单识别的字段,在一些实施例中,可用于查找对比数据,关键字段可以是一个字段,也可以是一组字段。示例性的,发票编号可以作为识别发票的唯一关键字段;发票抬头和日期可作为识别发票的一组关键字段;纳税人识别号、金额、日期可以作为识别发票的一组关键字段。在一些实施例中,关键字段可以由处理设备基于用户配置信息获得,可以基于历史票单数据通过机器学习获得,也可以以其他方式获得。在一些实施例中,关键字段还可以是票单数据中特定比例的字段,例如,选取票单数据中前20%的字段作为关键字段,或随机选取票单数据中占总长度20%的字段作为关键字段。
56.向量索引(vector index)是指通过数学模型,对向量构建的一种时间和空间上更高效的数据结构。通过向量索引,可以快速查询与目标向量相似的若干个向量。向量索引不
局限于只返回最精确的结果项,而是搜索可能是近邻的数据项。向量索引可以通过基于树、基于图、基于哈希、基于向量量化等方式实现。以向量量化为例,在查询数据总量较小时,可以分别计算目标向量与数据库中所有数据的向量之间的向量距离,基于向量距离的阈值或候选数据的个数限制,得到一个或多个候选数据;在查询数据总量较大时,可以将数据库中所有数据的向量先进行聚类,得到多个类簇以及每个类簇中心点的向量,在进行向量索引时,将目标向量与每个类簇中心点的向量计算向量距离,取距离最近的类簇中所有数据的向量进一步与该目标向量进一步计算向量距离,选取一个或多个候选数据。
57.在一些实施例中,对比数据获取模块530基于关键字段得到关键字段的代表向量,进一步通过向量索引找到与其相似的若干向量。具体地,数据识别模块520可以确定票单图像中的票单数据,从而确定票单数据的关键字段,通过将关键字段的字段值进行向量化得到关键字段的代表向量。在一些实施例中,对比数据获取模块530通过向量索引,基于代表向量在数据库中确定与之近似的一个或多个向量。在数据库中,每个向量分别对应一组数据,在一些实施例中,可以预先在数据库中对每组数据(如纳税人识别号、发票编号等)建立用于向量索引的向量。因此,比数据获取模块530可以通过与代表向量近似的一个或多个向量得到一个或多个候选对比数据。
58.在一些实施例中,当候选对比数据为一个时,对比数据获取模块530可以将该候选对比数据作为对比数据;当候选数对比据为多个时,对比数据获取模块530可以在多个候选对比数据中选取一个与票单数据最相似的数据作为对比数据。在一些实施例中,选取方式可以包括但不仅限于计算相似度(如kl距离、js散度等)或向量距离等。
59.通过向量索引的方式,在票单数据未与对比数据建立关系的情况下,快速确定对比数据或与票单数据相似的对比数据,无需人工筛选,降低工作强度。同时针对某些情况下,某些相近的字符(如5和s)识别错误或输入错误的情况下,增加能够索引到相应的对比数据的概率。
60.步骤240,判断所述票单数据是否与所述对比数据匹配,输出判断结果。在一些实施例中,步骤240由结果输出模块540执行。
61.在一些实施例中,结果输出模块540判断票单数据是否与对比数据匹配,基于判断的结果确定待核验票单是否通过核验。其中,匹配是指票单数据是否与对比数据一致或包含于对比数据。例如,核验发票信息时,票单数据的发票编号为“no.123456”,对比数据的发票字段也为“no.123456”,二者一致,则判断票单数据与对比数据匹配。再例如,核验发票信息时,票单数据对应的发票日期为“2020年11月12日”,销售方为“a公司”,对比数据集合中,日期可以是“2020年11月1日至2020年11月30日”,发票销售方可以是“a公司、b公司、c公司”,此时票单数据包含于对比数据中,判断票单数据与对比数据匹配,待核验票单通过核验。
62.在一些实施例中,如步骤220所示,对比数据可以包括对比字段值和对比逻辑,此时票单数据中字段与对比字段值满足对比逻辑时,即认为票单数据与对比数据匹配。继续采用核验发票信息作为示例,若将对比数据中税额的对比字符字段值设置为1500,对比逻辑为小于,当票单数据中税额字段为1379.31时,此时票单数据满足对比逻辑,票单数据与对比数据匹配。
63.判断结果即票单数据与对比数据是否匹配的结果,可以表征待核验票单是否通过
核验。例如,判断结果为匹配,则待核验票单通过核验;判断结果为不匹配,则待核验票单未通过核验,需要进行人工检验。输出的判断结果可以有多种形式,包括但不限于表格形式的对比表、文本形式的结果概述、图形形式的对比图等各种形式的结果,用于展示票单数据中的字段与对比数据中字段的匹配情况。在一些实施例中,输出结果可以被直接显示,可以被保存至数据库,也可以以其他方式被使用。
64.在一些实施例中,当输出结果为不匹配时,还可以进行进一步处理,如退回票单、更换审批人等,在本实施例中不做限制。
65.通过输出可视化的判断结果,使得在核验通过的情况下有据可查,而在需要进行人工核验的情况下,业务人员能够快速且直观的获取票单的核验情况,降低人工核验时工作负担。
66.应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
67.图3a是根据本说明书一些实施例所示的票单自动核验系统的示例性界面。图3b是根据本说明书另一些实施例所示的票单自动核验系统的示例性界面。
68.在一些实施例中,判断结果包括核验相似度,该核验相似度被用于通过颜色或标记的至少一种显示。
69.核验相似度是指反映票单数据与对比数据的相似程度的信息。核验相似度有多种表达方式。例如,可以是0~10之间的任意数值、概率值、或0~1之间的任意数值等。再例如,核验相似度还可以以“相似度非常高”、“相似度较高”、“比较相似”、“相似度较低”、“相似度非常低”等文本形式体现。在一些实施例中,核验相似度可以辅助判断票单数据与对比数据匹配的情况,进而判断待核验票单是否进一步的人工核验。在一些实施例中,核验相似度的具体形式可以视实际情况确定,如核验相似度越高,则表示票单数据和对比数据越相似。
70.在一些实施例中,核验相似度可以由结果输出模块540直接输出。
71.在一些实施例中,可以基于核验相似度是否满足预设条件判断票单数据与对比数据是否匹配。预设条件可以是预设阈值,基于核验相似度是否大于预设阈值判断票单数据与对比数据是否匹配。示例性的,如核验相似度为概率值,可以将预设阈值设置为80%,当实际核验相似度大于80%(如85%、90%等)时,显示票单数据与对比数据匹配。
72.如图3a和3b所示,在一些实施例中,判断结果可以是匹配或不匹配。在一些实施例中,判断结果还可以包括核验相似度。
73.在一些实施例中,结果输出模块540输出判断结果的方式包括但不限于:核验相似度和对比数据一起显示,可以显示在待核验票单上,也可以与待核验票单分开显示;核验相似度和对比数据分别单独显示,可以是核验相似度显示在待核验票单上,对比数据单独显示,还可以是对比数据显示在待核验票单上,核验相似度单独显示;核验相似度、对比数据、待核验票单分别单独显示等。判断结果地输出形式也有多种,可以包括但不限于表格、图像、文本描述等形式。本实施例中列出的判断结果的输出方式与形式旨在说明而非进行限制,事实上判断结果的输出还可以有其它方式,可以视实际情况而定。
74.在一些实施例中,还可以基于核验相似度以颜色或图形标记的方式,表征不同的相似度值。例如,核验相似度高于阈值的数据以绿色显示,低于阈值的以红色显示;再例如,
核验相似度高于阈值的数据用“√”标记,低于阈值的用
“×”
标记。在一些实施例中,还可以基于核验相似度以颜色和图形标记相结合的方式进行显示。例如,核验相似度高于阈值的数据用绿色“√”标记,低于阈值的用红色
“×”
标记。本实施例中关于颜色、图形的举例仅是出于说明的目的而提供,并非旨在限制本说明书的范围,颜色及图形标记的具体形式可视实际情况确定。
75.通过可选的形式展示各字段的匹配情况,进一步展示匹配结果的细节,可以减少用户人工核验的负担,提高核验的准确率,同时为必要的人工核验提供了参考数据,有利于整理核验效率的提升。
76.图4是根据本说明书一些实施例所示的核验相似度确定方法的示意图。
77.在一些实施例中,可以基于目标向量和对比向量确定核验相似度。其中,目标向量基于票单数据进行向量化生成;对比向量基于对比数据进行向量化生成。
78.在一些实施例中,可以通过机器学习模型获取目标向量和对比向量,该机器学习模型可以包括但不限于深度神经网络模型(dnn)、卷积神经网络模型(cnn)、循环神经网络模型(rnn)、长短期记忆网络模型(lstm)等模型。
79.票单数据和对比数据的部分数据项可以为字符型数据。字符型数据可以包括中文字符、英文字符、数字字符和其他ascⅱ字符等。例如:公司名称、日期、编号等。
80.字符型数据的向量化是指将字符型数据进行数字化表示。在一些实施例中,字符型数据的向量化可以采取one-hot的方式对各个字符进行向量化,如将字符“9527”每一位的字符分别向量化得到向量(9,5,2,7);也可以采用word2vec模型来确定各个字符的字符向量,此外,还可以采用其他方式对字符型数据进行向量化,本实施例对此不做限制。
81.票单数据和对比数据的部分数据项可以为文本型数据。文本型数据是指以文本形式存在的数据,包括以语句或语段形式存在的数据。例如:差旅申请、出差报销单中关于行程的描述数据等。
82.文本型数据的向量化是指将文本数据进行数字化表示。在一些实施例中,文本型数据向量化可以采用bert模型。bert模型在对输入的文本中的词进行编码时,可以结合词的上下文的信息,包括语义信息、位置信息等,可以理解,得到的词的向量包含了词的文本信息以及上下文的信息。模型的输入是文本中各个字/词的原始词向量,输出是文本中各个字/词融合了全文语义信息后的向量表示。此外,文本型数据的向量化还可以采用doc2vec或双向长短期记忆网络模型(bilstm)等模型,本实施例对此不作限制。
83.需要说明的是,步骤220中,通过向量索引确定对比数据的实施例中,可以基于上述方式确定数据库中数据的向量和/或票单数据的向量。
84.在一些实施例中,可以基于目标向量和对比向量确定核验相似度,具体地,计算票单数据和对比数据的向量距离,核验相似度与向量距离负相关。
85.向量距离是指两向量在空间上的接近程度。在一些实施例中,可以计算目标向量和对比向量的向量距离,进而基于向量距离确定核验相似度。在一些实施例中,向量距离可以包括但不限于欧氏距离、余弦距离、曼哈顿距离等,或者上述方法的任意组合。
86.在一些实施例中,根据核验相似度的形式,可以对向量距离进行进一步计算,得到核验相似度。例如,核验相似度为0~1之间的数值,可以将向量距离输入sigmoid函数,得到0~1之间的数值,并可以将该数值作为核验相似度。
87.在一些实施例中,核验相似度与向量距离负相关。即,向量距离越小,核验相似度越大;向量距离越大,核验相似度越小。在一些实施例中,如果一个待核验票单数据的目标向量和对比数据的对比向量距离较近或重合,则二者的核验相似度高,待核验票单数据可能包含于对比数据,二者是匹配的;如果待核验票单数据的目标向量和对比数据的对比向量相距较远,则二者核验相似度低,待核验票单数据不包含于对比数据,二者不匹配。
88.在一些实施例中,可以确定于待核验票单数据目标向量最接近的对比数据的对比向量,基于该待核验票单数据目标向量与对比数据对比向量的距离,确定二者的核验相似度,距离越大,核验相似度越低,待核验票单数据与对比数据的匹配度越低。
89.在一些实施例中,核验相似度基于票单数据和对比数据的汉明距离确定,核验相似度与汉明距离负相关。汉明距离是指表示两个(相同长度)字对应位不同的数量,例如:1011101与1001001之间的汉明距离是2;"toned"与"roses"之间的汉明距离是3。负相关是指,当汉明距离越大时,核验相似度越小;当汉明距离越小时,核验相似度越大。例如,汉明距离越小,两字数相同的文本对应位不同的数量越小,核验相似度越大;汉明距离越大,两字数相同的文本对应位不同的数量越大,核验相似度越小。例如,需要核验票单数据与对比数据相应字段是否完全一致时,针对发票编号这一字段,票单数据为“12345”,对比数据为“72345”,二者之间的汉明距离为1,示例性的,若输出的核验相似度为概率值,由于该字段共5个字符,汉明距离为1时,可以确定核验相似度为80%。
90.ocr技术确定票单数据中的字符时,可能由于印刷或手写的原因出现相似的字符识别有误的情况,在该情况下可以对相似度进行调整。在一些实施例中,基于采用上述示例,票单数据为“12345”、对比数据为“72345”存在区别的字符为1和7,属于容易识别错误的字符,此时结果输出模块540输出的核验相似度可以大于80%(如90%);若存在区别的字符为1和8时,由于这两个字符之间不易出现识别错误,此时结果输出模块540输出的核验相似度可以小于80%(如50%)。需要说明的是,对于核验相似度的调整方式还适用于上述向量距离得到的核验相似度或其他方式得到的核验相似度。
91.通过将向量距离得到票单数据和对比数据的相似度和通过汉明距离得到核验相似度的方式,一方面可以利用机器较强的计算能力,快速且准确的提供输出匹配结果判断的依据,另一方面还可以验证ocr识别结果的准确性,有利于保障票单核验的准确性和可靠性。
92.图5是根据本说明书一些实施例所示的票单自动核验系统的模块化示意图。
93.在一些实施例中,所述票单自动核验系统500可以包括图像获取模块510、数据识别模块520、对比数据获取模块530和结果输出模块540。
94.图像获取模块510,可以用于获取票单的图像。
95.在一些实施例中,关于票单的图像的更多细节可参见步骤210及其相关描述,此处不再赘述。
96.数据识别模块520,可以用于基于光学字符识别确定票单的图像中的票单数据。
97.在一些实施例中,关于票单数据的更多细节可参见步骤220及其相关描述,此处不再赘述。
98.对比数据获取模块530,可以用于获取对比数据,对比数据中包含于票单数据同类型的字段。
99.在一些实施例中,关于对比数据的更多细节可参见步骤230及其相关描述,此处不再赘述。
100.在一些实施例中,对比数据获取模块530可以用于基于票单数据得到票单关键字段的代表向量,基于代表向量,通过向量索引确定对比数据。
101.在一些实施例中,对比数据至少包括对比字段值和对比逻辑。
102.关于向量及向量索引的更多细节可参见图1及其相关描述,此处不再赘述。
103.结果输出模块540,可以用于判断所述票单数据是否与所述对比数据匹配,输出判断结果。其中,判断结果为匹配时通过核验。
104.在一些实施例中,关于判断结果的更多细节可参见步骤240及其相关描述,此处不再赘述。
105.在一些实施例中,结果输出模块540可以用于确定核验相似度,包括:基于票单数据进行向量化生成目标向量;基于对比数据进行型量化生成对比向量;基于目标向量和对比向量生成核验相似度。
106.在一些实施例中,向量化还包括对文本型字段,基于语义模型生成包括文本语义的向量。
107.在一些实施例中,结果输出模块540还可以计算票单数据和对比数据的向量距离,核验相似度与向量距离负相关。
108.在一些实施例中,票单数据与对比数据的距离可以是汉明距离,核验相似度与票单数据与对比数据的汉明距离负相关。
109.应当理解,图5所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
110.需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。在一些实施例中,图5中披露的图像获取模块510、数据识别模块520、对比数据获取模块530和结果输出模块540可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
111.本说明书实施例可能带来的有益效果包括但不限于:(1)通过ocr技术辅助单据和发票的核验,减少了人工核验的负担,提升核验的效率;(2)通过输出结果的同时输出相似度,能够提供得出结果的依据,避免了人工核验可能出现的误差,提高了核验的准确性和可
靠性;(3)通过向量索引和输出相似度,在某些情况下相似字符识别错误时,依旧能够进行自动核验。
112.需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
113.上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
114.同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
115.此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
116.同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
117.一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有
±
20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
118.针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
119.最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。
其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献