一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于RPA和AI的商品信息处理方法、装置、设备和介质与流程

2022-05-17 23:12:14 来源:中国专利 TAG:
基于rpa和ai的商品信息处理方法、装置、设备和介质
技术领域
:1.本公开涉及人工智能(artificialintelligence,简称ai)和机器人流程自动化(roboticprocessautomation,简称rpa)领域,尤其涉及一种基于rpa和ai的商品信息处理方法、装置、设备和介质。
背景技术
::2.rpa是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。3.ai是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。4.智能文档处理(intelligentdocumentprocessing,简称idp)是基于光学字符识别(opticalcharacterrecognition,简称ocr)、计算机视觉(computervision,简称cv)、自然语言处理(naturallanguageprocessing,简称nlp)、知识图谱(knowledgegraph,简称kg)等人工智能技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化的新一代自动化技术。5.对于商品而言,不同时期可能会设计有不同造型的包装,比如,针对不同的节假日,会设计与各节假日氛围匹配的商品包装,再例如,当商品与不同名人或游戏联动时,也会设计新的商品包装等等。其中,商品包装上一般包括营养成分表、配料信息、生产商、地址及产地等信息,上述信息如果出现错误,可能会造成一定的法律问题。因此,如何对商品包装上的商品信息进行核对,是非常重要的。6.相关技术中,在设计新的商品包装时,通过多个部门的员工对商品包装进行多次核对。7.然而上述人工多次核对的方式,不仅效率较低,而且核对结果的准确率无法保证。此外,在生产商、地址及产地为多个的情况下,人工核对较为困难和吃力,且容易遗漏。技术实现要素:8.本公开旨在至少在一定程度上解决相关技术中的技术问题之一。9.为此,本公开提出一种基于rpa和ai的商品信息处理方法、装置、设备和介质,以实现通过rpa机器人自动对商品包装图上的商品信息进行核对,一方面,可以降低人工参与量,释放人力资源,降低人力成本,另一方面,可以提高商品信息的核对效率,还可以避免人工核对易出错的情况,提升商品信息核对结果的准确性。10.本公开第一方面实施例提出了一种基于rpa和ai的商品信息处理方法,所述方法由rpa机器人执行,包括:获取目标商品对应的商品包装图,并基于光学字符识别ocr技术,识别所述商品包装图中的文本内容;获取参考文档,并获取所述参考文档中的文档内容,其中,所述文档内容中包括所述目标商品对应的商品信息;对所述文本内容和所述文档内容进行比对,以确定所述文本内容中不同于所述文档内容中的第一差异部分;在所述文本内容中对所述第一差异部分进行异常标注,和/或,在所述商品包装图中对所述第一差异部分所处的区域进行异常标注。11.本公开第二方面实施例提出了一种基于rpa和ai的商品信息处理装置,应用于rpa机器人,包括:第一获取模块,用于获取目标商品对应的商品包装图;识别模块,用于基于光学字符识别ocr技术,识别所述商品包装图中的文本内容;第二获取模块,用于获取参考文档,并获取所述参考文档中的文档内容,其中,所述文档内容中包括所述目标商品对应的商品信息;比对模块,用于对所述文本内容和所述文档内容进行比对,以确定所述文本内容中不同于所述文档内容中的第一差异部分;标注模块,在所述文本内容中对所述第一差异部分进行异常标注,和/或,在所述商品包装图中对所述第一差异部分所处的区域进行异常标注。12.本公开第三方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本公开上述第一方面实施例所述的方法。13.本公开第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本公开上述第一方面实施例所述的方法。14.本公开第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本公开上述第一方面实施例所述的方法。15.本公开实施例所提供的技术方案包含如下的有益效果:通过rpa机器人获取目标商品对应的商品包装图,并基于ocr技术,识别商品包装图中的文本内容;获取参考文档,并获取参考文档中的文档内容,其中,文档内容中包括目标商品对应的商品信息;对文本内容和文档内容进行比对,以确定文本内容中不同于文档内容中的第一差异部分;在文本内容中对第一差异部分进行异常标注,和/或,在商品包装图中对第一差异部分所处的区域进行异常标注。由此,可以实现通过rpa机器人自动对商品包装图上的商品信息进行核对,一方面,可以降低人工参与量,释放人力资源,降低人力成本,另一方面,可以提高商品信息的核对效率,还可以避免人工核对易出错的情况,提升商品信息核对结果的准确性。16.本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。附图说明17.本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本公开实施例所提供的一种基于rpa和ai的商品信息处理方法的流程示意图;图2为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图;图3为本公开实施例中对商品包装图进行切分后得到的各子图像示意图;图4为本公开实施例中的商品包装图的局部示意图一;图5为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图;图6为本公开实施例中的核对报告示意图;图7为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图;图8为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图;图9为本公开实施例中的第一营养成分信息示意图;图10为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图;图11为本公开实施例的实现原理示意图;图12为本公开实施例中的商品包装图的局部示意图二;图13为本公开实施例中的ocr识别结果示意图一;图14为本公开实施例中的配料信息抽取结果示意图;图15为本公开实施例中的ocr识别结果示意图二;图16为本公开实施例中的厂名、厂址和生产许可证编号的抽取结果示意图;图17为本公开实施例中的第三属性字段示意图;图18为本公开实施例中配置模板示意图;图19为本公开实施例中配料的提取规则或抽取规则示意图;图20为本公开实施例中的ocr识别结果示意图三;图21为本公开实施例中的ocr识别结果示意图四;图22为本公开实施例提供的一种基于rpa和ai的商品信息处理装置的结构示意图;图23示出了适于用来实现本公开实施方式的示例性电子设备的框图。具体实施方式18.下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。19.本公开提出了一种基于rpa和ai的商品信息处理方法、装置、设备和介质。20.下面参考附图描述本公开实施例的基于rpa和ai的商品信息处理方法、装置、设备和介质。在具体描述本公开实施例之前,为了便于理解,首先对常用技术词进行介绍:“rpa”,是机器人流程自动化(roboticprocessautomation)的简称,是为企业和个人提供专业全面的流程自动化解决方案。rpa是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。即rpa机器人可通过模拟用户的鼠标键盘操作,快速、准确的收集用户操作界面的数据,基于清晰的逻辑规则处理这些数据,再快速而准确地录入到另外一个系统或界面。由此,可以大幅降低人力成本的投入,有效提高现有办公效率,准确、稳定、快捷地完成工作。[0021]“ai”是人工智能(artificialintelligence)的简称,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。ai是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。ai硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;ai软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理(naturallanguageprocessing,简称nlp)技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。[0022]“商品”,是为了出售而生产的劳动成果,是用于交换的劳动产品。比如,商品可以包括食品、日用品、保健品等等。[0023]“目标商品”,可以为任意一个商品,比如,目标商品可以为某个食品、某个日用品等。[0024]“商品包装图”,又称为商品包装设计图,是指包括目标商品的包装设计的图像。[0025]“商品信息”,是指与目标商品相关的信息,比如,商品信息可以包括目标商品的营养成分信息、配料信息(或成分信息)、生产商、地址及产地等信息。[0026]“参考文档”,或称为待比对文档,是指包括目标商品对应的商品信息的文档,比如,该参考文档可以为结构化文档,例如excel文档,或者,参考文档也可以为非结构化文档,比如word文档等。应当理解的是,在参考文档为非结构化文档时,为了便于rpa机器人进行信息比对,可以将非结构化的参考文档转换为结构化文档。[0027]“光学字符识别(opticalcharacterrecognition,简称ocr)”,是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。[0028]“第一属性字段”,是指商品包装图对应的文本内容中所包括的属性字段,比如,第一属性字段可以包括:生产许可证(或称为生产许可证编号、生产编号)、地址、生产商、配料、贮存条件、保质期、生产日期、净含量、产品种类等。[0029]“第一属性值”,是指第一属性字段在文本内容中对应的属性值,比如,以目标商品为食品进行示例,配料对应的属性值可以为:饮用水、芝士粉、柠檬酸等。[0030]“第二属性字段”,是指参考文档中的文档内容中所包括的属性字段,相应的,第二属性值是指第二属性字段在文档内容中对应的属性值。需要说明的是,第二属性字段为目标商品对应的标准属性字段,第二属性值为目标商品对应的标准属性值。[0031]应当理解的是,第一属性字段和/或第一属性值可能在设计环节出现错误,但是,第二属性字段和第二属性值均是与目标商品相关,且书写正确的属性字段和属性值。[0032]“设定词表”,是指预先设定的词表,该设定词表还可以称为自定义词表。其中,设定词表中包括与目标商品的商品信息相关的各个属性字段,本公开中记为第三属性字段。比如,第三属性字段可以包括:生产许可证、地址、生产商、配料、贮存条件、保质期、生产日期、净含量、产品种类等。[0033]需要说明的是,考虑到ocr识别结果的准确率,对于一些属性字段,比如配料,ocr识别结果可能为“料”,导致“配”字没有识别到,或者识别结果可能为“配料”,导致识别结果中间多出空格。针对上述情况,针对与商品信息相关的每个属性字段,还可以统计该属性字段的多种说法或多种可能的说法,将该属性字段和该属性字段对应的多种说法或多种可能的说法,均作为第三属性字段,并设置于设定词表中。[0034]举例而言,针对“配料”这一属性字段,设定词表中可以包括:“配”、“料”、“配料”、“配料”等。[0035]“第三属性值”,是指与第三属性字段在目标商品的商品包装图对应的文本内容中所对应的属性值,比如,以目标商品为食品进行示例,配料对应的属性值可以为:饮用水、芝士粉、柠檬酸等。[0036]“目标文档”,是指包含目标商品的商品包装图的文档,比如,目标文档可以为pdf(portabledocumentformat,可携带文档格式)文档,或者,也可以为psd(psd是adobe公司的图形设计软件photoshop的专用格式)、adobeillustrator(具体为adobeillustrator的文件扩展名,是一种矢量图形文件格式)等格式的设计文档。[0037]“第一营养成分信息”,是文本内容中包括的与目标商品相关的营养成分信息,比如,以目标商品为食品进行示例,第一营养成分信息可以包括:能量、蛋白质、脂肪、碳水化合物等成分信息。[0038]“第二营养成分信息”,是文档内容中包括的与目标商品相关的营养成分信息。应当理解的是,第一营养成分信息可能在设计环节出现错误,但是,第二营养成分信息是与目标商品相关,且书写正确的营养成分信息。[0039]“正则表达式”,又称规则表达式,用于检索或替换符合某个模式(或规则)的文本。[0040]“任一文本片段”,是指第一营养成分信息中任意一个文本片段,其中,同一个文本片段内包含位置相邻的各个字符,和/或,包含间隔为第一设定个数(比如1或2等)空格的各字符。[0041]“邻接文本片段”,是指“第一营养成分信息”中与“任一文本片段”位置相邻的文本片段,比如,“邻接文本片段”可以为:位于“任一文本片段”左侧、右侧、上侧、下侧的文本片段。[0042]作为一种示例,以目标商品为食品进行示例,第一营养成分信息可以如表1所示:表1假设“任一文本片段”为表1中的“碳水化合物”,则“邻接文本片段”可以为“5.8g”、“脂肪”、“钠”。[0043]“目标检测算法”,属于ai领域中的计算机视觉领域。可以基于深度学习技术中的目标检测算法,检测图像中是否包括所需内容。[0044]图1为本公开实施例所提供的一种基于rpa和ai的商品信息处理方法的流程示意图。[0045]本公开实施例提供的基于rpa和ai的商品信息处理方法,可应用于rpa机器人,该rpa机器人可以运行在任一具有计算能力的电子设备中。其中,该电子设备可以是个人电脑、移动终端等,移动终端例如为手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。[0046]如图1所示,该基于rpa和ai的商品信息处理方法可以包括以下步骤:步骤101,获取目标商品对应的商品包装图,并基于ocr技术,识别商品包装图中的文本内容。[0047]在本公开实施例中,商品包装图可以为jpg(或jpeg(jointphotographicexpertsgroup,联合图像专家组))、png(portablenetworkgraphics,便携式网络图形)等图像格式的图像。[0048]在本公开实施例的一种可能的实现方式中,rpa机器人可以直接获取目标商品对应的商品包装图。[0049]作为一种示例,可以通过人工上传或发送商品包装图至rpa机器人所在的设备,比如,业务人员可以通过图像采集设备(比如相机、移动终端等)对目标商品进行拍照,得到图像文件格式的商品包装图,或者,业务人员可以对包含商品包装图的纸质文件进行扫描,得到pdf格式的文档,并对上述文档中的商品包装图进行截图,得到图像文件格式的商品包装图。业务人员在获取到商品包装图后,可以将商品包装图上传或发送至rpa机器人所在的设备。[0050]在本公开实施例的另一种可能的实现方式中,rpa机器人也可以间接获取目标商品对应的商品包装图。[0051]作为一种示例,rpa机器人可以获取包含商品包装图的目标文档,例如,可以通过人工上传或发送目标文档至rpa机器人所在的设备,从而rpa机器人在获取到目标文档后,可以从目标文档中提取商品包装图。比如,rpa机器人可以基于目标检测算法,从目标文档中识别并截取商品包装图。[0052]在本公开实施例中,rpa机器人在获取到商品包装图后,可以基于ocr技术,对商品包装图进行字符识别,以得到商品包装图的文本内容。[0053]步骤102,获取参考文档,并获取参考文档中的文档内容,其中,文档内容中包括目标商品对应的商品信息。[0054]在本公开实施例中,rpa机器人可以获取参考文档,比如,可以通过人工上传或发送参考文档至rpa机器人所在的设备。rpa机器人在获取参考文档后,可以读取参考文档中的文档内容。[0055]步骤103,对文本内容和文档内容进行比对,以确定文本内容中不同于文档内容中的第一差异部分。[0056]在本公开实施例中,rpa机器人可以将文本内容和文档内容进行比对,以确定文本内容中不同于文档内容中的第一差异部分。[0057]步骤104,在文本内容中对第一差异部分进行异常标注,和/或,在商品包装图中对第一差异部分所处的区域进行异常标注。[0058]在本公开实施例的一种可能的实现方式中,rpa机器人可以在文本内容中,对上述第一差异部分进行异常标注。例如,rpa机器人可以在文本内容中,对第一差异部分的字体和/或字号进行调整(比如调大字号、字体倾斜和/或加粗等),并对调整后的第一差异部分进行颜色标注;或者,rpa机器人也可以直接在文本内容中对第一差异部分进行颜色标注,比如,可以采用醒目的颜色(例如红色、蓝色等)对第一差异部分进行颜色标注,本公开对此并不做限制。[0059]在本公开实施例的另一种可能的实现方式中,rpa机器人可以确定第一差异部分在商品包装图中所处的区域,并在商品包装图中对上述区域进行异常标注。比如,可以在上述区域的边缘添加标注框;或者,可以在上述区域中的字符下方添加下划线、波浪线等等,本公开对此并不做限制。[0060]在本公开实施例的又一种可能的实现方式中,rpa机器人还可以同时在文本内容中对第一差异部分进行异常标注,以及,在商品包装图中对第一差异部分所处的区域进行异常标注。[0061]可选地,rpa机器人在对文本内容进行异常标注后,还可以展示标注后的文本内容,和/或,rpa机器人在对商品包装图进行异常标注后,还可以展示标注后的商品包装图,以使相关人员能够及时获知比对结果。[0062]本公开实施例的基于rpa和ai的商品信息处理方法,通过rpa机器人获取目标商品对应的商品包装图,并基于ocr技术,识别商品包装图中的文本内容;获取参考文档,并获取参考文档中的文档内容,其中,文档内容中包括目标商品对应的商品信息;对文本内容和文档内容进行比对,以确定文本内容中不同于文档内容中的第一差异部分;在文本内容中对第一差异部分进行异常标注,和/或,在商品包装图中对第一差异部分所处的区域进行异常标注。由此,可以实现通过rpa机器人自动对商品包装图上的商品信息进行核对,一方面,可以降低人工参与量,释放人力资源,降低人力成本,另一方面,可以提高商品信息的核对效率,还可以避免人工核对易出错的情况,提升商品信息核对结果的准确性。[0063]为了清楚说明本公开任一实施例中rpa机器人是如何对文本内容和文档内容进行比对的,本公开还提出一种基于rpa和ai的商品信息处理方法。[0064]图2为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图。[0065]如图2所示,该基于rpa和ai的商品信息处理方法可以包括以下步骤:步骤201,获取目标商品对应的商品包装图,并基于ocr技术,识别商品包装图中的文本内容。[0066]在本公开的任意一个实施例之中,可以通过人工圈选的方式,将商品包装图中切分为至少一个子图像,从而可以基于ocr技术,对至少一个子图像进行字符识别,以得到文本内容。[0067]即本公开中,rpa机器人可以响应于相关人员触发的截取操作,将商品包装图切分为至少一个子图像,并基于ocr技术,对至少一个子图像进行字符识别,以得到文本内容。[0068]作为一种示例,以目标商品为食品进行示例,相关人员可以通过圈选的方式,将商品包装图切分为如图3所示的6个子区域。[0069]在本公开的任意一个实施例之中,rpa机器人可以基于深度学习技术中的目标检测算法,从商品包装图中识别并提取至少一个目标区域,其中,目标区域中包括字符信息。rpa机器人可以基于ocr技术,对至少一个目标区域进行字符识别,以得到文本内容。[0070]步骤202,获取参考文档,并获取参考文档中的文档内容,其中,文档内容中包括目标商品对应的商品信息。[0071]步骤201至202的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。[0072]步骤203,从文本内容中提取各第一属性字段,并从文本内容中提取与各第一属性字段匹配的第一属性值。[0073]在本公开实施例中,可以从文本内容中提取第一属性字段,并从文本内容中提取与各第一属性字段匹配的第一属性值。[0074]作为一种示例,以目标商品为食品进行示例,商品包装图的局部可以如图4所示,可以将“:”之前的文本片段作为第一属性字段,将“:”之后的文本片段作为第一属性字段对应的第一属性值。[0075]作为另一种示例,可以预先设定一个属性表,该属性表中包括与目标商品相关的各属性字段,从而本公开中,可以从文本内容中提取与属性表中的各属性字段匹配的第一属性字段,在提取到各第一属性字段后,可以基于设定的提取规则或抽取规则,从文本内容中提取各第一属性字段对应的第一属性值。[0076]例如,可以从文本内容中提取相邻的两个第一属性字段之间的属性值,并作为上述相邻的两个第一属性字段中的前一个属性字段对应的第一属性值。最后一个第一属性字段之后的字符内容,可以为该最后一个第一属性字段对应的第一属性值。[0077]需要说明的是,实际应用时,发明人对大量的包装设计图进行分析,可以发现:位于最后一个属性字段之后的字符,不仅包括属性值,还可能包括其他字符,比如“保持环境清洁,请勿乱抛空瓶”等。[0078]针对上述情况,本公开中,可以对大量的包装设计图进行分析和统计,确定每个包装设计图中位于最后一个属性字段之后的语句,并根据上述语句,设定结尾标识,比如该结尾标识可以为“保持环境”等,从而rpa机器人在识别到文本内容中包含结尾标识时,可以截取最后一个第一属性字段与结尾标识之间的字符内容,并作为最后一个第一属性字段对应的第一属性值。[0079]步骤204,将各第一属性字段和各第一属性字段对应的第一属性值,与文档内容中的各第二属性字段和各第二属性字段对应的第二属性值进行比对。[0080]在本公开实施例中,可以将文本内容中的各第一属性字段和各第一属性字段对应的第一属性值,与文档内容中的各第二属性字段和各第二属性字段对应的第二属性值进行比对。[0081]步骤205,在各第一属性字段中存在第一目标属性字段与第二属性字段不匹配的情况下,将第一目标属性字段和/或第一目标属性字段对应的第一属性值,作为第一差异部分。[0082]在本公开实施例中,在确定各第一属性字段中存在至少一个属性字段(本公开中记为第一目标属性字段)与第二属性字段不匹配的情况下,可以将第一目标属性字段和/或第一目标属性字段对应的第一属性值,作为第一差异部分。[0083]步骤206,在各第一属性字段中存在第二目标属性字段与第二属性字段匹配,但第二目标属性字段对应的第一属性值与第二属性字段对应的第二属性值不匹配的情况下,将第二目标属性字段对应的第一属性值,作为第一差异部分。[0084]在本公开实施例中,在确定各第一属性字段中存在一个属性字段(本公开中记为第二目标属性字段)与第二属性字段匹配,但是该第二目标属性字段对应的第一属性值与第二属性字段对应的第二属性值不匹配的情况下,可以将第二目标属性字段对应的第一属性值,作为第一差异部分。[0085]步骤207,在文本内容中对第一差异部分进行异常标注,和/或,在商品包装图中对第一差异部分所处的区域进行异常标注。[0086]步骤207的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。[0087]本公开实施例的基于rpa和ai的商品信息处理方法,通过将文本内容中的各属性字段和属性值,分别与文档内容中的属性字段和属性值进行比对,可以避免商品信息中重要内容的遗漏检测,从而提升商品信息核对结果的准确性。[0088]需要说明的是,考虑到ocr识别结果的准确率,对于一些属性字段,比如配料,ocr识别结果可能为“料”,导致“配”字没有识别到,或者识别结果可能为“配料”,导致识别结果中间多出空格。上述情况将造成rpa机器人无法识别到“配料”这一属性字段,从而无法提取“配料”对应的属性值,进而造成rpa机器人无法对商品包装图中的配料信息进行比对的情况。[0089]针对上述问题,本公开中,针对与目标商品相关的每个属性字段,还可以统计该属性字段的多种说法或多种可能的说法,将该属性字段和该属性字段对应的多种说法或多种可能的说法,均作为第三属性字段,并设置于设定词表中。从而本公开中,可以基于设定词表,从文本内容中,提取与设定词表中各第三属性字段对应的第三属性值,从而可以将第三属性值与文档内容中各第二属性值进行比对。下面结合图5,对上述过程进行详细说明。[0090]图5为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图。[0091]如图5所示,在图2所示实施例的基础上,该基于rpa和ai的商品信息处理方法还可以包括以下步骤:步骤301,获取设定词表,其中,设定词表中包括至少一个第三属性字段。[0092]在本公开实施例中,设定词表为预先设置的,本公开中,rpa机器人可以获取该预先设置的设定词表。[0093]步骤302,从文本内容中提取与设定词表中各第三属性字段匹配的第三属性值。[0094]在本公开实施例中,rpa机器人可以从文本内容中提取与设定词表中各第三属性字段匹配的第三属性值。具体实现过程与步骤203类似,在此不做赘述。[0095]步骤303,将各第三属性字段对应的第三属性值,与文档内容中的各第二属性字段对应的第二属性值进行比对。[0096]步骤304,在各第三属性值中存在目标属性值与第二属性值不匹配的情况下,将目标属性值,作为第一差异部分。[0097]在本公开实施例中,可以将各第三属性字段对应的第三属性值,分别与文档内容中的各第二属性字段对应的第二属性值进行比对,若各第三属性值中存在至少一个属性值(本公开中记为目标属性值)与第二属性值不匹配,则可以将目标属性值,作为第一差异部分。而若各第三属性值与第二属性值均匹配,则可以无需执行任何处理。[0098]需要说明的是,本公开对步骤301至304的执行时序不作限制,例如,步骤301至304可以在步骤206之后执行,或者,步骤301至304还可以与步骤203至206并列执行,或者,步骤301至304还可以在步骤203之前执行,等等。也就是说,步骤301至304只需在步骤207之前执行即可。[0099]需要说明的是,在文本内容中存在第一差异部分的情况下,为了使得相关人员能够及时地对商品包装图进行核对和/或修改,在本公开的任意一个实施例之中,rpa机器人还可以发送提示信息,其中,该提示信息用于提示对商品包装图中的第一差异部分进行核对和/或修改。[0100]例如,rpa机器人可以向指定账户(比如邮箱账号)发送提示信息;再例如,rpa机器人所在的设备可以登录有即时通信软件,rpa机器人可以向相关人员所在的即时通信账号,发送提示信息。[0101]在本公开的任意一个实施例之中,rpa机器人可以根据文本内容中第一属性字段和第一属性值之间的对应关系、第三属性字段和第三属性值之间的对应关系和目标商品的第一营养成分信息中的至少一项,生成并展示核对报告,从而相关人员可以基于上述核对报告,对商品包装图进行核对。例如,核对报告可以如图6所示。[0102]在本公开的任意一个实施例之中,rpa机器人不仅可以发送提示信息,还可以生成核对报告。[0103]在本公开实施例的一种可能的实现方式中,rpa机器人还可以将文档内容和文本内容进行比对,以确定文档内容中不同于文本内容的第二差异部分,比对方式与上述实施例中将文本内容和文档内容进行比对的方式类似,在此不做赘述。本公开中,rpa机器人在确定文档内容中存在第二差异部分的情况下,可以在文档内容中对第二差异部分进行异常标注,并展示标注后的文档内容。其中,第二差异部分的标注方式与第一差异部分的标注方式类似,在此不做赘述。[0104]本公开实施例的基于rpa和ai的商品信息处理方法,进一步根据设定词表提取文本内容中的各属性值,并将提取的各属性值分别与文档内容中的各属性值进行比对,可以避免在ocr识别结果准确率较低而导致属性值遗漏提取的情况,从而提升商品信息核对结果的准确性。[0105]为了清楚说明本公开任一实施例中rpa机器人是如何对文本内容和文档内容进行比对的,本公开还提出一种基于rpa和ai的商品信息处理方法。[0106]图7为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图。[0107]如图7所示,该基于rpa和ai的商品信息处理方法可以包括以下步骤:步骤401,获取目标商品对应的商品包装图,并基于ocr技术,识别商品包装图中的文本内容。[0108]步骤402,获取参考文档,并获取参考文档中的文档内容,其中,文档内容中包括目标商品对应的商品信息。[0109]步骤401至402的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。[0110]步骤403,从文本内容中提取目标商品的第一营养成分信息,并从文档内容中提取第二营养成分信息。[0111]在本公开实施例中,可以从文本内容中提取目标商品的第一营养成分信息。比如,以将商品包装图切分为多个子图像进行示例性说明,第一营养成分信息可以包含在某个子区域中,本公开中记为目标子图像,比如,目标子图像可以如图3中的子图像1所示,可以基于ocr技术,对目标子区域进行字符识别,得到第一营养成分信息。[0112]也就是说,文本内容是由多个子图像对应的ocr识别结果组成的,可以从多个子图像中确定包含第一营养成分信息的目标子图像,并从文本内容中,确定目标子图像对应的ocr识别结果。[0113]在本公开实施例中,rpa机器人还可以从文档内容中提取第二营养成分信息。[0114]步骤404,将第一营养成分信息中的各成分信息与第二营养成分信息中对应成分信息进行比对。[0115]步骤405,在第一营养成分信息中存在目标成分信息与第二营养成分信息中对应成分信息不匹配的情况下,将目标成分信息作为第一差异部分。[0116]在本公开实施例中,可以将第一营养成分信息中的各成分信息(比如能量、蛋白质、脂肪等成分信息)与第二营养成分信息中对应成分信息进行匹配,在第一营养成分信息中存在至少一个成分信息(本公开中记为目标成分信息)与第二营养成分信息中对应成分信息不匹配的情况下,可以将该目标成分信息作为第一差异部分。[0117]步骤406,在文本内容中对第一差异部分进行异常标注,和/或,在商品包装图中对第一差异部分所处的区域进行异常标注。[0118]步骤406的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。[0119]本公开实施例的基于rpa和ai的商品信息处理方法,通过将文本内容中的营养成分信息与文档内容中的营养成分信息进行比对,可以实现对商品包装图中的表格内容进行核对,避免商品信息的遗漏核对,从而提升核对结果的可靠性。[0120]需要说明的是,营养成分表,由于大部分是无框线表格,目前通用的表格识别算法识别营养成分表比较困难,比如,通用表格识别算法无法明确无框线表格中的左边、中间、右边、换行等。举例而言,假设图3中子图像1中的碳水化合物如果换行,可能变为如表2或表3所示:表2碳水化5.8g2%合物ꢀꢀ表3碳水化合物5.8g2%可以理解的是,表2和表3对于人而言,是较易理解的,但是机器是很难判断碳水化合物是一个完整的词,因此目前的通用表格识别算法识别较为困难。针对上述问题,本公开中,在从文本内容中提取第一营养成分信息之后,可以对第一营养成分信息中错误识别的成分信息进行正则替换。下面结合图8,对上述过程进行详细说明。[0121]图8为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图。[0122]如图8所示,该基于rpa和ai的商品信息处理方法可以包括以下步骤:步骤501,获取目标商品对应的商品包装图,并基于ocr技术,识别商品包装图中的文本内容。[0123]步骤502,获取参考文档,并获取参考文档中的文档内容,其中,文档内容中包括目标商品对应的商品信息。[0124]步骤503,从文本内容中提取目标商品的第一营养成分信息,并从文档内容中提取第二营养成分信息。[0125]步骤501至503的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。[0126]步骤504,针对第一营养成分信息中任一成分信息,获取与任一成分信息匹配的正则表达式。[0127]在本公开实施例中,可以预先设置每个成分信息对应的正则表达式,从而本公开中,rpa机器人可以获取第一营养成分信息中的每个成分信息对应的正则表达式。[0128]步骤505,将正则表达式与任一成分信息进行匹配。[0129]步骤506,若不匹配,则基于正则表达式,对任一成分信息进行替换处理。[0130]在本公开实施例中,针对第一营养成分信息中任一成分信息,如果该任一成分信息与对应的正则表达式不匹配,则可以基于该任一成分信息对应的正则表达式,对该任一成分信息进行替换处理。而如果该任一成分信息与对应的正则表达式匹配,则可以无需对该任一成分信息进行替换处理。[0131]举例而言,“碳水化合物”对应的单位为“g”,如果第一营养成分信息中“碳水化合物”对应的单位为“9”,则可以利用该“碳水化合物”对应的正则表达式,将“9”自动替换为“g”。[0132]再例如,如图1所示,每项营养成分对应的最后一项“nrv”为全天所需营养素的百分比,如果第一营养成分信息中各项成分信息中“nrv”对应的单位不为“%”,而为其他符号,则可以利用各项成分信息对应的正则表达式,将其他符号自动替换为“%”。[0133]又例如,假设ocr识别结果中第一营养成分信息如图9所示,根据“碳水化合物”对应的正则表达式,可以确定“碳水化合物”对应的成分信息中,第一项缺少“物”字,第二项多了“物”字,则可以利用该“碳水化合物”对应的正则表达式,将第一项中的“碳水化合”替换为“碳水化合物”,将“物5.8g”自动替换为“5.8g”。[0134]需要说明的是,本公开上述仅以根据正则表达式,对任一成分信息进行替换处理进行示例,实际应用时,也可以通过在代码层面通过写逻辑判断,来对任一成分信息进行替换处理。比如,代码逻辑可以为:判断各项成分信息中数字的最后是否包含单位,如果不包含单位,则可以将最后一位数字自动替换为与成分信息匹配的单位,比如将“9”替换为“g”。[0135]步骤507,将替换处理后的第一营养成分信息中的各成分信息与第二营养成分信息中对应成分信息进行比对。[0136]步骤508,在替换处理后的第一营养成分信息中存在目标成分信息与第二营养成分信息中对应成分信息不匹配的情况下,将目标成分信息作为第一差异部分。[0137]步骤509,在文本内容中对第一差异部分进行异常标注,和/或,在商品包装图中对第一差异部分所处的区域进行异常标注。[0138]步骤509的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。[0139]本公开实施例的基于rpa和ai的商品信息处理方法,通过针对第一营养成分信息中任一成分信息,获取与任一成分信息匹配的正则表达式;将正则表达式与任一成分信息进行匹配;若不匹配,则基于正则表达式,对任一成分信息进行替换处理。由此,可以实现对ocr识别结果进行辅正优化,从而可以进一步提升商品信息比对结果的准确性和可靠性。[0140]为了实现上述实施例,本公开还提出一种rpa和ai的商品信息处理方法。[0141]图10为本公开实施例所提供的另一种基于rpa和ai的商品信息处理方法的流程示意图。[0142]如图10所示,该基于rpa和ai的商品信息处理方法可以包括以下步骤:步骤601,获取目标商品对应的商品包装图,并基于ocr技术,识别商品包装图中的文本内容。[0143]步骤602,获取参考文档,并获取参考文档中的文档内容,其中,文档内容中包括目标商品对应的商品信息。[0144]步骤603,从文本内容中提取目标商品的第一营养成分信息,并从文档内容中提取第二营养成分信息。[0145]步骤601至603的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。[0146]步骤604,针对第一营养成分信息中的任一文本片段,判断任一文本片段的语义是否完整。[0147]在本公开实施例中,针对第一营养成分信息中的任一文本片段,可以判断任一文本片段的语义是否完整。[0148]作为一种示例,可以基于语义分析算法,确定任一文本片段的语义是否完整。[0149]可以理解的是,一般情况下,第一营养成分信息识别错误的原因,一方面包括单位识别错误,另一方面包括项目(比如蛋白质、碳水化合物、反式脂肪酸、维生素d等)识别错误,其中,项目识别错误的原因一般为:项目名称较长,而导致ocr将项目名称中的部分字符归入到含量(比如图9中每100ml所在的列)中。[0150]因此,针对上述问题,本本公开中,作为另一种示例,可以对大量商品的包装设计图进行统计分析,确定不同商品对应的营养成分表所包含的各项目,并将上述项目写入项目表中,从而本公开中,可以将第一营养成分信息中各项目所在的文本片段与项目表中各项目名称进行匹配,若第一营养成分信息中某个项目所在的文本片段与项目表中各项目名称不匹配,则确定该项目所在的文本片段的语义不完整。[0151]步骤605,如果任一文本片段的语义不完整,则从营养成分信息中获取与任一文本片段相邻的邻接文本片段。[0152]在本公开实施例中,在上述任一文本片段的语义不完整的情况下,则可以营养成分信息中获取与任一文本片段相邻的邻接文本片段。[0153]步骤606,如果邻接文本片段的语义不完整,则从邻接文本片段中确定语义完整的子片段。[0154]步骤607,提取邻接文本片段中除子片段之外的其他字符,并将其他字符归入任一文本片段。[0155]在本公开实施例中,可以判断邻接文本片段的语义是否完整,如果邻接文本片段的语义不完整,则可以从邻接文本片段中确定语义完整的子片段,并提取邻接文本片段中除子片段之外的其他字符,从而可以将其他字符归入任一文本片段。[0156]而在邻接文本片段的语义完整的情况下,可以获取与上述任一文本片段相邻的下一邻接文本片段,并判断下一邻接文本片段的语义是否完整,如果下一邻接文本片段的语义不完整,则可以从下一邻接文本片段中确定语义完整的子片段,并提取下一邻接文本片段中除子片段之外的其他字符,从而可以将其他字符归入任一文本片段。[0157]步骤608,将其他字符从邻接文本片段中剔除。[0158]在本公开实施例中,rpa机器人还可以将其他字符从邻接文本片段中剔除,以保证第一营养成分信息识别结果的准确性。[0159]步骤609,将更新后的第一营养成分信息中的各成分信息与第二营养成分信息中对应成分信息进行比对。[0160]步骤610,在更新后的第一营养成分信息中存在目标成分信息与第二营养成分信息中对应成分信息不匹配的情况下,将目标成分信息作为第一差异部分。[0161]步骤611,在文本内容中对第一差异部分进行异常标注,和/或,在商品包装图中对第一差异部分所处的区域进行异常标注。[0162]步骤609至611的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。[0163]作为一种示例,rpa机器人可以设置于核对平台侧,从而本公开中,可以在核对平台侧完成商品信息的自动核对,例如,本公开实施例的实现原理可以如图11所示,具体可以包括以下几个部分:第一部分,上传商品包装图至核对平台。其中,商品包装图的格式可以为jpg、png等图片格式(或称为图像格式),或者,也可以上传pdf文档、psd等格式的设计文档,可以从上述文档中提取商品包装图。[0164]例如,相关人员可以通过网页端上传图像或文档至核对平台。[0165]第二部分,对商品包装图进行切割。可以将商品包装图进行切割,切割为多个子图像,比如,可以通过相关人员手动框选商品包装图中需要进行ocr识别的区域,并切割上述区域,得到各个子区域。[0166]作为一种示例,由于上传的商品包装图较大,为了实现准确识别商品包装图中的文本信息,可以通过人工从商品包装图中圈选待识别部分。例如,人工可以圈选如图12中所示的营养成分表所在的区域。再例如,人工可以圈选如图3中所示的各个区域。[0167]其中,营养成分表,由于大部分是无框线表格,目前通用的表格识别算法识别营养成分表比较困难,比如,通用表格识别算法无法明确无框线表格中的左边、中间、右边、换行等。举例而言,图3中的碳水化合物如果换行,可能变为如表2或表3所示。可以理解的是,表2和表3对于人而言,是较易理解的,但是机器是很难判断碳水化合物是一个完整的词,因此目前的通用表格识别算法识别较为困难。针对上述问题,核对平台会对营养成分表中的特定词语在代码层面通过写逻辑判断,来对ocr识别结果进行辅正优化。[0168]例如,图3中的营养成分表的ocr识别结果可以如图9所示,可以对ocr识别结果进行辅正优化,优化后的ocr识别结果可以如表1所示。[0169]配料的提取,如图13所示,可以将ocr识别结果中的换行符号去除,得到一个长文本,然后可以通过核对平台上的配置模板(其中,配置模板中包括用于提取各属性字段对应的属性值的抽取规则或提取规则),从ocr识别结果中抽取配料信息。例如,在核对平台对图13中的ocr识别结果中的配料信息进行抽取,抽取结果可以如图14所示。[0170]生产商(后续称为厂名)、产地及地址(后续称为厂址)、生产许可证(或称为生产许可证编号)的提取,与配料类似。例如,对厂名和厂址所在的图像区域进行ocr识别,识别结果可以如图15所示,可以将ocr识别结果中的换行符号去除,得到一个长文本,然后可以通过配置模板,从ocr识别结果中抽取厂名和厂址。例如,在核对平台对图15中的ocr识别结果中厂名、厂址和食品生产许可证编号的进行抽取,抽取结果可以如图16所示。[0171]也就是说,本公开中,可以在核对平台侧定义待抽取的属性字段,比如抽取生产商(后续称为厂名)、产地及地址(后续称为厂址)等。作为一种示例,定义的属性字段可以如图17所示,从而可以从ocr识别结果中抽取与各属性字段匹配的属性值,进而后续可以将抽取的各属性字段与属性值与文档内容中的各属性字段与属性值进行比对。[0172]进一步地,还可以在核对平台侧设定自定义词表(本公开中记为设定词表),该设定词表用于配合抽取。比如,配料信息一定是出现在单词“配料”或“配料:”后面的,但考虑到ocr识别结果的准确率,有可能会识别出“料”字,“配”字没有识别到,或者识别出的“配料”中间有空格的,这些都可以作为枚举配置在词表中。[0173]在配置上述配置模板时,可以使用各属性字段对应的自定义词表,例如,配置模板可以如图18所示。[0174]图19为配料的提取规则,可以识别文本内容中是否包括配料对应的自定义词表中的词,若包括,则可以将文本内容中位于该词之后的任意0~500个字符内容,输出到配料字段中,即作为配料这一属性字段对应的属性值。如果文本内容中位于该词之后的字符内容中包括自定义词表分段词汇中的词(本公开中记为结尾标识),可以无需提取结尾标识后的字符信息,即将该词与结尾标识之间的字符内容,作为配料对应的属性值。[0175]第三部分,上传参考文档至核对平台。为了使得比对结果或核对结果更加准确,降低核对错误率,参考文档的格式可以为标准结构化文档,比如excel文档。若无法使用结构化文档,则可以使用固定模板结构的文档,比如word文档。[0176]例如,相关人员可以通过网页端上传参考文档至核对平台。[0177]第四部分,对商品包装图进行ocr识别,得到文本内容。为了提升识别结果的准确性,需要保证商品包装图足够清晰。根据对不同图像进行测试,切割后的图像大小在8mb以上,可以保证较高的识别准确率。[0178]第五部分,文档抽取理解。可以将非结构化的文档内容转换为结构化数据。可选地,业务人员可以按照设定格式撰写参考文档,从而可以无需对参考文档的文档内容进行结构化转换。比如,可以通过idp系统中的智能文档理解能力,完成对文档内容中关键信息的智能提取,实现将非结构化的文档内容转换为结构化数据。[0179]第六部分,信息比对,以确定文本内容中不同于文档内容的第一差异部分,和/或,确定文档内容中不同于文本内容的第二差异部分。可以使用ocr技术以及文档信息抽取功能,对第四部分提取的文本内容和第五部分提取的文档内容进行比对。比对逻辑为:将文本内容分类进行分类,比如分为属性字段和属性值、第一营养成分信息等;将分类后的文本内容依次与文档内容中的对应内容进行比对,标记不一致或者多出的文本部分。并且,还可以将文档内容依次与文本内容进行核对(或称为反查),以确保文本内容中所有内容均参与核对,以避免某个内容未参与比对,而降低核对结果的准确率的情况发生。[0180]此外,还可以对文本内容进行逻辑扶正,以提升ocr识别结果的准确率,从而提升核对结果的准确率。例如,针对营养成分表中的不同成分信息,可以在代码逻辑中进行正则替换,例如蛋白质的单位为g,如果ocr识别结果中蛋白质的单位为9,则可以将9替换为g,以此提高ocr识别结果的准确率。[0181]第七部分,结果展示。可以在网页中展示对比结果,比如,可以在文本内容中标注第一差异部分,在文档内容中标注第二差异部分。此外,还可以在商品包装图中标注第一差异部分的位置。[0182]需要说明的是,图13中商品包装图中的乳酸菌的添加量为:1.0×107cfu/100g,但是ocr识别结果为:1.0×107cfu/100g,即ocr识别结果中并未区分幂次方,针对上述情形,rpa机器人可以识别得到这两个属性值不同,即1.0×107cfu/100g与1.0×107cfu/100g不同,可以在文本内容中对1.0×107cfu/100g这一属性值进行标注,由人工核对此处是否出错。[0183]需要说明的是,考虑到有些商品的商品包装图设计特殊的情况,比如,一般情况下,商品包装图中文字是从左到右或从上到下排列的,但是,一些商品的商品包装图中的文字可能是环绕显示,波浪线的形式显示等等,此时,将导致ocr识别结果与文档内容不同。[0184]作为一种示例,对图3中的子图像1进行ocr识别,识别结果可以如图20所示。但是,对于图21中的图像而言,ocr识别结果可能出错。针对上述情况,rpa机器人可以在文本内容中标注不同之处,和/或,在商品包装图中标注不同之处所处的位置,由人工核对此处是否出错。[0185]可选地,rpa机器人还可以生成核对结果,该核对结果可以供用户进行下载。[0186]最后,可以由人工对标注后的文本内容、标注后的文档内容、标注后的商品包装图、核对报告进行复核。由核对平台或rpa机器人核对商品信息,可以实现在较短的时间内完成核对,一般仅需1-3分钟即可完成核对,不但提高了核对效率,也提高了核对结果的准确率。人工仅需对不同之处进行复核,可以降低相关人员的工作量,提升工作效率。[0187]与上述图1至图10实施例提供的基于rpa和ai的商品信息处理方法相对应,本公开还提供一种基于rpa和ai的商品信息处理装置,由于本公开实施例提供的基于rpa和ai的商品信息处理装置与上述图1至图10实施例提供的基于rpa和ai的商品信息处理方法相对应,因此在基于rpa和ai的商品信息处理方法的实施方式也适用于本公开实施例提供的基于rpa和ai的商品信息处理装置,在本公开实施例中不再详细描述。[0188]图22为本公开实施例提供的一种基于rpa和ai的商品信息处理装置的结构示意图。[0189]如图22所示,该基于rpa和ai的商品信息处理装置2200应用于rpa机器人,可以包括:第一获取模块2210、识别模块2220、第二获取模块2230、比对模块2240和标注模块2250。[0190]其中,第一获取模块2210,用于获取目标商品对应的商品包装图。[0191]识别模块2220,用于基于光学字符识别ocr技术,识别商品包装图中的文本内容。[0192]第二获取模块2230,用于获取参考文档,并获取参考文档中的文档内容,其中,文档内容中包括目标商品对应的商品信息。[0193]比对模块2240,用于对文本内容和文档内容进行比对,以确定文本内容中不同于文档内容中的第一差异部分。[0194]标注模块2250,用于在文本内容中对第一差异部分进行异常标注,和/或,在商品包装图中对第一差异部分所处的区域进行异常标注。[0195]在本公开实施例的一种可能的实现方式中,比对模块2240,用于:从文本内容中提取各第一属性字段,并从文本内容中提取与各第一属性字段匹配的第一属性值;将各第一属性字段和各第一属性字段对应的第一属性值,与文档内容中的各第二属性字段和各第二属性字段对应的第二属性值进行比对;在各第一属性字段中存在第一目标属性字段与第二属性字段不匹配的情况下,将第一目标属性字段和/或第一目标属性字段对应的第一属性值,作为第一差异部分;在各第一属性字段中存在第二目标属性字段与第二属性字段匹配,但第二目标属性字段对应的第一属性值与第二属性字段对应的第二属性值不匹配的情况下,将第二目标属性字段对应的第一属性值,作为第一差异部分。[0196]在本公开实施例的一种可能的实现方式中,比对模块2240,还用于:获取设定词表,其中,设定词表中包括至少一个第三属性字段;从文本内容中提取与设定词表中各第三属性字段匹配的第三属性值;将各第三属性字段对应的第三属性值,与文档内容中的各第二属性字段对应的第二属性值进行比对;在各第三属性值中存在目标属性值与第二属性值不匹配的情况下,将目标属性值,作为第一差异部分。[0197]在本公开实施例的一种可能的实现方式中,比对模块2240,用于:从文本内容中提取目标商品的第一营养成分信息,并从文档内容中提取第二营养成分信息;将第一营养成分信息中的各成分信息与第二营养成分信息中对应成分信息进行比对;在第一营养成分信息中存在目标成分信息与第二营养成分信息中对应成分信息不匹配的情况下,将目标成分信息作为第一差异部分。[0198]在本公开实施例的一种可能的实现方式中,文本内容中包括目标商品的第一营养成分信息,该基于rpa和ai的商品信息处理装置2200,还可以包括:第一处理模块,用于从文本内容中提取第一营养成分信息;针对第一营养成分信息中任一成分信息,获取与任一成分信息匹配的正则表达式;将正则表达式与任一成分信息进行匹配;若不匹配,则基于正则表达式,对任一成分信息进行替换处理。[0199]在本公开实施例的一种可能的实现方式中,文本内容中包括目标商品的第一营养成分信息,该基于rpa和ai的商品信息处理装置2200,还可以包括:第二处理模块,用于从文本内容中提取第一营养成分信息;针对第一营养成分信息中的任一文本片段,判断任一文本片段的语义是否完整;如果任一文本片段的语义不完整,则从营养成分信息中获取与任一文本片段相邻的邻接文本片段;如果邻接文本片段的语义不完整,则从邻接文本片段中确定语义完整的子片段;提取邻接文本片段中除子片段之外的其他字符,并将其他字符归入任一文本片段,以及将其他字符从邻接文本片段中剔除。[0200]在本公开实施例的一种可能的实现方式中,第一获取模块2210,用于:获取包含商品包装图的目标文档;从目标文档中提取商品包装图。[0201]在本公开实施例的一种可能的实现方式中,识别模块2220,用于:响应于截取操作,将商品包装图切分为至少一个子图像;基于ocr技术,对至少一个子图像进行字符识别,以得到文本内容。[0202]在本公开实施例的一种可能的实现方式中,识别模块2220,用于:基于目标检测算法,从商品包装图中识别并提取至少一个目标区域,其中,目标区域中包括字符信息;基于ocr技术,对至少一个目标区域进行字符识别,以得到文本内容。[0203]在本公开实施例的一种可能的实现方式中,标注模块2250,用于在文本内容中,对第一差异部分的字体和/或字号进行调整;对调整后的第一差异部分进行颜色标注。[0204]在本公开实施例的一种可能的实现方式中,比对模块2240,还用于:将文档内容和文本内容进行比对,以确定文档内容中不同于文本内容的第二差异部分。[0205]标注模块2250,还用于:在文档内容中对第二差异部分进行异常标注。[0206]该基于rpa和ai的商品信息处理装置2200,还可以包括:展示模块,用于展示标注后的文档内容。[0207]在本公开实施例的一种可能的实现方式中,该基于rpa和ai的商品信息处理装置2200,还可以包括:发送模块,用于发送提示信息,其中,提示信息用于提示对商品包装图中的第一差异部分进行核对和/或修改。[0208]和/或,生成模块,用于生成并展示核对报告,其中,核对报告中包括文本内容中第一属性字段和第一属性值之间的对应关系、第三属性字段和第三属性值之间的对应关系和目标商品的第一营养成分信息中的至少一项。[0209]本公开实施例的基于rpa和ai的商品信息处理装置,通过rpa机器人获取目标商品对应的商品包装图,并基于ocr技术,识别商品包装图中的文本内容;获取参考文档,并获取参考文档中的文档内容,其中,文档内容中包括目标商品对应的商品信息;对文本内容和文档内容进行比对,以确定文本内容中不同于文档内容中的第一差异部分;在文本内容中对第一差异部分进行异常标注,和/或,在商品包装图中对第一差异部分所处的区域进行异常标注。由此,可以实现通过rpa机器人自动对商品包装图上的商品信息进行核对,一方面,可以降低人工参与量,释放人力资源,降低人力成本,另一方面,可以提高商品信息的核对效率,还可以避免人工核对易出错的情况,提升商品信息核对结果的准确性。[0210]为了实现上述实施例,本公开实施例还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述任一方法实施例所述的基于rpa和ai的商品信息处理方法。[0211]为了实现上述实施例,本公开实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述任一方法实施例所述的基于rpa和ai的商品信息处理方法。[0212]为了实现上述实施例,本公开实施例还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如前述任一方法实施例所述的基于rpa和ai的商品信息处理方法。[0213]图23示出了适于用来实现本公开实施方式的示例性电子设备的框图。图23显示的电子设备12仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。[0214]如图23所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括存储器28和处理单元16)的总线18。[0215]总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture;以下简称:isa)总线,微通道体系结构(microchannelarchitecture;以下简称:mac)总线,增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation;以下简称:vesa)局域总线以及外围组件互连(peripheralcomponentinterconnection;以下简称:pci)总线。[0216]电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。[0217]存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccessmemory;以下简称:ram)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图23未显示,通常称为“硬盘驱动器”)。尽管图23中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(compactdiscreadonlymemory;以下简称:cd-rom)、数字多功能只读光盘(digitalvideodiscreadonlymemory;以下简称:dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。[0218]具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。[0219]电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(localareanetwork;以下简称:lan),广域网(wideareanetwork;以下简称:wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。[0220]处理单元16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。[0221]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、ꢀ“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。[0222]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。[0223]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属
技术领域
:的技术人员所理解。[0224]在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。[0225]应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。[0226]本
技术领域
:的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。[0227]此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。[0228]上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献