一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本覆盖率的计算方法、装置、设备及存储介质与流程

2022-10-26 13:55:29 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,尤其涉及一种文本覆盖率的计算方法、装置、设备及存储介质。


背景技术:

2.通常来讲,海外发行的游戏通常会涉及非中文文本,为了检测游戏页面显示的非中文文本是否正常,需要采用自动化遍历工具将游戏在真实运行过程中显示的文本内容提取出来。因而,自动化遍历工具遍历能力的好坏直接决定了其提取的文本内容完整的程度。
3.目前,尚没有合适的参数来量化评估自动化遍历工具的遍历能力。


技术实现要素:

4.根据本公开的第一方面,提供了一种文本覆盖率的计算方法,包括:
5.通过遍历工具获取应用程序中一个或多个模块在运行过程中的页面截图;
6.对所述页面截图进行文本识别,得到所述页面截图中的文本内容;
7.将所述文本内容与所述应用程序中一个或多个模块对应的全量文本库进行匹配,得到所述文本内容与所述全量文本库之间匹配成功的词条数量;
8.基于所述匹配成功的词条数量以及所述全量文本库中词条的数量,确定所述应用程序中一个或多个模块的文本覆盖率。
9.根据本公开的第二方面,提供了一种文本覆盖率的确定装置,包括:
10.获取模块,被配置于通过遍历工具获取应用程序中一个或多个模块在运行过程中的页面截图;
11.文本识别模块,被配置于对所述页面截图进行文本识别,得到所述页面截图中的文本内容;
12.匹配模块,被配置于将所述文本内容与所述应用程序中一个或多个模块对应的全量文本库进行匹配,得到所述文本内容与所述全量文本库之间匹配成功的词条数量;
13.确定模块,被配置于基于所述匹配成功的词条数量以及所述全量文本库中词条的数量,确定所述应用程序中一个或多个模块的文本覆盖率。
14.根据本公开的第三方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据本公开第一方面所述的方法。
15.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开第一方面所述的方法。
16.根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据本公开第一方面所述的方法。
17.本公开实施例中提供的一个或多个技术方案,可以实现应用程序中一个或多个模块的文本覆盖率的计算,通过该一个或多个模块的文本覆盖率,可以有效的量化评估遍历
工具的遍历能力,反映出该遍历工具在该一个或多个模块中的遍历深度和广度。
附图说明
18.在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
19.图1为本公开示例性实施例提供的文本覆盖率的确定方法的流程图一;
20.图2是为本公开示例性实施例提供的文本识别的示意图;
21.图3为本公开示例性实施例提供的文本覆盖率的确定方法的流程图二;
22.图4为本公开示例性实施例提供的文本覆盖率的确定方法的流程图三;
23.图5为本公开示例性实施例提供的文本覆盖率的确定装置的示意性框图;
24.图6为本公开示例性实施例提供的芯片的示意性框图;
25.图7为本公开示例性实施例提供的电子设备的示意性框图。
具体实施方式
26.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
27.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
28.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
29.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
30.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
31.本公开实施例提供一种文本覆盖率的确定方法,该方法可以由终端设备或者服务器执行,该终端设备可以为手机、平板电脑、桌面型电脑、笔记本电脑或者个人数字助理(personal digital assistant,简称pda)等,服务器可以为文本覆盖率的确定服务器,终端设备和服务器进行交互实现文本覆盖率的确定功能,具体可以由终端设备上的软件应用(application,简称app)等与服务器交互。终端设备与用户可以通过键盘、触摸屏、语音交互或者手写方式中的一种或者多种方式进行人机交互,本公开并不对此进行限制。
32.下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于
本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
33.图1为本公开示例性实施例提供的文本覆盖率的确定方法的流程图一,如图1所示,包括如下步骤:
34.s101、通过遍历工具获取应用程序中一个或多个模块在运行过程中的页面截图。
35.本公开实施例不限定应用程序的具体类型,其可以为游戏类的程序,也可以为培训类的程序。通常来讲,基于应用程序中场景的内容属性,可以将应用程序分为不同的模块,以游戏类的程序为例,根据游戏中场景的内容属性,可以将游戏大致分为任务模块、物品模块、商城模块、应用模块、技能模块、活动模块等。本公开实施例可以针对应用程序中的一个模块进行页面截图的获取,也可以针对应用程序中的多个模块进行页面截图的获取,也可以针对应用程序中的所有模块进行页面截图的获取;可以理解,当获取的是应用程序中一个模块的页面截图时,最后确定得到的文本覆盖率就是该一个模块对应的文本覆盖率;当获取的是应用程序中多个模块的页面截图,最后确定得到的文本覆盖率就是该多个模块对应的文本覆盖率;当获取的是应用程序中所有模块的页面截图,最后确定得到的文本覆盖率就是应用程序中所有模块的文本覆盖率。举个例子,假设在步骤s101中遍历工具获取的是游戏中任务模块的页面截图,则最后确定得到的文本覆盖率就是该任务模块的文本覆盖率,该文本覆盖率可以量化评估遍历工具在该任务模块下的自动遍历能力。再举个例子,假设在步骤s101中遍历工具获取的是游戏中物体模块的页面截图,则最后确定得到的文本覆盖率就是该物体模块的文本覆盖率,该文本覆盖率可以量化评估遍历工具在该物品模块下的自动遍历能力。遍历工具基于图像识别,不同模块下画面结构不同、控件类型不同,遍历工具在不同模块下的遍历能力有所不同,因而不同模块下获得的文本覆盖率也有所不同。了解不同模块的文本覆盖率,有助于对遍历工具进行针对性的优化。
36.本公开实施例不限定遍历工具的具体类型,其可以是完全自动化的,基于ai算法的遍历工具,该遍历工具在遍历的过程中,不需要人工参与,其可以自动找到页面中可以点击的控件,点击进去遍历。在遍历的过程中,遍历工具会获取应用程序运行过程中的页面截图,可以根据应用程序中页面切换的时间间隔来设定遍历工具获取页面截图的时间间隔,比如,可以设定遍历工具每2秒获取一个页面截图。需要说明的是,由于ai算法的局限性,遍历工具的遍历能力是有限的,其对应用程序每个模块的遍历深度是不可控的,对应用程度中多个模块的遍历广度也是不可控的,因此,通过一些参数来量化评估遍历工具的遍历能力是非常重要的。
37.通常来讲,应用程序包括多个模块,为了在有限的时间内实现最大的收益,可以先确定各个模块对应的遍历优先级,即遍历工具遍历各个模块的顺序。可以从不同的维度去确定各个模块的遍历优先级,在一个具体的实施例中,可以从模块包含的文字量的角度出发,赋于各个模块不同的遍历优先级,具体的,赋予文字量较多的模块更高的遍历优先级,赋于文字量较少的模块较低的遍历优先级。如此,在时间有限的前提下,可以对文字量较多的模块优先遍历,实现收益的最大化。举个例子,在游戏类的程序中,任务模块的文字量要多于物品模块的文字量。在确定遍历优先级时,赋于任务模块相对较高的遍历优先级,赋于物品模块相对较低的遍历优先级。在另一个具体的实施例中,可以从模块的使用频率出发,赋予各个模块不同的遍历优先级,具体的,赋予使用频率较高的模块更高的遍历优先级,如
主界面和从主界面可以直接到达的模块。
38.s102、对页面截图进行文本识别,得到页面截图中的文本内容。
39.在该步骤中,将步骤s101中获得的页面截图中的包含的文本内容识别出来。本公开实施例不限定文本识别的具体方式,在一个可实施的方式中,通过预先训练的文字识别模型来识别页面截图中的文本内容。图2是为本公开示例性实施例提供的文本识别的示意图,如图2所示,文本识别模型将页面截图21中的文本识别出来,得到文本1、文本2、文本3。
40.s103、将文本内容与应用程序中一个或多个模块对应的全量文本库进行匹配,得到文本内容与全量文本库之间匹配成功的词条数量。
41.在本公开实施例中,全量文本库与遍历工具遍历的模块是对应的,比如,若遍历工具遍历的是任务模块,则在进行匹配时选用的全量文本库是任务模块对应的全量文本库;若遍历工具遍历的是应用程序的所有模块,则在匹配时选用的全量文本库是所有模块对应的全量文本库。
42.在一个实施例中,若全量文本库的格式类型是excel,可以将其转换为csv格式存储,如此,可以更方便读取。以游戏类程序为例,对应用程序中一个或多个模块对应的全量文本库的标准格式进行说明,如表1所示,该全量文本库包括四列,分别是key(索引)、value(译文)、original(原文)、info(备注),info(备注)用于描述当前词条出现的场景和模块。本公开实施例关注的是value(译文)所在列,该列包括多个词条,每一个词条位于一个方格中,且每一词条包含了一条或者多条语句。例如,一次对话场景中虚拟角色(npc)说了多句话,都算作一个词条,过长的语句会出现翻页滚动,但都属于一个词条。
43.表1为示例性全量文本库的标准格式
[0044][0045]
本公开实施例不限定文本内容与应用程序中一个或多个模块对应的全量文本库的匹配方式,在一个可实施的方式中,如图3所示,将文本内容与应用程序中一个或多个模块对应的全量文本库进行匹配,包括如下步骤:
[0046]
s301、对于文本内容中的每一词条,获取所述词条与全量文本库中各词条的文本相似度。
[0047]
本公开实施例不限定文本相似度的具体表征方式,例如,可以通过编辑距离来表征文本相似度,相应的,对于文本内容中的每一词条,获取该每一词条与全量文本库中各词条的文本相似度,即获取该每一词条与全量文本库中各词条的编辑距离。
[0048]
或者,在一个实施例中,通过汉明距离来表征文本相似度。对于文本内容中的每一词条,获取每一词条与全量文本库中各词条的文本相似度,如图4所示,包括如下步骤:
[0049]
s401、获取全量文本库中各词条分别对应的希姆哈希simhash值。
[0050]
在该步骤中,基于希姆哈希simhash算法将全量文本库中各词条映射为预设位数,例如64位的二进制数字串,希姆哈希simhash算法属于局部敏感哈希算法,基于希姆哈希simhash算法映射得到的二进制数字串一定程度上能够表征原词条的内容。
[0051]
下面,以希姆哈希simhash值的位数为6位为例,对希姆哈希simhash算法实现流程进行说明,本公开实施例中希姆哈希simhash算法包括如下五个步骤:
[0052]
第一步,将目标词条按照全量文本库的特征进行分词,去掉噪音词,并为每个词加上相应的权重,权重代表该词在整个句子中的重要程度。举个例子,假设目标词条为“请选择一件暗影装备并继续觉醒任务”,将该目标词条分词后为“请(1)选择(3)一件(3)暗影(5)
装备(4)并(1)继续(2)觉醒(4)任务(3)”,其中括号内的数字代表其对应词的权重,比如,“暗影”的权重为5,“觉醒”的权重为4,“选择”的权重为3等。
[0053]
第二步,将分词后的每个词基于hash函数映射为hash字符串,例如,“选择”映射为“101001”,“暗影”映射为“100011”。
[0054]
第三步,基于第二步得到的各个hash字符串,将各个hash字符串与对应的权重相乘得到加权hash字符串,在与权重相乘时,遇到“1”则和权重正相乘,遇到“0”则和权重负相乘。比如,“选择”对应的hash字符串为“101001”,其权重为3,则“选择”对应的加权hash字符串为“3-33-3-33”;又比如,“暗影”对应的hash字符串为“100011”,其权重为5,则“暗影”对应的加权hash字符串为“5-5-5-555”。
[0055]
第四步,将第三步得到各个词的加权hash字符串按位累加,比如,“选择”对应的加权hash字符串为“3-33-3-33”,“暗影”对应的加权hash字符串为“5-5-5-555”,相加后变为“8-8-2-828”。这里作为示例只算了两个词的累加,在实际的应用中,应将目标词条包括的各个词的加权hash字符串累加。
[0056]
第五步,将第四步累加出来的hash字符串降维变成二进制字符串,形成目标词条对应的希姆哈希simhash值。在降维计算时,将大于0记为1,小于0记为0。比如,对“8-8-2-828”进行降维计算,得到二进制字符串为“100011”。
[0057]
根据上述步骤,获取全量文本库中value(译文)所在列的各词条分别对应的希姆哈希simhash值。
[0058]
s402、对于文本内容中的每一词条,获取每一词条对应的希姆哈希simhash值。
[0059]
根据上述步骤s401中公开的希姆哈希simhash算法,计算文本内容中每一词条对应的希姆哈希simhash值。
[0060]
s403、基于每一词条对应的希姆哈希simhash值和全量文本库中各词条分别对应的希姆哈希simhash值,确定每一词条与全量文本库中各个词条的汉明距离。
[0061]
汉明距离表征两个二进制字符串对应字符位上取值不同的数量。举个例子,假设文本内容中某一个词条为“选择暗影继续觉醒任务”,其对应的希姆哈希simhash值为“100011”;全量文本库中某一个词条为“请选择一件暗影装备并继续觉醒任务”,其对应的希姆哈希simhash值为“101011”;上述这两个希姆哈希simhash值中只有第3个字符位上的值不同,即上述两个词条的汉明距离为1。
[0062]
s302、基于该词条与全量文本库中各词条的文本相似度,确定该词条与全量文本库的匹配结果。
[0063]
基于步骤s301中获取的文本相似度,确定每一词条与全量文本库的匹配结果。本公开实施例并不限定基于文本相似度确定每一词条与全量文本库的匹配结果的具体方式,在一个可实施的方式中,基于每一词条与全量文本库中各词条的文本相似度,确定每一词条与全量文本库的匹配结果,包括:
[0064]
基于每一词条与全量文本库中各词条的汉明距离,确定每一词条对应的目标汉明距离,该目标汉明距离为每一词条与全量文本库中各词条的汉明距离中数值最小的汉明距离;
[0065]
响应于每一词条对应的目标汉明距离小于或等于预设阈值的情况,确定每一词条与全量文本库匹配成功;
[0066]
响应于所每一词条对应的目标汉明距离大于预设阈值的情况,确定每一词条与全量文本库匹配失败。
[0067]
举个例子,假设全量文本库中包含n个词条(n为大于等于1的正整数),则文本内容中每一词条与全量文本库中的n个词条之间会存在n个汉明距离,从n个汉明距离中筛选出数值最小的汉明距离,确定该最小的汉明距离为该每一词条对应的目标汉明距离。将该目标汉明距离与预设阈值做比较,若该目标汉明距离小于或等于该预设阈值,确定该每一词条与全量文本库匹配成功;若该目标汉明距离大于该预设阈值,确定该每一词条与该全量文本库匹配失败。
[0068]
本公开实施例不限定预设阈值的具体取值,所述预设阈值可以在50%t至70%t之间,其中t代表希姆哈希simhash值的位数。
[0069]
本公开实施例采用希姆哈希simhash算法和汉明距离来做词条之间的匹配,优点如下:第一,由于全量文本库中的一些词条会存在一些不会显示在应用程序页面上的内容,比如,占位符等,因此,文本内容中的词条与全量文本库中词条很难达到完全一致,采用希姆哈希simhash算法和预设阈值下的汉明距离可以很好的应对这一问题,因为希姆哈希simhash算法在分词时会考虑每个词的权重,一些不重要的词对希姆哈希simhash值的影响较小,同时为汉明距离设定合适的阈值也为词条匹配提供一定的容错能力。第二,在应用程序的页面上,色彩丰富,控件多样,文本展示不规则,通过文本识别模型识别出来的文本内容中可能存在错误、丢字的情况,希姆哈希simhash算法和预设阈值下的汉明距离对文字识别模型产生的误报具有一定的鲁棒性。
[0070]
s303、根据文本内容中各词条与全量文本库的匹配结果,得到文本内容与全量文本库之间的匹配成功的词条数量。
[0071]
在该步骤中,统计步骤s302中得到文本内容中每一词条与全量文本库的匹配结果,可以得到文本内容与全量文本库之间匹配成功的词条数量。
[0072]
s104、基于匹配成功的词条数量以及全量文本库中词条的数量,确定应用程序中一个或多个模块的文本覆盖率。
[0073]
具体的,应用程序中一个或多个模块的文本覆盖率为匹配成功的词条数量与全量文本库中词条的数量的比值。沿用前文示例,假设全量文本库中词条的数量为n个(n为大于等于1的正整数),匹配成功的词条的数量为k个(k为大于等于1的正整数),则应用程序中一个或多个模块的文本覆盖率a=k/n。通过该一个或多个模块的文本覆盖率,可以有效的量化评估遍历工具的遍历能力,反映出该遍历工具在该一个或多个模块中的遍历深度和广度。
[0074]
通常来讲,全量文本库中包含一些无法显示在应用程序的页面上的内容,为了提高文本覆盖率的计算准确率,可以对全量文本库进行预处理,所述预处理包括如下操作中的至少一种:
[0075]
第一,去除全量文本库中版本标识与应用程序的版本标识不同的词条。在全量文本库中可能会存在一些旧版本中词条,该词条不会显示在应用程序的页面上,为了保证文本覆盖率的计算准确率,将旧版本中的词条从全量文本库中去除。
[0076]
第二,去除全量文本库中的超文本标记语言。例如,词条中表示字体颜色的《color》《\color》、或者表示字体大小的《size》《/size》,上述内容不会显示应用程序的页面中,应
当从全量文本库中去除。
[0077]
第三,去除全量文本库中字符串格式中的操作符。例如,去除“gather some amaranth herbs%d/%d”中的操作符“%”,因为这些操作符号不会在应用程序的页面中展示出来。
[0078]
第四,去除全量文本库中仅包含数字的词条。例如,100,500,1000等仅包含数字的词条。
[0079]
第五,去除全量文本库中属于ascii编码表中的特殊字符。例如,去除全量文本库中
“‑”
,“%”,“#”,“.”,“?”,“!”等字符。
[0080]
第六,去除全量文本库中表征商店数值类型的词条。这些在应用程序中是动态的,且不具有实际含义,匹配成功后也没有参考意义。例如,商品的价格等;
[0081]
第七,去除全量文本库中需满足预设条件才能触发显示的词条。例如,error code等词条。
[0082]
另外,在一些实施例中,将文本内容与应用程序的全量文本库进行匹配之前,可以对文本内容也进行预处理,所述预处理包括如下操作中的至少一种:将所述文本内容中相邻的多行文本基于预设规则形成词条,或者去除所述文本内容中仅包含数字的词条。
[0083]
上述主要从服务器的角度对本公开实施例提供的方案进行了介绍。可以理解的是,服务器为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
[0084]
本公开实施例可以根据上述方法示例对服务器进行功能单元的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0085]
在采用对应各个功能划分各个功能模块的情况下,本公开示例性实施例提供一种文本覆盖率的确定装置,该文本覆盖率的确定装置可以为服务器或应用于服务器的芯片。图5示出了根据本公开示例性实施例的文本覆盖率的确定装置的功能模块示意性框图。如图5所示,该文本覆盖率的确定装置500包括:
[0086]
获取模块501,被配置于通过遍历工具获取应用程序中一个或多个模块在运行过程中的页面截图;
[0087]
文本识别模块502,被配置于对页面截图进行文本识别,得到页面截图中的文本内容;
[0088]
匹配模块503,被配置于将文本内容与应用程序中一个或多个模块对应的全量文本库进行匹配,得到文本内容与全量文本库之间匹配成功的词条数量;
[0089]
确定模块504,被配置于基于匹配成功的词条数量以及全量文本库中词条的数量,确定得到应用程序中一个或多个模块的文本覆盖率。
[0090]
在一种可能的方式中,匹配模块503被配置于:
[0091]
对于文本内容中的每一词条,获取每一词条与全量文本库中各词条的文本相似度;
[0092]
基于每一词条与全量文本库中各词条的文本相似度,确定每一词条与全量文本库的匹配结果;
[0093]
根据文本内容中每一词条与全量文本库的匹配结果,得到文本内容与全量文本库之间的匹配成功的词条数量。
[0094]
在一种可能的方式中,文本相似度用汉明距离表征;匹配模块503还被配置于:
[0095]
获取全量文本库中各词条分别对应的希姆哈希simhash值;
[0096]
对于文本内容中的每一词条,获取每一词条对应的希姆哈希simhash值;
[0097]
基于每一词条对应的希姆哈希simhash值和全量文本库中各词条分别对应的希姆哈希simhash值,确定每一词条与全量文本库中各个词条的汉明距离。
[0098]
在一种可能的方式中,匹配模块503还被配置于:
[0099]
基于每一词条与全量文本库中各词条的汉明距离,确定每一词条对应的目标汉明距离,目标汉明距离为每一词条与全量文本库中各词条的汉明距离中数值最小的汉明距离;
[0100]
响应于每一词条对应的目标汉明距离小于或等于预设阈值的情况,确定每一词条与全量文本库匹配成功;
[0101]
响应于每一词条对应的目标汉明距离大于预设阈值的情况,确定每一词条与全量文本库匹配失败。
[0102]
在一种可能的实现方式中,装置还包括第一预处理模块,第一预处理模块被配置于:
[0103]
对全量文本库进行预处理,预处理包括如下操作中的至少一种:去除全量文本库中版本标识与应用程序的版本标识不同的词条,去除全量文本库中的超文本标记语言,去除全量文本库中字符串格式中的操作符,去除全量文本库中仅包含数字的词条,去除全量文本库中属于ascii编码表中的特殊字符,去除全量文本库中表征商店数值类型的词条,或去除全量文本库中需满足预设条件才能触发显示的词条。
[0104]
在一种可能的实现方式中,装置还包括第二预处理模块,第二预处理模块被配置于:
[0105]
对文本内容进行预处理,预处理包括如下操作中的至少一种:将文本内容中相邻的多行文本基于预设规则合并,去除文本内容中仅包含数字的词条。
[0106]
在一种可能的实现方式中,获取模块501被配置于:
[0107]
确定一个或多个模块中每一模块对应的遍历优先级,遍历优先级用于表征遍历工具遍历一个或多个模块的顺序;
[0108]
基于一个或多个模块的遍历优先级,通过遍历工具依次获取一个或多个模块运行过程中的页面截图。
[0109]
图6示出了根据本公开示例性实施例的芯片的示意性框图。如图6所示,该芯片600包括一个或两个以上(包括两个)处理器601和通信接口602。通信接口602可以支持服务器执行上述图像处理方法中的数据收发步骤,处理器601可以支持服务器执行上述图像处理
方法中的数据处理步骤。
[0110]
可选的,如图6所示,该芯片600还包括存储器603,存储器603可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,nvram)。
[0111]
在一些实施方式中,如图6所示,处理器601通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。处理器601控制终端设备中任一个的处理操作,处理器还可以称为中央处理单元(central processing unit,cpu)。存储器603可以包括只读存储器和随机存取存储器,并向处理器2201提供指令和数据。存储器603的一部分还可以包括nvram。例如应用中存储器、通信接口以及存储器通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图6中将各种总线都标为总线系统604。
[0112]
上述本公开实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processing,dsp)、asic、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0113]
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
[0114]
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
[0115]
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
[0116]
参考图7,现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0117]
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(rom)
702中的计算机程序或者从存储单元707加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
[0118]
电子设备700中的多个部件连接至i/o接口705,包括:输入单元706、输出单元707、存储单元707以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备,输入单元706可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元704可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
[0119]
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如,在一些实施例中,上述文本覆盖率的计算方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元707。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本覆盖率的计算方法。
[0120]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0121]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0122]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0123]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0124]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0125]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,dvd);还可以是半导体介质,例如,固态硬盘(solid state drive,ssd)。
[0126]
尽管结合具体特征及其实施例对本公开进行了描述,显而易见的,在不脱离本公开的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本公开的示例性说明,且视为已覆盖本公开范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包括这些改动和变型在内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献