一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于机器人的智能数据采集系统的制作方法

2022-02-24 17:46:45 来源:中国专利 TAG:


1.本发明涉及数据采集技术领域,尤其涉及一种基于机器人的智能数据采集系统。


背景技术:

2.现今,将纸质文件电子化的技术已越发成熟,但是社会上的现有技术仍存在固定比率的纸质数据误读的问题,且现有技术大都不对纸质文件电子化的数据进行校验,进一步加剧数据误读问题的产生。
3.中国专利公开号cn105681620b公开了一种图像文字采集一体化系统,包括:服务器模块、初始化配置模块、扫描模块和上传信息反馈模块,所述初始化配置模块包括图片文件夹路径输入模块、表格名称输入模块和文件名输入模块,所述扫描模块包括扫描控件模块、扫描操作模块和扫描文件编辑模块。通过上述方式,本发明图像文字采集一体化系统,不仅可以完成图像文字的扫描采集工作,而且可以直接将采集的各种信息分门别类的排列组合在相对应的表格中,提高了工作效率和准确率。
4.由此可见,上述技术方案存在以下问题:1、没有对识别的文字信息进行词义与句子的校验造成系统读取精度低的问题;2、未对内容信息进行分类并应用各自的采集方法。


技术实现要素:

5.为此,本发明提供一种基于机器人的智能数据采集系统,用以克服现有技术中没有对识别的文字信息进行词义与句子的校验造成系统读取精度低的问题。
6.为实现上述目的,本发明提供一种基于机器人的智能数据采集系统,包括:采集模块,用以提取文件内的特征信息、根据文件内特征信息生成对应的暂存文档、对暂存文档中的各特征信息的种类进行判定并在判定完成时根据用户需求对对应种类的特征信息进行初步采集;当所述采集模块识别到文件时,采集模块根据需求提取暂存文档中对应种类的特征信息;所述特征信息的种类包括文字特征、图像特征以及表格特征;中控模块,其与所述采集模块相连,用以对所述采集模块提取的特征信息进行识别并在识别完成时检测针对特征信息的识别精度;当所述中控模块针对文件中的文字特征进行识别时,中控模块依次对各文字进行识别,当中控模块完成对全部文字特征的识别时,中控模块检测文字特征中存在的词语和语句并依次对词语和语句的识别精度进行校对,若存在单个词语,该词语的含义不清楚,中控模块依次重新识别该词语中的各文字以重新识别单个首选替换词和若干备选替换词,若不存在含义不清楚的词语,中控模块针对文字特征中的语句的识别精度进行校对并在判定存在含义不清楚的语句时逐个重新识别语句中的各词语;云端服务器,其与所述中控模块相连,在云端服务器中存储有若干不同种类的预设特征信息,用以在中控模块对特征进行识别时提供对应种类的预设特征信息作为识别标准;当所述中控模块针对对应种类的特征信息进行识别时,中控模块从所述云端服务器中
提取对应种类的预设特征信息并使用该预设特征信息作为针对对应种类的特征信息的识别标准。
7.进一步地,所述中控模块中设有预设文字特征相似度s0,当所述中控模块针对文件中的文字特征进行识别时,中控模块从所述云端服务器中提取预设文字特征以作为识别标准,提取完成后,中控模块使用预设文字特征依次对所述采集模块初步采集的各文字特征进行识别,针对单个所述文字特征,中控模块依次计算该文字特征与各预设文字特征的相似度,若存在单个预设文字特征,该预设文字特征与待识别的文字特征的相似度s≥s0,所述中控模块将该文字特征初步识别为该预设文字特征;若存在多个预设文字特征,各预设文字特征与待识别的文字特征的相似度均大于等于s0,所述中控模块将与待识别的文字特征相似度最高的预设文字特征作为针对该待识别的文字特征的识别结果并将剩余相似度大于等于s0的预设待识别文字特征作为针对该待识别的文字特征的备选识别结果;若不存在满足相似度大于等于s0的预设文字特征,所述中控模块将与待识别的文字特征相似度最高的预设文字特征作为针对该待识别的文字特征的识别结果。
8.进一步地,当所述中控模块判定单个识别完成的词语的含义不清楚且该词语由两个字组成时,中控模块依次统计该词语中各文字特征与对应的作为识别结果的预设文字特征的相似度,统计完成后,中控模块选用符合标准的预设文字特征对相似度最低的文字进行替换以对该词语进行重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定不存在清楚的词语,中控模块选用符合标准的预设文字特征对另一文字特征进行替换以对该词语进行重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定存在单个清楚的词语,中控模块初步判定采用符合标准的预设文字特征替换该文字特征后完成对该词语的重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定存在多个清楚的词语,中控模块按照相似度降序设置单个首选替换词与若干备选替换词以对该文字进行替换。
9.进一步地,当所述中控模块选用符合标准的由两个字组成预设文字特征中另一文字特征进行替换以对该词语进行重新识别时;若使用符合标准的预设文字特征对另一文字进行替换后所述中控模块判定不存在单个清楚的词语,中控模块判定原文件中该字词为手写字词或该字词在原文件中的特征为图像特征;若使用符合标准的预设文字特征对另一文字进行替换后所述中控模块判定存在单个清楚的词语,中控模块初步判定采用符合标准的预设文字特征替换另一文字特征后完成对该词语的重新识别;若使用符合标准的预设文字特征对另一文字进行替换后所述中控模块判定存在多个清楚的词语,中控模块按照相似度降序设置单个首选替换词和若干备选替换词以对另一文字进行替换。
10.进一步地,当所述中控模块判定单个识别完成的词语的含义不清楚且该词语由至少三个字组成时,中控模块依次统计该词语中各文字特征与对应的作为识别结果的预设文字特征的相似度,统计完成后,中控模块选用符合标准的预设文字特征按照相似度升序的顺序对文字进行替换以对该词语进行重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定不存在清楚的词语,中控模块按照该词语中各文字特征与对应的作为识别结果的预设文字特征的相似度升序的顺序选用符合标准的预设文字特征对其它文字特征进行替换以对该词语进行重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定存在单个清楚的词语,中控模块初步判定采用符合标准的预设文字特征替换该文字特征后完成对该词语的重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定存在多个清楚的词语,中控模块按照该词语中各文字特征与对应的符合标准的词语的文字特征的相似度降序设置单个首选替换词与若干备选替换词以对该文字进行替换。
11.进一步地,当所述中控模块选用预设文字特征对含义不清楚的词语中的字词进行替换时,中控模块依次统计含义不清楚的词语中各文字特征与对应的作为识别结果的预设文字特征的相似度,统计完成后,中控模块判定符合标准的预设文字特征并统计其数量;所述中控模块设有预设相似度差值

s,若仅有单个预设文字特征与含义不清楚的词语中文字特征的相似度s≥s0,则中控模块应用预设相似度差值降低预设文字特征相似度得到文字特征相似度标准s’,其中,s’=s0
‑△
s,中控模块判定符合新标准的预设文字特征并按照词语中各文字特征与符合新标准的预设文字特征的相似度降序的顺序对含义不清楚的词语中的文字进行替换;若存在多个预设文字特征与含义不清楚的词语中文字特征的相似度均大于等于预设文字特征相似度s0,中控模块按照词语中文字特征与预设文字特征的相似度降序的顺序选用备选文字进行替换;若所述中控模块选用全部的备选文字对含义不清楚的词语进行替换后,中控模块判定该词语仍有含义不清楚的问题,则中控模块判定该文字为手写文字或原文件中该区域的特征为图像特征;若不存在符合标准的预设文字特征,则所述中控模块判定该文字为手写文字或原文件中该区域的特征为图像特征。
12.进一步地,当所述中控模块判定含义不清楚的词语为手写字词时,中控模块发出字词手写通知以通知用户对该字词进行人工识别并将识别结果输入至中控模块;当所述中控模块判定该词语对应原文件中区域的特征为图像特征时,中控模块将该区域的特征信息更正为图像特征并控制采集模块重新采集该区域的图像特征信息。
13.进一步地,所述中控模块判定不存在含义不清楚的词语时,中控模块对暂存文档中的句子进行识别分析,若中控模块判定句子中存在词语导致句子的含义不清楚,中控模块选用预设文字特征对该词语进行替换;若所述中控模块判定该词语具有与词语文字特征相似度高的备选词,中控模块按照该词语的文字特征与备选词的文字特征相似度降序对该词语进行替换;若所述中控模块判定该词语没有与词语文字相似度高的备选词,所述中控模块统
计该词语的文字特征与预设文字特征的相似度并按照相似度降序的顺序选用符合标准的预设文字特征对其进行替换;若所述中控模块判定不存在符合标准的文字特征,则中控模块判定该词语为手写词语或原文件中该区域的特征为图像特征。
14.进一步地,当所述中控模块判定用户需求特征为图像特征信息时,中控模块识别暂存文档中的图像特征信息并将其直接生成为图像信息;当所述中控模块判定用户需求特征为表格特征信息时,中控模块识别暂存文档中的表格特征,若中控模块检测到表格文字中存在含义不清楚的词语时,中控模块统计该词语的文字特征与作为识别结果的预设文字特征的相似度,统计完成后,中控模块按照相似度升序的顺序对该词语中的文字应用预设文字特征进行替换以对该词语进行重新识别,中控模块检测该词语的文字特征与预设文字特征的相似度,中控模块采用相似度大于等于s0的预设文字特征按照相似度降序的顺序对词语中的文字进行替换,若中控模块判定不存在符合标准的预设文字特征能够对该词语进行替换,中控模块判定该词语文字为手写文字。
15.进一步地,所述中控模块在所述采集模块接收到文件时检测是否存在用户指定的特征提取种类的需求,若所述中控模块未检测到需求,中控模块控制所述采集模块提取文件中的全部特征信息、依次对各特征信息的种类进行判定并在判定完成后依次对各特征信息进行识别;若所述中控模块检测到存在用户指定的特征种类提取的需求,中控模块控制所述采集模块对文件进行初步采集以提取文件中对应种类的特征信息并在采集模块采集完成时对采集模块采集到的对应种类的特征信息进行识别。
16.与现有技术相比,本发明的有益效果在于,本发明通过设有采集模块、中控模块及云端服务器,用以根据用户的需求提取文件中的特征信息生成暂存文档,并对暂存文档中的文字内容进行校验替换,保证了纸质文件电子化的准确性,同时本发明通过采用云端服务器中存储的文字特征以对文字内容中含义不清楚的字词及导致句子有歧义的字词进行校验替换,在保证数据采集系统采集内容的精确度的同时,提高了本发明所述系统的运行效率。
17.进一步地,本发明设有预设文字特征相似度,本发明通过将采集的文字特征与预设文字特征的相似度与预设文字特征相似度进行比较以将相似度高的作为本次识别的文字特征,并将同样满足预设标准的预设文字特征作为备选识别结果,在进一步保证了数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
18.进一步地,本发明检测识别后的文字内容中是否存在含义不清楚的词语,若存在含义不清的词语,统计词语中各文字的文字特征与识别结果的文字特征的相似度,按照相似度升序的顺序对词语中的各文字进行替换,本发明采用相似度符合预设标准的预设文字特征对词语中文字的文字特征进行替换,若不存在相似度符合标准的预设文字特征,中控模块对词语中的另一文字进行预设文字特征的替换,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
19.进一步地,本发明对词语中另一文字进行替换时,选用符合标准的预设文字特征对另一文字进行替换以对该词语重新进行识别,若不存在符合标准的预设文字特征,则将该词语判定为手写字体或将该区域判定为图像特征,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
20.进一步地,本发明检测到存在词义不清的词语为多个字组成时,检测每个字的文字特征与作为结果输出的预设文字特征的相似度并按照相似度升序的顺序对词语中的文字进行替换,中控模块对文字进行替换时,选用符合标准的预设文字特征对该文字进行替换,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
21.进一步地,本发明在选用符合标准的预设文字特征时,若仅有单个符合标准的文字特征且已作为结果输出,则中控模块降低预设标准选取对应相似度较高的文字特征以进行适配替换该文字特征,若存在多个符合标准的预设文字特征,中控模块按照其与该文字特征的相似度降序顺序对该字进行替换,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
22.进一步地,本发明对中控模块判定为手写的词语发出通知以进行人工识别并将中控模块判定为图像的区域直接输出其图像信息,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
23.进一步地,本发明检测句子中是否有导致句子产生歧义的词语,若存在词语,其导致句子的意思不明,中控模块采用对应的预设文字特征对其进行替换,若中控模块判定该词语有备选词,则直接按照备选词与原词语的相似度降序的顺序进行替换,若无备选词,则中控模块选用相似度高的预设文字特征对该词语进行替换,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
24.进一步地,本发明中,当中控模块判定待采集特征为图像特征时直接获取其图像信息,当中控模块判定待采集特征为表格特征时,获取其表格信息,对于表格信息中的文字,应用中控模块对文字特征的提取方法,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
25.进一步地,本发明通过判定用户的需求并根据用户的需求应用对应的方法采集对应的特征信息,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
附图说明
26.图1为本发明所述基于机器人的智能数据采集系统的结构示意图。
具体实施方式
27.为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
28.下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
29.需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
30.此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安
装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
31.请参阅图1所示,其为本发明所述基于机器人的智能数据采集系统的结构示意图,包括:采集模块,用以提取文件内的特征信息、根据文件内特征信息生成对应的暂存文档、对暂存文档中的各特征信息的种类进行判定并在判定完成时根据用户需求对对应种类的特征信息进行初步采集;当所述采集模块识别到文件时,采集模块根据需求提取暂存文档中对应种类的特征信息;所述特征信息的种类包括文字特征、图像特征以及表格特征;中控模块,其与所述采集模块相连,用以对所述采集模块提取的特征信息进行识别并在识别完成时检测针对特征信息的识别精度;当所述中控模块针对文件中的文字特征进行识别时,中控模块依次对各文字进行识别,当中控模块完成对全部文字特征的识别时,中控模块检测文字特征中存在的词语和语句并依次对词语和语句的识别精度进行校对,若存在单个词语,该词语的含义不清楚,中控模块依次重新识别该词语中的各文字以重新识别单个首选替换词和若干备选替换词,若不存在含义不清楚的词语,中控模块针对文字特征中的语句的识别精度进行校对并在判定存在含义不清楚的语句时逐个重新识别语句中的各词语;云端服务器,其与所述中控模块相连,在云端服务器中存储有若干不同种类的预设特征信息,用以在中控模块对特征进行识别时提供对应种类的预设特征信息作为识别标准;当所述中控模块针对对应种类的特征信息进行识别时,中控模块从所述云端服务器中提取对应种类的预设特征信息并使用该预设特征信息作为针对对应种类的特征信息的识别标准。
32.本发明通过设有采集模块、中控模块及云端服务器,用以根据用户的需求提取文件中的特征信息生成暂存文档,并对暂存文档中的文字内容进行校验替换,保证了纸质文件电子化的准确性,同时本发明通过采用云端服务器中存储的文字特征以对文字内容中含义不清楚的字词及导致句子有歧义的字词进行校验替换,在保证数据采集系统采集内容的精确度的同时,提高了本发明所述系统的运行效率。
33.具体而言,所述中控模块中设有预设文字特征相似度s0,当所述中控模块针对文件中的文字特征进行识别时,中控模块从所述云端服务器中提取预设文字特征以作为识别标准,提取完成后,中控模块使用预设文字特征依次对所述采集模块初步采集的各文字特征进行识别,针对单个所述文字特征,中控模块依次计算该文字特征与各预设文字特征的相似度,若存在单个预设文字特征,该预设文字特征与待识别的文字特征的相似度s≥s0,所述中控模块将该文字特征初步识别为该预设文字特征;若存在多个预设文字特征,各预设文字特征与待识别的文字特征的相似度均大于等于s0,所述中控模块将与待识别的文字特征相似度最高的预设文字特征作为针对该待识别的文字特征的识别结果并将剩余相似度大于等于s0的预设待识别文字特征作为针对该待识别的文字特征的备选识别结果;
若不存在满足相似度大于等于s0的预设文字特征,所述中控模块将与待识别的文字特征相似度最高的预设文字特征作为针对该待识别的文字特征的识别结果。
34.本发明设有预设文字特征相似度,本发明通过将采集的文字特征与预设文字特征的相似度与预设文字特征相似度进行比较以将相似度高的作为本次识别的文字特征,并将同样满足预设标准的预设文字特征作为备选识别结果,在进一步保证了数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
35.具体而言,当所述中控模块判定单个识别完成的词语的含义不清楚且该词语由两个字组成时,中控模块依次统计该词语中各文字特征与对应的作为识别结果的预设文字特征的相似度,统计完成后,中控模块选用符合标准的预设文字特征对相似度最低的文字进行替换以对该词语进行重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定不存在清楚的词语,中控模块选用符合标准的预设文字特征对另一文字特征进行替换以对该词语进行重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定存在单个清楚的词语,中控模块初步判定采用符合标准的预设文字特征替换该文字特征后完成对该词语的重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定存在多个清楚的词语,中控模块按照相似度降序设置单个首选替换词与若干备选替换词以对该文字进行替换。
36.本发明检测识别后的文字内容中是否存在含义不清楚的词语,若存在含义不清的词语,统计词语中各文字的文字特征与识别结果的文字特征的相似度,按照相似度升序的顺序对词语中的各文字进行替换,本发明采用相似度符合预设标准的预设文字特征对词语中文字的文字特征进行替换,若不存在相似度符合标准的预设文字特征,中控模块对词语中的另一文字进行预设文字特征的替换,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
37.具体而言,当所述中控模块选用符合标准的由两个字组成预设文字特征中另一文字特征进行替换以对该词语进行重新识别时;若使用符合标准的预设文字特征对另一文字进行替换后所述中控模块判定不存在单个清楚的词语,中控模块判定原文件中该字词为手写字词或该字词在原文件中的特征为图像特征;若使用符合标准的预设文字特征对另一文字进行替换后所述中控模块判定存在单个清楚的词语,中控模块初步判定采用符合标准的预设文字特征替换另一文字特征后完成对该词语的重新识别;若使用符合标准的预设文字特征对另一文字进行替换后所述中控模块判定存在多个清楚的词语,中控模块按照相似度降序设置单个首选替换词和若干备选替换词以对另一文字进行替换。
38.本发明对词语中另一文字进行替换时,选用符合标准的预设文字特征对另一文字进行替换以对该词语重新进行识别,若不存在符合标准的预设文字特征,则将该词语判定为手写字体或将该区域判定为图像特征,在进一步保证数据采集系统采集内容精确度的同
时,进一步提高了本发明所述系统的运行效率。
39.具体而言,当所述中控模块判定单个识别完成的词语的含义不清楚且该词语由至少三个字组成时,中控模块依次统计该词语中各文字特征与对应的作为识别结果的预设文字特征的相似度,统计完成后,中控模块选用符合标准的预设文字特征按照相似度升序的顺序对文字进行替换以对该词语进行重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定不存在清楚的词语,中控模块按照该词语中各文字特征与对应的作为识别结果的预设文字特征的相似度升序的顺序选用符合标准的预设文字特征对其它文字特征进行替换以对该词语进行重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定存在单个清楚的词语,中控模块初步判定采用符合标准的预设文字特征替换该文字特征后完成对该词语的重新识别;若使用符合标准的预设文字特征进行替换后所述中控模块判定存在多个清楚的词语,中控模块按照该词语中各文字特征与对应的符合标准的词语的文字特征的相似度降序设置单个首选替换词与若干备选替换词以对该文字进行替换。
40.本发明检测到存在词义不清的词语为多个字组成时,检测每个字的文字特征与作为结果输出的预设文字特征的相似度并按照相似度升序的顺序对词语中的文字进行替换,中控模块对文字进行替换时,选用符合标准的预设文字特征对该文字进行替换,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
41.具体而言,当所述中控模块选用预设文字特征对含义不清楚的词语中的字词进行替换时,中控模块依次统计含义不清楚的词语中各文字特征与对应的作为识别结果的预设文字特征的相似度,统计完成后,中控模块判定符合标准的预设文字特征并统计其数量;若仅有单个预设文字特征与含义不清楚的词语中文字特征的相似度s≥s0,则所述中控模块应用预设相似度差值降低预设文字特征相似度得到文字特征相似度标准s’,其中,s’=s0
‑△
s,中控模块判定符合新标准的预设文字特征并按照词语中各文字特征与符合新标准的预设文字特征的相似度降序的顺序对含义不清楚的词语中的文字进行替换;若存在多个预设文字特征与含义不清楚的词语中文字特征的相似度均大于等于预设文字特征相似度s0,中控模块按照词语中文字特征与预设文字特征的相似度降序的顺序选用备选文字进行替换;若所述中控模块选用全部的备选文字对含义不清楚的词语进行替换后,中控模块判定该词语仍有含义不清楚的问题,则中控模块判定该文字为手写文字或原文件中该区域的特征为图像特征;若不存在符合标准的预设文字特征,则所述中控模块判定该文字为手写文字或原文件中该区域的特征为图像特征。
42.本发明在选用符合标准的预设文字特征时,若仅有单个符合标准的文字特征且已作为结果输出,则中控模块降低预设标准选取对应相似度较高的文字特征以进行适配替换该文字特征,若存在多个符合标准的预设文字特征,中控模块按照其与该文字特征的相似度降序顺序对该字进行替换,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
43.具体而言,当所述中控模块判定含义不清楚的词语为手写字词时,中控模块发出
字词手写通知以通知用户对该字词进行人工识别并将识别结果输入至中控模块;当所述中控模块判定该词语对应原文件中区域的特征为图像特征时,中控模块将该区域的特征信息更正为图像特征并控制采集模块重新采集该区域的图像特征信息。
44.本发明对中控模块判定为手写的词语发出通知以进行人工识别并将中控模块判定为图像的区域直接输出其图像信息,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
45.具体而言,所述中控模块判定不存在含义不清楚的词语时,中控模块对暂存文档中的句子进行识别分析,若中控模块判定句子中存在词语导致句子的含义不清楚,中控模块选用预设文字特征对该词语进行替换;若所述中控模块判定该词语具有与词语文字特征相似度高的备选词,中控模块按照该词语的文字特征与备选词的文字特征相似度降序对该词语进行替换;若所述中控模块判定该词语没有与词语文字相似度高的备选词,所述中控模块统计该词语的文字特征与预设文字特征的相似度并按照相似度降序的顺序选用符合标准的预设文字特征对其进行替换;若所述中控模块判定不存在符合标准的文字特征,则中控模块判定该词语为手写词语或原文件中该区域的特征为图像特征。
46.本发明检测句子中是否有导致句子产生歧义的词语,若存在词语,其导致句子的意思不明,中控模块采用对应的预设文字特征对其进行替换,若中控模块判定该词语有备选词,则直接按照备选词与原词语的相似度降序的顺序进行替换,若无备选词,则中控模块选用相似度高的预设文字特征对该词语进行替换,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
47.具体而言,当所述中控模块判定用户需求特征为图像特征信息时,中控模块识别暂存文档中的图像特征信息并将其直接生成为图像信息;当所述中控模块判定用户需求特征为表格特征信息时,中控模块识别暂存文档中的表格特征,若中控模块检测到表格文字中存在含义不清楚的词语时,中控模块统计该词语的文字特征与作为识别结果的预设文字特征的相似度,统计完成后,中控模块按照相似度升序的顺序对该词语中的文字应用预设文字特征进行替换以对该词语进行重新识别,中控模块检测该词语的文字特征与预设文字特征的相似度,中控模块采用相似度大于等于s0的预设文字特征按照相似度降序的顺序对词语中的文字进行替换,若中控模块判定不存在符合标准的预设文字特征能够对该词语进行替换,中控模块判定该词语文字为手写文字。
48.本发明中,当中控模块判定待采集特征为图像特征时直接获取其图像信息,当中控模块判定待采集特征为表格特征时,获取其表格信息,对于表格信息中的文字,应用中控模块对文字特征的提取方法,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
49.具体而言,所述中控模块在所述采集模块接收到文件时检测是否存在用户指定的特征提取种类的需求,若所述中控模块未检测到需求,中控模块控制所述采集模块提取文件中的全部特征信息、依次对各特征信息的种类进行判定并在判定完成后依次对各特征信息进行识别;若所述中控模块检测到存在用户指定的特征种类提取的需求,中控模块控制所述采集模块对文件进行初步采集以提取文件中对应种类的特征信息并在采集模块采集完成
时对采集模块采集到的对应种类的特征信息进行识别。
50.本发明通过判定用户的需求并根据用户的需求应用对应的方法采集对应的特征信息,在进一步保证数据采集系统采集内容精确度的同时,进一步提高了本发明所述系统的运行效率。
51.至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
52.以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献