一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本内容质量评估方法及系统与流程

2022-07-30 23:15:36 来源:中国专利 TAG:


1.本发明属于自然语言处理技术领域,具体涉及一种文本内容质量评估方法及系统。


背景技术:

2.文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本与讯息的意义大致相同,指的是由一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,由文本内容分析,可以推断文本提供者的意图和目的。
3.现有技术存在以下问题:
4.1、现有的文本在获取时无法对文本内容格式统一校正,且文本内包含图片、特殊字符等多余信息,无法对文本内容精确提取,影响文本分析的质量;
5.2、在对文档分析完成后不便与再次进行复查,难以找出修改后的文档与原文档的差异点,导致修改费时费力。


技术实现要素:

6.为解决上述背景技术中提出的问题。本发明提供了一种文本内容质量评估方法及系统,具有降低错误率,复查便捷的特点。
7.本发明还提供了一种文本内容质量评估系统的使用方法。
8.为实现上述目的,本发明提供如下技术方案:一种文本内容质量评估系统的使用方法包括:
9.第一步,选取参考文本并将其分类为无关文本和相关文本,并在分类完成后对文本格式进行统一修正;
10.第二步,对参考文本中的特殊字符及乱码进行标记和删除处理,并记录数据位置信息进行存储备用;
11.第三步,对参考文本中的非汉语语句进行翻译校正,并对翻译处的语句进行标记和记录,且存留位置信息并按时间顺序保存;
12.第四步,提取参考文本中每句话的词性,并将参考文本转化为词性文本,并求取参考文本所对应的每个词性文本的每个字节片段在所有字节片段中出现的概率,然后将词性文本中设定的字节片段作为词性文本的特征项;
13.第五步,将特征项转化为特征向量并输入二分类器中进行训练;
14.第六步,将待评估文本转化为词性文本,并将其中设定的字节片段转化为第二特征向量;
15.第七步,将参考文本训练后的特征向量与第二特征向量进行对比记录,并可标注
出待评估文本与参考文本中无关文本的重合部分;
16.第八步,输入修改后的待评估文本并求第三特征向量,然后与参考文本训练后的特征向量对其进行对比,同时第三特征向量与第二特征向量再次对比找寻差异;
17.第九步,若修改后的待评估文本不合格,则在完成记录后对修改后的待评估文本、初版待评估文本及参考文本对比差异并列展示,若修改后的待评估文本合格过审,则另单独对修改后的待评估文本进行记录保存。
18.进一步的;一种文本内容质量评估系统,包括翻译转换模块,所述翻译转换模块耦合有词性文本生成模块,所述词性文本生成模块耦合有概率求取模块,所述概率求取模块耦合有参考文本特征向量转化模块,所述概率求取模块同时与特征项确定模块相耦合,所述参考文本特征向量转化模块耦合有二分类器训练模块,所述二分类器训练模块耦合有待评估文本特征向量转化模块,所述翻译转换模块包括文本输入模块、语句翻译模块、格式设定模块和文本输出模块,其中,所述文本输入模块耦合有格式设定模块,所述格式设定模块耦合有语句翻译模块,所述语句翻译模块耦合有文本输出模块;
19.进一步的;所述文本输入模块用于参考文本的输入,并可根据设定对无关文本与相关文本进行分类,同时统计各个文本的页数、字数和格式数据,便于进行对比管理;所述语句翻译模块可对参考文本中的英语、法语及非汉语进行识别和翻译,并对翻译处进行标注记录;所述格式设定模块可将翻译后的文本格式自动与原参考文本同步,同时将翻译后的文本返回原参考文本的对应位置并替换非汉语部分;所述文本输出模块可将完成翻译的新参考文本输出进行下一次操作。
20.进一步的;所述语句翻译模块还耦合有字符识别模块,所述字符识别模块可对参考文本全篇进行浏览,并对数学符号、罗马符号及特殊符号进行标注并删除,同时可检测参考文本中的图片及插入文件并标注。
21.进一步的;所述语句翻译模块与字符识别模块还耦合有数据暂存模块,所述数据暂存模块可对删除的符号及翻译的文本进行缓存记录,便于后续对比寻找,同时可对原参考文本及翻译校正后的新参考文本进行储存,并按时间顺序进行排列。
22.进一步的;所述二分类器训练模块和待评估文本特征向量转化模块耦合有记录复查模块,所述记录复查模块包括评估结果记录模块、复查文本输入模块、对比评估模块、复查结果记录模块和综合输出模块,所述评估结果记录模块可对待评估文本和新参考文本的对比数据进行记录,同时对待评估文本中与无关文本重合的特征进行标注,并根据设定阈值对待评估文本进行判定合格与否。
23.进一步的;所述复查文本输入模块可对需要复查的待评估文本进行输入并排版,同时对文本进行自动缓存便于随时取用。
24.进一步的;所述对比评估模块可将复查的待评估文本与参考文本进行再次对比评估,并可同时对已存储的初次对比文本进行二次比较,并对二次比较的修改点进行标注,当复查的待评估文本判定为合格时自动标记并留存根,在复查的待评估文本判定不合格时则单独进行存储保存。
25.进一步的;所述复查结果记录模块可对复查的待评估文本与参考文本对比结果进行记录,并可对复查的待评估文本与初次对比文本对比结果进行记录,若复查的待评估文本不合格,则在完成记录后同时只将结果并列展示,若复查的待评估文本合格过审,则另单
独对复查的待评估文本进行记录保存。
26.进一步的;所述综合输出模块可选择将对比结果并列输出,或将复查的待评估文本及标注处进行输出,复查的待评估文本合格的情况下则可选择单独输出并清除记录。
27.与现有技术相比,本发明的有益效果是:
28.1、本发明通过设置翻译转换模块,可对选取的文本进行统一格式的操作,并可对文本中的特殊字符和乱码进行记录和删除,且可将不同语言转化为简体中文进行记录,提高文本有用信息的获取量,保证文本分析的精度。
29.2、本发明通过设置记录复查模块,可便捷的对修改后的文本进行复查,并同时与参考文本及初版待评估文本进行对比,便于对错误点进行分析,提高工作质量,保证文本修改的便利性。
附图说明
30.图1为本发明的系统结构示意图;
31.图2为本发明的流程示意图。
32.图中:1、翻译转换模块;11、文本输入模块;12、语句翻译模块;13、字符识别模块;14、格式设定模块;15、数据暂存模块;16、文本输出模块;2、词性文本生成模块;3、概率求取模块;4、参考文本特征向量转化模块;5、二分类器训练模块;6、特征项确定模块;7、评估文本特征向量转化模块;8、记录复查模块;81、评估结果记录模块;82、复查文本输入模块;83、对比评估模块;84、复查结果记录模块;85、综合输出模块。
具体实施方式
33.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
34.请参阅图1-2,本发明提供以下技术方案:一种文本内容质量评估系统的使用方法包括:
35.s1,选取参考文本并将其分类为无关文本和相关文本,并在分类完成后对文本格式进行统一修正;
36.s2,对参考文本中的特殊字符及乱码进行标记和删除处理,并记录数据位置信息进行存储备用;
37.s3,对参考文本中的非汉语语句进行翻译校正,并对翻译处的语句进行标记和记录,且存留位置信息并按时间顺序保存;
38.s4,提取参考文本中每句话的词性,并将参考文本转化为词性文本,并求取参考文本所对应的每个词性文本的每个字节片段在所有字节片段中出现的概率,然后将词性文本中设定的字节片段作为词性文本的特征项;
39.s5,将特征项转化为特征向量并输入二分类器中进行训练;
40.s6,将待评估文本转化为词性文本,并将其中设定的字节片段转化为第二特征向量;
41.s7,将参考文本训练后的特征向量与第二特征向量进行对比记录,并可标注出待评估文本与参考文本中无关文本的重合部分;
42.s8,输入修改后的待评估文本并求第三特征向量,然后与参考文本训练后的特征向量对其进行对比,同时第三特征向量与第二特征向量再次对比找寻差异;
43.s9,若修改后的待评估文本不合格,则在完成记录后对修改后的待评估文本、初版待评估文本及参考文本对比差异并列展示,若修改后的待评估文本合格过审,则另单独对修改后的待评估文本进行记录保存。
44.本发明中进一步的,基于同样的发明构想,本发明中还提供一种文本内容质量评估系统,包括翻译转换模块1,翻译转换模块1耦合有词性文本生成模块 2,词性文本生成模块2耦合有概率求取模块3,概率求取模块3耦合有参考文本特征向量转化模块4,概率求取模块3同时与特征项确定模块6相耦合,参考文本特征向量转化模块4耦合有二分类器训练模块5,二分类器训练模块5耦合有待评估文本特征向量转化模块7,翻译转换模块1包括文本输入模块11、语句翻译模块12、格式设定模块14和文本输出模块16,其中,文本输入模块11 耦合有格式设定模块14,格式设定模块14耦合有语句翻译模块12,语句翻译模块12耦合有文本输出模块16;
45.本发明中进一步的,文本输入模块11用于参考文本的输入,并可根据设定对无关文本与相关文本进行分类,同时统计各个文本的页数、字数和格式数据,便于进行对比管理;语句翻译模块12可对参考文本中的英语、法语及非汉语进行识别和翻译,并对翻译处进行标注记录;格式设定模块14可将翻译后的文本格式自动与原参考文本同步,同时将翻译后的文本返回原参考文本的对应位置并替换非汉语部分;文本输出模块16可将完成翻译的新参考文本输出进行下一次操作。
46.本发明中进一步的,语句翻译模块12还耦合有字符识别模块13,字符识别模块13可对参考文本全篇进行浏览,并对数学符号、罗马符号及特殊符号进行标注并删除,同时可检测参考文本中的图片及插入文件并标注。
47.本发明中进一步的,语句翻译模块12与字符识别模块13还耦合有数据暂存模块15,数据暂存模块15可对删除的符号及翻译的文本进行缓存记录,便于后续对比寻找,同时可对原参考文本及翻译校正后的新参考文本进行储存,并按时间顺序进行排列。
48.本发明中进一步的,二分类器训练模块5和待评估文本特征向量转化模块7 耦合有记录复查模块8,记录复查模块8包括评估结果记录模块81、复查文本输入模块82、对比评估模块83、复查结果记录模块84和综合输出模块85,评估结果记录模块81可对待评估文本和新参考文本的对比数据进行记录,同时对待评估文本中与无关文本重合的特征进行标注,并根据设定阈值对待评估文本进行判定合格与否。
49.本发明中进一步的,复查文本输入模块82可对需要复查的待评估文本进行输入并排版,同时对文本进行自动缓存便于随时取用。
50.本发明中进一步的,对比评估模块83可将复查的待评估文本与参考文本进行再次对比评估,并可同时对已存储的初次对比文本进行二次比较,并对二次比较的修改点进行标注,当复查的待评估文本判定为合格时自动标记并留存根,在复查的待评估文本判定不合格时则单独进行存储保存。
51.本发明中进一步的,复查结果记录模块84可对复查的待评估文本与参考文本对比
结果进行记录,并可对复查的待评估文本与初次对比文本对比结果进行记录,若复查的待评估文本不合格,则在完成记录后同时只将结果并列展示,若复查的待评估文本合格过审,则另单独对复查的待评估文本进行记录保存。
52.本发明中进一步的,综合输出模块85可选择将对比结果并列输出,或将复查的待评估文本及标注处进行输出,复查的待评估文本合格的情况下则可选择单独输出并清除记录。
53.本发明的工作原理及使用流程:本发明在使用时,用户通过文本输入模块 11将选定的无关文本与相关文本进行输入,统一编辑为参考文本并做区分,然后通过格式设定模块14对参考文本的格式进行统一设定,在格式设定完成后通过字符识别模块13对参考文本中的特殊字符和乱码进行记录和删除,并保留特殊字符的位置信息,数据则由数据暂存模块15进行保存,特殊字符和乱码删除后可对参考文本中的英语、法语等不同语言进行翻译,使其转化为简体中文的同时对翻译处的位置信息和原文本信息进行记录,防止丢失,便于后续复查,然后由数据暂存模块15对处理后的参考文本、翻译文本、特殊字符分别存储,并记录位置信息,最后可通过文本输出模块16将处理后的参考文本输出;
54.通过词性文本生成模块2获取参考文本中的词性,然后由概率求取模块3 求取参考文本所对应的每个词性文本的每个字节片段在所有字节片段中出现的概率,通过特征项确定模块6可设定词性文本中字节片段的特征项,然后参考文本特征向量转化模块4将特征项转化为特征向量,并将特征向量输入二分类器训练模块5中进行训练,同时将待评估文本转化为词性本体,并将待评估文本词性文本中的字节片段转化为第二特征向量;
55.由评估结果记录模块81将参考文本训练后的特征向量与第二特征向量进行对比记录,并可标注出待评估文本与参考文本中无关文本的重合部分,在需要对修改后的待评估文本进行复查时,通过复查文本输入模块82输入新的待评估文本并读取参考文本训练后的特征向量对其进行对比,同时新的待评估文本与第二特征向量再次对比找寻差异,由对比评估模块83对新的评估结果进行输出并通过复查结果记录模块84进行记录,若新的待评估文本不合格,则在完成记录后对新的待评估文本、初版待评估文本及参考文本对比差异并列展示,若新的待评估文本合格过审,则另单独对新的待评估文本进行记录保存并通过综合输出模块85输出。
56.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献