一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种标准化文本数据处理系统的制作方法

2021-12-12 23:07:00 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其是涉及一种标准化文本数据处理系统。


背景技术:

2.目前,数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等。
3.相关技术中,由于被收集到的文本数据无论是在格式方式,还是在内容等方面,往往存在较多的不确定因素,因此,通常需要对被收集到的文本数据进行一定的处理,才能提供给后续流程使用。相对于文本的信息传达方式而言,多媒体有利于使人们能够更轻松快捷的获取信息。例如,短短的几秒钟或者几十秒钟的多媒体就可以使人们了解一对象的大致情况。其中对象的大致情况可以为一件商品的性能或者一则新闻的内容或者一个地方的历史趣闻等,在利用收集到的文本数据为多个对象分别生成多媒体的过程中,往往需要先对收集到的文本数据进行一定的处理,然后,再使用处理后的文本数据为对象生成多媒体。
4.针对上述中的相关技术,发明人认为存在有数据处理与挖掘系统需要挖掘数据庞杂,耗费时间长,且效率较低,不能很好的满足用户。


技术实现要素:

5.为了改善数据处理与挖掘耗费时间长的问题,本技术提供一种标准化文本数据处理系统。
6.本技术提供的一种标准化文本数据处理系统采用如下的技术方案:
7.一种标准化文本数据处理系统,包括采集模块、主题筛选模块、需求筛选模块、质检模块、预警模块、输出模块;采集模块,用于采集互联网中至少一个信息源上发布的至少一个文本信息;主题筛选模块,用于将包含有需求主题的相关词语的文本信息作为目标文本;需求筛选模块,用于通过每个目标文本中的情感词语,确定该目标文本对于需求主题的需求方向;质检模块,用于对筛选的目标文本进行质检,确定目标文本中包含的不合法词汇;预警模块,用于对所述质检模块质检出的不合法文本进行预警,提示用户对应文本存在风险;输出模块,用于将筛选出来的文本输出反馈给用户。
8.可选的,所述质检模块内连接有记忆模块,使用前,设计人员可在记忆模块内录入一些不合法的词汇作为所述质检模块的质检基础。
9.可选的,所述输出模块上连接有反馈模块,且所述反馈模块与所述记忆模块连接,所述反馈模块可根据用户反应的不合法词汇录入所述记忆模块,所述反馈模块反馈的不合
法词汇也能作为所述质检模块的质检基础。
10.可选的,所述输出模块上连接有选择偏好模块,且所述选择偏好模块还与所述采集模块连接,所述输出模块输出若干文本后所述选择偏好模块对用户的选择进行记忆,所述选择偏好模块将用户的选择发送给采集模块,所述采集模块对用户的选择进行有方向的采集。
11.可选的,所述需求筛选模块与所述质检模块之间连接有分割模块,所述分割模块将所述需求筛选模块筛选出来的文本分割成若干词条,所述质检模块对所述分割模块分割的词条进行质检。
12.可选的,所述预警模块与所述输出模块之间连接有转换模块,所述转换模块将筛选出来的文本转换成标准化文本,所述输出模块对所述转换模块转换的标准化文本进行输出。
13.综上所述,本技术包括以下至少一种标准化文本数据处理系统有益技术效果:
14.运用中,用户输入一个搜索的关键词,采集模块采集互联网中多个信息源上发布的多个文本信息,然后主题筛选模块将包含有需求主题的相关词语的文本信息作为目标文本,之后需求筛选模块通过每个目标文本中的情感词语,确定该目标文本对于需求主题的需求方向,随后质检模块对筛选的目标文本进行质检,确定目标文本中包含的不合法词汇,预警模块对质检模块质检出的不合法文本进行预警,提示用户对应文本存在风险,输出模块将筛选出来的文本输出反馈给用户,有助于简化数据处理与挖掘系统需要挖掘的数据,减少耗费的时间,提升用户查找的效率,能够很好的满足用户需求。
附图说明
15.图1是本实施例主要体现一种标准化文本数据处理系统的流程图。
16.附图标记:1、采集模块;2、主题筛选模块;21、矩阵建立模块;22、特征词获取模块;23、第一匹配模块;24、主题筛选子模块;3、需求筛选模块;31、第二匹配模块;32、需求筛选子模块;33、类型识别模块;4、分割模块;5、质检模块;51、记忆模块;6、预警模块;7、转换模块;8、输出模块;81、反馈模块;82、审核模块;83、选择偏好模块。
具体实施方式
17.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例的附图,对本技术实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于所描述的本技术的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例,都属于本技术保护的范围。
18.除非另作定义,此处使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术专利申请说明书以及权利要求书中使用的“一个”或者“一”等类似词语,不表示数量限制,而是表示存在至少一个。
19.在本技术说明书和权利要求书的描述中,术语“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本技术的限制。
20.以下结合附图1对本技术作进一步详细说明。
21.本技术实施例公开一种标准化文本数据处理系统。
22.参照图1,一种标准化文本数据处理系统,包括采集模块1、主题筛选模块2、需求筛选模块3、质检模块5、预警模块6、输出模块8;使用时,用户输入几个关键词,然后采集模块1采集互联网中多个信息源上发布的多个文本信息,之后主题筛选模块2将包含有需求主题的相关词语的文本信息作为目标文本,目标文本筛选出来后,需求筛选模块3通过每个目标文本中的情感词语,确定该目标文本对于需求主题的需求方向,随后质检模块5对筛选的目标文本进行质检,确定目标文本中包含的不合法词汇,质检模块5检测出目标文本中的不合法词汇后,预警模块6对包含有不合法词汇的文本进行预警,提示用户对应文本存在风险,当用户排除存在风险的文本后,输出模块8将筛选出来的文本输出反馈给用户,简化数据处理与挖掘系统需要挖掘的数据,减少耗费的时间,提升用户查找的效率。
23.主题筛选模块2包括矩阵建立模块21、特征词获取模块22、第一匹配模块23和主题筛选子模块24。使用时,矩阵建立模块21,找出每个文本信息中多个关键词,构建文本信息关键词的分布矩阵,特征词获取模块22,通过卡方检验,确定每个文本信息的多个关键词中的特征词,获得每个文本信息的特征词集,第一匹配模块23,将需求主题的相关词语与每个文本信息的特征词集中的特征词进行匹配,主题筛选子模块24将特征词与需求主题的相关词语匹配成功的文本信息作为目标文本的主题筛选子模块24。
24.需求筛选模块3包括第二匹配模块31、需求筛选子模块32、类型识别模块33。
25.第二匹配模块31以需求词库中的每个需求词与每个所述目标文本在分布矩阵中的形容词词性的关键词进行匹配,需求筛选子模块32在匹配成功后,将该需求词对应的需求方向及需求程度作为该目标文本对于需求主题的需求方向。类型识别模块33,判断目标文本在分布矩阵中对应的关键词中是否具有反映需求类型的描述。
26.需求筛选模块3将文本选出后,一些文本中可能存在违反社会价值观的词汇,一些青少年可能只是抱着好奇的心理去搜索,当违反社会价值观的词汇与视频被青少年接收后,容易造成青少年心理的扭曲,通过质检模块5能够很好的对需求筛选模块3筛选出来的词汇进行质检,以保护青少年的心理健康。
27.质检模块5内连接有记忆模块51,使用前,设计人员可在记忆模块51内录入一些不合法的词汇、网站等作为质检模块5的质检基础,当需求筛选模块3筛选的文本含有记忆模块51所包含的词汇与网站时,质检模块5则进一步的对筛选出来的文本进行过滤。记忆模块51能够储存大量的不合法词汇与网站,随着使用时间与设计人员的录入,能够进一步的加强使用的安全性。
28.在使用的过程中,质检模块5质检的文本通常是一整篇文本,而文本中存在大量词汇的重合,一方面增加了质检模块5进行质检的时间,另一方面,延长了工作人员需要等待的时间。设计人员改进后,需求筛选模块3与质检模块5质检连接有分割模块4,分割模块4将需求筛选模块3筛选出来的文本进行分割,分割后原来的一篇文本变成几个简单的词汇,大大缩短了质检模块5的质检时间。
29.质检模块5将含有不合法的文本质检出来后,预警模块6对不合法的文本进行预警,以提升用户文本存在风险,以减少用户对此类文本的搜索。预警模块6对不合法的文本进行预警后,输出模块8将文本进行输出。
30.互联网上的一些文本样式多种多样,一些标准化的文本格式通常是一样的,只不过是里面的内容不一样,质检模块5只是将文本中一些不合法的文本筛选出来,而没有进行格式的统一,输出模块8若将多种同一类型不同格式的文本进行输出后,虽然用户也能看的懂,但是降低了用户观看效果,设计人员改进后,预警模块6与输出模块8之间连接有转换模块7,转换模块7能够将质检模块5质检后的文本转换成标准化的文本,大大提升了用户对文本的观看效果。
31.输出模块8上还连接有反馈模块81,现有记忆模块51中的一些不合法词汇是设计人员在使用前录入的,随着使用时间的增加,记忆模块51中的一些词汇与网站已经不能满足对需求筛选模块3筛选出来的文本进行质检。输出模块8输出文本,当用户发现文本中存在一些不合法的词汇后,用户可通过反馈模块81将不合法的词汇反馈给记忆模块51,记忆模块51对词汇进行记忆,通过反馈模块81记忆的词汇也能作为质检模块5质检的词汇,随着使用时间的增加,记忆模块51内的词汇也会越来越多,质检模块5的质检功能也会越来越强。
32.使用过程中,为防止用户误将一些合法的词汇误当成不合法词汇,反馈模块81与记忆模块51之间连接有审核模块82,审核模块82对反馈模块81反馈的词汇进行审核,只有审核模块82审核通过的词汇才能被记忆模块51录入,大大提升了质检模块5对需求筛选模块3筛选出来的文本质检的精确性。
33.输出模块8上连接有选择偏好模块83,质检模块5质检后,输出模块8会输出多个标准化文本,而当用户仅仅只需要一个标准化文本时,选择偏好模块83会记下每次用户选择的标准化文本类型,选择偏好模块83还与采集模块1连接,选择偏好模块83将用户每次选择的类型反馈给采集模块1,采集模块1则根据对应的词汇与类型进行采集,能够大大降低后续模块的工作压力与工作时间,实现用户能够快速的实现文本的收集。
34.本技术实施例一种标准化文本数据处理系统的实施原理为:使用前,设计人员在记忆模块51内录入一些不合法的词汇作为质检模块5的质检基础,使用时,采集模块1采集互联网中多个信息源上发布的多个文本信息,然后主题筛选模块2将包含有需求主题的相关词语的文本信息作为目标文本,之后需求筛选模块3通过每个目标文本中的情感词语,确定该目标文本对于需求主题的需求方向,随后分隔模块将文本分割成若干词汇,质检模块5对分割后的词汇进行质检,当分割后的词汇与记忆模块51内的词汇重合时,则预警模块6则显示文本存在风险,文本不含有不合法的词汇后,转换模块7将文本转换成标准化文本,最后通过输出模块8进行输出,当输出模块8输出的文本中还是纯在不合法的词汇后,用户通过反馈模块81反馈给审核模块82,审核模块82审核后记忆模块51对词汇进行记忆,选择偏好模块83记录用户的喜好文本反馈给采集模块1,采集模块1针对用户的喜好进行信息采集。
35.以上均为本技术的较佳实施例,并非依此限制本技术的保护范围,故:凡依本技术的结构、形状、原理所做的等效变化,均应涵盖于本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献