一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于知识库的官文校对方法、系统、设备及存储介质与流程

2022-11-30 21:53:51 来源:中国专利 TAG:

1.本发明涉及文本校对技术领域,尤其涉及一种基于知识库的官文校对方法、系统、设备及存储介质。


背景技术:

2.发言人在正式发言前,通常会预先撰写官方文稿,以便于发言人依照官方文稿进行演讲。为了确保官方发言更加准确,需要对文稿进行校对,识别并纠正文稿中的不合规内容。但是,现有的文稿校对通常只是对文稿中的错别字进行识别,其校对过程过于简单;且现阶段互联网语言逐渐兴起,再加上网络用语的真实含义与其字面含义存在较大差异,若撰稿人无意中在官方文稿里使用了网络用语,导致文稿内容出现偏差,该情况通过现有的文本校对软件无法识别,无法确保文稿精准度。


技术实现要素:

3.为了克服现有技术的不足,本发明的目的之一在于提供一种基于知识库的官文校对方法,可提高文稿校对的精准度。
4.本发明的目的之二在于提供一种基于知识库的官文校对系统。
5.本发明的目的之三在于提供一种电子设备。
6.本发明的目的之四在于提供一种计算机可读存储介质。
7.本发明的目的之一采用如下技术方案实现:一种基于知识库的官文校对方法,包括:获取实时网络数据,分析所述实时网络数据的热度情况确定网络用语,并构建或更新网络用语知识库;获取目标文本,对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据所述关键词句与所述网络用语知识库中的网络用语的比对相似度触发对应的用词提醒。
8.进一步地,所述实时网络数据包括从目标地址中获取热度达标的网络视频;所述热度为在统计时间段内用户群体对网络视频或网络文本的喜好程度;所述目标地址根据用户设定进行自定义设置。
9.进一步地,确定所述网络用语的方法为:获取所述网络视频的流量数据,并结合视频时长计算出所述网络视频的平均流量值;调取出所述网络视频中流量值高于所述平均流量值的视频帧数,解析该视频帧数的音频内容获得其所包含的热度词句,并将其作为一级网络用语存储于所述网络用语知识库中。
10.进一步地,获取所述网络视频的流量数据时,还包括:调取出所述网络视频中流量值低于所述平均流量值,且与所述平均流量值之间的
流量差值在设定范围内的视频帧数,解析该视频帧数的音频内容获得其所包含的热度词句,并将其作为二级网络用语存储于所述网络用语知识库中。
11.进一步地,所述实时网络数据还包括由目标网站统计的网络用语,直接获取所述目标网站的网络用语并将其存储于所述网络用语知识库中。
12.进一步地,获取所述网络视频的流量数据时,还包括:计算所述网络用语知识库中每个网络用语的使用频率,并获取所述网络视频的发布时间,根据所述发布时间为所述网络用语知识库中每个网络用语进行加权以计算所述网络用语知识库中每个网络用语的词热度;当任一网络用语的词热度低于热度阈值则将其标记为三级网络用语。
13.进一步地,将所述关键词句与所述网络用语知识库进行比对的方法为:将所述关键词句分别与所述网络用语知识库中的所述一级网络用语、所述二级网络用语以及所述三级网络用语进行比对,若所述关键词句与任一网络用语的比对相似度高于预设阈值,则根据该网络用语的等级触发对应等级的用词提醒,并推送该网络用语所对应的来源信息。
14.本发明的目的之二采用如下技术方案实现:一种基于知识库的官文校对系统,执行如上述的基于知识库的官文校对方法,所述系统包括:网络服务器,用于获取实时网络数据,分析所述实时网络数据的热度情况确定网络用语,并构建或更新网络用语知识库;校对服务器,用于获取目标文本,对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据比对结果触发对应的用词提醒。
15.本发明的目的之三采用如下技术方案实现:一种电子设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于知识库的官文校对方法。
16.本发明的目的之四采用如下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的基于知识库的官文校对方法。
17.相比现有技术,本发明的有益效果在于:本发明可实时更新网络用语知识库,将官方文稿中的关键词句与网络用语知识库进行比对,识别出官方文稿中是否存在网络用语,在系统的用词提醒下校对人可准确地对官方文稿进行校对,提高官方文稿的准确性。
附图说明
18.图1为本发明基于知识库的官文校对方法的流程示意图。
具体实施方式
19.下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不
相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
20.实施例一本实施例提供一种基于知识库的官文校对方法,该方法主要将官方文稿中所使用的网络用语识别出来,让校对人员可根据用词提醒对官方文稿进行校对以提高官方文稿的准确性。
21.如图1所示,所述官文校对方法具体包括如下步骤:步骤s1:获取实时网络数据,分析所述实时网络数据的热度情况确定网络用语,并构建或更新网络用语知识库;步骤s2:获取目标文本,对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据所述关键词句与所述网络用语知识库中的网络用语的比对相似度触发对应的用词提醒。
22.在进行文稿校对前,需要利用网络服务器预先构建网络用语知识库,所述网络用语知识库用于存储当下网络热度高、流量大的网络用语;所述网络服务器通过互联网从目标地址中获取实时网络数据,所述目标地址可通过自定义方式进行编辑,可增加、减少或修改网络地址,从而从指定的网络地址中获取网络数据。
23.所述网络服务器可以按照预设的时间间隔从目标地址中获取网络数据,也可以当目标地址更新数据或产生新的数据时,则可主动触发所述网络服务器从目标地址中获取新的网络数据,确保网络数据的实时性。
24.其中,从目标地址获取的网络数据的数据类型可以是网络视频,也可以是网络文本。所述网络服务器获取网络视频后,还需判断网络视频的热度是否达标,所述热度为在统计时间段内用户群体对网络视频的喜好程度,其喜好程度可以通过网络视频的整体观看流量来确定,即判断网络视频的整体观看流量值是否超过第一阈值,若超过,则代表该网络视频的热度相对较高,此时则可将该网络视频作为网络用语分析依据;若网络视频的观看流量值未超过第一阈值,则该网络视频热度相对较低,则将其过滤掉。
25.同时,所述网络服务器从目标地址中获取所述网络视频的流量数据,该流量数据指的是用户群体对网络视频中的每帧画面/连续若干帧画面所对应的喜好程度,该喜好程度可以通过视频弹幕数量、热点记录数量等方式进行统计从而获得网络视频中每帧画面或连续若干帧画面的流量值。例如,当网络视频中连续若干帧画面的弹幕数量相对其他帧更多,则代表该连续若干帧画面的流量值越高,其对应的热度也相对越高。
26.此外,还可在网络视频所在界面中设置喜好插件,用户在观看网络视频时若遇到搞笑、或特别喜欢的片段时,用户则可触发喜好插件从而对当前片段进行热点记录;若网络视频中某片段的热点记录数量越多,则代表该片段的热度越高,流量越大。
27.所述网络服务器获取网络视频的流量数据后,并结合视频时长计算出所述网络视频的平均流量值;查找出所述网络视频中流量值高于所述平均流量值的视频帧数,获取该视频帧数所对应的音频内容,将音频内容转换为文字并对其进行词性筛选从而获得其所包含的热度词句;其中筛选规则可预先进行自定义设置;将筛选后的热度词句标记为一级网络用语存储于所述网络用语知识库中。
28.将目标地址中所有热度达标的网络视频进行上述解析后,每个网络视频分析所得
的网络用语都记录在所述网络用语知识库中,并对知识库中每个网络用语的出现频率进行记录;若网络用语知识库中有多个相似度极高的网络用语,则将相似度极高的网络用语归类为同一网络用语,并将相似度极高的网络用语的出现频率进行汇总。知识库的管理人员也可根据实际情况手动将已经归为一类的网络用语进行拆分。
29.本实施例中除了对热度高、流量大的网络用语进行记录外,还可预判未来的网络用语,即调取出所述网络视频中流量值低于所述平均流量值,且与所述平均流量值之间的流量差值在设定范围内的视频帧数,该视频帧数中所播放的内容依然属于热度视频中的内容,虽然当前热度并没有特别高,但是其所记录的内容仍会被大众所知悉,其也有可能在未来发展成网络用语,因此,解析该视频帧数的音频内容获得其所包含的热度词句,并将其作为二级网络用语存储于所述网络用语知识库中。
30.在所述网络用语知识库中,一级网络用语属于当前热度高、流量大的网络用语,而二级网络用语的热度和流量会比一级网络用语低,但其未来依然可能被大众所知悉,因此,也将其作为二级网络用语写入至网络用语知识库中。系统每从一个网络视频中识别出一级网络用语以及二级网络用语后,网络用语知识库记录记录每个网络用语的写入次数,并计算所述网络用语知识库中每个网络用语的使用频率;在所述网络用语知识库中,相同或相似的网络用语会合并,合并后该网络用语的使用频率也会相应增加。
31.同时,网络用语写入网路用语知识库时,记录每个网络用语的热度时间,该热度时间是其网络用语对应的网络视频的发布时间;例如网络视频发布时间为2020年的5月份,则该网络视频中识别出来的网络用语的热度时间则为2020年5月份。若多个时间不同的网络视频都识别出同一个网络用语,则以最新的网路视频的发布时间作为该网络用语的热度时间。
32.所述网络服务器根据网络用语的热度时间为所述网络用语知识库中每个网络用语进行加权,再结合网络用语的使用频率以计算所述网络用语知识库中每个网络用语的词热度;若网络用语a的使用频率高,且对应的权值大,则该网络用语a的词热度最高;若网络用语b的使用频率高,但其权值小,则网络用语b的词热度会比网络用语a低;若网络用语c的使用频率低,其权值也小,则网络用语c的词热度则最小。本实施例结合网络用语在互联网上的流通时间以及使用频率计算并更新网路用语的热度情况,从而让网络用语知识库中所记录的网络用语流动起来,与当前互联网所流行的网络用语尽量匹配。
33.当所述网络用语知识库中存在任一网络用语的词热度低于热度阈值,则说明该网络用语曾经流行过,但是目前该网路用语的热度已经不高,则将其标记为三级网络用语并存储在所述网络用语知识库。
34.所述网络用语知识库中记录的网络用语除了可通过上述网络视频中识别出来,还可在互联网中直接下载;即所述网络服务器可从指定的目标网站中获取网络文本,网络文本的内容记录有该目标网络已经统计好的网络用语,直接获取所述目标网站的网络用语并将其存储于所述网络用语知识库中。此外,还可通过手动导入的方式将自行收集的网络用语导入知识库中,以扩充知识库的词语数量。当网络文本或自行导入的网络用语与网络视频识别获得的网络用语重复,则可增加该网络用语的词热度;若网络文本或自行导入的网络用语与网络视频识别获得的网络用语发生冲突,知识库的管理人员也可手动对知识库中的网络用语进行编辑。同时,网络用语知识库中的网络用语还会标记有词语来源,其来源可
以是网络视频、网络文本或自行导入。
35.网络用语知识库通过上述方式构建和更新后,即可对官方文本进行校正,从而识别出官方文本是否使用网络用语。通过校对服务器获取目标文本,该目标文本则是导入或下载的官方文本;对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据比对结果触发对应的用词提醒。其中词句划分的方法可通过现有技术的自然语言处理的分词分句规则进行,其在现有技术中已经公开,在此不再详细描述。
36.将划分后的关键词句与所述网络用语知识库进行比对,即将所述关键词句分别与所述网络用语知识库中的所述一级网络用语、所述二级网络用语以及所述三级网络用语进行比对,若所述关键词句与任一级别的任一网络用语的比对相似度高于预设阈值,则根据该网络用语的等级触发对应等级的用词提醒,并推送该网络用语所对应的来源信息。若官方文本中一关键词句与网络用语知识库中的一个一级网络用语的相似度高于预设阈值,则为官方文本中该关键词句生成一级用词提醒;若官方文本中另一关键词句与网络用语知识库中的一个二级网络用语的相似度高于预设阈值,则为官方文本中该关键词句生成二级用词提醒。而不同等级的用词提醒对应的提醒方式不同,一级用词提醒的关键词句标记为红色;二级用词提醒的关键词句标记为黄色;三级用词提醒的关键词句标记为绿色。
37.与此同时,生成用词提醒的同时可通过弹簧方式或在指定界面区域内显示该网络用语的来源信息,即将该网络用语来源于网络视频、网络文本还是自行导入方式;其来源信息还可显示该网络用语的真实含义以及该网络用语的应用场景,其真实含义以及场景应用的信息可通过互联网搜索后存储在网络用语知识库中,使得所述网络用语知识库可在离线状态下使用。
38.实施例二本实施例提供一种基于知识库的官文校对系统,执行如实施例一所述的基于知识库的官文校对方法,所述系统包括有网络服务器以及与所述网络服务器相连接的校对服务器;所述网络服务器用于获取实时网络数据,分析所述实时网络数据的热度情况确定网络用语,并构建或更新网络用语知识库;所述校对服务器通过输入设备录入目标文本,对所述目标文本进行关键词句划分,遍历每个划分后的关键词句并将其与所述网络用语知识库进行比对,根据比对结果触发对应的用词提醒。
39.本实施例可实时更新网络用语知识库,将官方文稿中的关键词句与网络用语知识库进行比对,识别出官方文稿中是否存在网络用语,在系统的用词提醒下校对人可准确地对官方文稿进行校对,提高官方文稿的准确性。
40.在一些实施例中,还提供一种电子设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例一中的基于知识库的官文校对方法;另外,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的基于知识库的官文校对方法。
41.本实施例中的系统、设备及存储介质与前述实施例中的方法是基于同一发明构思下的多个方面,在前面已经对方法实施过程作了详细的描述,所以本领域技术人员可根据
前述描述清楚地了解本实施例中的系统、设备及存储介质的结构及实施过程,为了说明书的简洁,在此就不再赘述。
42.上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献