一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种词语定位及标注的方法和系统与流程

2022-02-24 13:11:55 来源:中国专利 TAG:


1.本发明涉及深度学习与自然语言处理领域,尤其一种词语定位及标注的方法和系统。


背景技术:

2.随着阅读小说、电子书类软件的不断出现,线上、电子版阅读成了生活中的潮流,纸质阅读,书籍逐渐的在年轻人群体中没落,但纸质阅读的好处就是:对自己喜欢的章节,内容可以通过书签,折纸、喜好的标签进行标注,将来翻阅时,方便快捷。
3.年轻人们喜欢便携式的移动终端,可以保存,随时随地阅读小说,但不能随时随地的根据自己喜好,标注,链接选择到对应的具体章节。


技术实现要素:

4.为解决上述的问题,本发明提供一种词语定位及标注的方法和系统,通过用户的自主关键词语检索,可以迅速找到对应的具体章节目录中。
5.本发明公开的一种词语定位及标注的方法,包括以下步骤:步骤1:对用户当前所需备注的的小说文本文本页面进行定位,获取已知页面的文本图片。
6.步骤2:剪裁已经定位的文本图片,获取用户所需的关键词语,所述关键词语至少包含1个汉字或1个数字或1个字母。
7.步骤3:针对所述关键词语的图片进行识别,获取所述图片的字符串类型。
8.步骤4:对所述字符串类型进行语种识别和词性标注。
9.步骤5:通过标注的关键词语可以检索出所有包含该词语的页面。
10.进一步的,本发明提供一种词语定位及标注的系统,所述系统包括:定位模块:对用户当前所需备注的的小说文本文本页面进行定位,获取已知页面的文本图片。
11.剪裁模块:剪裁已经定位的文本图片,获取用户所需的关键词语,所述关键词语至少包含1个汉字或1个数字或1个字母。
12.识别模块:针对所述关键词语的图片进行识别,获取所述图片的字符串类型。
13.标注模块:对所述字符串类型进行语种识别和词性标注。
14.检索模块:通过标注的关键词语可以检索出所有包含该词语的页面。
15.本发明主要解决:当代青年人阅读pdf、jpg以及不可编辑、标注的电子书,小说,不能随时找到目标页面、以及内容的缺陷,通过用户第一次阅读过程中,对关键词语和喜好词语进行标注标记,当第二次、第三次阅读说,除了顺序阅读之外,还可以依据自己的喜好,随时跳转到标记过的页面,标注的内容,相当于电子标签的作用。实现了阅读电子书,享有纸质版书籍阅读的方便。
附图说明
16.图1示出了本发明的一种词语定位及标注方法流程图。
17.图2示出了本发明的一种词语定位及标注系统流程图。
具体实施方式
18.为了实现上述功能,本发明提供一种词语定位及标注方法和系统,其中,主要通过ocr提取文本图片中的文字。
19.参照图1,本发明提供一种词语定位及标注的方法,所述包括以下步骤:步骤1:对用户当前所需备注的的小说文本文本页面进行定位,获取已知页面的文本图片。
20.步骤2:剪裁已经定位的文本图片,获取用户所需的关键词语,所述关键词语至少包含1个汉字或1个数字或1个字母。
21.步骤3:针对所述关键词语的图片进行识别,获取所述图片的字符串类型。
22.步骤4:对所述字符串类型进行语种识别和词性标注。
23.步骤5:通过标注的关键词语可以检索出所有包含该词语的页面。
24.参照图2,本发明提供一种词语定位及标注的系统,所述系统包括:定位模块:对用户当前所需备注的的小说文本文本页面进行定位,获取已知页面的文本图片。
25.剪裁模块:剪裁已经定位的文本图片,获取用户所需的关键词语,所述关键词语至少包含1个汉字或1个数字或1个字母。
26.识别模块:针对所述关键词语的图片进行识别,获取所述图片的字符串类型。
27.标注模块:对所述字符串类型进行语种识别和词性标注。
28.检索模块:通过标注的关键词语可以检索出所有包含该词语的页面。
29.本领域技术人员在考虑说明书及实践这里的公开发明后,将容易想到本发明的其他实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
30.对于上述的实施例仅表达本发明的几种实施方式,其描述较为具体和详细,但不能因此而理解为本发明专利范围的限制,应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些都属于本发明的保护范围。


技术特征:
1.一种词语定位及标注的方法,所述方法包括以下步骤:步骤1:对用户当前所需备注的的小说文本文本页面进行定位,获取已知页面的文本图片;步骤2:剪裁已经定位的文本图片,获取用户所需的关键词语,所述关键词语至少包含1个汉字或1个数字或1个字母;步骤3:针对所述关键词语的图片进行识别,获取所述图片的字符串类型;步骤4:对所述字符串类型进行语种识别和词性标注;步骤5:通过标注的关键词语可以检索出所有包含该词语的页面。2.一种词语定位及标注的系统,所述系统包括:定位模块:对用户当前所需备注的的小说文本文本页面进行定位,获取已知页面的文本图片;剪裁模块:剪裁已经定位的文本图片,获取用户所需的关键词语,所述关键词语至少包含1个汉字或1个数字或1个字母;识别模块:针对所述关键词语的图片进行识别,获取所述图片的字符串类型;标注模块:对所述字符串类型进行语种识别和词性标注;检索模块:通过标注的关键词语可以检索出所有包含该词语的页面。

技术总结
本发明提供的一种词语定位及标注的方法和系统,可以对电子书界面进行定位,标注,备注,用户可以随时通过关键词语,跳转找到对应的页面内容,在电子书等不能编辑检索的情况下,更快的找到用户所需内容,实现了电子书书签的功能,方便用户使用阅读电子书,快捷方便。快捷方便。快捷方便。


技术研发人员:邓裕强 朱志
受保护的技术使用者:广州市久邦数码科技有限公司
技术研发日:2020.08.12
技术公布日:2022/2/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献