一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于NLP技术的单词频率排序及词汇表分析的方法与流程

2022-06-11 11:45:12 来源:中国专利 TAG:
一种基于nlp技术的单词频率排序及词汇表分析的方法
技术领域
1.本发明涉及语言学习技术领域,具体为一种基于nlp技术的单词频率排序及词汇表分析的方法。


背景技术:

2.随着机器学习及自然语言处理技术的发展,一些具备翻译、发音、阅读等功能的软件工具普遍出现,可有效帮助理解外语文章和词句。然而,即便是当前的智能时代,基本的“词典”工具还是必备的,利用自然语言处理技术可以让词典类产品更“智能”,帮助语言学习者高效学习和掌握大量重点词汇。
3.传统纸质词典按照“字母排序”查单词,但是使用者有两个困境:
4.(1)查单词的时候,查到的单词不知其重要性,是否值得花精力记忆学习;
5.(2)背单词时候一般是从a开始背起,然而按照这样字母排序,会有大量的“生僻词”夹杂其中耗费精力。
6.而现在的软件词典利用搜索技术,无需再借助于字母排序,但是使用者依旧有以下困境:
7.(1)查到单词不知重要性;
8.(2)背词典不能“按图索骥”;
9.(3)独立的各种高频单词表也不具备客观指标,是与词典孤立的单词表。
10.因此,以上传统产品方法并没有充分利用技术来数据化和自动化的解决学词典、背词典的效率问题。


技术实现要素:

11.本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于nlp技术的单词频率排序及词汇表分析的方法。
12.为实现上述目的,本发明提供如下技术方案:
13.一种基于nlp技术的单词频率排序及词汇表分析的方法,包括:
14.收集语料库数据集;
15.清洗数据、格式化数据、统计数据中的词汇,以频率为参数,利用排序算法,得到单词频率排序信息;
16.利用nlp技术进行单词聚类分析,分析单词类别属性,构建过滤工具;
17.利用机器学习方法和nlp技术训练数据集,得到单词向量模型,利用单词向量模型实时的分析计算所有单词的关联单词及语境词汇表。
18.作为本发明进一步的方案:所述语料库数据来源于网页数据、书籍词汇、新闻数据、知识库数据。
19.作为本发明进一步的方案:所述单词类别属性包括单词词干、变形、简写、感情色彩、口语、书面语。
20.作为本发明进一步的方案:所述单词的关联单词包括近邻词汇、近似词汇、反义词汇。
21.与现有技术相比,本发明提供了一种基于nlp技术的单词频率排序及词汇表分析的方法,具备以下有益效果:
22.本方案利用nlp(自然语言处理)技术,通过机器学习来训练、提炼大规模数据集语料库生成词典的单词频率排序、单词聚类、语境词汇表等,以此构建词典的创新功能,来帮助学习者提高学习效率,解决使用者背词典效率和目标问题,帮助使用者掌握大量相关词汇。
具体实施方式
23.下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.一种基于nlp技术的单词频率排序及词汇表分析的方法,包括:
25.一、收集语料库数据集;
26.二、清洗数据、格式化数据、统计数据中的词汇,以频率为参数,利用排序算法,得到单词频率排序信息,通过“频率排序”功能,可帮助学习者有重点有方向的掌握大量词汇,不必浪费精力在频率排序极其低的生僻词上,同时显示单词频率排位,可有效告知学习者该单词的重要性;
27.三、利用nlp技术进行单词聚类分析,分析单词类别属性,构建过滤工具,使用者可按照单词类别属性过滤不关心的的单词;
28.四、利用机器学习方法和nlp(自然语言处理)技术训练数据集,得到单词向量模型,利用单词的向量模型实时的分析计算所有单词的关联单词及语境词汇表,单词向量模型”技术,可计算某一单词的具体“使用环境”下其他关联单词,形成“语境词汇表”而不是仅仅的同义词、反义词等直接关联。通过“语境词汇表”学习,可迅速提高此语境下的英语水平,如,查询单词“proportion比例”时候会生成“语境词汇表”包含以下单词:statistics统计、percentage百分比、pie-chart饼状图等;通过学习此词汇表,可迅速提高学习者“统计图表”类语境下的语言能力。
29.进一步的,语料库数据来源于网页数据、书籍词汇、新闻数据、知识库数据。
30.进一步的,单词类别属性包括单词词干、变形、简写、感情色彩、口语、书面语。
31.进一步的,单词的关联单词包括近邻词汇、近似词汇、反义词汇。
32.综上所述,本方案具备以下优点:
33.(1)词典单词按照词汇频率排序,使用者可有优先级的、高效的背单词、背词典,解决使用者背词典效率和目标问题;
34.(2)查询单词具备“频率”信息,使用者可查询到某一单词的频率、重要性,解决使用对单词是否重要的疑惑;
35.(3)单词聚类,使用者可按照单词类别属性过滤不关心的的单词;
36.(4)语境词汇表,帮助使用者掌握大量相关词汇。
37.以上所述,仅为本发明较佳的具体实施方式;但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其改进构思加以等同替换或改变,都应涵盖在本发明的保护范围内。


技术特征:
1.一种基于nlp技术的单词频率排序及词汇表分析的方法,其特征在于:包括:收集语料库数据集;清洗数据、格式化数据、统计数据中的词汇,以频率为参数,利用排序算法,得到单词频率排序信息;利用nlp技术进行单词聚类分析,分析单词类别属性,构建过滤工具;利用机器学习方法和nlp技术训练数据集,得到单词向量模型,利用单词向量模型实时的分析计算所有单词的关联单词及语境词汇表。2.根据权利要求1所述的一种基于nlp技术的单词频率排序及词汇表分析的方法,其特征在于:所述语料库数据来源于网页数据、书籍词汇、新闻数据、知识库数据。3.根据权利要求1所述的一种基于nlp技术的单词频率排序及词汇表分析的方法,其特征在于:所述单词类别属性包括单词词干、变形、简写、感情色彩、口语、书面语。4.根据权利要求1所述的一种基于nlp技术的单词频率排序及词汇表分析的方法,其特征在于:所述单词的关联单词包括近邻词汇、近似词汇、反义词汇。

技术总结
本发明属于语言学习技术领域,公开了一种基于NLP技术的单词频率排序及词汇表分析的方法,包括:收集语料库数据集;清洗数据、格式化数据、统计数据中的词汇,以频率为参数,利用排序算法,得到单词频率排序信息;利用NLP技术进行单词聚类分析,分析单词类别属性,构建过滤工具;利用机器学习方法和NLP技术训练数据集,得到单词向量模型,利用单词向量模型实时的分析计算所有单词的关联单词及语境词汇表。本方案利用NLP技术,通过机器学习来训练、提炼大规模数据集语料库生成词典的单词频率排序、单词聚类、语境词汇表等,以此构建词典的创新功能,来帮助学习者提高学习效率,解决使用者背词典效率和目标问题,帮助使用者掌握大量相关词汇。汇。


技术研发人员:丁峰
受保护的技术使用者:杭州网看科技有限公司
技术研发日:2022.03.09
技术公布日:2022/6/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献