一种中文阅读智能分级系统及其实现方法、实现装置与流程

2022-02-25 20:14:58 来源：中国专利 TAG：

1.本发明涉及人工智能与自然语言处理相结合的技术领域，尤其是涉及一种中文阅读智能分级系统及其实现方法、实现装置。

背景技术：

2.目前，阅读分级主要是基于人工提取特征作为指标，比较依赖于传统的文学分析领域的成果，如美国的蓝思(lexile)分级系统。这些研究方法主要通过提取单词的长度、单词音节数量、单词在日常生活中的频率等信息作为难度的评价标准。其中，专门针对中文的文本分级系统也采用类似的思路，人工构建了文本级别、词语级别和单字级别的特征属性，通过对这些特征进行计算得出文本的分级。
3.现有的技术不足之处在于：标准的设立依靠经验和人工，需要不停的验证和更新。很多针对英文的指标也不适合中文阅读需求，特征选取无法保证对文本最好的评价，需要不停的尝试特征及其组合。

技术实现要素：

4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种中文阅读智能分级系统及其实现方法、实现装置。
5.本发明的目的可以通过以下技术方案来实现：
6.一种中文阅读智能分级系统的实现方法，该方法包括如下步骤：
7.s1、获取待训练的文本和测试文本；
8.s2、对训练文本和测试文本分别进行级别标记；
9.s3、将待训练的文本和测试文本转化为采用数学向量表示的数据；
10.s4、构建用于智能分级的神经网络模型，采用待训练的文本的数学向量表示的数据进行模型训练；
11.s5、将测试文本的数学向量表示的数据输入至神经网络模型进行测试，根据测试结果调整神经网络模型获得最优神经网络模型参数。
12.优选地，步骤s1具体为：
13.整合不同来源的文本信息，形成一个文本的语料库；
14.从语料库中选取文本作为待训练的文本和测试文本。
15.优选地，整合不同来源的文本信息时，若来源为计算机可读取的文字信息则直接以文字形式存储为相应文本，其他形式来源的文本信息则通过光学字符识别系统提取其中的文字信息并存储为相应文本。
16.优选地，步骤s2采用人工标注的方式进行级别标记。
17.优选地，步骤s3采用词嵌入方法将文本转化为采用数学向量表示的数据。
18.优选地，步骤s4模型训练过程具体为：
19.确定描述模型误差的误差函数；
20.将待训练的文本的数学向量表示的数据输入至神经网络模型，根据误差函数调整神经网络模型的结构和参数直至误差函数值小于设定阈值。
21.优选地，步骤s5模型测试过程具体为：
22.将测试文本的数学向量表示的数据输入至神经网络模型，基于神经网络模型预测得到文本级别；
23.将预测结果与标记的文本级别进行比对，确定预测评分；
24.对不同测试文本的预测评分进行统计，若预测评分未达到设定标准，则将测试文本作为待训练的文本输入至神经网络模型再次进行训练。
25.优选地，预测评分通过下式获得：
[0026][0027]
其中，point为预测评分，x为标记的文本级别，l为标记的文本级别下限，h为标记的文本级别上限，g为预测得到的文本级别。
[0028]
一种中文阅读智能分级系统的实现装置，该装置包括存储器和处理器，所述的存储器存储有计算机程序，所述的处理器在执行所述的计算机程序时完成所述的方法。
[0029]
一种中文阅读智能分级系统，该系统包括用于智能分级的神经网络模型，所述的神经网络模型采用所述的方法训练并优化得到。
[0030]
与现有技术相比，本发明具有如下优点：
[0031]
本发明构建基于神经网络技术的中文阅读智能分级系统，对文本进行自动分级，无需依赖经验和人工，降低人力成本，同时分级精度高，适用于中文阅读分级。
附图说明
[0032]
图1为本发明一种中文阅读智能分级系统的实现方法的流程框图。
具体实施方式
[0033]
下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。
[0034]
实施例
[0035]
如图1所示，一种中文阅读智能分级系统的实现方法，该方法包括如下步骤：
[0036]
s1、获取待训练的文本和测试文本；
[0037]
s2、对训练文本和测试文本分别进行级别标记；
[0038]
s3、将待训练的文本和测试文本转化为采用数学向量表示的数据；
[0039]
s4、构建用于智能分级的神经网络模型，采用待训练的文本的数学向量表示的数据进行模型训练；
[0040]
s5、将测试文本的数学向量表示的数据输入至神经网络模型进行测试，根据测试结果调整神经网络模型获得最优神经网络模型参数。
[0041]
步骤s1具体为：
[0042]
整合不同来源的文本信息，形成一个文本的语料库；
[0043]
从语料库中选取文本作为待训练的文本和测试文本。
[0044]
整合不同来源的文本信息，其来源是日常生活中常用的书籍内容、报刊、报纸、教科书等网络信息和出版物，对不同来源的文本信息进行整合时，若来源为计算机可读取的文字信息则直接以文字形式存储为相应文本，其他形式来源的文本信息则通过光学字符识别系统提取其中的文字信息并存储为相应文本。
[0045]
步骤s2采用人工标注的方式进行级别标记，其中，教科书收录的文章采用标注为对应年级的等级；来源于出版社的书籍，经过长期经验证明适合对应年级，标注为对应年级；没有明确等级信息的文本则根据多名一线教师的教学经验，商讨得到对应分级等级。
[0046]
步骤s3采用词嵌入方法将文本转化为采用数学向量表示的数据。词嵌入(word embedding)是文本的向量化表示的一种形式，是针对文本学习的一种数据处理方法，它可以将维度等于所以可能词语的高维空间嵌入到维度较低的连续向量空间中，每个字或者词以向量形式表达。词嵌入后的词语向量间的距离可以体现词语本身的相似度和相关性。
[0047]
神经网络是一种模仿生物神经结构的一种数学模型，通过计算机数据结构实现该模型，用于对函数进行计算或者估计。神经网络特点之一是可以通过外部数据逐步改进内部的连接结构，可以优化自身结构得到一个更加适合的模型。
[0048]
步骤s4模型训练过程具体为：
[0049]
确定描述模型误差的误差函数；
[0050]
将待训练的文本的数学向量表示的数据输入至神经网络模型，根据误差函数调整神经网络模型的结构和参数直至误差函数值小于设定阈值。
[0051]
步骤s5模型测试过程具体为：
[0052]
将测试文本的数学向量表示的数据输入至神经网络模型，基于神经网络模型预测得到文本级别；
[0053]
将预测结果与标记的文本级别进行比对，确定预测评分；
[0054]
对不同测试文本的预测评分进行统计，若预测评分未达到设定标准，则将测试文本作为待训练的文本输入至神经网络模型再次进行训练。
[0055]
预测评分通过下式获得：
[0056][0057]
其中，point为预测评分，x为标记的文本级别，l为标记的文本级别下限，h为标记的文本级别上限，g为预测得到的文本级别。
[0058]
一种中文阅读智能分级系统的实现装置，该装置包括存储器和处理器，存储器存储有计算机程序，处理器在执行计算机程序时完成方法。
[0059]
一种中文阅读智能分级系统，该系统包括用于智能分级的神经网络模型，神经网络模型采用方法训练并优化得到。
[0060]
文本分级是本质上是与文本可读性与读者能力匹配的问题。文本可读性(readability)反映了读者理解文本内容的难易程度，这种难易程度与读者水平相关联。例如，针对学生教育，学生的知识增加有一个明显的曲线，从认字到理解长篇论述是一个渐进的过程。文本的可读性可以变相地以文本的分级代替，成为一种可以有效量化的指标，具有较高的普适性。
[0061]
上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图形处理器和图形处理器中执行后处理的方法与流程

一种中文阅读智能分级系统及其实现方法、实现装置与流程

相关文献

最热文献