一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

融合文本分布律特征的中文文本可读性评价方法及系统与流程

2022-02-20 16:20:34 来源:中国专利 TAG:


1.本发明涉及中文信息处理技术领域,特别涉及一种融合文本分布律特征的中文文本可读性评价方法及系统。


背景技术:

2.阅读是获取信息的重要途经,培养阅读能力是语言学习的重要方面。对于语言学习者,应进行分级阅读,即:阅读与学习者理解能力相匹配的、难度适宜的文本材料。这有利于保持阅读兴趣,在培养阅读习惯的同时,发展阅读能力。
3.文本可读性是一种定量评价文本材料阅读难度的方法,李绍山(易读性研究综述[j].解放军外国语学院学报,2000)认为可读性,又称易读性或易懂性,是指文本易于阅读和理解的程度或性质,是文本的重要属性。研究文本可读性评价方法,对分级阅读、教材编写等应用具有重要意义。
[0004]
中文文本可读性的预测方法有基于可读性公式的预测方法、基于语言模型的预测方法、基于传统机器学习模型的预测方法和基于深度神经网络的预测方法等。其中,可读性公式方法和传统机器学习模型都需要依赖文本特征。
[0005]
文本可读性公式被认为是预测文本可读性等级的一种方式,可以客观评价文本的可读性。王蕾(初中级日韩留学生文本可读性公式初探[d].北京语言大学硕士研究生学位论文,2005)认为可读性公式是将所有影响阅读难度的、可以量化的因素(特别是文本因素)综合起来,制定的一个评价文本难易程度的公式。hiebert等(standards,assessments,and text difficulty in a.e. farstrup&s.j.samules(eds.).what research has to say about reading instruction[j]. newark,de:international reading association,2002)表示20世纪70年代起,美国教育体系中就开始使用可读性公式对教材进行评估、定级,至今所有领域的教材,都要求与一定的可读性公式的语义和句法参数相匹配。
[0006]
在形式上,可读性公式预测方法可表示为g=f(x),其中g为可读性等级,x为文本特征向量,f为公式内容,一般为线性函数,研究者在确定特征向量后,由训练文本拟合得到线性函数的各常数项,进而生成可读性公式。表1列举了部分中文可读性公式。
[0007]
表1中文可读性公式总结
[0008][0009]
表1中,gl是可读性分数,wd是词数,sent是句子数,ease指熟悉词数(一般根据分级词表计算难度较低的词的数量),stroke指字均笔画数,hard指难词比例(一般根据分级词表计算难度较高的词的占比),syll/sent指句均字数, wd/sent指句子平均词数,syll/wd指每个词的平均字数,x_2指字形复杂度,x_3 指词形复杂度,func指虚词数,splitsent指分句数,ease/wd指熟悉词数占比(一般根据分级词表计算难度较低的词的数量的比例),length指语料库中最大wd 减去最小wd。
[0010]
基于传统机器学习的预测方法,在特征选择后,将文本特征值输入机器学习模型,运用已有机器学习模型进行学习,从而对可读性等级进行预测。
[0011]
吴思远等(汉语文本可读性特征体系构建和效度验证[j].世界汉语教学第 34期2020年第1期,2020)对小学到高中12个年级语文教材进行句子级五分类预测,支持向量机模型准确率最高,达到0.638。jiang等(graw :atwo
‑ꢀ
view graph propagation method with word coupling for readabilityassessment."journal of the association for information science and technology 70.5 (2019):433-447)利用graw 模型进行中文小学语文教材句子级六分类预测,准确率为0.54。程勇等(基于多元特征的文本阅读难度自
动分级研究[j].数据分析与知识发现.2019年07期)运用多元特征融合的方法,对初、高中语文教材进行篇章级二分类预测,逻辑回归模型准确率最高,达到0.88。孙刚(基于线性回归的中文文本可读性预测方法研究[d].南京大学研究生毕业论文,2015) 利用对数线性回归模型进行小学语文教材篇章级六分类,准确率为0.46。在使用小学语文教材数据集进行可读性预测的研究中,句子级文本可读性预测的准确率高于篇章级文本,篇章级六分类可读性预测的研究中,现有最好结果是孙刚的研究,准确率为0.46。
[0012]
现有基于文本特征进行中文文本可读性评价预测的可读性公式方法和传统机器学习方法,主要存在以下问题:
[0013]
(1)在文本特征方面,特征数量虽然多,但用于中文文本可读性评价的文本特征均为文本字、词、句、篇类别的特征。通过对王蕾(初中级日韩留学生文本可读性公式初探[d].北京语言大学硕士研究生学位论文,2005)、郭望皓(对外汉语文本易读性公式研究[d].上海交通大学硕士学位论文,2009)、杨金余(高级汉语精读教材语言难度测定研究[d].北京大学硕士研究生学位论文,2008)、陈阿林(神经网络汉语阅读难度量化计算模型及结果比较[j].重庆师范学院学报 (自然科学版),2000)、荆溪昱(中文国文教材的适读性研究:适读年级值的推估[j].教育研究资讯,1995,3(3):113-127)、孙汉银(中文易懂性公式[d].北京师范大学硕士论文,1992)、邹红建(面向对外汉语报刊教学的文本难易度分类[a].第三届学生计算语言学研讨会,2006)、yang(areadability formula forchinese language[d].the university of wisconsin,1970)、吴思远(汉语文本可读性特征体系构建和效度验证[j].世界汉语教学第34期2020年第1期,2020)等工作的总结,得到表2中所列的已有中文文本可读性评价技术中使用的文本特征。
[0014]
表2用于文本可读性评价的特征
[0015][0016]
这里认为,除以上字、词、句、篇类别的文本特征外,还可以挖掘更多类别的特征。特别是在篇章可读性评价方面,篇章的主题、结构、远距离上下文相关性都会影响文本可读性,而计量这些方面的特征可以借鉴计量语言学研究领域。本发明的技术关键点之一就是将基于文本的字、词相关的分布函数进行进一步计算得到的文本分布律特征用于文本篇章可读性评价。
[0017]
(2)在中文文本可读性评价的应用领域方面,针对母语学习者的细粒度篇章可读性评价方法工作匮乏。
[0018]
可读性公式相关研究中(见表1),郭望皓、王蕾、邹红建公式的提出都是基于对外汉语教材或阅读材料。荆溪昱公式针对中国台湾地区1-12年级的中文课本,是针对繁体字的可读性公式。只有孙汉银公式是针对母语学习者提出简体字适用的可读性公式。
[0019]
对于传统机器学习方法,以简体中文教材为对象的研究中,以篇章可读性评价为目标的工作仅占一半,而只有孙刚的工作以小学学段篇章六分类为分类目标。这主要是因为传统机器学习方法需要一定数量的分级文本作为训练语料,用于模型训练,中小学语文
教材文本是最合适的分级文本,但此类语料数量较少,以小学六个年级的语文教材文本为例,12个版本的1-6年级小学语文教材中,现代文文本篇章不足3000篇,而如果对小学学段的文本做六分类,则每个分类平均篇章数不足500篇。因此,多数研究采用的处理方案包括两个方向:
[0020]
一是评价句子可读性,因为句子数量远高于篇章数量。这里认为,篇章可读性与句子可读性是不同的评价问题,对于中文分级阅读和教材编写,篇章才是待评价的对象。
[0021]
二是减少分类的数量,比如:将中小学12个年级划分为5个类别,或者对初高中文本进行二分类。这里认为文本可读性评价主要应用于语言学习阶段文本选择评价应用,对小学1-6年级的文本评价更重要。而且,对于语言学习者使用的文本评价分级粒度应尽可能细,这样更加符合语言学习输入的i 1要求,可应用于面向学习者自主阅读学习的文本推送系统中。
[0022]
综上所述,本发明提出的可读性评价方法及系统在小学1-6年级篇章六分类问题解决中,目的是获得比同类工作更好的效果。


技术实现要素:

[0023]
针对上述问题,本发明提供一种融合文本分布律特征的中文文本可读性评价方法及系统,适用于对篇章文本进行多个可读性等级分类预测。通过对小学 1-6年级阅读的篇章文本按年级进行六分类的实例测试,表明本发明可提升可读性评价的准确率。
[0024]
为解决上述技术问题,本发明的实施例提供如下方案:
[0025]
一方面,提供了一种融合文本分布律特征的中文文本可读性评价方法,包括以下步骤:
[0026]
s1、确定文本特征候选集,所述文本特征候选集包括:字、词、句、篇、分布律、可读性公式六类特征;
[0027]
s2、计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值;
[0028]
s3、基于所述文本特征候选集中的特征及计算的特征值,进行可读性公式设计或者机器学习模型训练;
[0029]
s4、利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。
[0030]
优选地,步骤s2所述训练篇章文本是有多个可读性分类等级标注的文本,步骤s4所述任意篇章文本是指待依据步骤s2所述训练篇章文本可读性分类等级进行分类预测的任意篇章文本。
[0031]
优选地,所述可读性公式设计具体包括以下步骤:
[0032]
对所述文本特征候选集中的第一预设组的特征进行皮尔逊相关性分析,筛选出相互之间皮尔逊相关系数在预定数值α以下的特征,作为建立多元线性回归模型的特征;
[0033]
通过对筛选出的特征进行回归分析,得到与可读性等级拟合优度最高的回归模型。
[0034]
优选地,当α=0.7且步骤s2所述训练篇章文本是包括多个版本的小学1-6 年级语文教材的六个可读性分类等级标注的篇章文本时,拟合得到的可读性公式表示为:
[0035]
y=15.739 0.025*avesen_char 0.04*difficult_char 51.588*difficult_word 6.38 0*gini 0.253*strokefre 1.437*lgcharfre-1.914*charwordpro-1.013*tc 6.121*subs tanpro-2.914*adjpro 4.38*funcpro 2.5*unlistwordpro 4.236*wordlenfre 0.688*la mbda 0.644*avelgwordfre;
[0036]
其中,avesen_char是平均句长,difficult_char是汉字难度,difficult_word 是词汇难度,gini是基尼系数,strokefre是频率加权的笔画数,lgcharfre是平均对数字频,charwordpro是字词比,tc是主题集中度,substanpro是实词比例, adjpro是形容词比例,funcpro是虚词比例,unlistwordpro是未登录词比例, wordlenfre是频率加权的词长,lambda是lambda值,avelgwordfre是平均对数词频。
[0037]
优选地,所述机器学习模型训练具体包括以下步骤:
[0038]
对所述文本特征候选集中的第二预设组的特征进行皮尔逊相关性分析,筛选出与分类等级关联较大,并且相互之间关联性较小的特征;
[0039]
将筛选出的特征作为输入特征进行机器学习模型的训练,选出最优的机器学习模型。
[0040]
一方面,提供了一种融合文本分布律特征的中文文本可读性评价系统,包括:
[0041]
文本特征候选集确定模块,用于确定文本特征候选集,所述文本特征候选集包括:字、词、句、篇、分布律、可读性公式六类特征;
[0042]
特征值计算模块,用于计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的字、词、句、篇、分布律、可读性公式六类特征的特征值;
[0043]
设计及训练模块,用于基于所述文本特征候选集中的特征及计算的特征值,进行可读性公式设计或者机器学习模型训练;
[0044]
预测模块,用于利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。
[0045]
优选地,所述训练篇章文本是有多个可读性分类等级标注的文本,所述任意篇章文本是指待依据所述训练篇章文本可读性分类等级进行分类预测的任意篇章文本。
[0046]
优选地,所述设计及训练模块具体用于:
[0047]
对所述文本特征候选集中的第一预设组的特征进行皮尔逊相关性分析,筛选出相互之间皮尔逊相关系数在预定数值α以下的特征,作为建立多元线性回归模型的特征;
[0048]
通过对筛选出的特征进行回归分析,得到与可读性等级拟合优度最高的回归模型。
[0049]
优选地,当α=0.7且所述训练篇章文本是包括多个版本的小学1-6年级语文教材的六个可读性分类等级标注的篇章文本时,拟合得到的可读性公式表示为:
[0050]
y=15.739 0.025*avesen_char 0.04*difficult_char 51.588*difficult_word 6.38 0*gini 0.253*strokefre 1.437*lgcharfre-1.914*charwordpro-1.013*tc 6.121*subs tanpro-2.914*adjpro 4.38*funcpro 2.5*unlistwordpro 4.236*wordlenfre 0.688*la mbda 0.644*avelgwordfre;
[0051]
其中,avesen_char是平均句长,difficult_char是汉字难度,difficult_word 是词汇难度,gini是基尼系数,strokefre是频率加权的笔画数,lgcharfre是平均对数字频,charwordpro是字词比,tc是主题集中度,substanpro是实词比例, adjpro是形容词比例,
funcpro是虚词比例,unlistwordpro是未登录词比例, wordlenfre是频率加权的词长,lambda是lambda值,avelgwordfre是平均对数词频。
[0052]
优选地,所述设计及训练模块还具体用于:
[0053]
对所述文本特征候选集中的第二预设组的特征进行皮尔逊相关性分析,筛选出与分类等级关联较大,并且相互之间关联性较小的特征;
[0054]
将筛选出的特征作为输入特征进行机器学习模型的训练,选出最优的机器学习模型。
[0055]
本发明实施例提供的技术方案带来的有益效果至少包括:
[0056]
本发明实施例中,将文本分布律特征与字、词、句、篇、可读性公式特征相结合,经过特征选择后,进行可读性公式设计和机器学习模型训练,篇章文本可读性预测准确率有明显提升。
附图说明
[0057]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0058]
图1是本发明实施例提供的一种融合文本分布律特征的中文文本可读性评价方法的流程图;
[0059]
图2是本发明实施例提供的一种融合文本分布律特征的中文文本可读性评价系统的结构示意图。
具体实施方式
[0060]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0061]
本发明的实施例首先提供了一种融合文本分布律特征的中文文本可读性评价方法,如图1所示,所述方法包括以下步骤:
[0062]
s1、确定文本特征候选集,所述文本特征候选集包括:字、词、句、篇、分布律、可读性公式六类特征。
[0063]
作为本发明的一种具体实施方式,共确定出93个特征,在表3中列出。
[0064]
表3文本特征候选集
[0065][0066][0067]
各文本特征计算方法详见以下参考文献:王蕾(初中级日韩留学生文本可读性公式初探[d].北京语言大学硕士研究生学位论文,2005)、郭望皓(对外汉语文本易读性公式研究[d].上海交通大学硕士学位论文,2009)、杨金余(高级汉语精读教材语言难度测定研究[d].北京大学硕士研究生学位论文,2008)、陈阿林(神经网络汉语阅读难度量化计算模型及结果比较[j].重庆师范学院学报 (自然科学版),2000)、荆溪昱(中文国文教材的适读
性研究:适读年级值的推估[j].教育研究资讯,1995,3(3):113-127)、孙汉银(中文易懂性公式[d].北京师范大学硕士论文,1992)、邹红建(面向对外汉语报刊教学的文本难易度分类[a].第三届学生计算语言学研讨会,2006)、yang(a readability formula forchinese language[d].the university of wisconsin,1970)、吴思远(汉语文本可读性特征体系构建和效度验证[j].世界汉语教学第34期2020年第1期,2020)、刘海涛(计量语言学导论[m].商务印书馆,2017,134页-138页)、smog (grading-a new readability formula[j].journal of reading,1969,12(8):629-646)、 flesch-kincaid formua(derivation of new readability formulas for navy enlistedpersonnel[j].adult basic education,1975,49)、flesh(a new readability yardstick[j]. journal of applied psychology,1949)。
[0068]
在文本特征候选集中加入分布律特征,是本发明的关键技术点之一。分布律特征是基于文本的字、词、句计量指标的分布函数进行进一步的计算,得到的文本特征,详见刘海涛(计量语言学导论[m].商务印书馆,2017,134页-138 页)。
[0069]
s2、计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值。
[0070]
所述训练篇章文本是有多个可读性分类等级标注的文本。本发明使用的实例数据包含12个版本的小学1-6年级语文教材全部现代文,语料详情如表4所示。对每个篇章文本计算表3中所列的93个特征的特征值。
[0071]
表4语料规模统计
[0072]
可读性级别对应年级文本数总字数总句数11年级3405,9957399022年级52317,37581,029933年级51628,61351,492644年级45031,40601,500755年级46843,15571,990866年级40143,06261,9327总计——2698169609383457
[0073]
s3、基于所述文本特征候选集中的特征及计算的特征值,进行可读性公式设计或者机器学习模型训练。
[0074]
所述可读性公式设计具体包括以下步骤:
[0075]
首先,对所述文本特征候选集中的第一预设组的特征进行皮尔逊相关性分析,筛选出相互之间皮尔逊相关系数在预定数值α以下的特征,作为建立多元线性回归模型的特征;
[0076]
其次,通过对筛选出的特征进行回归分析,得到与可读性等级拟合优度最高的回归模型。
[0077]
具体地,对1-80号特征进行皮尔逊相关性分析,取相关系数上限值α=0.7 进行特征筛选,拟合得到的可读性公式表示为:
[0078]
y=15.739 0.025*avesen_char 0.04*difficult_char 51.588*difficult_word 6.38 0*gini 0.253*strokefre 1.437*lgcharfre-1.914*charwordpro-1.013*tc
6.121*subs tanpro-2.914*adjpro 4.38*funcpro 2.5*unlistwordpro 4.236*wordlenfre 0.688*la mbda 0.644*avelgwordfre;
[0079]
其中,avesen_char是平均句长,difficult_char是汉字难度,difficult_word 是词汇难度,gini是基尼系数,strokefre是频率加权的笔画数,lgcharfre是平均对数字频,charwordpro是字词比,tc是主题集中度,substanpro是实词比例, adjpro是形容词比例,funcpro是虚词比例,unlistwordpro是未登录词比例, wordlenfre是频率加权的词长,lambda是lambda值,avelgwordfre是平均对数词频。
[0080]
所述机器学习模型训练具体包括以下步骤:
[0081]
对所述文本特征候选集中的第二预设组的特征进行皮尔逊相关性分析,筛选出与分类等级关联较大,并且相互之间关联性较小的特征;
[0082]
将筛选出的特征作为输入特征进行机器学习模型的训练,选出最优的机器学习模型。
[0083]
具体地,对1-93号特征,经过皮尔逊相关分析,得到与分类等级关联较大,并且相互之间关联性较小的22个特征(在表5中列出)。
[0084]
表5筛选的22个特征
[0085][0086]
s4、利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。所述任意篇章文本是指待依据所述训练篇章文本可读性分类等级进行分类预测的任意篇章文本。
[0087]
使用小学语文教材文本进行本发明技术方案的效果测试。
[0088]
可读性公式方法,文本特征候选集经筛选后选择了15个特征,依拟合公式计算可读性指标后,将结果映射到6个可读性等级上进行篇章六分类预测,结果正确率为0.46,好于已有的最好效果的可读性公式——郭望皓公式(准确率 0.36)。
[0089]
使用机器学习方法,通过特征计算与选择,得到预测效果最好的22个特征,这些特征作为输入的逻辑回归模型效果最好,准确率为0.52,好于已有的孙刚的工作(准确率为0.46)。
[0090]
相应地,本发明的实施例还提供了一种融合文本分布律特征的中文文本可读性评价系统,如图2所示,所述系统包括:
[0091]
文本特征候选集确定模块,用于确定文本特征候选集,所述文本特征候选集包括:字、词、句、篇、分布律、可读性公式六类特征;
[0092]
特征值计算模块,用于计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值;
[0093]
设计及训练模块,用于基于所述文本特征候选集中的特征及计算的特征值,进行可读性公式设计或者机器学习模型训练;
[0094]
预测模块,用于利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。
[0095]
进一步地,所述训练篇章文本是有多个可读性分类等级标注的文本,所述任意篇章文本是指待依据所述训练篇章文本可读性分类等级进行分类预测的任意篇章文本
[0096]
进一步地,所述设计及训练模块具体用于:
[0097]
对所述文本特征候选集中的第一预设组的特征进行皮尔逊相关性分析,筛选出相互之间皮尔逊相关系数在预定数值α以下的特征,作为建立多元线性回归模型的特征;
[0098]
通过对筛选出的特征进行回归分析,得到与可读性等级拟合优度最高的回归模型。
[0099]
进一步地,当α=0.7且所述训练篇章文本是包括多个版本的小学1-6年级语文教材的六个可读性分类等级标注的篇章文本时,拟合得到的可读性公式表示为:
[0100]
y=15.739 0.025*avesen_char 0.04*difficult_char 51.588*difficult_word 6.38 0*gini 0.253*strokefre 1.437*lgcharfre-1.914*charwordpro-1.013*tc 6.121*subs tanpro-2.914*adjpro 4.38*funcpro 2.5*unlistwordpro 4.236*wordlenfre 0.688*la mbda 0.644*avelgwordfre;
[0101]
其中,avesen_char是平均句长,difficult_char是汉字难度,difficult_word 是词汇难度,gini是基尼系数,strokefre是频率加权的笔画数,lgcharfre是平均对数字频,charwordpro是字词比,tc是主题集中度,substanpro是实词比例, adjpro是形容词比例,funcpro是虚词比例,unlistwordpro是未登录词比例, wordlenfre是频率加权的词长,lambda是lambda值,avelgwordfre是平均对数词频。
[0102]
进一步地,所述设计及训练模块还具体用于:
[0103]
对所述文本特征候选集中的第二预设组的特征进行皮尔逊相关性分析,筛选出与分类等级关联较大,并且相互之间关联性较小的特征;
[0104]
将筛选出的特征作为输入特征进行机器学习模型的训练,选出最优的机器学习模型。
[0105]
当所述训练篇章文本是包括多个版本的小学1-6年级语文教材的六个可读性分类等级标注的篇章文本时,筛选出的22个特征在表5中列出,逻辑回归模型效果最好。
[0106]
本实施例的系统,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
[0107]
本发明实施例中,将文本分布律特征与字、词、句、篇、可读性公式特征相结合,经过特征选择后,进行可读性公式设计和机器学习模型训练,篇章文本可读性预测准确率有明显提升。
[0108]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和
原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献