一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于语法树的神经心理量表答案筛选方法、系统及介质

2023-08-04 12:10:36 来源:中国专利 TAG:


1.本发明涉及人工智能技术在老年痴呆神经心理量表的应用领域,具体是一种基于语法树的神经心理量表答案筛选方法、系统及介质。


背景技术:

2.阿尔兹海默症(ad)是一种增龄性综合征,其发病率随年龄增长而迅速上升,成为继心脏病、脑血管病、肿瘤之后老年人的第四大“杀手”,但是对于重庆市以及全球的欠发达地区而言,对其知晓率、就诊率、诊断率和治疗率均低于世界平均水平。因此能精准理解重庆方言的人工智能技术,将有助推广痴呆病症的早筛,特别是阿尔兹海默症的早筛。临床研究表明,与ad和轻度认知障碍(mci)相关的可量化的认知下降迹象在患者语言中是可检测到的。机器学习(ml)模型已被证明可以成功地使用语音和语言变量检测ad,例如从人工智能技术识别到的文本中分析句子内容可以推测患者健康状况。由于转录本应该足够准确以正确表示句法和语言特征,因此当前的方法通常依赖于由受过训练的转录员做转录。但这将耗费大量的时间和精力。
3.在测试mmse量表中,需要受试者及时回答一些日常问题,例如“今天是几号?”,“今天是周几?”,理想情况下测试者可以直接说出回答,但对于老年人而言,回忆和记忆能力已经下滑了,可能第一次说的答案并不是真正想回答的,需要二次确认,例如测试者可能回答,“十八号,哦,不对,十九号”,“周三还是周四呢,应该是周四”,如果只是采用简单的文本匹配,将很难从上述例子中的文本筛选出测试者的真实意图(答案),nlp技术恰恰可以帮助我们解决这一类问题,我们可以将该类问题归纳为有效实体提取,参照nlp中的实体提取任务属于监督学习,需要大量的人工标注预料完成训练,这将为人工智能技术应用在老年健康管理领域带来障碍。
4.因此,需要对mmse量表的关键信息进行抽取。当前关于关键信息抽取的研究众多,在深度学习应用在众多nlp场景取得不错效果之后,基于神经网络模型的算法逐渐取代基于统计算法的关键信息抽取算法。从上分析可知,在神经心理量表筛查中,复杂逻辑的转录文本的答案筛选可以归纳为实体抽取和语义角色判断,其中语义角色判断是指在实体识别的基础上,从非结构化文本中判断抽取出的实体的语义角色,从而判断实体在文本中的语义信息。
5.从实现方式看,有分为流水线模型和联合模型两类,基于流水线的实体抽取与语义角色判断的主要流程为:对已经标注好目标实体对和语义角色的句子进行实体抽取,最后把存在实体的语义角色作为预测结果输出。这些模型主要是基于lstm,transformer,bert预训练及其改进模型的网络结构,归纳起来可以认为流水线模型是先做实体抽取,再做语义角色分析,在预料足够的情况下,部分流水线模型效果还不错,但也有缺点,例如错误传播:实体识别模块的错误会影响到接下来的语义角色分析性能;忽视了两个子任务之间存在的关系;冗余信息:由于对识别出来的实体进行语义分析时,对于一些独立实体会带来多余信息,提升错误率。相比于流水线方法,联合模型能够利用实体和语义间紧密的信
息,同时抽取实体并对实体的语义标注,很好地解决了流水线方法所存在的问题。因在联合学习方法中建模的对象不同,联合学习方法又可以分为参数共享方法和序列标注方法。参数共享方法分别对实体和语义进行建模,而序列标注方法则是直接对实体—语义进行建模。
6.综上看,针对神经心理量表中的答案筛选算法还能做进一步提高和改进,总结如下:
7.1)基于流水线的实体提取和语义分析存在错误传导的可能,会进一步扩大错误的识别
8.2)基于联合模型做抽取对算法,数据要求较高,这会增加ai技术在神经心理量表应用的成本。
9.3)在神经心理量表中的复杂回答逻辑是可以枚举的,且不同句式在语义角色上有唯一角色与之对应,因此可以用非监督学习方法完成语句分析与答案筛选。


技术实现要素:

10.本发明的目的是提供一种基于语法树的神经心理量表答案筛选方法,包括以下步骤:
11.1)获取测试者的音频,并将音频转录为心理量表文本;
12.2)利用分词模块对心理量表文本进行分词处理,得到词序列;
13.3)利用词性标注模块对词序列中的每个词标注一个标识词边界的标记;利用实体识别模块对词序列中的命名实体标注一个标识实体词边界的标记;
14.4)利用基于神经网络的依存句法分析算法对标注有词边界的词序列进行依存句法分析,得到文本特征;所述文本特征包括文本依存句法关系特征和语义角色特征;
15.5)根据预先存储的模糊词字典,对文本特征进行中心词提取,得到心理量表文本的中心词;
16.6)对心理量表文本的中心词进行分析,得到语义角色识别结果;
17.7)判断所述语义角色识别结果中是否包含了mmse量表中临床总结的语义角色,若是,则对文本依存句法关系特征和语义角色特征进行组合,得到心理量表答案,否则,返回步骤1)。
18.进一步,利用分词模块对心理量表文本进行分词处理的步骤包括:利用分词模块对心理量表文本中的每个字符标注一个标识词边界的标记。
19.进一步,所述文本依存句法关系特征包括主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立结构、核心关系。
20.进一步,所述语义角色特征包括施事者、受事者、状语、受益人、条件、并列、程度、方向、会话标记、范围、频率、地点、方式。
21.应用基于语法树的神经心理量表答案筛选方法的系统,包括音频获取及转换模块、分词模块、词性标注模块、实体识别模块、依存句法分析模块、中心词提取及分析模块、答案输出模块;
22.所述音频获取及转换模块获取测试者的音频,并将音频转录为心理量表文本,并
传输至分词模块;
23.所述分词模块对心理量表文本进行分词处理,得到词序列,并分别传输至词性标注模块和实体识别模块;
24.所述词性标注模块对词序列中的每个词标注一个标识词边界的标记;
25.所述实体识别模块对词序列中的命名实体标注一个标识实体词边界的标记;
26.所述依存句法分析模块利用基于神经网络的依存句法分析算法对标注有词边界的词序列进行依存句法分析,得到文本特征;所述文本特征包括文本依存句法关系特征和语义角色特征;
27.所述中心词提取及分析模块根据预先存储的模糊词字典,对文本特征进行中心词提取,得到心理量表文本的中心词;
28.所述中心词提取及分析模块对心理量表文本的中心词进行分析,得到语义角色识别结果;
29.所述答案输出模块判断所述语义角色识别结果中是否包含了mmse量表中临床总结的语义角色,若是,则对文本依存句法关系特征和语义角色特征进行组合,得到心理量表答案。
30.进一步,还包括用于显示心理量表答案的显示模块。
31.一种计算机存储介质,其上存储有计算机程序;当该计算机程序被调用时,执行上述方法的步骤。
32.本发明的技术效果是毋庸置疑的,本发明解决了智能交互过程中计算机如何理解人说话的问题。
33.本发明利用ltp平台提供的包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术,对测试者的回答转录文本做分词、标注以及句法分析,准确提取出测试者的真实意图,提高了人工智能技术应用在神经心理量表中的准确率。
34.本发明针流水线和联合模型需要大量标注数据的难点,提出了基于ltp的非监督学习算法,完成文本多实体筛选与语义角色判断。
35.本发明首次提出在人工智能技术应用的mmse量表中,当转录文本包含多答案时,利用自然语言处理算法完成了正确答案的抽取。
36.本发明针对mmse量表问题项,总结了临床测试者回答的句式结构,为后续老年痴呆的诊断提供语言学参考。
附图说明
37.图1为ltp分析流程图;
38.图2为依存句法关系;
39.图3为语义角色;
40.图4为神经心理量表多答案筛选流程图;
41.图5为语义分析示例i;
42.图6为语义分析示例ii;
43.图7为语义分析示例iii;
44.图8为语义分析示例iv。
具体实施方式
45.下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
46.实施例1:
47.参见图1至图8,一种基于语法树的神经心理量表答案筛选方法,包括以下步骤:
48.1)获取测试者的音频,并将音频转录为心理量表文本;
49.2)利用分词模块对心理量表文本进行分词处理,得到词序列;
50.3)利用词性标注模块对词序列中的每个词标注一个标识词边界的标记;利用实体识别模块对词序列中的命名实体标注一个标识实体词边界的标记;
51.4)利用基于神经网络的依存句法分析算法对标注有词边界的词序列进行依存句法分析,得到文本特征;所述文本特征包括文本依存句法关系特征和语义角色特征;
52.5)根据预先存储的模糊词字典,对文本特征进行中心词提取,得到心理量表文本的中心词;
53.6)对心理量表文本的中心词进行分析,得到语义角色识别结果;
54.7)判断所述语义角色识别结果中是否包含了mmse量表中临床总结的语义角色,若是,则对文本依存句法关系特征和语义角色特征进行组合,得到心理量表答案,否则,返回步骤1)。
55.利用分词模块对心理量表文本进行分词处理的步骤包括:利用分词模块对心理量表文本中的每个字符标注一个标识词边界的标记。
56.所述文本依存句法关系特征包括主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立结构、核心关系。
57.所述语义角色特征包括施事者、受事者、状语、受益人、条件、并列、程度、方向、会话标记、范围、频率、地点、方式。
58.术语解释:
59.nlp:natural language processing自然语言处理;
60.ltp:language technology platform哈工大语言技术平台;
61.ner:实体抽取;
62.mmse:mini-mental state examination mmse量表;
63.ad:avenue alzheimer阿尔兹海默症;
64.mci:mild cognitive impairment轻度认知障碍。
65.实施例2:
66.应用基于语法树的神经心理量表答案筛选方法的系统,包括音频获取及转换模块、分词模块、词性标注模块、实体识别模块、依存句法分析模块、中心词提取及分析模块、答案输出模块;
67.所述音频获取及转换模块获取测试者的音频,并将音频转录为心理量表文本,并
传输至分词模块;
68.所述分词模块对心理量表文本进行分词处理,得到词序列,并分别传输至词性标注模块和实体识别模块;
69.所述词性标注模块对词序列中的每个词标注一个标识词边界的标记;
70.所述实体识别模块对词序列中的命名实体标注一个标识实体词边界的标记;
71.所述依存句法分析模块利用基于神经网络的依存句法分析算法对标注有词边界的词序列进行依存句法分析,得到文本特征;所述文本特征包括文本依存句法关系特征和语义角色特征;
72.所述中心词提取及分析模块根据预先存储的模糊词字典,对文本特征进行中心词提取,得到心理量表文本的中心词;
73.所述中心词提取及分析模块对心理量表文本的中心词进行分析,得到语义角色识别结果;
74.所述答案输出模块判断所述语义角色识别结果中是否包含了mmse量表中临床总结的语义角色,若是,则对文本依存句法关系特征和语义角色特征进行组合,得到心理量表答案。
75.该系统还包括用于显示心理量表答案的显示模块。
76.实施例3:
77.一种计算机存储介质,其上存储有计算机程序;当该计算机程序被调用时,执行实施例1所述方法的步骤。
78.实施例4:
79.一种基于语法树的神经心理量表答案筛选方法,包括以下内容:
80.文本通过语言分析工具处理,其中分词模块,利用ltp对于输入句子的字序列,模型给句子中的每个字符标注一个标识词边界的标记。词性标注模块,将分词处理后的词性标注任务建模为基于词的序列标注问题。对于输入句子的词序列,模型给句子中的每个词标注一个标识词边界的标记。实体识别模块,与分词模块相同,将命名实体识别建模为基于词的序列标注问题。语义分析通过依存句法分析模块,ltp中通过神经网络依存句法分析算法,结合文本丰富的全局特征和聚类特征,可以得到语义角色、依存句法关系等特征,其中的解析结果可以参照图2。
81.预先定义的模糊词存储在一个字典里,“"positive":['是','就是','像'],"negative":['不是','不像'],"doubt":['还是','是不是']”,利用ltp分析的结果,本发明可以快速检索到测试者回答文本的中心词,依托中心词本发明可以快速完成文本所有语义角色判断和对象提取,如果提取的结果中包含了mmse量表中临床总结的语义角色,即完成答案提取,否则无法判断,继续由下游模块判断。
[0082]
实施例5:
[0083]
一种基于语法树的神经心理量表答案筛选方法,包括以下步骤:
[0084]
1)获取所述测试者的音频,并将音频转录为心理量表文本;
[0085]
2)利用分词模块对心理量表文本进行分词处理,得到词序列;
[0086]
3)利用词性标注模块对词序列中的每个词标注一个标识词边界的标记;利用实体识别模块对词序列中的命名实体标注一个标识实体词边界的标记。
[0087]
4)利用基于神经网络的依存句法分析算法对标注有词边界的词序列进行依存句法分析,得到文本特征;所述文本特征包括文本依存句法关系特征和语义角色特征;
[0088]
5)根据预先存储的模糊词字典,对文本特征进行中心词提取,得到心理量表文本的中心词;
[0089]
6)对心理量表文本的中心词进行分析,得到语义角色识别结果;
[0090]
7)判断所述语义角色识别结果中是否包含了mmse量表中临床总结的语义角色,若是,则对文本依存句法关系特征和语义角色特征进行组合,得到心理量表答案,否则,返回步骤1)。
[0091]
实施例6:
[0092]
一种基于语法树的神经心理量表答案筛选方法,主要内容见实施例5,其中,利用分词模块对心理量表文本进行分词处理的步骤包括:利用分词模块对心理量表文本中的每个字符标注一个标识词边界的标记。
[0093]
实施例7:
[0094]
一种基于语法树的神经心理量表答案筛选方法,主要内容见实施例5,其中,所述文本依存句法关系特征包括主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立结构、核心关系。
[0095]
实施例8:
[0096]
一种基于语法树的神经心理量表答案筛选方法,主要内容见实施例5,其中,所述语义角色特征包括施事者、受事者、状语、受益人、条件、并列、程度、方向、会话标记、范围、频率、地点、方式。
[0097]
实施例9:
[0098]
应用实施例5至8任一项所述基于语法树的神经心理量表答案筛选方法的系统,其特征在于:包括音频获取及转换模块、分词模块、词性标注模块、实体识别模块、依存句法分析模块、中心词提取及分析模块、答案输出模块;
[0099]
所述音频获取及转换模块获取测试者的音频,并将音频转录为心理量表文本,并传输至分词模块;
[0100]
所述分词模块对心理量表文本进行分词处理,得到词序列,并分别传输至词性标注模块和实体识别模块;
[0101]
所述词性标注模块对词序列中的每个词标注一个标识词边界的标记;
[0102]
所述实体识别模块对词序列中的命名实体标注一个标识实体词边界的标记;
[0103]
所述依存句法分析模块利用基于神经网络的依存句法分析算法对标注有词边界的词序列进行依存句法分析,得到文本特征;所述文本特征包括文本依存句法关系特征和语义角色特征;
[0104]
所述中心词提取及分析模块根据预先存储的模糊词字典,对文本特征进行中心词提取,得到心理量表文本的中心词;
[0105]
所述中心词提取及分析模块对心理量表文本的中心词进行分析,得到语义角色识别结果;
[0106]
所述答案输出模块判断所述语义角色识别结果中是否包含了mmse量表中临床总结的语义角色,若是,则对文本依存句法关系特征和语义角色特征进行组合,得到心理量表
答案。
[0107]
实施例10:
[0108]
应用基于语法树的神经心理量表答案筛选方法的系统,主要内容见实施例9,其中,该系统还包括用于显示心理量表答案的显示模块。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表