心理学上想法认知偏差的识别方法、装置及电子设备与流程

2021-11-05 19:41:00 来源：中国专利 TAG：

1.本发明涉及智能识别领域，具体涉及一种心理学上想法认知偏差的识别方法、装置及电子设备。

背景技术：

2.20世纪60年代，美国临床心理学家贝克(beck)提出的抑郁症认知理论认为，功能失调性态度、认知歪曲在抑郁症发生的原因中起重要作用。在心理学领域，想法认知偏差是指个体以完全否定或悲观的方式解释信息的过程,包括任意推断、过分夸大或缩小、选择性消极注视等曲解类型，及时有效地识别用户想法认知偏差对抑郁症发病诊断、预防、甚至治疗有着重要意义，同时，想法认知偏差的识别还可以纠正人们心理上有问题的、错误的或不良的观念与想法，甚至可以改善情绪障碍。
3.当前，为了识别想法认知偏差，人们往往通过与心理咨询师一对一面对面访谈的形式诊断、缓解和治疗心理疾病，这种方式具有时间和空间上的局限性，同时，还面临着心理咨询师人员不足的问题，难以面向大众推广。

技术实现要素：

4.本发明的主要目的在于提供一种心理学上想法认知偏差的识别方法及装置，以解决现有想法认知偏差的识别方式难以面向大众推广的问题。
5.为了实现上述目的，本发明的第一方面提供了一种心理学上想法认知偏差的识别方法，包括：
6.接收用户输入的问题文本信息，并将所述问题文本信息进行数据清洗；
7.将数据清洗后的问题文本信息与用户画像信息进行拼接，得到拼接文本信息；
8.基于预先建立的词典，将所述拼接文本信息转换为数值向量，并将所述数值向量输入至预训练模型xlnet，编码用户问题向量特征；
9.利用分类器对所述用户问题向量特征进行分类，预测每个类别对应的概率值，将最大概率值对应的类别作为想法认知偏差的识别结果。
10.可选地，所述预训练模型xlnet的训练步骤包括：
11.获取样本数据，并将样本数据分为训练集和验证集；
12.根据所述训练集和验证集训练调优预训练模型xlnet，并确定预训练模型xlnet预测概率的阈值。
13.进一步地，所述获取样本数据，并将样本数据分为训练集和验证集，包括：
14.获取网络数据和心理学专业人员编辑整理的数据，将所述网络数据和心理学专业人员编辑整理的数据进行数据清洗，得到样本数据；
15.判断所述样本数据是否属于想法认知偏差；
16.根据判断结果对所述样本数据进行分类标注，得到样本数据的分类标注标签；
17.将样本数据及样本数据对应的分类标注标签按照预设比例分为训练集和验证集。
18.进一步地，所述根据所述训练集和验证集训练调优预训练模型xlnet，并确定预训练模型xlnet预测概率的阈值，包括：
19.将所述训练集中的样本数据及样本数据对应的分类标注标签输入至预训练模型xlnet中做模型调优，配置模型参数，更新批尺寸和迭代轮数，进行训练；
20.接收模型训练完成信息后，将验证集中的样本数据输入至训练完成的预训练模型xlnet，输出验证集中样本数据的分类预测结果和所述分类预测结果对应的概率值；
21.将验证集中样本数据的分类标注标签与分类预测结果进行对比，确定模型预测结果的准确率；
22.当所述模型预测结果的准确率达到预设值时，将分类预测结果对应的概率值设为阈值。
23.进一步地，在将分类预测结果对应的概率值设为阈值之后，所述方法还包括：
24.判断训练完成的预训练模型xlnet预测的分类预测结果对应的概率值是否大于所述阈值；
25.如果预测的分类预测结果对应的概率值大于所述阈值，则输出分类预测结果；
26.否则，放弃分类预测结果，输出未识别结果。
27.可选地，所述基于预先建立的词典，将所述拼接文本信息转换为数值向量，并将所述数值向量输入至预训练模型xlnet，编码用户问题向量特征，包括：
28.确定所述拼接文本信息中各字符在预先建立的词典中的索引值，将所述拼接文本信息中的所有字符对应的索引值构成数值向量；
29.将所述数值向量作为预训练模型xlnet的输入，编码得到用户问题向量特征。
30.可选地，所述数据清洗包括：剔除空白符、英文字符格式统一为小写格式、过滤纯数字；
31.所述用户画像信息包括：用户的年龄、性别、情感类型、情绪强度。
32.本发明的第二方面提供了一种心理学上想法认知偏差的识别装置，包括：
33.接收单元，用于接收用户输入的问题文本信息，并将所述问题文本信息进行数据清洗；
34.拼接单元，用于将数据清洗后的问题文本信息与用户画像信息进行拼接，得到拼接文本信息；
35.模型编码单元，用于基于预先建立的词典，将所述拼接文本信息转换为数值向量，并将所述数值向量输入至预训练模型xlnet，编码用户问题向量特征；
36.预测单元，用于利用分类器对所述用户问题向量特征进行分类，预测每个类别对应的概率值，将最大概率值对应的类别作为想法认知偏差的识别结果。
37.本发明的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面任意一项提供的心理学上想法认知偏差的识别方法。
38.本发明的第四方面提供了一种电子设备，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行第一方面任意一项提供的心理学上想法认知偏差的识别方法。
39.在本发明实施例提供的想法认知偏差的识别方法中，想法认知偏差识别模型接收用户输入的问题，通过数据清洗、向量编码、特征抽取来预测识别出用户输入问题是否属于想法认知偏差，将深度学习算法xlnet应用在心理学上通过程序自动识别用户的想法认知偏差，提升了心理问诊的普适性和便捷性，解决了现有想法认知偏差的识别方式难以面向大众推广的问题。
附图说明
40.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
41.图1为本发明实施例提供的方法流程示意图；
42.图2为本发明实施例提供的方法流程图；
43.图3为本发明实施例提供的装置框图；
44.图4为本发明实施例提供的电子设备框图。
具体实施方式
45.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
46.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
47.在本发明中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。
48.并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。
49.此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
50.需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
51.当前，为了识别想法认知偏差，人们往往通过与心理咨询师一对一面对面访谈的形式诊断、缓解和治疗心理疾病，这种方式具有时间和空间上的局限性，同时，还面临着心理咨询师人员不足的问题，难以面向大众推广。
52.为了解决上述问题，本发明实施例提供了一种心理学上想法认知偏差的识别方法，如图1和图2所示，该方法包括如下的步骤s101至步骤s104：
53.步骤s101：接收用户输入的问题文本信息，并将所述问题文本信息进行数据清洗；
54.具体的，所述数据清洗包括：剔除空白符、英文字符格式统一为小写格式、过滤纯数字，还包括文本纠错、标点符号规范化等；所述用户画像信息包括：用户的年龄、性别、情感类型、情绪强度，还包括用户的兴趣爱好。
55.例如，对用户输入问题文本做清洗过滤等规范化工作，如果用户输入问题文本“我老公应该每天做早饭。”，剔除句中空白符、英文字符统一转换为小写形式、纯数字等无实际意义文本过滤等数据预处理；如果系统识别到用户输入问题文本是一串纯数字字符串，则对话机器人会向用户抛出“是因为想到了什么才让你感到困扰呢？”或者“当你感到困扰的时候，你想到了什么呢？”，通过这种追问策略鼓励用户更愿意表达当前想法，更乐意与系统互动，为后续模型识别提供更多有效信息。
56.步骤s102：将数据清洗后的问题文本信息与用户画像信息进行拼接，得到拼接文本信息；
57.在对话系统中除了接收用户问题文本，系统也利用了用户画像信息等，包括用户年龄、性别、情感类型、情感强度和兴趣爱好等，这些用户画像信息对心理学想法认知偏差识别从更多维度、更深层次评估了用户想法认知偏差结果，使得系统评估结果更可靠、更值得信任。
58.步骤s103：基于预先建立的词典，将所述拼接文本信息转换为数值向量，并将所述数值向量输入至预训练模型xlnet，编码用户问题向量特征；
59.随着人工智能技术快速发展，各种深度学习算法层出不穷，如transformer、bert、xlnet等。在本发明实施例中，模型算法选用中文预训练模型xlnet。深度学习预训练模型xlnet在意图识别、文本语义分析等方面有着突出优势：第一，预训练模型xlnet在海量无标注数据下学习到了文本语义表征；第二，预训练模型xlnet抛弃掉了[mask]掩码标记，采用序列排列组合方式编码文本双向信息，避免了bert模型训练阶段与推理阶段过程不一致的问题；第三，预训练模型xlnet通过引入相对位置编码能够处理较长文本序列。
[0060]
预训练模型xlnet模型接收融合了用户画像信息的用户问题文本后，对拼接后的文本序列进行处理，进行向量编码、意图识别、文本语义分析和特征抽取，编码用户问题向量特征，以备后续对用户的想法认知偏差进行预测识别。
[0061]
具体的，所述步骤s103包括：
[0062]
确定所述拼接文本信息中各字符在预先建立的词典中的索引值，将所述拼接文本信息中的所有字符对应的索引值构成数值向量；以中文常见字和心理学专业术语中的汉字制作词典，词典大小约为15000字；词典的作用是将人类可读的文本序列映射到计算机可理解的数值形式，也即是将用户问题文本中的每一个字使用该字在词典中的索引值替代，如
“
想法认知偏差识别模型”替换成向量表示[12,90,108,68,36,93,29,45,103,130]，接收清洗好的用户问题文本并转换成向量表示。
[0063]
将所述数值向量作为预训练模型xlnet的输入，编码得到用户问题向量特征。将所述数值向量作为预训练模型xlnet的输入向量，最终得到融合用户画像的用户问题向量特征表示。
[0064]
具体的，所述预训练模型xlnet的训练步骤包括：
[0065]
获取样本数据，并将样本数据分为训练集和验证集；
[0066]
根据所述训练集和验证集训练调优预训练模型xlnet，并确定预训练模型xlnet预测概率的阈值。
[0067]
其中，所述获取样本数据，并将样本数据分为训练集和验证集，包括：
[0068]
获取网络数据和心理学专业人员编辑整理的数据，将所述网络数据和心理学专业人员编辑整理的数据进行数据清洗，得到样本数据；包括：采集网络渠道数据，经数据清洗和标注人员审核后存入数据库；以及内部研发团队心理学专业人员编辑整理的数据，经标注人员审核后存入数据库；
[0069]
判断所述样本数据是否属于想法认知偏差；
[0070]
根据判断结果对所述样本数据进行分类标注，得到样本数据的分类标注标签；将网络渠道数据、心理学专业人员编辑整理的数据进行分类标注，包括：如果数据属于想法认知偏差，则标注1，否则标注0；即，将样本数据中属于想法认知偏差的样本编号为1，不属于想法认知偏差的样本编号为0。
[0071]
将样本数据及样本数据对应的分类标注标签按照预设比例分为训练集和验证集。将所述样本数据按照预设不等比例分为训练集和验证集，其中，训练集数据多于验证集，例如将训练集:验证集的比值设为7:3；
[0072]
其中，所述根据所述训练集和验证集训练调优预训练模型xlnet，并确定预训练模型xlnet预测概率的阈值，包括：
[0073]
将所述训练集中的样本数据及样本数据对应的分类标注标签输入至预训练模型xlnet中做模型调优，配置模型参数，更新批尺寸和迭代轮数，进行训练；
[0074]
接收模型训练完成信息后，将验证集中的样本数据输入至训练完成的预训练模型xlnet，输出验证集中样本数据的分类预测结果和所述分类预测结果对应的概率值；预训练模型xlnet预测用户问题文本是否属于想法认知偏差，分类预测结果包括属于和不属于，属于想法认知偏差对应的分类预测编号为1，不属于想法认知偏差对应的分类预测编号为0，各分类预测结果对应各自的概率值，且各分类预测结果对应概率值的和为1；
[0075]
将验证集中样本数据的分类标注标签与分类预测结果进行对比，确定模型预测结果的准确率；将分类标注的真实类别标签与模型预测的分类编号进行对比，不同预测结果及其概率值对应不同的准确率，统计模型预测结果在不同概率值下的不同准确率；
[0076]
当所述模型预测结果的准确率达到预设值时，将分类预测结果对应的概率值设为阈值。当模型分类预测结果的准确率达到预设临界值时，可以认为此时模型输出分类预测结果的概率值满足预测要求，将模型分类预测结果达到准确率预设临界值时对应的模型分类预测结果的概率值设为阈值，以保证模型预测识别输出的结果达到较高的准确率，模型精准识别用户的想法认知偏差。
[0077]
训练好的预训练模型xlnet在验证集预测验证集的样本数据中每个样本所属类别结果，预测的所属类别结果包括类别编号和样本对应该类别编号的概率值；然后将预测的类别编号与分类标注的真实类别对比，统计预训练模型xlnet预测结果的对错；最后按照预测的概率值大小将验证集样本数据中的样本分组成20组，统计高于某概率值条件下模型xlnet预测结果的准确率，当准确率达到预设要求临界值时，此时对应的概率值即为阈值。例如，假设模型预测结果准确率的预设要求临界值为95％，即模型预测的准确率达到95％就认为满足预测需求，将模型预测准确率为95％时对应的概率值设为阈值。
[0078]
进一步的，在将分类预测结果对应的概率值设为阈值之后，所述方法还包括：
[0079]
将训练完成的模型接入线上api服务接口，接收用户输入的问题文本信息并返回模型识别结果；
[0080]
判断训练完成的预训练模型xlnet预测的分类预测结果对应的概率值是否大于所述阈值；
[0081]
如果预测的分类预测结果对应的概率值大于所述阈值，则输出分类预测结果；
[0082]
否则，放弃分类预测结果，输出未识别结果。
[0083]
为保证模型预测识别用户想法认知偏差的准确率，只将概率值大于阈值的分类预测结果输出，如果模型预测结果概率值低于阈值，表明模型没有足够的把握识别出该用户输入的问题文本信息所属类别，因此放弃模型预测的结果，也即未识别结果。
[0084]
步骤s104：利用分类器对所述用户问题向量特征进行分类，预测每个类别对应的概率值，将最大概率值对应的类别作为想法认知偏差的识别结果。
[0085]
分类器结构可以为全连接神经网络，分类器接收上一步骤的编码了用户画像的用户问题向量特征作为输入，计算每个类别概率值，获取最大概率值对应的类别作为想法认知偏差的识别结果，识别结果包括用户问题文本属于想法认知偏差或不属于想法认知偏差。
[0086]
从以上的描述中，可以看出，本发明实现了如下技术效果：
[0087]
本发明想法认知偏差识别模型接收用户输入的问题，通过向量编码、文本语义分析、特征抽取等处理识别出用户输入的问题是否属于想法认知偏差，提高了识别的准确率；
[0088]
预训练模型xlnet通过引入相对位置编码能够处理较长文本序列，并且，在预训练模型xlnet的训练数据集中有着丰富的心理相关数据和用户画像信息，模型能够从多个维度评估用户想法认知偏差结果，可以提高想法认知偏差的识别准确率；
[0089]
本发明将深度学习算法与心理学想法认知偏差结合，通过程序自动化识别认知偏差，提升了心理问诊的普适性和便捷性，突破了时间和空间的局限，让心理问诊随处随时变得可得。
[0090]
需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
[0091]
本发明实施例还提供了一种用于实施上述心理学上想法认知偏差的识别方法的心理学上想法认知偏差的识别装置，如图3所示，该装置包括：
[0092]
接收单元31，用于接收用户输入的问题文本信息，并将所述问题文本信息进行数据清洗；
[0093]
拼接单元32，用于将数据清洗后的问题文本信息与用户画像信息进行拼接，得到拼接文本信息；
[0094]
模型编码单元33，用于基于预先建立的词典，将所述拼接文本信息转换为数值向量，并将所述数值向量输入至预训练模型xlnet，编码用户问题向量特征；
[0095]
预测单元34，用于利用分类器对所述用户问题向量特征进行分类，预测每个类别对应的概率值，将最大概率值对应的类别作为想法认知偏差的识别结果。
[0096]
本发明实施例还提供了一种电子设备，如图4所示，该电子设备包括一个或多个处理器41以及存储器42，图4中以一个处理器41为例。
[0097]
该控制器还可以包括：输入装置43和输出装置44。
[0098]
处理器41、存储器42、输入装置43和输出装置44可以通过总线或者其他方式连接，图4中以通过总线连接为例。
[0099]
处理器41可以为中央处理器(central processing unit，简称为cpu)，处理器41还可以为其他通用处理器、数字信号处理器(digital signal processor，简称为dsp)、专用集成电路(application specific integrated circuit，简称为asic)、现场可编程门阵列(field
‑
programmable gate array，简称为fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合，通用处理器可以是微处理器或者任何常规的处理器。
[0100]
存储器42作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的控制方法对应的程序指令/模块。处理器41通过运行存储在存储器42中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的心理学上想法认知偏差的识别方法。
[0101]
存储器42可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器42可选包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0102]
输入装置43可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。
[0103]
一个或者多个模块存储在存储器42中，当被一个或者多个处理器41执行时，执行如图1所示的方法。
[0104]
本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各电机控制方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(read
‑
only memory，简称为rom)、随机存储记忆体(random access memory，简称为ram)、快闪存储器(flash memory，简称为fm)、硬盘(hard disk drive，简称为hdd)或固态硬盘(solid
‑
state drive，简称为ssd)等；存储介质还可以包括上述种类的
存储器的组合。
[0105]
虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种资源综合利用率的层次化分析方法、计算设备及存储介质与流程

心理学上想法认知偏差的识别方法、装置及电子设备与流程

相关文献

最热文献