基于精神卫生访谈信息实现长文本语音识别增强处理的方法、装置、处理器及其存储介质与流程

2022-06-01 17:05:52 来源：中国专利 TAG：

1.本发明涉及人工智能自然语言处理领域，尤其涉及语音识别领域，具体是指一种基于精神卫生访谈信息实现长文本语音识别增强处理的方法、装置、处理器及其计算机可读存储介质。

背景技术：

2.当前通用语音识别模型针对精神卫生领域识别率不高。目前的录音一般是需要用户在安静环境下，近距离、慢慢的、认真清晰发音。经实际验证，在一些实际医疗访谈场景，通用asr准确率效果还不够好的，比如，如果拿到医患的真实场景内去验证，结果发现，诊疗室语音识别效果非常不理想。医患距离过远，收音情况不理想，实际场景中发现现有的通用asr 也没有特别严格的医患测试，除了多人说话的干扰，还有各种噪音以及患者情绪的波动经常处于信号不好的情况。访谈中精卫领域的专有术语混合。特别在描述病情的场景，用户说抑郁专有词汇时，很容易识别错误的。
3.总之，asr是目前ai领域，通用场景下可以商用成熟的技术，但是医患访谈领域，但还是需要医患双方可以配合ai在特定场景下使用。
4.近年来在精神卫生领域的诊断当中，每个工作日几乎都可能面临海量的患者诊疗，而在访谈过程中，医生一般专注于跟进病情陈述内容、诊疗进程，在诊疗结束后，病历纪要往往需要依靠医生根据访谈过程进行收集整理，甚至需要护士跟进访谈上所有人的语音信息进行整理、编辑，甚至需要跟进患者确认，从而导致整理病历的过程需要人力成本的投入，耗费人力又费时。
5.目前，病历整理通常是通过医务人员人手记录，没有普遍使用ai语音识别技术，最多也只是机器识别医患的语音并转换为文字记录。但是，机器只能单纯实现从语音到文字上的转换，并不能够对医疗相关的内容进行理解和整理，当前的语音转换系统尤其不能针对医疗以及精神卫生领域的关键词，语音习惯，语音模型等进行定制，识别准确率较差。
6.病历记录是用于记录访谈要点、以便于存档和传递病历信息的重要手段，随着信息时代的到来，全文本高准确率的病历记录被越来越多的医疗单位重视。比较传统的实现病历记录的方式就是安排医生进行访谈过程的记录，比较依赖于医生或者护士的专注力，由于边记录边诊断，开小差分心也会出现漏记的现象。随着科技的发展，涌现出了工号牌录音笔等产品帮助记录医患访谈的录音，而后通过对录音的回放进行关键点的人工提炼，解决病历纪要的低效记录的情况。

技术实现要素：

7.本发明的目的是克服了上述现有技术的缺点，提供了一种满足快速、准确、适用范围较为广泛的基于精神卫生访谈信息实现长文本语音识别增强处理的方法、装置、处理器及其计算机可读存储介质。
8.为了实现上述目的，本发明的基于精神卫生访谈信息实现长文本语音识别增强处理的方法、装置、处理器及其计算机可读存储介质如下：
9.该基于精神卫生访谈信息实现长文本语音识别增强处理的方法，其主要特点是，所述的方法包括以下步骤：
10.(1)接收访谈语音信号，对信号进行预处理，输出特征数据；
11.(2)构建ctc声学模型，将语音信息转化为基本音素信息；
12.(3)通过语言模型和发音字典将基本音素信息解码为中文信息，获取抑郁症访谈文本。
13.较佳地，所述的步骤(1)具体包括以下步骤：
14.(1.1)接收访谈语音信号；
15.(1.2)对语音信号进行处理；
16.(1.3)对语音信号中的特征信息进行处理，输出特征数据。
17.较佳地，所述的步骤(3)具体包括以下步骤：
18.(3.1)通过抑郁症热词库构建针对医疗数据的transformer语言模型；
19.(3.2)通过语言模型和发音字典将基本音素信息解码为中文信息。
20.较佳地，所述的方法还包括调试语言模型的步骤，具体包括以下步骤：
21.(4)根据抑郁症访谈文本，调整词汇出现的概率，更新抑郁症热词库。
22.较佳地，所述的方法还包括预处理文本词汇的步骤，具体为：
23.抑郁症智能诊断与病例系统预先设置常用的精神病文本和词汇，并设置词汇出现的概率。
24.该用于实现基于精神卫生访谈信息的长文本语音识别增强处理的装置，其主要特点是，所述的装置包括：
25.处理器，被配置成执行计算机可执行指令；
26.存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于精神卫生访谈信息实现长文本语音识别增强处理的方法的各个步骤。
27.该用于实现基于精神卫生访谈信息的长文本语音识别增强处理的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于精神卫生访谈信息实现长文本语音识别增强处理的方法的各个步骤。
28.该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的基于精神卫生访谈信息实现长文本语音识别增强处理的方法的各个步骤。
29.采用了本发明的基于精神卫生访谈信息实现长文本语音识别增强处理的方法、装置、处理器及其计算机可读存储介质，可以识别常见抑郁症句型，术语，根据已经提供的精神病文本，调整词汇出现的概率，以达到快速，准确识别症状词汇的效果，识别准确率达到90％以上。
附图说明
30.图1为本发明的基于精神卫生访谈信息实现长文本语音识别增强处理的方法的流程图。
31.图2为本发明的基于精神卫生访谈信息实现长文本语音识别增强处理的通过医患访谈录音进行智能诊断的流程图。
32.图3为本发明的基于精神卫生访谈信息实现长文本语音识别增强处理的方法的语音识别转换的实施例示意图。
具体实施方式
33.为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。
34.本发明的该基于精神卫生访谈信息实现长文本语音识别增强处理的方法，其中包括以下步骤：
35.(1)接收访谈语音信号，对信号进行预处理，输出特征数据；
36.(2)构建ctc声学模型，将语音信息转化为基本音素信息；
37.(3)通过语言模型和发音字典将基本音素信息解码为中文信息，获取抑郁症访谈文本。
38.作为本发明的优选实施方式，所述的步骤(1)具体包括以下步骤：
39.(1.1)接收访谈语音信号；
40.(1.2)对语音信号进行处理；
41.(1.3)对语音信号中的特征信息进行处理，输出特征数据。
42.作为本发明的优选实施方式，所述的步骤(3)具体包括以下步骤：
43.(3.1)通过抑郁症热词库构建针对医疗数据的transformer语言模型；
44.(3.2)通过语言模型和发音字典将基本音素信息解码为中文信息。
45.作为本发明的优选实施方式，所述的方法还包括调试语言模型的步骤，具体包括以下步骤：
46.(4)根据抑郁症访谈文本，调整词汇出现的概率，更新抑郁症热词库。
47.较佳地，所述的方法还包括预处理文本词汇的步骤，具体为：
48.抑郁症智能诊断与病例系统预先设置常用的精神病文本和词汇，并设置词汇出现的概率。
49.本发明的该用于实现基于精神卫生访谈信息的长文本语音识别增强处理的装置，其中所述的装置包括：
50.处理器，被配置成执行计算机可执行指令；
51.存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于精神卫生访谈信息实现长文本语音识别增强处理的方法的各个步骤。
52.本发明的该用于实现基于精神卫生访谈信息的长文本语音识别增强处理的处理器，其中所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于精神卫生访谈信息实现长文本语音识别增强处理的方法
的各个步骤。
53.本发明的该计算机可读存储介质，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的基于精神卫生访谈信息实现长文本语音识别增强处理的方法的各个步骤。
54.本发明的具体实施方式中，涉及抑郁症医患语音访谈的病历的长文本语音的识别以及智能记录生成的方法。本发明提供一种支持精神卫生领域的专有语音识别模型，易于支持asr在医患语音识别的创新研究。
55.随着人工智能在医疗领域的高速发展，医疗领域中尤其是精神科访谈场景业务中对语音识别的需求也在不断增加。然而面向公共领域的语音识别技术很难识别出精神卫生领域特有的专业信息词汇，使得精神科诊疗语音的识别准确率不高。
56.医学领域尤其是精神卫生领域是高精尖行业，专业名词多，机器识别起来难度大，不同于通用asr的技术，基于高准确率的专注于抑郁症访谈医患混合采音的asr引擎和抑郁症访谈的长文本分析能力，机器人根据该医疗规则中设定的必要话术、敏感词等信息进行识别定位，方便人工抽检时快速查看。基于语义理解和挖掘技术的文本智能引擎，可以实现高精度的asr业务识别，理解意图和上下文的理解，对话流程状态的追踪，实现优秀话术的自主识别与抽取，用户画像的标签自动抽取与绘制，以及完成患者反馈的根源分析，做到深入业务维度的分析和知识沉淀。
57.本发明涉及一种基于精神卫生访谈的长文本语音识别增强技术，本发明的asr技术可以基于自有的asr模型平台上让医生和患者进行二次训练并添加常见的精神卫生关键词，为该医疗系统定制专属精神卫生行业asr语音识别技术，并提供私有化部署，保护患者训练数据安全。本发明说明书中提及的asr模型均为如图1所示的transformer语言模型。
58.专属精神卫生行业asr保证即使通话环境复杂，也能精准地将医疗专门术语，精准实现语音转文字。
59.本发明还设计有一种面向精神卫生抑郁症领域的热词语音识别技术，在上述长文本语音识别增强的步骤后执行，首先构建ctc声学模型将语音信息转化为基本音素信息，再利用抑郁症热词库构建针对医疗数据的transformer语言模型，最后通过语言模型和发音字典将基本音素信息解码为中文信息，并通过基于上海精卫中心诊疗系统语料库的实验验证该方法的有效性。
60.医患访谈后，导入访谈混合录音，可以识别常见抑郁症句型、医疗术语，根据已经提供的精神病文本，调整词汇出现的概率，以达到快速准确识别症状词汇的效果，识别准确率达到90％以上。
61.本发明在抑郁智能诊断与病例生成系统中添加访谈录音功能的设计，并输出语音识别访谈结果。用户可以将医患访谈音频文件提交到系统中，系统将采用基于抑郁症访谈的语音识别技术，实现将音频分角色转换为文本记录。医患访谈后，导入访谈录音，可以识别常见抑郁症句型及术语，根据已经提供的精神病文本，调整词汇出现的概率，以快速准确识地别症状词汇。
62.本实施例的具体实现方案可以参见上述实施例中的相关说明，此处不再赘述。
63.可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
64.需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。
65.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
66.应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
67.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
68.此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
69.上述提到的存储介质可以是只读存储器，磁盘或光盘等。
70.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
71.采用了本发明的基于精神卫生访谈信息实现长文本语音识别增强处理的方法、装置、处理器及其计算机可读存储介质，可以识别常见抑郁症句型，术语，根据已经提供的精神病文本，调整词汇出现的概率，以达到快速，准确识别症状词汇的效果，识别准确率达到90％以上。
72.在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：热词语音识别方法、装置、设备与计算机可读存储介质与流程

基于精神卫生访谈信息实现长文本语音识别增强处理的方法、装置、处理器及其存储介质与流程

相关文献

最热文献