基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其存储介质与流程

2022-06-01 20:16:38 来源：中国专利 TAG：

1.本发明涉及人工智能自然语言处理领域，尤其涉及声纹信息处理领域，具体是指一种基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其计算机可读存储介质。

背景技术：

2.当前的通用场景的声纹分离技术主要原理如下：
3.语音信号通过音频采集设备进入系统后，首先进入预处理阶段。预处理包括端点检测和噪声消除等环节，端点检测环节对输入的音频流进行分析，自动删除音频中静音或非人声等无效部分，保留有效语音。噪声消除环节滤除背景噪声，满足用户在不同环境下使用需求。
4.经过预处理后的语音信号进入特征提取阶段，从说话人的语音信号中提取出能够表征说话人特定器官结构或行为习惯的频谱特征参数。该特征参数对同一说话人具有相对稳定性，不随时间或环境变化而变化，对同一说话人的不同话语一致，具有不易模仿性和较强的抗噪性。
5.提取到的个人声纹特征参数通过声纹识别系统的学习训练，生成用户专有的声纹模型。存储在声纹模型数据库中，与用户id一一对应。
6.当需要进行声纹识别时，声纹识别系统将采集到的语音信号进行预处理、特征提取后，得到待识别的特征参数，与声纹模型数据库中某一用户的模型或全部模型进行相似性匹配，得到特征模式之间的相似性距离度量，通过选取适当的距离度量作为门限值，得出识别结果并输出。
7.当前声纹技术的边界：
8.1、现在的大部分声纹技术研究都是有关动态实时检测方面的，而且需要多次提取声纹特征才可以工作。
9.2、声纹识别还是一种基于数据驱动的模式识别问题，目前主要待解决的服务器计算问题，现有算法占用资源过大。
10.3、现在的声纹技术需要预录制声纹才可以工作，对于医患场景不适用。

技术实现要素：

11.本发明的目的是克服了上述现有技术的缺点，提供了一种满足准确性高、操作简便、适用范围较为广泛的基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其计算机可读存储介质。
12.为了实现上述目的，本发明的基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其计算机可读存储介质如下：
13.该基于精神卫生访谈信息实现医患声纹分离处理的方法，其主要特点是，所述的
方法包括以下步骤：
14.(1)上传医患访谈音频文件；
15.(2)根据抑郁症访谈的声纹分离技术分离音频文件中的不同角色；
16.(3)根据不同角色对录音进行转写，以文本形式展示医患的对话。
17.较佳地，所述的步骤(2)具体包括以下步骤：
18.(2.1)对语音信号进行预处理；
19.(2.2)提取说话人语音的特征参数；
20.(2.3)将说话人语音的特征参数与库中存储的训练参数逐一进行模式匹配；
21.(2.4)通过相似度打分来确定该说话人的身份，输出识别结果。
22.较佳地，所述的步骤(2.1)具体包括以下步骤：
23.(2.1.1)通过一阶fir高通滤波器对语音信号进行预加重；
24.(2.1.2)对语音信号进行加窗分帧；
25.(2.1.3)对语音信号进行端点检测，进行静音段消除。
26.较佳地，所述的步骤(2.1.2)具体为：
27.对音频信号进行分段，通过窗函数对语音信号进行时域分析。
28.较佳地，所述的步骤(2.1.3)具体为：
29.通过谱熵法找出音频信号中的语音段，去掉静音或者噪声的部分。
30.该用于实现基于精神卫生访谈信息的医患声纹分离处理的装置，其主要特点是，所述的装置包括：
31.处理器，被配置成执行计算机可执行指令；
32.存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于精神卫生访谈信息实现医患声纹分离处理的方法的各个步骤。
33.该用于实现基于精神卫生访谈信息的医患声纹分离处理的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于精神卫生访谈信息实现医患声纹分离处理的方法的各个步骤。
34.该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的基于精神卫生访谈信息实现医患声纹分离处理的方法的各个步骤。
35.采用了本发明的基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其计算机可读存储介质，改善声纹识别系统的抗干扰能力，快速提取准确的、稳定的、唯一的表征说话人声音特征的信息，将多种建模方法融合以及研究新的建模方法、提出了更可靠的判决策略。
附图说明
36.图1为本发明的基于精神卫生访谈信息实现医患声纹分离处理的方法的流程图。
37.图2为本发明的基于精神卫生访谈信息实现医患声纹分离处理的方法的实施例的医患访谈声纹分离后的文本示意图。
具体实施方式
38.为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。
39.本发明的该基于精神卫生访谈信息实现医患声纹分离处理的方法，其中包括以下步骤：
40.(1)上传医患访谈音频文件；
41.(2)根据抑郁症访谈的声纹分离技术分离音频文件中的不同角色；
42.(3)根据不同角色对录音进行转写，以文本形式展示医患的对话。
43.作为本发明的优选实施方式，所述的步骤(2)具体包括以下步骤：
44.(2.1)对语音信号进行预处理；
45.(2.2)提取说话人语音的特征参数；
46.(2.3)将说话人语音的特征参数与库中存储的训练参数逐一进行模式匹配；
47.(2.4)通过相似度打分来确定该说话人的身份，输出识别结果。
48.作为本发明的优选实施方式，所述的步骤(2.1)具体包括以下步骤：
49.(2.1.1)通过一阶fir高通滤波器对语音信号进行预加重；
50.(2.1.2)对语音信号进行加窗分帧；
51.(2.1.3)对语音信号进行端点检测，进行静音段消除。
52.作为本发明的优选实施方式，所述的步骤(2.1.2)具体为：
53.对音频信号进行分段，通过窗函数对语音信号进行时域分析。
54.作为本发明的优选实施方式，所述的步骤(2.1.3)具体为：
55.通过谱熵法找出音频信号中的语音段，去掉静音或者噪声的部分。
56.本发明的该用于实现基于精神卫生访谈信息的医患声纹分离处理的装置，其中所述的装置包括：
57.处理器，被配置成执行计算机可执行指令；
58.存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于精神卫生访谈信息实现医患声纹分离处理的方法的各个步骤。
59.本发明的该用于实现基于精神卫生访谈信息的医患声纹分离处理的处理器，其中所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于精神卫生访谈信息实现医患声纹分离处理的方法的各个步骤。
60.本发明的该计算机可读存储介质，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的基于精神卫生访谈信息实现医患声纹分离处理的方法的各个步骤。
61.本发明的具体实施方式中，涉及人工智能自然语言处理的技术领域，特别涉及通过在精神卫生领域中对于医患的声纹信息对身份进行鉴别和确认的方法，包括模型的训练方法和声纹的识别方法两个部分，为每个说话人构建声纹模型。
62.本发明通过以下技术手段解决上述技术问题，解决医疗访谈中医生和患者的声纹角色分离的需求。通过以下技术手段解决上述技术问题：
63.(1)提出了改进的k-means算法。gmm模型训练算法em对模型初始值比较敏感，常用
的模型初始化方法为k-means算法，然而传统的k-means算法对初始聚类中心随机选择，很可能会导致局部收敛进而对gmm模型的初始值产生影响。本发明在对样本分布的密度以及高密度区域之间距离分析的基础上，引入了基于密度和距离的聚类中心初始化算法，并在诊疗平台上进行实验，实验结果表明改进算法的可行性。
64.(2)对ubm-map-gmm模型中gmm混合度与ubm混合度之间的关系进行研究分析,提出了一种对高斯分量进行高分选取的ubm-cm-map-gmm模型。由于gmm与ubm有相同的混合度，使得系统的计算量比较大，而且，当训练语音数据较少时，由ubm自适应得到的gmm中的部分高斯分量训练不充分，不能够完整刻画说话人的声纹特征信息，使得识别率受到影响。针对上述问题，本发明提出了一种对高斯分量进行高分优先选取的ubmcm-map-gmm模型。结果表明当声纹模型gmm的高斯分量数为通用背景模型ubm的一半时，算法的识别性能最好。
65.(3)在短语音声纹识别方法中，由于语音数据的局限性，使得训练得到的声纹模型中的部分高斯分量的准确性受到影响，进而降低识别性能，因此，本发明采用对高斯分量具有显著选择优势的ubm-cm-map-gmm模型，并将改进的k-mcans算法应用到ubm模型的训练，对短语音声纹确认方法的性能进行分析，主要从声纹确认时间和声纹确认等错误率两个方面进行研究，结果表明，该方法的等错误率降低了约2％，识别时间也缩短了1.46s。在基于ubm-cm-mapgmm模型的声纹确认实验中，将基音频率作为声纹特征添加到mfcc及其一阶差分参数的组合中。
66.本发明针对精神问题访谈环境需求的不同，需要能区分出医生和患者的语音声纹系统，可以继续做某方面访谈剧本标注性能的改善。为了从语音中提取更多的说话人声纹特征，基于大量的、充足的语音数据实现的声纹识别系统以提高系统识别率；为了增强系统的实用性，基于稀缺数据的实时声纹识别系统。让声纹识别系统的在患者数量较多的不同需求下达到满意的识别效果。
67.本发明在医患访谈后，导入访谈录音，可以在抑郁智能诊断与病例生成系统中完成声纹识别后效果的角色分离，输出语音1，语音2等不同角色的声音，分角色输出asr结果。
68.用户可以将医患访谈音频文件提交到系统中，系统将采用基于抑郁症访谈的声纹分离技术，实现将音频分角色(语音1，语音2，n)转换为文本记录。抑郁智能诊断与病例生成系统中添加访谈录音功能的设计，并输出语音角色的访谈结果。
69.声纹识别系统降噪处理具体包括以下步骤：
70.1、预处理
71.在声纹识别系统中预处理是特征提取的前一步，依次对语音信号进行预加重、加窗分帧、静音段消除后完成对语音信号的预处理，完成降噪，采用omlsa算法去噪后语音的语谱图中残留的噪声最少，同时保留的频谱信息最多。
72.2、预加重
73.音频信号的高频部分的频谱成分较小，难以分析，为了方便对音频信号进行分析，使用一阶fir高通滤波器对语音信号进行预加重从而提高其高频频谱部分。
74.3、加窗分帧
75.音频信号分段有利于对信号做短时处理以及傅氏变换，分段时让紧挨的两段音频信号间有交叠的部分从而保证了相邻数据帧之间是连续的，重叠的部分叫做帧移。实际操作时，不同的窗口选择将影响到语音信号分析的结果，在语音信号分析使用窗函数对语音
信号的时域分析，本发明采用汉明窗可以有效地克服泄漏现象。
76.4、端点检测
77.端点检测，是找出音频信号中的语音段，去掉静音或者噪声的部分。端点检测的准确性将直接影响特征质量的好坏。本发明使用谱熵法进行端点检测。谱熵法端点检测的原理通常情况下是音频信号噪声的谱熵值大于语音段的谱熵值，利用这个特性可以提取语音的端点。
78.在实际应用场景中包括以下步骤：
79.步骤1、用户上传语音录音文件到医患访谈处理系统；
80.步骤2、用户提交录音转文本请求；
81.步骤3、系统自动根据上传后的录音，启动声纹分离，区分出医生和患者不同说话人的身份；
82.步骤4、asr转写系统根据不同说法人的身份，将医患的对话以剧本形式展开。
83.本发明会改善声纹识别系统的抗干扰能力，访谈时，医患座位比较远，不固定，患者有时候携带多位家属，也比较抗拒看到录音笔，因此采集语音的效果一般。本发明进而提高声纹识别系统对各种干扰因素的抵抗能力，即提高系统的鲁棒性也是本发明技术研究的一个方向。因此，快速提取准确的、稳定的、唯一的表征说话人声音特征的信息是精神卫生领域声纹识别研究的一个重点，并将多种建模方法融合以及研究新的建模方法、提出了更可靠的判决策略。
84.声纹识别技术的理论基础是模式识别，通过将代表说话人语音的特征参数与模型库中存储的说话人模型进行逐一匹配，然后通过相似度打分来确定该说话人的身份。声纹识别的一般流程为语音前端处理、特征提取、模型训练与模型匹配。其中语音前端处理是一个非常重要的降噪的步骤，噪声环境下在语音前端处理过程中对语音信号进行去噪处理可以一定程度提高声纹识别系统的识别率。本发明按照上述声纹识别的流程依次对流程中各个步骤所涉及的相关创新进行了介绍。声纹识别技术在实际抑郁症访谈应用过程中，经常会面临以下情况:
85.(1)医患访谈监听系统中，患者往往非常敏感、警惕，说话时语句精短，这种短语音识别问题在文本相关的声纹识别系统中识别效果比较好，然而，在实际场景中患者的发音根本不可能满足文本相关识则系统的要求，即他们的发音内容没有固定的文本资料，因此，在这种情况下只能使用与文本无关的声纹识别方法。
86.(2)语音信号传输信道的不匹配问题，患者精神恍惚，左右摇摆会导致语音质量比较差，如断断续续且包含有噪音，在对语音进行处理的过程中，在去掉包含声纹信息少或者难以提取声纹特征的语音数据后很可能会使得语音数据很短。
87.(3)对包含多个说话人的语音中对说话人身份进行识别时，为了提高系统对环境的鲁棒性，需要将交叠语音、质量差的语音段进行删除，也会使得有效语音数据变短。因此，为了将声纹识别技术的应用范围更广，短语音声纹识别是急需解决的一个关键问题。声纹识别中的短语音问题对系统识别性能的影响主要体现在:当训练语音不足时，对说话人特征参数的分布情况刻画不完整，进而影响声纹模型的准确性。在声纹识别系统中，对于短语音问题，普遍采用ubm-map-gmm模型，该模型可以在一定程度上解决短时语音问题，但该模型也有其自身的缺点。在该模型中，经过自适应得到的说话人声纹模型强制服从ubm的统一
分布，当语音数据进一步变短(有效语音低于10s)时，由于训练数据不充分，很多高斯分量没有得到充分的学习，自适应得到的说话人模型与ubm模型差异并不大，从而给声纹识别带来了极大的困难。
88.本实施例的具体实现方案可以参见上述实施例中的相关说明，此处不再赘述。
89.可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
90.需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。
91.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
92.应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
93.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
94.此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
95.上述提到的存储介质可以是只读存储器，磁盘或光盘等。
96.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
97.采用了本发明的基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其计算机可读存储介质，改善声纹识别系统的抗干扰能力，快速提取准确的、稳定的、唯一的表征说话人声音特征的信息，将多种建模方法融合以及研究新的建模方法、提出了更可靠的判决策略。
98.在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出
各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音识别系统的训练方法和装置、语音识别方法和装置与流程

基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其存储介质与流程

相关文献

最热文献