电话随访语音识别方法、装置及系统与流程

2022-02-22 02:50:29 来源：中国专利 TAG：

1.本发明涉及智能医疗技术领域，具体地涉及一种电话随访语音识别方法、一种电话随访语音识别装置及一种电话随访语音识别系统。

背景技术：

2.患者完成就诊后，往往需要持续的居家观察病情发展，为避免病情恶化，需要医生持续进行患者回访，了解病情发展情况，以确保进行及时干预。为减少医生工作量，目前医院对于跟踪患者医疗风险的方法一般使用配置医疗机器人问题自动向患者进行问询的形式，在电话通话过程中收集患者回答的结果，并通过语音识别将患者回答文本化，以方便信息归档和日后的对患者的医疗数据分析。
3.目前语音识别技术在长语音识别方面有了很大进步，如果是连续的长篇对话，转换识别效果就相当好，但在电话随访使用的场景中，患者的回答都是基于问题提供的，不超过5个字的短内容回答占比相当巨大，而对于这部分短文本，语音转换识别的效果很差，同音字近音字情况甚多，甚至有时完全不知所云，导致随访信息收集与归档的质量变差，甚至需要医院医疗机构投入大量人力进行患者回答的二次辨析与标注，这造成了严重的成本问题。电话语音识别不好的原因很多，有时是因为电话通信信号不好，语音浑浊不清，有时是因为患者口音较重，说话含糊不清，这些情况在长语音情况下得到了较好的解决，但在短语音文本下使识别效果变得更差，为了能够使电话随访信息收集的效果得到提高，需要对这些短文本识别错误进行纠正。基于此，需要创造一种新的电话随访语音识别方法。

技术实现要素：

4.本发明实施方式的目的是提供一种电话随访语音识别方法、装置及系统，以至少解决现有语音识别方法不适用医患电话随访场景的问题。
5.为了实现上述目的，本发明第一方面提供一种电话随访语音识别方法，所述方法包括：为患者推送随访问题，并回收患者针对各随访问题的语音答案信息；对所述语音答案信息进行语音识别，并根据预设纠偏模型对语音识别后的答案信息进行分析，确定各随访问题的准确答案；输出包含各随访问题及各随访问题对应的准确答案的随访结果报告。
6.可选的，所述随访问题包括以下问题类型：固定选项问题和开放回答问题。
7.可选的，所述预设纠偏模型包括：针对固定选项问题的纠偏模型，包括近音错误纠偏模型、近形错误纠偏模型和近义错误纠偏模型；以及针对开放回答问题的纠偏模型，包括语义关联bert系模型。
8.可选的，所述根据预设纠偏模型对所述语音答案信息进行分析，确定各随访问题的准确答案，包括：根据预设语音识别算法对患者的语音答案信息进行识别，获得对应的文本答案信息；所述文本答案信息包括多个语音相近的模糊答案；对当前随访问题的问题类型进行判断；根据问题类型判断结果，选择当前随访问题对应的纠偏模型；根据所选择的纠偏模型，将当前随访问题对应的多个模糊答案处理为对应纠偏模型适用的输入数据，并导
入所选择的纠偏模型，筛选出与当前随访问题关联性最高的模糊答案作为所述准确答案。
9.可选的，所述根据预设纠偏模型对语音识别后的答案信息进行分析，确定各随访问题的准确答案，包括：若随访问题为固定选项问题，且该随访问题对应的模糊答案存在多种错误类型，则按照近音错误纠偏模型、近形错误纠偏模型和近义错误纠偏模型的先后顺序对该随访问题对应的模糊答案进行逐一纠偏。
10.可选的，所述根据所选择的纠偏模型，将当前随访问题对应的多个模糊答案处理为对应纠偏模型适用的输入数据，并导入所选择的纠偏模型，包括：所述近音错误纠偏模型的输入数据为：模糊答案的读音拼音加音标；其中，四个音标对应表示为1、2、3、4；所述音标设定在对应拼音字母后面；所述近形错误纠偏模型的输入数据为：模糊答案文本的对应映射向量；所述近义错误纠偏模型的输入数据为：模糊答案文本的拆解文本；所述语义关联bert系模型的输入数据为：对应随访问题文本，以及模糊答案的读音拼音加音标。
11.可选的，所述方法还包括：构建预设纠偏模型，包括：获取现有相关数据和历史随访数据作为训练样本，根据预设规则训练获得对应的预设纠偏模型；其中，近音错误纠偏模型和近形错误纠偏模型基于余弦相似性规则实现；近义错误纠偏模型和语义关联bert系模型基于transformer的bert系模型实现。
12.本发明第二方面提供一种电话随访语音识别装置，所述装置包括：推送模块，用于将随访问题推送给用户端；采集模块，用于回收患者针对各随访问题的语音答案信息；处理模块，用于对所述语音答案信息进行语音识别；纠偏模块，用于根据预设纠偏模型对语音识别后的答案信息进行分析，确定各随访问题的准确答案；所述推送模块还用于将包含各随访问题及各随访问题对应的准确答案的随访结果报告推送到医生端。
13.本发明第三方面提供一种电话随访语音识别系统，包括上述的电话随访语音识别装置。
14.另一方面，本发明提供一种计算机可读储存介质，该计算机可读存储介质上储存有指令，其在计算机上运行时使得计算机执行上述的电话随访语音识别方法。
15.通过上述技术方案，根据随访的问题类型，提前架构使用的纠偏模型。当语音识别模型识别到多个模糊答案，无法辨别准确答案时，利用预设的纠偏模型进行模糊答案纠偏，保证最终的答案符合随访问题所问场景。提高了机器人电话随访结果准确性。
16.本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
17.附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：
18.图1是本发明一种实施方式提供的电话随访语音识别方法的步骤流程图；
19.图2是本发明一种实施方式提供的电话随访语音识别装置的装置结构图。
20.附图标记说明
21.10-推送模块；20-采集模块；30-处理模块；40-纠偏模块。
具体实施方式
22.以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。
23.图2是本发明一种实施方式提供的电话随访语音识别装置的装置结构图。如图2所示，本发明实施方式提供一种电话随访语音识别装置，所述装置包括：推送模块10，用于将随访问题推送给用户端；采集模块20，用于回收患者针对各随访问题的语音答案信息；处理模块30，用于对所述语音答案信息进行语音识别；纠偏模块40，用于根据预设纠偏模型对语音识别后的答案信息进行分析，确定各随访问题的准确答案；所述推送模块10还用于将包含各随访问题及各随访问题对应的准确答案的随访结果报告推送到医生端。
24.本发明一种实施方式还提供一种电话随访语音识别系统，包括上述的电话随访语音识别装置。
25.图1是本发明一种实施方式提供的电话随访语音识别方法的方法流程图。如图1所示，本发明实施方式提供一种电话随访语音识别方法，所述方法包括：
26.步骤s10：为患者推送随访问题，并回收患者针对各随访问题的语音答案信息。
27.具体的，患者结束医院的诊疗后，往往需要在家持续进行身体恢复，且对应存在慢性疾病的患者，需要长期在家观察治疗。在这些患者居家观察恢复期间，需要进行持续的回复观察，以保证患者的病情发展方向趋于健康。若发现病情反复、新生病产生或病情恶化，需要及时进行干预治疗，避免发展为更加严重的病情。这种持续的观察治疗，往往需要患者主动到医院进行复查，即使仅需要医生通过问题确认病情，患者依旧需要到医院与医生进行面对面交流，这无疑增加了患者的出行需求依旧医生的工作量，对于医疗资源的需求也会加重，这对于需要静养的患者是极为不利的。针对这种问题，电话随访的方式越来越普及，随着人工智能的发展，机器人电话随访也越来越多。这种智能化的电话随访，虽然可以极大解放医生和患者的身体负担，但是想要获得完整且准确的随访报告，必须有足够的语音识别准确性。现存有大量的识别模型，即使是发音标准的普通话，依旧容易产生同音噪声，造成识别内容的偏差。对于日常生活来说，可以反复切换说法进行规避，但是对于患者随访来说，错误的识别内容可能对患者的病情评估带来干扰，导致无法达到随访要求。而若反复向患者确定病情，以实现准确获取信息，又势必会造成患者体验度降低，导致随访参与度下降，随访完成效果不佳的问题。
28.针对上述问题，本发明提供了一种电话随访语音识别方法，对患者回答的语音信息进行纠偏修正，筛选出多个可能答案中的最佳答案，保证语音识别的准确性，避免错误识别。
29.首先，通过电话向患者推送随访问题，患者接收到推送的语音问题后，根据语音问题进行回答，采集模块20则实时采集用户的答案信息，该答案信息便是患者的语音信息。
30.优选的，随访问题包括：固定选项问题和开放回答问题。为了提高患者随访参与度，尽量设置固定选项问题，即为患者规定回答方向，减少患者的思考时间以及回答信息量，无论是问答过程还是后续的处理过程，均会极大缩减随访时间，提高随访效率。例如，以“可以吗？”和“存在吗？”等结尾的问题，用户仅存在“是”、“否”和“不清楚”，三种可能的答案，虽然存在多种不同的表达方式，例如虽然存在“没有”、“我觉得不行”、“不愿意”、“不方便”等多种表达“否”的意思，但最终均可以归类到这三种答案类型，这种问题便为固定选项
问题。
31.而有些问题无法规定选项，例如，“请问您年龄是？”、“最近还有哪些地方存在疼痛感？”等问题，这类问题无法提供有效的指向性，需要患者根据问题进行针对性的阐述，这类问题便设定为开放回答问题。
32.对于随访问题的选择，为了提高患者体验感，针对患者病情进行针对性设定，其中基础信息可以通过既往病例获得的，均不作随访，仅在随访开始时，对患者身份进行确认，确认成功后，根据患者的既往病历生成的针对性随访问题进行推送。
33.在本发明实施例中，根据患者病情进行针对性随访，且随访问题优先设置为固定选项问题，提高随访效率和患者体验度。
34.步骤s20：对所述语音答案信息进行语音识别，并根据预设纠偏模型对语音识别后的答案信息进行分析，确定各随访问题的准确答案。
35.具体的，获得答案信息后，采集模块20将答案信息传输到处理模块30，处理模块30预存有语音识别模型，根据答案信息的语音信息，生成对应的文本，在文本生成过程中，根据已有的语音识别模型，去除大部分噪声，依旧会留下部分干扰答案，即因为患者发音导致的识别错误或出现的同音词错误。这部分错误，很难通过已有的语音识别模型进行修正，需要专门的模型进行纠偏。本发明方案提出的电话随访语音识别方法，针对上述可能存在的固定选项问题和开放回答问题两种问题类型，制定不同的纠偏模型。
36.基于固定选项问题，对大量电话随访短文本识别错误进行分析后发现，不同于普通的文本识别错误，电话随访场景下大多数识别错误都是因为文本过短的情况下，多音字多音词的干扰变大，在回答文本过短的情况下特征较少更容易出现这种情况。这在固定选项问题中，因为患者仅针对随访问题进行选项回答，所以回答文本普遍较短，所以出现错误识别的可能性也就更高。对识别错误进行分类后发现，固定选项问题的短文本识别错误基本分为三种：近音错误，近形错误，近义错误。针对这三种可能出现的错误，本发明提出了三种纠偏模型，分别为近音错误纠偏模型、近形错误纠偏模型和近义错误纠偏模型。所以，本方法首先需要进行这三种模型的构建，具体的，包括：
37.(1)构建近音错误纠偏模型。
38.具体的，近音错误即患者回答某一选项却被错误识别为近音词，这种情况还可能出现在受患者口音影响，因为汉语方言较多，不同地方的患者说普通话时会本能夹杂不同的发音习惯，根据标准普通话构建的语音识别模型，可能会因为发音习惯识别出其他的词语，这类错误是发生概率最大的。出现近音错误的多个模糊答案，读音类似，需要从中筛选出与预设固定选项最为接近的答案作为准确答案。首先，通过现有医疗知识库和语言信息库采集训练样本，这些训练样本针对疾病名称和症状可能存在多音读音和发生习惯进行过滤，例如，受发音习惯影响，“可以”可能出现“阔以”的读音，“没有”可能出现“木有”的读音。这些根据正常语音识别模型，可能无法直接获取本身的意义，但其存在的关联读音本身具有一定的特征。根据采集的读音，优选的将对应信息转换为相应的拼音，格式为拼音加音标。四个音标对应表示为1、2、3、4；所述音标设定在对应拼音字母后面。例如，“赵”字，转为拼音后就变成了“zha4o”。通过该转换方法，可以保留答案信息的完整读音特征，然后利用余弦相似性规则，进行近音错误纠偏模型训练。预设标准答案，输入多个相似读音汉字，根据预设关联规则和标准答案，保留多个模糊答案到标准答案的训练过程，获得最终的近音
错误纠偏模型。其中，余弦相似性，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。将预设选项答案作为对比标准向量，将获得的答案信息转换为多个模糊答案作为对比向量，选出其中余弦值越接近1的对比向量，对应的模糊答案即为准确答案。
39.语音模型识别去除大部分噪声后，会保留几个无法判别的模糊答案，这几个模糊答案若是存在近音情况，则判定出现近音错误，需要进行近音纠偏。将模糊答案处理为拼音加音标的格式，然后进行对应向量映射，对比该向量和预设标准选项向量，选出其中余弦值更接近1的向量，对应的答案作为准确答案。
40.(2)构建近形错误纠偏模型。
41.具体的，近形错误即患者回答某一选项却被错误识别多加了几个字词，但与原文相近。例如，患者在进行随访问题回答时，会因为表达习惯夹杂很多语气助词，这些助词会被识别成类似读音的其词语，导致语义模糊。针对这种错误，需要对回答文本进行判断，提取其中的特征，进行部分内容删减，获得准确的意思。同样利用余弦相似性，以估计选项文本与识别文本的相似度，对两段文本进行字粒度分割，将所有出现在两段文本中的字都装入到一个词袋中，对于该词袋中的每一个字，统计它在两段文本中各自出现的次数，各自组成两个向量，进行两个向量的余弦相似性计算，选出余弦值最接近1的模糊答案作为准确答案。
42.(3)构建近义错误纠偏模型。
43.具体的，近义错误即为患者回答与某一选项语义相似，但形音都有很大差别。例如，预设选项为“不行”或“可以”，患者进行回答时，回答的为“我现在不太方便”，没有直接回答预设选项相关的读音文本，但表达了“不行”的意思。再比如，“番茄”和“西红柿”本身代表的是一种东西，但存在很大的读音和字形区别。针对这种错误，常规的方案是利用深度学习中的语义相似度神经网络模型，能够有较好的效果，但电话随访场景下用户回答大多较短，选项也较短，过短文本中存在的语义特征非常稀少，所以很难直接套用该模型进行近义纠偏。本发明方案首先进行答案特征增强，具体为使用问题文本对结果文本进行特征增强。因为现实中患者的回答是针对问题的，即问题文本对于结果文本的出现生成有强选择作用，如果抛弃掉问题文本单独对结果文本进行特征抽取会浪费信息。transformer的bert系模型为nlp(neuro-linguistic programming，神经语言程序学)领域的一类预训练模型，模型使用多层双向transformer作为特征提取器，同时提取上下文信息，这极大适用于随访问题中，一问一答形式的语义关联。使用bert模型解决nlp任务需要分为两个阶段：pre-train：用大量的无监督文本通过自监督训练的方式进行训练，把文本中包含的语言知识(包括：词法、语法、语义等特征)以参数的形式编码到transformer-encoderlayer中。预训练模型学习到的是文本的通用知识，不依托于某一项nlp任务；fine-tune阶段：使用预训练的模型，在特定的任务中进行微调，得到用于解决该任务的定制模型。进行近义错误纠偏模型构建时，便遵照该步骤，首先采集大量的现有医疗数据和历史诊疗数据，构建为问题分隔符文本a 分隔符文本b的格式的训练样本数据，例如“您是男是女？$南$男”。然后使用bert系深度学习模型来对于训练数据进行文本生成的训练，最后生成具有语义相似度计算功能的模型。
44.基于开放回答问题，对大量电话随访短文本识别错误进行分析后发现，不同于普
通的文本识别错误，电话随访场景下大多数识别错误都是因为文本过短的情况下，多音字多音词的干扰变大，很多识别错误结果实际上是因为传统的基于条件随机场的方法因为序列太短特征缺失的缘故无法再对罕见多音字词进行有效概率打压导致的，例如随访问题是：“请问您是男是女？”，患者回答是：“男”，在语音识别中只收到了“nan2”这个读音，在海量文档中“南”字比“男”字出现概率更高，所以语音识别后的文本就成了“南”字，这就出现了错误。所以，为了避免这种无限定规则导致的随意识别，本发明方案将着重于挖掘短文本特征增加与提取，传统的电话随访回答纠错方法过于注重短文本本身特征，忽略了电话随访场景中问题上下文与短文本回答存在的联系，问题上下文对短文本出现是存在选择作用的，如果抛弃问题上下文，这本身就存在信息和特征的浪费。经过对识别错误案列的研判，发现在电话随访对话的场景下，初步方案为：可以将问题作为上下文query对短文本回答的特征进行增强，将问题上下文与短文本回答连接就初步变成长文本，可以实现对短文本回答的出现场景进行概率性特征的加强，同时上下文的字词间关系能够对短文本回答出现作有效特征识别。但是，问题上下文的文本过长可能会对短文本特征掩盖过于严重。且短文本的训练数据由于识别错误的原因，与上下文的字词间关系将有相当程度的损失。还存在明显会在训练中引入相当的噪音，明显降低效果的问题。
45.基于上述问题，处理进行特征增强，还需要对短文本进行有效的特征提取，在对错误情况分析后决定提取短文本的汉语拼音拼写作为短文本的提取特征，短文本的汉语拼音拼写融入了部分语音元信息，有效地规避了字词错误所带来的噪音，同时因为汉语拼音与文本标准结果有强相关关系，能够有效缓解长文本对短文本特征的掩盖问题。所以，需要进行语义关联bert系模型构建，具体的，包括：
46.首选准备训练数据，对常见的医患问答网站进行数据爬取，收集网络上医生与病患的真实问答数据，对数据进行清洗结构化，挑选出其中短回答的部分，如果短回答数据数量不足，可以在长回答部分中挑选部分文本进行截取构造训练数据。然后将源文本数据构造为问题分隔符短回答拼音的格式，将短回答汉字结果作为目标文本，这就是训练数据的格式，短回答拼音将使用“拼音音标”的格式，音标用1234表示，跟在注音字母后，例如“黄”字，转为短回答拼音后就变成了“hua2ng”。最后在nlp文本生成领域，目前基于transformer的bert系模型效果最好，bert系模型可以很好地提取文本中各部分文本对于结果生成所作的贡献，能够较好地提取对于问题上下文与短回答拼音对正确结果生成的特征关联，本技术方案选用bert系模型来对于训练数据进行文本生成的训练，最后生成具有文本纠错功能的模型。
47.处理单元识别到模糊答案后，首先判断当前随访问题的问题类型，即其为固定选项问题还是开放回答问题。判定为固定选项问题后，判断模糊答案之间存在的错误类型，若仅存在读音相近，则判定存在近音错误；若存在文本长度和字形区别，则判定存在近形错误；若存在读音和字形差别均存在区别的模糊答案，则判定存在近义错误。根据对应出现的错误类型，调取对应的纠偏模型，近形错误纠偏。若存在多种错误类型，则依照近音错误纠偏、近形错误纠偏模和近义错误纠偏的先后顺序进行逐一纠偏。若判定为开放回答问题，则调取语义关联bert系模型进行答案纠偏，获得准确的答案。
48.步骤s30：输出包含各随访问题及各随访问题对应的准确答案的随访结果报告。
49.具体的，根据纠偏模型对所有随访问题的答案就行纠偏后，便可获得所有随访问
题的准确答案。处理模块30根据随访进程，罗列随访问题和随访答案，获得随访报告，然后通过推送模块10将该随访报告推送到医生端。医生便可根据该随访报告对患者病情进行评估，是否需要患者到医院进行增加检查，减少医生工作量的同时，极大减小了患者的就诊难度，提高了随访效率，也保证了患者病情的持续观察。
50.本发明实施方式还提供一种计算机可读储存介质，该计算机可读存储介质上储存有指令，其在计算机上运行时使得计算机执行上述的电话随访语音识别方法。
51.本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
52.以上结合附图详细描述了本发明的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。
53.此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种点歌方法、装置、电子设备及计算机可读存储介质与流程

电话随访语音识别方法、装置及系统与流程

相关文献

最热文献