一种用于语音属性的机器学习的系统和方法与流程

2022-03-19 16:30:18 来源：中国专利 TAG：

一种用于语音属性的机器学习的系统和方法
1.相关申请
2.本技术要求2019年5月30日提交的美国临时专利申请62/854,652、2020年3月13日提交的美国临时专利申请62/989,485和2020年5月1日提交的美国临时专利申请63/018,892的优先权，其全部公开内容通过引用明确并入本文。
技术领域
3.本发明总体涉及机器学习技术领域。更具体地说，本发明涉及用于语音属性的机器学习的系统和方法。

背景技术：

4.在机器学习领域，人们对开发基于计算机的机器学习系统非常关注，该系统可以识别人的声音的各种特征。此类系统在保险业中特别受关注。随着人寿保险行业越来越多地采用加速承保，主要的担忧是那些不自我认定为吸烟者的吸烟者的保费流失。例如，据估计，60岁的男性吸烟者为20年定期人寿保单支付的保费将比非吸烟者多付大约50000美元。因此，吸烟者有明显的动机试图避免自我识别为吸烟者，据估计，50％的吸烟者在人寿保险申请中没有正确的自我识别。作为回应，运营商正在寻找实时识别吸烟者的解决方案，以便那些被识别出吸烟可能性高的人可以通过更全面的承保流程被搜寻(routed)。
5.大量学术文献表明，吸烟会刺激声襞(如声带)，这表现为人的声音的许多变化，如基频变化、扰动特征(如振幅微扰(shimmer)和基频微扰(jitter))和震颤特征。这些变化使得通过分析他们的声音来识别单个说话者是否是吸烟者成为可能。
6.除了检测诸如说话者是否吸烟者之类的语音属性外，能够通过对说话者的语音分析以及对诸如视频分析、照片分析等其他属性的分析来检测说话者的其他属性也具有巨大的价值。例如，在医疗领域，根据对个体的声音或从声道发出的其他声音(如呼吸系统疾病、神经系统疾病、生理疾病和其他损伤和状况)的评估，检测个体是否患有疾病是非常有益的。更进一步，通过定期分析个体的声音来检测上述状况随时间的进展状况，并在检测到关注的状况时采取各种行动(例如物理上定位个体、向一个或多个个体提供健康警报(例如，有针对性的基于社区的警报、较大的广播警报等)、根据检测到的状况启动医疗护理等)将是有益的，状况。此外，能够使用常见的通信设备(如移动电话、智能扬声器、计算机等)远程进行社区监测和疾病及其他状况的检测将是非常有益的。
7.因此，需要用于机器学习的系统和方法来学习语音和其他属性，并检测与个体和社区相关的各种状况和标准。这些和其他需求由本公开的系统和方法解决。

技术实现要素：

8.本发明涉及用于语音和其他属性的机器学习的系统和方法。系统首先接收输入数据，输入数据可以是人类语音，例如个人讲话的一个或多个录音(例如独白、演讲等)和/或两个或多个说话者之间的一个或多个对话(例如，录音对话、电话对话、互联网语音协议“voip”对话、小组对话等)。然后，该系统通过执行说话者分类(diarization)来分离关注的说话者，该分类根据说话者身份将音频流划分为同质段。接下来，系统从关注的说话者的分离语音中分离预定的声音，例如元音，以生成特征。这些特征是描述说话者的声音在小的时间间隔内声谱的数学变量。然后，系统总结特征以生成描述说话者的变量。最后，系统生成预测模型，该预测模型可应用于声音数据以检测人的期望特征(例如，该人是否吸烟)。例如，系统生成由标签和生成的泛函组成的建模数据集，其中标签指示说话者的性别、年龄、吸烟者状态(例如，吸烟者或非吸烟者)等。预测模型允许使用吸烟者状态标签作为目标变量和其他标签(如性别、年龄等)作为预测变量对吸烟者状态进行建模。
9.还提供了用于基于对语音样本或其他类型的数字存储信息(例如，视频、照片等)的分析来检测说话者的一个或多个属性的系统和方法。从一个或多个来源获得个人的音频样本，例如预录制样本(例如，语音邮件样本)或从说话者录制的现场音频样本。这些样本可以使用多种设备(例如智能扬声器、智能电话、个人计算机系统、网络浏览器或能够记录说话者语音样本的其他设备)获得。系统使用预测语音模型处理音频样本，以检测是否存在预先确定的属性。如果存在预先确定的属性，则系统可以向用户指示该属性(例如，使用用户的智能手机、智能扬声器、个人计算机或其他设备)，并且可选地，可以采取一个或多个附加操作。例如，系统可以识别用户的物理位置(例如，使用一个或多个地理定位技术)、执行聚类分析以识别具有相同(或类似)属性的个体的集群是否存在并被定位、广播一个或多个警报或将检测到的属性传输到一个或多个第三方计算机系统(例如，通过使用加密的安全传输，或通过一些其他安全手段)以进行进一步处理。可选地，系统可以从个体获得进一步的语音样本(例如，随着时间的推移周期性地)，以便检测和跟踪医疗状况的开始或这种状况的进展。
附图说明
10.本发明的上述特征将从以下结合附图的详细描述中显而易见，其中：
11.图1是示出本公开的整体系统的示意图；
12.图2是示出由本公开的系统执行的总体处理步骤的流程图；
13.图3是示出应用于各种不同数据的本公开的预测语音模型的图；
14.图4是示出能够用于实现本公开的系统的示例硬件和软件组件的图；
15.图5是示出能够由本公开的预测语音模型执行的附加处理的流程图；
16.图6是示出了由本公开的系统执行的处理步骤的流程图，该处理步骤用于通过分析个体的语音样本来检测一个或多个医疗状况，并响应于检测到的医疗状况采取一个或多个行动；
17.图7是示出由系统执行的用于从个体获取一个或多个语音样本的处理步骤的流程图；
18.图8是示出由系统执行的处理步骤的流程图，该处理步骤用于响应于一个或多个检测到的医疗状况来执行各种行动；和
19.图9是示出可使用本发明操作的各种硬件组件的示意图。
具体实施方式
20.本公开涉及用于语音和其他属性的机器学习的系统和方法，如下面结合图1至9详细描述的。本文所使用的术语“声音”是指可以从人的声道发出的任何声音，例如人声、语音、歌唱、呼吸、咳嗽、噪音、音色、语调、节奏、语音模式或从声道发出的任何其他可检测的可听信号。
21.图1是说明本公开的系统的示意图，本公开的系统总体上用10表示。系统10包括语音属性机器学习系统12，其接收输入数据16和预测语音模型14。语音属性机器学习系统12和预测语音模型14处理输入数据16以检测说话者是否具有预定特性(例如，如果说话者是吸烟者)，并生成语音属性输出数据18。下面将更详细地讨论语音属性机器学习系统12。重要的是，机器学习系统12允许以比现有系统更高的精度检测各种说话者特性。此外，系统12可以检测与其他类型的信息(例如说话者的生活方式、人口统计、社交媒体、处方信息、信用信息、过敏、医疗状况、医疗问题、购买信息等)正交的语音成分。
22.输入数据16可以是人类语音。例如，输入数据16可以是说话的人的一个或多个记录(例如，独白、讲话、唱歌、呼吸、从声道发出的其他声音信号等)、两个或多个说话者之间的一个或多个对话(例如，记录的对话、电话对话、互联网语音协议“voip”对话、小组对话等)。输入数据16可以从数据集以及从说话者的现场(例如，实时)或录制的语音模式中获得。
23.此外，系统10可以使用训练数据集来训练，例如来自宾夕法尼亚大学语言数据协会的mixer6数据集。mixer6数据集包含大约600条双向电话对话的说话者的录音。每次对话大约持续十分钟。mixer6数据集中的每个说话者都标记有其性别、年龄和吸烟者状态。本领域技术人员将理解，mixer6数据集是通过示例的方式讨论的，并且一个或多个说话者/对话的其他数据集可以用作输入数据14。
24.图2是说明由系统10执行的总体处理步骤的流程图，该总体处理步骤总体上用方法20表示。在步骤22中，系统10接收输入数据16。举例来说，输入数据16可以包括两个说话者之间的电话对话。在步骤24中，系统10分离关注的说话者(例如，单个说话者)。例如，系统10可以执行根据说话者身份将音频流划分为同质段的说话者分割(diarisation)(或分类)过程。
25.在步骤26中，系统10从关注的说话者的分离语音中分离预定声音。例如，预定的声音可以是元音。元音发音比大多数其他发音更能揭示语音属性。医生要求患者在检查喉咙时发出“啊(aaaahhhh)”的声音(例如，持续的发音或临床讲话)就证明了这一点。声音属性可以包括频率、扰动特征(例如，振幅微扰和基频微扰)、震颤特征、持续时间、音色或人的声音的任何其他属性或特征，无论是在人类听力范围内、低于该范围(例如，亚音速)还是高于该范围(例如，超音速)。预定的声音还可以包括辅音、音节、术语、喉音等。
26.在第一实施例中，系统10进入步骤28。在步骤28中，系统10生成特征。这些特征是描述说话者的声音在小的时间间隔内声谱的数学变量。例如，特征可以是梅尔倒频谱系数(mel-frequency cepstral coefficients)(“mfcc”)。mfcc是基于非线性梅尔频率标度上对数功率谱的线性余弦变换，构成声音短程功率谱表示的系数。
27.在步骤30中，系统10总结特征以生成描述说话者的变量。例如，系统10聚合特征，使得每个结果汇总变量(下文称为“泛函”)处于说话者级别。更具体地说，这些泛函是对整
个记录进行总结的特性。
28.在步骤32中，系统10生成预测语音模型14。例如，系统10可以生成包含标签和生成的泛函的建模数据集。标签可指示说话者的性别、年龄、吸烟者状态(例如，吸烟者或非吸烟者)等。预测语音模型14允许通过使用吸烟者状态标签作为目标变量，以及其他标签(例如，性别、年龄等)作为预测变量，对吸烟者状态进行预测建模。预测语音模型14可以是回归模型、支持向量机(“svm”)监督学习模型、随机森林(random forest)模型、神经网络等。
29.在第二实施例中，系统10进入步骤34。在步骤34中，系统10从预定声音生成i向量。i向量是基于通用背景模型(ubm)的无监督程序的输出。ubm是高斯混合模型(gmm)或其他无监督模型(例如，深度信念网络(dbn)等)在大量数据(通常比标记数据集多得多的数据)上进行训练。标记数据用于监督分析，但由于它只是可用总数据的子集，因此可能无法从原始特征向量中捕获预期的完整概率分布。ubm将原始特征向量重新表示为后验概率，经过简单的降维，结果就是i向量。这一阶段也称为“总体可变性建模”，因为其目的是对所考虑的数据范围内可能遇到的全部可变性进行建模。中等维度的向量(例如，n-d)的n维多元概率分布不会由标记数据的较小子集充分建模，因此，ubm利用标记和未标记的总可用数据更好地填充n-d概率密度函数(pdf)。这可以更好地为系统在测试或实际使用过程中可能遇到的特征向量的总体可变性做好准备。然后，系统10进入步骤32并生成预测模型。具体地，系统10使用i向量生成预测语音模型14。
30.可实现预测语音模型14以检测说话者的吸烟者状态以及其他说话者特征(例如，年龄、性别等)。在一个示例中，可在电话系统、记录音频的设备、移动应用程序等中实现预测语音模型14，并可处理两个说话者(例如，保险代理人和受访者)之间的对话，以检测受访者的吸烟者状态。此外，本公开中公开的系统和方法可适于检测说话者的进一步特征，例如年龄、欺骗、抑郁、压力、一般病理学、精神和身体健康、疾病(例如帕金森氏症)和其他特征。
31.图3是示出应用于各种不同数据的预测语音模型14的图。例如，预测语音模型14可以处理人口统计数据52、语音数据54、信用数据56、生活方式数据58、处方数据60、社交媒体/图像数据62或其他类型的数据。本公开的系统和方法可以处理各种不同的数据，以确定说话者的特征(例如，吸烟者、年龄等)。
32.图4是示出可以在其上实现本公开的系统的计算机系统102的硬件和软件组件的图。计算机系统102可以包括存储设备104、机器学习软件代码106、网络接口108、通信总线110、中央处理单元(cpu)(微处理器)112、随机存取存储器(ram)114以及一个或多个输入设备116(例如键盘、鼠标等)。计算机系统102还可以包括显示器(例如，液晶显示器(lcd)、阴极射线管(crt)等)。存储设备104可以包括任何合适的计算机可读存储介质，例如磁盘、非易失性存储器(例如，只读存储器(rom)、可擦除可编程rom(eprom)、电可擦除可编程rom(eeprom)、闪存、现场可编程门阵列(fpga)等)。计算机系统102可以是联网的计算机系统、个人计算机、服务器、智能电话、平板计算机等。注意，计算机系统102不需要是联网的服务器，实际上可以是独立的计算机系统。
33.本公开提供的功能可以由软件代码106提供，软件代码可以体现为存储在存储设备104上的计算机可读程序代码，并且由cpu112使用任何合适的、高或低级别的计算语言，如python、java、c、c 、c#、r、.net、matlab，以及例如kaldi和opensmile等工具。网络接口108可以包括以太网网络接口设备、无线网络接口设备或允许服务器102经由网络通信的任
何其他合适设备。cpu112可以包括具有能够实现和运行机器学习软件代码106(例如，英特尔处理器)的任何合适结构的任何合适单核或多核微处理器。随机存取存储器114可以包括大多数现代计算机典型的任何合适的高速随机存取存储器，例如动态ram(dram)等。
34.图5是示出了总体上用120表示的能够由本公开的预测语音模型执行的附加处理的流程图。可以看出，输入语音信号122由本公开的系统获得并处理。如下文将更详细地讨论的，语音信号122可从多种来源获得，例如预记录的语音样本(例如，从人的语音信箱、从专门从该人获得的记录或从一些其他来源(包括社交媒体帖子、视频等))。接下来，在步骤124中，对语音信号122执行音频预处理步骤。该步骤可涉及信号122的数字信号处理(dsp)、音频分割和说话者分类。注意，可以执行附加的“质量控制”预处理步骤，例如检测不包括用于语音分析的相关信息(例如，狗吠声)的异常值、语音信号中的检测和降级(degredation)以及信号增强。这样的质量控制步骤可以确保接收到的信号包含用于处理的相关信息，并且具有可接受的质量。说话者分类确定“谁何时发言”，这样系统会根据说话者身份标记每个时间点。当然，在语音信号122仅包含单个说话者的状况下，可能不需要说话者分类。
35.接下来，三个并行子系统(“集成”)应用于预处理音频信号，包括感知系统126、泛函系统128和深度卷积神经网络(cnn)子系统130。感知系统126应用人类听觉感知和经典统计方法进行鲁棒预测。泛函系统128生成大量衍生函数(各种非线性特征变换)，并且使用特征选择和重组的机器学习方法来分离最具预测性的子集。深度cnn子系统130将一个或多个cnn(通常在计算机视觉中使用)应用于音频信号。接下来，在步骤132中，将集成模型应用于子系统126、128和130的输出，以生成语音度量134。集成模型获取子系统126、128和130的后验概率及其相关的置信度得分，并将其组合以生成最终预测。注意，除了语音衍生特征之外，图5中讨论的处理步骤还可以说明关于对象(说话者)的已知辅助信息。
36.本文讨论的处理步骤可以用作许多语音分析问题的框架。此外，处理步骤可以应用于检测超出吸烟者验证范围的各种特征，例如年龄(老年语声(prebyphonia))、性别、一般嗓音病理、地区口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、抑郁症、干燥综合征(syndrome)、关节炎、痴呆症、帕金森病、精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平，以及本文将结合图6讨论的各种医学状况。
37.图6是示出由本公开的系统执行的处理步骤的流程图，该处理步骤总体上以140表示，用于通过分析个人的语音样本来检测一个或多个预定属性，并响应于检测到的属性采取一个或多个行动。本文所述的处理步骤可以应用于检测基于声音分析的多种属性，包括但不限于以下医疗状况，如呼吸道症状、小病(ailments)和疾病(例如普通感冒、流感、2019冠状病毒疾病(covid-19)、肺炎或其他呼吸疾病)、神经系统疾病/失调(例如，阿尔茨海默病、帕金森病、痴呆症、精神分裂症等)、情绪、年龄、生理特征或在个人的声音的可感知变化中表现出来的任何其他属性。
38.从步骤142开始，系统获得说话的人的第一音频样本。如将在图7中讨论的，可以通过多种方式获得音频样本。接下来，在步骤144中，系统使用预测语音模型(例如本文公开的语音模型)处理第一音频样本。如果需要，此步骤还可能涉及将音频样本保存在音频样本数据库中，以供将来使用和/或训练目的。在步骤146中，基于预测语音模型的输出，系统确定是否检测到预定属性(例如，但不限于，医疗状况)。或者，系统还可以确定此类属性的严重性。如果作出肯定的确定，则发生步骤148，其中系统确定是否应向用户指示检测到的属性。
如果作出肯定的确定，则发生步骤150，其中系统向用户指示检测到的医疗状况。可通过多种方式进行指示，例如通过在用户的智能手机或计算机屏幕上显示状态指示、将检测到的状态以声音方式传达给用户(例如，通过在他或她的智能手机上、通过智能扬声器、使用计算机系统的扬声器等向用户播放语音提示)、向用户发送包含检测到的状况指示的消息(例如，电子邮件、文本消息等)或通过某种其他通信方式。有利地，系统可以处理这些属性，以便获得关于个体的附加相关信息，如果需要，或者根据一个或多个标准对个体的医疗护理进行分类。
39.在步骤152中，确定是否应发生响应于检测到的属性的附加行动。如果是，则发生步骤154，其中系统执行一个或多个附加行动。下面结合图8更详细地描述此类行动的示例。在步骤156中，确定是否应获得该人的进一步音频样本。如果是，则发生步骤158，其中系统获得该人的进一步音频样本，并且重复上面讨论的处理步骤。有利地，通过处理该人的进一步音频样本(例如，通过周期性地要求该人记录他们的声音，或者通过周期性地从源获取更新的存储音频样本)，系统可以检测用户正在经历的医疗状况的开始和进展。例如，如果系统(通过处理初始音频样本)检测到该人患有诸如covid-19之类的病毒性疾病(或该人目前具有与此类疾病相关的属性)，则对该人的后续音频样本(例如，一天或更多天之后的该人的音频样本)的处理可以提供该人是否正在好转或是否需要更紧急的医疗护理的指示。
40.图7是说明总体上用160表示的数据获取步骤的流程图，该数据获取步骤由系统执行，用于从个体获取一个或多个语音样本。如上文结合图6的步骤142所述，系统可以通过多种方式获得人的声音的音频样本。在步骤162中，系统确定是否应从预录制的样本中获取该人的语音样本。如果是，则发生步骤164，其中系统检索该人的声音的预录制样本。这可以例如从该人的语音邮件问候的记录、从发布在社交媒体平台或其他服务上的记录的音频样本或视频剪辑、或该人的语音的某些其他预录制的样本(例如，存储在数据库中的一个或多个音频样本)中获得。否则，发生步骤166，其中确定是否获得该人的声音的现场样本。如果是，则发生步骤168，其中指示该人说话，并且然后在步骤170，系统记录该人的声音样本。例如，该系统可以使用声音或视觉提示(例如，显示在该人的智能手机屏幕上，或通过语音合成或预录提示进行声音提示)提示该人说出简短或较长的短语(例如，效忠誓言(pledge of allegience))，然后该人可以说出该短语(例如，进入个人智能手机的麦克风等)，并且系统可以录制该短语。结合图7讨论的处理步骤也可用于获得说话的人的未来样本，例如结合图6的步骤158，以允许将来监测和检测该人正在经历的医疗状况(或其进展)。
41.图8是说明总体上以180表示的行为处理步骤的流程图，该行动处理步骤由系统执行，用于响应于一个或多个检测到的属性执行各种行动。如上文结合图6的步骤154所述，可以采取多种行动。例如，从步骤182开始，可以作出关于是否响应于诸如医疗状况之类的属性的检测来确定人的物理位置(地理位置)的确定。如果是，则发生步骤184，其中系统获得该人的位置(例如，通过轮询该人的智能电话的gps接收器确定的gps坐标、存储在数据库中的该人的邮寄地址或家庭地址、蜂窝电话信号的射频(rf)三角测量以确定用户的位置等)。
42.在步骤186中，可以作出关于是否响应于诸如但不限于医疗状况的属性的检测而执行聚类分析的确定。如果是，则发生步骤188，其中系统执行聚类分析。例如，如果系统确定该人患有诸如流感或covid-19之类的高度传染性疾病，则该系统可以查阅以前被认定为与该人有相同或相似症状的个体数据库，确定这些人在地理上是否与该人相近，然后确定
一个或多个地理区域或“集群”具有高密度的疾病实例。这些信息对于医疗专业人员、政府官员、执法官员和其他人在建立有效隔离或采取其他措施以隔离此类疾病群和防止疾病进一步传播方面具有非常重要的价值。
43.可以在步骤190中确定是否广播警报以响应检测到的属性。如果是，则发生步骤192，其中广播警报。此类警报可针对一个或多个个体、小群体个体、大群体个体、一个或多个政府或卫生机构或其他实体。例如，如果系统确定该个体患有高度传染性疾病，则可以向地理位置接近该个体或与该个体相关的其他个体广播消息，以指示应主动采取措施防止疾病的进一步传播。此类警报可以通过电子邮件、短信、声音、视觉或任何其他方式发出。
44.可以在步骤194中确定是否应将检测到的属性的进一步处理发送给第三方以进行进一步处理。这种传输可以使用加密或其他方式安全地执行。如果是，则发生步骤196，其中将检测到的状况发送给第三方以进行进一步处理。例如，如果系统检测到个体患有感冒(或该个体表现出感冒症状)，则可将检测到的状况指示发送给医疗保健提供者，以便自动安排体检预约。此外，如果需要，将检测到的状况传输给政府或行业研究实体，以便对检测到的状况进行进一步研究。当然，如果需要，可以执行检测到的状况的其他第三方处理。
45.图9是示出可使用本发明操作的各种硬件组件的示意图。该系统可以实现为由处理服务器202执行的语音属性检测软件代码200。当然，需要注意的是，系统可以利用一个或多个便携式设备(例如智能手机、计算机等)作为系统的处理设备。例如，用户可以将能够执行本公开的特征的软件应用程序下载到他或她的智能电话，该软件应用程序可以执行本文公开的所有过程，包括但不限于检测说话者属性并采取适当的行动，而无需使用服务器。服务器202可访问语音样本数据库204，其可存储预先记录的语音样本。服务器202可以通过网络206(包括因特网)与多种设备(安全地，如果需要，使用加密或其他安全通信方法)通信，多种设备为例如智能扬声器208、智能电话210、个人计算机或平板计算机212、语音邮件服务器214(用于从语音邮件问候语中获取个人语音样本)或一个或多个第三方计算机系统216(包括但不限于政府计算机系统、医疗保健提供商计算机系统、保险提供商计算机系统、执法计算机系统或其他计算机系统)。在一个示例中，智能扬声器208、智能电话210或个人计算机212可提示某人说出短语。该短语可由任一设备记录并传输到处理服务器202，或实时流式传输到处理服务器202。服务器202可以将短语存储在语音样本数据库204中，并使用系统代码200处理短语以确定本文讨论的说话者的任何属性(例如，如果说话者是吸烟者、如果说话者正在患病、说话者的特征等)。如果服务器202检测到属性，则系统可以执行本文讨论的任何行动(例如，上面结合图6至8讨论的任何行动)。更进一步地，应注意，如结合图6至9所述的系统的实施例也可应用于结合图1至5所讨论的吸烟者识别特征。
46.需要注意的是，本文讨论的语音样本可以由系统进行时间标记，以便系统可以说明在记录之间可能发生的人的衰老。此外，可以使用在计算机系统(例如智能手机、平板电脑等)上执行的定制软件应用程序(“app”)来获取语音样本。此类应用程序可以直观地提示用户说什么以及何时开始说话。此外，该系统还可以通过分析语音样本检测通过由成像模式(如计算机断层扫描(ct)成像)检测到的生理异常(例如，肺部变化)。此外，通过对语音样本进行分析，系统可以区分疾病的程度，如轻度疾病和完全(严重)疾病。此外，该系统可以在更简单的基础上运行，以便通过对语音样本的分析来确定个人是否生病。更进一步，系统对语音样本的处理可以确定该人目前是否患有过敏症。
47.本发明的系统和方法的另一个优点是，它允许医疗专业人员确定当面治疗或测试是否不可用、不安全或不切实际。此外，可以设想，通过本公开的系统获得的信息可以与其他类型的数据相结合，例如生物测定数据、医疗记录、天气/气候数据、图像、日历信息、自我报告信息(例如，医疗、健康或情绪信息)或其他类型的数据，以便加强监测和治疗、发现感染途径和模式、分类资源等。更进一步，雇主或保险提供者可以利用该系统核实声称患病的个体是否实际上正在患病。此外，雇主可以使用该系统来确定是否雇用被确认患有疾病的个体，并且该系统还可以用于跟踪、检测和/或控制患病个体进入企业或场所(例如进入商店、游乐园、办公楼(包括此类建筑的员工和雇员)、其他场馆等)以及用于确保企业遵守当地健康规范。更进一步，该系统还可用于协助个人筛查(如机场筛查等)，以及用于协助医疗社区监测和诊断。此外，设想该系统可以与天气数据和图像数据一起运行，以确定可能发生过敏或其他疾病的地区，并监测这些地区的个人健康。在这方面，该系统可以获得季节性过敏水平数据、树木或其他树叶的航空图像、关于草的信息等，以便预测过敏。此外，该系统还可以处理航空或地面图像表型数据。这些信息，连同系统执行的声音属性检测，可用于确定个人是否患有一种或多种过敏，或通过将其与特定活性过敏原联系起来来隔离特定过敏。此外，系统可以处理此类信息以控制过敏(例如，确定检测到的属性不是过敏反应)或诊断过敏。
48.如上所述，系统可以处理从人的声道发出的各种声学信息的记录，例如语音、手势、呼吸声等。关于咳嗽，系统还可以处理该人咳嗽的一个或多个音频样本，并使用本文讨论的预测模型分析此类样本，以确定一种或多种疾病或医疗状况的发生、存在或进展。
49.本文描述的系统和方法可以与各种其他系统集成或与之一起操作。例如，该系统可以与现有的社交媒体应用程序(如facebook)一起运行，以执行联系人跟踪或聚类分析(例如，如果系统确定个体患有疾病，它可以咨询社交媒体应用程序以确定与该个体有接触的个体，并使用社交媒体应用程序发出警报等)。此外，该系统可以与现有的电子邮件应用程序(如outlook)集成，以获取联系信息、传输信息和警报等。更进一步，本公开的系统可以获得关于飞机的旅行清单、入境口岸、安全登记时间、公共交通使用信息或其他交通相关信息的信息，以便定制与一个或多个检测到的属性相关的警报或警告(例如，响应于系统检测到的一个或多个医疗状况)。
50.进一步设想，本公开的系统和方法可以结合认证应用程序来使用。例如，本公开的系统和方法检测到的各种语音属性可用于认证个人或组群的身份，并调节对公共空间、政府机构、旅行服务或其他资源的访问。此外，可以要求使用本公开的系统和方法作为允许个体参与活动的条件，以确定适当的人实际上正在进行活动，或者作为确认特定活动实际上已经由个体或个人团体进行的条件。更进一步，个人使用本公开的系统的程度可与可归因于该个体的分数挂钩。
51.本公开的系统和方法还可以与非音频信息(例如视频或图像分析)协同运作。例如，系统可以随时间的推移监控一个或多个视频或照片，或者对人的面部运动进行分析，并且这种监控/分析可以与本公开的音频分析特征相结合，以进一步确认预定义属性或状况的存在。更进一步，使用视频或图像的运动监控可用于协助音频分析的分析(例如，确认从音频样本检测到的属性是准确的)。更进一步，视频/图像分析(例如，通过面部识别或其他计算机视觉技术)可用作检测到的语音属性的证明，或用于认证检测到的说话者实际上是
说话的实际人。
52.本发明的系统和方法能够检测到的各种医疗状况可以与说话者身体位置(例如，仰卧)的分析相结合，这可以影响结果。此外，可以使用系统对视频或图像的分析来补充特定位置的确认，或者与说话者期望的身体位置相关的指令。
53.有利地，本公开的系统和方法的检测能力可以检测对个体不明显或不立即明显的属性(例如，医疗状况或症状)。例如，所述系统和方法可以检测人类可能无法感知的音色、频谱或其他音频特征的微小变化，并且可以使用所检测到的变化(无论是立即检测到的还是随时间检测到的)来确定属性是否存在。此外，即使本公开的系统的单个设备不能识别特定的语音属性，也可以通过聚合信息/结果来检测这些属性，其中每个设备都执行本文所讨论的语音分析。在这方面，该系统可以创建“热图(heat map)”，并识别可能需要进一步关注和资源的微小干扰。
54.还应注意，本公开的系统和方法可用于检测和补偿背景噪声，以便获得更好的音频样本以供分析。在这点上，系统可以使诸如智能扬声器或智能电话之类的设备发出一种或多种预定持续时间的声音(例如，音调、频率范围、“啁啾声(chirps)”等)，这可以由系统分析以检测说话者周围的声学条件并适应这种声学条件，以确定说话者是开放环境还是封闭环境、检测环境是否有噪声等。关于声学环境的信息可以有助于将适当的信号增强算法应用于由于诸如噪声或混响之类的降级类型而降级的信号。与此类设备相关的其他传感器，如压力传感器或气压计，可用于帮助改善记录和伴随的声学条件。类似地，系统可以感知可能对视频和图像数据产生不利影响的其他环境条件，并对这些条件进行补偿。例如，系统可以使用一个或多个传感器检测是否存在不利的照明条件、光的方向和强度、是否存在云层或其他环境条件，并且可以调整视频/图像捕获设备作为响应以减轻此类不利条件的影响。(例如，通过自动调整一个或多个光学参数，如白平衡等)。这种功能可以增强系统检测个人的一个或多个属性(例如肤色、年龄等)的能力。
55.本发明的系统和方法可与远程医疗系统一起具有广泛的适用性和用途。例如，如果本公开的系统检测到某人患有呼吸系统疾病，则该系统可与远程医疗应用程序对接，该远程医疗应用程序将允许医生远程检查该人。
56.当然，本公开的系统和方法不限于医疗状况的检测，事实上，本公开的系统可以检测各种其他属性，例如中毒、受药物影响或情绪。特别是，系统可以通过分析声音来检测一个人是否喝得太多或是否药物(如大麻)中毒(或受损)，并且系统可以采取警报和/或行动作为响应。
57.本公开的系统和方法可以提示个人在初始时间点说出特定短语(例如，“你好，世界”)，并记录这样的短语，并且在随后的时间点，系统可以使用语音到文本软件处理记录的短语，以将记录的短语转换成文本，然后在显示器上向用户显示文本，并提示用户重复该文本，然后再次记录该短语，使得系统获得该人说出完全相同的短语的两个记录。这些数据在允许系统检测人的声音随时间的变化方面非常有益。更进一步地，预期系统可以将音频分析与到各种其他类型的数据/分析相结合，例如发声和临床语音结果、图像结果(例如，肺部图像)、注释、诊断或其他数据。
58.还应注意，本公开的系统和方法可以使用多种口语进行操作。此外，该系统还可与多种测试结合使用，如常规医学测试、“驾车(drive-by)”测试等，以及航空表型分析。此外，
系统不需要使用个人识别信息(pii)进行操作，但能够这样做，并且在这种状况下，实施适当的数字保护措施以保护此类pii(例如，声音标记化以缓解数据泄露)等等。
59.本公开的系统和方法可以提供更多的好处。例如，该系统可以通过分析声音模式，方便、快速地识别中毒(例如，由于吸食大麻)和与驾驶、工作时间内发生的任务等活动相关的潜在损害。此外，智能手机上的摄像机可用于捕获视频记录以及检测到的音频属性，以改进反欺诈技术(例如，通过面部识别来识别说话者)，或捕获可能与各种健康状况相关的面部运动(例如，眼睛、嘴唇、脸颊、鼻孔等)。此外，可以通过确保用户的数据隐私(例如，通过使用加密、数据访问控制、基于许可的控制、区块链等)、提供激励措施(例如，药店或杂货店相关项目的折扣)、使用匿名或分类数据(如评分或健康等级)来改进此类数据的众包等。
60.基因组数据可用于将检测到的医疗状况与病毒株水平相匹配，以便根据病毒随时间的突变更准确地识别和区分病毒的地理路径。此外，语音模式数据和视频数据可用于与人力资源(hr)相关的事件，例如，在招聘时建立健康个人的基线等。更进一步，系统可根据检测到的医疗状况，为每个用户生成与允许的地理位置相关的定制警报(例如，根据检测到的疾病，可能不允许进入剧院，但可能允许进行短暂的杂货店购物)。此外，系统检测到的声音模式可以链接到以前医疗就诊的健康数据，或者健康数据可以被分类到分数或频带中，然后作为元数据链接到声音模式。声音模式数据可以与来自可穿戴设备的数据同时记录，可穿戴设备可用于收集各种健康状况数据，如心率等。
61.还应注意，本公开的系统和方法可以通过处理流行病学数据进行优化。例如，此类数据可用于指导来自特定人群的特定语音样本的处理，和/或影响本公开的语音模型在处理期间的加权方式。使用流行病学信息的其他优势也是可能的。此外，流行病学可用于控制和/或影响警报的生成和分发，以及根据需要调度和应用医疗和其他资源。
62.还应注意，本发明的系统和方法可以处理个体气道或其他身体部位的一个或多个图像(可以使用智能手机的摄像头和/或使用任何合适的检测技术，例如光学(可见)光、红外、紫外和三维(3d)图像)数据，例如点云、光探测和测距(lidar)数据等)，用于检测一个或多个呼吸或其他医疗状况(例如，使用经过适当训练的计算机视觉技术，例如经过训练的神经网络)，并且可以针对检测到的状况采取一个或多个行动，例如，生成警告并向个人发送警报以建议获得医疗护理以解决病情、跟踪个人的位置和/或联系人或采取其他行动。
63.本公开的系统和方法的显著优点是能够收集和分析来自众多个体的语音样本，包括目前患有呼吸系统疾病的个体、携带病原体(例如病毒)但未显示任何症状的个体，以及那些没有携带任何病原体的个体。这样丰富的数据收集有助于提高本公开的系统和方法(包括其中的语音模型)的检测能力。
64.更进一步，还应注意，本公开的系统和方法可以通过分析语音数据来检测呼吸疾病以外的医疗状况，例如中风等神经疾病的发作或当前的痛苦。此外，该系统还可以通过分析咳嗽、喷嚏和其他声音，对医疗状况(包括呼吸状况)进行原型检测。此类检测/分析可使用本文所述的神经网络执行，该神经网络经过训练以检测神经和其他医疗状况。更进一步，该系统可能被请求，以检测和跟踪患病个人对公共交通系统的使用状况，和/或控制这些个人对此类系统的访问/使用。
65.可以向个人提供各种奖励，以鼓励这些个人利用本公开的系统和方法。例如，人寿保险公司可以鼓励其被保险人使用本公开的系统和方法作为自我风险评估系统的一部分，
并可以提供各种财务激励，例如降低保费以鼓励使用该系统。政府机构可以利用本公开的系统和方法为参与自我监测的个人提供税收激励。此外，企业还可以选择排除拒绝使用本公开的系统/方法的个人参与各种商业活动、活动、义演等，本公开的系统和方法可作为初步筛选工具，可用于推荐一名或多名医疗专业人员进行进一步、更详细的评估。
66.注意，本文公开的步骤可以通过检测个人的一次或多次咳嗽来触发。例如，移动智能手机可以检测到个人的咳嗽声，一旦检测到，就可以启动对该人发出的声音的分析(例如，对声音的分析、进一步咳嗽等)，以检测该人是否患有医疗状况。这种检测可以利用加速计或移动智能手机的其他传感器，或与智能手机通信的其他传感器(例如，心率传感器等)来实现，并且这种设备对咳嗽的检测可以启动对人发出的声音的分析，以检测如本文所公开的一个或多个属性。此外，本公开的系统/方法能够检测到的时间序列退化(degradation)可为进行社区医疗监测提供丰富的数据源。此外，该系统还可以识别家庭中每个家庭成员的咳嗽次数，并利用这些数据来识别有问题的集群，以便进行进一步的采样、测试和分析。还设想，本公开的系统和方法对于一个或多个医疗机构的医疗工作者(如医院护理人员、医生等)上具有显著的适用性和使用，两者都监测和跟踪这些工人的暴露病原体(例如，导致covid-19的新冠状病毒等)。事实上，这些工作人员可以作为具有各种用途的可靠数据的宝贵来源，如分析工作人员感染的过渡、分析生物特征数据以及捕获和检测普通观察和报告可能忽略的内容。
67.本公开的系统和方法可用于对不同人群/网络(无论是家族性、区域性还是近亲)的人声总体进行总体监测和检测，为了确定是否以及在何处引导进一步的测试资源，以识别趋势和模式以及缓解措施(例如，作为监督和认证系统的一部分)。更进一步地，该系统可以向第一响应者提供关于即将被运送到医疗机构的个人状况的提前通知(例如，通过直接与此类第一响应者通信，或间接使用与此类第一响应者通信的某种类型的服务(例如，911服务)，从而允许第一响应者在个体患有高度传染性疾病(如covid-19或其他呼吸系统疾病)的状况下，使用适当的个人防护设备(ppe)和/或改变第一响应实践。
68.注意，这里描述的功能可以通过经由网络浏览器可访问的网络门户来访问，或者通过独立的软件应用程序来访问，每个软件应用程序在诸如智能电话、个人计算机等计算设备上执行。如果提供了软件应用程序，它还可以包括数据收集能力，例如捕获和存储多个语音样本的能力(例如，通过对着智能电话的麦克风记录个人的说话、唱歌或咳嗽而获得的)。然后可以使用软件应用程序本身(在智能手机上执行)在此描述的技术来分析这些样本，和/或可以将它们传输到远程服务器以进行分析。此外，本发明的系统和方法可以与一个或多个第三方系统进行通信(如果需要，可以使用加密或其他安全通信技术进行安全通信)，例如共乘(例如，优步(uber))系统，以便驾驶员可以确定潜在乘客是否患有疾病(或表现出与医疗状况相关的属性)。此类信息有助于告知驾驶员是否接受特定的乘客(例如，如果乘客生病)，或在接受特定的乘客之前采取适当的保护措施来保护驾驶员。此外，该系统可以检测驾驶员是否患有疾病(或表现出与疾病相关的属性)，并可以提醒潜在的乘客此类疾病。
69.在如此详细地描述了系统和方法之后，应当理解，前述描述并不旨在限制其精神或范围。应当理解，本文所描述的本公开的实施例仅仅是示例性的，本领域技术人员可以在不脱离本公开的精神和范围的状况下进行任何变更和修改。所有此类变更和修改，包括上
文讨论的变更和修改，均应包含在本公开的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：具有照明设施的眼科激光治疗系统的制作方法

一种用于语音属性的机器学习的系统和方法与流程

相关文献

最热文献