一种基于语音识别的目标文本获取方法及装置、存储介质与流程

2022-09-14 23:51:12 来源：中国专利 TAG：

1.本技术涉及语音识别技术领域，尤其是涉及到一种基于语音识别的目标文本获取方法及装置、存储介质、计算机设备。

背景技术：

2.当前随着语音识别技术以及人工智能技术的不断发展，外呼机器人应运而生。外呼机器人可以利用语音识别技术，将用户的语音识别为对应的文本，并利用人工智能技术，根据识别得到的文本对用户的语音自动做出回应。可以说，外呼机器人的存在大大减少了客服人员的工作量。
3.外呼机器人对用户语音识别的完整性，直接影响对用户意图解析的准确性，进而影响外呼机器人的应答准确性。现有技术中，外呼机器人在对用户语音进行识别时，通常设置一个时长阈值，当用户说话停止的时间大于时长阈值时，则认为用户的话已经说完，进而将用户说的话进行语音识别，得到对应的文本，接着根据识别得到的文本匹配出外呼机器人的回应文本。然而，针对这种方法，如果时长阈值较小，可能由于用户的“大喘气”行为，出现当用户还没有说完话时即对用户说的话进行语音识别的情况，导致无法解析出用户的完整意图；如果时长阈值较长，则可能导致外呼机器人的应答出现迟滞现象。因此，现有技术中外呼机器人与用户进行人机交互时，用户满意度较低，用户体验较差。
4.因此，如何快速、准确地得到用户语音的完整识别文本，提升对用户意图解析的准确性，进而在人机交互过程中提升用户体验感，成为了本领域亟待解决的技术问题。

技术实现要素：

5.有鉴于此，本技术提供了一种基于语音识别的目标文本获取方法及装置、存储介质、计算机设备，可以在保证外呼机器人及时应答的前提下，快速、准确地得到用户语音的完整识别文本，进而提升对用户意图解析的准确性，有效提高人机交互过程中用户的体验感。
6.根据本技术的一个方面，提供了一种基于语音识别的目标文本获取方法，包括：
7.获取第一语音片段对应的第一识别文本，将所述第一识别文本作为待判断文本，判断所述待判断文本是否属于完整文本；
8.当所述待判断文本不属于完整文本时，判断预设时间间隔内是否获取到第二语音片段对应的第二识别文本；
9.当结果为否时，将所述待判断文本作为所述目标文本；
10.当结果为是时，基于所述第二识别文本更新所述待判断文本，并返回至所述判断所述待判断文本是否属于完整文本的步骤，直至所述待判断文本属于完整文本，或者所述当结果为否时结束，得到所述目标文本。
11.根据本技术的另一方面，提供了一种基于语音识别的目标文本获取装置，包括：
12.文本获取模块，用于获取第一语音片段对应的第一识别文本，将所述第一识别文
本作为待判断文本，判断所述待判断文本是否属于完整文本；
13.判断模块，用于当所述待判断文本不属于完整文本时，判断预设时间间隔内是否获取到第二语音片段对应的第二识别文本；
14.目标文本确定模块，用于当结果为否时，将所述待判断文本作为所述目标文本；
15.返回模块，用于当结果为是时，基于所述第二识别文本更新所述待判断文本，并返回至所述判断所述待判断文本是否属于完整文本的步骤，直至所述待判断文本属于完整文本，或者所述当结果为否时结束，得到所述目标文本。
16.依据本技术又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述基于语音识别的目标文本获取方法。
17.依据本技术再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于语音识别的目标文本获取方法。
18.借由上述技术方案，本技术提供的一种基于语音识别的目标文本获取方法及装置、存储介质、计算机设备，首先，可以获取第一语音片段，以及与第一语音片段对应的第一识别文本。接着，可以将第一识别文本作为待判断文本，并可以判断待判断文本是否是完整文本。如果经过判断，发现待判断文本并不是完整文本时，可以判断预设时间间隔内是否获取到了第二语音片段对应的第二识别文本。当预设时间间隔内没有获取到第二语音片段对应的第二识别文本时，可以直接将待判断文本作为目标文本。当预设时间间隔内获取到第二语音片段对应的第二识别文本时，可以根据第二识别文本对待判断文本进行更新，以使更新后的待判断文本包含第一识别文本以及第二识别文本。之后，可以再次判断更新后的待判断文本是否是完整文本
……
重复上述过程，直到满足更新后的待判断文本属于完整文本时结束，或者在预设时间间隔内没有接收到第二识别文本时结束，进而可以在结束后根据更新后的待判断文本得到目标文本。本技术实施例在每次获取到识别文本后，均判断识别文本是否属于完整文本，并当不属于完整文本时，确定预设时间间隔内是否接收到新的识别文本，利用完整性和预设时间间隔共同约束最终得到目标文本，可以在保证外呼机器人及时应答的前提下，快速、准确地得到用户语音的完整识别文本，进而提升对用户意图解析的准确性，有效提高人机交互过程中用户的体验感。
19.上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，而可依照说明书的内容予以实施，并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本技术的具体实施方式。
附图说明
20.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
21.图1示出了本技术实施例提供的一种基于语音识别的目标文本获取方法的流程示意图；
22.图2示出了本技术实施例提供的另一种基于语音识别的目标文本获取方法的流程示意图；
23.图3示出了本技术实施例提供的另一种基于语音识别的目标文本获取方法的流程
示意图；
24.图4示出了本技术实施例提供的一种基于语音识别的目标文本获取装置的结构示意图。
具体实施方式
25.下文中将参考附图并结合实施例来详细说明本技术。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
26.在本实施例中提供了一种基于语音识别的目标文本获取方法，如图1所示，该方法包括：
27.步骤101，获取第一语音片段对应的第一识别文本，将所述第一识别文本作为待判断文本，判断所述待判断文本是否属于完整文本；
28.本技术实施例提供的基于语音识别的目标文本获取方法，可以应用于外呼机器人场景中，可以保证即使在用户说话时存在“大喘气”等情况下，仍旧可以得到用户语音对应的完整文本。本技术实施例中外呼机器人在对用户语音进行文本识别之前，可以设置预设识别时长，当用户说话停止时间大于预设识别时长时，即可对用户语音进行识别，得到对应的识别文本。首先，外呼机器人可以利用语音识别技术对用户语音进行识别，当用户第一次说话停止时间大于预设识别时长时，可以得到第一语音片段，以及与第一语音片段对应的第一识别文本。接着，可以将第一识别文本作为待判断文本，并可以利用预设方法判断待判断文本是否是完整文本。在这里，完整文本指的是用户所说的完整的话对应的文本。例如，当第一识别文本为“我想要”时，用户在说出“我想要”之后，后面的停止时间大于预设识别时长，但是“我想要”并未表达出用户的完整意图，实际上此时用户的话并没有说完，因此第一识别文本不属于完整文本；当第一识别文本为“我想要知道这个业务的具体内容都包括什么”时，后面的停止时间大于预设识别时长，此时用户已经表达出完整意图，因此第一识别文本属于完整文本。
29.步骤102，当所述待判断文本不属于完整文本时，判断预设时间间隔内是否获取到第二语音片段对应的第二识别文本；
30.步骤103，当结果为否时，将所述待判断文本作为所述目标文本；
31.在该实施例中，如果经过判断，发现待判断文本属于完整文本时，那么直接将该待判断文本作为目标文本输出。如果经过判断，发现待判断文本并不是完整文本时，此时外呼机器人根据此待判断文本(也就是第一识别文本)匹配回应文本的准确性较低。因而，可以判断预设时间间隔内是否获取到了第二语音片段对应的第二识别文本。在这里，预设时间间隔可以根据人机会话日志得到，例如，可以从人机会话日志中找到用户每次没有表达出完整意图，但是后续又继续表达时中间停顿的时间，并可以计算停顿时间的平均值，将该平均值作为预设时间间隔，此外也可以将停顿时间的最大值作为预设时间间隔。本技术实施例设置预设时间间隔的作用是为了保证待判断文本不属于完整文本，而用户后续又长时间没有说话时，可以提升外呼机器人的应对及时性。虽然本技术实施例判断待判断文本是否属于完整文本的准确性很高，但是为了避免在用户由于各种原因即使没有说完话也停止说话时，外呼机器人陷入无限等待，因此当预设时间间隔内没有获取到第二语音片段对应的第二识别文本时，可以直接将待判断文本作为目标文本。
32.步骤104，当结果为是时，基于所述第二识别文本更新所述待判断文本，并返回至所述判断所述待判断文本是否属于完整文本的步骤，直至所述待判断文本属于完整文本，或者所述当结果为否时结束，得到所述目标文本。
33.在该实施例中，当预设时间间隔内获取到第二语音片段对应的第二识别文本时，可以根据第二识别文本对待判断文本进行更新，以使更新后的待判断文本包含第一识别文本以及第二识别文本。之后，可以判断更新后的待判断文本是否是完整文本。当是完整文本时，将更新后的待判断文本作为目标文本输出，当不是完整文本时，再次判断预设时间间隔内是否获取到了新的第二语音片段对应的第二识别文本。在这里，第一语音片段可以是识别到的用户的第一个语音片段，第一语音片段之后的用户语音片段均可以称作第二语音片段。如果在预设时间间隔内再次获取到第二识别文本之后，可以利用该第二识别文本对上次更新过的待判断文本继续进行更新，再次得到更新后的待判断文本(即第一识别文本两个第二识别文本)
……
重复上述过程，直到满足更新后的待判断文本属于完整文本时结束，或者在预设时间间隔内没有接收到第二识别文本时结束，进而可以在结束后根据更新后的待判断文本得到目标文本。后续外呼机器人可以直接根据该目标文本进行回应文本的匹配，可以大大提升回应文本匹配的准确率。
34.通过应用本实施例的技术方案，首先，可以获取第一语音片段，以及与第一语音片段对应的第一识别文本。接着，可以将第一识别文本作为待判断文本，并可以判断待判断文本是否是完整文本。如果经过判断，发现待判断文本并不是完整文本时，可以判断预设时间间隔内是否获取到了第二语音片段对应的第二识别文本。当预设时间间隔内没有获取到第二语音片段对应的第二识别文本时，可以直接将待判断文本作为目标文本。当预设时间间隔内获取到第二语音片段对应的第二识别文本时，可以根据第二识别文本对待判断文本进行更新，以使更新后的待判断文本包含第一识别文本以及第二识别文本。之后，可以再次判断更新后的待判断文本是否是完整文本
……
重复上述过程，直到满足更新后的待判断文本属于完整文本时结束，或者在预设时间间隔内没有接收到第二识别文本时结束，进而可以在结束后根据更新后的待判断文本得到目标文本。本技术实施例在每次获取到识别文本后，均判断识别文本是否属于完整文本，并当不属于完整文本时，确定预设时间间隔内是否接收到新的识别文本，利用完整性和预设时间间隔共同约束最终得到目标文本，可以在保证外呼机器人及时应答的前提下，快速、准确地得到用户语音的完整识别文本，进而提升对用户意图解析的准确性，有效提高人机交互过程中用户的体验感。
35.进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，提供了另一种基于语音识别的目标文本获取方法，如图2所示，该方法包括：
36.步骤201，获取第一语音片段对应的第一识别文本，将所述第一识别文本作为待判断文本；
37.在该实施例中，首先，可以获取第一语音片段，以及与第一语音片段对应的第一识别文本。接着，可以将第一识别文本作为待判断文本。
38.步骤202，基于预设匹配文本，判断所述待判断文本是否属于不完整文本；当结果为是时，输出所述判断结果；当结果为否时，将所述待判断文本输入至文本完整性识别模型中，基于所述文本完整性识别模型的模型输出结果确定所述待判断文本是否属于完整文
本；
39.在该实施例中，首先可以根据预设匹配文本对待判断文本进行判断，确定待判断文本是否属于不完整文本，也即预设匹配文本的作用为识别待判断文本是否属于不完整文本。具体地，通过预设匹配文本进行判断后可以有两种输出结果。当输出结果为“是”时，说明待判断文本是不完整文本，当输出结果为“否”时，说明通过预设匹配文本没有判断出待判断文本属于不完整文本。预设匹配文本具体可以是预设一些不完整文本常用的单字、词汇、话术等，将待判断文本与这些预设的单字、词汇、话术等进行匹配，如果匹配成功，则输出结果“是”，说明待判断文本不完整，如果没有匹配成功，则输出结果“否”，说明通过预设匹配文本未得出待判断文本属于不完整文本的结果。因而，进一步可以将待判断文本输入到文本完整性识别模型中，文本完整性识别模型可以对待判断文本的完整性继续进行判断，确定待判断文本是否属于完整文本。本技术实施例设置两个判断步骤，并当第一步判断结果为不完整文本时，直接返回判断结果，保障了系统的响应准确性和实效性。
40.步骤203，当所述待判断文本不属于完整文本时，判断预设时间间隔内是否获取到第二语音片段对应的第二识别文本；
41.在该实施例中，如果经过判断，发现待判断文本并不是完整文本时，可以判断预设时间间隔内是否获取到了第二语音片段对应的第二识别文本。
42.步骤204，当结果为否时，将所述待判断文本作为所述目标文本；
43.步骤205，当结果为是时，基于所述第二识别文本更新所述待判断文本，并返回至所述判断所述待判断文本是否属于完整文本的步骤，直至所述待判断文本属于完整文本，或者所述当结果为否时结束，得到所述目标文本。
44.在该实施例中，当预设时间间隔内没有获取到第二语音片段对应的第二识别文本时，可以直接将待判断文本作为目标文本。当预设时间间隔内获取到第二语音片段对应的第二识别文本时，可以根据第二识别文本对待判断文本进行更新，以使更新后的待判断文本包含第一识别文本以及第二识别文本。之后，可以再次判断更新后的待判断文本是否是完整文本
……
重复上述过程，直到满足更新后的待判断文本属于完整文本时结束，或者在预设时间间隔内没有接收到第二识别文本时结束，进而可以在结束后根据更新后的待判断文本得到目标文本。
45.在本技术实施例中，可选地，步骤202中所述“基于预设匹配文本，判断所述待判断文本是否属于不完整文本”，包括：基于精准匹配模式，确定所述待判断文本中是否包含第一预设匹配文本；和/或，基于局部匹配模式，确定所述待判断文本的句尾是否包含第二预设匹配文本；和/或，基于正则匹配模式，确定所述待判断文本中是否包含第三预设匹配文本；当存在包含的结果时，判断所述待判断文本属于不完整文本。
46.在该实施例中，以预设匹配文本为基础进行判断时，可以由如下三种模式中的至少一种模式加以实现，三种模式具体可以是精准匹配模式、局部匹配模式以及正则匹配模式。
47.精准匹配模式可以预先确定第一预设匹配文本，第一预设匹配文本中可以包括人机会话日志中经常使用的具有明显非结束特征的单字、词汇、语句等，例如“那你”、“那我”、“那个”、“考虑”、“哎呀”、“我我”、“这个”、“然后”、“等一下”等。当待判断文本中存在第一预设匹配文本时，则可以判断待判断文本是不完整文本。
48.局部匹配模式可以预先确定第二预设匹配文本，第二预设匹配文本中可以包括人机会话日志中历史用户经常使用的一些转折等非结束特征的单字、词汇、语句等，当待判断文本的句尾存在第二预设匹配文本时，则可以说明待判断文本是不完整文本。例如，用户语音为“我听见了，但是”，在说完“但是”之后用户停顿的时间大于预设识别时长，那么外呼机器人将前面的用户语音识别结束，得到待判断文本“我听见了，但是”，此时待判断文本的句尾对应的词汇为“但是”，显然用户并未完整表达出自己的意图，如果利用这一待判断文本直接匹配回应文本，那么回应文本的准确度可想而知。如果将“但是”作为第二预设匹配文本，当在识别文本句尾处匹配到“但是”时，则认为识别文本为不完整文本，之后逐步得到完整的目标文本，则可以大大提升回应文本的匹配准确性，提升用户交互体验感。
49.正则匹配模式可以预先确定第三预设匹配文本，第三预设匹配文本可以是一些预设的正则表达式，例如“哎呀这|你听我讲”，如果待判断文本与第三预设匹配文本匹配成功，同样可以认为待判断文本为不完整文本。
50.如果以预设匹配文本为基础进行判断时，仅利用精准匹配模式、局部匹配模式以及正则匹配模式中的一种模式加以实现，那么只要匹配成功即可判断待判断文本为不完整文本；如果包括至少两种模式加以实现时，此时只要成功匹配其中一种模式，就可以判断待判断文本属于不完整文本。
51.在本技术实施例中，可选地，步骤202中所述“基于预设匹配文本，判断所述待判断文本是否属于不完整文本”之前，所述方法还包括：获取人机会话日志，从所述人机会话日志中确定历史用户对应的历史语音记录，为所述历史语音记录添加属性标签，所述属性标签包括完整标签以及不完整标签；从带有完整标签的历史语音记录中，识别出存在停顿时间且停顿时间大于预设停顿时长的第一语音记录，从所述第一语音记录中确定停顿时间大于所述预设停顿时长的目标位置，依据所述目标位置确定第一文本，并基于所述第一文本确定所述第一预设匹配文本；和/或，从带有不完整标签的历史语音记录中，识别每个语音结尾处对应的第二文本，并将出现次数大于第一次数阈值的所述第二文本作为所述第二预设匹配文本；和/或，从带有不完整标签的历史语音记录中确定出现次数大于第二次数阈值的正则表达式，并基于所述正则表达式确定所述第三预设匹配文本。
52.在该实施例中，在确定预设匹配文本时，首先可以从数据库中获取人机会话日志，人机会话日志中可以包括外呼机器人与用户之间的语音形式的对话内容。接着，可以从人机会话日志中找出历史用户对应的历史语音记录，其中，这些历史语音记录中可以包括完整语音记录，也即用户说的完整的话对应的语音记录，此外也可以包括不完整语音记录，也即用户说的不完整的话对应的语音记录。因此，可以对这些历史语音记录分别添加属性标签，在这里，属性标签可以包括完整标签、不完整标签。具体地，对于属于完整语音记录的历史语音记录添加完整标签，对于属于不完整语音记录的历史语音记录添加不完整标签。
53.添加完属性标签后，首先可以从带有完整标签的历史语音记录中，找出带有停顿时间的历史语音记录，并可以从带有停顿时间的历史语音记录中确定停顿时间大于预设停顿时长的第一语音记录。接着，从每个第一语音记录中确定目标位置，在这里，目标位置是每个第一语音记录中停顿时间大于预设停顿时长的位置。例如，第一语音记录对应的会话内容为“哎呀，(停顿2秒钟)我现在没时间呀。”那么其中停顿2秒钟的位置就是目标位置。之后，可以以目标位置为基础，确定第一文本，第一文本具体可以是目标位置之前的最后一个
单字、词汇、语句等，例如，上述例子中“哎呀”即可为第一文本。最后，可以根据第一文本确定第一预设匹配文本，具体可以将出现次数较多的第一文本作为第一预设匹配文本，出现次数较少的第一文本则可以舍弃。
54.此外，添加完属性标签后，还可以从带有不完整标签的历史语音记录中，找出每个语音结尾处对应的第二文本，接着，可以将出现次数大于第一次数阈值的第二文本作为第二预设匹配文本，这里第二文本可以是单字、词汇、语句等。例如，带有不完整标签的历史语音记录为“我听见了，但是”，那么“但是”即可为第二文本。
55.另外，还可以从这些带有不完整标签的历史语音记录中找出出现次数大于第二次数阈值的正则表达式，之后可以以这些正则表达式为基础，进一步确定第三预设匹配文本。
56.在本技术实施例中，可选地，所述“为所述历史语音记录添加属性标签”之后，所述方法还包括：将所述历史语音记录转化为对应的历史文本，对所述历史文本进行分词处理，并基于分词处理结果，确定每个所述历史文本对应的词向量组合；分别将所述词向量组合输入至初始识别模型，并基于输出的预测结果以及所述历史文本对应的属性标签，确定所述初始识别模型的模型损失值；当所述模型损失值大于预设损失阈值时，调整所述初始识别模型的模型参数，并返回至所述分别将所述词向量组合输入至初始识别模型的步骤，直至所述模型损失值小于或者等于所述预设损失阈值时结束，得到所述文本完整性识别模型。
57.在该实施例中，在为每个历史语音记录添加属性标签后，还可以将历史语音记录转化为对应的历史文本，进而利用这些历史文本对初始识别模型进行训练，进而得到文本完整性识别模型。首先，可以对每个历史文本进行分词处理，具体地，可以对每个历史文本按照词汇进行分词，也可以按照单个字进行分词。接着可以根据分词处理结果，从预设字向量表中确定每个分词对应的词向量。当以词汇进行分词时，可以从预设字向量表中确定每个词汇中每个字对应的一维向量，进而将该词汇中每个字对应的一维向量进行拼接，得到该词汇对应的词向量；当以单字进行分词时，可以从预设字向量表中确定每个字对应的一维向量，即该分词对应的词向量。确定每个分词对应的词向量之后，可以将每个分词对应的词向量进行组合，最终得到每个历史文本对应的词向量组合。得到每个历史文本对应的词向量组合后，可以分别将每个历史文本对应的词向量组合输入到初始识别模型中去，可以得到预测结果，具体可以是一个概率值，之后可以以预测结果和历史文本对应的属性标签为基础，计算初始识别模型对应的模型损失值。在这里，可以将属性标签中的完整标签赋值为1，将属性标签中的不完整标签赋值为0，赋值后便于计算模型损失值。当模型损失值大于预设损失阈值时，说明初始识别模型的模型精度并没有达到预期的目标，还需要对初始识别模型的模型参数进行调整，调整参数后再次将词向量组合输入至调整参数后的初始识别模型中，并再次计算模型损失值，直至模型损失值小于或等于预设损失阈值时结束，将模型损失值小于或等于预设损失阈值的初始识别模型作为文本完整性识别模型。
58.在本技术实施例中，可选地，步骤205中所述“基于所述第二识别文本更新所述待判断文本”，包括：将所述第一识别文本与所述第二识别文本按照文本产生时间进行拼接，并基于拼接结果更新所述待判断文本。
59.在该实施例中，利用第二识别文本更新待判断文本的具体过程可以如下：获取第二识别文本之后，可以将第一识别文本和第二识别文本拼接在一起，根据拼接结果对待识
别文本进行更新。其中，在拼接时，可以将先获取的识别文本放在前面，将后获取的识别文本放在后面，也即按照识别文本的产生时间进行拼接。例如，先获取的第一识别文本为“我想咨询”，后获取的第二识别文本为“a业务如何办理”，那么获取第二识别文本之后，可以将第一识别文本和第二识别文本拼接在一起，得到更新后的待判断文本为“我想咨询a业务如何办理”。同样地，如果更新后的待判断文本仍旧不属于完整文本后，可以再次获取一个新的第二识别文本，此时可以将该第二识别文本拼接在第一识别文本、前一个第二识别文本之后。例如，第一识别文本为“我想要”，第一个第二识别文本为“咨询一下”，第二个第二识别文本为“a业务的详细信息”，那么拼接的结果即为“我想要咨询一下a业务的详细信息”。在本技术实施例中，第一识别文本后获取的识别文本均可以称之为第二识别文本。
60.在本技术实施例中，可选地，步骤203中所述“判断预设时间间隔内是否获取到第二语音片段对应的第二识别文本”之前，所述方法还包括：启动预设定时器，并将所述预设定时器的定时时间设置为所述预设时间间隔；步骤204中所述“当结果为否时”之后，所述方法还包括：将所述预设定时器的定时时间进行清零处理。
61.在该实施例中，在判断预设时间间隔内是否获取到第二语音片段对应的第二识别文本之前，可以启动预设定时器，通过预设定时器实现预设时间间隔的判断，其中，可以将预设定时器的定时时间设置为预设时间间隔。此外，如果在预设时间间隔内没有获取到第二识别文本，那么可以对预设定时器的定时时间进行清零，等待下一次的启动。本技术实施例通过预设定时器，可以简单方便地实现预设时间间隔的判断。
62.进一步的，本技术实施例提供了另一种基于语音识别的目标文本获取方法，如图3所示，该方法包括：
63.首先设置语音识别累积结果变量c，从语音识别系统得到语音识别结果，累加到语音识别累积结果变量c，然后将语音识别累积结果输入文本分类系统，如果判别当前语音识别累积结果对应的文本是不完整的，则启动定时器t，等待后续语音识别结果的输出，如果在定时器t未到期之前从语音识别系统得到了新的语音识别结果，则继续将语音识别结果累加到语音识别累积结果变量c，再输入文本分类系统，如果判断语音识别累积结果对应的文本表达是完整的，则将计时器t清零，输出最终的语音识别累积结果，并清空语音识别累积结果变量c；如果在定时器t到期时也未从语音识别系统得到新的语音识别结果，则将定时器清零，输出最终的语音识别累积结果，并清空语音识别累积结果变量c。
64.例如：语音识别系统输出结果是“我暂时”，其实用户只是由于有停顿现象，真实语音中还有后续“没时间呀”。当语音识别系统第一次获取“我暂时”时，将其存储在语音识别累积结果变量c中，对当前语音识别累积结果变量c中的“我暂时”进行完整性判断，文本分类系统认为这句话是不完整的，则开启计时器t，继续接收后续的用户语音识别结果“没时间呀”，之后将“没时间呀”和之前的“我暂时”拼接成“我暂时没时间呀”，输入文本分类系统，判断文本表达是否完整，得到结果是完整的，则输出最终的语音识别累积结果，发送给外呼机器人，使得外呼机器人做出相应的回应。本技术实施例可以在保证外呼机器人及时应答的前提下，快速、准确地得到用户语音的完整识别文本，进而提升对用户意图解析的准确性，有效提高人机交互过程中用户的体验感。
65.进一步的，作为图1方法的具体实现，本技术实施例提供了一种基于语音识别的目标文本获取装置，如图4所示，该装置包括：
66.文本获取模块，用于获取第一语音片段对应的第一识别文本，将所述第一识别文本作为待判断文本，判断所述待判断文本是否属于完整文本；
67.判断模块，用于当所述待判断文本不属于完整文本时，判断预设时间间隔内是否获取到第二语音片段对应的第二识别文本；
68.目标文本确定模块，用于当结果为否时，将所述待判断文本作为所述目标文本；
69.返回模块，用于当结果为是时，基于所述第二识别文本更新所述待判断文本，并返回至所述判断所述待判断文本是否属于完整文本的步骤，直至所述待判断文本属于完整文本，或者所述当结果为否时结束，得到所述目标文本。
70.可选地，所述文本获取模块，包括：
71.判断单元，用于基于预设匹配文本，判断所述待判断文本是否属于不完整文本；
72.结果输出单元，用于当结果为是时，输出所述判断结果；
73.文本输入单元，用于当结果为否时，将所述待判断文本输入至文本完整性识别模型中，基于所述文本完整性识别模型的模型输出结果确定所述待判断文本是否属于完整文本。
74.可选地，所述判断单元，用于：基于精准匹配模式，确定所述待判断文本中是否包含第一预设匹配文本；和/或，基于局部匹配模式，确定所述待判断文本的句尾是否包含第二预设匹配文本；和/或，基于正则匹配模式，确定所述待判断文本中是否包含第三预设匹配文本；当存在包含的结果时，判断所述待判断文本属于不完整文本。
75.可选地，所述装置还包括：
76.标签添加模块，用于所述基于预设匹配文本，判断所述待判断文本是否属于不完整文本之前，获取人机会话日志，从所述人机会话日志中确定历史用户对应的历史语音记录，为所述历史语音记录添加属性标签，所述属性标签包括完整标签以及不完整标签；
77.第一识别模块，用于从带有完整标签的历史语音记录中，识别出存在停顿时间且停顿时间大于预设停顿时长的第一语音记录，从所述第一语音记录中确定停顿时间大于所述预设停顿时长的目标位置，依据所述目标位置确定第一文本，并基于所述第一文本确定所述第一预设匹配文本；和/或，
78.第二识别模块，用于从带有不完整标签的历史语音记录中，识别每个语音结尾处对应的第二文本，并将出现次数大于第一次数阈值的所述第二文本作为所述第二预设匹配文本；和/或，
79.第三识别模块，用于从带有不完整标签的历史语音记录中确定出现次数大于第二次数阈值的正则表达式，并基于所述正则表达式确定所述第三预设匹配文本。
80.可选地，所述装置还包括：
81.分词模块，用于所述为所述历史语音记录添加属性标签之后，将所述历史语音记录转化为对应的历史文本，对所述历史文本进行分词处理，并基于分词处理结果，确定每个所述历史文本对应的词向量组合；
82.损失值确定模块，用于分别将所述词向量组合输入至初始识别模型，并基于输出的预测结果以及所述历史文本对应的属性标签，确定所述初始识别模型的模型损失值；
83.参数调整模块，用于当所述模型损失值大于预设损失阈值时，调整所述初始识别模型的模型参数，并返回至所述分别将所述词向量组合输入至初始识别模型的步骤，直至
所述模型损失值小于或者等于所述预设损失阈值时结束，得到所述文本完整性识别模型。
84.可选地，所述返回模块，用于：将所述第一识别文本与所述第二识别文本按照文本产生时间进行拼接，并基于拼接结果更新所述待判断文本。
85.可选地，所述装置还包括：
86.启动模块，用于所述判断预设时间间隔内是否获取到第二语音片段对应的第二识别文本之前，启动预设定时器，并将所述预设定时器的定时时间设置为所述预设时间间隔；
87.相应地，所述装置还包括：
88.清零模块，用于所述当结果为否时之后，将所述预设定时器的定时时间进行清零处理。
89.需要说明的是，本技术实施例提供的一种基于语音识别的目标文本获取装置所涉及各功能单元的其他相应描述，可以参考图1至图3方法中的对应描述，在此不再赘述。
90.基于上述如图1至图3所示方法，相应的，本技术实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述如图1至图3所示的基于语音识别的目标文本获取方法。
91.基于这样的理解，本技术的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施场景所述的方法。
92.基于上述如图1至图3所示的方法，以及图4所示的虚拟装置实施例，为了实现上述目的，本技术实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1至图3所示的基于语音识别的目标文本获取方法。
93.可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(radio frequency，rf)电路，传感器、音频电路、wi-fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等，可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、wi-fi接口)等。
94.本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。
95.存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。
96.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本技术可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。首先，可以获取第一语音片段，以及与第一语音片段对应的第一识别文本。接着，可以将第一识别文本作为待判断文本，并可以判断待判断文本是否是完整文本。如果经过判断，发现待判断文本并不是完整文本时，可以判断预设时间间隔内是否获取到了第二语音片段对应的第二识别文本。当预设时间间隔内没有获取到第二语音片段对应的第二识别文本时，可以直接将待判断文本作为目标文本。当预设时间间隔内获取到第二语音片段对应的第二识别文本时，可以根据第
二识别文本对待判断文本进行更新，以使更新后的待判断文本包含第一识别文本以及第二识别文本。之后，可以再次判断更新后的待判断文本是否是完整文本
……
重复上述过程，直到满足更新后的待判断文本属于完整文本时结束，或者在预设时间间隔内没有接收到第二识别文本时结束，进而可以在结束后根据更新后的待判断文本得到目标文本。本技术实施例在每次获取到识别文本后，均判断识别文本是否属于完整文本，并当不属于完整文本时，确定预设时间间隔内是否接收到新的识别文本，利用完整性和预设时间间隔共同约束最终得到目标文本，可以在保证外呼机器人及时应答的前提下，快速、准确地得到用户语音的完整识别文本，进而提升对用户意图解析的准确性，有效提高人机交互过程中用户的体验感。
97.本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。
98.上述本技术序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本技术的几个具体实施场景，但是，本技术并非局限于此，任何本领域的技术人员能思之的变化都应落入本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于语音识别的目标文本获取方法及装置、存储介质与流程

相关文献

最热文献