音频识别方法、装置、存储介质和计算设备与流程

2023-01-15 05:38:35 来源：中国专利 TAG：

1.本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及一种音频识别方法、装置、存储介质和计算设备。

背景技术：

2.本部分旨在为说明书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.用户在听到某一首感兴趣的歌曲时，由于不知道歌名而无法了解更多的与歌曲相关的信息。
4.为此，相关音乐类应用程序相继推出语音识别功能，用户在听到感兴趣的歌曲时，可以开启该语音识别功能，以对接收到的音频信息进行识别，并显示识别到的相关信息例如歌名信息。
5.但是，现有的这种语音识别功能准确性并不高，容易出现无法识别到相关信息，从而造成识别失败的问题。

技术实现要素：

6.在本公开实施方式的第一方面中，提供了一种音频识别方法包括：检测用户哼唱的音频片段或用户输入的音频片段，对所述音频片段进行语音识别；在语音识别结果为失败的情况下，显示第一控件；在检测到所述用户对所述第一控件点击的情况下，根据所述音频片段生成帖子并将所述帖子分享到社区论坛。
7.可选的，所述根据所述音频片段生成帖子并将所述帖子分享到社区论坛之后，还包括：跳转至所述社区论坛，在所述社区论坛中显示所述帖子，所述帖子包括文案和所述音频片段的标识；其中，所述文案为系统自动生成的文案或为将所述帖子分享到社区论坛之前所述用户在文本输入框输入的文本信息。
8.可选的，所述方法还包括：在检测到所述帖子存在回复评论时，向所述用户发出提醒信息。
9.可选的，所述方法还包括：根据所述帖子的回复评论的互动信息，对所述回复评论进行排序显示。
10.可选的，所述方法还包括：根据所述帖子的回复评论的互动信息，确定所述帖子的最佳评论。
11.可选的，所述对所述音频片段进行语音识别，包括：基于语音识别模型对所述音频片段进行语音识别；
所述方法还包括：根据所述帖子的回复评论的互动信息，对所述语音识别模型进行迭代训练。
12.可选的，所述根据所述帖子的回复评论的互动信息，对所述语音识别模型进行迭代训练，包括：对所述帖子的回复评论进行实体识别处理，得到所述回复评论中存在的歌名信息；基于所述歌名信息对应的回复评论的互动信息对每个歌名信息进行打分处理，将分值最高的目标歌名信息确定为所述音频片段对应的歌名信息；将所述音频片段和目标歌名信息作为带标签的训练样本，加入到所述语音识别模型的训练样本库；基于更新的训练样本库对所述语音识别模型进行迭代训练。
13.可选的，所述基于所述歌名信息对应的回复评论的互动信息对每个歌名信息进行打分处理，包括：获取每个歌名信息对应的回复信息的互动信息；其中，所述互动信息包括其它用户对回复信息是否认可所做出的互动的统计信息；基于所述互动信息进行加权计算，得到每个歌名信息的打分分值。
14.可选的，所述互动信息包括正面的互动信息和/或负面的互动信息。
15.可选的，所述正面的互动信息包括点赞次数；所述负面的互动信息包括点踩次数。
16.可选的，在所述互动信息为点赞次数时，所述基于所述互动信息进行加权计算，得到每个歌名信息的打分分值，包括：针对任一歌名信息，计算该歌名信息对应的互动信息与所有歌名信息对应的互动信息之和的比值，将所述比值确定为该歌名信息的打分分值。
17.可选的，所述基于更新的训练样本库对所述语音识别模型进行迭代训练，包括利用以下步骤进行迭代训练，直到满足识别准确率达到预设要求：将所述训练样本库中的训练样本输入到所述语音识别模型，以使所述语音识别模型对所述训练样本中的音频片段进行识别得到对应的识别结果；基于训练样本中作为标签的目标歌名信息对所述识别结果进行校验以获得识别准确性，如果识别准确率未达到预设要求，则进一步优化所述语音识别模型的模型参数。
18.可选的，所述对所述训练样本中的音频片段进行识别得到对应的识别结果，包括：提取所述训练样本中的音频片段的若干特征点；其中，所述特征点包括针对所述音频片段进行采样时的采样时间和对应的音频频率；对每个特征点进行摘要计算，得到与每个特征值唯一对应的数字摘要；查询歌名信息表中与每个数字摘要匹配的歌名信息；统计匹配次数最多的歌名信息，并将所述歌名信息确定为所述音频片段的识别结果。
19.在本公开实施方式的第二方面中，提供了一种音频识别装置，所述装置包括：识别单元，检测用户哼唱的音频片段或用户输入的音频片段，对所述音频片段进行语音识别；显示单元，在语音识别结果为失败的情况下，显示第一控件；
分享单元，在检测到所述用户对所述第一控件点击的情况下，根据所述音频片段生成帖子并将所述帖子分享到社区论坛。
20.可选的，所述分享单元之后，还包括：跳转单元，跳转至所述社区论坛，在所述社区论坛中显示所述帖子，所述帖子包括文案和所述音频片段的标识；其中，所述文案为系统自动生成的文案或为将所述帖子分享到社区论坛之前所述用户在文本输入框输入的文本信息。
21.可选的，所述装置还包括：提醒单元，在检测到所述帖子存在回复评论时，向所述用户发出提醒信息。
22.可选的，所述装置还包括：排序单元，根据所述帖子的回复评论的互动信息，对所述回复评论进行排序显示。
23.可选的，所述装置还包括：确定单元，根据所述帖子的回复评论的互动信息，确定所述帖子的最佳评论。
24.可选的，所述识别单元，进一步包括：检测用户哼唱的音频片段或用户输入的音频片段，基于语音识别模型对所述音频片段进行语音识别；所述装置还包括：训练单元，根据所述帖子的回复评论的互动信息，对所述语音识别模型进行迭代训练。
25.可选的，所述训练单元，进一步包括：实体识别子单元，对所述帖子的回复评论进行实体识别处理，得到所述回复评论中存在的歌名信息；歌名打分子单元，基于所述歌名信息对应的回复评论的互动信息对每个歌名信息进行打分处理，将分值最高的目标歌名信息确定为所述音频片段对应的歌名信息；样本加入子单元，将所述音频片段和目标歌名信息作为带标签的训练样本，加入到所述语音识别模型的训练样本库；模型训练子单元，基于更新的训练样本库对所述语音识别模型进行迭代训练。
26.可选的，所述歌名打分子单元，进一步包括：获取子单元，获取每个歌名信息对应的回复信息的互动信息；其中，所述互动信息包括其它用户对回复信息是否认可所做出的互动的统计信息；计算子单元，基于所述互动信息进行加权计算，得到每个歌名信息的打分分值。
27.可选的，所述互动信息包括正面的互动信息和/或负面的互动信息。
28.可选的，所述正面的互动信息包括点赞次数；所述负面的互动信息包括点踩次数。
29.可选的，在所述互动信息为点赞次数时，所述计算子单元，进一步包括：针对任一歌名信息，计算该歌名信息对应的互动信息与所有歌名信息对应的互动信息之和的比值，将所述比值确定为该歌名信息的打分分值。
30.可选的，所述基于更新的训练样本库对所述语音识别模型进行迭代训练，包括利用以下子单元进行迭代训练，直到满足识别准确率达到预设要求：模型识别子单元，将所述训练样本库中的训练样本输入到所述语音识别模型，以使所述语音识别模型对所述训练样本中的音频片段进行识别得到对应的识别结果；
结果校验子单元，基于训练样本中作为标签的目标歌名信息对所述识别结果进行校验以获得识别准确性，如果识别准确率未达到预设要求，则进一步优化所述语音识别模型的模型参数。
31.可选的，所述模型识别子单元，进一步包括提取所述训练样本中的音频片段的若干特征点；其中，所述特征点包括针对所述音频片段进行采样时的采样时间和对应的音频频率；摘要计算子单元，对每个特征点进行摘要计算，得到与每个特征值唯一对应的数字摘要；查询歌名信息表中与每个数字摘要匹配的歌名信息；统计匹配次数最多的歌名信息，并将所述歌名信息确定为所述音频片段的识别结果。
32.在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，包括：当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如前任一项所述的音频识别方法。
33.在本公开实施方式的第四方面中，提供了一种计算设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以实现如前任一项所述的音频识别方法。
34.根据本公开实施方式提供的音频识别方案，在语音识别结果为识别时，自动将包含音频片段的帖子分享到社区论坛上，利用社区论坛上众多的用户帮助识别音频片段对应的歌名信息。将音频识别与社区论坛结合，提升用户在使用音频识别时的使用体验。
附图说明
35.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：图1示意性地示出了本公开提供的音频识别的操作页面示意图；图2示意性地示出了本公开提供的音频识别方法示意图；图3示意性地示出了本公开提供的第一控件的示意图；图4示意性地示出了本公开提供的帖子的示意图；图5示意性地示出了本公开提供的回复评论的示意图；图6示意性地示出了本公开提供的介质示意图；图7示意性地示出了本公开提供的音频识别装置示意图；图8示意性地示出了本公开提供的计算设备示意图。
36.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
37.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
38.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。
39.根据本公开的实施方式，提出了一种音频识别方法、计算机可读存储介质、装置和计算设备。
40.在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
41.下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。
42.本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据，对数据的采集、传播、使用等，均符合国家相关法律法规要求，本公开实施方式/实施例可以互相组合。
43.发明概述本公开旨在提供一种音频识别方案，在对音频片段进行语音识别失败后，自动将包含音频片段的帖子分享到社区论坛上，利用社区论坛上众多的用户帮助识别音频片段对应的歌名信息。如此，将音频识别与社区论坛结合，提升用户在使用音频识别时的使用体验。
44.在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。
45.应用场景总览本公开可以适用于任意音频识别的场景，例如各种的音乐软件、听歌应用提供的听歌识曲服务或功能等。
46.在上述应用场景中，音乐软件或听歌应用在检测到用户哼唱的音频片段或用户输入的音频片段时，对所述音频片段进行语音识别。
47.以下请结合图1所示的音频识别的操作页面示意图；用户可以点击录制按钮11，以录制用户哼唱的音频片段或者录制当前环境中播放的音频片段；另外，用户还可以点击输入按钮（图中未示出），以输入生成好的音频片段。
48.在实际应用中，该触发按钮11可以被设置为持续触发时进行录制，这样用户可以通过手指持续按压该录制按钮11、以触发持续录制音频片段，并于抬起手指结束按压时、触发结束录制。
49.或者，该触发按钮11可以被设置为非持续触发时进行录制，这样用户可以通过点击该录制按钮11、以触发持续录制音频片段，并于再次点击该录制按钮11时以触发结束录制。
50.在结束录制后就可以对录制的音频片段进行语音识别，并显示语音识别结果。
51.所述语音识别可以是在音乐软件或听歌应用所在的用户侧的客户端进行的，也可以是在与所述客户端对应的服务端进行的。
52.在服务端进行时，所述客户端需要将检测到的音频片段发送给所述服务端，并接收所述服务端对音频片段进行语音识别的语音识别结果。
53.其中，所述服务端可以是指音乐软件或听歌应用的服务器、服务器集群或者由服务器集群构建的云平台。
54.示例性方法下面结合图1所示的应用场景，参考图2来描述根据本公开示例性实施方式的音频识别的方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。
55.如图2所示，所述音频识别方法，可以包括以下步骤：步骤210，检测用户哼唱的音频片段或用户输入的音频片段，对所述音频片段进行语音识别。
56.步骤220，在语音识别结果为失败的情况下，显示第一控件；步骤230，在检测到所述用户对所述第一控件点击的情况下，根据所述音频片段生成帖子并将所述帖子分享到社区论坛。
57.本说明书中，用户在想要获知某段感兴趣的歌曲的歌名信息时，可以哼唱该歌曲旋律的音频片段或输入与该歌曲相关的音频片段，这样客户端在检测到用户哼唱的音频片段或用户输入的音频片段时，可以对所述音频片段进行语音识别。
58.如前所述的对所述音频片段进行语音识别，可以是在客户端进行，也可以在服务端进行。当为后者时，客户端可以将所述音频片段发送给服务端，以由服务端对所述音频片段进行语音识别，并由所述服务端将语音识别结果返回给所述客户端。
59.语音识别结果可以包括成功或失败，在语音识别结果为成功的情况下，可以显示识别出的歌曲信息；而在语音识别结果为失败的情况下，可以显示第一控件。
60.以下请结合图3所示的第一控件的示意图为例，如图3所示如果语音识别结果为失败，那么进一步可以在音频识别的页面中显示如求助按钮31这样的第一控件。此外，为了方便用户理解，在显示第一控件的同时，还可以显示提示文案32（图2中的“没识别出想要的歌曲，已为您自动生成求助帖，点击求助发布”）以向用户提示第一控件的功能和作用。
61.进一步的，客户端在检测用户对所述第一控件点击的情况下，根据所述音频片段生成帖子并将所述帖子分享到社区论坛。
62.通过上述实施例，自动地将包含音频片段的帖子分享到社区论坛上，利用社区论坛上众多的用户帮助识别音频片段对应的歌名信息。将音频识别与社区论坛结合，提升用户在使用音频识别时的使用体验。
63.在本说明书中，所述社区论坛可以是所述音乐软件或听歌应用内部的论坛；也可以是其它第三方的社区论坛。
64.在所述社区论坛为其它第三方的社区论坛时，客户端上可以预先集成有该第三方的社区论坛提供的sdk；如此，客户端利用该sdk，可以根据音频片段生成符合所述第三方的社区论坛的帖子，并进一步基于sdk将帖子发布到所述第三方的社区论坛。
65.在一示例性的实施例中，在所述步骤230的根据所述音频片段生成帖子并将所述帖子分享到社区论坛之后，还可以包括：跳转至所述社区论坛，在所述社区论坛中显示所述帖子，所述帖子包括文案和所述音频片段的标识。
66.以下请结合图4所示的帖子的示意图，所述帖子可以包括文案41（如图4中示出的“下面这个旋律是哪首歌，大家帮我看看！”）和音频片段的标识42（如图4中示出的声波图
像）；并且，所述标识42的左侧还包括播放按钮43，当该播放按钮43被触发时可以播放该音频片段。
67.其中，所述文案41可以为系统自动生成的文案或为将所述帖子分享到社区论坛之前所述用户在文本输入框输入的文本信息。
68.在将帖子分享到社区论坛之后，社区论坛上的其它用户在浏览了该帖子后，可以帮助识别音频片段对应的歌名信息。
69.如前图4所示的，任意用户可以通过点击帖子中展示的播放按钮43，播放音频片段，如果用户听出来是什么首歌曲，可以对该帖子进行回帖，即在帖子中发布包含歌名信息的回复评论。
70.如图5所示的回复评论的示意图，用户张三在发布求助的帖子后，用户李四播放帖子中的音频片段后识别出歌名是《烟花易冷》，其对帖子进行回帖的回复评论51的内容如图5所示的“听起来像是林志炫的《烟花易冷》”。
71.在一示例性的实施例中，在检测到所述帖子存在回复评论时，可以向所述用户发出提醒信息。
72.如此通过提醒信息可以及时让用户能够感知帖子下新增的回复评论，从而提高了用户体验。
73.依然以图5为例，当用户李四回帖后，客户端会检测到帖子下新增了回复评论，此时客户端可以向用户张三发出提醒信息。
74.这里发出提醒信息的形式或方式有很多，下面示例性的例举几个方式，但这并不意味着只能采用这些方式。
75.例如，在用户张三关闭帖子页面的情况下，客户端可以以通知消息的形式推送提醒信息。
76.再例如，在用户张三依然显示该帖子页面的情况下，客户端可以将屏幕自动定位到帖子下新增的回复评论以此进行提醒。
77.再例如，客户端可以发出预设的提示语音以提醒用户帖子下新增了回复评论。
78.在一示例性的实施例中，所述方法还包括：根据所述帖子的回复评论的互动信息，对所述回复评论进行排序显示。
79.本说明书中，社区论坛支持用户对帖子中的回复评论进行互动，所述互动方式可以包括对回复评论进行点赞或点踩。
80.一般的，如果用户认同回复评论的内容，则可以进行点赞；反之，如果用户不认同回复评论的内容，则可以进行点踩。
81.通过互动，一方面，可以提高社区论坛的趣味性，从而提升用户使用体验。另一方面，也可以有助于评判各个回复评论的回复质量，进而基于互动信息对帖子中的各个回复评论进行排序显示。
82.这里的互动信息可以包括其它用户对回复信息是否认可所做出的互动的统计信息，例如点赞次数、点踩次数等。
83.在本说明书中，排序高低与回复评论的互动信息呈线性关系，其中点赞次数与排序高低呈正比，即点赞次数越多，回复评论排序越高；点赞次数与排序高低呈反比，即点踩次数越多，回复评论排序越低。
84.通过对帖子中的回复评论进行排序，从而可以优先显示高质量的回复评论，由于质量越高的回复评论存在正确的歌名信息的概率越高，因此排序显示可以帮助用户快速获取所有回复评论中最可能是正确的歌名信息。
85.在一示例性的实施例中，所述方法还包括：根据所述帖子的回复评论的互动信息，确定所述帖子的最佳评论。
86.如前所述，互动信息可以包括其它用户对回复信息是否认可所做出的互动的统计信息，例如点赞次数、点踩次数等。
87.在本说明书中，回复评论的互动信息与回复评论的质量高低呈正比，其中点赞次数与质量高低呈正比，即点赞次数越多，回复评论的质量越高；点赞次数与质量高低呈反比，即点踩次数越多，回复评论的质量越低。
88.由于质量越高的回复评论存在正确的歌名信息的概率越高，因此通过回复评论的互动信息可以将质量最高的回复评论确定为最佳评论。进而，由于最佳评论存在正确的歌名信息的概率最高，因此可以帮助用户快速获取所有回复评论中最可能是正确的歌名信息。
89.在一示例性的实施例中，所述步骤210中的对所述音频片段进行语音识别，可以包括：基于语音识别模型对所述音频片段进行语音识别；相应地，所述方法还包括：根据所述帖子的回复评论的互动信息，对所述语音识别模型进行迭代训练。
90.在本说明书中，所述语音识别模型可以是预先训练好的，用于对输入的音频片段进行语音识别，并输出语音识别结果。
91.一般的，所述语音识别以及后续的模型训练可以在服务端上进行。
92.为了提升语音识别模型的识别准确性，需要定期或不定期的对语音识别模型进行迭代训练以优化模型参数。
93.由于模型训练的效果取决于训练样本库的丰富程度，因此本说明书将帖子的音频片段和回复评论中的歌名信息作为训练样本从而丰富训练样本库，通过所述帖子的回复评论的互动信息，对所述语音识别模型进行迭代训练，以提高语音识别模型的迭代训练的效果。
94.另外，由于回复评论中的音频片段是真实应用中发生的，因此基于帖子生成训练样本训练得到的语音识别模型更贴合实际语音识别场景。
95.在一示例性的实施例中，所述根据所述帖子的回复评论的互动信息，对所述语音识别模型进行迭代训练，可以包括：对所述帖子的回复评论进行实体识别处理，得到所述回复评论中存在的歌名信息；基于所述歌名信息对应的回复评论的互动信息对每个歌名信息进行打分处理，将分值最高的目标歌名信息确定为所述音频片段对应的歌名信息；将所述音频片段和目标歌名信息作为带标签的训练样本，加入到所述语音识别模型的训练样本库；基于更新的训练样本库对所述语音识别模型进行迭代训练。
96.在本说明书中，实体识别处理可以采用例如实体命名识别（(named entity recognition，ner）、自然语言处理（natural language processing，nlp）等算法或技术。
97.通过实体识别处理，可以从回复评论中识别出具有实际含义的名称或名词，并进一步从中筛选出符合歌名类型的歌名信息。
98.在识别出回复评论中存在的歌名信息之后，进一步可以基于所述歌名信息对应的回复评论的互动信息对每个歌名信息进行打分处理。
99.在实现时，可以获取每个歌名信息对应的回复信息的互动信息；其中，所述互动信息包括其它用户对回复信息是否认可所做出的互动的统计信息；基于所述互动信息进行加权计算，得到每个歌名信息的打分分值。
100.在本说明书中，所述互动信息包括正面的互动信息和/或负面的互动信息。其中，所述正面的互动信息包括点赞次数；所述负面的互动信息包括点踩次数。
101.在一示例性的实施例中，以所述互动信息为点赞次数为例加以说明，所述基于所述互动信息进行加权计算，得到每个歌名信息的打分分值，可以包括：针对任一歌名信息，计算该歌名信息对应的互动信息与所有歌名信息对应的互动信息之和的比值，将所述比值确定为该歌名信息的打分分值。
102.在本说明书中，所述计算该歌名信息对应的互动信息与所有歌名信息对应的互动信息之和的比值，将所述比值确定为该歌名信息的打分分值，可以参考以下公式：其中，表示第j个歌名信息的打分分值，表示第j个歌名信息对应的互动信息；表示第1个歌名信息至第j个歌名信息的互动信息之和（即所有歌名信息对应的互动信息之和）；j表示所有歌名信息的总数。
103.通过上述公式，可以计算得到所有的j个歌名信息的打分分值，然后按照打分分值的大小将分值最高的目标歌名信息确定为所述音频片段对应的歌名信息。
104.在本说明书中，在将分值最高的目标歌名信息确定为所述音频片段对应的歌名信息后，可以显示该目标歌名信息。例如，在帖子的预设位置（如帖子内容下方）显示目标歌名信息，或者在该目标歌名信息对应的回复评论中突出显示（如字体加粗、字体颜色替换为鲜艳颜色等等）目标歌名信息的文字内容。如此，可以方便浏览帖子的用户查看。
105.在一示例性的实施例中，所述基于更新的训练样本库对所述语音识别模型进行迭代训练，可以包括利用以下步骤进行迭代训练，直到满足识别准确率达到预设要求：将所述训练样本库中的训练样本输入到所述语音识别模型，以使所述语音识别模型对所述训练样本中的音频片段进行识别得到对应的识别结果；基于训练样本中作为标签的目标歌名信息对所述识别结果进行校验以获得识别准确性，如果识别准确率未达到预设要求，则进一步优化所述语音识别模型的模型参数。
106.在本说明书中，迭代训练的语音识别模型是上一轮模型训练出的语音识别模型，
而非初始的语音识别模型；当然如何是第一次模型训练，那么语音识别模型为初始的语音识别模型。
107.所述语音识别模型可以采用例如机器学习技术构建的模型，例如卷积神经网络（convolutional neural networks，cnn）模型、循环神经网络（recurrent neural network，rnn）模型等。
108.一般的，随着迭代训练次数的增加，语音识别模型的识别准确性也可以逐步提高。
109.如前所述，迭代训练效果好坏通常与训练样本有关，本说明书通过将语音识别场景中真实发生的音频片段和基于社交论坛得到的歌名信息作为新的且带标签的训练样本，不仅能够丰富训练样本数量和质量，而且由于该音频片段是当前语音识别模型无法识别的，因此将音频片段与标签的歌名信息作为训练样本，在迭代模型过程中能够帮助语音识别模型具备识别原本无法识别的音频片段的能力，从而提升模型性能和识别准确率。
110.在迭代训练过程中，语音识别模型可以对训练样本中的音频片段进行识别得到对应的识别结果；并与该训练样本中作为标签的目标歌名信息进行比较，如果识别结果与目标歌名信息一致，则说明识别正确；反之，如果识别结果与目标歌名信息不一致，则说明识别错误；基于对训练样本库中所有训练样本进行一轮语音识别后，识别准确率未能达到预设要求（例如识别准确率小于预设阈值），那么需要对模型参数进行优化调整，以基于优化调整后的语音识别模型，再次对训练样本库进行新一轮的语音识别；如此重复迭代训练，直到针对训练样本库中所有训练样本的识别准确率达到预设要求，此时就可以将最终优化调整后的模型参数作为新的语音识别模型的模型参数进行使用。
111.其中，所述优化模型参数的优化方式可以采用随机森林、梯度下降、模拟退火等业内常用的优化算法。
112.在一示例性的实施例中，所述对所述训练样本中的音频片段进行识别得到对应的识别结果，可以包括：提取所述训练样本中的音频片段的若干特征点；其中，所述特征点包括针对所述音频片段进行采样时的采样时间和对应的音频频率；对每个特征点进行摘要计算，得到与每个特征值唯一对应的数字摘要；查询歌名信息表中与每个数字摘要匹配的歌名信息；统计匹配次数最多的歌名信息，并将所述歌名信息确定为所述音频片段的识别结果。
113.在本说明书中，语音识别模型的识别过程可以分为特征点采样，即通过预设采样间隔（例如10毫秒）打点音频片段，以获取每个采样点对应的音频频率，由音频频率和对应的采样时间构成特征点。按照采样时间的先后顺序可以得到若干的特征点。
114.所述摘要计算可以包括如hash计算、md5计算等唯一性标识的计算方式。以hash计算为例，对每个特征点进行hash计算，能够得到每个特征点对应的hash值，该hash值即为数字摘要；进一步需要将这些数字摘要与歌名信息表进行匹配。
115.所述歌名信息表中记录的歌曲的特征点需要采用与音频片段相同的特征点提取方式；即歌名信息表中记录有歌曲的若干特征点的音频频率，并且同一歌曲的若干音频频
率均关联对应的相同歌名信息。
116.在将数字摘要与歌名信息表进行匹配时，需要采样相同的摘要计算方式，将歌名信息表中歌曲的若干音频频率进行摘要计算，得到对应的数字摘要，为了与音频片段的数字摘要进行区分，下面将音频片段的数字摘要称为第一数字摘要，将歌名信息表中歌曲的若干音频频率计算的数字摘要称为第二数字摘要；如此，将音频片段的若干第一数字摘要与歌名信息表中的若干第二数字摘要一一进行比对，并统计与第一数字摘要相同的第二数字摘要对应的歌名信息的匹配次数。
117.由于可能匹配到多个不同的歌名信息，所以可以将匹配次数最多的歌名信息确定为该音频片段的识别结果，即匹配次数最多的歌名信息为该音频片段的歌名信息。
118.上述实施例，通过摘要计算降低特征点匹配的复杂度，从而提高语音识别的速度。
119.示例性介质在介绍了本公开示例性实施方式的方法之后，接下来，参考图6对本公开示例性实施方式的介质进行说明。
120.本示例性实施方式中，可以通过程序产品实现上述方法，如可以采用便携式紧凑盘只读存储器（cd-rom）并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
121.该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦式可编程只读存储器（eprom或闪存）、光纤、便携式紧凑盘只读存储器（cd-rom）、光存储器件、磁存储器件、或者上述的任意合适的组合。
122.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、re等等，或者上述的任意合适的组合。
123.可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如c语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（lan）或广域网（wan），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。
124.综上，本公开可以提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，可以使得电子设备能够执行前述图2所示的音频识别方法实施例。
125.示例性装置在介绍了本公开示例性实施方式的介质之后，接下来，参考图7对本公开示例性实施方式的装置进行说明。
126.图7示意性地示出了根据本公开实施方式的一种音频识别装置的框图，对应于前述图2所示的方法实施例。该音频识别装置可以包括：识别单元710，检测用户哼唱的音频片段或用户输入的音频片段，对所述音频片段进行语音识别；显示单元720，在语音识别结果为失败的情况下，显示第一控件；分享单元730，在检测到所述用户对所述第一控件点击的情况下，根据所述音频片段生成帖子并将所述帖子分享到社区论坛。
127.可选的，所述分享单元730之后，还包括：跳转单元740，跳转至所述社区论坛，在所述社区论坛中显示所述帖子，所述帖子包括文案和所述音频片段的标识；其中，所述文案为系统自动生成的文案或为将所述帖子分享到社区论坛之前所述用户在文本输入框输入的文本信息。
128.可选的，所述装置还包括：提醒单元750，在检测到所述帖子存在回复评论时，向所述用户发出提醒信息。
129.可选的，所述装置还包括：排序单元760，根据所述帖子的回复评论的互动信息，对所述回复评论进行排序显示。
130.可选的，所述装置还包括：确定单元770，根据所述帖子的回复评论的互动信息，确定所述帖子的最佳评论。
131.可选的，所述识别单元710，进一步包括：检测用户哼唱的音频片段或用户输入的音频片段，基于语音识别模型对所述音频片段进行语音识别；所述装置还包括：训练单元780，根据所述帖子的回复评论的互动信息，对所述语音识别模型进行迭代训练。
132.可选的，所述训练单元780，进一步包括：实体识别子单元781，对所述帖子的回复评论进行实体识别处理，得到所述回复评论中存在的歌名信息；歌名打分子单元783，基于所述歌名信息对应的回复评论的互动信息对每个歌名信息进行打分处理，将分值最高的目标歌名信息确定为所述音频片段对应的歌名信息；样本加入子单元785，将所述音频片段和目标歌名信息作为带标签的训练样本，加入到所述语音识别模型的训练样本库；模型训练子单元787，基于更新的训练样本库对所述语音识别模型进行迭代训练。
133.可选的，所述歌名打分子单元783，进一步包括：获取子单元，获取每个歌名信息对应的回复信息的互动信息；其中，所述互动信息包括其它用户对回复信息是否认可所做出的互动的统计信息；计算子单元，基于所述互动信息进行加权计算，得到每个歌名信息的打分分值。
134.可选的，所述互动信息包括正面的互动信息和/或负面的互动信息。
135.可选的，所述正面的互动信息包括点赞次数；所述负面的互动信息包括点踩次数。
136.可选的，在所述互动信息为点赞次数时，所述计算子单元，进一步包括：针对任一歌名信息，计算该歌名信息对应的互动信息与所有歌名信息对应的互动信息之和的比值，将所述比值确定为该歌名信息的打分分值。
137.可选的，所述基于更新的训练样本库对所述语音识别模型进行迭代训练，包括利用以下子单元进行迭代训练，直到满足识别准确率达到预设要求：模型识别子单元，将所述训练样本库中的训练样本输入到所述语音识别模型，以使所述语音识别模型对所述训练样本中的音频片段进行识别得到对应的识别结果；结果校验子单元，基于训练样本中作为标签的目标歌名信息对所述识别结果进行校验以获得识别准确性，如果识别准确率未达到预设要求，则进一步优化所述语音识别模型的模型参数。
138.可选的，所述模型识别子单元，进一步包括提取所述训练样本中的音频片段的若干特征点；其中，所述特征点包括针对所述音频片段进行采样时的采样时间和对应的音频频率；摘要计算子单元，对每个特征点进行摘要计算，得到与每个特征值唯一对应的数字摘要；查询歌名信息表中与每个数字摘要匹配的歌名信息；统计匹配次数最多的歌名信息，并将所述歌名信息确定为所述音频片段的识别结果。
139.示例性计算设备在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图8对本公开示例性实施方式的计算设备进行说明。
140.图8显示的计算设备1500仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
141.如图8所示，计算设备1500以通用计算设备的形式表现。计算设备1500的组件可以包括但不限于：上述至少一个处理单元1501、上述至少一个存储单元1502，连接不同系统组件（包括处理单元1501和存储单元1502）的总线1503。
142.总线1503包括数据总线、控制总线和地址总线。
143.存储单元1502可以包括易失性存储器形式的可读介质，例如随机存取存储器（ram）15021和/或高速缓存存储器15022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器（rom）15023。
144.存储单元1502还可以包括具有一组（至少一个）程序模块15024的程序/实用工具15025，这样的程序模块15024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
145.计算设备1500也可以与一个或多个外部设备1504（例如键盘、指向设备等）通信。
146.这种通信可以通过输入/输出（i/o）接口1505进行。并且，计算设备1500还可以通过网络适配器1506与一个或者多个网络（例如局域网（lan），广域网（wan）和/或公共网络，例如因特网）通信。如图8所示，网络适配器1506通过总线1503与计算设备1500的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备1500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
147.通过如图8示出的计算设备1500，可以实现前述图2所示的音频识别方法。
148.应当注意，尽管在上文详细描述中提及了音频识别装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
149.此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
150.虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：音视频伪造同步方法及其构成的伪造系统与流程

音频识别方法、装置、存储介质和计算设备与流程

相关文献

最热文献