一种音频识别方法、装置、设备及介质与流程

2021-11-26 22:18:00 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种音频识别方法、装置、设备及介质。

背景技术：

2.通过应用程序播放的多媒体信息往往搭配有背景音乐；例如，通过短视频应用观看的短视频往往搭配有背景音乐。另外，用户在看电影、看电视、听广播等过程中，也可能会听到自己喜欢的音乐。在这些场景下，对于用户而言可能没办法获取到这些音乐的相关信息，例如并不清楚这些音乐的名称、歌手等属性信息。
3.目前技术可以通过录音并对录取到的音频数据进行识别的方式来得到相关音乐的属性信息。如何便捷地向用户进行音频识别提醒成为研究的热点问题。

技术实现要素：

4.本技术实施例提供一种音频识别方法、装置、设备及介质，能够便捷地识别出多媒体信息所关联的音频。
5.一方面，本技术实施例提供一种音频识别方法，该方法包括：
6.显示第一应用程序的音频识别页面；
7.在音频识别页面中输出音频识别进度，音频识别进度用于提示第一应用程序根据多媒体标识进行音频识别的进度信息，多媒体标识是由第二应用程序分享至第一应用程序的；
8.显示第一应用程序的音频识别结果页面。
9.另一方面，本技术实施例提供一种音频识别方法，该方法包括：
10.接收第一应用程序发送的多媒体标识；
11.根据多媒体标识查询相匹配的多媒体信息，并根据多媒体信息进行音频识别处理；以及，
12.将音频识别处理结果发送至第一应用程序，其中，音频识别处理结果包括：音频识别进度、音频识别结果中的任意一个或者多个。
13.另一方面，本技术实施例提供一种音频识别装置，该装置包括：
14.显示单元，用于显示第一应用程序的音频识别页面；
15.处理单元，用于在音频识别页面中输出音频识别进度，音频识别进度用于提示第一应用程序根据多媒体标识进行音频识别的进度信息，多媒体标识是由第二应用程序分享至第一应用程序的；
16.处理单元，还用于显示第一应用程序的音频识别结果页面。
17.另一方面，本技术实施例提供一种音频识别装置，该装置包括：
18.接收单元，用于接收第一应用程序发送的多媒体标识；
19.处理单元，用于根据多媒体标识查询相匹配的多媒体信息，并根据多媒体信息进行音频识别处理；以及，
20.处理单元，还用于将音频识别处理结果发送至第一应用程序，其中，音频识别处理结果包括：音频识别进度、音频识别结果中的任意一个或者多个。
21.另一方面，本技术实施例提供一种电子设备，该电子设备包括：存储装置和处理器；
22.存储装置中存储有计算机程序；
23.处理器，运行存储装置中存储的计算机程序，实现上述描述的音频识别方法。
24.另一方面，本技术实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机应用程序，计算机应用程序被执行时，实现上述描述的音频识别方法。
25.另一方面，本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述的音频识别方法。
26.本技术实施例中，可将待识别的多媒体信息的多媒体标识从第二应用程序分享至第一应用程序，以便于第一应用程序根据多媒体标识进行音频识别，得到音频识别结果。这种将多媒体标识直接进行分享就可实现识别多媒体标识所关联音频(如背景音乐)的方法，相比于现有的需要两个应用程序频繁跳转进行音频识别而言，操作简单便捷，并且音频识别过程不受外界环境影响，提高音频识别效率和速度，提升音频识别的准确性。
附图说明
27.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
28.图1示出了本技术一个示例性实施例提供的一种音频识别系统的架构示意图；
29.图2示出了本技术一个示例性实施例提供的一种音频识别方法的流程示意图；
30.图3示出了本技术一个示例性实施例提供的一种分享多媒体标识的示意图；
31.图4示出了本技术一个示例性实施例提供的一种页面跳转提示信息的示意图；
32.图5a示出了本技术一个示例性实施例提供的一种音频识别进度的示意图；
33.图5b示出了本技术一个示例性实施例提供的一种音频识别动画的示意图；
34.图5c示出了本技术一个示例性实施例提供的一种音频识别进度和音频识别动画的示意图；
35.图6示出了本技术一个示例性实施例提供的一种识别类型选项的示意图；
36.图7示出了本技术一个示例性实施例提供的一种识别进度区和类型选择区的示意图；
37.图8a示出了本技术一个示例性实施例提供的一种从第一应用程序的音频识别结果页面切换显示至第一应用程序的服务页面的流程示意图；
38.图8b示出了本技术一个示例性实施例提供的一种从第一应用程序的音频识别结果页面跳转至第二应用程序的服务页面的流程示意图；
39.图8c示出了本技术一个示例性实施例提供的一种在音频识别结果页面中显示至
少一个候选音频的示意图；
40.图9a示出了本技术一个示例性实施例提供的一种播放被选择的候选音频的的示意图；
41.图9b示出了本技术一个示例性实施例提供的另一种播放被选择的候选音频的的示意图；
42.图10示出了本技术一个示例性实施例提供的另一种音频识别方法的流程示意图；
43.图11示出了本技术一个示例性实施例提供的一种音频识别装置的结构示意图；
44.图12示出了本技术一个示例性实施例提供的另一种音频识别装置的结构示意图；
45.图13示出了本技术一个示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
46.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
47.本技术实施例提出一种音频识别方案，该音频识别方案涉及如下术语及概念：
48.一、人工智能(artificial intelligence，ai)。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括自动内容识别技术、计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
49.其中，自动内容识别技术(automatic content recognition，acr)是一种利用计算机算法直接识别多媒体信息(如音频、视频、图像)的技术，识别算法的输入可以是多媒体文件，也可以是通过麦克风、摄像头采集的原始数据，然后在多媒体数据库中进行特征比对、搜索，从而得到匹配结果。acr技术提供了一种新颖、便捷的搜索和获取信息的方式，用户无需任何手动输入，便可立即获得其感兴趣的多媒体内容的相关信息。acr技术已广泛应用于图像识别，音视频识别，电视节目多屏互动，电视、广播内容自动监测，多媒体版权检测，电视广告多屏同步等多个领域。
50.其中，听歌识曲是自动内容识别技术的核心算法，也是音频指纹技术(audio fingerprinting technology)中的一种。听歌识曲作为音频信息检索领域的一项重要课题，主流的歌曲识别技术主要运用到音频指纹(audio fingerprinting)的算法来提取每首歌的指纹，建立歌曲指纹库(或称为声纹特征库)，当用户通过录音请求的时候，听歌识曲会先对这段音乐提取其音频指纹(或称为音频特征)，再对该音频指纹进行比对匹配，找到数据库中匹配度最高的那首歌。
51.二、应用程序。应用程序可是指为完成某项或多项特定工作的计算机程序。按照不同维度(如应用程序的运行方式、功能等)对应用程序进行归类，可得到同一应用程序在不同维度下的类型，按照应用程序的运行方式分类，应用程序可包括但不限于：安装在终端中的客户端、无需下载安装即可使用的小程序、通过浏览器打开的web应用程序等等。按照应用程序的功能类型分类，应用程序可包括但不限于：im(instant messaging，即时通信)应用程序、内容交互应用程序等等；其中，即时通信应用程序是指基于互联网的即时交流消息和社交交互的应用程序，即时通信应用程序可以包括但不限于：qq、微信、企业微信、包含社交交互功能的地图应用程序、游戏应用程序、qq音乐应用、qq浏览器等等。内容交互应用程序是指能够实现内容交互的应用程序，例如可以是网银、微博、个人空间、新闻等应用程序。需要说明的是，本技术实施例后续提及的应用程序可以是按照运行方式分类的多种应用程序中的任意一种应用，也可以是按照功能类型分类的多种应用程序中的任意一种应用；本技术实施例对应用程序的类型不作限定。
52.基于上述术语和概念，本技术实施例提出一种音频识别系统。该音频识别系统可参见图1，如图1所示，该音频识别系统可包括终端和服务器，本技术实施例对终端和服务器的数量不作限定。其中，终端可包括但不限于：智能手机(如android手机、ios手机等)、平板电脑、便携式个人计算机、移动互联网设备(mobile internet devices，简称mid)、智能电视、车载设备、头戴设备、vr/ar设备等可以进行触屏的电子设备。终端中可以运行应用程序(可简称为应用，如视频应用、音乐应用等等)。服务器可以包括但不限于：数据处理服务器、web服务器、应用服务器等等具有复杂计算能力的设备。服务器可以是任一应用程序的后台服务器，用于与运行该任一应用程序的终端进行交互，以为该任一应用提供计算和应用服务支持。服务器可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或者分布式系统。终端和服务器可以通过有线或无线方式进行直接或间接地通信连接，本技术实施例并不对终端和服务器之间的连接方式进行限定。
53.基于上述音频识别系统提出一种音频识别方案，该音频识别方案可由上述音频识别系统中的目标终端(或称为电子设备，即任一终端)，或者目标终端中运行的应用程序执行；为了便于阐述，后续均以目标终端执行该音频识别方案为例进行说明。具体地，该音频识别方案的大致原理如下：当用户在使用任一应用程序观看短视频(或视频、音频、电影等)的过程中，产生识别背景音乐的歌曲名称的需求时，用户可使用该任一应用程序的分享功能将待识别的短视频的链接从该任一应用程序分享给具有识别歌曲名称功能的应用程序(如qq音乐等)，以使该应用程序根据短视频的链接进行音频识别，并在音频识别结果页面中输出音频识别结果。
54.基于此，在本技术实施例提出的音频识别方案中，当任意用户在观看短视频的过程中产生识别短视频所关联的背景音乐的歌曲名称的需求时，该任意用户可将短视频分享给具有识别歌曲名称的应用程序进行音频识别，以得到短视频所关联的背景音乐；这种将短视频进行分享就可实现识别短视频所关联背景音乐识别的方法，相比于现有的需要应用程序跳转才能实现歌曲名称识别而言，操作简单便捷，并且音频识别过程不受外界环境影响，提高音频识别效率和速度，提升音频识别的准确性。
55.下面将结合附图，对本技术实施例提出的音频识别方案进行详细介绍。
56.图2示出了本技术一个示例性实施例提供的一种音频识别方法的流程示意图；本
申请实施例提出的音频识别方案的流程可以由前述提及的目标终端来执行。如图2所示，该音频识别方案可包括如下步骤s201
‑
s203。
57.s201：显示第一应用程序的音频识别页面。
58.第一应用程序可以是指具备音频识别功能的任一应用程序，如第一应用程序为qq音乐应用程序，qq音乐应用程序具备识别音乐的相关信息(如音乐名称、音乐发布时间等信息)。当第一应用程序接收到第二应用程序(如目标终端中所运行的任一应用程序)发送的多媒体标识时，第一应用程序开始执行根据多媒体标识进行音频识别的操作，并显示第一应用程序的音频识别页面，以提醒用户正在进行音频识别。其中，多媒体标识可以用于唯一标识一个多媒体信息，多媒体信息可包括以下任一种：视频、短视频、音频等，此时多媒体标识包括多媒体信息的链接，而多媒体信息的链接可以是由第二应用程序直接分享至第一应用程序；或者多媒体信息的链接被设置于图片中，并由第二应用程序分享至第一应用程序；此处的图片包括但不限于：二维码、条形码、图形码、标识码等等。
59.结合附图3来对将多媒体标识从目标终端所包含的第二应用程序分享至目标终端所包含的第一应用程序的过程进行介绍。如图3所示，假设第二应用程序是提供短视频浏览的视频应用程序，在该视频应用程序的视频浏览页面301中显示有一个或多个视频，且每个视频所处的显示区域中包括一个或多个选项，例如视频浏览页面301中包括视频3011、视频3012，视频3011所处的显示区域中包括点赞选项30111、评论选项30112、分享选项30113等等。当分享选项30113被选择时，显示分享对象标识窗口302，该分享对象标识窗口302中包括一个或多个分享对象标识，一个或多个分享对象标识中包括第一应用程序的分享对象标识3021，其中，分享对象标识包括但不限于：应用程序的图标、应用程序的名称等等。若分享对象标识3021被选中，表示用户想要将视频3011的链接分享至第一应用程序，此时触发显示第一应用程序的音频识别页面303。可以理解的是，上述描述的分享对象标识窗口可以如图3所示的以浮窗形式显示于第二应用程序的视频浏览页面301之上，还可以单独的页面显示于显示屏幕中，本技术实施例对此不作限定。
60.需要说明的是，第一应用程序获得多媒体标识的方式除上述描述的，第二应用程序将多媒体标识分享至第一应用程序外，第一应用程序获得多媒体标识的方式还可以包括其他方式。可选的，可能分享对象标识窗口中并不包括第一应用程序的分享对象标识，而只包括一些其他应用程序的分享对象标识；那么在这种情况下，本技术实施例还支持将多媒体标识分享至任一其他应用程序，并通过该任一其他应用程序将多媒体标识转发至第一应用程序，以实现第一应用程序获得多媒体标识。可选的，第一应用程序的音频识别页面中还包括识别区域(如识别框等)，用户可以在第二应用程序复制多媒体标识，并将复制的多媒体标识粘贴至第一应用程序的识别区域中，以实现第一应用程序获得多媒体标识；或者，用户直接在识别区域中输入多媒体标识(如视频链接)，以实现第一应用程序获得多媒体标识。当然，将第一应用程序获取多媒体标识的实现方式并不只限于上述描述的几种实现方式，上述给出的几种示例性介绍，并不对本技术实施例产生限定，在此说明。
61.另外，在将多媒体标识从第二应用程序分享至第一应用程序后，在目标终端的显示屏幕中显示第一应用程序的页面，而将第二应用程序运行于后台。基于此，本技术实施例支持在第一应用程序接收到第二应用程序发送的多媒体标识之后，由用户来选择留在第一应用程序中还是返回至第二应用程序。具体实现中，在第一应用程序接收到第二应用程序
发送的多媒体标识之后，在目标终端的显示屏幕中输出第一应用程序的任一页面，并在该任一页面中显示页面跳转提示信息，该页面跳转提示信息用于提示用户选择留在第一应用程序或选择返回第二应用程序。当用户选择留在第一应用程序时，从服务页面切换至音频识别页面；当用户选择返回第二应用程序时，从第一应用程序的任一页面跳转至第二应用程序的服务页面，该第二应用程序的服务页面可以是第二应用程序中分享多媒体标识的页面(如图3所示的视频浏览页面303)。在这种情况下，当用户在后续第一时间段内打开第一应用程序时，可显示第一应用程序的音频识别结果页面，该音频识别结果页面中显示音频识别结果；反之，当用户在后续第二时间段内打开第一应用程序时，可显示第一应用程序的音频识别页面，以提示用户正在进行音频识别。其中，第一时间段的时间长度大于第二时间的时间长度，例如，第一时间段的时间长度为5分钟，第二时间段的时间长度为2分钟；在第一时间段内第一应用程序已经音频识别结束，在第二时间段内第一应用程序仍在进行音频识别。
62.一种示例性的页面跳转提示信息的示意图可参见图4，如图4所示，当在第二应用程序的任一视频所处的显示区域中选中分享选项时，跳转显示第一应用程序的服务页面401，并在服务页面401中显示页面跳转提示信息402，该页面跳转提示信息402中包括确定按键(或确定控件、确定按钮等)4021和返回按键4022。如果用户选中确定按键4021，表示用户选择留在第一应用程序，则显示第一应用程序的音频识别页面303；如果用户选中返回按键4022，表示用户选择返回第二应用程序，则显示第二应用程序的视频浏览页面301。当然，如图4所示，页面跳转提示信息402除显示于第一应用程序的服务页面中外，还可以显示于第一应用程序的音频识别页面中；也就是说，当第一应用程序接收到第二应用程序发送的多媒体标识时，第一应用程序显示第一应用程序的音频识别页面，并在音频识别页面中显示页面跳转提示信息，本技术实施例对页面跳转提示信息具体显示于第一应用程序的哪一页面，并不作限定。
63.s202：在音频识别页面中输出音频识别进度，该音频识别进度可用于提示第一应用程序根据多媒体标识进行音频识别的进度信息，多媒体标识是由第二应用程序分享至第一应用程序的。其中，音频识别进度在音频识别页面中的表现形式可包括文字形式。例如，一种包含的音频识别进度的表现形式为文字的示例性示意图可参见图5a，如图5a所示，在第一应用程序的音频识别页面303中显示有音频识别进度501(如音频识别进度为“识别剩余时间8s”)。
64.本技术实施例支持在音频识别页面中输出音频识别进度以外，还支持在音频识别页面中输出音频识别动画。具体实现中，在音频识别页面中输出音频识别动画，音频识别动画与音频识别进度相匹配。所谓音频识别动画与音频识别进度相匹配可以是指：音频识别动画跟随音频识别进度指示的进度信息进行动画显示，例如：音频识别进度表现为倒计时形式，音频识别的总倒计时长为10秒，当倒计时为7秒
‑
10秒时，音频识别动画以第一频率进行振动，当倒计时为4秒
‑
8秒时，音频识别动画以第二频率进行振动，当倒计时为0秒
‑
3秒时，音频识别动画以第三频率进行振动；其中，第一频率小于第二频率，第二频率小于第三频率；这种音频识别动画跟随音频识别进度进行动画显示的方式，丰富界面展现效果，可以帮助用户更好地了解音频识别的进度。其中，音频识别动画可以是管理人员实现设定的，也可以是用户设置的，本技术实施例对音频识别动画的设置方式不作限定。在一种实现方式
中，在音频识别页面中输出音频识别动画的示例性示意图可参见图5b，如图5b所示，在第一应用程序的音频识别页面303中输出音频识别动画502。在另一种实现方式中，在音频识别页面中输出音频识别进度和音频识别动画的示例性示意图可参见图5c，如图5c所示，在第一应用程序的音频识别页面303中同时显示有音频识别动画503和音频识别进度504。值得注意的是，音频识别动画和音频识别进度在音频识别页面中进行组合显示的方式是多样的，本技术实施例以图5c所示的示意图示例性的介绍，并不会对本技术实施例产生限定。
65.本技术实施例还支持在音频识别页面中显示至少一个识别类型选项，识别类型选项包括以下任一种：哼唱识曲选项、听歌识曲选项、分享识曲选项等；当任一识别类型选项被触发时，在音频识别页面中突出显示被选中的任一识别类型选项。此处的突出显示的方式可包括但不限于：以字号大于其他识别类型选项的字号信息进行显示、以亮度高于其他识别类型选项的亮度进行显示、以透明度低于其他识别类型选项的透明度进行显示等等。例如，当第一应用程序接收到第二应用程序发送的多媒体标识时，表示当前音频识别的识别类型为分享识曲，则在第一应用程序的音频识别页面中，分享识曲选项被突出显示于音频识别页面中。如图6所示，在第一应用程序的音频识别页面中显示有分享识曲选项601，且分享识曲选项601被以透明度低于其他识别类型选项的透明度进行突出显示。
66.值得一提的是，上述描述的音频识别进度、音频识别动画以及识别类型选项可以单独形式分别显示于音频识别页面中，也可以组合形式显示于音频识别页面中，例如，将音频识别进度以及音频识别动画组合显示音频识别页面中，又如，将音频识别进度、音频识别动画以及识别类型选项组合显示于音频识别页面中，等等。当音频识别进度、音频识别动画以及识别类型选项组合显示于音频识别页面中时，音频识别进度、音频识别动画以及识别类型选项在音频识别页面中的显示方式可包括：音频识别页面设有识别进度区，音频识别进度和音频识别动画显示于音频识别页面的识别进度区；以及，音频识别页面设有类型选择区，在音频识别页面的类型选择区中显示至少一个识别类型选项。其中，识别进度区和类型选择区在音频识别页面中的分布方式可包括但不限于：识别进度区和类型选择区沿水平方向并排分布于音频识别页面中；识别进度区和类型选择区沿垂直方向并列分布于音频识别页面中；识别进度区和类型选择区呈对角分布于音频识别页面中；或者，识别进度区沿着类型选择区的边缘线向外分布于音频识别页面中；等等。以识别进度区和类型选择区沿垂直方向并列分布于音频识别页面中为例进行说明，请参见图7，如图7所示，在音频识别页面303中设有类型选择区701和识别进度区702，并且，类型选择区701和识别进度区702沿着垂直方向并列显示于音频识别页面中。
67.s203：显示第一应用程序的音频识别结果页面。
68.第一应用程序的音频识别结果页面用于显示音频识别结果；当服务器(或称为后台服务器)识别到多媒体标识所关联的候选音频时，音频识别结果页面中所包含的音频识别结果包括成功识别到的至少一个候选音频；当服务器未识别到多媒体标识所关联的候选音频时，音频识别结果页面中所包含的音频识别结果包括音频识别失败提示信息，以提示用户音频识别失败。下面对不同音频识别结果下界面表现情况进行较为详细的阐述，其中：
69.(1)音频识别失败时，音频识别结果包括音频识别失败提示信息；此时，显示第一应用程序的音频识别结果页面，并在音频识别结果页面中显示音频识别失败提示信息；当音频识别失败提示信息在音频识别结果页面中显现目标时间段(如5秒、6秒等)后，从第一
应用程序的音频识别结果页面切换显示至第一应用程序的服务页面，该服务页面可以是第一应用程序的任一页面，如第一应用程序为qq音乐应用程序，则第二应用程序的服务页面可以是qq音乐应用程序的主界面。这样当音频识别失败后，可直接跳转至qq音乐应用程序的主界面，以便于用户可便捷的进行歌曲搜索和播放。
70.其中，在音频识别失败时，从第一应用程序的音频识别结果页面切换显示至第一应用程序的服务页面的流程示意图可参见图8a；如图8a所示，当音频识别失败后，输出第一应用程序的音频识别结果页面801，并在音频识别结果页面801中显示音频识别失败提示信息802；当音频识别失败提示信息802在音频识别结果页面801中显现目标时间段(如5秒)后，显示第一应用程序的服务页面，该服务页面可以是第一应用程序的主界面，以方便用户在主界面中执行播放或搜索音频的操作。
71.(2)音频识别失败时，音频识别结果包括音频识别失败提示信息；此时，从第一应用程序的音频识别结果页面跳转至第二应用程序的服务页面，该服务页面可以是第二应用程序的任一页面，例如，该服务页面是第二应用程序中用户分享多媒体标识的页面。其中，从第一应用程序的音频识别结果页面跳转至第二应用程序的服务页面的流程示意图可参见图8b，如图8b所示，用户将第二应用程序的视频浏览页面301所显示的多媒体标识分享至第一应用程序；第一应用程序根据多媒体标识进行音频识别，并输出第一应用程序的音频识别结果页面801，音频识别结果页面801中包含音频识别失败提示信息802；当音频识别失败提示信息802在音频识别结果页面801中停留目标时间段(如5秒)后，自动从第一应用程序的音频识别结果页面801跳转至第二应用程序的视频浏览页面301。这种直接从第一应用程序跳转至第二应用程序，可帮助用户继续进行视频浏览。
72.当然，本技术实施例还支持在音频识别失败提示信息802所处的显示位置处一并显示剩余时长，该剩余时长可以用于提醒用户从第一应用程序跳转至第二应用程序的剩余时间长度。并且，在音频识别失败提示信息802所处的显示位置处还一并显示有取消按键，当取消按键被触发时，表示用户想要停留在第一应用程序，则此时关闭音频识别失败提示信息802，并且仍然显示第一应用程序的音频识别结果页面，或切换显示第一应用程序的服务页面。
73.(3)音频识别成功时，音频识别结果包括成功识别到的至少一个候选音频；此时，在第一应用程序的音频识别结果页面中输出成功识别到的至少一个候选音频的属性信息。其中，候选音频的属性信息可包括但不限于：音频名称、宣传图像、发布者名称、发布时间等等；例如，候选音频为目标歌曲，则候选音频的属性信息可包括目标歌曲的歌曲名称、目标歌曲的宣传图像、目标歌曲的发布者名称等等。在音频识别结果页面中显示至少一个候选音频的一种示例性示意图可参见图8c，如图8c所示，当音频识别成功时，输出第一应用程序的音频识别结果页面801，并在音频识别结果页面801中显示至少一个候选音频的属性信息，如在音频识别结果页面801中显示候选音频803的属性信息。可以理解的是，当候选音频的数量大于1时，换句话说，识别到多媒体标识相关联的候选音频的数量有多个时，第一应用程序可按照音频识别得到的多媒体标识与各个候选音频之间的匹配度，按照匹配度从高至低的顺序对各个候选音频进行排序显示，这样可帮助用户一目了然的看见与多媒体标识最为匹配的候选音频。当然，多个候选音频在音频识别结果页面中的排列显示方式还可以包括其他实现方式，如多个候选音频在音频识别结果页面中随机排列显示，本技术实施例
对此不作限定。
74.本技术实施例还支持触发音频识别结果页面中的任一候选音频，以实现播放候选音频。具体实现中，在音频识别结果页面中包括至少一个候选音频的属性信息，当至少一个候选音频中的任一候选音频的属性信息被选择时，播放被选择的候选音频。其中，播放被选择的候选音频的实现方式可包括但不限于：
①
在音频识别结果页面中播放被选择的候选音频；如图9a所示，当音频识别结果页面801中的任一候选音频的属性信息(如候选音频803的播放按键8031)被选择时，在音频识别结果页面801中播放该被选择的候选音频。或者，
②
从音频识别结果页面跳转至第一应用程序的音频播放页面，并在音频播放页面中播放被选择的候选音频。其中，第一应用程序的音频播放页面可以是被选择的候选音频的详情页面，在该详情页面中显示被选择的候选音频的详情信息，详情信息包括但不限于属性信息。如图9b所示，当音频识别结果页面801中的任一个候选音频的属性信息(如候选音频803的播放按键8031)被选中时，从第一应用程序的音频识别结果页面801切换显示第一应用程序的音频播放页面901，在该音频播放页面901中显示候选音频803的详情信息，其中，候选音频803的详情信息包括候选音频803的属性信息(如音频图像、音频名称等等)以及其他信息(如与候选音频802所关联的评论信息等等)。
75.本技术实施例中，当任意用户在观看短视频的过程中产生识别短视频所关联的背景音乐的歌曲名称的需求时，该任意用户可将短视频分享给具有识别歌曲名称的应用程序进行音频识别，以得到短视频所关联的背景音乐；这种将短视频进行分享就可实现识别短视频所关联背景音乐识别的方法，相比于现有的需要应用程序跳转才能实现歌曲名称识别而言，操作简单便捷，并且音频识别过程不受外界环境影响，提高音频识别效率和速度，提升音频识别的准确性。
76.上述实施例给出了第一应用程序进行音频识别时所经历的多种界面图，下面给出后台服务器执行音频识别方案的后台技术实现。其中，后台服务器可以是第一应用程序所对应的服务器，例如，第一应用程序为qq音乐应用程序，那么后台服务器可以为qq音乐服务器。后台服务器实现音频识别方案的大致流程可包括：后台服务器接收第一应用程序发送的多媒体标识，正如前述所描述的，第一应用程序获取多媒体标识的方式可包括但不限于：第二应用程序分享的、用户在第一应用程序中录入的等等；后台服务器根据多媒体标识查询相匹配的多媒体信息，并根据多媒体信息进行音频识别处理；以及，将音频识别处理结果发送至第一应用程序，其中，音频识别处理结果包括：音频识别进度、音频识别结果中的任意一个或者多个。
77.下面以第二应用程序将多媒体标识分享给第一应用程序为例，对后台服务器执行上述描述的音频识别流程进行较为详情的阐述。请参见图10，图10示出了本技术一个示例性实施例提供的另一种音频识别方法的流程示意图；本技术实施例提出的音频识别方案的流程可以由前述提及的目标终端对应的后台服务器来执行，或者，由目标终端中所运行的第一应用程序对应的后台服务器来执行。如图10所示，该音频识别方案可包括如下步骤s1001
‑
s1006。
78.s1001：第二应用程序将多媒体标识发送至第一应用程序。
79.s1002：第一应用程序接收第二应用程序发送的多媒体标识并输出页面跳转提示信息。
80.其中，步骤s1001
‑
s1002所示的具体实施过程可参见图2所示实施例中的具体实施过程的相关描述，在此不做赘述。
81.s1003：第一应用程序将多媒体标识发送至后台服务器。
82.s1004：后台服务器接收第一应用程序发送的多媒体标识，并根据多媒体标识查询相匹配的多媒体信息，以及根据多媒体信息进行音频识别处理。
83.步骤s1003
‑
s1004中，当后台服务器接收到第一应用程序发送的多媒体标识后，后台服务器可以根据该多媒体标识查询与该多媒体标识相匹配的多媒体信息。例如，多媒体标识为视频链接，那么与该多媒体标识相匹配的多媒体信息可是指该视频链接所指示的存储空间内所存储的视频，多媒体信息的属性信息是指该视频的视频信息，视频信息可包括但不限于：视频名称、视频数据、视频所关联的音乐的音乐名称、音乐数据等等。
84.其中，后台服务器根据多媒体标识查询相匹配的多媒体信息，并根据多媒体信息进行音频识别处理的实现方式可包括：
85.(1)后台服务器在目标数据库中查询多媒体标识相匹配的多媒体信息；若在目标数据库中查询到多媒体标识相匹配的多媒体信息，则根据目标数据库中多媒体信息进行音频识别处理；若在目标数据库中未查询到多媒体标识相匹配的多媒体信息，则触发执行步骤(2)。具体地，多媒体标识可包括多媒体信息的链接，该链接可以是该多媒体信息的存储地址；如果目标数据库中存储有该多媒体标识相匹配的多媒体信息，那么后台服务器根据该多媒体标识所指示的存储地址可以在目标数据库中查询到多媒体信息，进而实现成功查询多媒体标识相匹配的多媒体信息。其中，目标数据库可以是后台服务器所对应的数据库，即后台服务器具有操作权限(如对数据库中的数据的增删、修改、访问、调用等等权限)的数据库，该数据库中可包括与第一应用程序相关的海量数据(如第一应用程序所包含的资源信息、用户信息等等)。例如，第一应用程序为qq音乐应用程序，第一应用程序对应的后台服务器的目标数据库中为qq音乐数据库，该qq音乐数据库中包括海量的音乐信息等等。
86.(2)若在目标数据库中未查询到多媒体标识相匹配的多媒体信息，则后台服务器通过互联网查询多媒体标识相匹配的多媒体信息，并根据查询到的多媒体标识相匹配的多媒体信息进行音频识别处理。具体地，后台服务器可通过互联网在网络数据库中查询多媒体标识相匹配的多媒体信息；所谓的网络数据库可以是互联网中任一设备的数据库，后台服务器可能只具有对该网络数据库的访问权限和下载权限，而不具备其他操作权限(如对数据库中的数据的增删、修改等等权限)，例如后台服务器为qq音乐应用程序对应的服务器，那么网络数据库可以是抖音应用程序对应的服务器的数据库。若后台服务器从网络数据库中未查询到多媒体标识相匹配的多媒体信息，则后台服务器生成音频识别失败提示信息，并将该音频识别失败提示信息返回至第一应用程序，以使第一应用程序在音频识别结果页面中输出音频识别结果，该音频识别结果包括音频识别失败提示信息。若后台服务器从网络数据库中查询到多媒体标识相匹配的多媒体信息，则后台服务器从网络数据库中下载多媒体标识相匹配的多媒体信息，下载得到的多媒体信息可以被播放和转发。例如，多媒体信息为搭配有背景音乐的视频，则下载多媒体信息的过程中会将视频数据和音乐数据(或音频数据)同时下载到后台服务器。其中，网络数据库是互联网中任一设备的数据库。
87.基于上述步骤(1)
‑
(2)所描述的内容可知，首先根据多媒体标识在目标数据库中查询多媒体标识相匹配的多媒体信息，当在目标数据库中查询不到多媒体标识相匹配的多
媒体信息时，再通过互联网查询多媒体标识相匹配的多媒体信息的方式，提高了获取多媒体标识相匹配的多媒体信息的速度和效率，也确保了网络环境的安全性。
88.另外，本技术实施例还支持根据多媒体信息进行音频识别处理，以得到多媒体信息所关联的候选音频以及候选音频的属性信息(如音频名称等)。其中，多媒体信息的来源方式(如来源于目标数据库或网络数据库)不同，但后台服务器根据多媒体信息进行音频识别处理的方式是类似的。下面以多媒体信息来自于目标数据库为例，对根据多媒体信息进行音频识别处理的实现方式进行较为详细介绍，其中：若在目标数据库中查询到多媒体标识相匹配的多媒体信息，则根据多媒体信息进行音频识别处理的过程包括：判断在目标数据库中是否查询到多媒体信息的属性信息；若是，则从目标数据库中获取多媒体信息的属性信息；若否，则从目标数据库中获取多媒体信息的音频数据，并对音频数据进行音频识别，得到至少一个候选音频以及至少一个候选音频的属性信息。具体地，若后台服务器在目标数据库查询到多媒体标识相匹配的多媒体信息，则检测目标数据库是否存储有多媒体信息的属性信息，若存在多媒体信息的属性信息，则直接从目标数据库中获取多媒体信息的属性信息，若不存在多媒体信息的属性信息，则再执行根据多媒体信息进行音频识别的过程。
89.其中，一种示例性的后台服务器对音频数据进行音频识别，得到候选音频以及候选音频的属性信息的实现方式可包括：提取音频数据的声纹特征；在声纹特征库中对声纹特征进行匹配处理，声纹特征库中包含多个候选声纹特征；若匹配到声纹特征相匹配的候选声纹特征，则将候选声纹特征对应的音频确定为候选音频，以及将候选声纹特征对应的音频的属性信息确定为候选音频的属性信息；否则，确定音频识别失败，生成音频识别失败提示信息。也就是说，后台服务器可通过音频指纹技术对音频数据进行音频识别，所谓音频指纹是将从音频中提取的音频特征比喻为手指指纹，提取的音频特征具有独一无二且信息简洁的特点。其中，基于音频数据的声纹特征在声纹特征库中查询时，可得到满足查询条件的多个候选音频；而音频满足查询条件的一种可选方式包括：音频的声纹特征与音频数据的声纹特征之间的匹配度大于或等于匹配阈值。当然，本技术实施例对上述提及的查询条件不作限定，在此说明。
90.通过上述过程可知，本技术实施例支持使用数据库匹配和声音识别两种方式来识别多媒体标识相匹配的多媒体信息以及该多媒体信息关联的候选音频，可提高音频识别的准确性。
91.s1005：后台服务器将音频识别处理结果发送至第一应用程序，音频识别处理结果包括：音频识别进度、音频识别结果中的任意一个或者多个。
92.s1006：第一应用程序输出音频识别处理结果。
93.步骤s1005
‑
s1006中，后台服务器在执行步骤s1004所描述的相关内容时，还会实时地将音频识别处理结果发送至第一应用程序，以便于第一应用程序在音频识别页面中输出音频识别处理结果。可选的，音频识别处理结果包括音频识别进度，则第一应用程序接收到后台服务器发送的音频识别进度后，第一应用程序可以在音频识别页面中输出音频识别进度，音频识别进度用来提示第一应用程序根据多媒体标识进行音频识别的进度信息。其中，一种示例性的确定音频识别的进度信息的方式可包括：若当前音频识别处于在目标数据库中查询的阶段，则确定当前的音频识别的进度信息为10％；若当前音频识别处于在网
络数据库中查询的阶段，则确定当前的音频识别的进度信息为50％；若当前音频识别处于对音频数据进行音频识别阶段，或从目标数据库中获取多媒体的阶段，则确定当前的音频识别的进度信息为80％；若当前音频识别处于已经获取到候选音频，则确定当前的音频识别的进度信息为100％。值得一提的是，上述只是给出一种示例性的确定音频识别的进度信息的实现方式，在实际应用场景中，还存在一些其他的确定方式，在此不作详细阐述。可选的，音频识别处理结果包括音频识别结果，后台服务器音频识别结束后，可将音频识别结果发送至第一应用程序；第一应用程序接收到后台服务器发送的音频识别结果之后，可显示音频识别结果页面，并在音频识别结果页面中输出音频识别结果。正如前述所描述的，音频识别节点可包括：至少一个候选音频或者音频识别失败提示信息。
94.本技术实施例中，首先根据多媒体标识在目标数据库中查询多媒体标识相匹配的多媒体信息，当在目标数据库中查询不到多媒体标识相匹配的多媒体信息时，再通过互联网查询多媒体标识相匹配的多媒体信息的方式，提高了获取多媒体标识相匹配的多媒体信息的速度和效率，也确保了网络环境的安全性。另外，支持使用数据库匹配和声音识别两种方式来识别多媒体标识相匹配的多媒体信息以及该多媒体信息关联的候选音频，可提高音频识别的准确性。
95.图11示出了本技术一个示例性实施例提供的一种音频识别装置的结构示意图；该音频识别装置设置在目标终端中。在一些实施例中，该音频识别装置可以是运行目标终端中的客户端(如qq音乐应用程序等)；该音频识别装置所包括的单元的具体实现可参考前述实施例中相关内容的描述。请参见图11，本发明实施例的该音频识别装置包括如下单元：
96.显示单元1101，用于显示第一应用程序的音频识别页面；
97.处理单元1102，用于在音频识别页面中输出音频识别进度，音频识别进度用于提示第一应用程序根据多媒体标识进行音频识别的进度信息，多媒体标识是由第二应用程序分享至第一应用程序的；
98.处理单元1102，还用于显示第一应用程序的音频识别结果页面。
99.在一种实施方式中，处理单元1102还用于：
100.在音频识别页面中输出音频识别动画，音频识别动画与音频识别进度相匹配。
101.在一种实施方式中，音频识别页面设有识别进度区；音频识别进度和音频识别动画显示于音频识别页面的识别进度区。
102.在一种实施方式中，处理单元1102还用于：
103.在音频识别页面中显示至少一个识别类型选项；识别类型选项包括以下任一种：哼唱识曲选项、听歌识曲选项、分享识曲选项；其中，分享识曲选项被突出显示于音频识别页面中。
104.在一种实施方式中，音频识别页面设有类型选择区；处理单元1102在音频识别页面中显示至少一个识别类型选项时，具体用于：
105.在音频识别页面的类型选择区中显示至少一个识别类型选项。
106.在一种实施方式中，音频识别结果页面用于显示音频识别结果，音频识别结果包括音频识别失败提示信息；处理单元1102还用于：
107.显示第一应用程序的服务页面，服务页面是第一应用程序的任一页面。
108.在一种实施方式中，音频识别结果页面用于显示音频识别结果，音频识别结果包
括音频识别失败提示信息；处理单元1102还用于：
109.从音频识别结果页面跳转至第二应用程序的服务页面，服务页面是第二应用程序的任一页面。
110.在一种实施方式中，音频识别结果页面用于显示音频识别结果，音频识别结果包括成功识别到的至少一个候选音频；处理单元1102还用于：
111.在音频识别结果页面中输出至少一个候选音频的属性信息。
112.在一种实施方式中，处理单元1102还用于：
113.当任一个候选音频的属性信息被选择时，播放被选择的候选音频。
114.在一种实施方式中，处理单元1102在播放被选择的候选音频时，具体用于：
115.在音频识别结果页面中播放被选择的候选音频；或者，从音频识别结果页面跳转至第一应用程序的音频播放页面，并在音频播放页面中播放被选择的候选音频。
116.在一种实施方式中，多媒体标识用于唯一标识一个多媒体信息；多媒体信息包括视频、短视频、以及音频中的任一种；多媒体标识包括多媒体信息的链接；
117.多媒体信息的链接由第二应用程序直接分享至第一应用程序；或者多媒体信息的链接被设置于图片中，并由第二应用程序将图片分享至第一应用程序。
118.根据本技术的一个实施例，图11所示的音频识别方法中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本技术的其它实施例中，该音频识别方法也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本技术的另一个实施例，可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图11中所示的音频识别装置，以及来实现本技术实施例的基于音频识别方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。
119.本技术实施例中，处理单元1102可将待识别的多媒体信息的多媒体标识从第二应用程序分享至第一应用程序，以便于第一应用程序根据多媒体标识进行音频识别，得到音频识别结果。这种将多媒体标识直接进行分享就可实现识别多媒体标识所关联音频(如背景音乐)的方法，相比于现有的需要两个应用程序频繁跳转进行音频识别而言，操作简单便捷，并且音频识别过程不受外界环境影响，提高音频识别效率和速度，提升音频识别的准确性。
120.图12示出了本技术一个示例性实施例提供的一种音频识别装置的结构示意图；该音频识别装置设置在后台服务器中。在一些实施例中，该音频识别装置可以是运行后台服务器中的客户端(如qq音乐应用程序等)；该音频识别装置所包括的单元的具体实现可参考前述实施例中相关内容的描述。请参见图12，本发明实施例的该音频识别装置包括如下单元：
121.接收单元1201，用于接收第一应用程序发送的多媒体标识；
122.处理单元1202，用于根据多媒体标识查询相匹配的多媒体信息，并根据多媒体信息进行音频识别处理；以及，
123.处理单元1202，还用于将音频识别处理结果发送至第一应用程序，其中，音频识别处理结果包括：音频识别进度、音频识别结果中的任意一个或者多个。
124.在一个实施方式中，处理单元1202在根据多媒体标识查询相匹配的多媒体信息，并根据多媒体信息进行音频识别处理时，具体用于：
125.在目标数据库中查询多媒体标识相匹配的多媒体信息；
126.若在目标数据库中查询到多媒体标识相匹配的多媒体信息，则根据目标数据库中多媒体信息进行音频识别处理；
127.若在目标数据库中未查询到多媒体标识相匹配的多媒体信息，则通过互联网查询多媒体标识相匹配的多媒体信息，并根据查询到的多媒体标识相匹配的多媒体信息进行音频识别处理。
128.在一个实施方式中，处理单元1202在根据目标数据库中多媒体信息进行音频识别处理时，具体用于：
129.判断在目标数据库中是否查询到多媒体信息的属性信息；
130.若是，则从目标数据库中获取多媒体信息的属性信息；
131.若否，则从目标数据库中获取多媒体信息的音频数据，并对音频数据进行音频识别，得到至少一个候选音频以及至少一个候选音频的属性信息。
132.根据本技术的一个实施例，图12所示的音频识别方法中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本技术的其它实施例中，该音频识别方法也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本技术的另一个实施例，可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图10所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图12中所示的音频识别装置，以及来实现本技术实施例的基于音频识别方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。
133.本技术实施例中，首先根据多媒体标识在目标数据库中查询多媒体标识相匹配的多媒体信息，当在目标数据库中查询不到多媒体标识相匹配的多媒体信息时，再通过互联网查询多媒体标识相匹配的多媒体信息的方式，提高了获取多媒体标识相匹配的多媒体信息的速度和效率，也确保了网络环境的安全性。另外，支持使用数据库匹配和声音识别两种方式来识别多媒体标识相匹配的多媒体信息以及该多媒体信息关联的候选音频，可提高音频识别的准确性。
134.图13示出了本技术一个示例性实施例提供的一种电子设备的结构示意图。请参见图13，该电子设备包括存储装置1301以及处理器1302，在本发明实施例中，该电子设备还包括网络接口1303以及用户接口1304。该电子设备可以是智能手机、平板电脑、智能可穿戴设
备等等，能够通过网络接口1303接入到互联网，与服务器以及其他电子设备通信、交互数据。用户接口1304可以包括触摸显示屏等等，能够接收用户的操作，还可以向用户显示各种各样的界面以便于接收用户操作。
135.存储装置1301可以包括易失性存储器(volatile memory)，例如随机存取存储器(random
‑
access memory，ram)；存储装置1301也可以包括非易失性存储器(non
‑
volatile memory)，例如快闪存储器(flash memory)，固态硬盘(solid
‑
state drive，ssd)等；存储装置1301还可以包括上述种类的存储器的组合。
136.处理器1302可以是中央处理器(central processing unit，cpu)。处理器1302还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application
‑
specific integrated circuit，asic)，可编程逻辑器件(programmable logic device，pld)等。上述pld可以是现场可编程逻辑门阵列(field
‑
programmable gate array，fpga)，通用阵列逻辑(generic array logic，gal)等。
137.本技术实施例的存储装置1301中存储有计算机程序，处理器1302调用存储装置中的计算机程序，当计算机程序被执行时，处理器1302可以用于实施上述诸如图1所对应的实施例等描述的方法。
138.在一个实施例中，该电子设备可以对应于目标终端；该存储装置1301中存储有计算机程序；由处理器1302加载并执行计算机程序，以实现上述音频识别方法实施例中的相应步骤；具体的，处理器1302用于执行如下步骤：
139.显示第一应用程序的音频识别页面；
140.在音频识别页面中输出音频识别进度，音频识别进度用于提示第一应用程序根据多媒体标识进行音频识别的进度信息，多媒体标识是由第二应用程序分享至第一应用程序的；
141.显示第一应用程序的音频识别结果页面。
142.在一种实施方式中，处理器1302还用于执行如下步骤：
143.在音频识别页面中输出音频识别动画，音频识别动画与音频识别进度相匹配。
144.在一种实施方式中，音频识别页面设有识别进度区；音频识别进度和音频识别动画显示于音频识别页面的识别进度区。
145.在一种实施方式中，处理器1302还用于执行如下步骤：
146.在音频识别页面中显示至少一个识别类型选项；识别类型选项包括以下任一种：哼唱识曲选项、听歌识曲选项、分享识曲选项；其中，分享识曲选项被突出显示于音频识别页面中。
147.在一种实施方式中，音频识别页面设有类型选择区；处理器1302在音频识别页面中显示至少一个识别类型选项时，具体用于执行如下步骤：
148.在音频识别页面的类型选择区中显示至少一个识别类型选项。
149.在一种实施方式中，音频识别结果页面用于显示音频识别结果，音频识别结果包括音频识别失败提示信息；处理器1302还用于执行如下步骤：
150.显示第一应用程序的服务页面，服务页面是第一应用程序的任一页面。
151.在一种实施方式中，音频识别结果页面用于显示音频识别结果，音频识别结果包括音频识别失败提示信息；处理器1302还用于执行如下步骤：
152.从音频识别结果页面跳转至第二应用程序的服务页面，服务页面是第二应用程序的任一页面。
153.在一种实施方式中，音频识别结果页面用于显示音频识别结果，音频识别结果包括成功识别到的至少一个候选音频；处理器1302还用于执行如下步骤：
154.在音频识别结果页面中输出至少一个候选音频的属性信息。
155.在一种实施方式中，处理器1302还用于执行如下步骤：
156.当任一个候选音频的属性信息被选择时，播放被选择的候选音频。
157.在一种实施方式中，处理器1302在播放被选择的候选音频时，具体用于执行如下步骤：
158.在音频识别结果页面中播放被选择的候选音频；或者，从音频识别结果页面跳转至第一应用程序的音频播放页面，并在音频播放页面中播放被选择的候选音频。
159.在一种实施方式中，多媒体标识用于唯一标识一个多媒体信息；多媒体信息包括视频、短视频、以及音频中的任一种；多媒体标识包括多媒体信息的链接；
160.多媒体信息的链接由第二应用程序直接分享至第一应用程序；或者多媒体信息的链接被设置于图片中，并由第二应用程序将图片分享至第一应用程序。
161.在另一个实施例中，该电子设备可以对应于后台服务器；该存储装置1801中存储有计算机程序；由处理器1302加载并执行计算机程序，以实现上述音频识别方法实施例中的相应步骤；具体的，处理器1302用于执行如下步骤：
162.接收第一应用程序发送的多媒体标识；
163.根据多媒体标识查询相匹配的多媒体信息，并根据多媒体信息进行音频识别处理；以及，
164.将音频识别处理结果发送至第一应用程序，其中，音频识别处理结果包括：音频识别进度、音频识别结果中的任意一个或者多个。
165.在一种实施方式中，处理器1302在根据多媒体标识查询相匹配的多媒体信息，并根据多媒体信息进行音频识别处理时，具体用于执行如下步骤：
166.在目标数据库中查询多媒体标识相匹配的多媒体信息；
167.若在目标数据库中查询到多媒体标识相匹配的多媒体信息，则根据目标数据库中多媒体信息进行音频识别处理；
168.若在目标数据库中未查询到多媒体标识相匹配的多媒体信息，则通过互联网查询多媒体标识相匹配的多媒体信息，并根据查询到的多媒体标识相匹配的多媒体信息进行音频识别处理。
169.在一种实施方式中，处理器1302在根据目标数据库中多媒体信息进行音频识别处理时，具体用于执行如下步骤：
170.判断在目标数据库中是否查询到多媒体信息的属性信息；
171.若是，则从目标数据库中获取多媒体信息的属性信息；
172.若否，则从目标数据库中获取多媒体信息的音频数据，并对音频数据进行音频识别，得到至少一个候选音频以及至少一个候选音频的属性信息。
173.本技术实施例中，首先根据多媒体标识在目标数据库中查询多媒体标识相匹配的多媒体信息，当在目标数据库中查询不到多媒体标识相匹配的多媒体信息时，再通过互联
网查询多媒体标识相匹配的多媒体信息的方式，提高了获取多媒体标识相匹配的多媒体信息的速度和效率，也确保了网络环境的安全性。另外，支持使用数据库匹配和声音识别两种方式来识别多媒体标识相匹配的多媒体信息以及该多媒体信息关联的候选音频，可提高音频识别的准确性。
174.本技术实施例还提供了一种计算机可读存储介质(memory)，计算机可读存储介质是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括电子设备中的内置存储介质，当然也可以包括电子设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了电子设备的处理系统。并且，在该存储空间中还存放了适于被处理器1302加载并执行的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速ram存储器，也可以是非不稳定的存储器(non
‑
volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质。
175.根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述各种可选方式中提供的音频识别方法。
176.本领域普通技术人员可以意识到，结合本技术中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
177.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read
‑
only memory，rom)或随机存储记忆体(random access memory，ram)等。
178.以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于全双工语音交互系统的测试方法及系统与流程

一种音频识别方法、装置、设备及介质与流程

相关文献

最热文献