一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于音频录制的目标推荐方法与流程

2021-08-10 16:37:00 来源:中国专利 TAG:片段 数据 录制 音频 推荐
一种基于音频录制的目标推荐方法与流程

本发明涉及数据片段的获取、解析(识别)及推荐技术领域,具体说是一种基于音频录制的目标推荐方法。所述数据片段尤指基于音频录制得到的数据片段。



背景技术:

有些应用场景中,我们只能间接获得一些数据片段,并不能直接获得包括这些数据片段的完整数据,例如:

我们有时听到了一首非常心仪的歌曲,但却不知道歌名,因此无法直接获得该歌曲的完整数据;

或者,由于时间久了我们只记得音乐旋律却忘记了曲名,因此无法直接获得该歌曲的完整数据。

这种情况下,我们虽心痒难耐却也束手无策。

基于这种用户需求,数据片段的获取、解析(识别)及推荐技术被重视并得到了研究及发展,不少app中装载了听歌识曲功能,以满足用户快速、识别、搜索歌曲的需求。

现有的听歌识曲功能,需要尽量保证环境的安静,尽量离发音源更近,一次识别一首歌曲,其处理过程大致如下:

对需要识别的音频进行录音,

客户端提取录音的音频特征,

客户端将音频特征发送到服务端,

服务端接收音频特征,将其与服务器中的歌曲进行匹配,将匹配到的歌曲信息(包括歌名、曲名等等)返回给客户端。

现有的听歌识曲功能,依赖于较长时间的、完整的对需要识别的音频进行录音,这导致使用该功能会花费较长的时间;现有的听歌识曲功能,不适合离发音源较远时去使用,远离发音源时往往无法匹配到歌曲信息,或匹配错误率很高。

公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。



技术实现要素:

针对现有技术中存在的缺陷,本发明的目的在于提供一种基于音频录制的目标推荐方法,改进优化了录音策略,提高了音频录制的效率,针对离发音源较远的情况提出了解决方案,更便于用户使用,在一定程度上提高了解析效率,提高了解析的准确度,丰富了目标推荐的信息丰富程度,符合个性化需求,扩充了听歌识曲功能的应用场景。

为达到以上目的,本发明采取的技术方案是:

一种基于音频录制的目标推荐方法,其特征在于,

启动录音模块,录制当前环境声音;

将录制得到的第一音频数据,传输到指定的一个或多个远端;

在传输第一音频数据的同时,录制当前环境声音不间断的持续进行,在持续进行的过程中录制得到至少一个补充音频数据;

将录制得到的补充音频数据,按时间顺序依次传输,传输到与前述相同或不同的指定的一个或多个远端;

远端接收第一音频数据后,即可进行解析及匹配操作,尝试获得默认或指定的目标推荐信息;

远端进一步接收补充音频数据后,持续进行与前述相同或不同的解析及匹配操作,尝试获得默认或指定的目标推荐更新信息。

在上述技术方案的基础上,所述录音模块设于客户端设备本地,所述客户端设备指用户当前正在使用的设备;

或者,所述录音模块设于远程设备本地,所述远程设备指用户无法使用、但可通过指令远程请求并控制该设备中的录音模块的设备。

在上述技术方案的基础上,所述录制当前环境声音是指:通过拾音设备采集当前环境声音,该当前环境声音为外放状态,

或者,

所述录制当前环境声音是指:通过设备的内部电路采集当前环境声音,该当前环境声音为外放状态或内放状态。

在上述技术方案的基础上,设定录制时长参数,默认值为1-3秒,第一音频数据和补充音频数据根据录制时长控制录制的起止时间;

所述第一音频数据的录制时长,和所述补充音频数据的录制时长相同或不同,当不同时,所述补充音频数据的录制时长大于所述第一音频数据的录制时长。

在上述技术方案的基础上,设定录制时长增量参数,默认值为1秒,第一音频数据根据录制时长控制录制的起止时间,补充音频数据的录制时长每一段按录制时长增量递增。

在上述技术方案的基础上,设定录制分段参数,录制得到的补充音频数据的数量由录制分段控制。

在上述技术方案的基础上,在录制的过程中,录制得到的数据缓存于缓冲区中,通过从缓冲区中截取数据并转存的方式,实现获取第一音频数据或补充音频数据;

传输转存的第一音频数据或补充音频数据,不影响缓冲区中的数据,实现传输的同时,录制当前环境声音不间断的持续进行。

在上述技术方案的基础上,当远端收到第一音频数据时,直接对第一音频数据进行解析及匹配操作,

当远端在收到第一音频数据后又收到补充音频数据时,合并第一音频数据和补充音频数据形成第二音频数据,对第二音频数据进行解析及匹配操作;

当远端仅收到补充音频数据时,直接对补充音频数据进行解析及匹配操作,

当远端在收到补充音频数据后又收到新的补充音频数据时,合并补充音频数据和新的补充音频数据形成第三音频数据,对第三音频数据进行解析及匹配操作。

在上述技术方案的基础上,每个远端预置至少两个不同的解析及匹配算法,

同一个远端,针对不同的解析对象,采用相同或不同的解析及匹配算法;

不同的远端,针对相同的解析对象,采用不同的解析及匹配算法,

不同的远端,针对不同的解析对象,采用不同的解析及匹配算法。

在上述技术方案的基础上,在解析及匹配算法中预设至少一种指定的目标推荐信息,其中至少一种目标推荐信息供听歌识曲功能使用。

本发明所述的基于音频录制的目标推荐方法,具有以下有益效果:

1、改进优化了录音策略,提高了音频录制的效率,数据片段的获取方式更灵活,向服务端传输数据片段时录音持续不间断;

2、针对离发音源较远的情况提出了解决方案,更便于用户使用,尽量避免远离发音源对听歌识曲功能的不利影响;

3、向服务端传输数据片段兼顾了效率和数据量,在一定程度上提高了解析效率,提高了解析的准确度;

4、对数据片段解析后,返回的信息量增大且可自定义,扩充了听歌识曲功能的应用场景,丰富了目标推荐的信息丰富程度,符合个性化需求。

附图说明

本发明有如下附图:

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1本发明所述基于音频录制的目标推荐方法的实施例一的流程图。

图2录音模块实施例的示意图。

图3应用场景一的示意图。

图4应用场景二中所述一种情况的示意图。

图5应用场景二中所述另一种情况的示意图一。

图6应用场景二中所述另一种情况的示意图二。

图7应用场景二中所述再一种情况的示意图。

图8应用场景三的示意图。

图9录制当前环境声音的示意图。

图10控制录制的起止时间的示意图。

图11控制录制的起止时间的示意图。

图12进行解析及匹配操作的示意图一。

图13进行解析及匹配操作的示意图二。

图14进行解析及匹配操作的示意图三。

图15进行解析及匹配操作的示意图四。

图16解析及匹配算法的示意图。

具体实施方式

以下结合附图对本发明作进一步详细说明。所述详细说明,为结合本发明的示范性实施例做出的说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

如图1所示,本发明所述基于音频录制的目标推荐方法,包括如下步骤:

启动录音模块,录制当前环境声音;

将录制得到的第一音频数据,传输到指定的一个或多个远端;

在传输第一音频数据的同时,录制当前环境声音不间断的持续进行,在持续进行的过程中录制得到至少一个补充音频数据;

将录制得到的补充音频数据,按时间顺序依次传输,传输到与前述相同或不同的指定的一个或多个远端;

远端接收第一音频数据后,即可进行解析及匹配操作,尝试获得默认或指定的目标推荐信息;

远端进一步接收补充音频数据后,持续进行与前述相同或不同的解析及匹配操作,尝试获得默认或指定的目标推荐更新信息。

在上述技术方案的基础上,如图2所示,所述录音模块设于客户端设备本地,所述客户端设备指用户当前正在使用的设备,例如所述客户端设备可为:用户当前正在使用的手机、平板电脑、mp3、台式机、笔记本电脑、智能音箱等;

或者,所述录音模块设于远程设备本地,所述远程设备指用户无法使用、但可通过指令远程请求并控制该设备中的录音模块的设备,所述无法使用指无法直接对该设备进行操作,例如:该设备不归用户所有故无法使用,或者该设备虽然归用户所有但用户当前与该设备所处位置不同故无法使用,例如所述远程设备可为:归其他人所有的手机、平板电脑、mp3、台式机、笔记本电脑、智能音箱等,或者所述远程设备可为:归用户所有,但当前与用户所处位置不同的手机、平板电脑、mp3、台式机、笔记本电脑、智能音箱等。

本发明所述方法,将录音模块划分为设于客户端设备本地和设于远程设备本地,是基于录音模块需适合于以下几种应用场景中使用的考虑:

应用场景一,如图3所示,归用户所有且用户正在使用的客户端设备,所述客户端设备配备有录音模块,此即所述录音模块设于客户端设备本地,当用户听到某些声音(例如歌曲等),用户对该某些声音感兴趣,且能够靠近该某些声音的发音源到一定距离之内,则可通过所述客户端设备本地的录音模块录制当前环境声音;

应用场景二,与应用场景一的区别在于,用户不能够靠近该某些声音的发音源到一定距离之内,则因为录制效果不佳,用户无法通过所述客户端设备本地的录音模块录制当前环境声音;

一种情况是:如图4所示,用户可尝试通过所述客户端设备本地的录音模块录制当前环境声音,但由于无法改变客户端设备到发音源的距离(确有难度导致无法改变,或者由于懒惰等原因怠于尝试改变),录音效果可能不佳;

另一种情况是:用户可尝试通过所述远程设备本地的录音模块录制当前环境声音,所述远程设备是更靠近发音源的设备,例如:如图5所示,音乐会中,用户a在远离舞台的区域,而用户c在靠近舞台的区域,这属于一种确有难度导致无法改变客户端设备到发音源的距离的情况,用户a和用户c为好友,用户c授权过用户a可通过指令远程请求并控制用户c当前正在使用的设备c1中的录音模块,则用户c的设备c1即为远程设备,用户a可尝试通过所述远程设备本地的录音模块录制当前环境声音;又例如:如图6所示,在单位中,用户a听到几个工位之外的同事用户c在听歌曲,因不想离开座位走到同事c的工位,这属于一种由于懒惰等原因怠于尝试改变的情况,用户a和用户c为同事,用户c授权过用户a可通过指令远程请求并控制用户c当前正在使用的设备c1中的录音模块,则用户c的设备c1即为远程设备,用户a可尝试通过所述远程设备本地的录音模块录制当前环境声音;

再一种情况是:如图7所示,用户可尝试通过所述远程设备本地的录音模块录制当前环境声音,所述远程设备是发音源所在的设备,例如发音源是设于某一高处的智能音箱,用户a可通过指令远程请求并控制该智能音箱,所述智能音箱设有录音模块,则该设于高处的智能音箱即为远程设备,用户a可尝试通过所述远程设备本地的录音模块录制当前环境声音;

应用场景三,与应用场景一的区别在于,用户不是直接听到某些声音(例如歌曲等),而是发现某人或某设备处于播放声音(例如歌曲等)的状态,例如:如图8所示,用户a和用户c为好友,二人分处两地,用户a发现用户c的当前状态中显示其在听歌曲,此即一种不是直接听到某些声音(例如歌曲等)的情况;又例如:用户a和用户c为同事,用户a发现用户c在使用耳机,且用户c的当前状态中显示其在听歌曲(采用内放状态听歌曲),此即一种不是直接听到某些声音(例如歌曲等)的情况;用户c授权过用户a可通过指令远程请求并控制用户c当前正在使用的设备c1中的录音模块,则用户c的设备c1即为远程设备,用户a可尝试通过所述远程设备本地的录音模块录制当前环境声音。

在上述技术方案的基础上,如图9所示,所述录制当前环境声音是指:通过拾音设备采集当前环境声音,该当前环境声音为外放状态(声音扩散到空气,可被人耳直接接受到),

或者,

所述录制当前环境声音是指:通过设备的内部电路采集当前环境声音,该当前环境声音为外放状态或内放状态(声音未直接扩散到空气,不可被人耳直接接受到)。

所述录音模块和所述拾音设备是配套的,二者可互相配合完成音频录制,

所述录音模块和所述内部电路是配套的,二者可互相配合完成音频录制。

通常,手机、平板电脑、mp3、台式机、笔记本电脑、智能音箱等均在设计、制造时,已经配套的设置了所述录音模块和所述拾音设备,或已经配套的设置了所述录音模块和所述内部电路,所述录音模块和所述拾音设备,以及所述录音模块和所述内部电路均可采用现有技术实施,本发明不再详述。

如前所述实施示例中,应用场景一时,适合采用所述录音模块和所述拾音设备,应用场景二时,适合采用所述录音模块和所述拾音设备,应用场景三时,适合采用所述录音模块和所述内部电路。

在上述技术方案的基础上,如图10所示,设定录制时长参数,默认值为1-3秒,第一音频数据和补充音频数据根据录制时长控制录制的起止时间;

所述第一音频数据的录制时长,和所述补充音频数据的录制时长相同或不同,当不同时,所述补充音频数据的录制时长大于所述第一音频数据的录制时长。

例如:基于录制时长参数取值范围为1-3秒,所述第一音频数据和所述补充音频数据的录制时长均取2秒,又例如:基于录制时长参数取值范围为1-4秒,所述第一音频数据和所述补充音频数据的录制时长分别取值为1秒和4秒。

作为可选择的实施方案之一,如图11所示,设定录制时长增量参数,默认值为1秒,第一音频数据根据录制时长控制录制的起止时间,补充音频数据的录制时长每一段按录制时长增量递增。

例如:第一音频数据的录制时长为2秒,则第一个补充音频数据的录制时长为3秒,第二个补充音频数据的录制时长为4秒,第三个补充音频数据的录制时长为5秒,以此类推。

在上述技术方案的基础上,设定录制分段参数,录制得到的补充音频数据的数量由录制分段控制。

例如:设定录制分段参数的取值为5,则最终会得到以下数据片段:一个第一音频数据,五个补充音频数据(第一补充音频数据至第五补充音频数据)。

在上述技术方案的基础上,在录制的过程中,录制得到的数据缓存于缓冲区中,通过从缓冲区中截取数据并转存的方式,实现获取第一音频数据或补充音频数据;

传输转存的第一音频数据或补充音频数据,不影响缓冲区中的数据,实现传输的同时,录制当前环境声音不间断的持续进行。

在上述技术方案的基础上,如图12所示,当远端收到第一音频数据时,直接对第一音频数据进行解析及匹配操作,

如图13所示,当远端在收到第一音频数据后又收到补充音频数据时,合并第一音频数据和补充音频数据形成第二音频数据,对第二音频数据进行解析及匹配操作;

如图14所示,当远端仅收到补充音频数据时,直接对补充音频数据进行解析及匹配操作,

如图15所示,当远端在收到补充音频数据后又收到新的补充音频数据时,合并补充音频数据和新的补充音频数据形成第三音频数据,对第三音频数据进行解析及匹配操作。

合并时应按补充音频数据的时间顺序依次合并。

在上述技术方案的基础上,如图16所示,每个远端预置至少两个不同的解析及匹配算法,

同一个远端,针对不同的解析对象,采用相同或不同的解析及匹配算法;

不同的远端,针对相同的解析对象,采用不同的解析及匹配算法,

不同的远端,针对不同的解析对象,采用不同的解析及匹配算法。

为了提高解析效率和解析的准确度,多个远端在协调工作时,不同的远端,针对相同的解析对象,采用不同的解析及匹配算法,以期更快、更广的获得匹配结果,例如:远端a、远端b、远端c分别收到第一音频数据时,直接对第一音频数据进行解析及匹配操作时,分别使用三种不同的解析及匹配算法,此时,客户端最终收到并汇总三个匹配结果,既能提高第一音频数据解析效率,哪个远端解析快,则能第一时间返回数据给客户端,减小了客户端的等待时间,也更有利于提高解析的准确度,三个匹配结果的比对和综合能更好、更准确的完成匹配;此即:不同的远端,针对相同的解析对象,采用不同的解析及匹配算法;

针对不同的解析对象,采用不同的解析及匹配算法,也是基于相同的考量。

作为可选择的实施方案之一,先获得的匹配结果优先显示,后获得的匹配结果,与先获得的匹配结果进行汇总、置信度比对后,再更新显示,更新时,对低置信度的匹配结果通过标识给出注释以提醒用户参考。

作为可选择的实施方案之一,匹配结果在客户端设备和/或远程设备中进行显示。

在上述技术方案的基础上,如图16所示,在解析及匹配算法中预设至少一种指定的目标推荐信息,其中至少一种目标推荐信息供听歌识曲功能使用。

本申请所述方法,可实现听歌识曲功能,但这只是最基础的功能实现,考虑到丰富目标推荐的信息丰富程度,在解析及匹配算法中预设的目标推荐信息,包括以下任意之一或部分或全部:

目标推荐信息为歌名或曲名;基于对第一音频数据、补充音频数据、第二音频数据、第三音频数据中任意之一的解析,通过匹配得到对应的歌名或曲名;

目标推荐信息为电影名或mtv名;基于对第一音频数据、补充音频数据、第二音频数据、第三音频数据中任意之一的解析,通过匹配得到对应的电影名或mtv名;

目标推荐信息为歌手姓名;基于对第一音频数据、补充音频数据、第二音频数据、第三音频数据中任意之一的解析,通过匹配得到对应的歌手姓名;

目标推荐信息为播放次数或热播度;基于对第一音频数据、补充音频数据、第二音频数据、第三音频数据中任意之一的解析,通过匹配得到对应的播放次数或热播度;播放次数或热播度的获取,可基于歌名或曲名或电影名或mtv名进行二次匹配获得;

目标推荐信息为文字;所述文字可以是歌词,也可以是音频转文字;基于对第一音频数据、补充音频数据、第二音频数据、第三音频数据中任意之一的解析,通过匹配得到对应的歌词,或者识别音频后转换得到的文字;

目标推荐信息为分享链接;基于对第一音频数据、补充音频数据、第二音频数据、第三音频数据中任意之一的解析,通过匹配得到对应的分享链接;分享链接的获取,可基于歌名或曲名或电影名或mtv名进行二次匹配获得;

目标推荐信息为下载链接;基于对第一音频数据、补充音频数据、第二音频数据、第三音频数据中任意之一的解析,通过匹配得到对应的下载链接;下载链接的获取,可基于歌名或曲名或电影名或mtv名进行二次匹配获得;

目标推荐信息为铃音设定指令;基于对第一音频数据、补充音频数据、第二音频数据、第三音频数据中任意之一的解析,通过匹配得到对应的铃音设定指令;铃音设定指令的获取,可基于歌名或曲名或电影名或mtv名进行二次匹配获得,也可基于下载链接进行二次匹配获得;

目标推荐信息为静默报警指令或自动通知联系人指令;基于对第一音频数据、补充音频数据、第二音频数据、第三音频数据中任意之一的解析,通过匹配得到对应的静默报警指令或自动通知联系人指令;静默报警指令或自动通知联系人指令的获取,可基于音频转文字进行二次匹配获得。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜