基于多移动终端的扬声方法、装置及存储介质与流程

2021-11-05 19:15:00 来源：中国专利 TAG：

1.本发明涉及音频数据处理技术领域，尤其涉及一种基于多移动终端的扬声方法、装置及存储介质。

背景技术：

2.随着科学技术和音乐文化的迅速发展，k歌(唱歌)的方式越来越多样化。基于移动终端进行k歌的方式具有方便、易操作的优点，最受大家青睐，在当前基于移动终端进行k歌的方案中，包括至少以下几种：
3.方案1，如图1a所示，由外置(外置指不属于移动终端)的麦克风将空间中的歌声转为数字信号，称为数字化歌声。数字化歌声经过麦克风与终端之间的数字化连接通道进行传输。移动终端对数字化歌声进行美化处理，并将美化后的数字化歌声与数字化伴奏音乐混合成数字化音频。混合后的数字化音频通过移动终端与外置耳机之间的数字化连接通道进行传输。外置耳机将数字化音频转化为空间中的声波，声波在耳机与人耳之间的封闭空间中进行传输。即需要外置耳机和外置麦克风。
4.方案2，如图1b所示，该技术方案与方案1类似，方案2的外置麦克风与外置耳机之间存在连接通道(例如，集成在同一设备上)，数字化歌声直接由连接通道进入外置耳机；移动终端仅向外置耳机传输数字化伴奏；在耳机中进行数字化歌声和数字化伴奏的混合。即需要一体化的外置耳机和外置麦克风。
5.方案3，如图1c所示，该技术方案与方案1类似，移动终端将混合后的数字化音频通过内置扬声器进行播放，不使用外置耳机，但是需要外置麦克风。
6.方案4，如图1d所示，该技术方案与方案1类似，使用移动终端内置的麦克风，不使用外置麦克风进行扬声，但是需要外置耳机。
7.方案5，如图1e所示，使用外置的喇叭麦克风(带有喇叭和麦克风的便携设备)对歌声进行数字化处理，移动终端向喇叭麦克风传输数字化伴奏，喇叭麦克风将数字化歌声与数字化伴奏进行混合，喇叭麦克风通过其内置的扬声器将混合音频进行空间传播。即需要外置喇叭麦克风。
8.方案6，如图1f所示，移动终端以正常观看屏幕的距离进行手持，由移动终端内置的麦克风将空间中的歌声转换为数字化歌声；移动终端对数字化歌声进行美化处理；移动终端将伴奏音频通过内置扬声器进行播放，但不播放歌声。即不需要外置装置，但是无法播放歌声。
9.方案7，如图1g所示，包括两个子技术方案。子技术方案1：将移动终端的听筒贴近人耳，以接听电话的方式进行手持，在此持握方式下，移动终端通过通话系统中常见的降噪、回声消除、自动增益控制等处理确保声音的质量达到可听懂的程度，体验类似日常的电话。子技术方案2：移动终端以正常观看屏幕的距离进行手持，移动终端进行通话系统中常见的降噪、回声消除、自动增益控制等处理。即不需要外置装置，通过通话系统对音频进行处理。
10.方案8，如图1h所示，由外置的多个麦克风将多路空间中的歌声转为数字化歌声，数字化歌声经过麦克风与终端之间的数字化连接通道进行传输。然后，移动终端对数字化歌声进行美化处理，并将美化后的数字化歌声与数字化伴奏音乐混合成数字化音频，终端将混合后的数字化音频通过内置扬声器(或者外置音频播放设备)进行播放，该种方式必须使用外置喇叭麦克风设备才能进行k歌，并且在多人k歌在同一终端看歌词不方便。
11.要想在移动终端的扬声条件下进行k歌，需要至少满足以下两点：
12.1)音量的听感既要盖住嘴巴出来的声音，同时又需要覆盖两只耳朵；
13.2)实时同步人声反馈(监听、歌声)，对音频添加混响等音效。
14.方案9，如图1i所示，由1个移动终端与多个外置喇叭麦克风组成，每个用户使用1个喇叭麦克风。多个喇叭麦克风之间存在主次关系，主喇叭麦克风通过有线或者无线数字连接通道连接次喇叭麦克风。主喇叭与移动终端相连。在使用时，移动终端通过数字连接通道给主喇叭麦克风提供伴奏音乐的数字音频，伴奏音乐的字音频由主麦克风同步给所有次麦克风，并由多个喇叭麦克风一起播放。
15.用户a演唱的歌声由喇叭麦克风a进行采集，并仅由喇叭麦克风a的喇叭进行播出；用户b演唱的歌声由喇叭麦克风b进行采集，并仅由喇叭麦克风b的喇叭进行播出。
16.该技术方案的缺点包括：
17.1)必须使用外置喇叭麦克风设备才能进行多人k歌。
18.在现有k歌方案1至9中，存在至少以下的问题：
19.1、需要借助外置设备(装置)；
20.2、通过通话系统对k歌需要采集的音频进行处理，处理效果较差，使得k歌效果差；
21.3、无法在一个移动终端中同时播放多个移动终端采集的歌声。

技术实现要素：

22.本发明实施例提供一种基于多移动终端的扬声方法、装置及存储介质，不需要任何外置设备，即能够使不同的人员基于多个移动终端同时进行扬声、k歌，并且对每个移动终端的持有者扬声、k歌的音频进行有效处理，提高扬声、k歌的音量及音质，并且一个移动终端可以同时其他移动终端采集的歌声。
23.本发明实施例的第一方面，提供一种基于多移动终端的扬声方法，包括：
24.基于接收到的配置信号对多个移动终端配置以使其分别达到扬声状态；
25.每个移动终端的麦克风获取音频生成音频信息，所述音频至少包括多个人声、环境声以及串扰声；
26.每个移动终端对所述音频信息进行处理以使音频信息中不存在环境声、串扰声以及其他人声，得到只保留与当前终端对应的目标人声信息；
27.将每个移动终端的目标人声信息同步至其他移动终端；
28.每个移动终端将保留的目标人声信息、接收到其他终端的目标人声信息以及伴奏信息混音处理生成外放音频；
29.移动终端的扬声器基于所述外放音频扬声。
30.可选地，在第一方面的一种可能实现方式中，还包括：
31.预先对每个移动终端配置相同的伴奏信息；
32.控制每个移动终端对所述伴奏信息同步播放。
33.可选地，在第一方面的一种可能实现方式中，将每个移动终端的目标人声信息同步至其他移动终端包括：
34.预先设置最大延迟时间；
35.获取当前终端在接收其他移动终端发送的目标人声信息的传输延迟，将所述传输延迟与最大延迟时间比对；
36.若传输延迟大于最大延迟时间，则在最大延迟时间后播放他移动终端发送的目标人声信息。
37.可选地，在第一方面的一种可能实现方式中，每个移动终端将保留的目标人声信息、接收到其他终端的目标人声信息以及伴奏信息混音处理生成外放音频包括：
38.基于移动终端预先配置的声反馈回路特征、当前终端的目标人声信息、其他终端的目标人声信息以及伴奏信息进行人声美化和母带混缩得到外放音频。
39.可选地，在第一方面的一种可能实现方式中，对移动终端进行声反馈回路特征配置的过程包括：
40.通过所述扬声器向移动终端所处空间发送预设音频信号；
41.通过所述麦克风接收空间的反馈音频信号；
42.将所述预设音频信号和反馈音频信号进行比对获取当前空间的声反馈回路特征。
43.可选地，在第一方面的一种可能实现方式中，还包括：
44.移动终端的扬声器基于所述外放音频扬声包括：
45.对所述外放音频进行数字扩音处理，将数字扩音处理后的外放音频通过扬声器播放。
46.可选地，在第一方面的一种可能实现方式中，每个移动终端对所述音频信息进行处理以使音频信息中不存在环境声、串扰声以及其他人声，得到只保留与当前终端对应的目标人声信息包括：
47.获取任意两个终端间的传递函数和幅度调整系数；
48.基于所述传递函数和幅度调整系数预测其他终端被当前终端收录的音频为参考信号；
49.通过人声增强模块对所述参考信号进行消除处理后只保留目标人声。
50.可选地，在第一方面的一种可能实现方式中，还包括：
51.对所述外放音频和\或目标人声信息进行存储。
52.本发明实施例的第二方面，提供一种基于多移动终端的扬声装置，包括：
53.配置模块，用于基于接收到的配置信号对多个移动终端配置以使其分别达到扬声状态；
54.获取模块，用于使每个移动终端的麦克风获取音频生成音频信息，所述音频至少包括多个人声、环境声以及串扰声；
55.处理模块，用于使每个移动终端对所述音频信息进行处理以使音频信息中不存在环境声、串扰声以及其他人声，得到只保留与当前终端对应的目标人声信息；
56.同步模块，用于将每个移动终端的目标人声信息同步至其他移动终端；
57.混音模块，用于每个移动终端将保留的目标人声信息、接收到其他终端的目标人
声信息以及伴奏信息混音处理生成外放音频；
58.外放模块，用于使移动终端的扬声器基于所述外放音频扬声。
59.本发明实施例的第三方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。
60.本发明提供的一种基于多移动终端的扬声方法、装置及存储介质，能够在不改变移动终端硬件、不需要任何外置设备的前提下，实现多个人员通过多个移动终端进行同步扬声、k歌的功能，并且对麦克风采集的音频信息进行处理，降低环境声、串扰声以及其他移动终端持有人员对音频信息的干扰，提高了目标人声的保真度，并且在将不同终端发送的人声和伴奏混音后进行数字扩音处理，使得扬声器播放的混音后的声音音量更大。
附图说明
61.图1a为现有技术中方案1的声音、数据在各个装置间的传输示意图；
62.图1b为现有技术中方案2的声音、数据在各个装置间的传输示意图；
63.图1c为现有技术中方案3的声音、数据在各个装置间的传输示意图；
64.图1d为现有技术中方案4的声音、数据在各个装置间的传输示意图；
65.图1e为现有技术中方案5的声音、数据在各个装置间的传输示意图；
66.图1f为现有技术中方案6的声音、数据在各个装置间的传输示意图；
67.图1g为现有技术中方案7的声音、数据在各个装置间的传输示意图；
68.图1h为现有技术中方案8的声音、数据在各个装置间的传输示意图；
69.图1i为现有技术中方案9的声音、数据在各个装置间的传输示意图；
70.图2为基于多移动终端的扬声方法的流程示意图；
71.图3为本发明提供的实施例中声音\音频的传播过程示意图；
72.图4为人声美化和母带混缩的过程示意图；
73.图5为声反馈回路特征的测量阶段的示意图；
74.图6为声反馈回路特征的跟踪阶段的示意图；
75.图7为音频信息处理的示意图；
76.图8为基于多移动终端的扬声装置的结构示意图。
具体实施方式
77.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
78.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
79.应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序
的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
80.应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
81.应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含a、b和c”、“包含a、b、c”是指a、b、c三者都包含，“包含a、b或c”是指包含a、b、c三者之一，“包含a、b和/或c”是指包含a、b、c三者中任1个或任2个或3个。
82.应当理解，在本发明中，“与a对应的b”、“与a相对应的b”、“a与b相对应”或者“b与a相对应”，表示b与a相关联，根据a可以确定b。根据a确定b并不意味着仅仅根据a确定b，还可以根据a和/或其他信息确定b。a与b的匹配，是a与b的相似度大于或等于预设的阈值。
83.取决于语境，如在此所使用的“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。
84.下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。
85.本发明提供一种基于多移动终端的扬声方法，如图2所示其流程图，包括：
86.步骤s110、基于接收到的配置信号对多个移动终端配置以使其分别达到扬声状态。在步骤s110中会根据环境情况对多个移动终端进行配置，因为多个移动终端位于不同的位置、场景之下可能会产生不同的声音获取状况。例如说在较为空旷的空间，移动终端播放声音时可能会产生回音，所以需要在使用移动终端进行扬声时先根据现场的环境情况进行自动的配置。
87.步骤s120、每个移动终端的麦克风获取音频生成音频信息，所述音频至少包括多个人声、环境声以及串扰声。移动终端主要目的是对使用者的声音进行扬声，例如说使用者唱歌时发出的声音等等，但是在实际情况中，移动终端所处的位置会存在很多的杂声，例如说环境的声音、移动终端的串扰声音等等。在步骤s120中，生成音频信息是为了对得到人声的处理做准备。
88.步骤s130、每个移动终端对所述音频信息进行处理以使音频信息中不存在环境声、串扰声以及其他人声，得到只保留与当前终端对应的目标人声信息。因为在多个移动终端进行同步的场景下，在一个空间中会存在多个人同时发生的情况，为了保障每一个移动终端处人声的高保真，所以会对采集到的音频信息进行处理，将音频信息中的环境声、串扰声以及其他人声进行去除。环境声包括环境中各个装置产生的声音也包括环境中其他不持有移动终端的人员发出的声音。
89.步骤s140、将每个移动终端的目标人声信息同步至其他移动终端。在每个移动终端获取到相对应的目标人声信息后会同步至其他移动终端，以使一个移动终端对多个来源于不同移动终端的目标人声信息进行处理。
90.步骤s150、每个移动终端将保留的目标人声信息、接收到其他终端的目标人声信
息以及伴奏信息混音处理生成外放音频。在多个使用者分别持有不同的移动终端同时k歌、合唱时，每个移动终端会将其对应的目标人声信息、其他移动终端的目标人声信息以及伴奏信息混音得到合唱的音频，即外放音频，以此实现对不同移动终端的持有者、不同用户进行混音得到合唱音频。
91.步骤s160、移动终端的扬声器基于所述外放音频扬声。
92.在一种可能的实施方式中，如图3所示声音\音频的传播过程，该图只是以2个移动终端进行示意。在空间中，至少存在人的歌声即人声、环境声以及串扰声，其中串扰声是移动终端的扬声器播放而产生的，人的耳朵所听到的声音包括人嘴发出的声音，人嘴发出的声音通过3条路径传入至人耳中，包括颅内传播、空间传播以及经过移动终端混音后传播。移动终端在对人声进行处理时能够将伴奏声、当前移动终端的目标人声信息、其他移动终端的目标人声信息进行混音，得到混音后的外放声，以此实现扬声、k歌以及合唱。
93.在一个可能的实施方式中，还包括：
94.预先对每个移动终端配置相同的伴奏信息。由于本发明是基于多个移动终端同时k歌、合唱，所以其伴奏必然是相同的，所以在使用本发明提供的方法之前先对每个移动终端配置相同的伴奏信息。
95.控制每个移动终端对所述伴奏信息同步播放。使得每个移动终端的持有者、用户能够在k歌、合唱时保持同步。
96.在一个可能的实施方式中，将每个移动终端的目标人声信息同步至其他移动终端包括：
97.预先设置最大延迟时间。在实际的k歌过程中，人耳对声音的分辨是具有时间性的，如果两个声音的间隔足够短，此时人耳听到的为同一个声音，所以对于本发明中设置的最大延迟时间可以是根据人耳对声音的分辨间隔来得到的。
98.获取当前终端在接收其他移动终端发送的目标人声信息的传输延迟，将所述传输延迟与最大延迟时间比对。通过将接收到他移动终端发送的目标人声信息的传输延迟与最大延迟比对，可以判断是否可能会出现k歌、合唱不同步的情况。
99.若传输延迟大于最大延迟时间，则在最大延迟时间后播放他移动终端发送的目标人声信息。当传输延迟大于最大延迟时间时，此时已经可能会出现合唱不同步的情况，所以先将接收到的其他移动终端发送的目标人声信息进行播放，以避免出现k歌、合唱不同步的情况。
100.在一个可能的实施方式中，如图4所示，每个移动终端将保留的目标人声信息、接收到其他终端的目标人声信息以及伴奏信息混音处理生成外放音频包括：
101.基于移动终端预先配置的声反馈回路特征、当前终端的目标人声信息、其他终端的目标人声信息以及伴奏信息进行人声美化和母带混缩得到外放音频。
102.本发明至少包括人声美化和母带混缩两个模块，通过人声美化和母带混缩两个模块对多路音频(目标人声信息、伴奏信息)的输入进行处理，并得到单路音频(外放音频)进行输出，实现对音频的美化。
103.在一个可能的实施方式中，对移动终端进行声反馈回路特征配置的过程包括：
104.通过所述扬声器向移动终端所处空间发送预设音频信号；
105.通过所述麦克风接收空间的反馈音频信号；
106.将所述预设音频信号和反馈音频信号进行比对获取当前空间的声反馈回路特征。
107.在一种可能的实施方式中，如图5所示，在未进行扬声/k歌时，需要先对移动终端进行配置，此时移动终端的扬声器没有播放歌声或者音乐。首先，使用移动终端扬声器主动播放多种声反馈探测信号、记录移动终端麦克风记录这些信号，通过分析计算得到回声功率、频率响应、环境混音脉冲响应。将所获得的计算结果保存为声反馈回路特征。
108.在一种可能的实施方式中，如图6所示，在扬声/k歌的过程中，移动终端所处的环境可能会发生变化，本发明能够根据移动终端所处的环境变化进而改变声反馈回路特征，使得移动终端能够自动的适应环境环境变化而改变声反馈回路特征，即在移动终端所处的环境信息、位置信息发生改变时，其中环境信息、位置信息包括移动终端的姿态、位置以及移动速度，基于环境信息、位置信息改变回声功率、频率响应以及环境混音的脉冲响应。
109.在一种可能的实施方式中，还包括：
110.移动终端的扬声器基于所述外放音频扬声包括：
111.对所述外放音频进行数字扩音处理，将数字扩音处理后的外放音频通过扬声器播放。
112.本发明提供的技术方案，可以对外放音频进行扩音处理，以基于软件实现音量的增强。
113.在一个可能的实施方式中，如图7所示，每个移动终端对所述音频信息进行处理以使音频信息中不存在环境声、串扰声以及其他人声，得到只保留与当前终端对应的目标人声信息包括：
114.获取任意两个终端间的传递函数和幅度调整系数；可以根据各个终端间的交互过程得到不同终端间音频的传递函数和幅度调整系数。
115.基于所述传递函数和幅度调整系数预测其他终端被当前终端收录的音频为参考信号。
116.通过人声增强模块对所述参考信号进行消除处理后只保留目标人声。引入预测的参考信号，能够有效的消除非平稳噪声，使得播放的音频更加稳定。
117.在当前终端接收到的其他终端的音频后，获取这两个终端间对应的传递函数，根据幅度调整系数进行信号幅度调整后，和伴奏信息一起提供给人声增强模块。
118.经过人声增强后可以获得当前终端的目标人声，然后进行声反馈抑制，最终将目标人声和接收到其他终端的音频信息以及伴奏信息混音处理生成外放音频。
119.上述技术方案的在使用过程中，在多人k歌的场景下，每个终端都可以展示歌词和演唱信息，方便演唱者观看。并且在多人k歌的过层中，不需要任何的外置设备加以辅助。
120.本发明每个终端都可以同步播放当前终端和其他终端录制的声音。现有方案中，一个终端只能单独播放当前终端录制的声音或者单独播放其他终端录制的声音。
121.对所述目标人声信息进行音质增强处理。
122.在一个可能的实施方式中，还包括：
123.对所述外放音频和\或目标人声信息进行存储。在实际的扩音、k歌、合唱过程中，可能会存在录音的需求，可以根据相应的需求对外放音频和\或目标人声信息进行相应的存储，方便后续调取、回听。
124.本发明的技术方案还一种基于多移动终端的扬声装置，如图8所示其结构示意图，
包括：
125.配置模块，用于基于接收到的配置信号对多个移动终端配置以使其分别达到扬声状态；
126.获取模块，用于使每个移动终端的麦克风获取音频生成音频信息，所述音频至少包括多个人声、环境声以及串扰声；
127.处理模块，用于使每个移动终端对所述音频信息进行处理以使音频信息中不存在环境声、串扰声以及其他人声，得到只保留与当前终端对应的目标人声信息；
128.同步模块，用于将每个移动终端的目标人声信息同步至其他移动终端；
129.混音模块，用于每个移动终端将保留的目标人声信息、接收到其他终端的目标人声信息以及伴奏信息混音处理生成外放音频；
130.外放模块，用于使移动终端的扬声器基于所述外放音频扬声。
131.其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(application specific integrated circuits，简称：asic)中。另外，该asic可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(rom)、随机存取存储器(ram)、cd
‑
rom、磁带、软盘和光数据存储设备等。
132.本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
133.在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元(英文：central processing unit，简称：cpu)，还可以是其他通用处理器、数字信号处理器(英文：digital signal processor，简称：dsp)、专用集成电路(英文：application specific integrated circuit，简称：asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
134.最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于瞬态噪声抑制的自适应能量限制的制作方法

基于多移动终端的扬声方法、装置及存储介质与流程

相关文献

最热文献