一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

声音水印的处理方法及声音水印生成装置与流程

2023-02-19 12:53:28 来源:中国专利 TAG:


1.本发明涉及一种声音信号处理技术,且尤其是还涉及一种声音水印的处理方法及声音水印生成装置。


背景技术:

2.远程会议可让不同位置或空间中的人进行对话,且会议相关设备、协议及应用程序也发展相当成熟。值得注意的是,部分实时会议程序可能会合成语音信号及声音水印信号,并用以识别通话者。
3.举例而言,图1是一范例说明用于会议通话的移动装置m的示意图。请参照图1,移动装置m可经由网络接收声音信号s1。这声音信号s1包括对发话者录音所得的通话接收信号及声音水印信号。声音水印信号可用于识别传送声音信号s1的另一装置。而通话接收信号可进一步通过扬声器s播放,让移动装置m的用户sp聆听对方声音。另一方面,收音器r(例如,麦克风)对用户sp录音,以取得声音信号s2。
4.一般在通话传输路径上的回声消除(echo cancellation)c的主要功能是将收音器r接收到的声音信号s2中属于通话接收信号的成分消除,进而得到没有回声的声音信号s3。然而,声音水印信号的生成路径与一般通话接收信号的路径可能不同。当收音器r接收到扬声器s经反馈路径fp的声音信号时,声音信号s1中属于声音水印信号的成分恐无法被消除并进一步经由网络传送出去,进而影响通话传输路径上的声音信号s3中用户sp的语音成分。


技术实现要素:

5.本发明是针对一种声音水印的处理方法及声音水印生成装置,生成可被回声消除机制消除的声音水印,从而提升通话质量。
6.根据本发明的实施例,声音水印的处理方法适用于会议终端,且会议终端包括收音器。声音水印的处理方法包括(但不仅限于)下列步骤:通过收音器取得通话接收声音信号。根据虚拟反射条件及通话接收声音信号生成反射声音信号。这虚拟反射条件包括收音器、声源及外界物体之间的位置关系,且反射声音信号是仿真声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号。根据水印标识符偏移反射声音信号的相位,以生成水印声音信号。这水印声音信号包括经相位偏移的反射声音信号。
7.根据本发明的实施例,声音水印生成装置包括(但不仅限于)存储器及处理器。存储器用以存储程序代码。处理器耦接存储器。处理器经配置用以加载且执行程序代码以取得通话接收声音信号,根据虚拟反射条件及通话接收声音信号生成反射声音信号,并根据水印标识符偏移反射声音信号的相位,以生成水印声音信号。通话接收声音信号是通过收音器录音所取得的。这虚拟反射条件包括收音器、声源及外界物体之间的位置关系,且反射声音信号是仿真声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号。水印声音信号包括经相位偏移的反射声音信号。
8.基于上述,根据本发明实施例的声音水印的处理方法及声音水印生成装置,仿真经外部物体反射的声音信号,并通过偏移相位编码这仿真声音信号,从而生成水印声音信号。藉此,可在扬声器端同时保有一般通话接收信号和声音水印信号。此外,这两种信号都能被现有的回声消除算法消除,使通话传输路径上的语音信号不受影响。
附图说明
9.包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与描述一起用于解释本发明的原理。
10.图1是一范例说明用于会议通话的移动装置的示意图;
11.图2是根据本发明一实施例的会议通话系统的示意图;
12.图3是根据本发明一实施例的声音水印的处理方法的流程图;
13.图4是根据本发明一实施例的声音水印的生成方法的流程图;
14.图5是根据本发明一实施例说明虚拟反射条件的示意图;
15.图6是根据本发明一实施例说明滤波处理的示意图;
16.图7是根据本发明一实施例说明多相位偏移的示意图;
17.图8是根据本发明一实施例说明两相位偏移的示意图;
18.图9a是一范例说明通话接收声音信号的仿真图;
19.图9b是一范例说明嵌入水印信号的仿真图;
20.图10是根据本发明一实施例说明水印识别的流程图。
21.附图标号说明
22.m:移动装置;
23.s1~s3:声音信号;
24.s:扬声器;
25.r:收音器;
26.sp:使用者;
27.c:回声消除;
28.fp:反馈路径;
29.1:语音通信系统;
30.10、20:会议终端;
31.50:云端服务器;
32.11、21:收音器;
33.13、21:扬声器;
34.15、25、55:通信收发器;
35.17、27、57:存储器;
36.19、29、59:处理器;
37.70:声音水印生成装置;
38.s310~s350、s410~s450、s910~s950:步骤;
39.s
rx
:通话接收声音信号;
40.s
tx
:通话传送声音信号;
41.s
wm
、s
wm1
:水印声音信号;
42.s
rx
s
wm
:嵌入水印信号;
43.s’rx
、s”rx
、s
90
°
、s
wo
:反射声音信号;
44.w:墙;
45.γw:反射系数;
46.ds、dw:距离;
47.ss:声源;
48.wo、we:水印标识符;
49.相位偏移;
50.sa、、传送声音信号。
具体实施方式
51.现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同组件符号在附图和描述中用来表示相同或相似部分。
52.图2是根据本发明一实施例的会议通话系统1的示意图。请参照图2,语音通信系统1包括但不仅限于会议终端10,20及云端服务器50。
53.会议终端10,20可以是有线电话、移动电话、网络电话、平板计算机、桌面计算机、笔记本电脑或智能型喇叭。
54.会议终端10包括(但不仅限于)收音器11、扬声器13、通信收发器15、存储器17及处理器19。
55.收音器11可以是动圈式(dynamic)、电容式(condenser)、或驻极体电容(electret condenser)等类型的麦克风,收音器11也可以是其他可接收声波(例如,人声、环境声、机器运作声等)而转换为声音信号的电子组件、模拟至数字转换器、滤波器、及音频处理器的组合。在一实施例中,收音器11用以对发话者收音/录音,以取得通话接收声音信号。在一些实施例中,这通话接收声音信号可能包括发话者的声音、扬声器13所发出的声音和/或其他环境音。
56.扬声器13可以是喇叭或扩音器。在一实施例中,扬声器13用以播放声音。
57.通信收发器15例如是支持以太网络(ethernet)、光纤网络、或电缆等有线网络的收发器(其可能包括(但不仅限于)连接接口、信号转换器、通信协议处理芯片等组件),也可能是支持wi-fi、第四代(4g)、第五代(5g)或更后世代行动网络等无线网络的收发器(其可能包括(但不仅限于)天线、数字至模拟/模拟至数字转换器、通信协议处理芯片等组件)。在一实施例中,通信收发器15用以传送或接收数据。
58.存储器17可以是任何型态的固定或可移动随机存取存储器(radom access memory,ram)、只读存储器(read only memory,rom)、闪存(flash memory)、传统硬盘(hard disk drive,hdd)、固态硬盘(solid-state drive,ssd)或类似组件。在一实施例中,存储器17用以存储程序代码、软件模块、组态配置、数据(例如,声音信号、水印标识符、或水印声音信号)或档案。
59.处理器19耦接收音器11、扬声器13、通信收发器15及存储器17。处理器19可以是中
央处理单元(central processing unit,cpu)、图形处理单元(graphic processing unit,gpu),或是其他可程序化的一般用途或特殊用途的微处理器(microprocessor)、数字信号处理器(digital signal processor,dsp)、可程序化控制器、现场可程序化逻辑门阵列(field programmable gate array,fpga)、特殊应用集成电路(application-specific integrated circuit,asic)或其他类似组件或上述组件的组合。在一实施例中,处理器19用以执行所属会议终端10的所有或部份作业,且可加载并执行存储器17所存储的各软件模块、档案及数据。
60.会议终端20包括(但不仅限于)收音器21、扬声器23、通信收发器25、存储器27及处理器29。收音器21、扬声器23、通信收发器25、存储器27及处理器29的实施方式及功能可参酌前述针对收音器11、扬声器13、通信收发器15、存储器17及处理器19的说明,于此不再赘述。而处理器29用以执行所属会议终端20的所有或部份作业,且可加载并执行存储器27所存储的各软件模块、档案及数据。
61.云端服务器50经由网络直接或间接连接会议终端10,20。云端服务器50可以是计算机系统、服务器或信号处理装置。在一实施例中,会议终端10,20也可作为云端服务器50。在另一实施例中,云端服务器50可作为不同于会议终端10,20的独立云端服务器。在一些实施例中,云端服务器50包括(但不仅限于)相同或相似的通信收发器55、存储器57及处理器59,且组件的实施方式及功能将不再赘述。
62.在一实施例中,声音水印生成装置70可以是会议终端10,20或云端服务器50。声音水印生成装置70用以生成声音水印信号,并待后续实施例详述。
63.下文中,将搭配会议通信系统1中的各项装置、组件及模块说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而调整,且并不仅限于此。
64.另需说明的是,为了方便说明,相同组件可实现相同或相似的操作,且将不再赘述。例如,会议终端10的处理器19、会议终端20的处理器19和/或云端服务器50的处理器59皆可实现本发明实施例相同或相似的方法。
65.图3是根据本发明一实施例的声音水印的处理方法的流程图。请参照图3,处理器29通过收音器21录制以取得通话接收声音信号s
rx
(步骤s310)。具体而言,假设会议终端10,20建立通话会议。例如,通过视频软件、语音通话软件或拨打电话等方式建立会议,发话者即可开始说话。经收音器21录音/收音后,处理器29可取得通话接收声音信号s
rx
。这通话接收声音信号s
rx
相关于会议终端20对应的发话者的语音内容(还可能包括环境声音或其他噪声)。会议终端20的处理器29可通过通信收发器25(即,经由网络接口)传送通话接收声音信号s
rx
。在一些实施例中,通话接收声音信号s
rx
可能经回声消除、噪声滤波和/或其他声音信号处理。
66.云端服务器50的处理器59通过通信收发器55接收来自会议终端20的通话接收声音信号s
rx
。处理器59根据虚拟反射条件及通话接收声音信号生成反射声音信号s’rx
(步骤s330)。具体而言,一般的回声消除算法能适应性地消除收音器11,21自外部收到的声音信号中的属于参考信号的成分(例如,通话接收路径的通话接收声音信号s
rx
)。这收音器11,21所录制的声音包括自扬声器13,23到收音器11,21最短路径以及环境的不同反射路径(即,声音经外部物体反射所形成的路径)。反射的声音信号会根据所反射物体的反射系数影响,且反射的位置影响声音信号的时间延迟和衰减振福。此外,反射的声音信号也可能来自不
同方向,进而导致相位偏移。在本发明实施例中,利用已知的通话接收路径的声音信号s
rx
来生成能被回声消除机制消除的虚拟/仿真反射声音信号,并据以生成声音水印信号s
wm

67.图4是根据本发明一实施例的声音水印s
wm
的生成方法的流程图。请参照图4,处理器59可设定虚拟反射条件,并据以生成反射声音信号s’rx
(步骤s410)。具体而言,这虚拟反射条件包括收音器11,21、声源(例如,发话者、扬声器13,23)及外界物体(例如,墙、天花板、家具、或人)之间的位置关系。例如,收音器11与外界物体之间的距离、收音器11与声源之间的距离和/或声源与外界物体之间的距离。而反射声音信号s’rx
是仿真声源所发出声音经外界物体反射并通过收音器11,21所录音得到的声音信号。
68.在一实施例中,处理器59可根据位置关系及外界物体的反射系数确定反射声音信号s’rx
相较于通话接收声音信号s
rx
的时间延迟及振幅衰减。举例而言,图5是根据本发明一实施例说明虚拟反射条件的示意图。请参照图5,假设虚拟反射条件为单一墙(即,外界物体),墙w的反射系数为γw(例如,0.7、0.3或1)。在收音器21与音源ss之间的距离为ds(例如,0.3、0.5或0.8米)且收音器21与墙w之间的距离为dw(例如,1、1.5或2米)的条件下,反射声音信号s’rx
与通话接收声音信号s
rx
的关系可表示如下:
[0069][0070]
其中ts为取样时间,vs则为声音的速度,n为取样点或时间。
[0071]
若设定反射声音信号s’rx
相较于通话接收声音信号s
rx
有时间延迟γw及振幅衰减αw,则反射声音信号s’rx
与通话接收声音信号s
rx
的关系可表示如下:
[0072]s′
rx
(n)=αw·srx
(n-nw)

(2)
[0073]
。而根据方程式(1)、(2)可得出:
[0074][0075][0076]
,其中nf为滤波器造成的时间延迟(可选地,并待后续实施例详述),为相位偏移所造成的时间延迟(可选地,并待后续实施例详述)。
[0077]
须说明的是,根据不同设计需求,可进一步调整虚拟反射条件中的变因。例如,不只一个外界物体或相对位置。
[0078]
请参照图3,处理器59根据水印标识符wo偏移反射声音信号s’rx
的相位,以生成水印声音信号s
wm
(步骤s350)。具体而言,一般回声消除机制运作时,相较于反射的声音信号相位偏移,反射的声音信号的时间延迟和振幅之变化对回声消除机制的误差影响比较大。这变化如同处于一个全新的干扰环境,并使得回声消除机制需要重新适应。因此,本发明实施例的水印标识符wo中的不同值所对应到的声音水印信号s
wm
,仅有相位差异,但其时间延迟和振幅相同。即,水印声音信号s
wm
包括一个或更多个经相位偏移的反射声音信号s’rx

[0079]
请参照图4,在一实施例中,处理器59可选择滤波器,以生成经滤波处理的反射声
音信号s”rx
(步骤s430)。具体而言,一般回声消除机制处理低频(例如,3千赫兹(khz)或4khz以下)声音信号的收敛速度较慢,但处理高频声音信号(例如,3khz或4khz以上)的收敛速度较快(例如,10毫秒(ms)以下)。因此,处理器59可仅针对高频(例如,4khz、5khz以上)的反射声音信号s’rx
进行相位偏移,并使得信号的干扰不易被人察觉(即,高频声音信号的频率在人类听觉范围以外)。
[0080]
举例而言,图6是根据本发明一实施例说明滤波处理的示意图。请参照图6,处理器59可通过低通滤波器lpf对反射声音信号s’rx
进行低通滤波处理,以输出通过低通滤波处理的反射声音信号例如,低通滤波器lpf是阻挡4khz以上的信号通过,并仅允许4khz以下的信号通过。另一方面,处理器59可通过高通滤波器hpf对反射声音信号s’rx
进行高通滤波处理,以输出通过高通滤波处理的反射声音信号例如,高通滤波器hpf是阻挡4khz以下的信号通过,并仅允许4khz以上的信号通过。
[0081]
在另一实施例中,处理器59也可不对反射声音信号s’rx
进行特定频率的滤波处理。即,反射声音信号s”rx
等同于反射声音信号s’rx

[0082]
请参照图4,处理器59可根据水印标识符wo对反射声音信号s”rx
进行相位偏移(步骤s450)。在一实施例中,水印标识符wo是以多进位制编码,且这多进位制在水印标识符wo的一个或更多个位中的每一者提供多个值。以二进制制为例,水印标识符wo中的每一个位的值可以是“0”或“1”。以十六进制制为例,水印标识符wo中的每一个位的值可以是“0”、“1”、“2”、

、“e”、“f”。在另一实施例中,水印标识符是以字母、文字和/或符号编码。例如,水印标识符wo中的每一个位的值可以是英文“a”~“z”中的任一者。
[0083]
在一实施例中,水印标识符wo的各位上的那些不同的值对应不同的相位偏移。举例而言,图7是根据本发明一实施例说明多相位偏移的示意图。请参照图7,假设水印标识符wo是n进位制(n为正整数),则针对各位可提供n个值。这n个不同值分别对应到不同相位偏移
[0084]
图8是根据本发明一实施例说明两相位偏移的示意图。请照图7,假设水印标识符wo是二进制制,则针对各位可提供2个值(即,1和0)。这2个不同值分别对应到两相位偏移例如,相位偏移为90
°
,且相位偏移为-90
°
(即,-1)。
[0085]
处理器59可根据水印标识符wo中的一个或更多位的值偏移反射声音信号s”rx
的相位。以图7为例,处理器59根据水印标识符wo中的一个或多个值选择相位偏移中的一或更多者,并使用受选相位偏移的进行相位偏移。例如,水印标识符wo的第一个位上的值为1,则所输出的经相位偏移的反射声音信号相对于反射声音信号s”rx
偏移其余反射声音信号可依此类推。而相位偏移可采用希尔伯转换(hilbert transform)或其他相位偏移算法达成。
[0086]
在一实施例中,水印标识符包括多个位。这水印声音信号s
wm
包括多个经相位偏移的反射声音信号,且各经相位偏移的反射声音信号占用水印声音信号s
wm
中的时间长度。假设各位的时间长度以lb(例如,0.1、0.5或1秒,并大于时间延迟nw)表示。类似于分时多任务的概念,处理器59将水印声音信号s
wm
的时间周期(即,主时间单位)根据水印标识符wo所包括的位数分割成相同或不同时间长度的次时间单位,且各次时间单位上承载对应于不同位
的经相位偏移的反射声音信号。
[0087]
在一实施例中,若采用图6的滤波处理,则处理器59可合成一个或更多个经相位偏移的反射声音信号及通过低通滤波处理的反射声音信号以图8为例,通过高通滤波处理的反射声音信号经90
°
的相位偏移(生成经相位偏移的反射声音信号s
90
°
),并输出经相位偏移的反射声音信号s
wo
。处理器59进一步合成通过低通滤波处理的反射声音信号及经相位偏移的反射声音信号s
wo
,以生成水印声音信号s
wm1

[0088]
在一些实施例中,处理器59可生成多个相同的水印声音信号。这些水印声音信号分别对应到不同主时间单位。即,循环输出水印声音信号。为了区别相邻的水印声音信号,处理器59可在相邻的水印声音信号之间加上间隔。例如,在间隔处加入静音信号或其他已知的高频声音信号。
[0089]
在一实施例中,处理器59可通过通信收发器55分别传送通话接收声音信号s
rx
及水印声音信号s
wm
。在另一实施例中,处理器59可合成通话接收声音信号s
rx
及水印声音信号s
wm
,以生成嵌入水印信号s
rx
s
wm
。接着,处理器59可通过通信收发器55传送嵌入水印信号s
rx
s
wm

[0090]
图9a是一范例说明通话接收声音信号s
rx
的仿真图,且图9b是一范例说明嵌入水印信号s
rx
s
wm
的仿真图。请参照图9a及图9b,两声音非常接近,且人难以或无法分辨出来。
[0091]
会议终端10的处理器19通过通信收发器15经由网络接收水印声音信号s
wm
或嵌入水印信号s
rx
s
wm
,以取得传送声音信号sa(即,经传送的水印声音信号s
wm
或嵌入水印信号s
rx
s
wm
)。由于水印声音信号s
wm
包括经时间延迟及衰减振幅的通话接收声音信号(即,反射声音信号),因此处理器19的回声消除机制即可有效消除水印声音信号s
wm
。藉此,可不影响通信传输路径上的通话传送声音信号s
tx
(例如,会议终端10所欲经由网络传送的通话接收声音信号)。
[0092]
针对水印声音信号s
wm
的识别,图10是根据本发明一实施例说明水印识别的流程图。请参照图10,在一实施例中,若采用图6的滤波处理,则处理器19可使用相同或相似的高通滤波器hpf对传送声音信号sa进行高通滤波处理(步骤s910),以输出通过高通滤波处理的传送声音信号在另一实施例中,若未采用图6的滤波处理,则可忽略步骤s910(即,传送声音信号等同于传送声音信号sa)。
[0093]
处理器19可根据步骤s450所述的值与相位偏移之间的对应关系偏移传送声音信号的相位(即,步骤s930,进行相位偏移)。以图8为例,处理器19生成相位偏移90
°
的传送声音信号处理器19可根据传送声音信号及经相位偏移的传送声音信号之间的相关性识别水印标识符we(步骤s950)。例如,处理器19将传送声音信号与传送声音信号于时间延迟nw处计算正交交叉相关r
xy
(nw)且-1≤r
xy
(nw)≤1。处理器19定义一个阈值thr,则水印标识符we可表示为:
[0094][0095]
即,若相关性高于阈值thr,则处理器19确定这位的值是对应于相位偏移90
°
的值(例如,1);若相关性低于阈值thr,则处理器19确定这位的值是对应于相位偏移-90
°
的值(例如,0)。在另一实施例中,处理器19可通过基于深度学习的分类器识别传送声音信号在不同次时间单位上对应的值。
[0096]
综上所述,在本发明实施例的声音水印的处理方法及声音水印生成装置中,根据回声消除机制的原理仿真反射声音信号,并通过对反射声音信号偏移相位来编码声音水印信号。藉此,在接收端,经反馈路径取得的声音水印信号可被回声消除机制消除,且声音水印信号将不影响通信传输路径上的通信传送信号。
[0097]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献