一种盲音频水印嵌入和提取方法及系统与流程

2021-06-08 13:26:00 来源：中国专利 TAG：水印提取嵌入音频处理音频

1.本发明涉及音频处理领域，特别是涉及一种盲音频水印嵌入和提取方法及系统。

背景技术：

2.随着互联网技术的不断发展，多媒体技术随之迅速发展，音频水印技术在音频/语音文件的版权保护，多媒体检索和识别的信息标注，语音内容认证等领域得到了广泛的应用。
3.目前，现有的音频水印技术基于离散小波变换(dwt)、离散余弦变换(dct)、双树复小波变换(dt
‑
cwt)、分数阶傅里叶变换(frt)、arnold变换、熵、快速傅里叶变换(fft)、频谱等技术取得了一系列的研究成果，各种音频水印算法的嵌入位置分别在嵌入容量、透明性、鲁棒性等方面有着较为突出的优势。水印嵌入位置的选择会直接影响到音频水印的性能，通过选择合适的嵌入位置和嵌入方法，能够有效地平衡音频水印的嵌入容量、透明性和鲁棒性，且能够实现对音频水印算法的优化。例如，通过区分静音段浊音段、遗传算法、建立听觉模型等方法对音频水印实现自适应嵌入，能够有效地提高数字水印的性能。但现有的鲁棒音频水印方法大多都是基于dct、dwt、dft等变换域进行水印的嵌入，这些算法普遍具有很强的鲁棒性或不可感知性，不过音频的音质与鲁棒性，作为水印信号嵌入时相互影响，始终不能够得到很好的平衡。

技术实现要素：

4.本发明的目的是提供一种盲音频水印嵌入和提取方法及系统，以实现在保证音频水印的嵌入容量和透明性的情况下，提高鲁棒性。
5.为实现上述目的，本发明提供了如下方案：
6.一种盲音频水印嵌入方法，包括：
7.获取待嵌入水印语音；
8.对所述待嵌入水印语音进行嵌入位置选择，确定第一水印嵌入位置矩阵；
9.根据所述第一水印嵌入位置矩阵确定第一水印嵌入的帧；
10.将所述第一水印嵌入的帧进行双树复小波变换，得到第一细节分量；
11.对所述第一细节分量进行奇异值分解，得到第一奇异值矩阵；
12.将所述第一奇异值矩阵进行量化，得到第一量化值；
13.根据所述待嵌入水印语音的特征矩阵构建水印信息；
14.将所述水印信息嵌入所述第一奇异值矩阵，得到带有水印信息的矩阵；
15.根据所述水印信息对所述第一量化值进行修改，得到修改后的第一量化值；
16.利用所述带有水印信息的矩阵和所述修改后的第一量化值进行重构，得到嵌入水印信息的音频。
17.可选的，所述对所述待嵌入水印语音进行嵌入位置选择，确定第一水印嵌入位置矩阵，具体包括：
18.将所述待嵌入水印语音进行分段，得到第一语音段和第二语音段；所述第一语音段的能量高于所述第二语音段的能量；
19.选取第一设定帧作为所述第二语音段的水印嵌入位置；所述第一设定帧包括第一设定范围的帧、所述第二语音段中的能量最高的帧和第二设定范围的帧；其中，所述第一设定范围的帧在所述第二语音段中的能量最高的帧之前，所述第二设定范围的帧在所述第二语音段中的能量最高的帧之后；
20.删除所述第一语音段中的能量最高的帧，得到第三语音段；
21.选取第二设定帧和第三设定帧作为所述第一语音段的水印嵌入位置；所述第二设定帧包括第三设定范围的帧、所述第一语音段中的能量最高的帧和第四设定范围的帧；所述第三设定范围的帧在所述第一语音段中的能量最高的帧之前，所述第四设定范围的帧在所述第一语音段中的能量最高的帧之后；所述第三设定帧包括第五设定范围的帧、所述第三语音段中的能量最高的帧和第六设定范围的帧；其中，所述第五设定范围的帧在所述第三语音段中的能量最高的帧之前，所述第六设定范围的帧在所述第三语音段中的能量最高的帧之后；
22.根据所述第二语音段的水印嵌入位置和所述第一语音段的水印嵌入位置确定第一水印嵌入位置矩阵。
23.可选的，所述根据所述待嵌入水印语音的特征矩阵构建水印信息，具体包括：
24.将所述嵌入水印语音进行分帧处理，得到多帧待嵌入水印语音；
25.将多帧所述待嵌入水印语音进行分段处理，得到多段待嵌入水印语音；
26.将多段所述待嵌入水印语音中的每帧待嵌入水印语音进行快速傅里叶变换，得到每帧所述待嵌入水印语音的频域信号；
27.根据所述频域信号计算每帧待嵌入水印语音的对数能量；
28.根据每帧待嵌入水印语音的对数能量确定每段待嵌入水印语音的对数能量；
29.根据每段待嵌入水印语音的对数能量确定每段待嵌入水印语音水印能量最高的帧；
30.选取第四设定帧作为每段需要提取特征的帧；所述第四设定帧包括所述每段待嵌入水印语音中的水印能量最高的帧和第七设定范围的帧；所述水印能量最高的帧在第七设定范围的帧之后；
31.根据所述每段需要提取特征的帧确定特征选择矩阵；
32.根据所述特征选择矩阵和所述待嵌入水印语音的特征矩阵确定水印特征矩阵；
33.根据所述水印特征矩阵构建音频指纹；
34.根据所述音频指纹确定水印信息。
35.可选的，所述利用所述带有水印信息的矩阵和所述修改后的第一量化值进行重构，得到嵌入水印信息的音频，具体包括：
36.根据所述修改后的第一量化值和所述带有水印信息的矩阵进行重构，得到重构后的第一奇异值矩阵；
37.将所述重构后的第一奇异值矩阵进行第一细节分量重构，得到重构后的第一细节分量；
38.对所述重构后的第一细节分量进行双树复小波逆变换，得到嵌入水印信息的音
频。
39.一种盲音频水印嵌入系统，包括：
40.待嵌入水印语音获取模块，用于获取待嵌入水印语音；
41.第一水印嵌入位置矩阵确定模块，用于对所述待嵌入水印语音进行嵌入位置选择，确定第一水印嵌入位置矩阵；
42.第一水印嵌入的帧确定模块，用于根据所述第一水印嵌入位置矩阵确定第一水印嵌入的帧；
43.第一细节分量确定模块，用于将所述第一水印嵌入的帧进行双树复小波变换，得到第一细节分量；
44.第一奇异值矩阵确定模块，用于对所述第一细节分量进行奇异值分解，得到第一奇异值矩阵；
45.第一量化值确定模块，用于将所述第一奇异值矩阵进行量化，得到第一量化值；
46.水印信息构建模块，用于根据所述待嵌入水印语音的特征矩阵构建水印信息；
47.带有水印信息的矩阵确定模块，用于将所述水印信息嵌入所述第一奇异值矩阵，得到带有水印信息的矩阵；
48.修改模块，用于根据所述水印信息对所述第一量化值进行修改，得到修改后的第一量化值；
49.重构模块，用于利用所述带有水印信息的矩阵和所述修改后的第一量化值进行重构，得到嵌入水印信息的音频。
50.可选的，所述第一水印嵌入位置矩阵确定模块，具体包括：
51.分段单元，用于将所述待嵌入水印语音进行分段，得到第一语音段和第二语音段；所述第一语音段的能量高于所述第二语音段的能量；
52.第一选取单元，用于选取第一设定帧作为所述第二语音段的水印嵌入位置；所述第一设定帧包括第一设定范围的帧、所述第二语音段中的能量最高的帧和第二设定范围的帧；其中，所述第一设定范围的帧在所述第二语音段中的能量最高的帧之前，所述第二设定范围的帧在所述第二语音段中的能量最高的帧之后；
53.删除单元，用于删除所述第一语音段中的能量最高的帧，得到第三语音段；
54.第二选取单元，用于选取第二设定帧和第三设定帧作为所述第一语音段的水印嵌入位置；所述第二设定帧包括第三设定范围的帧、所述第一语音段中的能量最高的帧和第四设定范围的帧；所述第三设定范围的帧在所述第一语音段中的能量最高的帧之前，所述第四设定范围的帧在所述第一语音段中的能量最高的帧之后；所述第三设定帧包括第五设定范围的帧、所述第三语音段中的能量最高的帧和第六设定范围的帧；其中，所述第五设定范围的帧在所述第三语音段中的能量最高的帧之前，所述第六设定范围的帧在所述第三语音段中的能量最高的帧之后；
55.第一水印嵌入位置矩阵确定单元，用于根据所述第二语音段的水印嵌入位置和所述第一语音段的水印嵌入位置确定第一水印嵌入位置矩阵。
56.一种盲音频水印提取方法，包括：
57.获取待提取水印语音；
58.对所述待提取水印语音进行嵌入位置选择，确定第二水印嵌入位置矩阵；
59.根据所述第二水印嵌入位置矩阵确定第二水印嵌入的帧；
60.将所述第二水印嵌入的帧进行双树复小波变换，得到第二细节分量；
61.对所述第二细节分量进行奇异值分解，得到第二奇异值矩阵；
62.将所述第二奇异值矩阵进行量化，得到第二量化值；
63.根据所述第二量化值提取所述第二细节分量的水印信息；
64.将所述第二细节分量的水印信息进行归一化汉明距离度量，确定度量值；
65.根据所述度量值得到优化水印信息和非优化水印信息；
66.将所述非优化水印信息和所述优化水印信息进行异或操作，确定音频水印。
67.可选的，所述将所述非优化水印信息和所述优化水印信息进行异或操作，确定音频水印，具体包括：
68.将非优化水印信息和优化水印信息进行异或，确定两个位置矩阵；
69.将两个所述位置矩阵取交集，得到水印优化矩阵；
70.根据所述水印优化矩阵和所述非优化水印信息确定音频水印。
71.一种盲音频水印提取系统，包括：
72.待提取水印语音获取模块，用于获取待提取水印语音；
73.第二水印嵌入位置矩阵确定模块，用于对所述待提取水印语音进行嵌入位置选择，确定第二水印嵌入位置矩阵；
74.第二水印嵌入的帧确定模块，用于根据所述第二水印嵌入位置矩阵确定第二水印嵌入的帧；
75.第二细节分量确定模块，用于将所述第二水印嵌入的帧进行双树复小波变换，得到第二细节分量；
76.第二奇异值矩阵确定模块，用于对所述第二细节分量进行奇异值分解，得到第二奇异值矩阵；
77.第二量化值确定模块，用于将所述第二奇异值矩阵进行量化，得到第二量化值；
78.提取模块，用于根据所述第二量化值提取所述第二细节分量的水印信息；
79.度量值确定模块，用于将所述第二细节分量的水印信息进行归一化汉明距离度量，确定度量值；
80.优化水印信息和非优化水印信息模块，用于根据所述度量值得到优化水印信息和非优化水印信息；
81.音频水印确定模块，用于将所述非优化水印信息和所述优化水印信息进行异或操作，确定音频水印。
82.可选的，所述音频水印确定模块，具体包括：
83.异或单元，用于将所述非优化水印信息和所述优化水印信息进行异或，确定两个位置矩阵；
84.取交单元，用于将两个所述位置矩阵取交集，得到水印优化矩阵；
85.音频水印确定单元，用于根据所述水印优化矩阵和所述非优化水印信息确定音频水印。
86.根据本发明提供的具体实施例，本发明公开了以下技术效果：
87.本发明提供的一种盲音频水印嵌入和提取方法及系统，利用双数复小波变换和奇
异值分解对语音进行处理，将水印信息通过量化的方式嵌入到奇异值矩阵中，最后获得嵌入水印信息的音频，使得鲁棒音频水印具有良好的透明性和鲁棒性，具有较高的运行效率，经过多次操作提取的水印信息仍具有较高的查全率和查准率，因此，实现了在保证音频水印的嵌入容量和透明性的情况下，提高鲁棒性。
附图说明
88.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
89.图1为本发明提供的一种盲音频水印嵌入方法流程图；
90.图2为本发明提供的盲音频水印嵌入和提取方法流程图；
91.图3为本发明提供的原始语音和含有水印信息的语音的波形图；
92.图4为本发明提供的原始语音和含有水印信息的语音的语谱图；
93.图5为本发明提供的一种盲音频水印嵌入系统示意图；
94.图6为本发明提供的一种盲音频水印提取方法流程图；
95.图7为本发明提供的一种盲音频水印提取系统示意图。
具体实施方式
96.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
97.本发明的目的是提供一种盲音频水印嵌入和提取方法及系统，以实现在保证音频水印的嵌入容量和透明性的情况下，提高鲁棒性。
98.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
99.如图1所示，本发明提供的一种盲音频水印嵌入方法，包括：
100.步骤101：获取待嵌入水印语音。
101.步骤102：对待嵌入水印语音进行嵌入位置选择，确定第一水印嵌入位置矩阵。步骤102，具体包括：
102.将待嵌入水印语音进行分段，得到第一语音段和第二语音段；第一语音段的能量高于第二语音段的能量。
103.选取第一设定帧作为第二语音段的水印嵌入位置；第一设定帧包括第一设定范围的帧、第二语音段中的能量最高的帧和第二设定范围的帧；其中，第一设定范围的帧在第二语音段中的能量最高的帧之前，第二设定范围的帧在第二语音段中的能量最高的帧之后。
104.删除第一语音段中的能量最高的帧，得到第三语音段。
105.选取第二设定帧和第三设定帧作为第一语音段的水印嵌入位置；第二设定帧包括第三设定范围的帧、第一语音段中的能量最高的帧和第四设定范围的帧；第三设定范围的
帧在第一语音段中的能量最高的帧之前，第四设定范围的帧在第一语音段中的能量最高的帧之后；第三设定帧包括第五设定范围的帧、第三语音段中的能量最高的帧和第六设定范围的帧；其中，第五设定范围的帧在第三语音段中的能量最高的帧之前，第六设定范围的帧在第三语音段中的能量最高的帧之后。
106.根据第二语音段的水印嵌入位置和第一语音段的水印嵌入位置确定第一水印嵌入位置矩阵。
107.步骤103：根据第一水印嵌入位置矩阵确定第一水印嵌入的帧。
108.步骤104：将第一水印嵌入的帧进行双树复小波变换，得到第一细节分量。
109.步骤105：对第一细节分量进行奇异值分解，得到第一奇异值矩阵。
110.步骤106：将第一奇异值矩阵进行量化，得到第一量化值。
111.步骤107：根据待嵌入水印语音的特征矩阵构建水印信息。步骤107，具体包括：
112.将待嵌入水印语音进行分帧处理，得到多帧待嵌入水印语音。
113.将多帧待嵌入水印语音进行分段处理，得到多段待嵌入水印语音。
114.将多段待嵌入水印语音中的每帧待嵌入水印语音进行快速傅里叶变换，得到每帧待嵌入水印语音的频域信号。
115.根据频域信号计算每帧待嵌入水印语音的对数能量。
116.根据每帧待嵌入水印语音的对数能量确定每段待嵌入水印语音的对数能量。
117.根据每段待嵌入水印语音的对数能量确定每段待嵌入水印语音水印能量最高的帧。
118.选取第四设定帧作为每段需要提取特征的帧；第四设定帧包括每段待嵌入水印语音中的水印能量最高的帧和第七设定范围的帧；水印能量最高的帧在第七设定范围的帧之后。
119.根据每段需要提取特征的帧确定特征选择矩阵。
120.根据特征选择矩阵和待嵌入水印语音的特征矩阵确定水印特征矩阵。
121.根据水印特征矩阵构建音频指纹。
122.根据音频指纹确定水印信息。
123.步骤108：将水印信息嵌入第一奇异值矩阵，得到带有水印信息的矩阵。
124.步骤109：根据水印信息对第一量化值进行修改，得到修改后的第一量化值。
125.步骤110：利用带有水印信息的矩阵和修改后的第一量化值进行重构，得到嵌入水印信息的音频。步骤110，具体包括：
126.根据修改后的第一量化值和带有水印信息的矩阵进行重构，得到重构后的第一奇异值矩阵。
127.将重构后的第一奇异值矩阵进行第一细节分量重构，得到重构后的第一细节分量。
128.对重构后的第一细节分量进行双树复小波逆变换，得到嵌入水印信息的音频。
129.如图5所示，一种盲音频水印嵌入系统，包括：
130.待嵌入水印语音获取模块501，用于获取待嵌入水印语音。
131.第一水印嵌入位置矩阵确定模块502，用于对待嵌入水印语音进行嵌入位置选择，确定第一水印嵌入位置矩阵。
132.第一水印嵌入的帧确定模块503，用于根据第一水印嵌入位置矩阵确定第一水印嵌入的帧。
133.第一细节分量确定模块504，用于将第一水印嵌入的帧进行双树复小波变换，得到第一细节分量。
134.第一奇异值矩阵确定模块505，用于对第一细节分量进行奇异值分解，得到第一奇异值矩阵。
135.第一量化值确定模块506，用于将第一奇异值矩阵进行量化，得到第一量化值。
136.水印信息构建模块507，用于根据待嵌入水印语音的特征矩阵构建水印信息。
137.带有水印信息的矩阵确定模块508，用于将水印信息嵌入第一奇异值矩阵，得到带有水印信息的矩阵。
138.修改模块509，用于根据水印信息对第一量化值进行修改，得到修改后的第一量化值。
139.重构模块510，用于利用带有水印信息的矩阵和修改后的第一量化值进行重构，得到嵌入水印信息的音频。
140.其中，第一水印嵌入位置矩阵确定模块502，具体包括：
141.分段单元，用于将待嵌入水印语音进行分段，得到第一语音段和第二语音段；第一语音段的能量高于第二语音段的能量。
142.第一选取单元，用于选取第一设定帧作为第二语音段的水印嵌入位置；第一设定帧包括第一设定范围的帧、第二语音段中的能量最高的帧和第二设定范围的帧；其中，第一设定范围的帧在第二语音段中的能量最高的帧之前，第二设定范围的帧在第二语音段中的能量最高的帧之后。
143.删除单元，用于删除第一语音段中的能量最高的帧，得到第三语音段。
144.第二选取单元，用于选取第二设定帧和第三设定帧作为第一语音段的水印嵌入位置；第二设定帧包括第三设定范围的帧、第一语音段中的能量最高的帧和第四设定范围的帧；第三设定范围的帧在第一语音段中的能量最高的帧之前，第四设定范围的帧在第一语音段中的能量最高的帧之后；第三设定帧包括第五设定范围的帧、第三语音段中的能量最高的帧和第六设定范围的帧；其中，第五设定范围的帧在第三语音段中的能量最高的帧之前，第六设定范围的帧在第三语音段中的能量最高的帧之后。
145.第一水印嵌入位置矩阵确定单元，用于根据第二语音段的水印嵌入位置和第一语音段的水印嵌入位置确定第一水印嵌入位置矩阵。
146.如图6所示，本发明还提供了一种盲音频水印提取方法，包括：
147.步骤601：获取待提取水印语音。
148.步骤602：对待提取水印语音进行嵌入位置选择，确定第二水印嵌入位置矩阵。
149.步骤603：根据第二水印嵌入位置矩阵确定第二水印嵌入的帧。
150.步骤604：将第二水印嵌入的帧进行双树复小波变换，得到第二细节分量。
151.步骤605：对第二细节分量进行奇异值分解，得到第二奇异值矩阵。
152.步骤606：将第二奇异值矩阵进行量化，得到第二量化值。
153.步骤607：根据第二量化值提取第二细节分量的水印信息。
154.步骤608：将第二细节分量的水印信息进行归一化汉明距离度量，确定度量值。
155.步骤609：根据度量值得到优化水印信息和非优化水印信息。
156.步骤610：将非优化水印信息和优化水印信息进行异或操作，确定音频水印。其中，步骤610，具体包括：
157.将非优化水印信息和优化水印信息进行异或，确定两个位置矩阵。
158.将两个位置矩阵取交集，得到水印优化矩阵。
159.根据水印优化矩阵和非优化水印信息确定音频水印。
160.如图7所示，本发明还提供了一种盲音频水印提取系统，包括：
161.待提取水印语音获取模块701，用于获取待提取水印语音。
162.第二水印嵌入位置矩阵确定模块702，用于对待提取水印语音进行嵌入位置选择，确定第二水印嵌入位置矩阵。
163.第二水印嵌入的帧确定模块703，用于根据第二水印嵌入位置矩阵确定第二水印嵌入的帧。
164.第二细节分量确定模块704，用于将第二水印嵌入的帧进行双树复小波变换，得到第二细节分量。
165.第二奇异值矩阵确定模块705，用于对第二细节分量进行奇异值分解，得到第二奇异值矩阵。
166.第二量化值确定模块706，用于将第二奇异值矩阵进行量化，得到第二量化值。
167.提取模块707，用于根据第二量化值提取第二细节分量的水印信息。
168.度量值确定模块708，用于将第二细节分量的水印信息进行归一化汉明距离度量，确定度量值。
169.优化水印信息和非优化水印信息模块709，用于根据度量值得到优化水印信息和非优化水印信息。
170.音频水印确定模块710，用于将非优化水印信息和优化水印信息进行异或操作，确定音频水印。
171.其中，音频水印确定模块710，具体包括：
172.异或单元，用于将非优化水印信息和优化水印信息进行异或，确定两个位置矩阵。
173.取交单元，用于将两个位置矩阵取交集，得到水印优化矩阵。
174.音频水印确定单元，用于根据水印优化矩阵和非优化水印信息确定音频水印。
175.本发明还提供了一种盲音频水印嵌入和提取方法的具体实现方式，可应用于语音文件的版权保护、信息标注等。以音频检索为出发点，提取原始语音的音频指纹作为水印信息对语音文件进行标注，用于后续的音频指纹检索。首先在dt
‑
cwt域采用基于能量的水印嵌入位置选择方法确定水印的嵌入位置，其次利用dt
‑
cwt和奇异值分解(svd)对语音进行处理，将水印信息通过量化的方式嵌入到奇异值矩阵中，最后获得含水印的语音文件。本发明在保证嵌入容量和透明性的情况下，有效地提高了鲁棒性，且对常见的诸如mp3压缩、低通滤波、重量化、重采样等音频攻击方法具有很强的鲁棒性，可以快速高效地对语音文件进行信息标注。
176.如图2所示，流程主要由水印嵌入、水印提取算法两个部分组成。
177.1水印嵌入算法
178.1.1水印生成(构建音频指纹)
179.为了降低数据量并保证音频指纹的鲁棒性，本发明选择降维后的12维梅尔倒谱系数(mel
‑
frequency cepstral coefficient，mfcc)特征矩阵中的1、3、10、11、12维特征构建音频指纹，该5维特征包含了原始音频12维矩阵67％以上的信息量。为了进一步降低数据量，可通过基于能量的特征降维对mfcc特征矩阵进行处理并构建音频指纹来作为嵌入的水印信息。水印生成的具体处理步骤如下：
180.步骤1：特征提取。设语音采样率为16khz，帧长设定为32ms、帧移为10ms、窗函数为汉明窗，设置24个梅尔滤波器，提取原始语音的12维mfcc特征矩阵mfcc＝(m1，m2，...，m
j
，...，m
12
)，选择第1、3、10、11、12维特征构建新的特征矩阵mfcc'＝(m1，m3，m
10
，m
11
，m
12
)，其中，m
j
为为mfcc特征矩阵第j维的特征向量。
181.步骤2：分段并计算对数能量。首先将语音信号按照步骤1的分帧方法分成n1帧，将分帧后的信号平均分为四段、每段帧数为z1，对每帧信号[f1，f
(z1
‑
19)
]范围内的采样点进行快速傅里叶变换，得到频域信号x
i
(k)，然后采用式(1)计算出每帧的对数能量。
[0182][0183]
其中，e(i)为对数能量，k为傅里叶变换的点数，k＝0,1,...,l
‑
1，l为每帧帧长，i为采样点，b为常数。
[0184]
步骤3：构建特征矩阵。通过对比每段信号[f1,f
(z1
‑
19)
]范围内的对数能量特征确定一个能量最高的帧f
max
，以帧f
max
为起点、向后取19个帧，将[f
max
,f
(max 19)
]作为每段需要提取特征的帧，构建一个n1×
1的空矩阵t1，将矩阵中需要提取特征的位置置1，其余位置为0，得到特征选择矩阵t'1；将特征矩阵mfcc'与特征选择矩阵t'1相乘，并将相乘后矩阵中数据不为0的维数构建新的特征矩阵mfcc"。
[0185]
步骤4：构建音频指纹。将特征矩阵mfcc"通过式(2)的阈值判断公式来构建音频指纹h＝(h1,h2,h3,h4,h5)。之后将大小为80
×
5的音频指纹h＝(h1,h2,h3,h4,h5)的每列进行转置，重新构造为大小为400
×
1的音频指纹h'＝(h
t1
,h
t2
,h
t3
,h
t4
,h
t5
)。
[0186][0187]
步骤5：生成水印。首先利用步骤4得到的音频指纹h'构建大小为1200
×
1的水印w＝(h',h',h')，然后对水印w进行整理，重构为600
×
2的水印ww＝(w1；w2)。
[0188]
1.2嵌入位置选择
[0189]
本发明通过基于能量的嵌入位置选择方法确定水印嵌入位置，能够在保证嵌入容量的同时，有效地提高鲁棒性和透明性。嵌入位置选择的具体处理步骤如下：
[0190]
步骤1：预处理。将原始语音进行不重叠分帧，帧长为128、窗函数为汉明窗，分成n2帧。
[0191]
步骤2：分段并计算对数能量。将分帧后的信号平均分为五段、每段帧数为z2，按照式(1)计算每段的对数能量和，比较五段语音对数能量和的大小，确定三段能量较高的语音段和两段能量较低的语音段。
[0192]
步骤3：确定低能量语音段的水印嵌入位置。将两段能量较低的语音段分别通过对比该段信号[f'
31
,f'
(z2
‑
29)
]范围内的对数能量特征确定一个能量最高的帧f'
max
，以帧f'
max
为起点、向前取30个帧、向后取29个帧，将[f'
(max
‑
30)
,f'
(max 29)
]一共60个帧作为该段语音的水印嵌入位置。
[0193]
步骤4：确定高能量语音段的水印嵌入位置。将三段能量较高的语音段分别通过对比该段信号[f
51
,f
(z2
‑
49)
]范围内的对数能量特征确定一个能量最高的帧f"
max
，以帧f"
max
为起点、向前取50个帧、向后取49个帧，将[f"
(max
‑
50)
,f"
(max 49)
]作为该段语音的水印嵌入位置；之后将该段信号作为水印嵌入位置的帧[f"
(max
‑
50)
,f"
(max 49)
]去掉，剩下的帧组成新的语音段，对新的语音段按照步骤3的方法提取60个帧，将一共160个帧作为该段语音的水印嵌入位置。
[0194]
步骤5：水印嵌入位置整理。将三段高能量语音段的480个水印嵌入帧和两段低能量语音段的120个水印嵌入帧确定后，构建一个n2×
1的空矩阵t2，将矩阵中需要嵌入水印的位置置1，其余位置为0，得到水印嵌入位置矩阵t'2。
[0195]
1.3水印嵌入
[0196]
音频经过dt
‑
cwt后，其低频分量包含原始语音更多的信息，进行水印嵌入后，水印有较好的鲁棒性，不过对原始语音影响较大，会严重影响水印的透明性，所以本发明选择在高频分量进行水印嵌入。水印嵌入的具体处理步骤如下：
[0197]
步骤1：dt
‑
cwt变换。将原始语音按照1.2嵌入位置选择中步骤1的分帧方法进行分帧，通过1.2嵌入位置选择中步骤5的水印嵌入位置矩阵t'2选择水印嵌入的帧，取每帧信号进行4级dt
‑
cwt变换，实部和虚部分别分解为高频分量一级分解实部分量d
r1
、虚部分量d
i1
，二级分解实部分量d
r2
、虚部分量d
i2
，三级分解实部分量d
r3
、虚部分量d
i3
，四级分解实部分量d
r4
、虚部分量d
i4
，低频实部分量c
r
、虚部分量c
i
，其中r代表实部，i代表虚部。
[0198]
步骤2：svd分解。将dt
‑
cwt后的细节分量d
r4
均匀地分成n段，将分段后的细节分量按照n/2分为前半段细节分量和后半段细节分量，对n段细节分量分别进行svd分解得到矩阵[u1,s1,v1]、[u2,s2,v2]、...、[u
n
,s
n
,v
n
]。采用的svd公式如下：
[0199][0200]
其中，λ
q
为奇异值矩阵s的最后一个奇异值，v
q
为右奇异矩阵v的最后一个奇异值，u
p
为左奇异矩阵u的最后一个奇异值，b为p
×
q的细节分量矩阵，左奇异矩阵u＝{u1,u2,...,u
p
}和右奇异矩阵v＝{v1,v2,...,v
q
}分别是p
×
p和q
×
q的正交矩阵，矩阵s是奇异值矩阵，其对角线上不全为0的元素即奇异值，矩阵s能够体现矩阵b的大部分信息，其中矩阵s的第一个奇异值λ1对矩阵b的影响尤为明显。
[0201]
步骤3：奇异值量化。取奇异值s1(1,1)、s2(1,1)、...、s
n
(1,1)按照式(4)进行量化，量化步长a＝0.08。
[0202]
c＝floor(s(1,1)/a)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0203]
其中c为量化值，floor为向下取整函数。
[0204]
步骤4：水印的嵌入。根据需要嵌入的水印信息按照式(5)对量化值进行修改，将水印ww中的w1嵌入到前半段细节分量的奇异值矩阵中，将w2嵌入到后半段细节分量的奇异值矩阵中。
[0205][0206]
其中c
′
为修改后的量化值，w为需要嵌入的水印信息。
[0207]
步骤5：奇异值重构。根据修改后的量化值c'与量化步长a按照式(6)重构每段细节分量的奇异值矩阵。
[0208]
s
′
(1,1)＝c
′×
a 0.5
×
a
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0209]
步骤6：细节分量重构。按照式(7)通过奇异值矩阵s'与u、v进行每段细节分量的svd重构、重构细节分量为d'
r4
，按照式(8)将d'
r4
进行细节分量重构、重构为含水印的细节分量d"
r4
。
[0210]
d
′
r4
＝u
×
s
′×
v
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0211]
d
′
r
′4＝(d
′
r4
‑
d
r4
)
×
2 d
r4
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0212]
步骤7：语音重构。对得到的重构细节分量d"
r4
进行处理，将重构的细节分量与其他分量通过dt
‑
cwt的逆变换重构嵌入水印后的语音帧，对语音中所有的帧按照步骤1～7进行处理，完成水印信息的嵌入，最后得到含水印的语音，也即完成对语音文件的信息标注。
[0213]
2水印提取算法
[0214]
步骤1：预处理。按照1.2嵌入位置选择的方法计算语音水印嵌入位置，之后按照1.3水印嵌入中步骤1、步骤2的方法计算每个水印嵌入帧的奇异值s1'(1,1)、s2'(1,1)、...、s
n
'(1,1)。
[0215]
步骤2：水印的提取。对奇异值s1'(1,1)、s2'(1,1)、...、s
n
'(1,1)按照1.3水印嵌入中步骤3的方法计算修改后的量化值c'，通过按照式(9)的水印提取公式分别提取帧的前半段细节分量和后半段细节分量的水印信息w'1、w'2，最后将提取到的水印ww'＝(w'1；w'2)重构为水印w'＝(w'1,w'2,w'3)。
[0216][0217]
步骤3：确定水印信息。按照式(10)将w'1、w'2、w'3水印分别两两进行归一化汉明距离度量，得到三组度量值d
12
、d
23
、d
13
，其中d
12
为水印w'1与水印w'2进行度量的度量值、d
23
为水印w'2与水印w'3进行度量的度量值、d
13
为水印w'1与水印w'3进行度量的度量值。通过比较三组度量值，选择其中两组较小的度量值d
nm
、d
un
确定水印信息w'
n
，将另外两个水印作为优化水印w'
u
、w'
m
。
[0218][0219]
其中，l
w
为水印长度。
[0220]
步骤4：水印的优化。将水印w'
n
与优化水印信息w'
u
、w'
m
分别进行异或，从而寻找数据不同的位置并分别构建矩阵p
un
、p
nm
，其中p
un
为水印w'
n
与优化水印信息w'
u
异或的位置矩阵、p
nm
为水印w'
n
与优化水印信息w'
m
异或的位置矩阵，将位置矩阵p
un
、p
nm
取交集构建水印优化矩阵p
n
，通过水印优化矩阵p
n
对水印w'
n
相应位置进行修改(即将相应位置的0和1互换)，修改后得到提取出的水印信息w"
n
，也即语音的音频指纹。
[0221]
性能分析：
[0222]
实验语音选自清华大学语言与语言技术中心的开放汉语语音数据库thchs
‑
30，采样频率为16khz、采样精度为16bit、单通道wav格式。将1000条语音分别通过音频处理软件gold wave 6.38和matlab r2017a进行重采样、重量化、添加白噪声、mp3压缩等11种内容保持操作，得到共12000条语音作为检索语音数据库。实验硬件环境：intel(r)core(tm)i5
‑
7300hq cpu，2.50ghz，内存8gb。软件环境为：windows 10，matlab r2017a。
[0223]
1嵌入容量分析
[0224]
嵌入容量是衡量音频水印算法非常重要的指标之一，国际唱片业协会(international federation ofthe phonographic industry，ifpi)规定鲁棒音频水印算法的嵌入容量应该高于20bps。本发明采用的嵌入容量计算公式如式(11)：
[0225][0226]
其中，p1为音频载体的低能量音频段数量，p2为高能量音频段数量，l为原始语音长度，n1为低能量音频段音频选择的嵌入帧数，n2为高能量音频段音频选择的嵌入帧数，n为细节分量分段数，cap为嵌入容量。
[0227]
本发明的嵌入容量在水印嵌入时细节分量的分段数n分别设为2和4来进行测试。当n＝2时，嵌入容量为60bps，水印方案嵌入容量较低，不过透明性较高，且对各种攻击有较高的鲁棒性；而当n＝4时，嵌入容量为120bps，水印方案在鲁棒性和嵌入容量之间形成一个权衡，在降低一定的透明性和鲁棒性的情况下有效地提高了嵌入容量。本发明在两种分段情况下，水印的嵌入容量皆高于ifpi所规定的鲁棒音频水印的嵌入容量，所以本发明具有较高的嵌入容量，能够满足对语音文件进行信息标注的实际需要。
[0228]
2透明性分析
[0229]
本发明选择能够直观、准确地反映含水印语音听觉质量变化程度的信噪比(signal
‑
to
‑
noise ratio,snr)、感知语音质量评估(perceptual evaluation of speech quality,pesq)对含水印语音听觉质量进行评价，ifpi规定音频水印的snr应高于20db，snr计算公式如式(12)：
[0230][0231]
其中，l为原始语音长度、x为原始语音、y为含水印语音。
[0232]
pesq是客观平均意见得分(mean opinion score,mos)值的评价方法，其值在
‑
1至4.5之间。当pesq>3.5时，含水印语音的音频质量较好。
[0233]
本发明在分段数n＝2时，snr为31.54db、pesq为4.146，当n＝4时，snr为23.65db、pesq为3.894，snr值均高于ifpi所规定的20db、pesq值均高于3.5，说明本发明的透明性较高。
[0234]
为了进一步验证本发明的透明性性能，在图3和图4中对比了原始语音与含水印语音的波形图与语谱图，其中，图3(a)为原始语音的波形图；图3(b)为含有水印信息的语音的波形图；图4(a)为原始语音语谱图；图4(b)为含有水印信息的语音的语谱图。从图3和图4可以看出，原始语音在嵌入水印后，语音波形变化较小、语谱图变化不明显，说明本发明透明性较高，也说明含水印语音的听觉质量较高。
[0235]
3鲁棒性分析
[0236]
本发明采用常见的攻击方法(mp3压缩(128kbps，mp3)、截止频率为4khz的低通滤波(lpf)、重量化(16bit
→
8bit
→
16bit，r.q)、重采样(16khz
→
8khz
→
16khz，r.s)、幅度缩放0.8和1.2(a
↓
和a
↑
)、添加回声(衰减5％、时长分别为10ms和50ms，e10和e50)和添加20db、30db、35db窄带高斯噪声(g.n20db、g.n35db、g.n30db)等11种内容保持操作)来测试含水印语音的鲁棒性，并通过式(13)的误码率(bit error rate,ber)来衡量鲁棒性。其中ber越小则水印算法的鲁棒性越好，ifpi规定鲁棒水印在面对语音内容保持操作时所提取的水印的ber不能高于20％。表1为本发明在不同分段数下的鲁棒性对比结果表。
[0237][0238]
其中，w"1和w"2是原始数字水印和提取的数字水印。
[0239]
表1不同分段数下的鲁棒性对比结果表
[0240][0241]
由表1可知，在分段数n分别为2和4时，本发明在经过11种内容保持操作后的水印ber均低于ifpi所规定的ber，说明本发明具有较强的鲁棒性。从表1中可以看出，本发明在幅值缩放处理后鲁棒性一般，ber偏高，这是因为本发明采用基于能量来选择水印嵌入位置，而能量对于幅值缩放方面鲁棒性较差。
[0242]
本发明通过提取原始语音的音频指纹作为水印信息进行嵌入，为了更全面的反映鲁棒性对检索性能的影响，设定相似性阈值0.35≤t≤0.4，并通过归一化汉明距离进行匹配检索，通过式(14)的查全率r和式(15)的查准率p来衡量语音经过11种内容保持操作后音频指纹的检索性能。表2为t＝0.35时的经过11种内容保持操作后的音频指纹检索性能表。其中，表格中数值单位均为百分比。
[0243][0244]
[0245]
其中，f
t
是检索到的相关语音，f
l
是未检索到的相关语音，f
f
是检索到的不相关语音。
[0246]
表2 t＝0.35时的经过11种内容保持操作后的音频指纹检索性能表
[0247][0248]
由表2可知，在相似性阈值t＝0.35时，含水印语音在受到各种内容保持攻击后，查全率和查准率均比较高，能够实现较为精确地检索，说明本发明具有较强的鲁棒性。
[0249]
4运行效率
[0250]
本发明在语音库中随机选出1000条长度为20s的语音，计算平均计算时间(包括水印嵌入和提取的时间)。在分段数n＝2时，平均计算时间为1.921s，在分段数n＝4时，平均计算时间为1.8366s。说明本发明通过能量确定水印嵌入位置，能够简单高效地实现水印的优化，且通过量化可在dt
‑
cwt域细节分量的奇异值矩阵中进行水印嵌入，方法简单高效。
[0251]
本发明通过提取原始语音的梅尔倒谱系数来构建音频指纹作为水印信息；对原始语音通过基于能量的嵌入位置选择方法确定水印嵌入帧，并对其应用4级dt
‑
cwt变换；选取低频分量分段进行奇异值分解；将音频指纹通过量化的方法嵌入到奇异值矩阵的奇异值中，获得含有水印的语音。利用双树复小波变换(dt
‑
cwt)相较于小波变换和小波包变换的优势、以及svd在水印嵌入方面的优势，利用基于能量的水印嵌入位置选择方法确定水印嵌入的位置，在保证嵌入容量的前提下来提高鲁棒性；利用dt
‑
cwt和svd对语音进行处理，将水印信息通过量化的方式嵌入到奇异值矩阵中，使得鲁棒音频水印具有良好的透明性和鲁棒性；具有较高的运行效率；含水印语音在经过多种内容保持操作后所提取的音频指纹仍具有较高的查全率和查准率，说明本发明很好地权衡了嵌入容量、透明性和鲁棒性之间的关系，且对常见的诸如mp3压缩、低通滤波、重量化、重采样等攻击方法具有很强的鲁棒性，可以有效地利用音频水印对语音文件进行信息标注，可满足对原始语音进行信息标注的实际需求。
[0252]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0253]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频处理方法、装置、电子设备及存储介质与流程

一种盲音频水印嵌入和提取方法及系统与流程

相关文章

最热文献