一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种信息处理方法及相关设备与流程

2022-03-26 15:51:18 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种信息处理方法及相关设备。


背景技术:

2.自动歌词时间戳是指通过对齐模型,对输入的歌曲音频和对应的文本内容进行处理,得到音频中每个发音在文本内容中对应的字的起始时间和结束时间。然而,该基于对齐模型获得的自动歌词时间戳中,出现人声尾音被截断,或者包括部分无用的静音等情况,因此,如何获得更精确的歌词时间戳是一个亟待解决的问题。


技术实现要素:

3.本技术实施例提供了一种信息处理方法及相关设备,可以获得更加精确的音文时间戳。
4.一方面,本技术实施例公开了一种信息处理方法,该方法包括:
5.利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳,所述音文时间戳包括所述音频信号在所述文本内容中对应的每个字的起始时间和结束时间;
6.利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点;
7.根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳。
8.在一种可选的实施方式中,该人声检测模型是利用第一梅尔频率倒谱系数mfcc特征和第二mfcc特征训练获得的,所述第一mfcc特征是从人声音频中提取的,所述第二mfcc是从非人声音频中提取的。
9.在一种可选的实施方式中,所述利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点,包括:
10.对所述音频信号进行划分,获得n帧音频;
11.根据所述人声检测模型对所述音频信号进行检测,获得检测结果;所述检测结果包括所述n帧音频中的每一帧属于人声或非人声音频的结果;
12.根据所述检测结果,确定所述音频信号中人声与非人声之间的跳变点,所述人声与非人声之间的跳变点包括人声转非人声的跳变点以及非人声转人声的跳变点。
13.在一种可选的实施方式中,根据所述人声检测模型对所述音频信号进行检测,获得检测结果,包括:
14.针对所述n帧音频中的每帧音频,利用所述人声检测模型计算该帧是人声的最大似然概率值,以及该帧是非人声的最大似然概率值;
15.若该帧是人声的最大似然概率值大于该帧是非人声的最大似然概率值时,确定该帧是人声帧;
16.若该帧是人声的最大似然概率值小于该帧是非人声的最大似然概率值时,确定该帧是非人声帧。
17.在一种可选的实施方式中,所述根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳,包括:
18.根据人声转非人声的跳变点,调整所述音文时间戳中所述人声的结束时间和/或所述非人声的起始时间。
19.在一种可选的实施方式中,所述根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳,包括:
20.根据非人声转人声的跳变点,调整所述音文时间戳中所述非人声的结束时间和/或所述人声的起始时间。
21.在一种可选的实施方式中,所述利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳,包括:
22.从音频信号中提取第三mfcc特征;
23.对所述音频信号对应的文本内容进行内容转换处理,得到隐马尔可夫模型hmm状态序列;
24.将所述第三mfcc特征和所述hmm状态序列输入到所述对齐模型,获得所述音文时间戳。
25.在一种可选的实施方式中,所述将所述第三mfcc特征和所述hmm状态序列输入到所述对齐模型,获得所述音文时间戳,包括:
26.利用所述对齐模型得到所述第三mfcc特征中的每一帧对应的隐马尔可夫状态的概率值,根据所述每一帧对应的隐马尔可夫状态的概率值获得所述音文时间戳。
27.另一方面,本技术实施例公开了一种信息处理装置,该装置包括:
28.处理单元,用于对音频信号和对应的文本内容进行处理,得到音文时间戳;
29.调整单元,对该音文时间戳进行调整,获得调整后的音文时间戳。
30.在一种可选的实施方式中,该处理单元,用于利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳。
31.在一种可选的实施方式中,该处理单元,还用于利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点。
32.在一种可选的实施方式中,该调整单元,在用于根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整时,具体用于:获得调整后的音文时间戳。
33.在一种可选的实施方式中,该处理单元,用于利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点时,该人声检测模型是利用第一梅尔频率倒谱系数mfcc特征和第二mfcc特征训练获得的,所述第一mfcc特征是从人声音频中提取的,所述第二mfcc是从非人声音频中提取的。
34.在一种可选的实施方式中,该处理单元,在利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点时,具体用于:对所述音频信号进行划分,获得n帧音频;
35.根据所述人声检测模型对所述音频信号进行检测,获得检测结果;所述检测结果包括所述n帧音频中的每一帧属于人声或非人声音频的结果;
36.根据所述检测结果,确定所述音频信号中人声与非人声之间的跳变点,所述人声与非人声之间的跳变点包括人声转非人声的跳变点以及非人声转人声的跳变点。
37.在一种可选的实施方式中,该处理单元,在根据所述人声检测模型对所述音频信
号进行检测,获得检测结果时,具体用于:针对所述n帧音频中的每帧音频,利用所述人声检测模型计算该帧是人声的最大似然概率值,以及该帧是非人声的最大似然概率值;
38.若该帧是人声的最大似然概率值大于该帧是非人声的最大似然概率值时,确定该帧是人声帧;
39.若该帧是人声的最大似然概率值小于该帧是非人声的最大似然概率值时,确定该帧是非人声帧。
40.在一种可选的实施方式中,该调整单元,在根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳时,具体用于:根据人声转非人声的跳变点,调整所述音文时间戳中所述人声的结束时间和/或所述非人声的起始时间。
41.在一种可选的实施方式中,该调整单元,在根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳时,具体用于:根据非人声转人声的跳变点,调整所述音文时间戳中所述非人声的结束时间和/或所述人声的起始时间。
42.在一种可选的实施方式中,该处理单元,在用于利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳时,具体用于:从音频信号中提取第三mfcc特征;
43.对所述音频信号对应的文本内容进行内容转换处理,得到隐马尔可夫模型hmm状态序列;
44.将所述第三mfcc特征和所述hmm状态序列输入到所述对齐模型,获得所述音文时间戳。
45.在一种可选的实施方式中,该处理单元,在用于将所述第三mfcc特征和所述hmm状态序列输入到所述对齐模型,获得所述音文时间戳时,具体用于:利用对齐模型计算所述第三mfcc特征中每一帧对应的隐马尔可夫状态的概率值;根据所述每一帧对应的隐马尔可夫状态的概率值,得到所述第三mfcc特征对应的所述hmm状态序列;将所述hmm状态序列进行内容转换,得到音文时间戳。
46.本技术实施例还公开了一种信息处理设备,该信息处理设备包括:
47.存储器、处理器,其中,所述存储器上存储有信息处理程序,所述信息处理程序被所述处理器执行本技术实施例提供的信息处理方法。
48.本技术实施例还公开了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器运行时,执行上述的信息处理方法。
49.相应地,本技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。信息处理设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该信息处理设备执行上述的信息处理方法。
50.可见,本技术提供的信息处理方法中,可利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳,并利用人声检测模型确定该音频信号中人声与非人声之间的跳变点;根据该音频信号中人声与非人声之间的跳变点对该音文时间戳进行调整,获得调整后的音文时间戳。可见,该方法能够在对齐模型得到的音文时间戳的基础上进行局部微调,从而得到更精确的音文时间戳。
附图说明
51.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
52.图1是本技术实施例公开的一种歌词时间戳的示意图;
53.图2是本技术实施例公开的一种网络架构示意图;
54.图3是本技术实施例公开的一种信息处理方法的流程示意图;
55.图4是本技术实施例公开的一种确定对齐模型的示意图;
56.图5本技术实施例公开的一种确定人声检测模型的示意图;
57.图6是本技术实施例公开的另一种信息处理方法的流程示意图;
58.图7是本技术实施例公开的一种音频信号的划分示意图;
59.图8是本技术实施例公开的一种人声与非人声之间的跳变点的示意图;
60.图9是本技术实施例公开的一种音文时间戳的调整示意图;
61.图10是本技术实施例公开的另一种音文时间戳的调整示意图;
62.图11是本技术实施例公开的一种信息处理装置的结构示意图;
63.图12是本技术实施例公开的一种信息处理设备的结构示意图。
具体实施方式
64.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
65.目前,利用对齐模型对歌曲音频和其对应的文本内容进行处理获得的歌词时间戳,虽然已经是最优的对齐结果,但仍可能存在人声尾音被截断或者歌词时间戳中人声包括部分无用的静音等情况。
66.例如,采用对齐模型对一段歌曲音频及其对应的文本内容“我是谁”进行处理,获得的歌词时间戳如图1所示,该歌词时间戳中时刻a1到时刻b1为文本内容中“我”对应的音频;时刻b1至时刻c1为文本内容中空白区域对应的音频,即静音部分;时刻c1至时刻d1为文本内容中“是”对应的音频;时刻d1至时刻e1为文本内容中“谁”对应的音频。然而,实际中,该歌曲音频中“我”的结束时间不是时刻b1而是图1中时刻b2,故该歌词时间戳中时刻a1至时刻b1对应的人声“我”被提前截断;另外,该歌曲音频中“是”的开始时间是图1所示的时刻c2而不是时刻c1,故该歌词时间戳中时刻c1至时刻d1对应的人声“是”包括了部分无用的静音。
67.因此,如何提升音文时间戳的准确性是一个亟待解决的问题。
68.本技术实施例提供了一种信息处理方法,该信息处理方法中,终端设备利用对齐模型对输入的音频信号和该音频信号对应的文本内容进行处理,得到音文时间戳;终端设备再利用人声检测模型确定该音频信号中人声与非人声之间的跳变点,然后根据该音频信号中人声与非人声之间的跳变点对得到的音文时间戳进行调整,从而得到更精准的音文时
间戳。
69.其中,音文时间戳包括了音频信号在文本内容中对应的每个字的起始时间和结束时间。该音频信号为歌曲时,该音文时间戳也可称为歌词时间戳。
70.可选地,本技术实施例提供的信息处理方法还可以由服务器执行,服务器可从终端设备获取音频信号和该音频信号对应的文本内容,或者,终端设备可向服务器上报音频信号和该音频信号对应的文本内容;进而,服务器可对该音频信号和该音频信号对应的文本内容进行处理,获得音文时间戳;再利用人声检测模型确定该音频信号中人声与非人声之间的跳变点,根据该音频信号中人声与非人声之间的跳变点对音文时间戳进行调整,从而获得更精准的音文时间戳。
71.例如,该信息处理方法可以应用于图2所示的网络架构,请参阅图2,图2为本技术实施例提供的一种网络架构的示意图,该网络架构可包括终端设备201和服务器202。其中,该服务器202从终端设备201中获取音频信号和该音频信号对应的文本内容,进而,该服务器202可执行本技术实施例所述的信息处理方法,获得更加精准的音文时间戳。
72.需要说明的是,终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载音箱等,但并不局限于此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
73.以下结合附图,对本技术实施例进行详细的阐述。
74.请参阅图3,图3为本技术实施例提供的一种信息处理方法的流程示意图,图3所示的信息处理方法是从终端设备的角度进行阐述的,该方法可包括但不限于以下步骤:
75.s301、终端设备利用对齐模型对音频信号和该音频信号对应的文本内容进行处理,获得音文时间戳。
76.本技术实施例中,该对齐模型的训练过程可以参考图4,图4为本技术实施例提供的一种确定对齐模型的示意图,由图4所示,该对齐模型可以是通过期望最大化算法(expectation maximization algorithm,em)在训练数据集上迭代收敛获得的。其中,该em可以是高斯混合模型(gaussian mixture model,gmm)-隐马尔可夫模型(hidden markov module,hmm),通过训练数据集的迭代收敛可获得对齐模型的相关参数,进而可保存该对齐模型的相关参数,根据该训练后的对齐模型以获得初始的音文时间戳。
77.其中,该em算法的输入-训练数据集可通过提取该音频信号的梅尔频率倒谱系数(mel frequency cepstral coefficents,mfcc)特征,以及转换该音频信号对应的文本内容为hmm的状态序列获得。
78.其中,mfcc特征是一种能够准确描述声道的形状在语音短时功率谱的包络中显示出来的一种特征,即该mfcc特征能够对产生的音频信号对应的文本内容的音素(phoneme)进行准确的描述。
79.可选地,终端设备可以提取该音频信号的声学特征如mfcc特征,以及对该音频信号对应的文本内容进行转换处理,得到hmm的状态序列;终端设备可以将该声学特征以及hmm的状态序列输入到训练好的对齐模型中,得到初始的音文时间戳。
80.在一种可选的实施方式中,终端设备利用该对齐模型对音频信号和该音频信号对
应的文本内容进行处理,获得音文时间戳,可以包括:终端设备从音频信号中提取第三mfcc特征;对该音频信号对应的文本内容进行内容转换处理,得到hmm状态序列;将该第三mfcc特征和该hmm状态序列输入到该对齐模型,获得该音文时间戳。
81.可选地,终端设备对该音频信号对应的文本内容进行内容转换处理可以包括:终端设备对该音频信号对应的文本内容进行音素映射处理,得到音素序列;终端设备对该音素序列进行转换处理,得到hmm状态序列。
82.在一种可选的实施方式中,终端设备可以将该第三mfcc特征和该隐马尔可夫状态序列输入到该对齐模型,获得该音文时间戳,可以包括:利用对齐模型计算所述第三mfcc特征中每一帧对应的隐马尔可夫状态的概率值;根据所述每一帧对应的隐马尔可夫状态的概率值,得到所述第三mfcc特征对应的所述hmm状态序列;将所述hmm状态序列进行内容转换,得到音文时间戳。
83.例如,终端设备可以将该第三mfcc特征输入到对齐模型,得到该第三mfcc特征中的每一帧特征对应的hmm状态的多个概率值,通过维特比解码,确定该多个概率值中最大概率值的hmm状态;终端设备可以将该第三mfcc特征和该第三mfcc特征属于最大概率值的hmm状态一一对齐;终端设备可以将该hmm状态转换成音素,将音素映射成文本内容,得到音文时间戳。
84.s302、终端设备利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点。
85.本技术实施例中,人声与非人声之间的跳变点可以包括:音频信号中人声转非人声的跳变点,音频信号中非人声转人声的跳变点,等等。其中,人声可以是指人的声带的振动而发出的声音,非人声可以是指静音,设备噪声,录音背景噪声,歌曲背景音乐,等等。
86.在一种可选的实施方式中,该人声检测模型可以是利用第一mfcc特征和第二mfcc特征训练获得的,该第一mfcc特征可以是从人声音频中提取的,该第二mfcc特征可以是从非人声音频中提取的。
87.其中,该人声检测模型的训练过程可以参考图5,图5为本技术实施例提供的一种确定人声检测模型的示意图,由图5所示,该人声检测模型可以是通过在训练数据集上拟合人声特征的概率分布以及非人声特征的概率分布训练gmm获得的。其中,gmm也可以是深度神经网络,通过训练数据集的迭代收敛可获得人声检测模型的相关参数,进而可保存该人声检测模型的相关参数,根据该训练后的人声检测模型以确定该音频信号中人声与非人声之间的跳变点。
88.其中,该训练数据集可以根据该第一mfcc特征和该第二mfcc特征得到。
89.s303、终端设备根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳。
90.本技术实施例中,终端设备可以根据该音频信号中人声与非人声之间的跳变点对该音文时间戳进行调整,可以包括:可以根据人声转非人声的跳变点,调整该音文时间戳中人声的结束时间和/或非人声的起始时间,获得调整后的音文时间戳;也可以根据该非人声转人声的跳变点,调整该音文时间戳中非人声的结束时间和/或人声的起始时间,获得调整后的音文时间戳。
91.本技术实施例所述的信息处理方法可在人声可能混杂背景声、录音时有噪音、人
声带口音导致发音不准确等各种情况下,通过对局部边界的优化,获得更精确的音文时间戳。
92.请参阅图6,图6为本技术实施例提供的另一种信息处理方法的流程示意图,该信息处理方法包括但不限于以下步骤:
93.s601、终端设备利用对齐模型对音频信号和所述音频信号对应的文本内容进行处理,获得音文时间戳。
94.本技术实施例中,终端设备利用对齐模型对音频信号和所述音频信号对应的文本内容进行处理,获得音文时间戳的步骤可以参考上述s301中获得音文时间戳的内容,这里不再赘述。
95.s602、终端设备对所述音频信号进行划分,获得n帧音频。
96.本技术实施例中,终端设备可以对该音频信号以q为周期进行采样划分,获得n帧音频。需要说明的是,终端设备对该音频信号进行划分的方式也可以是其它方式,本技术对此不做限制。
97.例如,可以参考图7,图7为本技术实施例提供的一种音频信号的划分示意图,由图7所示,假设终端设备是对文本内容“我是谁”对应的一段音频信号进行划分,可以将该音频信号划分为四帧。其中,时刻a1到时刻b1可以被划分为第一帧,时刻b1到时刻c1可以被划分为第二帧,时刻c1到时刻d1可以被划分为第三帧,时刻d1到时刻e1可以被划分为第四帧。
98.s603、终端设备根据所述人声检测模型对所述音频信号进行检测,获得检测结果;所述检测结果包括所述n帧音频中的每一帧属于人声或非人声音频的结果。
99.本技术实施例中,终端设备可以根据该人声检测模型对该音频信号进行检测,获得检测结果,包括:针对上述n帧音频中的每帧音频,利用该人声检测模型计算该帧是人声的最大似然概率值,以及该帧是非人声的最大似然概率值;若该帧是人声的最大似然概率值大于该帧是非人声的最大似然概率值,确定该帧是人声帧;若该帧是人声的最大似然概率值小于该帧是非人声的最大似然概率值,确定该帧是非人声帧。
100.示例性地,可以参考图7,终端设备若利用该人声检测模型计算第一帧(时刻a1至时刻b1)是人声帧的最大似然概率值大于非人声帧的最大似然概率值,则确定第一帧是人声帧;若计算出第一帧是人声帧的最大似然概率值小于是非人声帧的最大似然概率值,则确定第一帧是非人声帧。需要说明的是,终端设备也可以针对音频信号中的其他帧,采用上述的方式确定其他帧是人声帧或者非人声帧,本技术对此不做限定。
101.s604、终端设备根据所述检测结果,确定所述音频信号中人声与非人声之间的跳变点,所述人声与非人声之间的跳变点包括人声转非人声的跳变点以及非人声转人声的跳变点。
102.本技术实施例中,人声转非人声的跳变点可以是音频信号中人声在前,非人声在后的时刻点;非人声转人声的跳变点可以是音频信号中非人声在前,人声在后的时刻点。
103.示例性地,可以参考图8,图8为本技术实施例提供的一种人声与非人声之间的跳变点的示意图,由图8所示,假设终端设备对该音频信号进行划分获得的n帧音频分别是:第一帧是时刻a1至时刻b1,第二帧是时刻b1到时刻c1,第三帧是时刻c1到时刻d1,第四帧为时刻d1到时刻e1,等等。
104.其中,该时刻a1到时刻b1可以是文本内容中“我”对应的音频;时刻b1至时刻c1可
以是文本内容中空白区域(即静音部分)对应的音频,因此时刻b1可以认为是初始人声转非人声的跳变点;时刻c1至时刻d1可以是文本内容中“是”对应的音频,因此时刻c1可以认为是初始非人声转人声的跳变点;时刻d1至时刻e1可以是文本内容中“谁”对应的音频。终端设备根据该人声检测模型对该音频信号进行检测,获得的检测结果,包括:第一帧与第二帧的跳变点时刻在时刻b2处,即上述人声(“我”对应的音频)转非人声(静音部分的音频)的跳变点在时刻b2处;第二帧与第三帧的跳变点时刻在时刻c2处,即上述非人声(静音部分的音频)转人声(“是”对应的音频)跳变点在时刻c2处。
105.由此,终端设备可以根据人声检测模型对音频信号的检测结果,确定该音频信号中人声与非人声之间的跳变点。
106.终端设备可以通过利用训练后的人声检测模型对音频信号中的每帧音频进行检测,确定该音频信号中人声与非人声之间的跳变点,进而可以引出s605中根据该音频信号中人声与非人声之间的跳变点对该音文时间戳进行调整,获得调整后的音文时间戳的步骤。
107.s605、终端设备根据人声转非人声的跳变点,调整所述音文时间戳中人声的结束时间和/或非人声的起始时间,得到调整后的音文时间戳;和/或,终端设备根据非人声转人声的跳变点,调整所述音文时间戳中非人声的起始时间和/或人声的结束时间,得到调整后的音文时间戳。
108.本技术实施例中,终端设备调整该音文时间戳中人声的结束时间和/或非人声的起始时间;和/或,终端设备调整该音文时间戳中非人声的起始时间和/或人声的结束时间可以包括:终端设备移动时间戳中人声的起始时间和/或结束时间点到该人声转非人声的跳变点,和/或,终端设备移动时间戳中非人声的起始时间和/或结束时间点到该非人声转人声的跳变点。
109.例如,可以参考图9,图9为本技术实施例提供的一种音文时间戳的调整示意图,由图9所示,假设终端设备对该音频信号进行划分获得的n帧音频分别是:第一帧是时刻a1至时刻b1,第二帧是时刻b1到时刻c1,第三帧是时刻c1到时刻d1,第四帧为时刻d1到时刻e1,等等。
110.其中,该时刻a1到时刻b1可以是文本内容中“我”对应的音频;时刻b1至时刻c1可以是文本内容中空白区域(即静音部分)对应的音频;时刻c1至时刻d1可以是文本内容中“是”对应的音频;时刻d1至时刻e1可以是文本内容中“谁”对应的音频。且人声(“我”对应的音频)转非人声(静音部分的音频)的跳变点在时刻b2处。终端设备可以将时刻b1调整到时刻b2处,得到调整后的音文时间戳。
111.还例如,可以参考图图10,图10为本技术实施例提供的另一种音文时间戳的调整示意图,由图10所示,假设终端设备对该音频信号进行划分获得的n帧音频分别是:第一帧是时刻a1至时刻b1,第二帧是时刻b1到时刻c1,第三帧是时刻c1到时刻d1,第四帧为时刻d1到时刻e1,等等。
112.其中,该时刻a1到时刻b1可以是文本内容中“我”对应的音频;时刻b1至时刻c1可以是文本内容中空白区域(即静音部分)对应的音频;时刻c1至时刻d1可以是文本内容中“是”对应的音频;时刻d1至时刻e1可以是文本内容中“谁”对应的音频。且非人声(静音部分的音频)转人声(“是”对应的音频)的跳变点在时刻c2处。终端设备可以将时刻c1调整到时
刻c2处,得到调整后的音文时间戳。
113.本技术通过人声检测模型确定该音频信号中人声与非人声之间的跳变点,并判断该人声和非人声之间的跳变点是否准确,如果有误,则对音文时间戳进行调整,从而提升音文时间戳的准确性。
114.基于上述的方法实施例,本技术实施例还提供了一种信息处理装置的结构示意图。参见图11,为本技术实施例提供的一种信息处理装置的结构示意图。图11所示的信息处理装置1000可运行如下单元:处理单元1002,用于对音频信号和对应的文本内容进行处理;
115.调整单元1003,用于对音文时间戳进行调整。
116.在一种可选的实施方式中,该处理单元1002,用于对音频信号和对应的文本内容进行处理,获得音文时间戳,该音文时间戳包括该音频信号在该文本内容中对应的每个字的起始时间和结束时间。
117.在一种可选的实施方式中,该处理单元1002,还用于利用人声检测模型确定该音频信号中人声与非人声之间的跳变点。
118.在一种可选的实施方式中,该调整单元1003,用于根据该音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳。
119.在一种可选的实施方式中,该处理单元1002,用于利用人声检测模型确定该音频信号中人声与非人声之间的跳变点时,具体用于:确定人声检测模型是利用第一梅尔频率倒谱系数mfcc特征和第二mfcc特征训练获得的,所述第一mfcc特征是从人声音频中提取的,所述第二mfcc是从非人声音频中提取的。
120.在一种可选的实施方式中,该处理单元1002,在利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点时,具体用于:
121.对所述音频信号进行划分,获得n帧音频;
122.根据所述人声检测模型对所述音频信号进行检测,获得检测结果;所述检测结果包括所述n帧音频中的每一帧属于人声或非人声音频的结果;
123.根据所述检测结果,确定所述音频信号中人声与非人声之间的跳变点,所述人声与非人声之间的跳变点包括人声转非人声的跳变点以及非人声转人声的跳变点。
124.在一种可选的实施方式中,该处理单元1002,在根据所述人声检测模型对所述音频信号进行检测,获得检测结果时,具体用于:针对所述n帧音频中的每帧音频,利用所述人声检测模型计算该帧是人声的最大似然概率值,以及该帧是非人声的最大似然概率值;
125.若该帧是人声的最大似然概率值大于该帧是非人声的最大似然概率值时,确定该帧是人声帧;
126.若该帧是人声的最大似然概率值小于该帧是非人声的最大似然概率值时,确定该帧是非人声帧。
127.在一种可选的实施方式中,该调整单元1003,在根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳时,具体用于:根据人声转非人声的跳变点,调整所述音文时间戳中所述人声的结束时间和/或所述非人声的起始时间;
128.根据非人声转人声的跳变点,调整所述音文时间戳中所述非人声的结束时间和/或所述人声的起始时间。
129.在一种可选的实施方式中,该处理单元1002,在用于利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳时,具体用于:从音频信号中提取第三mfcc特征;
130.对所述音频信号对应的文本内容进行音素映射,得到所述文本内容对应的音素序列,根据所述音素序列得到隐马尔可夫状态序列;
131.将所述第三mfcc特征和所述隐马尔可夫状态序列输入到所述对齐模型,获得所述音文时间戳。
132.在一种可选的实施方式中,该处理单元1002,在将所述第三mfcc特征和所述隐马尔可夫状态序列输入到所述对齐模型,获得所述音文时间戳时,具体用于:利用所述对齐模型识别出所述第三mfcc特征中的每一帧对应的隐马尔可夫状态的概率值,根据所述每一帧对应的隐马尔可夫状态的概率值获得所述音文时间戳。
133.根据本技术的一个实施例,图3以及图6所示的信息处理方法所涉及各个步骤可以是由图11所示的信息处理装置中的各个单元来执行的。例如,图3所示的信息处理方法中步骤s301可由图11所示的信息处理装置中的处理单元1002来执行,步骤s302可由图11所示的信息处理装置中的调整单元1003来执行;图6所示的信息处理方法中步骤s601-s604可由图11所示的信息处理装置中的处理单元1002来执行,步骤s605、s606可由图11所示的信息处理装置中的调整单元1003来执行。
134.根据本技术的实施例,图11所示的信息处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本技术的其它实施例中,基于信息处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
135.根据本技术的实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3以及图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图11中所示的信息处理装置,以及来实现本技术实施例信息处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
136.本技术实施例中,处理单元1002对输入的音频信号和对应的文本内容进行处理,得到音文时间戳;调整单元1003对该音文时间戳进行调整处理,采用上述的方法可以在全局最优的结果上对每个字的时间戳进行微调,获得更精确的歌词时间戳。
137.基于上述方法以及装置实施例,本技术实施例提供了一种信息处理设备。参见图12,为本技术实施例提供的一种信息处理设备的结构示意图。图12所示的信息处理设备1100至少包括处理器1101、输入接口1102、输出接口1103、计算机存储介质1104以及存储器1105。其中,处理器1101、输入接口1102、输出接口1103、计算机存储介质1104以及存储器1105可通过总线或其他方式连接。
138.计算机存储介质1104可以存储在信息处理设备1100的存储器1105中,所述计算机
存储介质1104用于存储计算机程序,所述计算机程序包括程序指令,所述处理器1101用于执行所述计算机存储介质1104存储的程序指令。处理器1101(或称cpu(central processing unit,中央处理器))是信息处理设备1100的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
139.本技术实施例还提供了一种计算机存储介质(memory),所述计算机存储介质是信息处理设备1100中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括信息处理设备1100中的内置存储介质,当然也可以包括信息处理设备1100支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了信息处理设备1100的操作系统。并且,在该存储空间中还存放了适于被处理器1101加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
140.在一个实施例中,所述计算机存储介质可由处理器1101加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图3以及图6所示的信息处理方法的相应步骤。具体实现中,计算机存储介质中的一条或多条指令由处理器1101加载并执行如下步骤:
141.利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳,所述音文时间戳包括所述音频信号在所述文本内容中对应的每个字的起始时间和结束时间;
142.利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点;
143.根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳。
144.在一种可能的实现方式中,所述处理器1101利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳,所述音文时间戳包括所述音频信号在所述文本内容中对应的每个字的起始时间和结束时间;
145.利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点;
146.根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳。
147.在一种可能的实现方式中,处理器1101利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点时,包括:
148.人声检测模型是利用第一梅尔频率倒谱系数mfcc特征和第二mfcc特征训练获得的,所述第一mfcc特征是从人声音频中提取的,所述第二mfcc是从非人声音频中提取的。
149.在一种可能的实现方式中,所述处理器1101利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点,包括:
150.对所述音频信号进行划分,获得n帧音频;
151.根据所述人声检测模型对所述音频信号进行检测,获得检测结果;所述检测结果包括所述n帧音频中的每一帧属于人声或非人声音频的结果;
152.根据所述检测结果,确定所述音频信号中人声与非人声之间的跳变点,所述人声与非人声之间的跳变点包括人声转非人声的跳变点以及非人声转人声的跳变点。
153.在一种可能的实现方式中,所述处理器1101根据所述人声检测模型对所述音频信号进行检测,获得检测结果,包括:
154.针对所述n帧音频中的每帧音频,利用所述人声检测模型计算该帧是人声的最大似然概率值,以及该帧是非人声的最大似然概率值;
155.若该帧是人声的最大似然概率值大于该帧是非人声的最大似然概率值时,确定该帧是人声帧;
156.若该帧是人声的最大似然概率值小于该帧是非人声的最大似然概率值时,确定该帧是非人声帧。
157.在一种可能的实现方式中,所述处理器1101根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳,包括:
158.根据人声转非人声的跳变点,调整所述音文时间戳中所述人声的结束时间和/或所述非人声的起始时间;
159.根据非人声转人声的跳变点,调整所述音文时间戳中所述非人声的结束时间和/或所述人声的起始时间。
160.在一种可能的实现方式中,所述处理器1101利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳,包括:
161.从音频信号中提取第三mfcc特征;
162.对所述音频信号对应的文本内容进行音素映射,得到所述文本内容对应的音素序列,根据所述音素序列得到隐马尔可夫状态序列;
163.将所述第三mfcc特征和所述隐马尔可夫状态序列输入到所述对齐模型,获得所述音文时间戳。
164.在一种可能的实现方式中,所述处理器1101利用第三mfcc特征和所述隐马尔可夫状态序列输入到所述对齐模型,获得所述音文时间戳,包括:
165.利用所述对齐模型识别出所述第三mfcc特征中的每一帧对应的隐马尔可夫状态的概率值,根据所述每一帧对应的隐马尔可夫状态的概率值获得所述音文时间戳。
166.本技术实施中,处理器1101利用对齐模型对音频信号和对应的文本内容进行处理,获得音文时间戳,并利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点;再根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳。采用上述信息处理的方式可以对该音文时间戳进行调整,获得调整后的音文时间戳,进而得到更精确的音文时间戳。
167.本技术实施例还提供了一种计算机产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。处理器1101从计算机可读存储介质中读取该计算机指令,处理器1101执行该计算机指令,使得信息处理设备1100执行图3以及图6所示的信息处理方法。
168.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可能可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
169.在本技术所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献