语音标注系统、方法、终端及存储介质与流程

2022-06-05 04:17:45 来源：中国专利 TAG：

1.本发明涉及计算机应用技术领域，尤其涉及语音标注系统、方法、终端及存储介质。

背景技术：

2.人工智能是机器产生的智能，在计算机领域是指根据对环境的感知，做出合理的行动并获得最大收益的计算机程序。要想实现人工智能，就需要把人类理解和判断事物的能力教给计算机，让其拥有类似人类的识别能力。数据标注可视为模仿人类学习过程中的经验学习，相当于人类从书本中获取已知知识的认知行为。数据标注为人工智能企业提供了大量带标签的数据，供机器训练和学习，从而保证算法模型的有效性。
3.目前常用的模型训练上线流程如图1所示：先沟通需求，再获取样本，对样本进行标注，基于标注过的样本进行模型训练，再调整样本，训练模型至准确率达标，交付应用且交互研发，最后将模型上线使用。
4.其中的样本标注即数据标注，是对未处理的初级数据进行加工处理，并转换为机器可识别信息的过程；原始数据一般通过数据采集获得，随后的数据标注相当于对数据进行加工，然后输送到人工智能算法和模型里进行调用。数据标注产业主要是根据用户或企业的需求，对数据进行不同方式的标注，从而为人工智能算法提供大量的训练数据以供机器学习使用。如今在技术的推动下，数据标注平台已经替代传统人工成为数据标注的主力。数据标注是帮助机器学习认知数据特征的重要过程。数据标注平台针对数据标注过程，实现包括数据提取、标注任务分配、标注人员管理等一系列功能，不断为模型训练提供优质、可靠的标注数据。
5.目前很多语音识别产品升级，需要进行大量的模型训练来提高语音识别的性能，例如哈啰asr语音识别系统。而模型训练要求前期对各类语音进行大量标注并输入到训练系统中，由训练系统对标注数据进行加工处理并经过一系列算法调优后，输出业务可用的asr语音识别系统。作为模型训练的先导环节，语音标注具有至关重要的意义。
6.当前业界较为成熟的解决方案如图2所示，具体包括如下各个阶段：
7.阶段一：方案设计阶段。在该阶段中，根据产品需求选择对应的数据，并将数据组合成各种场景。例如，哈啰电动车vvsmart的asr语音识别需求，语音数据类型需要包含：是否含唤醒词，男女声区分，普通话&方言区分，远近距离区分，是否含噪声等等。研发人员需要根据业务场景灵活组合各类数据类型。
8.阶段二：标注实施阶段。在该阶段中，对挑选出来的语音，通过任务分配的方式，安排人工进行语音数据的清洗、评估、提取、标注等操作，而后再通过人工多级审核的方式进行数据质检，确保标注结果正确性。
9.阶段三：数据验收阶段。将标注完成后的语音数据，提交给模型训练人员，验收后供模型训练使用。
10.然而，上述的解决方案仍存在如下各种问题：
11.首先是数据体量问题：对于机器学习和深度学习等算法来说，数据样本量越大，分类越丰富，复杂度越高，越贴合产品业务场景，对算法模型的训练效果就越好。但单纯通过人工搜集的语音样本，极难满足模型训练样本的要求。
12.其次是流程设计问题：上述语音标注流程中，用户选取数据场景后，需要等待语音标注完成才能进行模型训练。等待时长＝待标注语音数量*单条语音标注耗时。这势必会拖慢算法模型训练节奏，影响产品上线周期。同时，未经标注的语音，研发人员根据需求场景进行选取时，往往会出现无从下手的局面。需要花费很多的时间在语音试听，筛选的工作上。
13.最后是标注成本问题：单纯通过人工方式进行标注，存在标注效率低、交付质量参差不齐等情况。其中，标注时长＝(语音播放时长标注录入时长)*人工操作熟练度。虽然可以通过标注员培训的方式来提高人工操作熟练度，但熟练度只能无限逼近于1。最短的标注时长，取决于语音播放长度和标注数据编辑的时长。而且最终人工标注总时长，会随着待标注语音数据的增长而无限增长。与此同时，为了保障标注质量，需要设置不同的角色，例如标注员、审核员、管理员等，各个角色之间相互制约，层层审核，这就又进一步增加了企业的人力成本。
14.因此基于上述种种问题，本领域亟需一种优于业界目前采用的解决方案，既能够解决上述技术问题，又能结合实际业务情况，助力企业发展进行高效、低成本、高质量的标注方案。

技术实现要素：

15.有鉴于现有技术的上述缺陷，本发明提供语音标注系统、方法、终端及存储介质，用于解决现有的语音标注技术低效、成本高、质量低等技术问题。
16.为实现上述目的，本发明提供了一种语音标注系统，包括：数据安全模块，用于执行系统中各模块的数据安全处理；数据搜集模块，用于采集原始语音数据，并对所述原始语音数据进行预处理得到预处理语音数据；标注实施模块，用于经所述数据安全模块获取所述预处理语音数据，并对其进行标注后生成语音标注数据；方案设计模块，用于响应于用户操作，经所述数据安全模块获取所需的语音标注数据以作为模型训练数据。
17.在本发明的较佳实施方式中，所述数据安全模块执行系统中各模块的数据安全处理包括：对所述数据搜集模块、标注实施模块、方案设计模块进行数据治理、数据分隔和数据安全传输。
18.在本发明的另一较佳实施方式中，所述数据搜集模块对所述原始语音数据进行预处理，其中的预处理方式包括如下：
19.首先进行数据采集预处理，其包括：自动采集线上用户语音数据，和/或由人工提交线下用户语音数据；其次进行数据转换预处理，其包括：对采集到的原始语音数据进行文件格式转换和数据内容整理，以及制作语音属性信息集合并创建唯一语音id，以根据所述唯一语音id将原始语音数据与语音属性信息相关联；最后进行数据加载，其包括：将原始语音数据与语音属性信息经安全处理后保存至存储介质中；其中，所述原始语音数据保存至oss对象存储服务中，所述语音属性信息存储至数据库中。
20.在本发明的另一较佳实施方式中，所述标注实施模块包括：ai辅助子模块、标注服
务子模块、质检服务子模块；所述ai辅助子模块又包括辅助标注模块和辅助质检模块；其中：所述ai辅助子模块用于从存储介质中获取原始语音数据，并通过所述辅助标注模块对所述原始语音数据进行语音识别和预标注处理生成语音预标注数据；所述标注服务子模块用于从所述ai辅助子模块获取所述语音预标注数据，对其进行人工核对标注得到人工更正数据，并将所述人工更正数据保存至所述存储介质中；所述ai辅助子模块还从所述存储介质中获取纯人工标注数据并通过所述辅助质检模块对其进行辅助质检，并将辅助质检后的质检问题数据发送至所述质检服务子模块，以进行人工修复，并将修复数据存至所述存储介质中。
21.在本发明的另一较佳实施方式中，所述ai辅助子模块对原始语音数据进行语音识别处理的方式包括：利用短时傅里叶变换算法和理想二值掩膜算法进行语音分离，生成降噪后的语音幅度谱。
22.在本发明的另一较佳实施方式中，所述ai辅助子模块对短时傅里叶变换算法和理想二值掩膜算法做如下优化：根据语音交互场景类型预设场景噪音，将所述场景噪音与纯净的目标人声混合生成训练语音集合；根据所述语音交互场景类型，采用基于指数时间函数的窗函数计算短时傅里叶变换算法中的窗口长度；由理想比值掩蔽算法替代所述理想二值掩膜算法，以使算法结果从二值选择优化为多个连续值选择；搜集用户主流场景下的噪音，与纯净的目标人声混合生成有预期结果的训练语音集合，以进行有监督训练。
23.在本发明的另一较佳实施方式中，所述ai辅助子模块从所述存储介质中获取纯人工标注数据并通过所述辅助质检模块对其进行辅助质检的方式包括：利用词错误率算法和句错误率算法进行语音质量质检。
24.为实现上述目的，本发明提供了一种语音标注方法，包括：采集原始语音数据并对所述原始语音数据进行预处理得到预处理语音数据；对所述预处理语音数据进行标注后生成语音标注数据；响应于用户操作，从所述语音标注数据中获取所需的语音标注数据，以作为模型训练数据。
25.为实现上述目的，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述语音标注方法。
26.为实现上述目的，本发明提供了一种语音标注终端，包括处理器和存储器件；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述语音标注方法。
27.本发明提供的语音标注系统、方法、终端及存储介质具有以下技术效果：
28.1、本发明优化平台标注流程，解耦数据采集、数据标注及方案设计三个阶段，让各个阶段变成可独立运转的系统模块，不再相互等待，模块之间通过语音数据作为联系的载体，从而实现研发人员可随时从语音库中获取最新、分类最全面、最贴近业务场景的标注语音数据。
29.2、本发明可依托庞大的用户基数，在脱敏、数据安全治理和用户许可下，定时自动获取用户线上语音数据作为数据采集源，由此可获得更为庞大、复杂度更高、更贴合业务场景的标注数据，能够训练出效果更好的模型。
30.3、本发明引入人工标注自研ai算法辅助标注并存的模式，能够切实有效地提高标注效率和质量，降低标注成本。
31.以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。
附图说明
32.图1是现有技术中模型训练上线流程的示意图。
33.图2是现有技术中语音标注流程的示意图。
34.图3是本发明实施例中的一种语音标注系统的结构示意图。
35.图4是本发明实施例中的一种语音标注系统的处理流程示意图。
36.图5是本发明实施例中的数据搜集模块的执行流程示意图。
37.图6是本发明实施例中的标注实施模块的结构示意图。
38.图7是本发明实施例中的语音幅度谱图；从左上图到右下图分别表示纯净语音的语音幅度谱、带噪音的语音幅度谱、采用理想二值掩膜算法得出的语音幅度谱、降噪后的语音幅度谱。
39.图8是本发明实施例中的语音标注系统的执行流程示意图。
40.图9是本发明实施例中的一种语音标注方法的流程示意图。
41.图10是本发明实施例中的一种语音标注终端的结构示意图。
具体实施方式
42.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
43.需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
44.为了阐释的目的而描述了本发明的一些示例性实施例，需要理解的是，本发明可通过附图中没有具体示出的其他方式来实现。
45.本发明提供一种基于人工智能的语音标注方案，其显著特点包括：
46.首先，在人工标注前先由ai辅助标注服务对数据进行预处理，然后由标注人员在此基础上做一些校正。以语音标注为例，标注时长＝(语音播放时长标注录入时长)*人工操作熟练度，而ai辅助标注可以缩短标注录入时长及提高人工操作熟练度，从而有效提高标注效率。
47.其次，在数据质检环节，可以通过ai辅助质检能力，对纯由人工进行语音标注的结果进行质量检测，筛选出不满足质检规则的语音，由审核员进行审核处理。这样可以避免传统模式下随机抽检机制漫无目的的特点，提高质检准确性，提高效率并降低质检成本。
48.为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例
仅用以解释本发明，并不用于限定发明。
49.如图3所示，展示了本发明实施例中的一种语音标注系统的结构示意图。本实施例中的语音标注系统300包括：数据搜集模块301、标注实施模块302、方案设计模块303及数据安全模块304。
50.所述数据搜集模块301用于采集原始语音数据，并对所述原始语音数据进行预处理得到预处理语音数据。所述标注实施模块302用于经所述数据安全模块获取所述预处理语音数据，并对其进行标注后生成语音标注数据。所述方案设计模块303用于响应于用户操作，经所述数据安全模块获取所需的语音标注数据以作为模型训练数据。所述数据安全模块304用于保护所述数据搜集模块301、标注实施模块302、方案设计模块303的数据安全。
51.为便于本领域技术人员理解，下文将在图3的基础上，结合图4展示的语音标注系统的处理流程图，对本实施例的语音标注系统做进一步的解释说明。
52.所述数据安全模块304与数据搜集模块301、标注实施模块302、方案设计模块303都存在关联，上述三个模块所有的数据存储、分隔、提取和传输等操作都需要经过数据安全模块304的处理。与此同时，数据安全模块304也会对其它三个模块的数据使用过程进行识别、度量、监控、预警等一系列管理活动。
53.在一些可实现的示例中，所述数据安全模块304用于执行系统中各模块的数据安全处理，主要是采用数据治理、数据分隔和数据安全传输等技术来保障数据的安全性和隐私不被泄露。其中，数据治理是指对数据采集、数据清洗、数据标注到数据交付生命周期的每个阶段进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平确保数据在一个可控环境下使用。数据分隔是指将涉密的待标注数据拆分成多个部分，分别指派给没有关联的不同团队，并且用数据接口的方式来传输数据，避免客户的数据被直接打包并互相传送，以便尽可能地提高安全性。数据安全传输是指待标注的数据在分发和交付时都会涉及到数据传输，为了解决数据传输过程中存在的被盗、暴露和复制等安全性问题，就需要设计和开发出一个安全的标注数据传输框架，该框架需要提供数据加密、数据压缩和自动数据发送等功能。
54.所述数据搜集模块301的主要功能是采集原始语音数据后将其进行预处理并保存至存储介质中，其执行流程如图5所示：
55.首先是数据采集(extract)，可通过配置定时任务的方式，按固定周期自动将线上用户语音数据上传至数据搜集服务中；以及/或者，由人工主动提交推送录制好的语音数据到数据搜集服务中。其中，由人工主动提交推送录制好的语音数据支持各种自定义录制的语音内容和研发人员实际路测过程中搜集产生的测试语音数据。
56.其次是数据转换(transform)，是指对原始语音数据进行文件格式转换、无效内容丢弃、重复数据处理、缺失值处理、根据分类属性进行分布均衡性调整等处理。与此同时，还可根据采集到的语音数据制作语音相关的属性信息集合，并创建唯一语音id，以通过所述唯一语音id将语音数据和语音属性信息相关联。
57.最后是数据加载(load)，是指将语音数据和语音属性信息经过安全处理后保存至存储介质中，其中的语音数据保存在oss对象存储服务中，语音属性保存在mysql数据库中，它们之间通过唯一的语音id进行关联。
58.所述标注实施模块302的主要功能是通过人工标注自研ai算法辅助标注并存的
time fourier transform，stft)和理想二值掩膜(ideal binary mask，ibm)算法来进行语音分离，具体过程如下：
67.步骤1：通过时频变换将长时间的原始音频信号分成若干个较短的等时长信号。具体实现方式例如：先利用短时傅里叶变换(stft)对原始音频信号进行时频变换；一个函数先乘上仅在一段时间不为零的窗函数，再进行一维的傅里叶变换，再将这个窗函数沿时间轴移动计算，得到一系列的傅里叶变换结果，即原始信号的幅度谱，横轴为时间，纵轴为频率。其中，短时傅里叶变换公式为：
[0068][0069]
其中，χ(τ)是截取函数也称为窗函数，窗函数的特点会于下文后续优化环节中做进一步的详细说明。
[0070]
语音数据在经过短时傅里叶变换产生幅度谱后，在频域坐标系形成条纹状波形的幅度谱，即语音的谐波结构，幅度谱的颜色越深代表能量越大(图中未能显示幅度谱的颜色)。图7中左上图是纯净语音的幅度谱，图7右上图是带噪音的语音幅度谱，对比左上图和右上图可见，带噪音的语音幅度谱中的条纹更加杂乱，这代表语音谐波结构被破坏。
[0071]
步骤2：采用理想二值掩膜算法进行分析计算：
[0072][0073]
其中，s(t,f)是目标语音能量值，n(t,f)是混合噪声能量值，θ是信号噪声比snr(t,f)，lc作为其阈值，一般取0，snr计算公式为：
[0074][0075]
图7中左下图采用理想二值掩膜算法得出的幅度谱ibm(t,f)，通过将其与带噪音的语音幅度谱y(t,f)相乘，得到降噪后的语音幅度谱，见图7右下图。
[0076][0077]
其中，代表哈达玛乘积(hadamard product)。
[0078]
从图7中的左上图、右上图、左下图、右下图可见，降噪后的语音幅度谱比带噪音的语音幅度谱更干净，但与纯净语音幅度谱相比，存在部分过压现象，导致听觉效果上，噪音消失，但语音有些失真。
[0079]
进一步的，本发明为了解决语音失真问题，提高语音识别的效果，提出了如下改进方案，具体步骤如下：
[0080]
步骤1：根据语音交互场景类型预设场景噪音，将所述场景噪音与纯净的目标人声混合生成训练语音集合。其中，语音交互场景类型包括但不限于：交通出行场景、工厂作业场景、室内交流场景、户外自然噪音场景等等。通过搜集以上主流场景下的噪声，与纯净的目标人声混合生成有预期结果的训练语音集合，使得模型训练获得匹配实际使用场景的模型参数成为了可能。
[0081]
所述交通出行场景适用于各类交通出行工具，例如火车、飞机、汽车、电动车或自行车等，以哈啰出行app进行语音交互的场景为例，噪声主要集中在街道、骑行过程中，车站
或商场等，这些场景下的噪声类型比较单一，即街道上的车辆鸣笛声、骑行过程中的风声、车站或商场的人声等等。所述工厂作业场景，例如工厂生产、建筑施工现场等场景，噪声来源主要集中在机械作业、机器轰鸣、人声等。所述室内交流场景的噪声主要集中于电脑操作噪声、打印机噪声、人声等。所述户外自然噪声场景，主要是指自然噪声较大的场景，例如雷电声、风声、雨声、冰雹声等等。
[0082]
步骤2：根据所述语音交互场景类型，采用基于指数时间函数的窗函数计算短时傅里叶变换算法中的窗口长度。
[0083]
具体而言，短时傅里叶变换算法(short-term fourier transform，stft)的精髓是窗函数的设定，窗口长度是语音处理中极其重要的参数，它直接影响到频率分辨率、时间分辨率和重建精度。若窗口太窄，每个窗内信号太短，会导致频率分辨不精准，频率分辨率差；而若窗口太宽，频率分辨率高，但是时域上不够精细，时间分辨率低。因此，选择匹配特定场景下用户语音特点的窗口大小，对语音识别效果非常重要。但是，由于现有短时傅里叶变换算法的窗口长度都由人工设定，这就可能导致窗口过窄或过宽而无法得到最优模型。与此同时，从stft公式中可知，窗口长度是一个离散的整数，无法进行可导窗长的优化和连续窗长的优化，直接优化窗口大小，自适应能力差，普适性较差。
[0084]
有鉴于此，本示例对stft公式中窗函数χ(τ)的实现进行了改进，采用基于指数时间函数的窗函数计算短时傅里叶变换算法中的窗口长度，具体公式如下：
[0085][0086]
其中rm(n)是连续且可推导的，因此可以作为模型训练的参数。
[0087]
步骤3：优化ibm公式，将θ由snr(t,f)替换成irm(t,f)，公式如下：
[0088][0089]
其中，β为可调节尺度因子，可作为模型训练参数。同时由于irm是分布在0到1的连续值，因此ibm结果分布由0和1转换为0-1之间的连续值，对目标语音的刻画更加准确，可以有效提升语音的质量和可懂度。同时lc也可以作为模型训练参数，使得我们模型调优的选择和手段更加丰富。
[0090]
需说明的是，语音分离的目标是从干扰中分离出主说话人的声音，而这些干扰可能是噪声信号、其他人说话或是说话人自己声音的反射波，若不做语音分离而直接进行语音识别会影响到识别的准确率，因此在语音识别的前端要加上语音分离技术。
[0091]
其中，在语音分离训练目标的设置中，训练目标包括基于mask的方法，较为常用的就是理想二值掩膜算法(ibm,ideal binary mask)和理想比值掩膜算法(irm,ideal ratio mask)，两种算法都是对每个时频单元进行计算，但不同的是，ibm采用的是“非零即一”的二值取值法，而irm会计算语音信号和噪音信号之间的能量比，得到介于0到1之间的数，然后据此改变时频单元的能量大小，可进一步提高分离后语音的质量和可懂度。
[0092]
步骤4：搜集哈啰用户主流场景下的噪音，与纯净的目标人声混合生成有预期结果的训练语音集合。在有监督的训练过程中，ibm分离目标语音的预测语音流，通过将预测语音流和预设的纯净语音进行比对，进行有监督的训练，使得比对结果收敛，从而得到收敛时的窗口长度、lc值、β值的组合，作为最匹配哈啰用户使用场景的语音模型参数组合。保障ai
辅助系统-语音识别服务的效果。
[0093]
智能质检服务利用语音标注质量评估算法进行语音质量质检，即采用词错误率算法和句错误率算法作为质检参照体系。
[0094]
所述词错误率算法是指在保证识别出的词序列和正确的词序列之间保持完全一致，需要进行某些词的替换、删除或者插入操作，其计算公式如下：
[0095]
词错误率＝(r d i)/a＝(r d i)/(r d c)；
[0096]
其中，r(replay)是指替换的字数，d(delete)是指删除的字数，i(insert)是指插入的字数，c(correct)是指正确的字数，a(all)是指包含替换字数、删除字数和正确的字数总和。词错误率的数值越低，代表标注结果越好；反之则表示标注的效果越差。
[0097]
所述句错误率算法是指一种识别句子格式错误的算法，例如音频句子中出现一个词识别错误，那么这个音频句子会被定义为识别错误，其计算公式如下：
[0098]
句错误率＝ens/tns；
[0099]
其中，ens(error number of sentence)是句子识别错误的数量；tns(total number of sentence)是句子总数。句错误率的数值越高，代表语音标注结果的质量越差，反之则表示标注结果的质量越好。
[0100]
进一步地，智能质检服务可基于上述词错误率算法和句错误率算法进行自动识别，再配合som(self-organizing map)的矢量量化、数据融合、快速聚类的能力和svm的样本统计学习泛化的能力，进行概率分布自动识别，智能判定人工标注结果，避免了人工抽检的盲目性，大大提高了质检效率。
[0101]
因此总结来说，标注实施模块302的实施流程主要包括如下：
[0102]
1)从存储介质中获取原始语音数据，经ai辅助系统的语音识别服务处理后生成语音标注数据。
[0103]
2)对所述语音标注数据进行标注内容的核对更新，该步骤可由人工完成。
[0104]
3)将核对更新后的语音标注数据再次保存到存储介质中。
[0105]
4)ai辅助系统的智能质检服务根据配置的工作周期和抽检方式，定期从存储介质中抽取未经质检的语音标注数据，通过语音识别服务和质检规则进行质检，并筛选出质检结果为不合格的语音标注数据。
[0106]
5)筛选出来的语音标注数据，根据质检流程进行人工质量检查。
[0107]
6)人工质检修复错误的标注数据后，将最终结果保存到存储介质中，供后续研发人员方案设计使用。
[0108]
方案设计模块303提供前端界面用于展示标注后的语音数据，供根据需求场景选择所需的模型训练数据。换言之，方案设计模块303的主要功能是为研发人员提供一套友好的前端界面交互体验，让研发人员能够在平台上，轻松选择所需的语音数据，快速地生成模型训练数据。
[0109]
在一些示例中，所述方案设计模块303响应于用户操作，在海量的语音数据库中根据自由组合筛选条件搜索到对应的语音数据。进一步地，方案设计模块303还提供相似语音推荐，帮助操作者在海量数据中快速找到满足要求的数据。
[0110]
在一些示例中，所述方案设计模块303展示语音属性信息，即在界面设计上，能够让操作者一目了然地了解所选语音的属性信息，并能随时试听，无需繁琐的操作或频繁的
跳转翻页等。
[0111]
总结来说，方案设计模块303提供了人性化的交互流程，整个方案的设计流程遵循如下原则：梳理主要流程，将功能划分出主次；取舍功能操作，突出主要操作流程，弱化次级功能；层级不能太多，三级以内合适，四五级的层级界面会让用户找不到重点；尽量简化用户的操作逻辑，可以通过后台逻辑实现帮助用户操作智能化，例如联动性操作；在长进程的流程操作中，尽量不要轻易打断用户进程让其思考；在功能设计中不要过多的限制用户，例如警告性询问性的弹窗避免出现。
[0112]
为便于本领域技术人员更好地理解本发明的技术方案，下文将结合图8所展示的数据流转过程，来对本发明提供的语音标注系统做归总性的解释。
[0113]
本发明的语音标注系统的四大模块：数据安全模块、数据搜集模块、标注实施模块、方案设计模块，是通过语音数据作为关联载体而相互独立运作的模块系统。例如，数据搜集模块会7
×
24小时不间断地获取原始语音数据，进行预处理后经数据安全模块将数据保存到存储介质中。
[0114]
标注实施模块按照配置的工作流程，经数据安全模块，将未经标注的语音数据从存储介质中取出，进行数据标注及质量检查处理后，将最终标注后的语音数据，经数据安全模块将数据保存到存储介质中。
[0115]
方案设计模块则根据需求，响应于研发人员的操作，经数据安全模块从存储介质中筛选出操作所需的标注后语音，组成各种模型训练场景，以供进行模型训练。
[0116]
因此，通过这种语音数据作为关联载体，相互独立运作的模式，解决了相互依赖，相互等待的问题，极大地提高了协作效率。
[0117]
如图9所示，展示了本发明实施例中的一种语音标注方法的流程示意图。所述语音标注方法主要包括如下各步骤：
[0118]
步骤s91：采集原始语音数据并对所述原始语音数据进行预处理后进行数据安全存储。
[0119]
步骤s92：对所述原始语音数据进行标注后生成语音标注数据。
[0120]
步骤s93：响应于用户操作，从所述语音标注数据中撷取所需的语音标注数据，以作为模型训练数据。
[0121]
需说明的是，本实施例中的一种语音标注方法，其实施过程及原理与上文实施例中的语音标注系统相类似，故不再赘述。
[0122]
另外，本实施例中的一种语音标注方法可应用于控制器，例如arm(advanced risc machines)控制器、fpga(field programmable gate array)控制器、soc(system on chip)控制器、dsp(digital signal processing)控制器、或者mcu(micorcontroller unit)控制器等；也可应用于台式电脑、笔记本电脑、平板电脑、智能手机、智能手环、智能手表、智能头盔等个人电脑；还可应用于服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成。
[0123]
如图10所示，展示了本发明实施例中的一种语音标注终端的结构示意图。本实例提供的语音标注终端，包括：处理器1001、存储器1002、通信器1003；存储器1002通过系统总线与处理器1001和通信器1003连接并完成相互间的通信，存储器1002用于存储计算机程序，通信器1003用于和其他设备进行通信，处理器1001用于运行计算机程序，使电子终端执
行如上语音标注方法的各个步骤。
[0124]
上述提到的系统总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory，简称ram)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
[0125]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0126]
上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：通过使用互连语音验证系统实现互操作性的系统和方法与流程

语音标注系统、方法、终端及存储介质与流程

相关文献

最热文献