标注数据的生成方法、装置、电子设备存储介质及产品与流程

2022-08-21 19:59:23 来源：中国专利 TAG：

技术特征：
1.一种标注数据的生成方法，包括：获取与目标多媒体文件对应的至少一个音频片段以及至少一个字幕片段；根据各所述音频片段和各所述字幕片段的起止时间，获取与各所述音频片段分别对应的组合字幕片段；将各所述音频片段与各所述音频片段的组合字幕片段进行强制对齐，确定各所述组合字幕片段中每个字符的起止时间；按照各所述字符的起止时间，在各所述音频片段中截取与各所述字符匹配的字符音频，并分别将各所述字符与匹配的字符音频进行组合得到标注数据。2.根据权利要求1所述的方法，其中，在获取至少一个字幕片段之后，还包括：依次比对各相邻字幕片段的文本内容是否相同；若第一字幕片段中的文本内容与第二字幕片段中的文本内容相同，则将所述第一字幕片段与所述第二字幕片段合并为同一字幕片段。3.根据权利要求1所述的方法，其中，所述根据各所述音频片段和各所述字幕片段的起止时间，获取与各所述音频片段分别对应的组合字幕片段，包括：根据各所述音频片段的起止时间，从各所述字幕片段中分别得到与各所述音频片段的起止时间相匹配的至少一个参考字幕片段；按照设定起止时间顺序将隶属于同一音频片段的各所述参考字幕片段进行组合，得到与各所述音频片段分别对应的组合字幕片段。4.根据权利要求1所述的方法，其中，所述将各所述音频片段与各所述音频片段的组合字幕片段进行强制对齐，确定各所述组合字幕片段中每个字符的起止时间，包括：根据各所述音频片段的起止时间，以及各所述组合字幕的起止时间，将各所述音频片段与各所述组合字幕片段分别进行对齐，得到各所述组合字幕片段中每个字符的起止时间。5.根据权利要求1所述的方法，其中，所述将各所述音频片段与各所述音频片段的组合字幕片段进行强制对齐，确定各所述组合字幕片段中每个字符的起止时间，包括：将各所述音频片段与各所述音频片段对应的组合字幕片段输入至预设强制对齐模型中，得到各所述组合字幕片段中每个字符的起止时间。6.根据权利要求1所述的方法，其中，所述按照各所述字符的起止时间，在各所述音频片段中截取与各所述字符匹配的字符音频，包括：在各所述音频片段中对各所述字符的起止时间进行标记；根据标记结果对各所述音频片段进行切分，得到各所述字符音频。7.根据权利要求6所述的方法，其中，在得到各所述字符音频之后，还包括：根据各所述字符音频的起止时间确定各所述字符音频的持续时间；在所述目标持续时间小于设定时间阈值的情况下，在标注数据集合中滤除与所述目标持续时间对应的目标字符音频，以及与所述目标字符音频对应的目标字符。8.一种标注数据的生成装置，包括：片段获取模块，用于获取与目标多媒体文件对应的至少一个音频片段以及至少一个字幕片段；组合字幕片段获取模块，用于根据各所述音频片段和各所述字幕片段的起止时间，获
取与各所述音频片段分别对应的组合字幕片段；起止时间确定模块，用于将各所述音频片段与各所述音频片段的组合字幕片段进行强制对齐，确定各所述组合字幕片段中每个字符的起止时间；标注数据确定模块，用于按照各所述字符的起止时间，在各所述音频片段中截取与各所述字符匹配的字符音频，并分别将各所述字符与匹配的字符音频进行组合得到标注数据。9.根据权利要求8所述的装置，其中，所述装置还包括：字幕片段合并模块；所述字幕片段合并模块，用于依次比对各相邻字幕片段的文本内容是否相同；若第一字幕片段中的文本内容与第二字幕片段中的文本内容相同，则将所述第一字幕片段与所述第二字幕片段合并为同一字幕片段。10.根据权利要求8所述的装置，其中，所述组合字幕片段获取模块，具体用于根据各所述音频片段的起止时间，从各所述字幕片段中分别得到与各所述音频片段的起止时间相匹配的至少一个参考字幕片段；按照设定起止时间顺序将隶属于同一音频片段的各所述参考字幕片段进行组合，得到与各所述音频片段分别对应的组合字幕片段。11.根据权利要求8所述的装置，其中，所述起止时间确定模块，具体用于根据各所述音频片段的起止时间，以及各所述组合字幕的起止时间，将各所述音频片段与各所述组合字幕片段分别进行对齐，得到各所述组合字幕片段中每个字符的起止时间。12.根据权利要求8所述的装置，其中，所述起止时间确定模块，具体用于将各所述音频片段与各所述音频片段对应的组合字幕片段输入至预设强制对齐模型中，得到各所述组合字幕片段中每个字符的起止时间。13.根据权利要求8所述的装置，其中，所述标注数据确定模块，具体用于在各所述音频片段中对各所述字符的起止时间进行标记；根据标记结果对各所述音频片段进行切分，得到各所述字符音频。14.根据权利要求13所述的装置，其中，所述标注数据确定模块，还包括：滤除单元；所述滤除单元，用于根据各所述字符音频的起止时间确定各所述字符音频的持续时间；在所述目标持续时间小于设定时间阈值的情况下，在标注数据集合中滤除与所述目标持续时间对应的目标字符音频，以及与所述目标字符音频对应的目标字符。15.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

技术总结
本公开提供了一种标注数据的生成方法、装置、电子设备存储介质及产品，涉及数据处理技术领域，尤其涉及机器学习以及语音技术领域。具体实现方案为：获取与目标多媒体文件对应的至少一个音频片段以及至少一个字幕片段；根据各音频片段和各字幕片段的起止时间，获取与各音频片段分别对应的组合字幕片段；将各音频片段与各音频片段的组合字幕片段进行强制对齐，确定各组合字幕片段中每个字符的起止时间；按照各字符的起止时间，在各音频片段中截取与各字符匹配的字符音频，并分别将各字符与匹配的字符音频进行组合得到标注数据。本公开的方案可以快速且准确地生成标注数据，提升了标注数据的准确性，同时也节省了大量的人力成本。同时也节省了大量的人力成本。同时也节省了大量的人力成本。

技术研发人员：李超
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2022.06.09
技术公布日：2022/8/19

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于排序的孪生网络目标跟踪方法及系统

标注数据的生成方法、装置、电子设备存储介质及产品与流程

相关文献

最热文献