一种数据处理方法、装置及可读介质与流程

2022-02-22 01:57:52 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，特别是涉及数据处理方法、数据处理装置、用于数据处理的装置、机器可读介质。

背景技术：

2.随着语音处理技术的发展，语音和文字的相互转换技术日趋成熟，在采访、会议记录、笔记整理、速记、日常记事、字幕生成等多个应用场景广泛应用。
3.无论语音转换成文字，还是文字转换成语音，语音和文字的内容之间是相对应的，语音中有的内容，文字中也有相应的内容。例如，利用语音转换文字的技术，为影视作品或会议录音生成字幕，字幕是与语音相对应的，字幕文件中会记录每一句话的时间起点和终点，从而在播放语音时，同时能够显示出字幕。
4.若在原始或转换的语音中插入语音片段，语音就无法与之前由该语音转换的文字相一致；或在原始或转换的文字中插入文字片段后，文字就无法与之前由该文字转换的语音相一致。而重新根据语音转换成文字，或根据文字转换成语音，会耗费很多转换的时间，很不方便。

技术实现要素：

5.鉴于上述问题，本技术实施例提出了一种克服上述问题或者至少部分地解决上述问题的数据处理方法、数据处理装置、用于数据处理的装置、机器可读介质，本技术实施例能够解决语音中插入语音片段后无法与由该语音转换的文字一致，或文字中插入文字片段后无法与由该文字转换的语音一致的问题。
6.为了解决上述问题，本技术公开了一种数据处理方法，包括：
7.获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据；
8.将所述第一目标数据转换成预设第二类型的第二目标数据；
9.将所述第二目标数据添加到预设第二类型的第二数据中；
10.其中，所述第二数据由所述第一数据转换得到，或者，所述第一数据由所述第二数据转换得到。
11.可选地，当所述预设第一类型为文本类型时，所述预设第二类型为语音类型，或者当所述预设第一类型为语音类型时，所述预设第二类型为文本类型。
12.可选地，所述获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据包括：
13.获取在所述第一数据中的目标位置处添加的所述第一目标数据；
14.所述将所述第二目标数据添加到预设第二类型的第二数据中包括：
15.将所述第二目标数据添加到所述第二数据中与所述目标位置处对应的位置。
16.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述方法还包括：
17.识别所述语音数据中至少一个语音元素对应的声源信息；
18.根据所述声源信息，在所述文本数据中对所述语音元素对应的文本元素添加声源标记。
19.可选地，所述识别所述语音数据中至少一个语音元素对应的声源信息包括：
20.获取所述语音数据中至少一个语音元素的语音特征；
21.根据所述语音特征，对所述至少一个语音元素的声源进行区分，得到所述语音元素对应的所述声源信息。
22.可选地，所述声源信息包括声源类别，所述识别所述语音数据中至少一个语音元素对应的声源信息还包括：
23.根据所述语音特征，识别所述语音元素的声源的声源类别。
24.可选地，所述声源信息包括预设声源，所述识别所述语音数据中至少一个语音元素对应的声源信息包括：
25.获取所述语音数据中至少一个语音元素的语音特征；
26.采用预设声源的语音特征与所述语音元素的语音特征进行匹配，得到所述语音元素匹配的预设声源。
27.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述方法还包括：
28.获取所述语音数据中目标时间点前后的多个目标语音元素；
29.识别所述文本数据中的关键词；
30.根据所述多个目标语音元素对应的多个目标文本元素，在所述文本数据中对所述关键词所在的目标文本元素添加关键标记。
31.可选地，在所述识别所述语音数据中至少一个语音元素对应的声源信息之前，所述方法还包括：
32.获取所述文本数据中各个文本元素的起止时间；
33.根据所述各个文本元素的起止时间，确定所述语音数据中对应的语音元素。
34.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述方法还包括：
35.在将所述语音数据转换成所述文本数据时，根据预设专业词库、和/或输入法个人词库、和/或语气词、和/或重复词，对所述文本数据进行校正。
36.本技术实施例还公开了一种数据处理装置，包括：
37.数据获取模块，用于获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据；
38.转换模块，用于将所述第一目标数据转换成预设第二类型的第二目标数据；
39.添加模块，用于将所述第二目标数据添加到预设第二类型的第二数据中；
40.其中，所述第二数据由所述第一数据转换得到，或者，所述第一数据由所述第二数据转换得到。
41.可选地，当所述预设第一类型为文本类型时，所述预设第二类型为语音类型，或者当所述预设第一类型为语音类型时，所述预设第二类型为文本类型。
42.可选地，所述数据获取模块包括：
43.数据获取子模块，用于获取在所述第一数据中的目标位置处添加的所述第一目标数据；
44.所述数据添加模块包括：
45.数据添加子模块，用于将所述第二目标数据添加到所述第二数据中与所述目标位置处对应的位置。
46.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述装置还包括：
47.声源识别模块，用于识别所述语音数据中至少一个语音元素对应的声源信息；
48.声源标记添加模块，用于根据所述声源信息，在所述文本数据中对所述语音元素对应的文本元素添加声源标记。
49.可选地，所述声源识别模块包括：
50.特征获取子模块，用于获取所述语音数据中至少一个语音元素的语音特征；
51.声源区分子模块，用于根据所述语音特征，对所述至少一个语音元素的声源进行区分，得到所述语音元素对应的所述声源信息。
52.可选地，所述声源信息包括声源类别，所述声源识别模块还包括：
53.类别识别子模块，用于根据所述语音特征，识别所述语音元素的声源的声源类别。
54.可选地，所述声源信息包括预设声源，所述声源识别模块包括：
55.特征获取子模块，用于获取所述语音数据中至少一个语音元素的语音特征；
56.特征匹配子模块，用于采用预设声源的语音特征与所述语音元素的语音特征进行匹配，得到所述语音元素匹配的预设声源。
57.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述装置还包括：
58.元素获取模块，用于获取所述语音数据中目标时间点前后的多个目标语音元素；
59.关键词识别模块，用于识别所述文本数据中的关键词；
60.关键标记添加模块，用于根据所述多个目标语音元素对应的多个目标文本元素，在所述文本数据中对所述关键词所在的目标文本元素添加关键标记。
61.可选地，所述装置还包括：
62.时间获取模块，用于在所述识别所述语音数据中至少一个语音元素对应的声源信息之前，获取所述文本数据中各个文本元素的起止时间；
63.元素确定模块，用于根据所述各个文本元素的起止时间，确定所述语音数据中对应的语音元素。
64.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述装置还包括：
65.校正模块，用于在将所述语音数据转换成所述文本数据时，根据预设专业词库、和/或输入法个人词库、和/或语气词、和/或重复词，对所述文本数据进行校正。
66.本技术实施例还公开了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：
67.获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据；
68.将所述第一目标数据转换成预设第二类型的第二目标数据；
69.将所述第二目标数据添加到预设第二类型的第二数据中；
70.其中，所述第二数据由所述第一数据转换得到，或者，所述第一数据由所述第二数据转换得到。
71.可选地，当所述预设第一类型为文本类型时，所述预设第二类型为语音类型，或者当所述预设第一类型为语音类型时，所述预设第二类型为文本类型。
72.可选地，所述获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据包括：
73.获取在所述第一数据中的目标位置处添加的所述第一目标数据；
74.所述将所述第二目标数据添加到预设第二类型的第二数据中包括：
75.将所述第二目标数据添加到所述第二数据中与所述目标位置处对应的位置。
76.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述指令还包括：
77.识别所述语音数据中至少一个语音元素对应的声源信息；
78.根据所述声源信息，在所述文本数据中对所述语音元素对应的文本元素添加声源标记。
79.可选地，所述识别所述语音数据中至少一个语音元素对应的声源信息包括：
80.获取所述语音数据中至少一个语音元素的语音特征；
81.根据所述语音特征，对所述至少一个语音元素的声源进行区分，得到所述语音元素对应的所述声源信息。
82.可选地，所述声源信息包括声源类别，所述识别所述语音数据中至少一个语音元素对应的声源信息还包括：
83.根据所述语音特征，识别所述语音元素的声源的声源类别。
84.可选地，所述声源信息包括预设声源，所述识别所述语音数据中至少一个语音元素对应的声源信息包括：
85.获取所述语音数据中至少一个语音元素的语音特征；
86.采用预设声源的语音特征与所述语音元素的语音特征进行匹配，得到所述语音元素匹配的预设声源。
87.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述指令还包括：
88.获取所述语音数据中目标时间点前后的多个目标语音元素；
89.识别所述文本数据中的关键词；
90.根据所述多个目标语音元素对应的多个目标文本元素，在所述文本数据中对所述关键词所在的目标文本元素添加关键标记。
91.可选地，所述指令还包括：
92.在所述识别所述语音数据中至少一个语音元素对应的声源信息之前，获取所述文本数据中各个文本元素的起止时间；
93.根据所述各个文本元素的起止时间，确定所述语音数据中对应的语音元素。
94.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第
一数据为文本数据时，所述第二数据为语音数据，所述指令还包括：
95.在将所述语音数据转换成所述文本数据时，根据预设专业词库、和/或输入法个人词库、和/或语气词、和/或重复词，对所述文本数据进行校正。
96.本技术实施例还公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如上述的数据处理方法。
97.本技术实施例包括以下优点：
98.综上所述，依据本技术实施例，通过获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据，将第一目标数据转换成预设第二类型的第二目标数据，将第二目标数据添加到预设第二类型的第二数据中，从而在第二数据由第一数据转换得到时，或者，在第一数据由第二数据转换得到时，在第一数据中添加了预设第一类型的数据后，自动将添加的数据转换成预设第二类型的数据，并添加到第二数据中，实现了第一数据和第二数据之间的自动联动，避免了第一数据变化后和第二数据的内容不一致的问题，无需整体上重新对数据进行转换，减少了不必要的处理时间。
附图说明
99.图1示出了本技术的一种数据处理方法实施例的步骤流程图；
100.图2示出了本技术的一种数据处理方法实施例的步骤流程图；
101.图3示出了本技术的一种数据处理方法实施例的步骤流程图；
102.图4示出了本技术的一种数据处理方法实施例的步骤流程图；
103.图5示出了本技术的一种数据处理装置实施例的结构框图；
104.图6是根据一示例性实施例示出的一种用于数据处理的装置的框图；
105.及图7是本技术的一些实施例中服务器的结构示意图。
具体实施方式
106.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术作进一步详细的说明。
107.参照图1，示出了本技术的一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：
108.步骤101，获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据。
109.在本技术实施例中，第一数据和第二数据为两种不同类型的数据，第一数据的数据类型为预设第一类型，第二数据的数据类型为预设第二类型。数据类型包括但不限于语音类型、文本类型、视频类型等，本技术实施例对此不做限制。
110.在本技术实施例中，第一数据和第二数据的类型不同，但第一数据可以和第二数据之间相互转换，其中，一种情况下，第二数据由第一数据转换得到，或者另一种情况下，第一数据由第二数据转换得到。例如，将语音类型的数据转换成文本类型的数据，或者将视频类型的数据中的语音提取出来，再将语音转换成文本类型的数据。
111.在本技术的一种实施例中，可选地，当预设第一类型为文本类型时，预设第二类型为语音类型，或者当预设第一类型为语音类型时，预设第二类型为文本类型。利用语音转换
文本的技术，或者利用文本转换语音的技术，就可以实现第一数据转换得到第二数据，或者第二数据转换得到第一数据。
112.语音数据包括正在录制中实时获取的语音数据、或音频文件中的语音数据、或视频文件中的语音数据，或其他任意适用的语音数据，本技术实施例对此不做限制。例如，录音笔在正在录制中实时获取语音数据，或者手机上的转写app(application，应用程序)利用麦克风实时采集语音数据，或者从视频文件中提取其中的音频，提取的音频中包含语音数据。
113.在本技术实施例中，在第一数据中，可以添加同为预设第一类型的第一目标数据。例如，在会议录音的字幕文件中，添加相应的说明性文本，或者在会议录音中，添加相应的说明性语音。具体可以包括任意适用的方式添加第一目标数据，本技术实施例对此不做限制。
114.步骤102，将所述第一目标数据转换成预设第二类型的第二目标数据。
115.在本技术实施例中，获取到第一目标数据后，将第一目标数据自动转换成预设第二类型的第二目标数据。例如，添加说明性文本后，将说明性文本自动转换成对应的说明性语音，或者添加说明性语音后，将说明性语音自动转换成对应的说明书文本。
116.步骤103，将所述第二目标数据添加到预设第二类型的第二数据中。
117.在本技术实施例中，第二数据是预设第二类型的，为了让第二数据与第一数据的内容相一致，将第二目标数据自动添加到第二数据中。
118.例如，第一数据为第一数据文件，在添加第一目标数据后，得到了新的第一数据文件，第二数据为第二数据文件，对第二数据文件进行自动编辑，以添加第二目标数据，然后保存得到新的第二数据文件。
119.在本技术的一种实施例中，可选地，步骤101包括：获取在所述第一数据中的目标位置处添加的所述第一目标数据。
120.步骤103包括：将所述第二目标数据添加到所述第二数据中与所述目标位置处对应的位置。
121.第一数据和第二数据之间是相对应的，例如，第一数据中的第一句话与第二数据中的第一句话在内容是一致的。
122.在一种情况下，第一数据为文本数据，第二数据为语音数据。在文本数据中，可以添加第一目标数据，添加的位置为目标位置处。例如，在添加有关键标记的文本之后的位置，添加相应的说明性文本。具体可以在任意适用的位置添加第一目标数据，本技术实施例对此不做限制。
123.添加第一目标数据后，将第一目标数据转换成对应的语音类型的第二目标数据，然后可以将第二目标数据添加到语音数据中，添加的位置是目标位置处对应的位置。例如，根据目标位置处的时间戳，在语音数据中找到该时间戳对应的位置，将第二目标数据添加到语音数据中的该位置处，从而实现文本到语音的自动联动，文本内容发生变化时，语音内容自动完成相应的变化，使得文本和语音都可以实现灵活调整。
124.在另一种情况下，第一数据为语音数据，第二数据为文本数据。在语音数据中，可以添加第一目标数据，添加的位置为目标位置处。例如，在添加有关键标记的文本对应的语音之后的位置，添加相应的说明性语音。具体可以在任意适用的位置添加第一目标数据，本
申请实施例对此不做限制。
125.添加第一目标数据后，将第一目标数据转换成对应的文本类型的第二目标数据，然后可以将第二目标数据添加到文本数据中，添加的位置是目标位置处对应的处理。例如，根据目标位置处的时间戳，在文本数据中找到该时间戳对应的位置，将第二目标数据添加到语音数据中的该位置处，从而实现语音到文本的自动联动，语音内容发生变化时，文本内容自动完成相应的变化，使得文本和语音都可以实现灵活调整。
126.目前，在生成字幕时，将音频或视频中的语音转换成文字，再将文字按照每句话的时间戳转换成字幕格式。但是字幕会丢失语音本身具有的一些信息，例如，伴随音频或视频的播放显示字幕时，只看文本是难以区分讲话人的。
127.在本技术的一种实施例中，可选地，参照图2，当第一数据为语音数据时，第二数据为文本数据，或者当第一数据为文本数据时，第二数据为语音数据，还可以包括：
128.步骤201，识别所述语音数据中至少一个语音元素对应的声源信息。
129.在本技术实施例中，语音数据由语音元素组成，语音元素可以是词语、句子、段落等，或者其他任意适用的元素，本技术实施例对此不做限制。语音元素可以根据语音数据中的停顿确定停顿之间语音元素，或者可以根据文本数据中划分的句子确定对应的语音元素，或者其他任意适用的方式，本技术实施例对此不做限制。
130.在本技术实施例中，声源信息用于表明语音元素来自的声源，包括对于未知的声源的声源标签，声源的声源类别，预设声源的相关信息，或者其他任意适用的声源信息，本技术实施例对此不做限制。对于未知的声源，可以仅对语音元素的声源进行区分，例如，识别出语音中第一句话的声源是第一讲话人，第二句话的声源是第二讲话人。对于已知的声源，可以识别出语音元素的声源是预设声源，例如，识别出语音中第一句话的声源是录音笔中预先存储的用户a。
131.识别语音元素对应的声源信息时，具体可以根据声纹识别技术识别。声纹是携带言语信息的声波频谱，人类语音产生时，人体语言中枢与发音器官之间有一个复杂的生物物理过程，人在讲话时所使用的发声器官包括：舌、猴头、肺、鼻腔等，由于每一个人的发声器官在尺寸和形态上各不相同，所以彼此的声纹也会存在差异，不同的声纹可以区分不同的声音。声纹同指纹一样，具备独特的生物学特征，具有身份识别的作用，不仅具有特定性，而且具有相对的稳定性。
132.识别语音数据中至少一个语音元素对应的声源信息的具体实现方式可以包括多种，例如，根据语音特征，对至少一个语音元素的声源进行区分，得到语音元素对应的声源信息，或者采用预设声源的语音特征与语音元素的语音特征进行匹配，得到语音元素匹配的预设声源，或者其他任意适用的方式，本技术实施例对此不做限制。
133.步骤202，根据所述声源信息，在所述文本数据中对所述语音元素对应的文本元素添加声源标记。
134.在本技术实施例中，文本数据由文本元素组成，文本元素可以是词语、句子、段落等，或者其他任意适用的元素，本技术实施例对此不做限制。文本元素是与语音元素相对应的，例如，语音信息中的第三句话与文本信息中的第三句话是相对应的。
135.在本技术实施例中，声源标记包括文本、颜色、符号等多种形式的标记，例如，以第一讲话人、第二讲话人等文本形式的标记表示不同的声源、或者以不同的颜色表示不同的
声源，具体可以包括任意适用的标记，本技术实施例对此不做限制。
136.在本技术实施例中，根据语音元素对应的声源信息，可以在文本数据中添加声源标记，添加在语音元素对应的文本元素上。添加声源标记的具体实现方式可以包括多种，例如，在各个文本元素之前或之后添加文本或颜色或符号等形式的标记，具体可以包括任意适用的方式，本技术实施例对此不做限制。
137.例如，在生成字幕时，录音文件通过录音笔或者app完成文字的转写，标记每句话的时间起点和终点，另外在每句话之前添加“第一讲话人：”、“第二讲话人：”等声源标记，然后导出srt(subrip text，文本格式字幕)等格式的字幕文件。
138.在本技术实施例中，通过识别所述语音数据中至少一个语音元素对应的声源信息，根据所述声源信息，在所述文本数据中对所述语音元素对应的文本元素添加声源标记，使得在语音转文本时，自动识别出语音的声源信息，并在转换的文本中添加声源标记，实现了只看文本也可以区分不同文本的声源，解决了语音转文本时声源信息丢失的问题，提高了语音数据转换得到的文本数据的使用价值，提供了更好的用户体验。
139.在本技术的一种实施例中，可选地，步骤201包括：获取所述语音数据中至少一个语音元素的语音特征；根据所述语音特征，对所述至少一个语音元素的声源进行区分，得到所述语音元素对应的所述声源信息。
140.从语音元素中提取语音特征，语音特征可以包括经典的梅尔倒谱系数mfcc、感知线性预测系数plp、深度特征deep feature、以及能量规整谱系数pncc等，或者其他任意适用的特征，本技术实施例对此不做限制。通过对不同语音元素的语音特征进行比对，相似度越高则语音特征归属于同一声源的可能性越高，相似度越低则语音特征归属于同一声源的可能性越低。
141.根据语音特征，对至少一个语音元素的声源进行区分时，可以通过至少一个声纹识别模型来执行，例如，深度神经网络的二分类模型、隐式马尔科夫模型、多项式分类器、概率线性区分性分析模型等等。
142.在本技术的一种实施例中，可选地，声源信息包括声源类别，步骤201还包括：根据所述语音特征，识别所述语音元素的声源的声源类别。
143.声源类别可以包括声源的性别、声源的年龄段，或者其他任意适用的类别，本技术实施例对此不做限制。根据语音特征识别声源类别时，可以预先通过大量标记有声源类别的语音数据训练好分类器，在对语音元素的声源的声源类别进行识别时，将语音元素输入该分类器，分类器根据语音元素对应的语音特征可以输出语音元素的声源的声源类别。例如，语音数据中的第一句话的声源是第一讲话人，该声源的类别是女，在对第一句话添加声源标记时，可以在第一句话之前添加文本“第一讲话人(女)”。
144.在本技术的一种实施例中，可选地，声源信息包括预设声源，步骤201包括：获取语音数据中至少一个语音元素的语音特征，采用预设声源的语音特征与语音元素的语音特征进行匹配，得到所述语音元素匹配的预设声源。
145.预设声源是已知的声源，预先记录有预设声源的语音特征，例如，录音笔可以支持录制若干人的语音，提取每个人的语音的语音特征并记录。
146.获取语音元素的语音特征后，采用预设声源的语音特征与该语音元素的语音特征进行匹配，若语音特征之间的相似度高于预设阈值，则确定语音特征之间匹配，即该语音元
素与预设声源相匹配，得到语音元素的声源为预设声源。例如，语音数据中的第一句话的声源是已知用户a，语音数据中的第二句话的声源是已知用户b。
147.在本技术的一种实施例中，可选地，在步骤201之前，还可以包括：获取所述文本数据中各个文本元素的起止时间，根据所述各个文本元素的起止时间，确定所述语音数据中对应的语音元素。
148.在一种实施例中，在根据语音数据转换得到文本数据后，根据文本数据进行划分，得到多个文本元素，文本元素与语音元素相对应，语音元素具有起止时间，据此可以对文本元素的起止时间进行标记。在识别语音元素对应的声源信息之前，可以获取各个文本元素的起止时间，然后根据各个文本元素的起止时间，确定对应的语音元素，从而得到语音数据中的各个语音元素，以便对各个语音元素分别识别声源信息。
149.在本技术的一种实施例中，可选地，当第一数据为语音数据时，第二数据为文本数据，或者当第一数据为文本数据时，第二数据为语音数据，参见图3，还可以包括：
150.步骤301，获取所述语音数据中目标时间点前后的多个目标语音元素。
151.步骤302，识别所述文本数据中的关键词。
152.步骤303，根据所述多个目标语音元素对应的多个目标文本元素，在所述文本数据中对所述关键词所在的目标文本元素添加关键标记。
153.目标时间点可以是人为针对语音数据添加的时间点，也可以是自动识别的时间点，例如，录音笔上设置有重点标记按钮，在录音中用户可以在听到重要内容时点击该按钮，录音笔就可以记录点击该按钮时的时间点，作为目标时间点，或者识别到语音数据中出现掌声、笑声、固定词语等，将出现时的时间点作为目标时间点，或者其他任意适用的时间点，本技术实施例对此不做限制。
154.目标时间点处的语音元素不一定是真正的关键内容或重要内容，但真正的关键内容或重要内容应该是在目标时间点的前后，即目标时间点前后的多个目标语音元素中的一个或多个。例如，在目标时间点之前取三句话，在目标时间点之后取三句话。
155.识别文本数据中的关键词可以由多种实现方式，例如，文字主题模型、tf-idf(term frequency-inverse document frequency，词频-逆文件频率)、lda(latent dirichlet allocation，文档主题生成模型)等。对词的tf-idf特征、词的长度特征、词与文本数据的相关性特征进行线性加权得到候选词分数，筛选候选词分数大于阈值的候选词，作为文本数据的关键词，或者其他任意适用的实现方式，本技术实施例对此不做限制。
156.关键标记包括文本、颜色、符号等多种形式的标记，例如，以“关键”、“重要”等文本形式的标记表示、或者以不同的颜色表示、或者以不同的符号表示，具体可以包括任意适用的标记，本技术实施例对此不做限制。
157.多个目标语音元素对应于多个目标文本元素，在多个目标文本元素中查找包含关键词的目标文本元素，然后在文本数据中对关键词所在的目标文本元素添加关键标记。例如，在关键词所在的句子添加下划线，在关键词所在的句子添加颜色标记等。
158.参照图4，示出了本技术的另一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：
159.在本技术实施例中，当第一数据为语音数据时，第二数据为文本数据，或者当第一数据为文本数据时，第二数据为语音数据。
160.步骤401，在将所述语音数据转换成所述文本数据时，根据预设专业词库、和/或输入法个人词库、和/或语气词、和/或重复词，对所述文本数据进行校正。
161.在本技术实施例中，利用语音识别技术可以将语音数据转换成文本数据。例如，先通过大量标注的语音数据训练神经网络模型，然后利用该训练好的神经网络模型就可以将训练集外的语音数据识别成文本。在具体实现时，若在实时录制时转换文本，则先在实时获取到语音数据时，将实时获取的语音数据转换成文本数据，待录制结束后，再根据全部的语音数据对之前转换的文本数据进行修正。
162.在本技术的一种实施例中，在将语音数据转换成文本数据的过程中，还可以根据预设专业词库、输入法个人词库、语气词、重复词等，对文本数据进行校正。
163.其中，预设专业词库是在转换之前预先选择的，例如，语音数据是属于医疗领域的语音内容，可以预先选择医疗领域的专业词库。在语音数据转换成文本数据的过程中，当需要在同音的多个词中选择一个合适的词时，可以根据预设专业词库，在多个词中选择同时在预设专业词库中出现的词，以使在对一些专业领域的语音进行转换时，生成的文本数据更加准确。
164.其中，输入法个人词库与预设专业词库的作用一样，在语音数据转换成文本数据的过程中，当需要在同音的多个词中选择一个合适的词时，可以根据输入法个人词库，在多个词中选择同时在输入法个人词库中出现的词，以使在对一些与个人的输入习惯、工作或生活密切相关的语音进行转换时，生成的文本数据更加准确。例如，语音转写文字的app与输入法登录同一账户，或者录音笔与输入法登录同一账户，根据该账户可以获取到输入法个人词库，然后根据输入法个人词库对文本数据进行校正。
165.其中，根据语气词对文本数据进行校正时，可以将所有的语气词都删除掉，也可以仅将频繁出现的语气词删除掉，或者其他任意适用的校正方式，本技术实施例对此不做限制。根据语气词对文本数据进行校正可以避免部分讲话人不良的讲话习惯导致生成的文本不通顺，口语化等问题。
166.其中，根据重复词对文本数据进行校正时，可以对所有连续重复出现的词语，删除掉多余的词仅保留一个词，也可以仅对连续重复出现超过设定次数的词语，删除掉多余的词仅保留一个词，或者其他任意适用的校正方式，本技术实施例对此不做限制。根据重复词对文本数据进行校正可以避免部分讲话人不良的讲话习惯导致生成的文本不通顺，口语化等问题。
167.步骤402，获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据。
168.步骤403，将所述第一目标数据转换成预设第二类型的第二目标数据。
169.步骤404，将所述第二目标数据添加到预设第二类型的第二数据中。
170.综上所述，依据本技术实施例，通过获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据，将第一目标数据转换成预设第二类型的第二目标数据，将第二目标数据添加到预设第二类型的第二数据中，从而在第二数据由第一数据转换得到时，或者，在第一数据由第二数据转换得到时，在第一数据中添加了预设第一类型的数据后，自动将添加的数据转换成预设第二类型的数据，并添加到第二数据中，实现了第一数据和第二数据之间的自动联动，避免了第一数据变化后和第二数据的内容不一致的问题，无需整
体上重新对数据进行转换，减少了不必要的处理时间。
171.需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本技术实施例并不受所描述的运动动作顺序的限制，因为依据本技术实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本技术实施例所必须的。
172.参照图5，示出了本技术的一种数据处理装置实施例的结构框图，具体可以包括：
173.数据获取模块501，用于获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据；
174.转换模块502，用于将所述第一目标数据转换成预设第二类型的第二目标数据；
175.添加模块503，用于将所述第二目标数据添加到预设第二类型的第二数据中；
176.其中，所述第二数据由所述第一数据转换得到，或者，所述第一数据由所述第二数据转换得到。
177.可选地，当所述预设第一类型为文本类型时，所述预设第二类型为语音类型，或者当所述预设第一类型为语音类型时，所述预设第二类型为文本类型。
178.可选地，所述数据获取模块包括：
179.数据获取子模块，用于获取在所述第一数据中的目标位置处添加的所述第一目标数据；
180.所述数据添加模块包括：
181.数据添加子模块，用于将所述第二目标数据添加到所述第二数据中与所述目标位置处对应的位置。
182.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述装置还包括：
183.声源识别模块，用于识别所述语音数据中至少一个语音元素对应的声源信息；
184.声源标记添加模块，用于根据所述声源信息，在所述文本数据中对所述语音元素对应的文本元素添加声源标记。
185.可选地，所述声源识别模块包括：
186.特征获取子模块，用于获取所述语音数据中至少一个语音元素的语音特征；
187.声源区分子模块，用于根据所述语音特征，对所述至少一个语音元素的声源进行区分，得到所述语音元素对应的所述声源信息。
188.可选地，所述声源信息包括声源类别，所述声源识别模块还包括：
189.类别识别子模块，用于根据所述语音特征，识别所述语音元素的声源的声源类别。
190.可选地，所述声源信息包括预设声源，所述声源识别模块包括：
191.特征获取子模块，用于获取所述语音数据中至少一个语音元素的语音特征；
192.特征匹配子模块，用于采用预设声源的语音特征与所述语音元素的语音特征进行匹配，得到所述语音元素匹配的预设声源。
193.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述装置还包括：
194.元素获取模块，用于获取所述语音数据中目标时间点前后的多个目标语音元素；
195.关键词识别模块，用于识别所述文本数据中的关键词；
196.关键标记添加模块，用于根据所述多个目标语音元素对应的多个目标文本元素，在所述文本数据中对所述关键词所在的目标文本元素添加关键标记。
197.可选地，所述装置还包括：
198.时间获取模块，用于在所述识别所述语音数据中至少一个语音元素对应的声源信息之前，获取所述文本数据中各个文本元素的起止时间；
199.元素确定模块，用于根据所述各个文本元素的起止时间，确定所述语音数据中对应的语音元素。
200.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述装置还包括：
201.校正模块，用于在将所述语音数据转换成所述文本数据时，根据预设专业词库、和/或输入法个人词库、和/或语气词、和/或重复词，对所述文本数据进行校正。
202.综上所述，依据本技术实施例，通过获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据，将第一目标数据转换成预设第二类型的第二目标数据，将第二目标数据添加到预设第二类型的第二数据中，从而在第二数据由第一数据转换得到时，或者，在第一数据由第二数据转换得到时，在第一数据中添加了预设第一类型的数据后，自动将添加的数据转换成预设第二类型的数据，并添加到第二数据中，实现了第一数据和第二数据之间的自动联动，避免了第一数据变化后和第二数据的内容不一致的问题，无需整体上重新对数据进行转换，减少了不必要的处理时间。
203.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
204.图6是根据一示例性实施例示出的一种用于语音处理的装置700的框图。例如，装置700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
205.参照图6，装置700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(i/o)的接口712，传感器组件714，以及通信组件716。
206.处理组件702通常控制装置700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。
207.存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
208.电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理系
units，cpu)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。
217.服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如windows servertm，mac os xtm，unixtm，linuxtm，freebsdtm等等。
218.一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时，使得装置能够执行一种语音处理方法，所述方法包括：
219.获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据；
220.将所述第一目标数据转换成预设第二类型的第二目标数据；
221.将所述第二目标数据添加到预设第二类型的第二数据中；
222.其中，所述第二数据由所述第一数据转换得到，或者，所述第一数据由所述第二数据转换得到。
223.可选地，当所述预设第一类型为文本类型时，所述预设第二类型为语音类型，或者当所述预设第一类型为语音类型时，所述预设第二类型为文本类型。
224.可选地，所述获取在预设第一类型的第一数据中添加的预设第一类型的第一目标数据包括：
225.获取在所述第一数据中的目标位置处添加的所述第一目标数据；
226.所述将所述第二目标数据添加到预设第二类型的第二数据中包括：
227.将所述第二目标数据添加到所述第二数据中与所述目标位置处对应的位置。
228.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述方法还包括：
229.识别所述语音数据中至少一个语音元素对应的声源信息；
230.根据所述声源信息，在所述文本数据中对所述语音元素对应的文本元素添加声源标记。
231.可选地，所述识别所述语音数据中至少一个语音元素对应的声源信息包括：
232.获取所述语音数据中至少一个语音元素的语音特征；
233.根据所述语音特征，对所述至少一个语音元素的声源进行区分，得到所述语音元素对应的所述声源信息。
234.可选地，所述声源信息包括声源类别，所述识别所述语音数据中至少一个语音元素对应的声源信息还包括：
235.根据所述语音特征，识别所述语音元素的声源的声源类别。
236.可选地，所述声源信息包括预设声源，所述识别所述语音数据中至少一个语音元素对应的声源信息包括：
237.获取所述语音数据中至少一个语音元素的语音特征；
238.采用预设声源的语音特征与所述语音元素的语音特征进行匹配，得到所述语音元素匹配的预设声源。
239.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述方法还包括：
240.获取所述语音数据中目标时间点前后的多个目标语音元素；
241.识别所述文本数据中的关键词；
242.根据所述多个目标语音元素对应的多个目标文本元素，在所述文本数据中对所述关键词所在的目标文本元素添加关键标记。
243.可选地，在所述识别所述语音数据中至少一个语音元素对应的声源信息之前，所述方法还包括：
244.获取所述文本数据中各个文本元素的起止时间；
245.根据所述各个文本元素的起止时间，确定所述语音数据中对应的语音元素。
246.可选地，当所述第一数据为语音数据时，所述第二数据为文本数据，或者当所述第一数据为文本数据时，所述第二数据为语音数据，所述方法还包括：
247.在将所述语音数据转换成所述文本数据时，根据预设专业词库、和/或输入法个人词库、和/或语气词、和/或重复词，对所述文本数据进行校正。
248.本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
249.本领域内的技术人员应明白，本技术实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本技术实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
250.本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
251.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
252.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
253.尽管已描述了本技术实施例的优选实施例，但本领域内的技术人员一旦得知了基
本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
254.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
255.以上对本技术所提供的一种语音处理方法、一种语音处理装置、一种用于语音处理的装置、一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音交互方法、装置、设备与流程

一种数据处理方法、装置及可读介质与流程

相关文献

最热文献