语音消息的处理方法、装置及电子设备与流程

2022-11-19 07:01:33 来源：中国专利 TAG：

1.本发明涉及即时通讯技术领域，具体而言，涉及一种语音消息的处理方法、装置及电子设备。

背景技术：

2.相关技术中，在用户采用即时通讯的语音消息进行沟通时，用户输入的语音消息可能会有表述不清或表述错误的情况，用户需要放弃已经生成的语音消息，或者需要撤回已发送的语音消息，并重新输入语音消息再进行发送，操作比较繁琐，使得用户通过语音消息进行沟通的体验较差。

技术实现要素：

3.有鉴于此，本发明的目的在于提供一种语音消息的处理方法、装置及电子设备，以提高玩家的游戏体验。
4.第一方面，本发明实施例提供了一种语音消息的处理方法，通过终端设备提供一图形用户界面；该方法包括：识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落；响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落；将第一语音段落替换为更新语音段落，得到编辑后的目标语音消息。
5.上述识别目标语音消息的语音内容的步骤，包括：响应于目标语音消息的录入事件，显示目标语音消息对应的更改控件；响应于针对更改控件的选中操作，识别目标语音消息的语音内容。
6.上述识别的语音内容包括断句节点；识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落的步骤，包括：对目标语音消息进行断句分析，得到目标语音消息对应的多个断句节点；将目标语音消息划分为断句节点对应的多个语音段落；语音段落包括位于相邻两个断句节点之间的部分目标语音消息。
7.上述识别的语音内容包括目标语音消息对应的文本内容；文本内容通过对目标语音消息进行语音识别确定；基于识别的语音内容，将目标语音消息划分为至少一段语音段落之后，上述方法还包括：基于目标语音消息对应的文本内容，显示语音段落对应的文本段落。
8.上述基于目标语音消息对应的文本内容，显示语音段落对应的文本段落的步骤，包括：如果文本段落中包含的未识别字符的数量达到指定数量，或者文本段落中的未识别字符的数量与文本段落中总字符的数量之间的比值大于预设的比例阈值，将文本段落确定为未完整识别段落；按照第一显示格式显示未完整识别段落，在未完整识别段落的指定位置显示编辑控件。
9.上述未识别字符对应的预设符号；按照第一显示格式显示未完整识别段落的步骤，包括：在未完整识别段落中显示预设符号。
10.上述基于目标语音消息对应的文本内容，显示语音段落对应的文本段落的步骤，包括：如果文本段落为完整识别段落，将文本段落的显示格式设置为第二显示格式。
11.上述方法通过终端设备提供一图形用户界面，图形用户界面显示有每个语音段落对应的编辑控件；响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落的步骤，包括：响应于针对至少一段语音段落中，第一语音段落对应的编辑控件的选中操作，获取第一语音段落的更新语音段落。
12.上述方法通过终端设备提供一图形用户界面，图形用户界面显示有语音段落对应的文本段落；基于目标语音消息对应的文本内容，显示语音段落对应的文本段落之后，上述方法还包括：响应针对至少一段语音段落中，第二语音段落对应的文本段落中目标文本的选中操作，获取目标文本对应的语音片段的更新语音片段，将目标文本对应的语音片段替换为更新语音片段，得到编辑后的目标语音消息。
13.第二方面，本发明实施例提供了一种语音消息的处理装置，该装置包括：段落划分模块，用于识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落；更新语音获取模块，用于响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落；语音编辑模块，用于将第一语音段落替换为更新语音段落，得到编辑后的目标语音消息。
14.第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述的语音消息的处理方法。
15.第四方面，本发明实施例提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述的语音消息的处理方法。
16.本发明实施例带来了以下有益效果：
17.上述一种语音消息的处理方法、装置及电子设备，识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落；响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落；将第一语音段落替换为更新语音段落，得到编辑后的目标语音消息。该方法通过将目标语音消息识别为多个语音段落，使得用户可以针对每个语音片段进行编辑操作，录入对应的更新语音段落，从而对目标语音消息中的语音片段进行更改，提升了用户通过语音消息进行沟通的体验。
18.本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
19.为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
20.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，
还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的一种语音消息的处理方法的流程图；
22.图2为本发明实施例提供的一种显示有目标语音消息对应的编辑控件的图形用户界面的示意图；
23.图3为本发明实施例提供的另一种显示有目标语音消息对应的编辑控件的图形用户界面的示意图；
24.图4为本发明实施例提供的一种显示有目标语音消息对应的文本段落的图形用户界面的示意图；
25.图5为本发明实施例提供的一种显示有语音段落对应的编辑控件的图形用户界面的示意图；
26.图6为本发明实施例提供的另一种显示有语音段落对应的编辑控件的图形用户界面的示意图；
27.图7为本发明实施例提供的一种语音消息的处理装置的结构示意图；
28.图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
29.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
30.在即时通讯(instant messaging，简称“im”)中，用户发送语音消息的时候，会有反复说不准的情况，每次都要反复修正，或者发送完毕后要撤回重新说。特别发送打断语音消息时，需要重述一大段内容，修正的成本过高。基于此，本发明实施例提供的一种语音消息的处理方法、装置及电子设备，该技术可以应用于各种即时通讯的语音消息发送过程中。
31.在本发明公开其中一种实施例中的语音消息的处理方法可以运行于本地终端设备或者是服务器。当语音消息的处理方法运行于服务器时，该方法则可以基于云交互系统来实现与执行，其中，云交互系统包括服务器和客户端设备。
32.在一可选的实施方式中，云交互系统下可以运行各种云应用，例如：云游戏。以云游戏为例，云游戏是指以云计算为基础的游戏方式。在云游戏的运行模式下，游戏程序的运行主体和游戏画面呈现主体是分离的，语音消息的处理方法的储存与运行是在云游戏服务器上完成的，客户端设备的作用用于数据的接收、发送以及游戏画面的呈现，举例而言，客户端设备可以是靠近用户侧的具有数据传输功能的显示设备，如，移动终端、电视机、计算机、掌上电脑、游戏机等；但是进行信息处理的为云端的云游戏服务器。在进行游戏时，玩家操作客户端设备向云游戏服务器发送操作指令，云游戏服务器根据操作指令运行游戏，将游戏画面等数据进行编码压缩，通过网络返回客户端设备，最后，通过客户端设备进行解码并输出游戏画面。
33.在一可选的实施方式中，以游戏为例，本地终端设备存储有游戏程序并用于呈现游戏画面。本地终端设备用于通过图形用户界面与玩家进行交互，即，常规的通过电子设备下载安装游戏程序并运行。该本地终端设备将图形用户界面提供给玩家的方式可以包括多
种，例如，可以渲染显示在终端的显示屏上，或者，通过全息投影提供给玩家。举例而言，本地终端设备可以包括显示屏和处理器，该显示屏用于呈现图形用户界面，该图形用户界面包括游戏画面，该处理器用于运行该游戏、生成图形用户界面以及控制图形用户界面在显示屏上的显示。
34.在一种可能的实施方式中，本发明实施例提供了本发明实施例提供了一种语音消息的处理方法，该方法包括如下步骤：
35.步骤s102，识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落。
36.上述目标语音消息通常为用户通过终端设备的麦克风等装置录入的语音。在目标语音消息录入后，可以在图形用户界面中的内容编辑区域，显示该目标语音消息对应的标识，如语音条，如图2所示；并在语音条的设定位置显示更改控件和发送控件，以便于用户选择对该目标语音消息进行编辑还是继续发送。如果当终端设备已经将该目标语音消息发送出去，可以在图形用户界面中的消息显示区域显示该目标语音消息对应的标识，并在语音条的设定位置显示更改控件，如图3所示。
37.在用户录入的目标语音消息后，终端设备可以直接对目标语音消息进行识别，并将基于识别到的语音内容将目标语音消息划分为多个语音段落。也可以将识别到的语音内容以文字的形式显示在图像用户界面上。该功能可以作为功能设置中的一个选项，用户可以选择该选项，实现上述功能。触发识别目标语音消息的语音内容的方式可以有多种，在此不做具体限定。
38.上述识别目标语音消息的语音内容的触发事件可以为用户选中目标语音消息的更改控件，在用户点击了更改控件后，终端设备识别目标语音消息的语音内容。如果没有在图形用户界面显示编辑控件，还可以预先和用户约定，对目标语音消息对应的标识进行指定操作后，终端设备识别目标语音消息的语音内容。例如，用户对目标语音消息对应的语音条进行双击操作或长按操作。
39.在对目标语音消息进行识别后，可以得到目标语音消息的语音内容。该语音内容可以包括目标语音消息的语义内容以及断句节点等。其中，在识别过程中可以采用有神经网络或深度学习等技术训练得到语音识别模型等较为成熟的语音识别技术，在此不作赘述。
40.通常需要基于断句节点将目标语音消息划分为语音段落，当没有识别到断句节点时，目标语音消息可以作为一个语音段落。通常而言，划分后的语音段落对应于用户录入的一个语句或较短的一段话，以使用户可以直接修改语音段落，而无需对整个目标语音消息进行重复录入的操作。
41.可以将划分后的语音段落依次以语音条的方式显示在内容编辑区域，用户可以点开语音条，判断对应的语音段落是否需要编辑。然而，该方式中，用户在定位需要修改的语音段落的过程较为复杂。可以将划分后的语音段落显示为各个语音段落对应的语义内容，该语义内容以字符的形式显示。目标语音消息对应的语义内容可以显示在一个文本框内，每个语音段落对应一个文本段落，如图4所示。
42.由于目标语音消息中的部分语音内容可能出现发音错误或表述错误等情况，在识别过程中难以识别这部分语音内容对应的语义，可以以设定的符号表示这些内容，如“*”或
“×”
等，如图4所示，以“*”显示未识别的字符。为了使用户注意到内容的识别率较低的语音段落，可以将未识别的字符占总体识别的字符的比例较高的语音段落对应的文字段落以特殊格式显示，如高亮格式、标红格式或显示为背景为灰色。图4中，第二段文本内容中，未识别字符的数量占占总体识别的字符的比例为50％，因此该段文本的背景显示为灰色。
43.步骤s104，响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落。
44.上述编辑操作可以为选中第一语音段落的图标，或者选中第一语音段落对应的文字段落等。如果在图形用户界面中，每个语音段落对应的图标的指定位置显示了该语音段落对应的编辑控件，如图5所示，上述编辑操作可以为选中该编辑控件。
45.如果在内容编辑区域显示了各个语音段落对应的文本内容，还可以仅针对内容的识别率较低的语音段落设置对应的编辑控件，如图6所示。用户选中该编辑控件后，即可录入第一语音段落的更新语音段落。而针对于其他语音段落，如果显示了该语音段落对应的文本段落，用户可以选中文本段落中的一些文字，从而录入这些文字对应的语音片段的更新语音片段。
46.步骤s106，将第一语音段落替换为更新语音段落，得到编辑后的目标语音消息。
47.更新语音段落为用户录入的用于替换第一语音段落的语音消息。可以对目标语音消息进行剪辑，根据第一语音段落在目标语音消息中的起始位置，将第一语音段落剪辑掉，然后将更新语音段落按照第一语音段落在目标语音消息的位置拼接至剪辑后的目标语音消息中，得到编辑后的目标语音消息。在得到编辑后的目标语音消息后，仍然可以在图形用户界面显示该语音消息对应的编辑控件，以使用户在有需要的情况下继续进行编辑操作。
48.上述一种语音消息的处理方法，响应针对目标语音消息的编辑指令，识别目标语音消息的语音内容，基于语音内容，将目标语音消息划分为至少一段语音段落；响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落；将第一语音段落替换为更新语音段落，得到编辑后的目标语音消息。该方法通过将目标语音消息识别为多个语音段落，使得用户可以针对每个语音片段进行编辑操作，录入对应的更新语音段落，从而对目标语音消息中的语音片段进行更改，提升了用户通过语音消息进行沟通的体验。
49.下述实施例提供一响应针对目标语音消息的编辑指令，识别目标语音消息的语音内容，基于语音内容，将目标语音消息划分为至少一段语音段落的具体方式。
50.上述目标语音消息可以在发送之前进行编辑，也可以在发送之后进行编辑。如果在发送之前进行编辑，则响应于目标语音消息的录入事件，可以在图形用户界面上显示目标语音消息对应的更改控件；响应于针对更改控件的选中操作，识别目标语音消息的语音内容；上述选中操作可以为点击该更改控件，或长按更改控件等。
51.在识别目标语音消息的语音内容过程中，可以对目标语音消息进行断句分析，得到目标语音消息对应的多个断句节点，进而将目标语音消息划分为断句节点对应的多个语音段落；一个语音段落通常为位于相邻两个断句节点之间的部分目标语音消息。
52.在识别目标语音消息的语音内容过程中，还可以识别到目标语音消息的语义内容，并以对应的文本内容表示。可以在图形用户界面中基于目标语音消息对应的文本内容，显示语音段落对应的文本段落；即显示一段一段的文本内容，每段文本内容与一个语音段
落对应，如图4所示。
53.在识别过程中，有些不清晰的语音片段可能难以识别。如果对语音片段进行识别得到的文本段落中包含的未识别字符的数量达到指定数量，或者文本段落中的未识别字符的数量与文本段落中总字符的数量之间的比值大于预设的比例阈值，可以将该文本段落确定为未完整识别段落；按照第一显示格式显示未完整识别段落，并在未完整识别段落的指定位置显示编辑控件。
54.在具体实现时，识别到的文本内容可以通过已识别字符和未识别字符对应的预设符号。在显示文本段落时，针对每个文本段落，基于文本段落中的预设符号的数量与已识别字符的数量，确定文本段落是否为未完整识别段落；具体而言，计算文本段落中的已识别字符的数量与预设符号和已识别字符的数量之和的比值；如果比值小于预设的比例阈值，将文本段落确定为未完整识别段落。如果该文本段落为未完整识别段落，可以将文本段落的显示格式设置为第一显示格式。第一显示格式通常较为醒目，例如高亮格式，标红格式等，如图4所示，将未完整识别段落的背景设置为灰色。在一些情况下，还可以仅将预设符号按照第一显示格式显示，如将预设符号以高亮格式、标红格式显示，或者在将整个段落的背景设置为灰色的基础上，将预设符号以高亮格式、标红格式显示。具体可以采用多种显示方式，在此不做具体限定。
55.如果该文本段落为完整识别段落，将文本段落的显示格式设置为第二显示格式；第二显示格式可以为正常的文本显示格式，最后按照各个文本段落的显示格式显示文本段落。上述比例阈值可以基于经验或者对文本及语音的分析确定，具体根据需求设置。
56.在显示过程中，如果文本段落为未完整识别段落，按照第一显示格式显示文本段落，并在文本段落的指定位置显示编辑控件，如图6所示，用户选中该控件后，可以录入文本段落对应的语音段落的更新语音段落。
57.下述实施例提供一响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落的具体方式。
58.当图形用户界面显示有每个语音段落对应的编辑控件时，可以响应于针对多个语音段落中，第一语音段落对应的编辑控件的选中操作，获取第一语音段落的更新语音段落。通常再用户在选中编辑控件后，终端设备开启语音录入模式，并在图形用户界面上显示表示正在录入语音的图标，用户录入第一语音段落对应的更新语音段落后，可以点击该图标，以使终端设备确定更新语音段落的录入过程已完成，从而停止语音录入，获取到了第一语音段落的更新语音段落。
59.当图形用户界面显示有语音段落对应的文本段落时，用户可以选取文本段落中的部分文本，这部分文本可以称为目标文本，响应针对至少一段语音段落中，第二语音段落对应的文本段落中目标文本的选中操作，获取目标文本对应的语音片段的更新语音片段，将目标文本对应的语音片段替换为更新语音片段，得到编辑后的目标语音消息。上述更新语音片段的获取过程与更新语音段落的获取过程类似，在此不做赘述。该方式可以使得用户对每个语音段落中的语音片段进行编辑，满足了用户的多种多样的语音编辑需求。
60.本发明实施例还提供了另一种语音消息的处理方法。该方法在图1所示的方法基础上实现。该方法主要通过语音识别技术(包括文字识别以及自然语言断句)识别语音消息的内容，并将语音消息以段落为单位进行呈现，在该过程中同时对音节、识别出的文字信息
进行语音区间定位，在用户录入用于替换语音段落的语音消息后，进行对应的替换操作。该方法具体通过以下方式实现：
61.1.用户点击触发“修改语音内容”的按钮(相当于上述“更改控件”)。该按钮可以在用户录入了语音消息后显示在图形用户界面上。
62.2.系统(相当于上述“云交互系统”)通过语音识别技术，识别语音消息对应的文本内容。识别不出的文字用x占位表示，一个音节使用一个x进行占位。并通过自然语言识别技术进行断句分析，该过程中不需识别出具体内容，然后记录断句节点，将原语音消息划分为几个段落，并将语音消息对应的文本内容按照文本段落的格式显示。
63.可以根据每个文本段落的内容进行文字识别内容率(识别出的文字数量/所有文字音节数量)的判断：
64.当语音段落的识别内容达到30％以及以上时，认为该语音段落是成功识别的。记录文本中的每个词在原语音消息中的起始位置和结束位置。用户可以选中文本段落中的部分文本(1字及以上)，然后系统搜索该选中文本在原语音消息中所在的起始位置和结束位置，并进行标记。
65.当语音段落识别内容低于30％以下，认为该语音段落没有识别成功，可以将该文字识别区域标红，显示“建议重新录入”的控件，用户点击后可以直接选中该语音。
66.3系统开启麦克风。录入用户重新输入的语音。
67.4录入完毕后，系统在标记位置区间内删除原语音，并在起始位置上将重新输入的语音替换。
68.上述方法通过细分场景的对应功能，提高即时通讯软件中语音沟通的效率。
69.对于上述方法实施例，参见图7所示的一种语音消息的处理装置，该装置包括：
70.段落划分模块700，用于识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落；
71.更新语音获取模块702，用于响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落；
72.语音编辑模块704，用于将第一语音段落替换为更新语音段落，得到编辑后的目标语音消息。
73.上述一种语音消息的处理装置，识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落；响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落；将第一语音段落替换为更新语音段落，得到编辑后的目标语音消息。该方法通过将目标语音消息识别为多个语音段落，使得用户可以针对每个语音片段进行编辑操作，录入对应的更新语音段落，从而对目标语音消息中的语音片段进行更改，提升了用户通过语音消息进行沟通的体验。
74.上述段落划分模块还用于：响应于目标语音消息的录入事件，显示目标语音消息对应的更改控件；响应于针对更改控件的选中操作，识别的识别目标语音消息的语音内容。
75.上述语音内容包括断句节点；上述段落划分模块还用于：对目标语音消息进行断句分析，得到目标语音消息对应的多个断句节点；将目标语音消息划分为断句节点对应的多个语音段落；语音段落包括位于相邻两个断句节点之间的部分目标语音消息。
76.上述识别的语音内容包括目标语音消息对应的文本内容；文本内容通过对目标语
音消息进行语音识别确定；上述装置还包括：文本段落显示模块，用于基于目标语音消息对应的文本内容，显示语音段落对应的文本段落。
77.上述文本内容包括已识别字符及未识别字符对应的预设符号；文本段落显示模块还用于：如果文本段落中包含的未识别字符的数量达到指定数量，或者文本段落中的未识别字符的数量与文本段落中总字符的数量之间的比值大于预设的比例阈值，将文本段落确定为未完整识别段落；按照第一显示格式显示未完整识别段落，在未完整识别段落的指定位置显示编辑控件。
78.上述文本段落显示模块还用于：在未完整识别段落中显示预设符号。
79.上述文本段落显示模块还用于：如果文本段落为完整识别段落，将文本段落的显示格式设置为第二显示格式。
80.上述装置通过终端设备提供一图形用户界面，图形用户界面显示有每个语音段落对应的编辑控件；更新语音获取模块还用于：响应于针对至少一段语音段落中，第一语音段落对应的编辑控件的选中操作，获取第一语音段落的更新语音段落。
81.上述装置通过终端设备提供一图形用户界面，图形用户界面显示有语音段落对应的文本段落；装置还包括更新片段获取模块，用于：响应针对至少一段语音段落中，第二语音段落对应的文本段落中目标文本的选中操作，获取目标文本对应的语音片段的更新语音片段，将目标文本对应的语音片段替换为更新语音片段，得到编辑后的目标语音消息。
82.本实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述语音消息的处理方法，例如：
83.识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落；响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落；将第一语音段落替换为更新语音段落，得到编辑后的目标语音消息。
84.该方法通过将目标语音消息识别为多个语音段落，使得用户可以针对每个语音片段进行编辑操作，录入对应的更新语音段落，从而对目标语音消息中的语音片段进行更改，提升了用户通过语音消息进行沟通的体验。
85.可选的，上述识别目标语音消息的语音内容的步骤，包括：响应于目标语音消息的录入事件，显示目标语音消息对应的更改控件；响应于针对更改控件的选中操作，识别目标语音消息的语音内容。
86.可选的，上述识别的语音内容包括断句节点；识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落的步骤，包括：对目标语音消息进行断句分析，得到目标语音消息对应的多个断句节点；将目标语音消息划分为断句节点对应的多个语音段落；语音段落包括位于相邻两个断句节点之间的部分目标语音消息。
87.可选的，上述识别的语音内容包括目标语音消息对应的文本内容；文本内容通过对目标语音消息进行语音识别确定；基于识别的语音内容，将目标语音消息划分为至少一段语音段落之后，上述方法还包括：基于目标语音消息对应的文本内容，显示语音段落对应的文本段落。
88.可选的，上述基于目标语音消息对应的文本内容，显示语音段落对应的文本段落的步骤，包括：如果文本段落中包含的未识别字符的数量达到指定数量，或者文本段落中的
未识别字符的数量与文本段落中总字符的数量之间的比值大于预设的比例阈值，将文本段落确定为未完整识别段落；按照第一显示格式显示未完整识别段落，在未完整识别段落的指定位置显示编辑控件。
89.可选的，上述未识别字符对应的预设符号；按照第一显示格式显示未完整识别段落的步骤，包括：在未完整识别段落中显示预设符号。
90.可选的，上述基于目标语音消息对应的文本内容，显示语音段落对应的文本段落的步骤，包括：如果文本段落为完整识别段落，将文本段落的显示格式设置为第二显示格式。
91.可选的，上述方法通过终端设备提供一图形用户界面，图形用户界面显示有每个语音段落对应的编辑控件；响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落的步骤，包括：响应于针对至少一段语音段落中，第一语音段落对应的编辑控件的选中操作，获取第一语音段落的更新语音段落。
92.可选的，上述方法通过终端设备提供一图形用户界面，图形用户界面显示有语音段落对应的文本段落；基于目标语音消息对应的文本内容，显示语音段落对应的文本段落之后，方法还包括：响应针对至少一段语音段落中，第二语音段落对应的文本段落中目标文本的选中操作，获取目标文本对应的语音片段的更新语音片段，将目标文本对应的语音片段替换为更新语音片段，得到编辑后的目标语音消息。
93.参见图8所示，该电子设备包括处理器100和存储器101，该存储器101存储有能够被处理器100执行的机器可执行指令，该处理器100执行机器可执行指令以实现上述语音消息的处理方法。
94.进一步地，图8所示的电子设备还包括总线102和通信接口103，处理器100、通信接口103和存储器101通过总线102连接。
95.其中，存储器101可能包含高速随机存取存储器(ram，random access memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。
96.处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储
器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成前述实施例的方法的步骤。
97.本实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述语音消息的处理方法。
98.本发明实施例所提供的一种语音消息的处理方法、装置以及电子设备，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，例如：
99.识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落；响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落；将第一语音段落替换为更新语音段落，得到编辑后的目标语音消息。
100.该方法通过将目标语音消息识别为多个语音段落，使得用户可以针对每个语音片段进行编辑操作，录入对应的更新语音段落，从而对目标语音消息中的语音片段进行更改，提升了用户通过语音消息进行沟通的体验。
101.可选的，上述识别目标语音消息的语音内容的步骤，包括：响应于目标语音消息的录入事件，显示目标语音消息对应的更改控件；响应于针对更改控件的选中操作，识别目标语音消息的语音内容。
102.可选的，上述识别的语音内容包括断句节点；识别目标语音消息的语音内容，基于识别的语音内容，将目标语音消息划分为至少一段语音段落的步骤，包括：对目标语音消息进行断句分析，得到目标语音消息对应的多个断句节点；将目标语音消息划分为断句节点对应的多个语音段落；语音段落包括位于相邻两个断句节点之间的部分目标语音消息。
103.可选的，上述识别的语音内容包括目标语音消息对应的文本内容；文本内容通过对目标语音消息进行语音识别确定；基于识别的语音内容，将目标语音消息划分为至少一段语音段落之后，上述方法还包括：基于目标语音消息对应的文本内容，显示语音段落对应的文本段落。
104.可选的，上述基于目标语音消息对应的文本内容，显示语音段落对应的文本段落的步骤，包括：如果文本段落中包含的未识别字符的数量达到指定数量，或者文本段落中的未识别字符的数量与文本段落中总字符的数量之间的比值大于预设的比例阈值，将文本段落确定为未完整识别段落；按照第一显示格式显示未完整识别段落，在未完整识别段落的指定位置显示编辑控件。
105.可选的，上述未识别字符对应的预设符号；按照第一显示格式显示未完整识别段落的步骤，包括：在未完整识别段落中显示预设符号。
106.可选的，上述基于目标语音消息对应的文本内容，显示语音段落对应的文本段落的步骤，包括：如果文本段落为完整识别段落，将文本段落的显示格式设置为第二显示格式。
107.可选的，上述方法通过终端设备提供一图形用户界面，图形用户界面显示有每个语音段落对应的编辑控件；响应针对至少一段语音段落中，第一语音段落的编辑操作，获取第一语音段落的更新语音段落的步骤，包括：响应于针对至少一段语音段落中，第一语音段落对应的编辑控件的选中操作，获取第一语音段落的更新语音段落。
108.可选的，上述方法通过终端设备提供一图形用户界面，图形用户界面显示有语音段落对应的文本段落；基于目标语音消息对应的文本内容，显示语音段落对应的文本段落之后，方法还包括：响应针对至少一段语音段落中，第二语音段落对应的文本段落中目标文本的选中操作，获取目标文本对应的语音片段的更新语音片段，将目标文本对应的语音片段替换为更新语音片段，得到编辑后的目标语音消息。
109.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
110.另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
111.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
112.在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。
113.最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

语音消息的处理方法、装置及电子设备与流程

相关文献

最热文献