一种语音提词方法、系统、设备及存储介质与流程

2022-02-24 11:16:26 来源：中国专利 TAG：

1.本发明涉及提词领域，具体涉及一种语音提词方法、系统、设备及存储介质。

背景技术：

2.提词器能够为讲话者显示提前准备的台词。
3.现有技术中的传统提词方案有两种。
4.一种为偏硬件类型的提词器，包括：拍摄录制终端、提词终端、显示终端、终端设备支架；提词终端上安装有提词软件，提词软件通常深色背景、白色字体，台词按照一定的速度进行滚动来达到提词的目的。
5.另一种为提词手机软件，安装在手机上，不需要额外的提词设备终端，只需要一个手机软件即可解决。
6.但无论是传统软硬件提词器，还是现有的手机提词软件，台词都是按照设定好的速度进行滚动，而正常人的说话表达习惯是非常自由的：有些地方快、有些地方慢、有些地方有停顿，现有技术中的提词方案导致用户录制视频的效率降低，录制的视频和直播的效果机械、不自然。

技术实现要素：

7.为解决上述技术问题，本发明提供一种语音提词方法、系统、设备及存储介质。
8.为解决上述技术问题，本发明采用如下技术方案：
9.一种语音提词方法，其适应性地根据语音改变台词滚动位置，台词的起始位置处具有开始标记，包括以下步骤：
10.步骤一：将用户发出的语音转化成字符长度为a的目标文本；
11.步骤二：从台词的开始标记处向后a个字符位置处设置结束标记，开始标记与结束标记之间的字符组成台词文本；
12.步骤三：计算目标文本与台词文本的相似度，如果相似度大于或者等于设定阈值，则将台词的开始标记移动到结束标记处；依次进行步骤一、步骤二、步骤三。
13.具体地，进行步骤三之前，处理目标文本和台词文本中的标点，并将目标文本转化为目标拼音，将台词文本转化为台词拼音；步骤三中，计算目标文本与台词文本的相似度时，对目标拼音和台词拼音的相似度进行计算。
14.具体地，对目标拼音和台词拼音进行兼容映射处理，分别得到目标兼容拼音和台词兼容拼音；步骤三中，计算目标文本与台词文本的相似度时，对目标兼容拼音和台词兼容拼音的相似度进行计算。
15.具体地，步骤三中进行相似度计算时，采用编辑距离算法、余弦相似度算法、jaccard相似系数实验法、曼哈顿距离算法、欧式距离算法、闵可夫斯基距离算法、皮尔森相关系数算法、dssm算法、cnn-dssm算法、lstm-dssm算法以及esim算法中的任意一种。
16.具体地，步骤二中设置结束标记后，则开始标记向前移动一个字符位置或者多个
字符位置，且最多能够移动m个字符位置；则开始标记和结束标记之间共有(m 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较。
17.具体地，步骤二中设置结束标记后，则开始标记向后移动一个字符位置或者多个字符位置且最多能够移动n个字符位置；则开始标记和结束标记之间共有(n 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较，其中n＜a。
18.具体地，步骤二中设置结束标记后，则结束标记向前移动一个字符位置或者多个字符位置，且最多能够移动x个字符位置；则开始标记和结束标记之间共有(x 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较，其中x＜a。
19.具体地，步骤二中设置结束标记后，则结束标记向后移动一个字符位置或者多个字符位置且最多能够移动y个字符位置；则开始标记和结束标记之间共有(y 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较。
20.具体地，步骤二中设置结束标记后，则开始标记能够向前移动一个字符位置或者多个字符位置，且最多能够移动m个字符位置；开始标记能够向后移动一个字符位置或者多个字符位置且最多能够移动n个字符位置；结束标记能够向前移动一个字符位置或者多个字符位置，且最多能够移动x个字符位置；结束标记能够向后移动一个字符位置或者多个字符位置且最多能够移动y个字符位置；则开始标记和结束标记之间共有(m n 1)*(x y 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较，其中n x＜a，x＜a。
21.具体地，步骤二中设置结束标记后，则开始标记能够向前移动一个字符位置或者多个位置，且最多能够移动m个字符位置，开始标记能够向后移动一个字符位置或者多个字符位置且最多能够移动n个字符位置，开始标记移动后，结束标记随之移动，并保持台词文本的长度为a；之后，结束标记能够向前移动一个字符位置或者多个字符位置，且最多能够移动x个字符位置；结束标记能够向后移动一个字符位置或者多个字符位置且最多能够移动y个字符位置；则开始标记和结束标记之间共有(m n 1)*(x y 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较，其中m＜a，x＜a。
22.具体地，开始标记之前的台词与开始之后的台词采用不同的显示方式。
23.一种语音提词系统，包括：
24.文本生成单元，用于将用户发出的语音转化成字符长度为a的目标文本；
25.台词处理单元，用于从台词的开始标记处向后a个字符位置处设置结束标记，开始标记与结束标记之间的字符组成台词文本；
26.相似度计算单元，计算目标文本与台词文本的相似度，如果相似度大于或者等于设定阈值，则将台词的开始标记移动到结束标记处。
27.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的语音提词方法。
28.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现所述的语音提词方法。
29.与现有技术相比，本发明的有益技术效果是：
30.1.能够根据讲话速度的不同，适应性的改变台词的滚动速度，使讲话人表现更加自然流畅。
附图说明
31.图1为本发明语音提词方法的流程图。
具体实施方式
32.下面结合附图对本发明的一种优选实施方式作详细的说明。
33.现有技术中的提词设备进行台词滚动展示时，均采用设定速度进行滚动，而每个人说话的语速、停顿时间均存在各自的特点，现有技术无法适应上述特点。
34.如图1所示，本发明提供一种语音提词方法，其适应性地根据语音改变台词滚动位置，台词的起始位置处具有开始标记，包括以下步骤：
35.s1：将用户发出的语音转化成字符长度为a的目标文本；
36.s2：从台词的开始标记处向后a个字符位置处设置结束标记，开始标记与结束标记之间的字符组成台词文本；
37.s3：计算目标文本与台词文本的相似度，如果相似度大于或者等于设定阈值，则将台词的开始标记移动到结束标记处；依次进行步骤一、步骤二、步骤三。
38.通过语音识别方法，将讲话人的相对完整的话转化为长度为a的目标文本，步骤一、二、三依次循环进行，对讲话人进行提词，且台词以与语音相匹配的速度进行滚动；这里相对完整的话并不一定是书面中一句带标点的句子，不同的语音识别方法会给出不同的输出方案。
39.本发明利用手机、平板、显示器或者投影设备显示台词，一般来说，台词的篇幅较长，无法在同一时刻完全显示出来，需要采用滚动方式进行显示。
40.如果用户发出的语音与台词之间的相似度大于或者等于一定值，则开始标记向后移动。本发明可以依据开始标记、结束标记对台词进行滚动，可以采用区分显示的方式和末尾滚动方式。
41.如果采用区分显示方式，开始标记之前的台词文本和开始标记之后的台词文本采用不同的显示方式，开始标记之前的台词文本采用透明方式进行显示，开始标记之后的台词文本采用完全不透明方式进行显示，以此来提醒讲话人目前的台词进度，并使开始标记始终处于屏幕中心位置。
42.如果采用末尾滚动方式，显示设备的宽度有限，台词分成很多行展示在显示设备上，如果相似度大于或者等于设定阈值，开始标记向后移动，如果开始标记移动到一行台词的末尾，则该行台词向上滚动，下一行台词占据该位置，完成台词的滚动显示。
43.具体地，进行步骤三之前，处理目标文本和台词文本中的标点，并将目标文本转化为目标拼音，将台词文本转化为台词拼音；步骤三中，计算目标文本与台词文本的相似度时，对目标拼音和台词拼音的相似度进行计算。
44.对目标文本和台词文本的标点进行处理时，包括对标点进行全部去除、进行部分去除或者对标点进行替换。
45.语音识别方法，不一定能够给出精确的标点符号，将目标文本和台词文本均进行标点符号去除，能够消除标点符号对相似度计算带来的影响。
46.但也可以只去除部分容易产生错误的标点，而其他标点保留，可以提高处理速度；例如语音识别方法不会给出书名号这种标点符号，故可以进行去除，而语音识别方法可以给出较为准确的逗号、句号，故这些标点符号可以不去除。
47.具体地，对目标拼音和台词拼音进行兼容映射处理，分别得到目标兼容拼音和台词兼容拼音；步骤三中，计算目标文本与台词文本的相似度时，对目标兼容拼音和台词兼容拼音的相似度进行计算。
48.进行兼容映射处理时，采用固定映射方法，即通过统一的逻辑将可能存在误读的拼音转化为统一的拼音方案；例如将台词文本和目标文本中所有的翘舌音转化平舌音：zh转化为z，ch转化为c，sh转化为s；鼻音都会转化成边音：n转化为l；这种转化方案能够消除不同地域用户的发音习惯带来的影响。
49.具体地，步骤三中进行相似度计算时，采用编辑距离算法、余弦相似度算法、jaccard相似系数算法、曼哈顿距离算法、欧式距离算法、闵可夫斯基距离算法、皮尔森相关系数算法、dssm算法、cnn-dssm算法、lstm-dssm算法以及esim算法中的任意一种。
50.上述算法计算两个文本的相似度均为现有技术，下面以编辑距离算法和余弦相似度算法为例介绍其工作原理。
51.编辑距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的编辑距离越大，说明它们越是不同，编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符；将台词拼音经过上面的这三种操作之后，得到与目标拼音完全相同的字符串所付出的代价是编辑距离算法所讨论的内容。
52.余弦相似度算法通过一个向量空间中两个向量夹角间的余弦值衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似；将目标文本和台词文本依次进行分词、列出所有词、分词编码、词频向量化，并套用余弦函数计量两个句子的相似度。
53.即使台词为讲话人自己所写，由于书面文字与口语表达存在内在不同，故讲话人不一定会完全按照台词说出想要表达内容，例如讲话人会习惯性地加入语气词“对吧”、“啊”、“这个”等，有时还会漏掉一些开头内容、结尾内容，或者上述情况同时出现，如果还按照之前的提词方案进行计算，则有可能出现台词文本和目标文本之间相似度小于设定阈值的情况，台词无法及时滚动，造成用户体验较差。
54.讲话人有时会将前一句话的末尾内容带到后一句话的开头，例如台词原文是：“购买了先进设备，它有五种特点”，前一句话说完后，开始标记移动到“它”之前，但讲话人说后一句话时，会通过“设备它有五种特点”的方式进行表达，为了将这种情况以及其他需要将开始标记前移的情况考虑进去，对提词识别方法进行了扩充改进：具体地，步骤二中设置结束标记后，则开始标记向前移动一个字符位置或者多个字符位置，且最多能够移动m个字符位置；则开始标记和结束标记之间共有(m 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较，m的数值根据经验或
者需要进行设置。
55.讲话人有时会将一句话的前几个词进行省略，例如台词原文是“机器很好用”，但讲话人表达为“很好用”，即进行口语表达时，讲话人有时会根据上下文语境省略部分开头，为了将这种情况以及其他需要将开始标记后移的情况考虑进去，对提词识别方法进行了扩充改进：具体地，步骤二中设置结束标记后，则开始标记向后移动一个字符位置或者多个字符位置且最多能够移动n个字符位置；则开始标记和结束标记之间共有(n 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较，此时n＜a。
56.讲话人有时会将一句话的后几个词进行省略，例如台词原文是“大家都应该思考一下机器的使用方法”，讲话人表达为“大家都应该思考一下”，即进行口语表达时，讲话人有时会根据上下文语境省略结尾部分内容，为了将这种情况以及其他需要将结束标记前移的情况考虑进去，对提词识别方法进行了扩充改进：具体地，步骤二中设置结束标记后，则结束标记向前移动一个字符位置或者多个字符位置，且最多能够移动x个字符位置；则开始标记和结束标记之间共有(x 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较，此时x＜a。
57.如果后一句话的字数较少时，讲话人有时会将后一句话的内容合并至前一句话，例如台词原文是“道理大家都懂的，是吧”，而讲话人表达为“道理大家都懂的是吧”，为了将这种情况以及其他需要将结束标记后移的情况考虑进去，需要对提词识别方法进行扩充改进：具体地，步骤二中设置结束标记后，则结束标记向后移动一个字符位置或者多个字符位置且最多能够移动y个字符位置；则开始标记和结束标记之间共有(y 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较。
58.为了充分考虑不同讲话人口语表达方法的多样性，应该将开始标记前移、后移，结束标记前移、后移的情况考虑进行，进行多次相似度计算，并将最大相似度与设定阈值进行比较；具体地，步骤二中设置结束标记后，则开始标记能够向前移动一个字符位置或者多个字符位置，且最多能够移动m个字符位置；开始标记能够向后移动一个字符位置或者多个字符位置且最多能够移动n个字符位置；结束标记能够向前移动一个字符位置或者多个字符位置，且最多能够移动x个字符位置；结束标记能够向后移动一个字符位置或者多个字符位置且最多能够移动y个字符位置；则开始标记和结束标记之间共有(m n 1)*(x y 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较，其中n x＜a，x＜a。
59.或者采用下面的方案：步骤二中设置结束标记后，则开始标记能够向前移动一个字符位置或者多个位置，且最多能够移动m个字符位置，开始标记能够向后移动一个字符位置或者多个字符位置且最多能够移动n个字符位置，开始标记移动后，结束标记随之移动，并保持台词文本的长度为a；之后，结束标记能够向前移动一个字符位置或者多个字符位置，且最多能够移动x个字符位置；结束标记能够向后移动一个字符位置或者多个字符位置且最多能够移动y个字符位置；则开始标记和结束标记之间共有(m n 1)*(x y 1)种台词文本；步骤三中，计算目标文本与所有台词文本的相似度，并将具有最大数值的相似度与设定阈值进行比较，其中m＜a，x＜a。
60.在满足各自约束条件的前提下，本发明中的m、n、x和y均可根据需要设置，或者根据多次试验设置，或者根据经验设置。
61.本实施例中，所述语音转化成文本的可使用百度的语音识别技术。
62.进行提词时存在以下问题：一般来说，语音识别时会将一句完整话的文本返回，例如返回“今天的天气真好”，由于讲话人普通话不标准、收音效果差、网络延迟的不可控因素，导致该句话与台词进行相似度计算时无法得到超过设定阈值的相似度，导致台词无法滚动，这种情况下，讲话人需要重新读这句话；但如果这句话较长，则需要花费较长的时间重新读这句话，这给讲话人以及听讲人造成不好的体验；讲话人说话时始终会存在顾虑，无法获悉该句话是否能被有效识别，导致其注意力分散，发挥受限；所以需要讲话人实时掌握提词动态。
63.利用百度语音识别技术时，其通过流式文本返回，讲话人说出“今天的天气真好”时，其会依次返回“今”、“今天”、“今天的天气”、“今天的天气真好”，这些文本被称为中间文本。
64.利用与本发明相同的提词识别方法对中间文本进行相似度计算，并将相似度与设定阈值相比较，如果相似度大于或者等于设定阈值，则台词中与中间文本相同的部分变为半透明色，但此时台词不发生滚动，这种显示方式能够让讲话人实时掌握提词动态，消除讲话人的担忧。
65.具体来说，利用中间文本进行相似度计算的步骤如下：
66.将用户发出的语音转化长度为b的中间文本，其中b＜a；
67.从台词的开始标记处向后b个字符位置处设置中间标记，开始标记与中间标记之间的字符组成中间台词文本；
68.计算中间文本与中间台词文本的相似度，如果相似度大于或者等于设定阈值，则将台词的中间标记移动到中间台词文本的末尾，开始标记不移动；依次进行上述步骤。
69.本发明中涉及两种相似度的计算和两种标记的移动，第一个是计算中间文本和中间标记文本之间的相似度，并移动中间标记；第二个是计算目标文本和台词文本之间的相似度，并移动开始标记；其中计算第一个相似度时采用与第二个相似度相同的计算方案。
70.开始标记之前的台词、开始标记之后中间标记之前的台词，中间标记之后的台词可通过不同的显示方式进行显示，例如利用不同的透明度、颜色进行显示。
71.一种语音提词系统，包括：
72.文本生成单元，用于将用户发出的语音转化成字符长度为a的目标文本；
73.台词处理单元，用于从台词的开始标记处向后a个字符位置处设置结束标记，开始标记与结束标记之间的字符组成台词文本；
74.相似度计算单元，计算目标文本与台词文本的相似度，如果相似度大于或者等于设定阈值，则将台词的开始标记移动到结束标记处。
75.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述的语音提词方法。
76.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现所述的语音提词方法。
77.本发明中的提词识别方法和提词识别系统可以应用到手机软件、平板、投影设备、直播软件、直播设备、演讲台提词设备、演讲台提词软件中。
78.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
79.此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于内存快照文件的格式转换方法、设备和系统与流程

一种语音提词方法、系统、设备及存储介质与流程

相关文献

最热文献