一种综合评价语音的方法、装置及电子设备与流程

2021-06-11 21:44:00 来源：中国专利 TAG：语音电子设备综合评价装置可读

本发明涉及语音评价技术领域，具体而言，涉及一种综合评价语音的方法、装置、电子设备及计算机可读存储介质。

背景技术：

对于k12(kindergartenthroughtwelfthgrade，指的是学前教育至高中教育)阶段的学生，作业/练习/考试的目的是检测、诊断，即找到学生的薄弱点在哪里。口语练习由于其作业性质的特殊性，需要借助语音打分系统来完成。这在个过程中，学生完成一次口语练习，如果不能得满分，老师/家长/学生就会想要知道是哪里出了问题；即便是得了满分的学生，也希望知道自己的整体能力，各个口语维度的能力在什么水平上。因此，无论是从教学层面还是核心口语能力培养层面，都是有必要分析整体的能力如何，各个维度的口语能力如何。

现阶段，市面上主流报告的维度都是相对简单的，对于口语能力，分析维度基本是完整度、流利度、发音准确度等，这些维度粒度较粗，数据结果较抽象，对于诊断纠正、教学辅助很难真正带来价值。部分研究方案虽然也尝试使用更细粒度的维度进行评价，但不同维度的识别方法各不相同，不同维度之间关联较弱，不仅评价效率低，而且最终的评价效果也较差，评价结果不准确。

技术实现要素：

为解决现有存在的技术问题，本发明实施例提供一种综合评价语音的方法、装置、电子设备及计算机可读存储介质。

第一方面，本发明实施例提供了一种综合评价语音的方法，包括：

获取待评价的目标语音数据以及与所述目标语音数据相对应的标准文本；

以所述标准文本为基准对所述目标语音数据进行识别处理，确定所述目标语音数据中每个目标词语音的词参数，并确定所述目标词语音中每个目标音素语音的音素置信度；所述词参数包括词开始时间、词结束时间和词置信度；

根据所述词置信度确定相应目标词语音的词准确度，根据所述音素置信度确定相应目标音素语音的音素准确度，并根据连续的多个所述目标词语音的词开始时间和词结束时间确定相应的时间参数，所述时间参数包括语速和/或节奏；

将所述词准确度、所述音素准确度和所述时间参数均作为评价维度，并根据所有的所述评价维度确定所述目标语音数据的评价结果。

第二方面，本发明实施例还提供了一种综合评价语音的装置，包括：

获取待评价的目标语音数据以及与所述目标语音数据相对应的标准文本；

将所述词准确度、所述音素准确度和所述时间参数均作为评价维度，并根据所有的所述评价维度确定所述目标语音数据的评价结果。

第三方面，本发明实施例提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现上述任意一项所述的综合评价语音的方法中的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的综合评价语音的方法中的步骤。

本发明实施例提供的综合评价语音的方法、装置、电子设备及计算机可读存储介质，在识别目标语音数据时，不仅识别词语音，还识别音素级别的音素语音，能够基于更细的颗粒度评价目标语音数据。并且，利用在识别过程中所确定的词参数，可以方便准确地确定目标语音数据的语速、节奏等。该方法不需要额外设置确定语速、节奏的模型，处理效率高；且确定词准确度、音素准确度和时间参数时均需要参考词参数，从而将多个评价维度关联在一起，能够提高各个评价维度之间的关联性，并可以保证最终的评价结果比较准确。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1示出了本发明实施例所提供的一种综合评价语音的方法的流程图；

图2示出了本发明实施例所提供的综合评价语音的方法中，识别模型的一种结构示意图；

图3示出了本发明实施例所提供的一种综合评价语音的装置的结构示意图；

图4示出了本发明实施例所提供的一种用于执行综合评价语音的方法的电子设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

图1示出了本发明实施例所提供的一种综合评价语音的方法的流程图。如图1所示，该方法包括：

步骤101：获取待评价的目标语音数据以及与该目标语音数据相对应的标准文本。

本发明实施例中，将待评价的语音数据称为目标语音数据；并且，该目标语音数据是用于基于某个文本而输入的，该文本即为标准文本。例如，向用户展示一段标准文本，供用户念出该标准文本，并且基于用户所用的智能手机等终端采集用户发出的声音，从而可以采集到目标语音数据。

步骤102：以标准文本为基准对目标语音数据进行识别处理，确定目标语音数据中每个目标词语音的词参数，并确定目标词语音中每个目标音素语音的音素置信度；该词参数包括词开始时间、词结束时间和词置信度。

本发明实施例中，目标语音数据为针对该标准文本输入的语音，该标准文本包含多个词，相应地，目标语音数据中的某段数据也会对应一个词，本实施例从标准文本中选取一个或多个词作为目标词，则目标语音数据中可以提取出与该目标词相对应的一段语音，即目标词语音；一般情况下，可以将标准文本中所有的词均作为目标词，或者去除英语中的a、an等词后所剩的词作为目标词。并且，每个词都具有相应的音素，本实施例将目标词中的音素称为目标音素，相应地，目标词语音中音素所对应的语音称为目标音素语音。例如，若标准文本为英语，且其中一个目标词为good，则其具有三个目标音素：ɡ、d；相应地，目标语音数据中存在与good位置对应的目标词语音，并存在与每个目标音素对应的目标音素语音。

本发明实施例中，可以预先设置语音识别模型，基于该语音识别模型来识别目标语音数据中的词和音素；并且，通过与标准文本进行对比，可以确定目标词语音的词置信度和目标音素语音的音素置信度。其中，该词置信度表示该目标词语音被识别为标准文本中相应目标词的可能性，该音素置信度表示该目标音素语音被识别为标准文本中相应目标音素的可能性。其中，该词置信度和音素置信度可以为0到1的概率值，也可以是其他取值范围的值，例如0到10，本实施例对此不做限定。

本发明实施例中，由于目标语音数据中可能包含噪声，且用户在念两个词之间也可能存在停顿，为了能够准确识别目标词语音和目标音素语音，本实施例从目标语音数据中提取出每个目标词对应的一段语音，即目标词语音，该目标词语音不包含噪声、停顿等干扰语音。因此，每个目标词语音除了对应有词置信度，还具有词开始时间、词结束时间这两种词参数。相应地，每个目标音素语音也对应有开始结束时间，即音素开始时间和音素结束时间。在对语音数据进行识别的过程中，一般均需要确定每个词语音的词参数等，从而可以提取出音素开始时间与音素结束时间之间的语音作为相应的目标词语音，进而后续识别过程中只需要关注该目标词语音即可，可以减少噪声等干扰语音的影响。本实施例可以采用现有方式进行语音识别，并可以方便地提取出每个目标词语音的词参数。

步骤103：根据词置信度确定相应目标词语音的词准确度，根据音素置信度确定相应目标音素语音的音素准确度，并根据连续的多个目标词语音的词开始时间和词结束时间确定相应的时间参数，该时间参数包括语速和/或节奏。

本发明实施例中，如上所述，词置信度可以为一种概率值，或者，词置信度也可以为一种概率分布；为了更好地评价该目标词语音，本实施例基于词置信度来确定词准确度，该词准确度表示用户准确发出了目标词所对应声音的程度；词置信度越大，词准确度也越大，二者之间为正相关关系。同样地，基于音素置信度也可以确定目标音素语音的音素准确度，该音素准确度与音素置信度之间也为正相关关系。并且，本实施例还基于在识别过程中所确定的词参数来计算语速、节奏等于时间相关的参数，即时间参数。

本发明实施例中，语速在一段时间内呈现词单元的速度，该词单元可以为词，也可以为音素等。节奏指的是在时间维度上呈现词单元的变化。本发明实施例中，目标语音数据中包含多个目标词语音，将连续的多个目标词语音作为一组，基于每个目标词语音的词开始时间和词结束时间可以确定该用户在一段时间内呈现目标词或目标音素的速度，即可以确定语速；并且，还可以确定相邻目标词或目标音素之间的时间间隔，基于该时间间隔的变化来确定在时间维度上的变化，进而可以确定节奏。

步骤104：将词准确度、音素准确度和时间参数均作为评价维度，并根据所有的评价维度确定目标语音数据的评价结果。

本发明实施例中，选取多个评价维度，从多个评价维度对该目标语音数据进行评价。其中，评价维度至少包括词准确度、音素准确度和时间参数，即，可以基于词准确度、音素准确度和时间参数来评价该目标语音数据，从而得到相应的评价结果。该评价结果可以为目标语音数据总的评价结果，也可以是一个综合的评价结果，即包含词、音素的评价情况，以及用户的语速、节奏等评价情况，以方便用户定位到自己薄弱的环节，后续通过练习可以提高该环节的能力。

可选地，本发明实施例的评价结果能够从各个维度对目标语音数据进行评价，以方便用户从不同的维度定位到本身存在的问题。具体地，上述确定目标语音数据的评价结果的过程可以包括：分别确定多个目标词语音的词准确度，将词准确度小于预设阈值的目标词词语音所对应的目标词作为易错词展示给用户；同理，可以分别确定多个目标音素语音的音素准确度，将音素准确度小于预设阈值的目标音素音素语音所对应的目标音素作为易错音素展示给用户。

此外，可以以句子或段落为单位，确定每个句子或段落的语速或节奏，基于语速快慢或节奏是否均匀对每个句子或段落进行评价，从而方便用户快速定位到语速较快或较慢的句子或段落，或者快速定位到节奏不均匀的句子或段落。本实施例的评价结果中可以包含详细的评价内容，使得用户能够知道具体哪里出现了问题，如什么位置因卡顿影响节奏等，方便用户有针对性地进行改进。

本发明实施例提供的一种综合评价语音的方法，在识别目标语音数据时，不仅识别词语音，还识别音素级别的音素语音，能够基于更细的颗粒度评价目标语音数据。并且，利用在识别过程中所确定的词参数，可以方便准确地确定目标语音数据的语速、节奏等。该方法不需要额外设置确定语速、节奏的模型，处理效率高；且确定词准确度、音素准确度和时间参数时均需要参考词参数，从而将多个评价维度关联在一起，能够提高各个评价维度之间的关联性，并可以保证最终的评价结果比较准确。

在上述实施例的基础上，本发明实施例采用特定的识别模型来识别目标语音数据中的音素语音。具体地，上述步骤102“确定目标词语音中每个目标音素语音的音素置信度”包括：

步骤a1：设置识别模型，识别模型包括编码子模型、对齐输出子模型和识别输出子模型；该编码子模型用于将输入数据编码为特征向量，对齐输出子模型用于根据特征向量确定相应的音素对齐信息，识别输出子模型用于根据特征向量和音素对齐信息确定输入数据中每个音素的识别结果。

本发明实施例中，该评测模型主要包含三部分，即编码子模型、对齐输出子模型和识别输出子模型，具体可参见图2所示。其中，编码子模型用于将输入数据编码为特征向量，该输入数据具体可以为语音数据，通过提取语音数据的特征可以生成相应的特征向量；其中，该特征向量可以为一维的向量，也可以为二维的矩阵等，本实施例对此不做限定。编码子模型生成特征向量之后，对齐输出子模型、识别输出子模型共用该特征向量分别进行相应的处理，即对齐输出子模型根据该特征向量可以确定相应的音素对齐信息，该音素对齐信息用于表示输入数据中每个音素的位置，例如每个音素的起始时间帧和结束时间帧，即音素开始时间和音素结束时间。识别输出子模型根据该特征向量和音素对齐信息确定输入数据中每个音素的识别结果，该识别结果具体可以为输入数据中的音素被识别为每一种音素的概率；例如，英语音素共有50种，若输入数据为英语的语音数据，则该识别结果可以表示输入数据中每个音素被识别50种音素中任一种音素的概率。或者，该识别结果也可以为将输入数据中的音素识别为了哪一种音素，例如将输入数据中第一个音素识别为音素/i：/。

步骤a2：对编码子模型和对齐输出子模型进行训练，之后，在保持编码子模型不变的情况下，对识别输出子模型进行训练，确定训练后的识别模型。

传统的gmm-hmm(gaussianmixturemodel，混合高斯模型；hiddenmarkovmodel，隐马尔科夫模型)、或dnn-hmm(deepneuralnetwork，深度神经网络)虽然可以实现语音识别，但传统模型不能很好地区分优质和次优质的音素，区分能力较差。本发明实施例中，采用两遍解码的方式对评测模型进行训练，可以实现音素的精准对齐，并能够提高音素区分度。具体地，在第一遍训练过程中，对编码子模型和对齐输出子模型进行训练；此时，可以将编码子模型和对齐输出子模型作为一种对齐声学模型，利用深度学习可以学习到海量数据的特征，该对齐声学模型有较强的发音容忍度，能够学习到更多的发音可能，如英语中式发音的可能，音素的对齐效果较好。而优秀的音素发音数据比较少，难以训练出具有较高的音素识别功能的模型(训练过程中容易出现过拟合的现象)。

本发明实施例中，还将编码子模型和识别输出子模型作为一种音素识别模型进行第二遍训练，由于在第一遍训练过程中已经对编码子模型进行了训练，即已经确定了编码子模型的权重值等参数，因此，在第二遍训练过程中，可以保持编码子模型不变，即保持编码子模型的权重值不变，对齐输出子模型和识别输出子模型共享该编码子模型的权重值，使得在第二遍训练过程中，可以在增加少量计算量的基础上(一个原因是，第二遍训练可以只使用少量的优质训练数据，另一个原因是，原有的编码子模型不变，只是新增加的识别输出子模型需要训练调整，所增加的计算量较少)，不仅可以避免因增加识别输出子模型而造成引擎计算复杂度的增加，还能够有效解决训练过程中优质数据量不够的问题。

步骤a3：将目标语音数据输入至识别模型，确定目标语音数据的特征向量和每个目标音素语音的音素对齐信息，并基于识别输出子模型确定目标语音数据中每个目标音素语音的音素置信度；其中，音素对齐信息包括音素开始时间和音素结束时间。

本发明实施例中，在对评测模型训练结束后，即可基于该评测模型对用户提供的语音数据(即目标语音数据)进行评测。本实施例中，将该目标语音数据输入到训练好的评测模型后，基于对齐输出子模型可以确定该目标语音数据的音素对齐信息，即目标语音数据中每个音素语音对应的位置；一般情况下，语音数据按照时间分为多帧，例如25ms一帧，相邻两帧之间间隔10ms；并且，每个音素语音一般会对应多帧语音，该音素对齐信息可以表示目标语音数据中每个音素语音对应哪些帧的数据。此外，识别输出子模型可以确定目标语音数据中每个音素语音的音素置信度，例如，目标语音数据中的音素语音被识别为每一种音素对应的概率。需要说明的是，识别输出子模型需要基于对齐输出子模型所确定的音素对齐信息来确定目标语音数据中的哪一部分对应一个音素，进而确定每个音素语音的音素置信度。

可选地，上述步骤a2“对编码子模型和对齐输出子模型进行训练，之后，在保持编码子模型不变的情况下，对识别输出子模型进行训练”包括：

步骤a21：获取第一数据集，对第一数据集中的第一语音数据进行音素对齐，确定第一语音数据中每帧数据的标签。

步骤a22：将第一数据集作为训练集，将第一语音数据作为编码子模型的输入、将第一语音数据中每帧数据的标签作为对齐输出子模型的输出，对编码子模型和对齐输出子模型进行训练。

本发明实施例中，基于第一数据集对评测模型中的编码子模型、对齐输出子模型进行第一遍训练；其中，该第一数据集可以为传统的数据集，其中包含大量的语音数据，即大量的第一语音数据；例如，该第一数据集可以是在口语评测中用于儿童语音识别的数据集。基于大量的第一语音数据进行第一遍训练，可以学习到语音数据的特征。

可选地，可以采用经典的dnn-hmm模型对第一语音数据进行音素对齐。本实施例中，可以将第一语音数据作为基础信号，提取第一语音数据的mfcc(mel-scalefrequencycepstralcoefficients，梅尔倒谱系数)特征作为dnn-hmm模型的输入特征；之后，采用三音素(tri-phoneme)作为gmm建模的最小单元，利用hmm-gmm模型的输出作为每一帧语音信号的标签，从而可以解决连续的语音数据无法通过人工进行标签的问题。该dnn-hmm模型即可用于第一语音数据的音素对齐。相比传统的gmm-hmm模型，dnn的模型在字错率和系统鲁棒性上均要优于gmm的方法。在确定第一语音数据中每帧数据的标签后，即可将该第一数据集作为训练集进行训练。

此外，传统的方式一般采用rnn(循环神经网络)为代表的循环卷积网络，以获取更好的语音识别性能；而在本发明实施例中，该评测模型的对齐输出子模型不是为了获取更好的语音识别性能，而是为了更好地获取每一帧语音更精确的音素分布，因此，本实施例中的编码子模型和对齐输出子模型具体可以采用tdnn(time-delayneuralnetwork，时延神经网络)模型。

步骤a23：获取第二数据集，对第二数据集的第二语音数据进行音素对齐，并确定第二语音数据对应的文本；第二语音数据为发音正确的数据，且第二语音数据的数量小于第一语音数据的数量。

步骤a24：将第二数据集作为训练集，在保持编码子模型不变的情况下，将第二语音数据作为编码子模型的输入、将第二语音数据对应的文本作为识别输出子模型的输出，对识别输出子模型进行训练。

本发明实施例中，在第一遍训练之后，可以得到训练后的对齐输出子模型，但编码子模型和对齐输出子模型本质上是用于语音识别的声学模型，其能够实现音素对齐功能，并也可以计算音素的似然概率，但此时的模型对于次优和优质音素数据的区分度欠佳，即难以区分优质和次优的音素。因此，本实施例基于第二数据集对评测模型进行第二遍训练，该第二遍训练的过程主要是对识别输出子模型进行训练，基于训练后的识别输出子模型可以更加准确地区分相似的音素数据。其中，该第二数据集中的第二语音数据的数量较少，但是，第二语音数据均是发音正确的数据(如经过专家筛选的语料)，与第一语音数据相比，第二语音数据更优质；在第二遍训练过程中，保持编码子模型不变，在原有音素对齐信息的基础上进行更为精准的训练，从而即能够获得第一遍训练时学习到的音素分类的权重信息，又能使识别输出子模型训练更为精准的音素识别任务。

其中，第二语音数据对应相应的文本，该文本可以表示该第二语音数据中每个音素的含义(标签)；通过对齐输出子模型可以确定该第二语音数据的音素对齐信息，进而基于该文本可以确定第二语音数据中每个对齐区间所对应的音素标签。例如，第二语音数据为正确发音的“good”，其对应文本“good”，基于该文本“good”可以确定其具有三个音素：g、d；基于对齐输出子模型可以确定该第二语音数据的三个对齐区间，则三个对齐区间依次对应三个音素g、d。

可选地，上述步骤a3“基于识别输出子模型确定目标语音数据中每个目标音素语音的音素置信度”包括：

步骤a31：将目标语音数据的特征向量输入至识别输出子模型进行前向计算，确定识别输出子模型的输出矩阵yrec，输出矩阵yrec为帧数m×音素总维数n的矩阵。

本发明实施例中，编码子模型对目标语音数据等输入数据进行编码处理，可以生成相应的特征向量，例如生成矩阵yshare，该矩阵yshare即为识别输出子模型和对齐输出子模型共用的特征向量。之后将该特征向量输入至识别输出子模型，即可得到该识别输出子模型的输出结果，即矩阵yrec。本实施例中，该矩阵yrec为帧数m×音素总维数n的矩阵(可以是m行n列，也可以是n行m列)，矩阵yrec中的元素表示ti帧、音素j对应的元素，该元素可以表示ti帧被识别为是音素k的可能性。其中，帧数m为目标语音数据所包含的帧数，音素总维数n为音素的总数量，例如，英语包含50种音素，故对英语口语进行评测时，n＝50。

步骤a32：根据目标语音数据的音素对齐信息确定目标语音数据中的每个音素语音，并确定音素语音i对齐区间内对于任意音素j的似然概率pi，j：

其中，ti，start表示音素语音i对齐区间的起始帧，ti，end表示音素语音i对齐区间的结束帧，表示输出矩阵yrec中ti帧、音素j对应的元素，j∈[1,n]。

本发明实施例中，音素语音i为目标语音数据中的第i个音素语音；其中，每个音素语音会对应包含多帧语音的对齐区间，对于第i个音素语音，本实施例以ti，start、ti，end表示该音素语音i对齐区间的起始帧和结束帧，即音素开始时间和音素结束时间；将在该起始帧与结束帧之间的所有ti帧的均值作为相应音素语音的似然概率。本实施例中给出该音素语音i被识别为每种音素j的似然概率，即pi，j，该似然概率即可表示音素置信度。相应的，j的取值范围可以为[1,n]。

在上述实施例的基础上，以统计的方式确定词准确度和音素准确度。上述步骤103“根据词置信度确定相应目标词语音的词准确度，根据音素置信度确定相应目标音素语音的音素准确度”包括：

步骤b1：为目标语音数据中每个目标词语音添加与标准文本中的相应词相一致的词标签，并为目标音素语音添加与标准文本中的相应音素相一致的音素标签。

本发明实施例中，目标语音数据中包含多个词语音，且不同的词语音可能对应同一个词，本实施例为词语音添加相应的词标签，基于词标签是否相同来判断词语音对应的词是否相同；具体地，基于标准文本为目标词语音添加词标签。例如，目标语音数据包含三个目标词语音a、b、c，该目标语音数据对应的标准文本为“havesomebread”，则目标词语音a的词标签为“have”，目标词语音b的词标签为“some”，目标词语音c的词标签为“bread”。

同理，不同的音素语音也可能对应相同的音素，本实施例也可以基于标准文本为每个目标音素语音添加相应的音素标签。例如上述的目标词语音a“have”包含三个目标音素语音a1、a2、a3，基于标准文本可知其对应的音素为h、v，因此，三个目标音素语音a1、a2、a3的音素标签依次为：h、v。

步骤b2：以词标签为单位，将具有相同词标签的多个目标词语音的词置信度的平均值作为词标签的词准确度。

步骤b3：以音素标签为单位，将具有相同音素标签的多个目标音素语音的音素置信度的平均值作为音素标签的音素准确度。

本发明实施例中，对于每个词标签，确定目标语音数据中对应该词标签的所有目标词语音，并将所确定的所有目标词语音的平均值作为该词标签的词准确度。例如，对于词标签“have”，在目标语音数据中可能存在用户单独念出的单词“have”，也可能在某些句子或短语中包含该单词“have”；此时可以确定所有对应“have”的词语音的词置信度，并把词置信度的平均值作为词标签“have”的词准确度。该词准确度即可表示用户能够准确念出“have”的程度或可能性。同理，也可以根据对应同一音素标签的多个目标音素语音的置信度来确定该音素标签的音素准确度，本实施例对此不做赘述。

本发明实施例中，目标语音数据可以为用户输入的一段语音，也可以为用户分多次输入的多段语音，本实施例对此不做限定。以统计的方式确定词准确度和音素准确度，能够对用户的能力进行整体、综合地评价，可靠度更高。

可选地，上述步骤103“根据连续的多个目标词语音的词开始时间和词结束时间确定相应的时间参数”包括：

步骤c1：在时间参数包括语速的情况下，将同一目标词语音的词开始时间与词结束时间之间的时间作为有效时间，并确定由连续的多个有效时间组成的时间段内目标音素语音的数量，根据时间段内目标音素语音的数量确定语速。

本发明实施例中，若时间参数包括语速，即若需要把语速作为一项评价维度，则需要确定出语速。传统方式一般将一段时间内用户说出的词(如单词)的数量作为语速，但用户在录制语音数据时可能会存在异常停顿，并且如英语等语言不同词的发音时长也不相同，导致传统方式确定的语速不太准确。本发明实施例中，把音素作为最小单位，基于音素的数量来确定语速。

具体地，本发明实施例提出两个词之间的无效时间，只将一个词语音所占的时间作为有效时间，即将同一目标词语音的词开始时间与词结束时间之间的时间作为有效时间，基于有效时间段内目标音素语音的数量来计算语速。例如，目标语音数据为“havesomebread”，单词“have”的开始时间字段(即词开始时间)为0.69秒，结束时间字段(即词结束时间)为1.11秒，那这个单词的有效时间为0.42秒，且这个单词中的目标音素语音数量为3。单词“some”的词开始时间为1.34秒，此结束时间为1.81秒，其有效时间为0.47秒。两个单词的有效时间为0.42 0.47＝0.89秒，两个单词之间的无效时间为1.34-1.11＝0.22秒。在计算语速的过程中，只累加有效时间。例如，选取一分钟的有效时间，将该一分钟内目标音素语音的数量作为语速。

本发明实施例确定语速的方式，剔除词之间的无效部分，而是以词内音素的发音速度来确定语速，可以更加准确地表征学生掌握内容的熟练程度。并且，通过比对学生在不同题目上的语速，可以得知在哪些题目或词语上存在语速过快或语速过慢的问题，能够针对性地进行纠正。

步骤c2：在时间参数包括节奏的情况下，在相邻的两个目标词语音中，将后一个目标词语音的词开始时间与前一个目标词语音的词结束时间之间的时间作为停顿时间，并确定多个停顿时间的离散程度，根据离散程度确定节奏；其中，离散程度包括方差和/或标准差。

本发明实施例中，若需要将节奏作为一项评价维度，则需要确定节奏，本发明实施例仍然基于词开始时间和词结束时间来确定节奏。具体地，与上述确定语速不同的是，以在确定语速时无用的“无效时间”来计算节奏，即将后一个目标词语音的词开始时间与前一个目标词语音的词结束时间之间的时间(一种时间差)作为停顿时间，该停顿时间即为上述的“无效时间”，但该停顿时间对于计算节奏是有用的。本发明实施例中，可以将停顿时间的方差或标准差作为节奏，该方差或标准差越大，说明节奏越不均匀。例如，目标语音数据中的句子“havesomebreadtoo”有三个停顿，即三个停顿时间，这三个停顿时间大小的均衡程度表明了学生的节奏的均衡程度。例如，若三个停顿时间为“0.01，0.5，0.02”，这组停顿明显就能看出在第二处有一个相对较长的停顿，即在some与bread之间停顿较长，该句朗读属于“节奏不均匀”。其中，可以确定目标语音数据中每句话的节奏，也可以确定每段文本的节奏，本实施例对此不做限定。

此外可选地，可以设置停顿阈值，若离散程度大于该停顿阈值，则为节奏不均匀；若离散程度小于该停顿阈值，则为节奏均匀。其中，可以预先由专家标注一批数据，标注内容为“节奏均匀”或“节奏不均匀”；基于本实施例提供的方法确定该批数据中每个句子的离散程度，并将不同的数值设为停顿阈值，确定不同数值的识别结果，该识别结构用于表示以该数值为停顿阈值时所确定的某个句子的节奏，如是节奏均匀还是节奏不均匀。最后将识别结果准确率最高时所对应的数值作为最终选取的停顿阈值。例如，该停顿阈值可以为0.19。

可选地，本发明实施例还将停顿是否异常作为一项评价维度。具体地，在步骤104“根据所有的评价维度确定目标语音数据的评价结果”之前，该方法还包括：

步骤c3：在时间参数包括节奏的情况下，将大于预设阈值的停顿时间作为异常停顿时间，并确定异常停顿时间的异常停顿参数；异常停顿参数包括异常停顿时间的停顿位置、停顿时长、所有异常停顿时间的数量中的一项或多项；将异常停顿参数作为一项评价维度。

本发明实施例中，在步骤c2中确定停顿时间之后，再计算每个停顿时间是否过长，即是否大于预设阈值(例如1秒)；若停顿时间过长，则说明学生在朗读、表达过程中出现了卡壳的情况，基于异常停顿时间的停顿位置、停顿时长可以有针对性的指出该学生的问题，以方便学生纠正。此外，还可以将所有异常停顿时间的数量作为一项异常停顿参数，通过统计得到该异常停顿参数，可以对学生甚至班级整体的停顿情况进行评价，并确定该学生或班级最容易出现问题的位置。

在上述实施例的基础上，该方法还可以将重音和/或语调作为评价维度。具体地，在步骤104“根据所有的评价维度确定目标语音数据的评价结果”之前，该方法还包括：

步骤d1：重音评价过程和/或语调评价过程。

其中，步骤d1中的“重音评价过程”包括：

步骤d11：根据标准文本确定是重音的重音音素，并根据预设的重音识别模型确定重音音素被正确识别的重音置信度。

步骤d12：根据多个重音音素的重音置信度确定重音准确率，并将重音准确率作为一项评价维度。

本发明实施例中，基于标准文本可以确定哪些音素为重音，即重音音素，进而确定目标语音数据中哪些音素语音是重音音素语音。之后基于预先训练好的重音识别模型来确定该重音音素语音被正确识别出是重音的置信度，即重音置信度。例如，该重音识别模型可以输出0、0.5、1三个数值，0表示该音素重音错误，1表示重音正确，0.5表示模型无法判断正误。在确定所有重音音素的重音置信度之后，即可统计多个重音音素的重音置信度，从而统计得到重音准确率。例如，可以将目标语音数据的所有词汇中，重音结果为1的重音音素占所有重音音素的比例。或者，也可以统计重音结果为0的重音音素占所有重音音素的比例。

此外，上述步骤d1中的“语调评价过程”包括：

步骤d13：将目标语音数据中每个句子的最后一个目标词语音作为有效目标词语音，将有效目标词语音的音高信息进行分段，确定每段音高信息的斜率。

步骤d14：若斜率为正的段数与斜率为负的段数之间的差值大于预设差值，确定有效目标词语音的语调为升调，否则有效目标词语音的语调为降调。

本发明实施例中，根据每个句子最后一个词的发音来确定语调是否正确；其中，语调包含升调和降调。如上述步骤所示，将句子最后一个词的语音作为有效目标词语音，并基于该有效目标词语音的音高(pitch)信息来判断语调。具体地，音高信息表示相应词的音调或音量大小，本实施例将该音高信息分为多段，并计算每段的斜率，基于斜率为正以及斜率为负两种音高的数量(即段数)来判断语调为升调还是降调。例如，可以将预设差值设为3，则如果斜率为正的段数-斜率为负的段数所得到的差值大于3，则认为有效目标词语音为升调。

步骤d15：根据标准文本确定有效目标词语音的语调是否正确，根据多个有效目标词语音确定语调准确率，并将语调准确率作为一项评价维度。

本发明实施例中，基于标准文本可以确定每句话最后一个词的语调，即可以确定有效目标词语音本该具有的语调；因此，基于标准文本可以判断上述步骤d14所确定的语调是否正确，进而确定目标语音数据的语调准确率，并可以把该语调准确率作为一项评价维度来评价目标语音数据。

此外可选地，由于评价维度包含多个，不同评价维度之间存在差异，故此时可以对所有的评价维度进行归一化处理，从而可以基于所有的评价维度生成对目标语音数据的总的评价结果。例如，将每种评价维度均分为多个等级，如优、良、中、差四个等级，进而基于每个评价维度的等级来确定总的评价结果作为综合能力值。例如，优＝95，良＝82.5，中＝67.5，差＝30，假如共有8个评价维度，其等级分别为：优*2，良*3，中*3，那么其综合能力值＝(95*2 82.5*3 67.5*3)/8＝80。

需要说明的是，本发明实施例中的评价结果是对“能力”的评价，上述的综合能力值也适用于评价用户的能力，而不是传统意义上的“分数”。传统的分数只是用于评价学生某段语音或某次考试的成绩，但与学生的能力还稍有不同。本发明实施例以词或音素为最小粒度，能够从细节维度中比较准确地评价用户的能力；例如通过词准确度的大小可以确定该用户念出相应词的能力大小。本实施例对用户的能力进行评价，使得用户能够更加准确地了解自己的能力，进而有针对性地提高自己的能力。

上文详细描述了本发明实施例提供的综合评价语音的方法，该方法也可以通过相应的装置实现，下面详细描述本发明实施例提供的综合评价语音的装置。

图3示出了本发明实施例所提供的一种综合评价语音的装置的结构示意图。如图3所示，该综合评价语音的装置包括：

获取模块31，用于获取待评价的目标语音数据以及与所述目标语音数据相对应的标准文本；

识别模块32，用于以所述标准文本为基准对所述目标语音数据进行识别处理，确定所述目标语音数据中每个目标词语音的词参数，并确定所述目标词语音中每个目标音素语音的音素置信度；所述词参数包括词开始时间、词结束时间和词置信度；

评价维度确定模块33，用于根据所述词置信度确定相应目标词语音的词准确度，根据所述音素置信度确定相应目标音素语音的音素准确度，并根据连续的多个所述目标词语音的词开始时间和词结束时间确定相应的时间参数，所述时间参数包括语速和/或节奏；

评价模块34，用于将所述词准确度、所述音素准确度和所述时间参数均作为评价维度，并根据所有的所述评价维度确定所述目标语音数据的评价结果。

在上述实施例的基础上，所述识别模块32确定所述目标词语音中每个目标音素语音的音素置信度，包括：

设置识别模型，所述识别模型包括编码子模型、对齐输出子模型和识别输出子模型；所述编码子模型用于将输入数据编码为特征向量，所述对齐输出子模型用于根据所述特征向量确定相应的音素对齐信息，所述识别输出子模型用于根据所述特征向量和所述音素对齐信息确定所述输入数据中每个音素的识别结果；

对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型不变的情况下，对所述识别输出子模型进行训练，确定训练后的识别模型；

将所述目标语音数据输入至所述识别模型，确定所述目标语音数据的特征向量和每个目标音素语音的音素对齐信息，并基于所述识别输出子模型确定所述目标语音数据中每个目标音素语音的音素置信度；其中，所述音素对齐信息包括音素开始时间和音素结束时间。

在上述实施例的基础上，所述识别模块32对所述编码子模型和所述对齐输出子模型进行训练，之后，在保持所述编码子模型不变的情况下，对所述识别输出子模型进行训练，包括：

获取第一数据集，对所述第一数据集中的第一语音数据进行音素对齐，确定所述第一语音数据中每帧数据的标签；

将所述第一数据集作为训练集，将所述第一语音数据作为所述编码子模型的输入、将所述第一语音数据中每帧数据的标签作为所述对齐输出子模型的输出，对所述编码子模型和所述对齐输出子模型进行训练；

获取第二数据集，对所述第二数据集的第二语音数据进行音素对齐，并确定所述第二语音数据对应的文本；所述第二语音数据为发音正确的数据，且所述第二语音数据的数量小于所述第一语音数据的数量；

将所述第二数据集作为训练集，在保持所述编码子模型不变的情况下，将所述第二语音数据作为所述编码子模型的输入、将所述第二语音数据对应的文本作为所述识别输出子模型的输出，对所述识别输出子模型进行训练。

在上述实施例的基础上，所述评价维度确定模块33根据所述词置信度确定相应目标词语音的词准确度，根据所述音素置信度确定相应目标音素语音的音素准确度，包括：

为所述目标语音数据中每个所述目标词语音添加与所述标准文本中的相应词相一致的词标签，并为所述目标音素语音添加与所述标准文本中的相应音素相一致的音素标签；

以所述词标签为单位，将具有相同词标签的多个所述目标词语音的词置信度的平均值作为所述词标签的词准确度；

以所述音素标签为单位，将具有相同音素标签的多个所述目标音素语音的音素置信度的平均值作为所述音素标签的音素准确度。

在上述实施例的基础上，所述评价维度确定模块33根据连续的多个所述目标词语音的词开始时间和词结束时间确定相应的时间参数，包括：

在所述时间参数包括语速的情况下，将同一所述目标词语音的所述词开始时间与所述词结束时间之间的时间作为有效时间，并确定由连续的多个所述有效时间组成的时间段内所述目标音素语音的数量，根据所述时间段内所述目标音素语音的数量确定语速；

在所述时间参数包括节奏的情况下，在相邻的两个所述目标词语音中，将后一个所述目标词语音的词开始时间与前一个所述目标词语音的词结束时间之间的时间作为停顿时间，并确定多个所述停顿时间的离散程度，根据所述离散程度确定节奏；其中，所述离散程度包括方差和/或标准差。

在上述实施例的基础上，在所述根据所有的所述评价维度确定所述目标语音数据的评价结果之前，所述评价维度确定模块33还用于：

在所述时间参数包括节奏的情况下，将大于预设阈值的停顿时间作为异常停顿时间，并确定所述异常停顿时间的异常停顿参数；所述异常停顿参数包括所述异常停顿时间的停顿位置、停顿时长、所有所述异常停顿时间的数量中的一项或多项；

将所述异常停顿参数作为一项评价维度。

在上述实施例的基础上，在所述根据所有的所述评价维度确定所述目标语音数据的评价结果之前，所述评价维度确定模块33还用于：

重音评价过程和/或语调评价过程；

所述重音评价过程包括：根据所述标准文本确定为重音的重音音素，并根据预设的重音识别模型确定所述重音音素被正确识别的重音置信度；根据多个重音音素的重音置信度确定重音准确率，并将所述重音准确率作为一项评价维度；

所述语调评价过程包括：将所述目标语音数据中每个句子的最后一个所述目标词语音作为有效目标词语音，将所述有效目标词语音的音高信息进行分段，确定每段所述音高信息的斜率；

若斜率为正的段数与斜率为负的段数之间的差值大于预设差值，确定所述有效目标词语音的语调为升调，否则所述有效目标词语音的语调为降调；以及

根据所述标准文本确定所述有效目标词语音的语调是否正确，根据多个所述有效目标词语音确定语调准确率，并将所述语调准确率作为一项评价维度。

此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述综合评价语音的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图4所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现上述综合评价语音的方法实施例的各个过程。

收发器1130，用于在处理器1120的控制下接收和发送数据。

本发明实施例中，总线架构(用总线1110来代表)，总线1110可以包括任意数量互联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口(accelerategraphicalport，agp)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构(industrystandardarchitecture，isa)总线、微通道体系结构(microchannelarchitecture，mca)总线、扩展isa(enhancedisa，eisa)总线、视频电子标准协会(videoelectronicsstandardsassociation，vesa)、外围部件互连(peripheralcomponentinterconnect，pci)总线。

处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器(centralprocessingunit，cpu)、网络处理器(networkprocessor，np)、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(fieldprogrammablegatearray，fpga)、复杂可编程逻辑器件(complexprogrammablelogicdevice，cpld)、可编程逻辑阵列(programmablelogicarray，pla)、微控制单元(microcontrollerunit，mcu)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(randomaccessmemory，ram)、闪存(flashmemory)、只读存储器(read-onlymemory，rom)、可编程只读存储器(programmablerom，prom)、可擦除可编程只读存储器(erasableprom，eprom)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

总线1110还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

应理解，在本发明实施例中，存储器1150可进一步包括相对于处理器1120远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(adhocnetwork)、内联网(intranet)、外联网(extranet)、虚拟专用网(vpn)、局域网(lan)、无线局域网(wlan)、广域网(wan)、无线广域网(wwan)、城域网(man)、互联网(internet)、公共交换电话网(pstn)、普通老式电话业务网(pots)、蜂窝电话网、无线网络、无线保真(wi-fi)网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信(gsm)系统、码分多址(cdma)系统、全球微波互联接入(wimax)系统、通用分组无线业务(gprs)系统、宽带码分多址(wcdma)系统、长期演进(lte)系统、lte频分双工(fdd)系统、lte时分双工(tdd)系统、先进长期演进(lte-a)系统、通用移动通信(umts)系统、增强移动宽带(enhancemobilebroadband，embb)系统、海量机器类通信(massivemachinetypeofcommunication，mmtc)系统、超可靠低时延通信(ultrareliablelowlatencycommunications，urllc)系统等。

应理解，本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器，或可包括易失性存储器和非易失性存储器两者。其中，非易失性存储器包括：只读存储器(read-onlymemory，rom)、可编程只读存储器(programmablerom，prom)、可擦除可编程只读存储器(erasableprom，eprom)、电可擦除可编程只读存储器(electricallyeprom，eeprom)或闪存(flashmemory)。

易失性存储器包括：随机存取存储器(randomaccessmemory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如：静态随机存取存储器(staticram，sram)、动态随机存取存储器(dynamicram，dram)、同步动态随机存取存储器(synchronousdram，sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram，ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram，esdram)、同步连接动态随机存取存储器(synchlinkdram，sldram)和直接内存总线随机存取存储器(directrambusram，drram)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。

在本发明实施例中，存储器1150存储了操作系统1151和应用程序1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。

具体而言，操作系统1151包含各种系统程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：媒体播放器(mediaplayer)、浏览器(browser)，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述综合评价语音的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、非易失性随机存取存储器(nvram)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。

在本申请所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(包括：个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。

在本发明实施例的描述中，所属技术领域的技术人员应当知道，本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本发明实施例可以具体实现为以下形式：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外，在一些实施例中，本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。

上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的系统、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom)、闪存(flashmemory)、光纤、光盘只读存储器(cd-rom)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行系统、装置、器件使用或与其结合使用。

上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输，包括：无线、电线、光缆、射频(radiofrequency，rf)或者以上任意合适的组合。

可以以汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，例如：java、smalltalk、c ，还包括常规的过程式程序设计语言，例如：c语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括：局域网(lan)或广域网(wan)，可以连接到用户计算机，也可以连接到外部计算机。

本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。

应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。

也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种新型钢琴教学用踏板延伸装置的制作方法

一种综合评价语音的方法、装置及电子设备与流程

相关文章

最热文献