一种语音识别方法、智能终端及存储介质与流程

2021-06-29 20:23:00 来源：中国专利 TAG：语音识别终端智能方法存储介质

1.本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、智能终端及存储介质。

背景技术：

2.相较于拼音、字形等文本输入方式，语音输入方式具有速度快、操作便捷等优点，被应用到越来越多的场景中。但是，受到汉语多字同音、方言、发音不标准以及噪音等因素的影响，语音识别结果错误的情况时有发生，给用户使用带来不便，影响了语音识别产品的推广。
3.因此，现有技术还有待改进和发展。

技术实现要素：

4.发明人发现，在现有技术中，语音识别的错误点往往出现在专有名词上，而专有名词是用户整句话的重点，例如，对于智能电视来说，用户使用语音识别进行搜索观看时，会说出包含电视剧名、人名、歌曲名等的句子，如“我想看琅琊榜”等，而智能电视必须要识别出电视剧名、人名、歌曲名等专有字符串，才能执行正确的搜索，达成用户的目的。然而，由于汉语中多字同音、方言以及周围噪音的影响，在现有技术中，对电视剧名、人名、歌曲名等专有字符串的识别会存在误差，如将“我想看琅琊榜”识别为“我想看狼牙棒”。专有名字符串的识别错误显然会导致语音识别的准确率大大降低，甚至与用户的原有意向想去甚远。
5.本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种语音识别方法、智能终端及存储介质，旨在解决现有技术中语音识别对专有名词识别准确率低的问题。
6.本发明的技术方案如下：
7.本发明的第一方面，提供了一种语音识别方法，所述语音识别方法包括：
8.获取语音信息对应的文本，提取出所述文本中的第一字符串，并将所述第一字符串与目标数据库中的预设字符串进行匹配；
9.当所述目标数据库中不存在与所述第一字符串相同的预设字符串时，获取所述目标数据库中与所述第一字符串对应的目标预设字符串；
10.将所述文本中的所述第一字符串替换为所述目标预设字符串，将替换后的所述文本作为所述语音信息的识别结果。
11.所述的语音识别方法，其中，所述将所述第一字符串与目标数据库中的预设字符串进行匹配包括：
12.获取所述语音信息对应的专业类别；
13.根据所述专业类别在预先设置的至少一个数据库中选取所述专业类别对应的数据库，并将所述数据库作为所述目标数据库；
14.将所述第一字符串与所述目标数据库中的预设字符串进行匹配。
15.所述的语音识别方法，其中，所述提取出所述文本中的第一字符串具体包括：
16.将所述文本输入至所述专业类别对应的第一模型中，获取所述第一模型输出的所述第一字符串；
17.其中，所述第一模型是根据第一数据集训练而成的，所述第一数据集包括多组第一样本，每组第一样本中包括所述专业类别中的样本文本以及样本文本对应的样本第一字符串。
18.所述的语音识别方法，其中，所述获取所述目标数据库中与所述第一字符串对应的目标预设字符串包括：
19.获取所述第一字符串对应的第一音节序列；
20.将所述第一音节序列输入至预先训练的第二模型，获取所述第二模型输出的第二音节序列；
21.其中，所述第二模型是根据第二数据集训练而成的，所述第二数据集包括多组第二样本，每组第二样本中包含样本音节序列以及样本音节序列对应的样本第二音节序列，其中，所述样本第二音节序列是所述目标数据库中的一预设字符串对应的音节序列；
22.根据所述第二音节序列确定所述目标预设字符串。
23.所述的语音识别方法，其中，所述根据所述第二音节序列获取所述目标预设字符串包括：
24.当所述目标数据库中不存在音节序列与所述第二音节序列一致的预设字符串时，将所述目标数据库中与所述第二音节序列的相关度最高的预设字符串作为所述目标预设字符串。
25.所述的语音识别方法，其中，所述根据所述第二音节序列获取所述目标预设字符串包括：
26.当所述目标数据库中音节序列与所述第二音节序列一致的预设字符串的数量为一个时，将音节序列与所述第二音节序列一致的预设字符串作为所述目标预设字符串。
27.所述的语音识别方法，其中，所述目标数据库中存储有各个预设字符串分别在历史使用数据中的使用频率，所述根据所述第二音节序列获取所述目标预设字符串包括：
28.当所述目标数据库中音节序列与所述第二音节序列一致的预设字符串的数量为多个时，将音节序列与所述第二音节序列一致的预设字符串中使用频率最高的预设字符串作为所述目标预设字符串。
29.所述的语音识别方法，其中，所述目标数据库中与所述第二音节序列的相关度最高的预设字符串为与所述第二音节序列的编辑距离最小的音节序列对应的预设字符串；所述将所述目标数据库中与所述第二音节序列的相关度最高的预设字符串作为所述目标预设字符串包括：
30.在所述目标数据库中选取至少一个第一预设字符串，其中，每个第一预设字符串的音节序列与所述第二音节序列包括至少预设数量个相同的音节；
31.分别获取所述至少一个第一预设字符串的音节序列与所述第二音节序列的编辑距离；
32.将编辑距离最小的音节序列对应的第一预设字符串作为所述目标预设字符串。
33.本发明的第二方面，提供了一种智能终端，其中，所述智能终端包括：处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存
储介质中的指令，以执行实现上述任一项所述的语音识别方法。
34.本发明的第三方面，提供了一种存储介质，其中，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述任意一项所述的语音识别方法。
35.本发明的技术效果：本发明提供的语音识别方法，在将获取到的语音转换为文本时，将文本中的理论上应为专有字符串的第一字符串提取出来，并在所述第一字符串不是专有字符串时，获取所述第一字符串对应的专有字符串，提高了语音识别中对专有字符串的识别准确率。
附图说明
36.图1是本发明提供的语音识别方法的实施例一的流程图；
37.图2是本发明提供的语音识别方法的实施例一中步骤s100的子步骤流程图；
38.图3是本发明提供的语音识别方法中获取目标预设字符串的一种实现方式的流程图；
39.图4是本发明提供的一种智能终端的功能原理图。
具体实施方式
40.为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
41.本发明提供了一种语音识别方法，所述语音识别方法可以应用于终端中，用户在使用支持语音识别的终端时，向终端说出语音，终端根据本发明提供的语音识别方法，对用户说出的语音进行识别，输出语音识别结果。其中，终端可以但不限于是各种个人计算机、笔记本电脑、手机、平板电脑、车载电脑和便携式可穿戴设备。
42.实施例一
43.请参阅图1，图1是本发明提供的语音识别方法的实施例一的流程简图。所述语音识别方法包括：
44.s100、获取语音信息对应的文本，提取出所述文本中的第一字符串，并将所述第一字符串与目标数据库中的预设字符串进行匹配。
45.所述语音信息是用户发出的信息，具体地，当用户想使用语音输入时，可以发出所述语音信息。所述语音信息对应的文本可以是单独设置的语音转换设备根据所述语音信息转换得到，再输入至所述终端，也可以是由设置在终端本身内部的语音转换单元根据所述语音信息转换得到的。
46.所述文本中的第一字符串是指所述文本中理论上应为专有字符串的字符串，专有字符串是专业领域中的特有词汇对应的字符串，例如，影视领域中的专有字符串可以是电视剧名、电影名等，体育领域中的专有字符串可以是体育动作名称、运动员名字等，所述目标数据库是存储有所述语音信息对应的专业类别的专有字符串的数据库，所述专业类别是专业领域的类别，如影视类、体育类等，所述目标数据库中的所述预设字符串为所述语音信息对应的专业类别的专有字符串。所述目标数据库中的预设字符串可以由人工搜集的方式
获取，也可以通过爬虫自动访问万维网来获取。所述目标数据库可以是存储在终端本地，也可以是存储在云端。
47.具体地，正如发明内容部分所说明的，在语音识别的过程中，识别错误的情况往往发生在专有字符串部分，同时专有字符串的识别准确率对语音识别总体结果的准确率影响很大，因此，在本发明中，在获取到所述语音信息对应的文本后，是提取出所述文本中理论上应为专有字符串的所述第一字符串，并将所述第一字符串与目标数据库中的预设字符串进行匹配，已确定所述第一字符串是否为专有字符串。
48.而对于不同的专业类别来说，具有不同的专有字符串，如图2所示，所述将所述第一字符串与目标数据库中的预设字符串进行匹配包括：
49.s110、获取所述语音信息对应的专业类别；
50.所述语音信息对应的专业类别可以是通过所述语音信息对应的文本来获得，例如，所述语音信息对应的文本为“我想看xxx”，“我想听xxx”，那么可以获取所述语音信息对应的专业类别为影视类；所述语音信息对应的专业类别还可以是根据接收到所述语音信息时，终端的界面信息来获取，当接收到所述语音信息时，所述终端的界面为新闻界面，那么，可以获取所述语音信息对应的专业类别为新闻类。
51.s120、根据所述专业类别在预先设置的至少一个数据库中选取所述专业类别对应的数据库，并将所述数据库作为所述目标数据库。
52.在本实施例中，预先根据不同的专业类别建立至少一个数据库，每个数据库中存储有对应的专业类别的专有字符串，在获取到所述语音信息后，根据所述语音信息对应的所述专业类别，选取所述专业类别对应的数据库作为所述目标数据库。
53.s130、将所述第一字符串与所述目标数据库中的预设字符串进行匹配。
54.在获取到所述目标数据库后，将所述第一字符串与所述目标数据库中的预设字符串进行匹配，以确定所述第一字符串是否为专有字符串。
55.在本实施例中，是通过预先训练的第一模型来获取所述文本中的所述第一字符串的，而在不同的专业类别中，专有字符串不同，其在句子中的位置也不同，用于提取所述第一字符串的模型也不同，所述提取出所述文本中的第一字符串具体包括：
56.将所述文本输入至所述专业类别对应的第一模型中，获取所述第一模型输出的所述第一字符串。
57.所述第一模型是根据第一数据集训练而成的，所述第一数据集包括多组第一样本，为了使得训练得到的所述第一模型能够适用于提取所述专业类别对应的语音信息中的所述第一字符串，每组第一样本中包括所述专业类别中的样本文本以及样本文本对应的样本第一字符串。具体实施时，可以根据多个现有用户的历史输入数据来获取所述第一样本，例如获取用户通过语音或手动输入的所述专业类别中的文本作为样本文本，并对样本文本进行标注，将文本中的专有字符串标注为样本第一字符串，即完成了包括样本文本以及样本文本对应的样本第一字符串的所述第一样本。
58.值得说明的是，所述样本文本对应的所述样本第一字符串不一定是专有字符串，也可以是带有错别字的专有字符串，在对所述样本文本进行标注时，可以将带有错别字的专有字符串标注为所述样本第一字符串，也就是说，所述样本第一字符串为所述样本文本中理论上应是专有字符串的部分。因此，当所述语义信息转换得到的所述文本中的专有字
符串包含错别字时，仍可以获取所述文本中的所述第一字符串，所述第一字符串可能是有错别字的专有字符串。
59.所述第一模型可以是crf(conditional random field，条件随机场)模型，也可以通过lstm(long short-term memory)模型，当然，本领域技术人员可以根据需要，选择自然语言处理领域中其他的模型作为所述第一模型，例如bi-lstm(bi-direction long short-term memory)模型、bi-lstm crf模型等。
60.在获取到所述第一字符串后，确定所述第一字符串是否为专有字符串，具体地，是将所述第一字符串与所述目标数据库中的预设字符串进行匹配：当所述终端获取到所述第一字符串时，遍历所述目标数据库中的所有预设字符串，确定所述目标数据库中是否存在所述第一字符串，当所述目标数据库中存在所述第一字符串时，说明对所述语音信息中的专有字符串识别正确，则直接输出所述文本作为所述语音信息的识别结果，当不存在时，说明对所述语音信息中的专有字符串识别不正确，需要进行修正。
61.具体地，所述语音识别方法还包括：
62.s200、当所述目标数据库中不存在与所述第一字符串相同的预设字符串时，获取所述目标数据库中与所述第一字符串对应的目标预设字符串。
63.所述目标预设字符串为所述第一字符串对应的专有字符串，当所述目标数据库中不存在与所述第一字符串相同的预设字符串时，获取所述目标数据库中与所述第一字符串对应的目标预设字符串，在本实施例中，是通过所述第一字符串的音节序列来获取所述目标预设字符串的。具体地，所述获取所述目标数据库中与所述第一字符串对应的目标预设字符串包括：
64.s210、获取所述第一字符串的第一音节序列。
65.字符串对应的音节序列是字符串中每个字符的音节按照该字符串中字符的顺序组成的序列，所述第一音节序列是所述第一字符串中包含的每个字符的音节按照所述第一字符串中字符的顺序组成的序列。例如，“小猪佩奇”对应的音节序列为“x，iao，zh，u，p，ei，q，i”。
66.s220、将所述第一音节序列输入至预先训练的第二模型，获取所述第二模型输出的第二音节序列。
67.当所述第一字符串不在所述目标数据库中，那么，所述第一字符串可能是有错误的专有字符串，例如缺字或存在错别字。在本实施例中，根据预先训练的第二模型来对所述第一字符串进行纠错。
68.具体地，所述第二模型是根据第二数据集训练而成的，所述第二数据集包括多组第二样本，每组第二样本中包含样本音节序列以及样本音节序列对应的样本第二音节序列。其中，所述样本第二音节序列是所述目标数据库中的一预设字符串对应的音节序列，所述样本音节序列是将所述样本第二音节序列中的部分音节随机替换为其他的音节生成的。也就是说，对所述第二模型进行训练时，是先在所述目标数据库中选取多个预设字符串，并对选取的每个预设字符串进行随机音节替换，根据随机音节替换后生成的音节序列与随机替换前的音节序列的对应关系来训练所述第二模型，也就是说，所述第二模型的训练目标在于使得所述第二模型具备根据将输入的音节序列纠正为所述目标数据库中的预设字符串对应的音节序列的能力，这样，将所述第一音节序列输入至训练完成后的第二模型后，所
述第二模型输出的所述第二音节序列大概率为所述目标数据库中的预设字符串的音节序列。
69.所述第二模型可以是bert(bidirectional encoder representation from transformers)模型，当然，本领域技术人员也可以选择其他合适的自然语言处理模型，如n-gram模型(n元模型)等。在训练所述第二模型时，需要将所述第二样本中的各个音节转换为计算机可运算的向量形式，即，需要获取各个音节对应的词向量。在本实施例中，各个音节对应的词向量是根据所述目标数据库中的所有预设字符串对应的音节序列为数据集来得到的。具体地，可以是使用word2vec等词向量训练工具，以所述目标数据库中的所有预设字符串对应的音节序列组成的数据集作为训练数据集获取各个音节对应的词向量。
70.s230、根据所述第二音节序列获取所述目标预设字符串。
71.所述第二模型输出的所述第二音节序列是所述第二模型预测的所述第一音节序列对应的专有字符串，由于在对所述第二模型进行训练时，所述第二样本中的所述样本音节序列是对所述目标数据库中的预设字符串进行随机替换而生成的，而随机替换生成的音节序列可能与实际中用户发出的语音信息的识别结果不符合，例如，所述目标数据库中一预设字符串为“小猪佩奇”，对应的音节序列为“x，iao，zh，u，p，ei，q，i”对其进行随机替换生成所述样本音节序列可能为“x，iao，k，u，p，ei，t，i”或“t，iao，sh，u，p，ei，t，i”等，然而在实际中，用户不大可能会发出被识别为上述音节序列的语音信息，对用户发出的语音信息的识别结果可能大部分为“x，iao，z，u，p，ei，q，i”,“x，iao，z，u，b，ei，q，i”，也就是说，所述第二模型的训练样本与实际数据不一致导致所述第二模型的能力有限，因此，所述第二模型很可能不能完全达到所述第二模型的训练目标，即根据所述第一音节序列输出的第二音节序列可能并不是所述目标数据库中的预设字符串，也就是说，所述目标数据库中可能存在音节序列与所述第二音节序列一致的预设字符串，也可能不存在音节序列与所述第二音节序列一致的预设字符串。
72.在一种可能的实现方式中，所述根据所述第二音节序列获取所述目标预设字符串包括：
73.当所述目标数据库中音节序列与所述第二音节序列一致的预设字符串的数量为一个时，将音节序列与所述第二音节序列一致的预设字符串作为所述目标预设字符串。
74.当所述目标数据库中存在音节序列与所述第二音节序列一致的预设字符串且只有一个时，说明所述第二音节序列是专有字符串对应的音节序列，那么，直接获取所述目标数据库中音节序列为所述第二音节序列的预设字符串作为所述目标字符串。
75.在另一种可能的实现方式中，所述目标数据库中存储有各个预设字符串分别在历史使用数据中的使用频率，所述根据所述第二音节序列获取所述目标预设字符串包括：
76.当所述目标数据库中音节序列与所述第二音节序列一致的预设字符串的数量为多个时，将音节序列与所述第二音节序列一致的预设字符串中使用频率最高的预设字符串作为所述目标预设字符串。
77.所述使用频率是所述目标数据库中的预设字符串被用户使用的频率，所述使用频率可以是在建立所述目标数据库时，根据各个预设字符串在统计数据中的出现频率来获取，也可以是根据用户输入各个预设字符串频率来获取。所述目标数据库中可能存在多个音节序列一样的预设字符串，当音节序列与所述第二音节序列一致的预设字符串的数量为
多个时，则获取音节序列与所述第二音节序列一致的预设字符串中使用频率最高的预设字符串作为所述目标预设字符串。
78.前面已经说明，所述目标数据库中可能并不存在音节序列与所述第二音节序列一致的预设字符串，因此，在一种可能的实现方式中，所述根据所述第二音节序列获取所述目标预设字符串包括：
79.当所述目标数据库中不存在音节序列与所述第二音节序列一致的预设字符串时，将所述目标数据库中与所述第二音节序列的相关度最高的预设字符串作为所述目标预设字符串。
80.具体地，当所述目标数据库中不存在音节序列与所述第二音节序列一致的预设字符串时，说明所述第二模型输出的所述第二音节序列仍不是专有字符串对应的音节序列，需要进一步修正，此时是根据所述第二音节序列与所述目标数据库中的预设字符串的相关度获取所述第二名词。
81.具体地，在本实施例中，用音节序列之间的编辑距离来评价所述第二音节序列与预设字符串之间的相关度，所述目标数据库中与所述第二音节序列的相关度最高的预设字符串为与所述第二音节序列的编辑距离最小的音节序列对应的预设字符串。编辑距离(edit distance)是语言处理领域中用来度量两个字符串的差异程度的指标，是指将一个字符串转换为另一个字符串时需要的单字符编辑次数。当两个字符串的编辑距离越大，说明两个字符串的差异越大，反之，两个字符串的编辑距离越小，说明两个字符串之间的差异越小。
82.如图3所示，所述将所述目标数据库中与所述第二音节序列的相关度最高的预设字符串作为所述目标预设字符串包括：
83.s231、在所述目标数据库中选取至少一个第一预设字符串，其中，每个预设字符串的音节序列与所述第二音节序列包括至少预设数量个相同的音节。
84.具体地，在所述目标数据库中存在很多个预设字符串，即，存在很多个预设字符串的音节序列，获取每个预设字符串的音节序列与所述第二音节序列的编辑距离，进而选取编辑距离最小的音节序列对应的预设字符串显然是需要耗费大量计算资源的，在本实施例中，是在所述目标数据库中选取与所述第二音节序列接近的预设字符串作为与所述目标预设字符串的候选集，具体地，是在全部的预设字符串中选取至少一个第一预设字符串，每个第一预设字符串的音节序列和所述第二音节序列包括至少预设数量个相同的音节。所述预设数量可以是3、6、8等，不难看出，所述预设数量越大，所述第一预设字符串的个数就越少，那么获取与所述第二音节序列编辑距离最小的音节序列的计算量就越小，但是由于计算样本量小，可能会丢失所述目标数据库中真正与所述第二音节序列相关度最高的预设字符串，导致结果不准确。所述预设数量越小，所述第一预设字符串的个数就越多，获取与所述第二音节序列相关度最高的预设字符串的计算量就越大，但是计算样本量大，结果更准确。
85.s232、分别获取所述至少一个第一预设字符串的音节序列与所述第二音节序列的编辑距离。
86.在获取到所述至少一个第一预设字符串后，分别计算每个第一预设字符串的音节序列与所述第二音节序列的编辑距离。
87.s233、将编辑距离最小的音节序列对应的第一预设字符串作为所述目标预设字符
串。
88.若所述至少一个第一预设字符串中的一个第一预设字符串的音节序列与所述第二音节序列的编辑距离最小，说明这个第一预设字符串的音节序列与所述第二音节序列的差异是所有第一预设字符串中最小的。确定编辑距离最小的音节序列后，获取编辑距离最小的音节序列对应的第一预设字符串，该第一预设字符串是与所述第二音节序列相关度最高的预设字符串，在本实施例中，获取该第一预设字符串作为所述目标预设字符串。
89.在实际实施时，还有可能出现存在编辑距离相同的多个音节序列情况，在一种可能的实现方式中，当出现多个编辑距离相同的所述音节序列时，获取所述目标数据库中编辑距离相同的各个音节序列对应的第一预设字符串的使用频率，将使用频率最高的第一预设字符串作为所述目标预设字符串。
90.请再次参阅图1，在获取到所述目标预设字符串后，所述语音识别方法还包括：
91.s300、将所述文本中的所述第一字符串替换为所述目标预设字符串，将替换后的所述文本作为所述语音信息的识别结果。
92.前面已经说明，所述目标预设字符串是所述第一字符串对应的专有字符串，因此，在获取所述目标预设字符串后，使用所述目标预设字符串替换掉所述文本中的第一字符串，替换后的所述文本是包含了修正了错误的专有字符串的文本，输出替换后的所述文本作为所述语音信息的识别结果。
93.由以上实施例可以看出，本发明提供的语音识别方法，在将获取到的语音转换为文本时，将文本中的理论上应为专有字符串的第一字符串提取出来，并在所述第一字符串不是专有字符串时，获取所述第一字符串对应的专有字符串，提高了语音识别中对专有字符串的识别准确率。
94.实施例二
95.基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图4所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏，该智能终端的温度传感器是预先在智能终端内部设置，用于检测内部设备的当前运行温度。
96.本领域技术人员可以理解，图4中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
97.在一个实施例中，提供了一种智能终端，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时至少可以实现以下步骤：
98.获取语音信息对应的文本，提取出所述文本中的第一字符串，并将所述第一字符串与目标数据库中的预设字符串进行匹配；
99.当所述目标数据库中不存在与所述第一字符串相同的预设字符串时，获取所述目标数据库中与所述第一字符串对应的目标预设字符串；
100.将所述文本中的所述第一字符串替换为所述目标预设字符串，将替换后的所述文本作为所述语音信息的识别结果。
101.其中，所述将所述第一字符串与目标数据库中的预设字符串进行匹配包括：
102.获取所述语音信息对应的专业类别；
103.根据所述专业类别在预先设置的至少一个数据库中选取所述专业类别对应的数据库，并将所述数据库作为所述目标数据库；
104.将所述第一字符串与所述目标数据库中的预设字符串进行匹配。
105.其中，所述提取出所述文本中的第一字符串具体包括：
106.将所述文本输入至所述专业类别对应的第一模型中，获取所述第一模型输出的所述第一字符串；
107.其中，所述第一模型是根据第一数据集训练而成的，所述第一数据集包括多组第一样本，每组第一样本中包括所述专业类别中的样本文本以及样本文本对应的样本第一字符串。
108.其中，所述获取所述目标数据库中与所述第一字符串对应的目标预设字符串包括：
109.获取所述第一字符串对应的第一音节序列；
110.将所述第一音节序列输入至预先训练的第二模型，获取所述第二模型输出的第二音节序列；
111.其中，所述第二模型是根据第二数据集训练而成的，所述第二数据集包括多组第二样本，每组第二样本中包含样本音节序列以及样本音节序列对应的样本第二音节序列，其中，所述样本第二音节序列是所述目标数据库中的一预设字符串对应的音节序列；
112.根据所述第二音节序列确定所述目标预设字符串。
113.其中，所述根据所述第二音节序列获取所述目标预设字符串包括：
114.当所述目标数据库中不存在音节序列与所述第二音节序列一致的预设字符串时，将所述目标数据库中与所述第二音节序列的相关度最高的预设字符串作为所述目标预设字符串。
115.其中，所述根据所述第二音节序列获取所述目标预设字符串包括：
116.当所述目标数据库中音节序列与所述第二音节序列一致的预设字符串的数量为一个时，将音节序列与所述第二音节序列一致的预设字符串作为所述目标预设字符串。
117.其中，所述目标数据库中存储有各个预设字符串分别在历史使用数据中的使用频率，所述根据所述第二音节序列获取所述目标预设字符串包括：
118.当所述目标数据库中音节序列与所述第二音节序列一致的预设字符串的数量为多个时，将音节序列与所述第二音节序列一致的预设字符串中使用频率最高的预设字符串作为所述目标预设字符串。
119.其中，所述目标数据库中与所述第二音节序列的相关度最高的预设字符串为与所述第二音节序列的编辑距离最小的音节序列对应的预设字符串；所述将所述目标数据库中与所述第二音节序列的相关度最高的预设字符串作为所述目标预设字符串包括：
120.在所述目标数据库中选取至少一个第一预设字符串，其中，每个第一预设字符串的音节序列与所述第二音节序列包括至少预设数量个相同的音节；
121.分别获取所述至少一个第一预设字符串的音节序列与所述第二音节序列的编辑距离；
122.将编辑距离最小的音节序列对应的第一预设字符串作为所述目标预设字符串。
123.实施例三
124.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
125.本发明提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或多个程序可被一个或者多个处理器执行，以实现如实施例一所述的语音识别方法。
126.应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音识别处理方法、装置、设备及系统与流程

一种语音识别方法、智能终端及存储介质与流程

相关文章

最热文献