一种语音信息的处理方法、装置、设备及介质与流程

2021-10-08 22:08:00 来源：中国专利 TAG：自然语言介质语音装置理解

1.本技术涉及自然语言理解技术领域，尤其涉及一种语音信息的处理方法、装置、设备及介质。

背景技术：

2.随着人工智能技术的不断突破和各种智能设备的日益普及，人机交互在人们日常工作和生活中出现的频率越来越高。由于人们可以直接通过语音，便可与智能设备进行交互，促使语音交互成为人机交互的重要手段，也使人机交互技术被应用在越来越多的智能设备中，如：电视、智能管家服务器、智能家居等设备。对于人机交互技术，如何识别采集的待识别语音信息的目标语义，并基于识别的语义进行处理是近几年来人们比较关注的问题。
3.现有技术中，可以采用人工智能标记语言(artificial intelligence markup language，aiml)模板匹配的方法识别采集的待识别语音信息的目标语义，并基于该识别的语义进行相应的处理。其中，该aiml模板匹配方法主要通过将待识别语音信息进行语音识别，将语音识别结果转化为对应的文本信息，然后将该文本信息分别与预设的文本模板进行匹配；若目标文本与预设的文本模板匹配成功，则获取该匹配的模板对应的语义。
4.对于该aiml模板匹配方法，在识别待识别语音信息的目标语义时存在以下问题：
5.(1)由于人类语言具有多样性、复杂性和歧义性，一种语义一般有多种表达，例如“开音乐”，“打开音乐”，“请帮我打开音乐”，“帮我打开音乐”等多种说法，各种说法表达的语义都是“打开音乐，但如果想识别出各种表达方式的语义，需要针对每种语义预先保存该语义不同表达法方式的文本模板，存储文本模板的资源耗费将非常大。
6.(2)该方法直接对文本信息进行模板匹配的，缺乏上下文联系，导致识别的语义准确度不高，导致后续根据该识别的语义进行相应的处理时也不够准确，降低用户体验。

技术实现要素：

7.本技术提供了一种语音信息处理方法、装置、设备及介质，用以解决现有语音信息的处理方法准确性不高，且耗费大量存储空间存储模板的问题。
8.第一方面，本技术提供了一种语音信息的处理方法，所述方法包括：
9.获取待识别语音信息的文本信息；
10.通过预先训练完成的语义标注模型，识别所述文本信息中的每个字符是否为关键词中的字符；根据识别为关键词中的字符的每个字符，确定每个关键词；根据预先构建的知识图谱，分别确定所述每个关键词在所述知识图谱中对应的目标实体，以及所述目标实体之间在所述知识图谱中存在的连接关系，将所述知识图谱中所述连接关系对应的语义，确定为所述待识别语音信息的目标语义。
11.第二方面，本技术还提供了一种语音信息的处理装置，所述装置包括：
12.获取单元，用于获取待识别语音信息的文本信息；
13.识别单元，用于通过预先训练完成的语义标注模型，识别所述文本信息中的每个字符是否为关键词中的字符；
14.确定单元，用于根据识别为关键词中的字符的每个字符，确定每个关键词；
15.处理单元，用于根据预先构建的知识图谱，分别确定所述每个关键词在所述知识图谱中对应的目标实体，以及所述目标实体之间在所述知识图谱中存在的连接关系，将所述知识图谱中所述连接关系对应的语义，确定为所述待识别语音信息的目标语义。
16.第三方面，本技术还提供了一种智能管家服务器，所述智能管家服务器至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语音信息的处理方法的步骤。
17.第四方面，本技术还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述语音信息的处理方法的步骤。
18.由于本技术是直接提取出待识别语音信息的上下文中包含的每个关键词，根据包含的每个关键词，在知识图谱中查找对应的目标实体，以及确定每个目标实体之间的连接关系，确定待识别语音信息的目标语义，且无需考虑待识别语音信息的表达方式，便可准确地识别出待识别语音信息的目标语义，使后续根据该识别的语义进行处理时，准确度更高，提高了用户体验。
附图说明
19.为了更清楚地说明本技术或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1为本技术一些实施例提供的一种语音信息的处理过程示意图；
21.图2为本技术一些实施例提供的具体的语音信息的处理过程示意图；
22.图3为本技术一些实施例提供的具体的语音信息的处理过程示意图；
23.图4为本技术一些实施例提供的一种知识图谱结果示意图；
24.图5为本技术一些实施例提供的具体的语义标注模型的训练过程示意图；
25.图6为本技术一些实施例提供的一种对文本数据样本进行预处理的过程；
26.图7为现有bert预训练模型的基本框架结构示意图；
27.图8为本技术一些实施例提供的具体的对预先训练完成的语义标注模型的测试过程示意图；
28.图9为本技术一些实施例提供的具体的语音信息的处理过程示意图；
29.图10为本技术一些实施例提供的一种语音信息的处理装置的结构示意图；
30.图11为本技术一些实施例提供的一种服务器结构示意图。
具体实施方式
31.为了提高确定的语义的准确性，提高用户体验，本技术提供了一种语音信息处理方法、装置、智能管家服务器及介质。
32.为了使本技术的目的、技术方案和优点更加清楚，下面将结合附图本技术作进一
步地详细描述，显然，所描述的实施例仅仅是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
33.在实际应用过程中，当用户希望通过语音信息控制家庭中的智能家居设备的时候，比如，打开卧室的空调，查询信息等，可以通过智能音箱、智能管家服务器、智能电视等智能设备采集该用户输入的待识别语音信息。该采集待识别语音信息的智能设备，可以直接在本地，对该待识别语音信息进行语义识别，比如，aiml语义模板匹配方法，确定该待识别语音信息对应的目标语义，从而执行相应的操作，以实现按照用户的期望控制智能家居设备。
34.当然，在一些可能的实施例中，由于本地处理器性能的限制，该采集待识别语音信的智能设备可能无法对采集的待识别因信息进行语义识别，则可以将采集的待识别语音信息，或待识别的语音信息的文本信息发送至服务器，服务器对该待识别语音信息的文本信息进行语义识别，确定该待识别语音信息对应的目标语义，服务器根据目标语义，确定控制信息，并发送给目标智能家居设备，以使目标智能家居设备执行相应的操作，以实现按照用户的期望控制智能家居设备。
35.图1为本技术一些实施例提供的一种语音信息的处理过程示意图，该过程包括：
36.s101：获取待识别语音信息的文本信息。
37.本技术提供的语音信息的处理方法应用于电子设备，该电子设备可以是智能设备，也可以是服务器。智能设备例如可以是智能电视、智能家居等设备。
38.该电子设备获取的待识别语音信息的文本信息，可以是根据接收到的待识别语音信息，生成的文本信息，也可以是接收其他智能设备发送的待识别语音信息的文本信息。
39.其中，电子设备接收到的待识别语音信息，可以为自身采集的语音信息，也可以是接收其他智能设备发送的语音信息，在此不做具体限定。
40.s102：通过预先训练完成的语义标注模型，识别待识别语音信息的文本信息中的每个字符是否为关键词中的字符。
41.具体的，电子设备获取到待识别语音信息的文本信息后，通过预先训练完成的语义标注模型，比如，bert-bilstm-crf模型，可以识别待识别语音信息的文本信息中的每个字符是否为关键词中的字符。
42.其中，关键词是指可以体现文本信息中部分语义的词语，比如，“请帮我打开空调”的文本信息中，“打开”、“空调”为该文本信息中的语义，“北京明天的天气怎么样”的文本信息中，“北京”、“明天”、“天气”。在本技术中该关键词，可以是动词，地点名词，人名，品牌名等。
43.需要说明的是，对待识别语音信息进行语音识别的过程属于现有技术，在此不再赘述。
44.s103：根据识别为关键词中的字符的每个字符，确定每个关键词。
45.由于文本信息中的每个关键词之间可能不是连续的，比如文本信息“查询飞往北京的机票”，识别“查”、“询”、“北”、“京”、“机”、“票”均为该文本信息中为关键词中的字符，因此，在根据识别为关键词中的字符的每个字符，确定每个关键词时，可以直接根据每连续的、且为关键词中的字符的每个字符，确定每个关键词。
46.仍以上述为例，根据每连续的、且为关键词中的字符的每个字符，确定文本信息“查询飞往北京的机票”中，包含的每个关键词为“查询”、“北京”、“机票”。
47.s104：根据预先构建的知识图谱，分别确定所述每个关键词在所述知识图谱中对应的目标实体，若每个所述目标实体之间在所述知识图谱中均存在连接关系，则将所述知识图谱中所述连接关系对应的语义，确定为所述待识别语音信息的目标语义。
48.为了准确地确定待识别语音信息的目标语义，在本技术中，预先构建有知识图谱，该知识图谱中保存有每个关键词对应的实体，每个实体之间的连接关系，以及每个连接关系对应的语义。其中，实体可以直接表示为关键词。当基于上述实施例获取到每个关键词后，通过遍历预先构建的知识图谱，分别确定每个关键词在该知识图谱中对应的目标实体。比如，关键词“两只老虎”对应“两只老虎”的目标实体，“打开”对应“打开”的目标实体等。
49.获取每个目标实体后，确定目标实体之间在知识图谱中是否存在的连接关系，从而确定该待识别语音信息是否有对应的目标语义。具体的，若每个目标实体之间在知识图谱中均存在连接关系，说明该知识图谱中保存有待识别语音信息的目标语义，则将知识图谱中每个目标实体之间的连接关系所对应的语义，确定为待识别语音信息的目标语义。若任意两个目标实体之间在知识图谱中均不存在连接关系，说明该知识图谱中没有保存待识别语音信息的语义，则过滤该待识别语音信息的文本信息，获取下一条待识别语音信息的文本信息。
50.例如，待识别语音信息的文本信息“打开空调”中，包含的关键词有“打开”、“空调”，根据预先构建的知识图谱，分别确定每个关键词在知识图谱中对应的目标实体为“打开”、“空调”，确定目标实体之间在知识图谱中存在连接关系，将知识图谱中该连接关系对应的语义“打开空调”，确定为该识别语音信息的目标语义。
51.待识别语音信息的文本信息“打开查看书包”中，包含的关键词有“打开”、“查看”、“书包”，根据预先构建的知识图谱，分别确定每个关键词在知识图谱中对应的目标实体为“打开”、“查看”、“书包”，确定目标实体之间在知识图谱中均不存在连接关系，则过滤该待识别语音信息的文本信息“打开查看书包”，获取下一条待识别语音信息的文本信息。
52.但由于语言的复杂性和多样性，可能出现识别的每个目标实体之间并不一定均存在连接关系，但通过其中部分目标实体之间存在的连接关系，也可以识别出待识别语音信息的目标语义。因此，在本技术中，当至少两个目标实体之间存在连接关系的时候，说明该知识图谱中可能保存有待识别语音信息的目标语义，则可以将根据该至少两个目标实体之间存在的连接关系对应的语义，确定为待识别语音信息的目标语义。
53.例如，若识别语音信息的文本信息“告诉我明天飞往北京的机票的价格”中，包含的关键词有“告诉”、“明天”、“北京”、“机票”、“价格”，根据预先构建的知识图谱，分别确定每个关键词在知识图谱中对应的目标实体为“告诉”、“明天”、“北京”、“机票”、“价格”，确定目标实体“告诉”、“明天”、“北京”、“机票”之间在知识图谱中存在连接关系，将知识图谱中该连接关系对应的语义“查询机票”，确定为该识别语音信息的目标语义。
54.由于本技术是直接提取出待识别语音信息的上下文中包含的每个关键词，根据包含的每个关键词，在知识图谱中查找对应的目标实体，以及确定目标实体之间的连接关系，确定待识别语音信息的目标语义，且无需考虑待识别语音信息的表达方式，便可准确地识别出待识别语音信息的目标语义，使后续根据该识别的语义进行处理时，准确度更高，提高
了用户体验。
55.为了准确地确定待识别语音信息中包含的每个关键词，在上述实施例的基础上，在本技术中，所述通过预先训练完成的语义标注模型，识别所述文本信息中的每个字符是否为关键词中的字符，包括：
56.通过所述语义标注模型，识别所述文本信息中的每个字符是否为关键词中的字符，及是否为关键词中的首个字符的信息；
57.所述根据识别为关键词中的字符的每个字符，确定每个关键词包括：
58.针对每个为关键词中的首个字符的字符，根据该为关键词中的首个字符的字符，及其之后连续的、且识别为关键词中的非首个字符的每个字符，确定每个关键词。
59.由于在一些情况下，可能出现多个关键词连续的出现在一起，比如“打开空调”、“打开音乐”等，则只根据识别为关键词中的字符的每个字符，确定每个关键词时，容易将多个连续的关键词识别为一个关键词，从而影响后续语义的识别。因此，在通过预先训练完成的语义标注模型，对待识别语音信息的文本信息进行识别时，不仅要识别该文本信息中的每个字符是否为关键词中的字符，还要识别是否为关键词中的首个字符的信息。
60.比如，通过预先训练完成的语义标注模型，获取待识别语音信息的文本信息“请帮我打开音乐”中每个字对应的标签为，[0 0 0 b i b i]，其中，对应的标签不为0的字均为关键词中的字符，对应标签为b的字符为该关键词的首个字符。
[0061]
基于此，当识别出待识别语音信息的文本信息中的每个字符是否为关键词中的字符，及是否为关键词中的首个字符的信息之后，针对其中每个为关键词中的首个字符的字符，比如，上述的“打”和“音”，根据该为关键词中的首个字符的字符，及该字符之后连续的、且识别为关键词中的非首个字符的每个字符，比如上述的“打”及其之后的“开”，“音”及其之后的“乐”，确定每个关键词，比如上述的“打开”和“音乐”。
[0062]
由于本技术通过预先训练完成的语义标注模型，识别待识别语音信息的文本信息中的每个字符是否为关键词中的字符，及是否为关键词中的首个字符的信息，从而有利于后续准确地确定待识别语音信息的文本信息中包含的每个关键词，进而有利于准确识别待识别语音信息的目标语义。
[0063]
为了准确地确定待识别语音信息的目标语义，在上述各实施例的基础上，在本技术中，所述根据预先构建的知识图谱，分别确定所述每个关键词在所述知识图谱中对应的每个目标实体，包括：
[0064]
针对所述每个关键词，判断该关键词是否与所述知识图谱保存的任一预设关键词匹配，若是，则根据所述知识图谱保存的预设关键词与实体的对应关系，确定所述匹配的预设关键词对应的实体，将该实体作为该关键词对应的目标实体。
[0065]
一般情况下，如果将每个关键词均作为实体的话，则根据每个实体建立出的知识图谱会过于庞杂，不利于查找，且会出现许多实体之间的连接关系均对应一个语义，比如，“打开”和“两只老虎”这两个实体之间的连接关系，和“打开”和“忘情水”这两个实体之间的连接关系，均对应的语义为“播放音乐”，而“两只老虎”、“忘情水”只是音乐类别中包含的不同歌曲。仅对于音乐类别就包括有许多歌曲，如果将每个歌曲名均作为实体的话，构建的知识图谱会非常复杂，且除了音乐类别之外，还包括有视频、地点等其他类别。
[0066]
因此，为了方便查找，在本技术中，可以预先针对每个实体保存有其包含的每个预
设关键词，比如，将“音乐”作为实体，保存“音乐”这个实体包含的每个歌曲名，每个歌曲名对应的关键词归属“音乐”这个实体。当基于上述实施例，获取了每个关键词之后，先针对每个关键词，将该关键词与知识图谱中保存的每个预设关键词进行匹配，从而确定每个关键词所归属的实体。
[0067]
具体的，若存在与该关键词匹配的预设关键词，说明可以识别到该关键词对应的实体，则确定该匹配的预设关键词所归属的实体，将该所归属的实体作为该关键词对应的目标实体。
[0068]
例如，关键词“两只老虎”，与知识图谱中保存的预设关键词“两只老虎”匹配，说明可以识别该关键词对应的实体，则确定该匹配的预设关键词“两只老虎”所归属的实体“音乐”，将该实体“音乐”作为该关键词“两只老虎”对应的目标实体。
[0069]
为了准确地对待识别语音信息进行处理，确定所述待识别语音信息的目标语义之后，所述方法还包括：
[0070]
根据预先保存的语义与操作的对应关系，确定所述目标语义对应的目标操作；
[0071]
根据预先保存的操作与设备的对应关系，确定所述目标操作对应的目标设备；
[0072]
根据每个所述匹配的预设关键词，确定所述目标设备执行所述目标操作的具体操作内容。
[0073]
当基于上述实施例确定了待识别语音信息的目标语义之后，需要对该待识别语音信息进行后续的处理。为了准确地对待识别语音信息进行处理，在本技术中，预先保存了语义与操作的对应关系，比如“播放音乐”对应的操作是打开音乐app，“查询机票价格”对应的操作是查询并输出机票价格等。因此，当确定了待识别语音信息的目标语义之后，根据该预先保存的语义与操作的对应关系，确定该目标语义对应的目标操作。
[0074]
进一步地，由于不同的设备所能执行的操作不同，比如，空调可以执行调节温度、调整风向等，音箱可以执行播放音乐、调整音量的功能，因此，为了可以进一步准确地对待识别语音信息进行处理，在本技术中，预先保存了操作与设备的对应关系，当基于上述实施例确定目标操作之后，根据预先保存的操作与设备的对应关系，确定该目标操作对应的目标设备，比如，播放音乐的目标操作对应的目标设备为音箱，打开空调的目标操作对应的目标设备为空调。
[0075]
此外，在确定了目标设备以及目标操作后，可能出现目标设备根据该目标操作，仍然不知道该如何进一步操作，比如，目标设备为音箱、目标操作为播放音乐，音箱在执行播放音乐的操作时，由于不知道播放哪一首歌曲，而无法进一步地操作。因此，为了进一步准确地对目标设备进行控制，在本技术中，可以根据上述实施例获取的每个匹配的预设关键词，对目标设备所要执行的目标操作的具体操作内容进行丰富。比如，根据每个匹配的预设关键词“打开”和“两只老虎”，确定音箱在执行播放音乐这个操作的具体内容是播放《两只老虎》这首音乐，从而实现准确地对音箱进行控制。
[0076]
下面通过具体的实施方式，详细说明本技术提供的语音信息的处理方法。图2为本技术一些实施例提供的具体的语音信息的处理过程示意图，该过程包括：
[0077]
s201：获取待识别语音信息的文本信息。
[0078]
s202：通过语义标注模型，识别待识别语音信息的文本信息中的每个字符是否为关键词中的字符，及是否为关键词中的首个字符的信息。
[0079]
s203：针对每个为关键词中的首个字符的字符，根据该为关键词中的首个字符的字符，及其之后连续的、且识别为关键词中的非首个字符的每个字符，确定每个关键词。
[0080]
s204：针对每个关键词，判断该关键词是否与知识图谱保存的任一预设关键词匹配，若是，执行s205，否则，执行s201。
[0081]
s205：根据知识图谱保存的预设关键词与实体的对应关系，确定匹配的预设关键词对应的实体，将该实体作为该关键词对应的目标实体。
[0082]
s206：判断目标实体之间在知识图谱中是否存在连接关系，若是，执行s207，否则，执行s201。
[0083]
s207：将知识图谱中连接关系对应的语义，确定为待识别语音信息的目标语义。
[0084]
s208：根据预先保存的语义与操作的对应关系，确定目标语义对应的目标操作。
[0085]
s209：根据预先保存的操作与设备的对应关系，确定目标操作对应的目标设备。
[0086]
s210：根据每个匹配的预设关键词，确定目标设备执行目标操作的具体操作内容。
[0087]
为了进一步准确地对待识别语音信息进行处理，在上述各实施例的基础上，在本技术中，所述根据所述知识图谱保存的预设关键词与实体的对应关系，确定所述匹配的预设关键词对应的实体，将该实体作为该关键词对应的目标实体，包括：
[0088]
针对每个所述匹配的预设关键词，当该匹配的预设关键词所归属的目标实体的数量大于1，则将该每个目标实体确定为候选实体，并输出选择每个所述候选实体的提示信息，将被选择的候选实体作为该匹配的预设关键词对应的目标实体；
[0089]
所述根据预先保存的操作与设备的对应关系，确定所述目标操作对应的目标设备，包括：
[0090]
当所述目标设备的数量大于1，则将每个所述目标设备确定为候选设备，并输出选择每个所述候选设备的提示信息，将被选择的候选设备作为所述目标设备。
[0091]
在实际应用中，在确定待识别语音信息的目标语义时，可能出现同一关键词对应不同的实体，比如，“忘情水”这个关键词所归属的实体可能是音乐，也可能是视频，导致无法准确地确定待识别语音信息的目标语义。因此，为了准确地识别每个关键词所归属的实体，在本技术中，针对每个匹配的预设关键词，当确定该匹配的预设关键词所归属的实体的数量大于1时，将该匹配的预设关键词对应的每个目标实体均作为候选实体，并输出选择每个候选实体的提示信息，让用户对输出的每个候选实体进一步的选择。
[0092]
其中，输出选择每个候选实体的提示信息可以语音播报选择每个候选实体的音频格式的提示信息，比如候选实体有音乐和视频，语音播报选择每个候选实体的提示信息“请确定选择音乐，或者，视频”，也可以在显示界面上显示每个候选实体对应的文本形式对应的提示信息，比如候选实体有音乐和视频，在显示界面上显示每个候选实体的文本格式的提示信息“请确定选择：a、音乐b、视频”。两种输出提示信息的方式也可以同时结合，即同时播报音频格式的提示信息以及在显示界面上显示文本格式的提示信息。
[0093]
具体选择哪种方式输出提示信息，可以根据用户的喜好，预先进行设置，或者可以根据电子设备的能力进行选择，例如，一些电子设备并没有可以显示提示信息的显示界面，则对于这些电子设备，在输出提示信息时，可以播报音频格式的提示信息。
[0094]
当输出选择每个候选实体的提示信息之后，可以接收到用户针对每个候选实体的选择结果，识别该选择结果中被选择的候选实体，将该被选择的候选实体作为该匹配的预
设关键词对应的目标实体。
[0095]
相应的，在本技术中，用户可以针对每种提示信息的输出形式，预先设置电子设备接收针对该提示信息输入选择结果的形式。针对播报音频格式的提示信息，和/或，在显示界面上显示文本格式的提示信息，可以通过语音信息的方式输入选择结果，也可以通过点击显示界面上显示的每个候选实体的方式输入选择结果。具体的，若播报音频格式的提示信息，可以接收以语音信息的方式输入的选择结果；若在显示界面上显示文本格式的提示信息，可以接收以语音信息的方式输入的选择结果，也可以通过点击显示界面上显示的每个候选实体的方式输入选择结果。
[0096]
此外，由于每种智能设备的功能越来越全面，有些智能设备之间的功能可能有所重叠，比如智能电视也可以播放音乐，智能手机也可以播放视频，以及播放音乐等，从而导致当确定了目标操作后，并不知道该控制哪一个设备来执行该目标操作。因此，为了进一步准确地对目标设备进行控制，在本技术中，基于上述实施例，确定了目标设备之后，判断该目标设备的数量是否大于1，从而确定是否输出选择设备的提示信息。
[0097]
具体的，当确定目标设备的数量大于1，说明可以执行目标操作的每个目标设备有多个，则将每个目标设备均作为候选设备，并输出选择每个候选设备的提示信息，将被选择的候选设备作为目标设备。
[0098]
其中，输出选择每个候选设备的提示信息，以及接收用户选择候选设备的选择结果的方式，与上述相同，在此不再赘述。
[0099]
此外，由于可能出现误唤醒的问题，当输出提示信息后，在一定的设定时长内没有接收到针对该提示信息输入的选择结果，确可以确定可能存在误唤醒的问题，则将该待识别语音信息过滤，采集下一待识别语音信息。
[0100]
下面通过具体的实施方式，详细说明本技术提供的语音信息的处理方法。图3为本技术一些实施例提供的具体的语音信息的处理过程示意图，该过程包括：
[0101]
s301：获取待识别语音信息的文本信息。
[0102]
s302：通过语义标注模型，识别待识别语音信息的文本信息中的每个字符是否为关键词中的字符，及是否为关键词中的首个字符的信息。
[0103]
s303：针对每个为关键词中的首个字符的字符，根据该为关键词中的首个字符的字符，及其之后连续的、且识别为关键词中的非首个字符的每个字符，确定每个关键词。
[0104]
s304：针对每个关键词，判断该关键词是否与知识图谱保存的任一预设关键词匹配，若是，执行s305，否则，执行s301。
[0105]
s305：根据知识图谱保存的预设关键词与实体的对应关系，确定匹配的预设关键词对应的实体。并针对每个匹配的预设关键词，判断该匹配的预设关键词所归属的目标实体的数量是否大于1，若是，则将该每个目标实体确定为候选实体，并输出选择每个候选实体的提示信息，将被选择的候选实体作为该匹配的预设关键词对应的目标实体；否则，直接将该实体作为该关键词对应的目标实体。
[0106]
s306：判断目标实体之间在知识图谱中是否存在连接关系，若是，执行s307，否则，执行s301。
[0107]
s307：将知识图谱中连接关系对应的语义，确定为待识别语音信息的目标语义。
[0108]
s308：根据预先保存的语义与操作的对应关系，确定目标语义对应的目标操作。
[0109]
s309：根据预先保存的操作与设备的对应关系，确定目标操作对应的目标设备。并判断目标设备的数量是否大于1，若是，则将每个目标设备确定为候选设备，并输出选择每个候选设备的提示信息，将被选择的候选设备作为目标设备；否则，执行s310。
[0110]
s310：根据每个匹配的预设关键词，确定目标设备执行目标操作的具体操作内容。
[0111]
为了准确地确定待识别语音信息的目标语义，在上述各实施例的基础上，在本技术中，所述知识图谱通过如下方式确定：
[0112]
获取样本集中任一文本数据样本对应的语义、包含的每个关键词，以及所述每个关键词所归属的实体；并保存每个关键词与对应的实体的对应关系；
[0113]
针对每个文本数据样本中的每个关键词，若该关键词所归属的实体在所述知识图谱的实体图中不存在，将所述归属的实体写入到所述实体图中；
[0114]
针对所述每个文本数据样本，查找该文本数据样本的每个关键词所归属的实体，在所述实体图中对应的实体之间是否存在连接关系，若否，在实体图中建立所述对应实体的连接关系，并保存该连接关系与该文本数据样本对应的语义的对应关系。
[0115]
为了准确地确定待识别语音信息的目标语义，可以根据预先获取的样本集中的每个文本数据样本对应的语义、包含的每个关键词，以及每个关键词所归属的实体，构建知识图谱。该样本集中的文本数据样本对应的语义可以相同也可以不同，但相同语义的文本数据样本中包含的关键词不完全相同。
[0116]
其中，构建知识图谱的设备与后续使用知识图谱进行语义识别的电子设备可以相同，也可以不同。
[0117]
具体的，先获取样本集中任一文本数据样本对应的语义、包含的每个关键词，以及每个关键词所归属的实体，然后将每个关键词与对应的实体的对应关系保存在实体图中。由于可能出现实体图中已经保存有该关键词与对应的实体的对应关系了，则在保存每个关键词与对应的实体的对应关系之前，判断实体图中是否已经保存有，当前要保存的关键词与对应的实体的对应关系，若保存了，则过滤该要保存的关键词与对应的实体的对应关系；否则，保存该要保存的关键词与对应的实体的对应关系。
[0118]
当确定每个关键词与对应的实体的对应关系均保存后，针对每个文本数据样本中的每个关键词，判断实体图中是否存在该关键词所归属的实体，若存在，则不再写入该关键词所归属的实体，若不存在，则在该实体图中写入该关键词所归属的实体。
[0119]
尽管当前实体图中已经写入了每个文本数据样本中包含的每个关键词所归属的实体了，但不一定针对每个文本数据样本所对应的每个实体之间均建立了连接关系，因此，当确定每个文本数据样本中包含的每个关键词所归属的实体均被保存在实体图中后，判断该每个关键词所归属的实体之间的连接关系在实体图中是否存在，若存在，则过滤该文本数据样本，若不存在，则在该实体图中建立该文本数据样本对应的每个实体之间的连接关系，并保存该连接关系与该文本数据样本对应的语义的对应关系。
[0120]
该样本集中包含大量的文本数据样本，对每个文本数据样本都进行上述操作，当通过实体图，可以确定每个文本数据样本对应的语义时，确定该知识图谱构建完成。
[0121]
在一种可能的实施方式中，在构建知识图谱时，可以把样本集中的文本数据样本分训练文本数据样本和测试文本数据样本，先基于训练文本数据样本构建知识图谱，再基于测试文本数据样本对上述已构建完成的知识图谱的可靠程度进行验证。
[0122]
图4为本技术一些实施例提供的一种知识图谱结果示意图。参见图4，图中“打开”、“开”、“关闭”、“关掉”、“音乐”、“电台”以及“故事”均为实体，其中，部分实体之间存在连接关系，比如“打开”和“故事”，部分实体之间不存在连接关系，比如“电台”和“音乐”。存在连接关系的两个实体之间对应有语义，例如，“打开”与“音乐”两个实体之间存在连接关系，该连接关系对应的语义为播放音乐，“打开”与“电台”两个实体之间存在连接关系，该连接关系对应的语义为打开电台，“关闭”与“音乐”两个实体之间存在连接关系，该连接关系对应的语义为关闭音乐，“关掉”与“音乐”两个实体之间存在连接关系，该连接关系对应的语义为关闭音乐，“打开”与“音乐”两个实体之间存在连接关系，该连接关系对应的语义为播放音乐。
[0123]
为了准确地确定待识别语音信息的目标语义，在上述各实施例的基础上，在本技术中，所述语义标注模型通过如下方式训练：
[0124]
获取样本集中任一文本数据样本，以及对应的标注序列，所述标注序列中包含有所述文本数据样本中的每个字符是否为关键词中的字符，及是否为关键词中的首个字符的信息；
[0125]
根据所述文本数据样本以及所述标注序列，对原始语义标注模型进行训练。
[0126]
为了准确地确定待识别语音信息包含的每个关键词，可以根据预先获取的样本集中的每个文本数据样本及其对应的标注序列，对原始语义标注模型进行训练。其中，该标注序列中包含有对应的文本数据样本中的每个字符是否为关键词中的字符，及是否为关键词中的首个字符的信息，比如标注序列中标签不为0所对应的字符均为关键词中的字符，标注序列中标签为0所对应的字符均不为关键词中的字符，标签为b所对应的字符均为关键词中的首个字符。
[0127]
此外，为了增加文本数据样本的多样性，该文本数据样本中包括不同表达方式的文本数据样本，比如“打开空调”、“开空调”，“关闭空调”、“关空调”等。
[0128]
需要说明的是，该训练语义标注模型的设备可以与后续语义识别的电子设备相同，也可以不同。
[0129]
通过原始语义标注模型，可以识别上述文本数据样本中的每个字符是否为关键词中的字符，根据该识别的每个字符是否为关键词中的字符以及对应的标注序列，对原始语义标注模型进行训练，以调整原始语义标注模型的各参数的参数值。
[0130]
比如，文本数据样本为“查询飞往北京的机票的价格”，对应的标注序列为[b i 0 0 b i 0 b i 0 b i]，通过原始语义标注模型，识别文本数据样本中的每个字符为，[b i b i b i 0 b i 0 b i]，与对应的标注序列不一致，确定该文本数据样本被误识别。
[0131]
对原始语义标注模型训练的样本集中包含大量的文本数据样本，对每个文本数据样本都进行上述操作，当满足预设的收敛条件时，该原始语义标注模型训练完成。
[0132]
其中，满足预设的收敛条件可以为样本集中的文本数据样本通过该原始语义标注模型，被正确识别的文本数据样本个数大于设定数量，或对原始语义标注模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。
[0133]
在一种可能的实施方式中，在进行原始语义标注模型训练时，可以把样本集中的文本数据样本分训练文本数据样本和测试文本数据样本，先基于训练文本数据样本对原始语义标注模型进行训练，再基于测试文本数据样本对上述已训练的语义标注模型的可靠程
度进行。
[0134]
下面以语义标注模型为bert-bilstm-crf模型的训练过程，进行详细的说明：
[0135]
图5为本技术一些实施例提供的具体的语义标注模型的训练过程示意图，该过程包括：
[0136]
首先，要根据对样本集中的每个文本数据样本进行bio标注，得到每个文本数据样本的标注序列，其中b表示实体或关系的开始，i表示实体或关系的非开始部分，o代表不是实体或关系的部分。以“打开音乐”和“请帮我打开音乐”这两个文本数据样本为例，对应的标注序列为：[cls]打b-open开i-open音b-app乐i-app[sep]，[cls]请o帮o我o打b-open开i-open音b-app乐i-app[sep]，每个文本数据样本的开头添加[cls]，结尾添加[sep]。
[0137]
其次，对每个文本数据样本及其对应的进行预处理，生成对应的词嵌入向量、句子嵌入向量以及位置嵌入向量。
[0138]
图6为本技术一些实施例提供的一种对文本数据样本进行预处理的过程。
[0139]
其中，token embeddings表示词嵌入，segment embeddings表示句子嵌入，e
a
表示第一个句子，e
b
第二个句子，position embeddings表示位置嵌入。
[0140]
仍以上述为例，根据[cls]打b-open开i-open音b-app乐i-app[sep]，[cls]请o帮o我o打b-open开i-open音b-app乐i-app[sep]，生成的词嵌入向量为e
[cls]
、e
[打]
、e
[开]、
…
e
[sep]
、e
[cls]
、e
[请]
、e
[帮]
、
…
e
[sep]
，生成的句子嵌入向量为e
[a]
、e
[a]
、e
[a]、
…
e
[a]
、e
[b]
、e
[b]
、e
[b]
、
…
e
[b]
，生成的位置嵌入向量e
[0]
、e
[1]
、e
[2]
、
…
e
[5]
、e
[6]
、e
[7]
、e
[8]
、
…
e
[14]
。
[0141]
将上述生成的词嵌入向量、句子嵌入向量以及位置嵌入向量一起输入到依靠谷歌开源的bert预训练模型中，获取每个字的空间512维向量。
[0142]
图7为现有bert预训练模型的基本框架结构示意图。
[0143]
由于该bert预训练模型是基于bookscropus与英文维基百科数据一共有33亿个词进行训练的，该bert预训练模型的标准版本有1亿的参数量，与gpt持平。此外，谷歌用了16个tpu集群(一共64块tpu)花了4天时间来训练大号版本的bert预训练模型，训练完成的bert预训练模型的大号版本则有3亿多参数量，是目前自然语言处理中最大的预训练模型。基于该bert预训练模型可以使用任意掩码来增加模型的泛化能力；使用transformer可以充分的联系上下文的相关信息；学习句子级相关特征；精准的识别每个字符，并生成每个字符对应的向量。
[0144]
最后，把得到的每个字对应的向量输入到原始bilstm crf网络模型中，从而识别每个字是否为关键词中的字符的每个字符，以及每个字为关键词中的首个字符的信息。
[0145]
分别对样本集中的每个文本数据样本进行上述的操作，得到训练完成的bert-bilstm-crf模型，即得到预先训练完成的语义标注模型。
[0146]
当获取到预先训练完成的语义标注模型后，基于测试文本数据样本对该语义标注模型进行测试。图8为本技术一些实施例提供的具体的对预先训练完成的语义标注模型的测试过程示意图，该过程包括：
[0147]
s801：获取任一测试文本数据样本，如“请帮我打开音乐”，以及该测试文本数据样本对应的每个关键词“打开”和“音乐”。
[0148]
s802：将该测试文本数据样本输入到预先训练完成的bert-bilstm-crf模型。
[0149]
s803：获取该测试文本数据样本中每个字对应的标签，请o帮o我o打b-app开i-app
音b-app乐i-app。
[0150]
s804：对每个字对应的标签进行处理，得到每个关键词，“打开”、“音乐”。
[0151]
为了准确地确定待识别语音信息的目标语义，在上述各实施例的基础上，在本技术中，确定所述目标实体之间在所述知识图谱中存在的连接关系之后，所述将所述知识图谱中所述连接关系对应的语义，确定为所述待识别语音信息的目标语义之前，所述方法还包括：
[0152]
若所述知识图谱中所述连接关系对应的语义的数量大于1，则过滤所述待识别语音信息的文本信息。
[0153]
由于语言的多样性，在实际应用本技术的语音信息的处理方法，确定目标实体在知识图谱中是否存在连接关系的时候，可能存在其中部分目标实体之间存在连接关系，另一部分的目标实体之间存在连接关系的情况，比如，确定目标实体有四个，分别为a、b、c、d，其中，a和b之间存在连接关系，c和d之间存在连接关系，并且两种连接关系对应的语义不同，即两种连接关系对应的语义的数量大于1，则这种情况会导致后续电子设备无法正确识别待识别语音信息的目标语义，从而无法对待识别语音信息做出正确的处理。
[0154]
因此，为了准确地确定待识别语音信息的目标语义，在本技术中，当基于上述实施例确定目标实体之间在指示图谱中存在连接关系之后，判断连接关系对应的语义的数量是大于1，若是，确定电子设备无法正确识别该待识别语音信息的目标语义，则过滤该待识别语音信息的文本信息；否则，执行后续将知识图谱中该连接关系对应的语义，确定为待识别语音信息的目标语义的步骤。
[0155]
图9为本技术一些实施例提供的具体的语音信息的处理过程示意图，该过程包括：
[0156]
s901：获取待识别语音信息的文本信息。
[0157]
s902：对待识别语音信息进行语音识别，转化为对应的文本信息。
[0158]
s903：通过语义标注模型，识别待识别语音信息的文本信息中的每个字符是否为关键词中的字符，及是否为关键词中的首个字符的信息。
[0159]
具体的，针对每个为关键词中的首个字符的字符，根据该为关键词中的首个字符的字符，及其之后连续的、且识别为关键词中的非首个字符的每个字符，确定每个关键词。
[0160]
针对每个关键词，判断该关键词是否与知识图谱保存的任一预设关键词匹配，若是，则执行后续步骤，否则，执行s901。
[0161]
s904：在知识图谱中查找每个关键词对应的目标实体，并确定目标实体之间是否存在连接关系，若是，执行s905，否则，过滤该待识别语音信息的文本信息，并执行s901。
[0162]
具体的，根据知识图谱保存的预设关键词与实体的对应关系，确定匹配的预设关键词对应的实体，将该实体作为该关键词对应的目标实体。
[0163]
其中，在确定匹配的预设关键词对应实体时，还包括：针对每个匹配的预设关键词，当该匹配的预设关键词所归属的目标实体的数量大于1，则将该每个目标实体确定为候选实体，并输出选择每个候选实体的提示信息，将被选择的候选实体作为该匹配的预设关键词对应的目标实体。
[0164]
s905：将目标实体之间的连接关系对应的语义，确定为待识别语音信息的目标语义。
[0165]
其中，在s904之后，s905之前，判断s904获取的连接关系对应的语义的数量是否大
于1，若是，则过滤所述待识别语音信息的文本信息，并执行s901，否则执行s905。
[0166]
在识别到目标语义之后，根据预先保存的语义与操作的对应关系，确定目标语义对应的目标操作。
[0167]
根据预先保存的操作与设备的对应关系，确定目标操作对应的目标设备。
[0168]
其中，在确定目标操作对应的目标设备时，还包括：当目标设备的数量大于1，则将每个目标设备确定为候选设备，并输出选择每个候选设备的提示信息，将被选择的候选设备作为目标设备。
[0169]
根据每个匹配的预设关键词，确定目标设备执行目标操作的具体操作内容。
[0170]
由于本技术是直接提取出待识别语音信息的上下文中包含的每个关键词，根据包含的每个关键词，在知识图谱中查找对应的目标实体，以及确定每个目标实体之间的连接关系，确定待识别语音信息的目标语义，且无需考虑待识别语音信息的表达方式，便可准确地识别出待识别语音信息的目标语义，使后续根据该识别的语义进行处理时，准确度更高，提高了用户体验。
[0171]
本技术提供了一种语音信息的处理装置，图10为本技术一些实施例提供的一种语音信息的处理装置的结构示意图，所述装置包括：
[0172]
获取单元1001，用于获取待识别语音信息的文本信息；
[0173]
识别单元1002，用于通过预先训练完成的语义标注模型，识别所述文本信息中的每个字符是否为关键词中的字符；
[0174]
确定单元1003，用于根据识别为关键词中的字符的每个字符，确定每个关键词；
[0175]
处理单元1004，用于根据预先构建的知识图谱，分别确定所述每个关键词在所述知识图谱中对应的目标实体，以及所述目标实体之间在所述知识图谱中存在连接关系，将所述知识图谱中所述连接关系对应的语义，确定为所述待识别语音信息的目标语义。
[0176]
由于本技术是直接提取出待识别语音信息的上下文中包含的每个关键词，根据包含的每个关键词，在知识图谱中查找对应的目标实体，以及确定每个目标实体之间的连接关系，确定待识别语音信息的目标语义，且无需考虑待识别语音信息的表达方式，便可准确地识别出待识别语音信息的目标语义，使后续根据该识别的语义进行处理时，准确度更高，提高了用户体验。
[0177]
如图11为本技术一些实施例提供的一种服务器结构示意图，在上述各实施例的基础上，本技术还提供了一种服务器，如图11所示，包括：处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信；
[0178]
所述存储器1103中存储有计算机程序，当所述程序被所述处理器1101执行时，使得所述处理器1101执行如下步骤：
[0179]
获取待识别语音信息的文本信息；
[0180]
通过预先训练完成的语义标注模型，识别所述文本信息中的每个字符是否为关键词中的字符；
[0181]
根据识别为关键词中的字符的每个字符，确定每个关键词；
[0182]
根据预先构建的知识图谱，分别确定所述每个关键词在所述知识图谱中对应的目标实体，若每个所述目标实体之间在所述知识图谱中均存在连接关系，则将所述知识图谱
中所述连接关系对应的语义，确定为所述待识别语音信息的目标语义。
[0183]
由于上述服务器解决问题的原理与语音信息的处理方法相似，因此上述服务器的实施可以参见方法的实施，重复之处不再赘述。
[0184]
上述服务器提到的通信总线可以是外设部件互连标准(peripheral component interconnect，pci)总线或扩展工业标准结构(extended industry standard architecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0185]
通信接口1102用于上述服务器与其他设备之间的通信。
[0186]
存储器可以包括随机存取存储器(random access memory，ram)，也可以包括非易失性存储器(non-volatile memory，nvm)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0187]
上述处理器可以是通用处理器，包括中央处理器、网络处理器(network processor，np)等；还可以是数字指令处理器(digital signal processing，dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0188]
由于本技术是直接提取出待识别语音信息的上下文中包含的每个关键词，根据包含的每个关键词，在知识图谱中查找对应的目标实体，以及确定每个目标实体之间的连接关系，确定待识别语音信息的目标语义，且无需考虑待识别语音信息的表达方式，便可准确地识别出待识别语音信息的目标语义，使后续根据该识别的语义进行处理时，准确度更高，提高了用户体验。
[0189]
在上述各实施例的基础上，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：
[0190]
获取待识别语音信息的文本信息；
[0191]
通过预先训练完成的语义标注模型，识别所述文本信息中的每个字符是否为关键词中的字符；
[0192]
根据识别为关键词中的字符的每个字符，确定每个关键词；
[0193]
根据预先构建的知识图谱，分别确定所述每个关键词在所述知识图谱中对应的目标实体，若每个所述目标实体之间在所述知识图谱中均存在连接关系，则将所述知识图谱中所述连接关系对应的语义，确定为所述待识别语音信息的目标语义。
[0194]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0195]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个
机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0196]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0197]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0198]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种音乐数据的生成方法、装置、设备以及存储介质与流程

一种语音信息的处理方法、装置、设备及介质与流程

相关文章

最热文献