一种AI虚拟人物语音实时互动方法及系统与流程

2022-03-26 15:52:19 来源：中国专利 TAG：

一种ai虚拟人物语音实时互动方法及系统
技术领域
1.本发明属于图像显示技术领域，涉及一种ai虚拟人物语音实时互动方法及系统。

背景技术：

2.随着智媒时代的来临，广电媒体的业态版图处于不断升级和改写的革新历程。以ai合成主持人为代表的人工智能技术被运用于广电内容生产和传播，为传统媒体行业开辟了一条新的发展路径、给电视节目生产领域带来重构和优化。广电媒体与于人工智能深层次融合能够强化新闻的科技赋能，助推信息内容的智能化生产与输出，使传统广电产品衍生出更高的时代价值。
3.但是现有的ai虚拟直播的的主要功能缺点就是过于程序化，没有一点点的互动性。每个ai虚拟主播都是三维制作人员渲染制作人物模型，再配上一段编排好的演员配音来播放的模式进行内容播报，无法与真实的主播进行真实互动，整个节目过程内容显得比较生硬，没有生动性。

技术实现要素：

4.本发明的目的在于克服上述不足，提供一种ai虚拟人物语音实时互动方法及系统，解决ai虚拟主持人有限度的与真实人类进行互动的问题。
5.为了实现上述目的，本发明采用的技术方案为：一种ai虚拟人物语音实时互动方法，其特征在于，包括：
6.基于声音音量评定算法构建语音识别模型，根据所述语音识别模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，通过一定的搜索和匹配策略，获得一系列最优的与输入语音匹配的模板；
7.建立具有标准特征的语音对话库，当计算机将人的声音通过语音识别装置识别成相关的文字数据信息后，将其对照所述一系列最优的与输入语音匹配的模板，比对相关的文字数据或者类似数据，再找出相关的解答内容后，再把该文字数据进行转化成声音信号，再推放给ai主持人，由其播放出去。
8.进一步地，还包括：通过识别真实主持人的语音，将其所说问题进行电信转换，将音频信号转化成数据文本，再由音频处理器比照这些数据对照语言数据库中内容，查询相关的问题答案。
9.进一步地，所述比对还包括：词法分析、句法分析、语义分析、语用分析和语境分析。
10.本发明的另一目的在于提供一种ai虚拟人物语音实时互动系统，其特征在于，包括：
11.获取单元，基于声音音量评定算法构建语音识别模型，根据所述语音识别模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，通过一定的搜索和匹配策略，获得一系列最优的与输入语音匹配的模板。
12.处理单元，用于建立具有标准特征的语音对话库，当计算机将人的声音通过语音识别装置识别成相关的文字数据信息后，将其对照所述一系列最优的与输入语音匹配的模板，比对相关的文字数据或者类似数据，再找出相关的解答内容后，再把该文字数据进行转化成声音信号，再推放给ai主持人，由其播放出去。
13.本发明的有益效果为：
14.实现简单，包括：基于声音音量评定算法构建语音识别模型，根据所述语音识别模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，通过一定的搜索和匹配策略，获得一系列最优的与输入语音匹配的模板。建立具有标准特征的语音对话库，当计算机将人的声音通过语音识别装置识别成相关的文字数据信息后，将其对照所述一系列最优的与输入语音匹配的模板，比对相关的文字数据或者类似数据，再找出相关的解答内容后，再把该文字数据进行转化成声音信号，再推放给ai主持人，由其播放出去。给比较死板的ai虚拟主持人赋予一种生命，使之可以有限度的与真实人类进行简单的互动，让所拍的节目更加的逼真，提高节目的客观性。实现了现场真实人物与ai虚拟人物通过语音就可以进行实时交互功能，让虚拟主持人不再是以传统的照本宣科的方式来进行简单的内容播放，让整个拍摄画面显得更有趣味性。
附图说明
15.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
16.图1是本发明的ai虚拟人物语音实时互动方法的流程图；
17.图2是本发明的语音识别装置结构示意图；
18.图3是本发明的ai虚拟人物语音实时互动方法的实施例示意图。
具体实施方式
19.如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本技术的较佳实施方式，然所述描述乃以说明本技术的一般原则为目的，并非用以限定本技术的范围。本技术的保护范围当视所附权利要求所界定者为准。
20.请参照图1至图3，本发明的一种ai虚拟人物语音实时互动方法，包括：
21.步骤s101，基于声音音量评定算法构建语音识别模型，根据所述语音识别模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，通过一定的搜索和匹配策略，获得一系列最优的与输入语音匹配的模板；
22.步骤s102，建立具有标准特征的语音对话库，当计算机将人的声音通过语音识别装置识别成相关的文字数据信息后，将其对照所述一系列最优的与输入语音匹配的模板，比对相关的文字数据或者类似数据，再找出相关的解答内容后，再把该文字数据进行转化
成声音信号，再推放给ai主持人，由其播放出去。
23.在本技术的一种实施例中，具体地，本发明的方法包括：进行语音数据化和语音识别模型库建立。
24.作为具体的实施例，首先要先设定一个标准的语音输入源，由语音发出者经过话筒将自己的声音发送给拾音系用户进行音频信号采集，采集的声音为模拟声音信号，然后通过拾音系统种的a/d数模转换模块，将模拟音频转换为数字音频，然后再根据转换成数字音频信号中记录的音量信息值来标定声音音量的等级，声音等级设定的方法，设输入数字音频信号为ds(x)＝(x＝1、2
……
、q)，这里x表示在预定音量等级上升沿时间tl内的q个时间点，ds(x)表示在q个时间点的数字音频信号ds的值，在这种情况下，声音音量评定值用一下公式来表达
25.lvl＝(∑|(ds(x))/q
26.根据以上公式，声音音量等级是在预定的声音音量级上升沿时间tl内在q个时间点的数字音频信号ms(x)值的累积之和用q除而得之的平均值。
27.作为具体的实施例，其次就是语音识别模型的实现方式，请参照图2，本发明的语音识别装置由语音发出者利用话筒1采集。采集的语音通过话筒1的作用，变模拟信号sa，然后通过a/d转换器转化为ds数字信号，然后提供给声级(音量等级)推定单元4、语音检测单元7、及选择单元11.声级推定单元4根据给出的数字音频信号ds,进行声级推定值lvl的计算。
28.作为具体的实施例，声级推定单元4根据a/d变换器2给出的数字音频信号ds，对每个单词计算声级推定值lvl，将声级推定值lvl依次提供给声级保持单元8.声级保持单元8保持单元8内设置的保持寄存器种，保持前一次的声级推定值lvl，一直到下一次给出利用声级推定单元4计算的声级推定值lvl为止。在每一次给出的利用利用声级推定单元4计算的声级推定值lvl时，对保持前一次声级推定值lvl的保存寄存器，将新提供的lvl写入加以保存，改写保存寄存器。另外，该保存寄存器具有数据容量m。
29.作为具体的实施例，语音检测单元7根据a/d变换器2给出的数字语音信号ds，开始计算语音开始时间ts，对选择单元11给出控制信号cis1，使得将a/d变换器2给出的数字信号ds提供给缓冲器21，同时对缓冲器21给出控制信号cb1，使得将由选择单元11给出的数字音频信号ds加以储存。缓冲器21和22分别具有容量l。
30.作为具体的实施例，选择单元11，对于利用语音检测单元7给出的控制信号cis1进行响应。将a/d变换器2给出的数字音频信号ds提供给缓冲器21.缓冲器21对于利用语音检测单元7给出的控制信号cb1进行响应，将通过选择单元11给出的给出的数字音频信号ds加以存储，然后，缓冲器21在存储能够存储的容量l的数字语音ds信号时，对语音检测单元7给出存满信号f1.这样，语音检测单元7通过缓冲器21想声级保持单元8给出声级推定值lvl输出的控制信号sl1。
31.作为具体的实施例，语音检测单元7对于缓冲器21给出的存满信号f1进行响应，对选择单元11给出控制信号cis2，使得将a/d变化器给出的数字语音信号ds提供给缓冲器22，同时对缓冲器22给出控制信号cb2，使得将由选择单元11对给出的数字语音信号ds加以储存。
32.作为具体的实施例，缓冲器21对于利用语音检测单元7给出的控制信号cb1进行响
应，将缓冲器21存储的数字语音信号ds通过选择单元12提供给声级调整单元5。
33.作为具体的实施例，缓冲器22对于利用语音检测单元7给出的控制信号cb2进行响应，将通过选择单元11给出的数字语音信号ds加以储存。缓冲器22在存储能够存储的容量l的数字数字语音信号ds时，对语音检测单元7给出存满信号f2.语音检测单元7通过缓冲器22向声级保持单元8给出声级推定值lvl输出控制信号sl2。
34.作为具体的实施例，语音检测单元7对于缓冲器22给出的存满信号f2进行响应，对选择单元11给出控制信号cis1，使得a/d变化器2给出的数字语音信号ds提供给缓冲器21，再有，语音检测单元7对缓冲器22给出的控制信号cb2，对选择单元12给出控制信号cos2。
35.作为具体的实施例，缓冲器22对于语音检测单元7给出的控制信号cb2进行响应，缓冲器22存储的数字语音信号ds通过选择单元12提供给声级调整单元5。
36.作为具体的实施例，声级保持单元8对于缓冲器21给出的控制信号sl1或缓冲器22给出的控制信号sl2进行响应，将内部寄存器保持的声级推定值lvl提供给声级调整单元5。再由声级保持单元8内设置的保存寄存器的容量m与缓冲器21及22的容量l近似为相同的容量，因此通过与选择单元12给出的数字语音信号ds对应的声级推定值lvl从声级保持单元输出。
37.作为具体的实施例，声级调整单元5根据利用声级保持单元8给出的声级推定值lvl，对通过选择单元12得到的数字语音信号ds进行调整。利用声级调整单元5的数字语音信号ds的调整方法，将调整后的数字语音信号ds值，通过ctrl-out提供给语音识别单元6，进行语音识别。
38.请参照图3，在以上的实现的功能基础上，计算机要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。
39.其次，建立具有标准特征的语音对话库，当计算机将人的声音通过识别装置识别成相关的文字数据信息后，则将其对照自身的语言数据库，比对相关的文字数据或者类似数据，再找出相关的解答内容后，再把该文字数据进行转化成声音信号，再推放给ai主持人，由其播放出去。至于语言库的语言数据，则是通过系统的网络汇聚系统，从互联网中汲取，并通过云端大数据分析系统，进行多版本比较，选取文字中占比最多的信息作为播出内容模板，在结合实现设定的语言表述逻辑特征规则，整理出最符合真实的语言回答文字后，再发给ai主持人播出。
40.作为具体的实施例，本发明的词法分析包括词形和词汇两个方面。一般来讲，词形主要表现在对单词的前缀、后缀等的分析，而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中，词法分析主要表现在对汉语信息进行词语切分，即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征，从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。
41.作为具体的实施例，本发明的句法分析是对用户输入的自然语言进行词汇短语的分析，目的是识别句子的句法结构，实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。
42.作为具体的实施例，本发明的语义分析是基于自然语言语义信息的一种分析方
法，其不仅仅是词法分析和句法分析这样语法水平上的分析，而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的，灵活、明确、简洁的表达方式。
43.作为具体的实施例，本发明的语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析，从文章的结构中提取到意象、人际关系等的附加信息，是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联，从而形成动态的表意结构。
44.作为具体的实施例，本发明的语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识，特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来，补充完善了词法、语义、语用分析的不足。
45.试验：
46.事先再音频处理系统中建立语言数据库，将输入的语音结合人的语音特点建立语音数据模型库，以数字化的方式进行保存。通过对真实主持人的语音识别功能，将其所说问题进行电信转换，将音频信号转化成数据文本，再由音频处理器比照这些数据对照语言数据库中内容，查询相关的问题答案，如果没有，则通过网络汇聚方式，找到与所问问题想类似的答案之后，再将其进行内容分析，以及语言逻辑重组，得出最佳的内容答案，后进行数音转化，再返送给虚拟主持人，由其进行语音播放出来。所使用的音频处理系统为z440，拾银音台为雅马哈的专业调音台，用于展示虚拟主持人形象的显示大屏为利亚德屏幕，点间距为p1.576，大屏服务器为利亚德mvc-2-203,麦克风若干个，千兆交换机1台。
47.试验效果：实现了现场真实人物与ai虚拟人物通过语音就可以进行实时交互功能。
48.本发明的有益效果为：
49.实现简单，包括：基于声音音量评定算法构建语音识别模型，根据所述语音识别模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，通过一定的搜索和匹配策略，获得一系列最优的与输入语音匹配的模板。建立具有标准特征的语音对话库，当计算机将人的声音通过语音识别装置识别成相关的文字数据信息后，将其对照所述一系列最优的与输入语音匹配的模板，比对相关的文字数据或者类似数据，再找出相关的解答内容后，再把该文字数据进行转化成声音信号，再推放给ai主持人，由其播放出去。给比较死板的ai虚拟主持人赋予一种生命，使之可以有限度的与真实人类进行简单的互动，让所拍的节目更加的逼真，提高节目的客观性。实现了现场真实人物与ai虚拟人物通过语音就可以进行实时交互功能，让虚拟主持人不再是以传统的照本宣科的方式来进行简单的内容播放，让整个拍摄画面显得更有趣味性。
50.上述说明示出并描述了本技术的若干优选实施例，但如前所述，应当理解本技术并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本技术的精神和范围，则都应在本技术所附权利要求的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种AI虚拟人物语音实时互动方法及系统与流程

相关文献

最热文献