自适应音频混合的制作方法

2023-08-30 15:07:12 来源：中国专利 TAG：

自适应音频混合

背景技术：

1.相关技术描述
2.视频游戏中的音乐在感知质量和用户参与方面扮演重要角色。当前，商业视频游戏使用由艺术家编配的预录音轨。然而，这些预录音轨提供了可预测的音频体验，对于玩相同视频游戏和遍历相同游戏场景的用户来说，该音频体验可能变得重复。
附图说明
3.通过结合附图参考以下描述，可更好地理解本文描述的方法和机制的优点，在附图中：
4.图1是计算系统的一个具体实施的框图。
5.图2是神经网络的一个具体实施的框图。
6.图3是神经网络的另一个具体实施的框图。
7.图4是自适应音频混合神经网络训练系统的一个具体实施的框图。
8.图5是自适应音频混合神经网络训练系统的一个具体实施的框图。
9.图6是自适应音频混合系统的一个具体实施的框图。
10.图7是示出了用于执行自适应音频混合的方法的一个具体实施的一般化流程图。
11.图8是示出了用于动态生成由机器学习引擎输出的音频的方法的一个具体实施的一般化流程图。
12.图9是示出了用于训练神经网络以生成用于视频游戏应用的动态非确定性音频混合的方法的一个具体实施的一般化流程图。
13.图10是示出了用于基于经由用户移动捕获的人类情绪的测量来影响自适应音频混合神经网络的方法的一个具体实施的一般化流程图。
具体实施方式
14.在以下描述中，阐述了许多具体细节以提供对本文呈现的方法和机制的透彻理解。然而，本领域普通技术人员应当认识到，可在没有这些具体细节的情况下实践各种具体实施。在一些情况下，未详细示出众所周知的结构、部件、信号、计算机程序指令和技术，以避免模糊本文描述的方法。应当了解，为了简单和清楚说明，附图中所示的元件不一定按比例绘制。例如，这些元件中的一些元件的尺寸可相对于其它元件被放大。
15.本文公开了用于执行自适应音频混合的各种系统、设备及方法。在一个具体实施中，经训练的神经网络动态地选择并混合作为相互兼容的集合而组成的预录的、人类编配的音乐编组。根据游戏场景特性和其他动态变化的因素推断由神经网络生成的编组和轨选择、音量混合、滤波、动态压缩、声学/混响特性、分段、节奏、节拍匹配和淡入淡出参数。经训练的神经网络选择艺术家的预录轨和/或编组并且以独特的方式实时地混合编组以基于诸如游戏场景、玩家的独特故事情节、场景元素、玩家的简档、兴趣和表现、对游戏控件(例如，音乐音量)做出的调整、观看者数量、接收到的评论、玩家的受欢迎程度、玩家的母语、玩家
的所在地和/或其他因素之类的因素来动态地调整和修改背景音乐。经训练的神经网络创建根据实时情况动态变化的独特音乐。
16.在一个具体实施中，当用户正在玩视频游戏时，系统创建动态音频混合，该混合不是重复的。在一个具体实施中，系统采用启发式算法，该算法允许作曲者引入在游戏的不同场景中混合预录编组的方式的随机变化。这些不同的场景基于用户在游戏中正在做什么、场景元素、玩家简档、兴趣、用户表现如何、用户是否正在调整音量、游戏中的观看者的数量等等。用户如何与游戏交互的这些因素然后被用于改变生成动态音频混合的混合参数。
17.在一个具体实施中，自适应人工智能(ai)引擎接收作为相互兼容的集合而组成的预录的人类编配的音乐编组。此外，ai接收用户与游戏的交互的指示。ai引擎执行编组和轨选择、音量混合/滤波、动态压缩和其他步骤以生成动态音频混合。在一个具体实施中，基于开发者期望用户以积极/有利的方式对什么作出反应来训练ai引擎。例如，如果节拍伴奏稍早到来，则测试者可以指示这不是期望的结果。但是如果节拍伴奏在适当的时间到来，则测试者可以指示这是良好的结果。该反馈被提供给ai引擎以使得ai引擎能够调整其设置并且随着时间的推移而改进。该训练方法是一种增强学习。
18.现在参考图1，示出了计算系统100的一个具体实施的框图。在一个具体实施中，计算系统100至少包括处理器105a-n、输入/输出(i/o)接口120、总线125、存储器控制器130、网络接口135、存储器装置140、显示控制器150、显示器155，以及扬声器/耳机160。在其他具体实施中，计算系统100包括其他部件并且/或者计算系统100以不同方式布置。处理器105a-n表示包括在系统100中的任何数量的处理器。
19.在一个具体实施中，处理器105a是通用处理器，诸如中央处理单元(cpu)。在该具体实施中，处理器105a执行驱动器110(例如，图形驱动器)以用于与系统100中的一个或多个其他处理器通信和/或控制该系统中的该一个或多个其他处理器的操作。应当注意，根据具体实施，驱动器110可使用硬件、软件和/或固件的任何合适的组合来实现。在一个具体实施中，处理器105n是具有高度并行架构的数据并行处理器，诸如专用神经网络加速器或图形处理单元(gpu)，该gpu将像素提供到显示控制器150以驱动到显示器155。
20.gpu是执行图形处理任务的复杂集成电路。例如，gpu执行最终用户应用(诸如视频游戏应用)所需的图形处理任务。gpu也越来越多地用于执行与图形无关的其他任务。gpu可为离散装置或可包括在与另一处理器(诸如cpu)相同的装置中。可包括在系统100中的其他数据并行处理器包括数字信号处理器(dsp)、现场可编程门阵列(fpga)、专用集成电路(asic)等。在一些具体实施中，处理器105a-n包括多个数据并行处理器。
21.新兴技术领域是机器学习，其中神经网络是一种类型的机器学习模型。神经网络已经在诸如手写数字分类和面部检测之类的任务中证明了优异的性能。神经网络的其他应用包括语音识别、语言建模、情感分析、文本预测等。在一个具体实施中，处理器105n是数据并行处理器，其被编程为执行神经网络应用以生成作为视频游戏应用的一部分而将在扬声器/耳机160上输出的动态自适应音频混合。在该具体实施中，音频混合通过基于各种实时游戏场景和用户参数组合预录的音频编组来适应游戏场景。如本文所使用，术语“音频编组”被定义为单独的音轨。
22.在一个具体实施中，实时游戏场景和用户参数被输入到经训练的神经网络，该神经网络生成混合权重阵列以应用于预录的音频编组。用于经训练的神经网络的网络拓扑的
示例包括生成式对抗网络(gan)、注意模型、变压器网络、递归神经网络(rnn)转导网络和它们的派生网络等。经训练的神经网络的输出是被实时集成到视频游戏应用中的非确定性音乐混合。在一个具体实施中，经训练的神经网络在处理器105a-n中的一个或多个上执行。如本文所使用，术语“非确定性”被定义为在通过视频游戏应用的相同场景的不同迭代上具有不同特性。
23.存储器控制器130表示可由处理器105a-n访问的任何数量和类型的存储器控制器。虽然存储器控制器130被示出为与处理器105a-n分离，但应当理解，这仅仅表示一个可能的具体实施。在其他具体实施中，存储器控制器130可嵌入处理器105a-n中的一个或多个处理器内，并且/或者存储器控制器130可位于与处理器105a-n中的一个或多个处理器相同的半导体芯片上。存储器控制器130耦接到任何数量和类型的存储器装置140。存储器装置140表示任何数量和类型的存储器装置。例如，存储器装置140中的存储器的类型包括动态随机存取存储器(dram)、静态随机存取存储器(sram)、nand闪存存储器、nor闪存存储器、铁电随机存取存储器(feram)等。
24.i/o接口120表示任何数量和类型的i/o接口(例如，外围部件互连(pci)总线、pci-扩展(pci-x)、pcie(pci高速)总线、吉比特以太网(gbe)总线、通用串行总线(usb))。各种类型的外围装置(未示出)耦接到i/o接口120。此类外围装置包括(但不限于)显示器、键盘、鼠标、打印机、扫描仪、操纵杆或其他类型的游戏控制器、媒体录制装置、外部存储装置等。网络接口135能够通过网络接收和发送网络消息。
25.在各种具体实施中，计算系统100是计算机、膝上型计算机、移动装置、游戏控制台、服务器、流式传输装置、可穿戴装置或各种其他类型的计算系统或装置中的任一种。应当注意，计算系统100的部件的数量因具体实施而异。例如，在其他具体实施中，存在比图1所示的数量更多或更少的每种部件。还应当注意，在其他具体实施中，计算系统100包括图1中未示出的其他部件。另外，在其他具体实施中，计算系统100以不同于图1所示的方式构造。
26.现在转向图2，示出了神经网络200的一部分的一个具体实施的框图。图2中示出的神经网络200的部分包括卷积层202、子采样层204、卷积层206、子采样层208和全连接层210。神经网络200可以包括与被示出夹在一起的那些类似的层的多个分组以创建网络的整个结构。作为神经网络200的一部分的层的其他分组可包括除图2所示之外的其他数量和布置的层。应注意，层202-210仅旨在作为可在一个特定实施方案中以背对背方式实现的层的分组的示例。图2中所示的层202-210的布置不排除将层堆叠在一起的其他方式被用于创建其他类型的神经网络。
27.当在计算系统(例如，图1的系统100)上实现神经网络200时，神经网络200基于实时游戏场景参数和玩视频游戏应用的用户的用户特定参数，使用多个音频编组来生成自适应非确定性音频混合。自适应非确定性音频混合然后被集成到视频游戏应用中且经由耳机、扬声器或其他音频输出装置提供给用户。
28.现在参考图3，其示出了神经网络300的另一个具体实施的框图。神经网络300示出了可在计算系统(例如，图1的系统100)上实现的神经网络的另一示例。在一个具体实施中，神经网络300是递归神经网络(rnn)，并且至少包括输入层310、隐藏层320和输出层330。隐藏层320代表任何数量的隐藏层，其中每个层具有任何数量的神经元。用于rnn的神经元包
括长短期记忆(lstm)、门控循环单元(gru)等。而且，可以存在隐藏层的神经元之间的任何数量和类型的连接。另外，隐藏层320之间的反向连接的数量可以随网络而变化。在其他具体实施中，神经网络300包括与图3中所示不同的层的其他布置和/或层之间的其他连接。在一些情况下，神经网络300可以包括(图2的)神经网络200的任何层。换句话说，卷积神经网络(cnn)的部分或全部可以与rnn的部分或全部组合以创建单个神经网络。
29.在一个具体实施中，神经网络300处理输入数据集以生成结果数据。在一个具体实施中，输入数据集包括多个实时游戏场景参数和玩视频游戏的用户的用户特定参数。在该具体实施中，输入数据集还包括多个预录的音频编组。在该具体实施中，结果数据指示如何组合预录的音频编组以创建在玩视频游戏时要向用户播放的自适应非确定性音频混合。在其他具体实施中，输入数据集和/或结果数据包括各种其他类型的数据中的任一者。
30.现在转向图4，示出了自适应音频混合神经网络训练系统400的一个具体实施的框图。系统400表示用于从部署前神经网络420创建经训练的神经网络的部署前训练系统的一个示例。在其他具体实施中，可以采用创建经训练的神经网络的其他方式。
31.在一个具体实施中，游戏剪辑410a被提供作为对神经网络420的输入，其中游戏剪辑410a表示玩视频游戏的用户的现实生活示例或对玩视频游戏的用户的模拟。神经网络420基于在游戏剪辑410a中遇到的游戏场景从音频编组415a-n生成音频输出430。音频输出430被提供给增强学习引擎440，该增强学习引擎生成反馈450，该反馈被提供给神经网络420作为对音频输出430的质量的指示。在一个具体实施中，增强学习引擎440包括评估由神经网络420生成的音频输出430的人类测试者(即，音乐家、作曲者)。在其他具体实施中，增强学习引擎440可包括人类参与和/或机器解释技术的任何组合，诸如在gan中使用以生成反馈450的经训练的鉴别器或评价器。
32.在一个具体实施中，如果神经网络420已生成相对高质量的音频输出430，则增强学习引擎440将生成具有相对高分数的反馈450，这将增强用于神经网络420的层的现有参数(即，权重)。另一方面，如果神经网络420已经生成相对低质量的音频输出430，则反馈450将具有相对低的分数，这将使得神经网络420通过调整参数以抵消所产生的“误差”来训练层。随后的游戏剪辑410b-n以类似的方式被处理以通过细化各个层的参数来继续神经网络420的训练。训练可以在一系列时期内进行，其中对于每个时期，训练数据集的全部或子集经常以随机的呈现顺序重复，并且重复训练时期的过程继续直到网络的精度达到令人满意的水平。如本文所使用，“时期”被定义为通过训练数据的完整集合的一次通过。此外，“子集”是指留出训练数据的一部分以用于验证和测试向量的常规做法。
33.现在参考图5，示出了自适应音频混合神经网络训练系统500的一个具体实施的框图。系统500表示当神经网络520已作为视频游戏应用540的一部分在现场部署以继续调适神经网络520的层的权重以改进自适应音频混合算法时的实时使用环境。这些更新的权重可被上传至云以允许这些更新被应用于其他神经网络。因此，在已经部署了神经网络520之后，增量训练可以继续以便细化神经网络520的特性。这允许神经网络520改善音频输出530的生成，以便增强总体用户体验。
34.实时参数510a-n是在用户使用视频游戏应用540期间实时收集的那些参数。神经网络520使用实时参数510a-n作为到神经网络520的层的输入，以便从音频编组515a-n生成音频输出530。音频输出530随后被提供给视频游戏应用540并呈现给用户。当用户正在玩视
频游戏时，用户交互550将被捕获，诸如用户导航视频游戏应用环境、用户的表现、用户改变任何游戏设置、用户移动等等。这些用户交互数据序列被提供给用户参与程度测量引擎555。在一个具体实施中，视频游戏应用540在游戏控制台545上执行。游戏控制台545包括(图1的)系统100中示出的任何部件以及系统100中未示出的其他部件。在另一具体实施中，视频游戏应用540作为云游戏场景的一部分在云中执行。图5中示出的其他部件中的任一个可在游戏控制台545上本地实现或在用户本地的其他计算机硬件上实现，和/或这些部件中的一个或多个可在云中实现。
35.引擎555生成用户参与程度的测量结果，其被示为参与程度度量560。在一个具体实施中，引擎555是经训练的神经网络。取决于具体实施，参与程度度量可以具有从0-1、0-10、0-63的范围，或对应于特定训练算法的任何其他合适的范围。参与程度度量560被提供给神经网络520作为对音频输出530的良好程度的度量的指示。在各种具体实施中，参与程度度量560是周期性地生成的，其中更新被提供给神经网络520。
36.参与程度度量560被用于在现场部署之后递增地训练神经网络520。在一个具体实施中，参与程度度量560的值越高，被提供给神经网络520以指示神经网络520选择了音频编组515a-n的正确组合和处理技术的正确组合来产生音频输出530的正反馈越高。而且，在此具体实施中，参与程度度量560的值越低，被提供给神经网络520以指示神经网络520在选择音频编组515a-n和处理技术的组合以产生音频输出530方面做的较差的负反馈越多。当动态地生成音频输出530时，可以在用户正在玩视频游戏应用540的整个时间内变化的反馈(正或负)将使得神经网络520能够继续其训练并且在未来迭代中更好地执行。在一个具体实施中，神经网络520的学习率保持在可编程范围内，以避免对现场的训练参数进行过度激进的改变。学习率是可变比例因子，其调整在这些增量训练过程期间应用于训练参数的变化量。
37.神经网络520可以具有针对不同场景、针对不同视频游戏、针对不同玩家/用户的不同设置，并且这些设置可以基于用户正在游戏中导航的位置、用户正在玩哪个视频游戏等等来预先加载。例如，在游戏的更危险的部分期间，神经网络520具有用于其层的第一组参数。在游戏的较不危险的阶段期间，例如，当用户乘坐汽车、在餐馆或商店等待、读书等时，则神经网络520具有用于其层的第二组参数。神经网络520可以具有用于单个游戏的任何数量的不同参数集，并且这些参数集可以在遇到游戏的不同阶段时被实时加载和编程到各层中。基于在游戏的对应部分期间接收的参与程度度量560来训练每一组参数，而与在游戏的相应部分中如何训练其他组参数无关。不同的场景还可以使用不同的编组集，神经网络520基于这些不同的参数从这些编组集做出选择以生成用于特定场景的声音混合。
38.现在转向图6，示出了自适应音频混合系统600的一个具体实施的框图。在一个具体实施中，系统600至少包括音频混合引擎620和经训练的神经网络640。和wwise
tm
是在游戏中使用的音频混合引擎的商业示例。音频混合引擎620和经训练的神经网络640可使用硬件和/或程序指令的任何组合来实现。例如，在一个具体实施中，音频混合引擎620和经训练的神经网络640在一个或多个gpu上实现。在另一具体实施中，音频混合引擎620和经训练的神经网络640在另一类型的并行处理器(例如，fpga、asic)上实现。在其他具体实施中，音频混合引擎620和经训练的神经网络640可使用其他类型的硬件装置(例如，cpu)和/或程序指令来实现。
39.在一个具体实施中，经训练的神经网络640接收多个游戏场景参数630a-n和多个玩家简档参数635a-n。游戏场景参数630a-n特定于正在玩的视频游戏的特性以及用户在游戏内的位置。游戏场景参数630a-n可包括游戏场景特性，诸如玩家已经体验的独特故事情节、场景元素等。玩家简档参数635a-n可以包括诸如玩家的兴趣、玩家的表现、玩家对游戏控件的调整、玩家的观看者的数量、玩家正在接收的评论的类型、玩家的受欢迎程度、玩家的母语、玩家的所在地等等的特性。玩家简档参数635a-n中的一些将是静态的，并且玩家简档参数635a-n中的一些将在整个游戏中改变。
40.多个游戏场景参数630a-n和多个玩家简档参数635a-n作为输入被提供给经训练的神经网络640。这些输入由经训练的神经网络640的各层处理以生成一组音频混合权重645a-n。音频混合权重645a-n表示由经训练的神经网络640生成的任何数量的输出。在一个具体实施中，音频混合权重645a-n是应用于音频编组610a-n的值的阵列。在此具体实施中，存在输出645a-n，其对应于每一音频编组610a-n且限定音频混合引擎620如何将这些音频编组610a-n混合在一起以产生音频输出650。在其他具体实施中，权重645a-n由音频混合引擎620以其他方式应用以从音频编组610a-n生成音频输出650。在一些具体实施中，权重645a-n包括定时参数，其指定音频编组610a-n何时被混合在一起以产生音频输出650的定时。
41.在一个具体实施中，音频编组610a-n是由作曲者生成的预录音轨。音频混合引擎620基于由经训练的神经网络640生成的权重645a-n来确定如何组合音频编组610a-n。例如，在一个具体实施中，每个权重645a-n被应用于对应的音频编组610a-n，其确定该音频编组是否被包括在该混合中。例如，在该具体实施中，权重645a-n与音频编组610a-n之间存在一对一对应。应注意，音频混合权重645a-n可为时变的。在一个具体实施中，每个权重645a-n是0或1的二进制值，而在其他具体实施中，每个权重645a-n可以取给定范围内的任何值。在其他具体实施中，音频混合引擎620以其他方式将权重645a-n应用于音频编组610a-n以产生音频输出650。音频输出650随后经由扬声器、耳机或另一音频输出装置提供给用户。
42.现在参考图7，示出了用于执行自适应音频混合的方法700的一个具体实施。出于讨论的目的，以顺序的次序示出该具体实施中以及图8至图10的那些具体实施中的步骤。然而，应当注意，在所描述方法的各种具体实施中，同时地执行、以与所示不同的次序执行、或完全省略所描述元素中的一个或多个元素。还根据需要执行其他另外的元素。本文所述的各种系统或设备中的任一者被配置为实现方法700。
43.系统接收并存储预录的音频编组(框705)。系统实时监测视频游戏状况(框710)。系统生成表示实时监测的一个或多个视频游戏状况的数值(框715)。例如，可以监测用户的表现并将其转换为给定范围内的分数。在一个具体实施中，给定范围可以是0-63，并且经训练的神经网络将用户的表现转换到给定范围中，其中0是最低表现并且63是最高表现。其他视频游戏状况也可以以类似方式转换为数值。
44.所述数值作为输入被提供给经训练的神经网络(框720)。接下来，经训练的神经网络处理输入以便生成混合权重阵列(框725)。然后，经训练的神经网络将混合权重阵列应用于预录的音频编组以创建自适应音频混合(框730)。接下来，作为视频游戏体验的一部分为用户播放音频输出(框735)。在框735之后，方法700返回到框710，其中系统继续监测实时视频游戏中状况。生成对自适应音频混合的更新的粒度可随具体实施而变化。在一个具体实
施中，如果检测到大于阈值的视频游戏状况的改变，则再次通过方法700来更新自适应音频混合。
45.在一个示例中，经训练的神经网络可以增加包括冲击效果的编组的音量水平或清脆感，以增强如由以数值表示的视频游戏状况所确定的玩家增加的兴奋程度。或者在不同的场景中，可以增加弦乐器或木管乐器声音的混合以增强玩家的情绪反应，如从数值所推断的。在另一示例中，如果数值被推断为指示玩家分心，则经训练的神经网络可以减小声音的音量。
46.现在转向图8，其示出了用于由机器学习引擎来动态地生成音频输出的方法800的一个具体实施。机器学习引擎接收或提取一个或多个用户特定参数(框805)。在一个具体实施中，机器学习引擎是经训练的神经网络。在其他实施方案中，基于其他类型的人工智能或增强学习模型来实现机器学习引擎。用户特定参数包括但不限于以下：玩家的兴趣、玩家的表现、玩家对游戏控件的调整、玩家的观看者的数量、玩家正在接收的评论的类型、玩家的受欢迎程度、玩家的母语以及玩家的所在地。此外，机器学习模型接收或提取用户正在玩视频游戏应用的实时场景的一个或多个指示(框810)。用户玩视频游戏应用的实时场景的一个或多个指示包括但不限于以下：玩家所体验到的独特故事情节、场景元素、场景人物、以及游戏结构内的场景的整体水平。
47.接下来，机器学习引擎通过基于一个或多个用户特定参数和实时场景的一个或多个指示组合多个预录的音乐编组来生成非确定性音乐混合(框815)。然后，主机计算系统或设备使得非确定性音乐混合成为对玩视频游戏的用户的音频输出(框820)。在框820之后，方法800结束。应注意，方法800可以周期性或可编程间隔重复以更新针对用户生成的非确定性音乐混合。而且，混合水平可以是时变的。例如，混合水平可以具有音量水平的逐渐增加或减小和/或在各个编组上或在整体混合上的均衡。
48.现在参考图9，其示出了用于训练神经网络以生成用于视频游戏应用的动态非确定性音频混合的方法900的一个具体实施。神经网络从玩视频游戏的用户接收多个游戏剪辑(框905)。神经网络包括任何数量和类型的层，其中层的数量和类型根据具体实施而变化。游戏剪辑可以是来自历史视频游戏的录制的游戏剪辑，或者可以从玩视频游戏的用户实时接收游戏剪辑。在一些情况下，神经网络可以接收历史和实时游戏剪辑的组合。而且，神经网络接收和/或生成与游戏剪辑相关联的各种游戏场景参数和用户特定参数(框910)。神经网络还接收多个预录的音频编组(框915)。在一个具体实施中，预录的音频编组由音乐作曲者创建，以与特定视频游戏应用一起使用。
49.接下来，通过神经网络执行正向传播过程，以通过基于游戏场景参数和用户特定参数组合音频编组来生成动态非确定性音频混合(框920)。然后，神经网络接收关于动态非确定性音频混合的反馈(框925)。在一个具体实施中，反馈由测试者、游戏作曲者或收听并评估动态非确定性音频混合的其他人生成。反馈可以包括由测试者生成的分数，并且测试者可以在整个音频混合的不同时刻调整分数。在另一具体实施中，基于由玩视频游戏应用的用户所采取的动作来实时地生成反馈。在该具体实施中，基于用户动作来推断反馈，诸如调整音量、提高或降低的表现等等。在另外的具体实施中，通过监督方法预先训练鉴别网络，以识别在用于该场景的适当音乐混合中使用的参数，从而创建用于增强学习过程的初始起始点。
50.接下来，通过神经网络执行反向传播过程以基于反馈调整神经网络层的权重(框930)。在框930之后，方法900结束。应注意，方法900可以用不同训练集重复任何次数，以迭代地细化神经网络层的权重。
51.现在转到图10，其示出了用于基于经由用户移动捕获的人类情绪的测量来影响自适应音频混合神经网络的方法1000的一个具体实施。当用户玩视频游戏时，一个或多个传感器跟踪用户移动(框1005)。接下来，用户参与程度测量引擎(例如，图5的用户参与程度测量引擎555)基于被跟踪的用户移动来生成人类情绪的测量(框1010)。例如，如果用户的手臂和/或腿正被跟踪，则与用户的较早移动量或其他用户的移动量相比，手臂和/或腿的相对移动量提供对用户的情绪的指示。在一个具体实施中，用户情绪的测量旨在表示用户在标度的一端有多昏昏欲睡或者用户在标度的另一端有多欢快。
52.然后，提供人类情绪的测量作为自适应音频混合神经网络的输入(框1015)。自适应音频混合神经网络基于人类情绪的测量和一个或多个其他输入参数来生成自适应音频混合(框1020)。例如，如果人类情绪的测量大于阈值，则自适应音频混合神经网络增加自适应音频混合的节奏。还可以实现基于人类情绪的测量和其他输入参数对自适应音频混合的其他改变。其他输入参数可以根据具体实施而变化，并且可以是先前列出的场景和/或用户特定参数中的任何一个。在框1020之后，方法1000结束。应注意，方法1000可在视频游戏进行期间重复以更新由神经网络生成的自适应音频混合。
53.在各种具体实施中，软件应用程序的程序指令用于实现本文所描述的方法和/或机制。例如，设想到可由通用处理器或专用处理器执行的程序指令。在各种具体实施中，此类程序指令由高级编程语言表示。在其他具体实施中，将程序指令从高级编程语言编译成二进制、中间或其他形式。另选地，写入描述硬件的行为或设计的程序指令。此类程序指令由高级编程语言诸如c表示。另选地，使用硬件设计语言(hdl)，诸如verilog。在各种具体实施中，将程序指令存储在多种非暂态计算机可读存储介质中的任一种非暂态计算机可读存储介质上。存储介质可在使用期间由计算系统访问以向计算系统提供程序指令以用于程序执行。一般来说，这种计算系统至少包括一个或多个存储器以及被配置为执行程序指令的一个或多个处理器。
54.应当强调的是，上述具体实施仅是具体实施的非限制性示例。一旦完全了解上述公开内容，许多变型和修改对于本领域技术人员将变得显而易见。旨在将以下权利要求书解释为涵盖所有此类变型和修改。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：爆破效果渲染方法、装置、电子设备及存储介质与流程

自适应音频混合的制作方法

最热文献