一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信号处理装置、方法和程序与流程

2022-04-27 03:21:13 来源:中国专利 TAG:


1.本技术涉及一种信号处理装置、方法和程序,并且具体地,涉及一种使获得高质量目标声音成为可能的信号处理装置、方法和程序。


背景技术:

2.为了再现从诸如鸟瞰视图和漫步视图的自由视点生成的声场,重要的是以高sn比(信噪比)收录来自目标声源的声音,并且同时需要获取指示相应声源的位置和方位的信息。
3.来自目标声源的声音的具体示例包括来自人类的语音、人类的一般动作声音(例如行走声音和跑步声音)以及运动、游戏等内容特有的动作声音(例如踢球声音)。
4.此外,作为与用户行为识别相关联的技术,例如,已经提出了通过分析由多个距离测量传感器检测到的距离测量传感器数据来获得一个或多个用户的行为识别结果的技术(例如,见ptl1)。
5.[引文列表]
[0006]
[专利文献]
[0007]
[ptl1]
[0008]
jp2017-205213a


技术实现要素:

[0009]
[技术问题]
[0010]
同时,在从自由视点收录运动、戏剧等作为内容的情况下,在收录空间中包括多个声源。这些声源在某种情况下可能会做出复杂的动作。在这种情况下,难以以高sn比获得目标声源的声音。因此,难以获得高质量的目标声音。
[0011]
本技术是在考虑到上述情况开发的,并且旨在获得高质量的目标声音。
[0012]
[问题的解决方案]
[0013]
根据本技术的一个方面的信号处理装置包括区间检测单元,该区间检测单元被配置为检测包含从移动体发出的声音的时间区间,并且该声音被包括在通过在移动体周围存在其它移动体的状态下收集移动体周围的声音而获得的收录信号中,基于收录信号和从附接到移动体的传感器输出的传感器信号来检测时间区间。
[0014]
根据本技术的一个方面的信号处理方法或程序包括检测包含从移动体发出的声音的时间区间的步骤,并且该声音被包括在通过在移动体周围存在其它移动体的状态下收集移动体周围的声音而获得的收录信号中,基于收录信号和从附接到移动体的传感器输出的传感器信号来检测时间区间。
[0015]
根据本技术的方面,基于收录信号和从附接到移动体的传感器输出的传感器信号,检测包含从移动体发出的声音的时间区间,并且该声音被包括在通过在移动体周围存在其它移动体的状态下收集移动体周围的声音而获得的收录信号中。
附图说明
[0016]
图1是描绘收录系统的配置示例的示图。
[0017]
图2是解释对象和对象声源的示图。
[0018]
图3是描绘声源分类区间信息的示例的示图。
[0019]
图4是解释声源分类区间信息的生成的示图。
[0020]
图5是解释移除目标对象的选择的示图。
[0021]
图6是解释收录处理的流程图。
[0022]
图7是解释数据生成处理的流程图。
[0023]
图8是描绘收录系统的配置示例的示图。
[0024]
图9是解释数据生成处理的流程图。
[0025]
图10是描绘收录系统的配置示例的示图。
[0026]
图11是解释收录处理的流程图。
[0027]
图12是解释数据生成处理的流程图。
[0028]
图13是描绘收录系统的配置示例的示图。
[0029]
图14是解释数据生成处理的流程图。
[0030]
图15是描绘收录系统的配置示例的示图。
[0031]
图16是描绘计算机的配置示例的示图。
具体实施方式
[0032]
在下文中,将参考附图详细描述应用本技术的实施例。
[0033]
《第一实施例》
[0034]
《收录系统的配置示例》
[0035]
本技术用于通过将麦克风、距离测量设备、相机等附接到目标空间中的多个移动体中的每一个,并且通过提取自身移动体的声音,同时基于声音收录信号、与移动体相关联的位置信息、与移动体相关联的运动信息、周围图像等将自身移动体的声音与其他移动体的声音区分,从而获得高质量目标声音。
[0036]
具体地,本技术适当地适用于的内容的示例包括以下项。
[0037]-再现进行团队运动的场地的内容
[0038]-再现音乐表演(例如管弦乐队、军乐队等的表演)的内容
[0039]-再现音乐剧、歌剧、戏剧等多名演奏者在场的空间的内容
[0040]-再现进行体育日、现场表演、各种类型的活动、主题公园的游行等的任何空间的内容
[0041]
下文中,将要被收录的空间称为目标空间。
[0042]
这里特别假设多个移动体存在于相同的目标空间中,并且用于收录内容的收录设备附接到或内置在这些移动体中的每一个中。
[0043]
在这种情况下,将单独附接收录设备的移动体或单独内置收录设备的移动体假设为对象,并且从每个对象发出的声音被收录(收集)为对应对象声源的声音。
[0044]
例如,目标空间中的每个对象(移动体)可以是诸如体育运动员的人,或者可以是机器人、车辆或诸如无人机的飞行对象,收录设备附接在其上或者收录设备内置在其中。
[0045]
例如,在对象是人的情况下,优选地,附接到人的收录设备尽可能小型化,以避免对人的表演的影响,并且不被周围环境视觉识别。
[0046]
此外,例如,收录设备包括用于从对象声源收集声音的麦克风、用于测量对象的移动或方向(方位)的诸如九轴传感器的传感器、用于测量位置的距离测量设备、用于捕获周围图像的相机或其他设备。
[0047]
例如,本文的距离测量设备是gps(全球定位系统)设备、室内距离测量信标接收机或用于测量对象位置的其他设备,并且可以使用距离测量设备获取指示对象位置的位置信息。
[0048]
此外,基于来自设置在收录设备上的传感器的输出,可以获取指示对象的运动(例如速度和加速度)或指示对象的方向(方位)的运动信息。
[0049]
收录设备通过使用在收录设备中内置的麦克风、传感器和距离测量设备获取收录信号,与对象相关联的位置信息,与对象相关联的运动信息,该收录信号是通过收集对象周围的声音获得的音频信号。此外,在收录设备上设置相机的情况下,也可以获取对象周围的图像的图像信号。
[0050]
利用由此获得的每个对象的收录信号、位置信息、运动信息和图像信号获得对象声源信号,该对象声源信号是从对象声源生成的作为目标声音的声音的音频信号。
[0051]
本文中作为目标声音的来自对象声源的声音的示例包括作为对象的人发声的语音、对象的行走声音或跑步声音以及诸如掌声的动作声音。
[0052]
为每个对象获得的收录信号不仅包括从对象本身发出的声音,而且包括从位于附近的其它对象发出的声音。此外,收录信号包括属于对象但从彼此不同的多个对象声源发出的声音,即不同分类的声音,例如由对象本身发出的语音和动作声音。
[0053]
在本技术中,根据需要,通过使用针对每个对象获得的位置信息、运动信息和图像信号,可以区分(辨别)收录信号中包含的和从各个对象声源产生的声音,并从收录信号中提取每个对象声源的对象声源信号。
[0054]
具体地,例如,通过基于运动信息指定对象的动作状态,可以检测收录信号中包括并且包含相对应对象声源的声音的时间区间。
[0055]
因此,例如,通过从收录信号中提取对象声源的声音间隔内的信号,并根据需要对提取的信号执行诸如音质校正、声源分离和噪声去除的信号处理,可以获得表现出高sn比的高质量对象声源信号。
[0056]
此外,通过将针对多个对象中的每一个获得的诸如位置信息、运动信息和图像信号的信息进行集成,可以获得更高质量的对象声源信号,从而提高来自对象声源的声音的时间区间的检测结果的精度。
[0057]
在下文中,将更详细地描述本技术。
[0058]
图1是描绘根据应用了本技术的实施例的收录系统的配置示例的图。
[0059]
在图1中描绘的示例中,收录系统包括附接到作为移动体的对象的收录设备11,以及从收录设备11接收传输数据并生成对象声源信号的服务器12。
[0060]
注意,收录设备11可以内置在移动体中。然而,在下面的描述中,假设收录设备11附接到移动体。
[0061]
收录设备11附接到作为收录目标在目标空间中自由移动的移动体的对象。收录设
备11生成包含收录信号、位置信息和运动信息的传输数据,并将生成的传输数据发送到服务器12。
[0062]
注意,尽管本文仅描绘了一个收录设备11,但在实际情况下存在多个收录设备11,并且每个收录设备都附接到彼此不同的多个对象中的相对应的一个。
[0063]
服务器12基于从多个收录设备11接收的传输数据,输出包括每个对象声源的对象声源信号和元数据的对象声源数据作为内容数据。注意,不要求服务器12布置在目标空间中。
[0064]
此外,收录设备11包括麦克风21、运动测量单元22、位置测量单元23、收录单元24和传输单元25。
[0065]
麦克风21收集收录设备11周围的声音,并将作为声音收集的结果获得的收录信号提供给收录单元24。注意,收录信号可以是单声道信号。然而,在本说明中假设收录信号是多声道信号。
[0066]
在收录设备11周围不仅存在收录设备11所附接的对象,而且存在其他对象的状态下,收录设备11使用麦克风21收集声音。因此,与收录信号相关联的声音包含来自多个声源的声音。
[0067]
运动测量单元22包括用于测量对象的运动或方向的传感器,例如九轴传感器、磁场传感器、加速度传感器或陀螺仪传感器,并将指示测量结果(感测值)的传感器信号作为运动信息输出到收录单元24。
[0068]
具体地,运动测量单元22在麦克风21收集声音期间测量对象的运动或方向,并输出指示该测量结果的运动信息。
[0069]
注意,这里描述的是其中在不改变的情况下将传感器信号用作运动信息的示例。然而,根据需要,通过使用收录单元24对传感器信号执行信号处理,可以从传感器信号生成运动信息。
[0070]
此外,运动测量单元22可以设置在收录设备11的外部,并且附接到与收录设备11附接到对象的位置不同的位置。
[0071]
例如,位置测量单元23包括诸如gps设备的距离测量设备和室内距离测量信标接收机。位置测量单元23测量附接有收录设备11的对象的位置,并将指示该测量结果的位置信息输出到收录单元24。
[0072]
注意,收录信号、运动信息和位置信息是在相同的时间段内同时获取的。
[0073]
根据需要,收录单元24对从麦克风21提供的收录信号、从运动测量单元22提供的运动信息和从位置测量单元23提供的位置信息执行ad(模数)转换等,并将处理后的信号和信息提供给传输单元25。
[0074]
传输单元25通过对收录信号、运动信息和位置信息执行压缩处理等,生成包含从收录单元24提供的收录信号、运动信息和位置信息的传输数据。然后,传输单元25经由无线网络等将获得的传输数据发送到服务器12。
[0075]
此外,服务器12包括接收单元31、区间检测单元32和对象声源数据生成单元33。
[0076]
接收单元31接收从多个收录设备11中的每一个发送的传输数据,并从传输数据中提取收录信号、位置信息和运动信息。
[0077]
接收单元31将收录信号提供给区间检测单元32和对象声源数据生成单元33。此
外,接收单元31将运动信息提供给区间检测单元32,并且还将运动信息和位置信息提供给对象声源数据生成单元33。
[0078]
区间检测单元32基于从接收单元31提供的收录信号和运动信息,针对每个收录信号检测包含在收录信号中并从对象声源生成的声音的分类(类型),即,对象声源的分类,以及包含对象声源的声音的时间区间。
[0079]
区间检测单元32将声源分类区间信息提供给对象声源数据生成单元33,该声源分类区间信息指示从收录信号检测到的对象声源的声音的分类和时间区间。
[0080]
此外,区间检测单元32将声源分类信息提供给对象声源数据生成单元33,该声源分类信息指示对应于收录信号的对象,并指示从收录信号检测到的对象声源的声音的分类。换句话说,声源分类信息是指示作为基于对象声源信号的声音的声源的对象声源的分类和对应于该声音的生成源的对象的信息。
[0081]
对象声源数据生成单元33基于从接收单元31提供的收录信号、运动信息和位置信息,以及基于从区间检测单元32提供的声源分类区间信息和声源分类信息,生成对象声源数据。然后,对象声源数据生成单元33将生成的对象声源数据输出到在下一阶段中布置的再现设备等。
[0082]
对象声源数据生成单元33包括信号处理单元41和元数据生成单元42。
[0083]
信号处理单元41基于从区间检测单元32提供的声源分类区间信息和从接收单元31提供的运动信息和位置信息,对从接收单元31提供的收录信号执行预定的信号处理。由此,生成对象声源信号。
[0084]
例如,基于声源分类区间信息,通过执行一种或多种类型的信号处理(例如,从收录信号中提取对象声源的声音的时间区间的处理和使不包含收录信号的对象声源的声音的时间区间静音的处理)来生成对象声源信号。
[0085]
此外,元数据生成单元42生成包含从区间检测单元32提供的声源分类信息和从接收单元31提供的运动信息和位置信息的每个对象声源(即每个对象声源信号)的元数据。
[0086]
从对象声源数据生成单元33将包括对象声源信号和由此获得的元数据的对象声源数据输出到下一阶段。
[0087]
《服务器的各个单元》
[0088]
接下来,将更详细地描述服务器12中包括的各个单元。
[0089]
首先,对区间检测单元32进行描述。
[0090]
注意,在适当的情况下,在下文中,关注的预定对象也将被称为目标对象,并且目标对象以外的对象也将被称为其它对象。
[0091]
区间检测单元32将包含在收录信号中并由目标对象发出的声音与包含在收录信号中并由其他对象发出的声音区分,指定由目标对象发出的声音的分类,并检测由目标对象发出的声音的时间区间。
[0092]
如上所述,区间检测单元32接收收录信号和运动信息作为输入,并输出与输入相对应的声源分类区间信息和声源分类信息。
[0093]
这里假设收录设备11附接到的移动体是对象,并且对象的每个部分用作对象声源,例如,如图2中描绘的。假设对象声源的声音是从这样定义的对象发出的。注意,更具体地,还假设由对象携带的乐器等可以用作对象声源。
[0094]
此外,在收录设备11和服务器12中,预先定义对象声源的分类。
[0095]
例如,假设对象声源的一些分类,即,对象声源的声音的一些分类对于所有内容是共有的,并且其他分类对于每个内容是不同的。
[0096]
具体地,如图2的右部分所描绘的,被定义为所有内容共有的分类的对象声源的声音的分类的示例包括由作为对象的人发出的语音,以及该人的行走声音、跑步声音和掌声。
[0097]
此外,被定义为与运动相关联的内容特有的分类的对象声源的声音的分类的示例包括传球声、射门声和哨声。被定义为与音乐相关联的内容特有的分类的对象声源的声音的分类的示例包括乐器声音。此外,被定义为与戏剧、舞蹈等相关联的内容特有的分类的对象声源的声音的分类的示例包括与演员的行为相关联的声音,例如衣服的沙沙声和脚步声。
[0098]
区间检测单元32生成声源分类区间信息,该声源分类区间信息指示对象声源的声音属于哪个分类以及声音包含在收录信号中的哪个时间区间。
[0099]
该声源分类区间信息可以具有任何形式,例如,如图3中描绘的,例如0或1指示的二进制信息和由连续值表示的概率信息。此外,声源分类区间信息可以是针对时间信号的区间信息,也可以是针对每个频率区间(frequency bin)的区间信息。
[0100]
例如,在图3的左上部分所描绘的示例中,声源分类区间信息是针对每个对象声源定义的二进制信息,并且该二进制信息指示在作为时间信号给出的收录信号中的每个时间点是否包含对象声源的声音。
[0101]
在该示例中,相应的线指示在每个时间点是否包含作为对象声源的“背景噪声”、“行走声音或跑步声音”、“射门声”和“语音”。
[0102]
具体地,每条线的水平方向指示时间。线向上突出的间隔指示在该间隔中包含对象声源的声音。
[0103]
此外,在图3的右上部分所描绘的示例中,声源分类区间信息是针对每个对象声源定义的连续值信息,并且该连续值信息指示表示在作为时间信号给出的收录信号中的每个时间点包含对象声源的声音的概率的概率值。
[0104]
在该示例中,相应的曲线指示概率值,该概率值表示在每个时间点包含作为对象声源的“背景噪声”、“行走声音或跑步声音”、“射门声”或“语音”的概率。
[0105]
例如,当对象声源的检测被设置为来自多个类的识别问题时,指示包含相对应的对象声源的声音的概率的连续概率值中的每一个是通过机器学习等获得的dnn(深度神经网络)的输出值。
[0106]
此外,在图3的左下部分所描绘的示例中,声源分类区间信息是针对每个对象声源分类生成的时间频率掩码形式的二进制信息。
[0107]
该时间频率掩码形式的二进制信息通过使用二进制值来表示对于收录信号的时间频率区间的每个分量,对象声源的声音是否包含在收录信号的每个时间区间(时间点)中。具体地,在该示例中,纵轴指示时间频率区间,而横轴指示时间。
[0108]
此外,在图3的右下部分所描绘的示例中,声源分类区间信息是针对每个对象声源分类生成的时间频率掩码形式的连续值信息。与上面类似,在该示例中,纵轴指示时间频率区间,而横轴指示时间。
[0109]
该时间频率掩码形式的连续值信息通过使用连续值来表示对于收录信号的时间
频率区间的每个分量,对象声源的声音包含在收录信号的每个时间区间(时间点)中的概率。
[0110]
注意,声源分类区间信息不限于图3中描绘的示例,并且可以是任何形式的信息。根据在下一阶段中布置的信号处理单元41执行的信号处理,适当地确定使用哪种形式的声源分类区间信息就足够了。
[0111]
此外,为了生成声源分类区间信息,区间检测单元32在收录信号的每个时间区间中针对每个分类检测对象声源的声音。换句话说,针对每个分类检测对象声源的声音的时间区间。
[0112]
由收录设备11获得的运动信息是在由麦克风21执行的声音收集期间指示对象的运动或方向以获得收录信号的信息。
[0113]
因此,基于运动信息通过检测每个包含对象声源的声音的时间区间,可以确定收录信号的每个时间区间中包含的声音是从对象发出的声音还是从周围对象发出的声音。
[0114]
对象声源的声音的示例包括各种类型的动作声音,例如行走声音、跑步声音、掌声、踢足球时的射门声和跳舞时的脚步声。
[0115]
例如,作为用于检测动作声音的时间区间的方法,可以采用这样一种方法,该方法使用诸如使用阈值的阈值处理的简单算法来检测动作声音的时间区间。
[0116]
在这种情况下,例如,将作为运动信息的传感器的感测值落在为要检测的动作声音定义的特定范围内的时间区间设置为动作声音的时间区间。
[0117]
此外,例如,可以通过多模态学习来创建诸如dnn的标识符,并且可以用于动作声音的时间区间的检测。
[0118]
在这种情况下,通过学习创建诸如dnn的标识符。该标识符接收收录信号和诸如加速度传感器、磁场传感器和陀螺仪传感器之类的传感器的传感器值作为输入,例如,获得传感器值作为运动信息,并且输出在收录信号的每个时间区间中动作声音的存在或不存在。
[0119]
注意,作为上述标识符,例如,可以使用将所有内容共用的多个动作声音设置为检测目标的这种标识符,或者将内容特有的动作声音设置为检测目标的这种标识符。
[0120]
这里,将描述检测动作声音的时间区间的特定示例。
[0121]
例如,在检测作为动作声音的对象的行走声音或跑步声音的时间区间的情况下,使用由加速度传感器测量的指示对象在上下方向上的加速度的传感器值作为运动信息就足够了。
[0122]
在这种情况下,基于传感器值的变化可检测对象的行走或跑步。例如,将传感器值的时间波形的频率(即,振荡频率)约为2hz或更低的时间区间识别为对象正在执行行走动作的间隔,即,行走声音的时间区间。类似地,例如,将传感器值的振荡频率大约在3hz至4hz范围内的时间区间识别为对象正在执行跑步动作的间隔,即跑步声音的时间区间。
[0123]
此外,在检测作为动作声音的踢球声的时间区间或在球类比赛期间与射门相关联的声音的时间区间的情况下,作为运动信息,使用与主要由陀螺仪传感器测量并指示对象的旋转的旋转角等相关的信息就足够了。该信息可作为运动信息,因为作为对象的人在踢球动作或射门动作时旋转他或她的身体。
[0124]
此外,在检测作为动作声音的手指咔哒声的时间区间或当对象撞击他或她的身体时产生的声音的时间区间的情况下,例如,使用加速度传感器、陀螺仪传感器、磁场传感器
或其他传感器的传感器值的变化就足够了。
[0125]
在这种情况下,例如,将用作运动测量单元22的加速度传感器、陀螺仪传感器或磁场传感器附接到作为对象的人的身体部分、手腕、手臂等,以例如基于与附接部分相对应的传感器值的变化量来检测对象的身体的运动或手的运动。
[0126]
此外,在检测作为对象的人的呼吸声音的时间区间作为动作声音的时间区间的情况下,使用由加速度传感器测量的指示对象在上下方向上的小位移的传感器值作为运动信息就足够了。
[0127]
在这种情况下,基于传感器值的变化可检测对象的呼吸动作。例如,将传感器值的振荡频率大约在0.5hz至1hz的范围内的时间区间识别为执行允许以可听到的水平收录呼吸声音的呼吸动作的时间区间,即对象的呼吸声音的时间区间。
[0128]
此外,可以使用诸如dnn的标识符来检测每个对象声源的声音的时间区间,该标识符接收收录信号和运动信息作为输入,并基于如上所述从相对应的对象发出声音时的每个动作的特征输出对象声源的声音的存在或不存在。
[0129]
例如,如图4中描绘,通过使用收录信号和加速度传感器的传感器值(传感器信号)作为运动信息的标识符,可以准确地检测作为来自对象声源的声音的行走声音的时间区间。
[0130]
在图4中,在箭头q11所指示的部分中呈现收录信号的时间波形,而在箭头q12所指示的部分中呈现收录信号的频谱。此外,在箭头q13所指示的部分中呈现加速度传感器的传感器信号的时间波形,而在箭头q14所指示的部分中呈现该传感器信号的频谱。注意,图中箭头q11至q14指示的每个部分的水平方向表示时间。
[0131]
在该示例中,例如,在收录信号中由箭头a11等指示的部分中混合目标对象的行走声音和位于目标对象周围的其它对象的行走声音。
[0132]
在这种情况下,仅基于收录信号的时间波形和收录信号的频谱,难以确定包含在收录信号中的行走声的分量是属于目标对象还是属于其他对象。
[0133]
因此,在本示例中,不仅基于收录信号,而且基于传感器信号(运动信息),确定这样的分量是属于目标对象还是属于其他对象(进行区分)。
[0134]
箭头q13所指示的传感器信号的时间波形在上下方向上周期性地波动。该时间波形的值,即,上下方向上的分量的值,表示目标对象的地板反作用力垂直分量。
[0135]
特别是在这种情况下,图中向上突出的一个突出部分,例如由箭头a12指示的部分,对应于目标对象的一步的身体运动。显然,传感器信号包含指示在高sn比下目标对象的身体运动的信息。
[0136]
此外,显而易见的是,由箭头q14所指示的传感器信号的频谱的明暗模式也表现出与由箭头q13所指示的传感器信号的时间波形的明确对应。
[0137]
如上所述,传感器信号包含高sn比的指示目标对象的身体运动的信息,但完全不包含指示其他对象的身体运动的信息。
[0138]
因此,通过使用收录信号和运动信息,可以准确地检测目标对象的对象声源的声音的时间区间。
[0139]
具体地,例如,在收录信号中以与目标对象的声压相同的声压包含其他对象的声音的情况下,仅使用收录信号难以准确地检测目标对象的声音的时间区间。然而,不仅通过
使用收录信号,而且使用运动信息,可以准确地检测目标对象声音的时间区间。
[0140]
通常,在行为识别等领域中,经常提出这样一种基于加速度传感器、陀螺仪传感器、磁场传感器或其他传感器的传感器值来估计对象的行为的方法。
[0141]
另一方面,如上所述,对于对象声源的声音的每个分类,区间检测单元32通过使用收录信号和运动信息来区分从目标对象发出的声音和从其他对象发出的声音。
[0142]
注意,例如,行走和跑步都被定义为行为识别、物理治疗等领域中的连续动作,因此通常被描述为连续状态转变,例如站姿阶段和摆动阶段。
[0143]
另一方面,例如,区间检测单元32检测实际产生行走声音或跑步声音的时间区间,即,从作为对象的人的脚(更具体地,脚后跟或脚趾)的地面接触到脚离开的时间区间被检测为行走声音或跑步声音的时间区间。
[0144]
此外,也可以基于运动信息准确地检测从对象发出的作为对象声源的声音的语音的时间区间。
[0145]
例如,在将运动测量单元22附接到作为对象的人的颈部或头部周围的部分的情况下,当目标对象发出声音时,在与运动信息相对应的传感器信号中以高sn比观察到指示由该发声引起的身体运动的信息。
[0146]
因此,类似于动作声音的情况,通过使用收录信号和运动信息,也可以在发出的语音的时间区间内,实现从目标对象发出的语音和从其它对象发出的语音之间的高度准确的区分。
[0147]
注意,在特定情况下,可能难以获得包含以高sn比指示目标对象发声时的身体运动的信息的运动信息。
[0148]
然而,在这种情况下,利用这种属性就足够了,即,例如,当从收录设备11附接到的目标对象发出的语音被麦克风21包括的多个麦克风收集时,发出的语音朝向各个麦克风的传播方向变得基本恒定。
[0149]
具体地,例如,区间检测单元32对由多个麦克风中的每一个获得的收录信号执行ds(延迟和求和波束成形),以强调收录信号中目标对象的语音传播的方位上的分量。
[0150]
以这种方式,通过使用如上所述获得的收录信号和运动信息,可以准确地实现由目标对象发出的语音和由其他对象发出的语音之间的区分。
[0151]
此外,例如,区间检测单元32可以通过使用nbf(零波束形成器)来减少由目标对象发出并包含在收录信号中的语音的分量。
[0152]
在这种情况下,比较从尚未经过分量减少的收录信号中检测到的由目标对象发出的语音的时间区间和从已经经过分量减少的收录信号中检测到的由目标对象发出的语音的时间区间。此后,将从分量减少之前的收录信号中检测到但未从分量减少之后的收录信号中检测到的时间区间确定为目标对象发出的语音的最终时间区间。
[0153]
接下来,将更详细地描述由信号处理单元41执行的处理。
[0154]
信号处理单元41基于由区间检测单元32获得的声源分类区间信息、运动信息、位置信息和收录信号执行信号处理,以生成对象声源信号,该对象声源信号是针对每个对象声源分类的音频信号。
[0155]
例如,作为对收录信号的信号处理,信号处理单元41执行音质校正处理、声源分离处理、噪声去除处理、距离校正处理、声源替换处理或组合这些多个处理的处理。
[0156]
更具体地,例如,作为音质校正处理执行的是用于通过减少目标以外的声音(例如,由于对象的移动而在收录设备11和对象之间的接触部分生成的噪声)来提高对象声源的声音质量(音质)的处理。
[0157]
具体地,音质校正处理的示例包括降低噪声的处理,例如用于降低噪声主导频带的滤波处理和增益校正,以及在内容观看和收听期间使包含大量噪声的区间、不必要的区间和包含不适当语音的区间等静音的处理。
[0158]
顺便提及,可以设想,例如,基于声源分类区间信息或者通过对收录信号执行语音识别处理等来检测包含不适当语音的时间区间。
[0159]
此外,例如,作为音质校正处理执行的可以是通过执行滤波处理来提高包含收录信号中高频带容易衰减的对象声源的声音的时间区间中的高频分量,从而提高对象声源的声音的质量的处理。在这种情况下,例如,作为音质校正处理,对于收录信号的每个时间区间,基于声源分类区间信息,执行针对每个对象声源分类设置的处理就足够了。
[0160]
此外,例如,可以参考声源分类区间信息来指定收录信号中包含多个对象声源的声音的时间区间。
[0161]
因此,基于本说明书的结果,可以对收录信号执行基于独立分量分析的声源分离处理,用于根据每个对象声源分类的振幅值和概率密度分布的差来分离各个对象声源的声音。
[0162]
此外,可以通过根据从对象观察到的对象声源之间的方位差执行波束形成等作为声源分离处理,从收录信号中分离各个对象声源的声音的信号。
[0163]
此外,在收录信号的时间区间包含从声源分类区间信息指定的仅一个对象声源的声音的情况下,作为声源分离处理,执行用于剪切该时间区间中的信号作为对象声源信号的处理。
[0164]
这些处理允许获取仅包含一个对象声源的声音的信号,并且该信号可以用作对象声源信号。
[0165]
此外,当在收录信号中的对象声源的声音的时间区间中包含主要包括诸如背景噪声或欢呼声和风的噪声等的静态噪声的不必要的声音时,可以执行降低该时间区间中包含的噪声的处理作为噪声去除处理,类似于音质校正处理。
[0166]
此外,例如,可以基于与每个对象相关联的位置信息和运动信息,指定目标对象周围是否存在其它对象,并指定其他对象相对于目标对象的相对方位和目标对象与其他对象之间的距离。
[0167]
结果,基于这些指定结果和声源分类区间信息,可以指定在包含目标对象的对象声源的声音的时间区间中是否包含其他对象的声音。因此,例如,通过使用dnn执行声源分离,可以实现仅提取(分离)目标对象的对象声源的声音。
[0168]
注意,为了执行上述的声源分离等,例如,将位于具有预定半径的圆形区域r11内的其他对象设置为移除目标对象,该圆形区域r11的中心位于图5中描绘的目标对象ob11处。图5中的每个点代表对象。
[0169]
此外,考虑到与移除目标对象的距离和移除目标对象的相对方位,执行用于移除时间区间中的移除目标对象的声音的声源分离等处理,该时间区间包含目标对象ob11的收录信号中的对象声源的声音。换句话说,提取目标对象ob11的对象声源的声音的信号。
[0170]
此时,基于与这些对象相关联的位置信息,可以获取从目标对象ob11到移除目标对象的距离。此外,可以基于由与这些对象相关联的运动信息和位置信息所指示的方向来获取从目标对象ob11观察移除目标对象的相对方位。
[0171]
此外,位于区域r11之外的对象,即,位于距离目标对象ob11预定距离或更长距离的对象,不被设置为移除目标对象。
[0172]
从远处的对象生成并混合到目标对象ob11的收录信号中的声音因距离衰减而减小。因此,不需要考虑从这样的对象生成的语音或动作声音,因此不移除该对象。
[0173]
此外,在移除(分离)移除目标对象的声音时,分离期间移除目标对象的声音的增益或强度可以根据从目标对象ob11到移除目标对象的距离而变化。换句话说,混合体积(贡献比)可以根据距离作为连续可变的因子来处理。
[0174]
此外,例如,作为信号处理执行的距离校正处理是用于校正由距离衰减或从对象声源到麦克风21的位置的传递特征产生并卷积在收录期间从对象声源发出的声音的绝对声压中的影响的处理。
[0175]
具体地,例如,可以执行将从对象声源到麦克风21的传递特征的逆特征添加到收录信号的处理作为距离校正处理。
[0176]
以这种方式,可以校正由距离衰减、传递特征等引起的对象声源的声音的音质劣化,并且可以在内容再现时恢复根据各个对象声源之间的位置关系的各个对象声源的声音的绝对声压之间的相对关系。
[0177]
此外,例如,作为信号处理执行的声源替换处理是将由声源分类区间信息指示的预定对象声源分类的声音替换为与收录声音不同的声音(例如预先准备的声音),并将替换后的声音用作对象声源信号的处理。
[0178]
换句话说,在声源替换处理中,基于声源分类区间信息,用预先准备或动态生成的其它音频信号替换收录信号的部分区间或从收录信号获得的对象声源信号的部分区间。
[0179]
例如,这里,根据对象声源分类,可以将预先准备的并且具有高sn比的声音的信号用作对象声源信号。在作为运动信息的传感器值的振幅大(即对象的运动大),并且对象声源的收录声音的音质低的情况下,这种声源替换处理特别有效。因此,例如,可以基于对运动信息执行的阈值处理的结果来确定是否执行声源替换处理。
[0180]
此外,在声源替换处理中,例如,可以使用通过将加速度替换为函数的运动信息而参数化生成的声音信号作为对象声源信号。
[0181]
此外,在声源替换处理中,例如,在内容观看和收听期间包含不适当语音的时间区间作为对象声源的声音存在的情况下,可以将预先准备的预定声音的信号用作该时间区间中的对象声源信号。
[0182]
注意,由信号处理单元41获得的对象声源信号可以是仅在包含对象声源的声音的时间区间内的信号,或者是与整个时间区间相对应但在不包含对象声源的声音的时间区间内呈现为静音信号的信号。
[0183]
此外,上述的音质校正处理、声源分离处理、噪声去除处理、距离校正处理和声源替换处理可以在以下任一情况下实施;对收录信号的每一帧在线执行处理的情况;使用前向帧执行处理的情况;离线执行处理的情况;和其他情况。此时,根据需要,对于收录信号的处理目标帧之前的帧,保留收录信号、声源分类区间信息、运动信息、位置信息等就足够了。
[0184]
《收录处理的描述》
[0185]
接下来,将描述收录设备11和服务器12的操作。
[0186]
首先说明收录设备11的操作。收录设备11附接到对象,并在预定时间段(例如对象正在进行表演或玩游戏的时间段)中执行收录处理。
[0187]
下面将参考图6中的流程图描述由收录设备11执行的收录处理。
[0188]
在步骤s11中,收录单元24收录周围声音。
[0189]
具体地,当麦克风21收集周围声音并输出结果收录信号时,收录单元24获取从麦克风21输出的收录信号,以获得所收录声音的收录信号。
[0190]
在步骤s12中,收录单元24分别从运动测量单元22和位置测量单元23获取运动信息和位置信息。
[0191]
收录单元24根据需要对以上述方式获得的收录信号、运动信息和位置信息执行ad转换或其他处理,并将这样处理的信号和信息提供给传输单元25。
[0192]
此外,传输单元25生成传输数据,该传输数据包括从收录单元24提供的收录信号、运动信息和位置信息。此时,传输单元25根据需要对收录信号、运动信息和位置信息执行压缩处理。
[0193]
在步骤s13中,传输单元25将传输数据发送到服务器12。
[0194]
注意,这里将描述其中在收录期间,通过收录获得的传输数据被实时地(在线地)顺序地发送到服务器12的示例。然而,可以在收录期间积累传输数据,并且在收录之后将所有传输数据一起离线发送到服务器12。
[0195]
在步骤s14中,收录单元24确定是否结束处理。例如,在通过操作设置在收录设备11上的未描绘的按钮等发出结束收录的指令的情况下,确定结束处理。
[0196]
在步骤s14中尚未确定要结束处理的情况下,处理返回到步骤s11,以重复上述处理。
[0197]
另一方面,在步骤s14中确定要结束处理的情况下,收录设备11的各个单元停止当前操作,并且收录处理结束。
[0198]
通过以上述方式执行处理,收录设备11收集声音并测量对象的运动和位置,然后将包含收录信号、运动信息和位置信息的传输数据发送到服务器12。以这种方式,允许服务器12获得高质量的目标声音。
[0199]
《数据生成处理的描述》
[0200]
此外,当从每个收录设备11向服务器12发送传输数据时,服务器12执行数据生成处理,以输出对象声源数据。下面将参考图7中的流程图描述由服务器12执行的数据生成处理。
[0201]
在步骤s41中,接收单元31接收从收录设备11发送的传输数据。
[0202]
此外,接收单元31根据需要对接收到的传输数据执行解压缩处理,以从传输数据中提取收录信号、运动信息和位置信息。
[0203]
此后,接收单元31将收录信号和运动信息提供给区间检测单元32,将收录信号、运动信息和位置信息提供给信号处理单元41,并将运动信息和位置信息提供给元数据生成单元42。
[0204]
在步骤s42中,区间检测单元32基于从接收单元31提供的与相对应对象相关联的
收录信号和运动信息,生成针对每个对象(收录设备11)的声源分类区间信息,并将生成的声源分类区间信息提供给信号处理单元41。
[0205]
例如,区间检测单元32通过对收录信号执行阈值处理、将收录信号和运动信息分配给诸如dnn的标识符进行计算、以及以上述方式对收录信号执行ds或nbf,来指定每个时间区间中包含的对象声源分类。因此,区间检测单元32生成声源分类区间信息。
[0206]
此外,区间检测单元32基于每个时间区间中包含的对象声源分类的指定结果,生成指示收录信号中包含的声音和对象的对象声源分类的声源分类信息,并将生成的声源分类信息提供给元数据生成单元42。
[0207]
在步骤s43中,信号处理单元41基于从接收单元31提供的收录信号、运动信息和位置信息,以及基于从区间检测单元32提供的声源分类区间信息,生成对象声源信号。
[0208]
具体地,信号处理单元41根据需要对收录信号执行上述的音质校正处理、声源分离处理、噪声去除处理、距离校正处理和声源替换处理,以针对每个对象生成对象声源信号。此时,不仅通过使用与目标对象相关联的运动信息、位置信息和声源分类区间信息,而且还使用与其它对象相关联的运动信息、位置信息和声源分类区间信息来生成目标对象的对象声源信号。
[0209]
在步骤s44中,元数据生成单元42针对对象的每个对象声源生成包含从区间检测单元32提供的声源分类信息和从接收单元31提供的运动信息和位置信息的元数据。
[0210]
当以这样的方式获得针对每个对象声源的对象声源信号和元数据时,对象声源数据生成单元33将包含对象声源信号和元数据的对象声源数据输出到每个对象声源的下一阶段。
[0211]
在步骤s45中,服务器12确定是否结束处理。例如,在完成从收录设备11接收的所有传输数据的处理的情况下,在步骤s45中确定要结束处理。
[0212]
在步骤s45中尚未确定要结束处理的情况下,处理随后返回到步骤s41,以重复上述处理。
[0213]
另一方面,在步骤s45中确定要结束处理的情况下,服务器12的各个单元停止当前执行的处理,并且数据生成处理结束。
[0214]
注意,本文已经描述了其中从收录设备11实时地顺序发送传输数据以及其中还使用服务器12从传输数据顺序生成对象声源数据的示例。
[0215]
然而,可以累积从收录设备11接收的传输数据,并且可以集体处理累积的传输数据以生成对象声源数据。此外,当从收录设备11集体发送传输数据时,只需要集体处理接收的传输数据以生成对象声源数据。
[0216]
以上述方式,服务器12从多个收录设备11接收传输数据,使用这些传输数据片段生成对象声源数据,并输出生成的对象声源数据。
[0217]
此时,通过不仅使用收录信号而且还使用运动信息生成声源分类区间信息,并且通过使用生成的声源分类区间信息生成对象声源数据,可以获取高质量的目标声音,即高质量的对象声源信号。
[0218]
《第二实施例》
[0219]
《收录系统的配置示例》
[0220]
注意,上面已经描述了在生成与每个对象相关联的声源分类区间信息时不使用为
其它对象获得的信息的示例。然而,例如,可以通过集成针对各个对象获得的信息来提高声源分类区间信息的准确性。
[0221]
在这种情况下,例如,如图8中描绘的配置收录系统。注意,图8中与图1中的部分相对应的部分被赋予相同的参考符号,并且在适当的情况下省略这些部分的描述。
[0222]
图8中描绘的收录系统包括收录设备11和服务器12。收录设备11具有与图1中描绘的配置相同的配置。
[0223]
另一方面,图8中描绘的收录系统的服务器12包括接收单元31、区间检测单元32、集成单元71和对象声源数据生成单元33。此外,对象声源数据生成单元33包括信号处理单元41和元数据生成单元42。
[0224]
这里的服务器12的配置与图1中描绘的服务器12的不同之处在于设置了集成单元71,并且在其他方面与图1中描绘的服务器12的配置相同。
[0225]
在该示例中,将区间检测单元32生成的声源分类区间信息提供给集成单元71。此外,除了来自区间检测单元32的声源分类区间信息之外,还从接收单元31向集成单元71提供收录信号、运动信息和位置信息。
[0226]
集成单元71基于由此接收的收录信号、声源分类区间信息、运动信息和位置信息生成最终声源分类区间信息,并将最终声源分类区间信息提供给信号处理单元41。集成单元71还生成声源分类信息,并将声源分类信息提供给元数据生成单元42。
[0227]
具体地,集成单元71集成各个信息,例如由每个收录设备11获得的运动信息和位置信息,以生成更准确的声源分类区间信息。
[0228]
注意,以下将描述其中集成单元71与区间检测单元32分开设置的示例。然而,集成单元71可以设置在区间检测单元32上。在这种情况下,区间检测单元32与上述处理同时执行由集成单元71执行的稍后描述的以下处理,以生成声源分类区间信息和声源分类信息。
[0229]
这里将更详细地描述集成单元71。
[0230]
例如,区间检测单元32针对每个对象(即每个收录设备11)检测估计为包含对象的动作声音或语音的时间区间,并基于估计的时间区间生成声源分类区间信息。
[0231]
然而,在这种情况下,可能错误地将包含其它对象的动作声音或语音的时间区间检测为包含目标对象的动作声音或语音的时间区间,或者可能无法检测需要检测的包含目标对象的动作声音或语音的时间区间。
[0232]
因此,集成单元71集成由各个收录设备11获得的信息,以生成更准确的声源分类区间信息。
[0233]
具体地,例如,集成单元71基于声源分类区间信息、收录信号、运动信息和位置信息,对于具有预定时间长度的每个帧执行位置信息比较处理、时间区间集成处理和区间平滑处理,以获得最终声源分类区间信息。
[0234]
换句话说,集成单元71基于与其他对象相关联的收录信号、运动信息和位置信息,以及与目标对象相关联的收录信号、运动信息和位置信息中的至少任一个,生成与目标对象相关联的声源分类区间信息。
[0235]
以下将进一步说明上述位置信息比较处理、时间区间集成处理和区间平滑处理的示例。
[0236]
首先,依次选择所有对象作为目标对象,并对每个目标对象执行位置信息比较处
理、时间区间集成处理和区间平滑处理。
[0237]
在位置信息比较处理中,基于与每个对象相关联的位置信息计算目标对象与其它对象之间的距离。
[0238]
此后,基于计算出的距离,选择可能影响目标对象的对象声源的声音的其它对象,即位于目标对象附近的其它对象作为参考对象。
[0239]
具体地,例如,选择位于与目标对象的预定阈值或更短距离处的对象作为参考对象。在该示例中,收录设备11附接到每个对象,因此,收录设备11之间的每个距离基本上等同于对象之间的每个距离。因此,根据位置信息计算的距离用于参考对象的选择。
[0240]
注意,这里将描述其中基于距离选择参考对象并且其中使用与所选择的参考对象相关联的信息执行时间区间集成处理的示例。
[0241]
然而,可以将所有对象用作参考对象,并且可以使用与根据与目标对象的相应距离加权的参考对象相关联的信息来执行时间区间集成处理。
[0242]
在时间区间集成处理中,最初确定是否存在通过位置信息比较处理选择作为参考对象的对象。
[0243]
此后,在不存在被选择作为参考对象的对象的情况下,将与目标对象相关联并由区间检测单元32获得的声源分类区间信息不改变地输出到信号处理单元41,作为最终声源分类区间信息。由于在目标对象附近不存在其它对象的情况下,不将其它对象的声音混入收录信号中,因此输出该信息。
[0244]
另一方面,在存在被选择作为参考对象的对象的情况下,也使用与被选择的参考对象相关联的位置信息和运动信息更新与目标对象相关联的声源分类区间信息。换句话说,生成最终声源分类区间信息。
[0245]
具体地,从各个参考对象中选择具有与由与目标对象相关联的声源分类区间信息指示的时间区间重叠的时间区间作为包含对象声源的声音的时间区间的参考对象作为最终参考对象。
[0246]
具体地,即使通过位置信息比较处理选择对象作为参考对象,如果所选择的对象具有由声源分类区间信息指示的时间区间,并且该时间区间与由与目标对象相关联的声源分类区间信息指示的时间区间不重叠,则从参考对象中排除该对象。
[0247]
随后,基于与参考对象相关联的位置信息和运动信息,以及基于与目标对象相关联的位置信息和运动信息,估计三维空间中从目标对象观察到的参考对象的相对方位(方向)。然后,生成指示该估计结果的相对方位信息。更具体地,例如,估计在目标对象的前方观察的参考对象的嘴的方向(方位)。注意,可以仅使用位置信息而不使用运动信息来生成相对方位信息。
[0248]
此外,基于与目标对象相关联的位置信息、由运动信息指示的目标对象的方向以及与各个参考对象相关联的相对方位信息,形成nbf滤波器。
[0249]
该nbf滤波器是实现波束成形的滤波器,用于减少在由相对方位信息指示的方向上传来的声音,同时保持在由目标对象的方向指示的目标对象的嘴方向上传来的声音的增益。
[0250]
集成单元71执行卷积处理,用于将以这样的方式获得的nbf滤波器与包括在目标对象的收录信号中并由与目标对象相关联的声源分类区间信息指示的时间区间进行卷积。
[0251]
此外,集成单元71基于通过卷积处理获得的信号和与目标对象相关联的运动信息,执行与区间检测单元32执行的处理类似的处理,即,诸如阈值处理和使用诸如dnn的标识符的计算处理,以生成声源分类区间信息。以这种方式,减少从参考对象发出的声音,因此,可以获得更准确的声源分类区间信息。
[0252]
注意,可以将与参考对象相关联的运动信息、位置信息、收录信号等输入到诸如dnn的标识符以执行计算处理。
[0253]
最后,集成单元71对通过时间区间集成处理获得的声源分类区间信息执行区间平滑处理,以获得最终声源分类区间信息。
[0254]
例如,预先获得从相应分类产生的声音的最小持续时间的平均时间,作为每个对象声源分类的平均最小持续时间。
[0255]
在区间平滑处理中,使用平滑滤波器执行平滑,该平滑滤波器连接每个包含对象声源的声音的分段(划分)时间区间,使得每个包含对象声源的检测到的声音的时间区间的长度持续平均最小持续时间或更长时间。
[0256]
换句话说,在区间平滑处理中,将连续对齐并且每个包含收录信号中相同分类的对象声源的检测声音的多个时间区间连接成一个最终时间区间。此时,要连接在一起的多个时间区间包括时间宽度短于平均最小持续时间的至少一个时间区间。
[0257]
例如,集成单元71预先保留基于各个对象声源分类的平均最小持续时间而形成的平滑滤波器。
[0258]
作为区间平滑处理,集成单元71基于平滑滤波器对通过时间区间集成处理获得的声源分类区间信息执行滤波(滤波处理),以获得最终声源分类区间信息。然后,集成单元71将最终的声源分类区间信息提供给信号处理单元41。在区间平滑处理中,在某些情况下,根据对象声源分类(即平均最小持续时间),对与多个连续帧相关联的声源分类区间信息执行滤波。
[0259]
此外,集成单元71基于获得的声源分类区间信息生成声源分类信息,并将生成的声源分类信息提供给元数据生成单元42。
[0260]
以上述方式,集成单元71基于由区间检测单元32获得的声源分类区间信息来去除与未被去除(排除)的其他对象的声音相关联的信息,从而可以获得更准确的声源分类区间信息。
[0261]
例如,根据情况,区间检测单元32根据需要对收录信号执行ds或nbf,如上所述。
[0262]
然而,例如,ds可能不能充分强调目标对象的语音来的方位中的分量。在这种情况下,当其它对象的声音音量大时,可能难以获得正确的声源分类区间信息。
[0263]
此外,例如,在其它对象位于目标对象附近并且在目标对象的声音来的方位附近的方位上,并且给出与目标对象基本同时的发音的情况下,nbf也可能无法获得准确的声源分类区间信息。
[0264]
另一方面,集成单元71可以通过不仅使用与目标对象相关联的信息,而且使用与其它对象相关联的运动信息、位置信息和声源分类区间信息,获得更准确的声源分类区间信息。
[0265]
《数据生成处理的描述》
[0266]
在收录系统具有图8中描绘的配置的情况下,每个收录设备11执行参考图6描述的
收录处理,并将传输数据发送到服务器12。
[0267]
此后,服务器12执行图9中描绘的数据生成处理。下面将参考图9中的流程图描述由图8中描绘的服务器12执行的数据生成处理。
[0268]
注意,步骤s71和步骤s72中的处理类似于图7中的步骤s41和步骤s42中的处理,因此不重复描述。
[0269]
然而,在步骤s71中,接收单元31从传输数据中提取的收录信号、运动信息和位置信息也被提供给集成单元71。
[0270]
此外,在步骤s72中,从区间检测单元32向集成单元71提供生成的声源分类区间信息。
[0271]
在步骤s73中,集成单元71对从区间检测单元32和接收单元31提供的信息进行集成。
[0272]
具体地,集成单元71基于从接收单元31提供的收录信号、运动信息和位置信息,以及基于从区间检测单元32提供的声源分类区间信息,执行位置信息比较处理、时间区间集成处理和区间平滑处理,以获得最终声源分类区间信息。
[0273]
集成单元71将获得的最终声源分类区间信息提供给信号处理单元41,基于最终声源分类区间信息生成声源分类信息,并将生成的声音分类信息提供给元数据生成单元42。
[0274]
在以这样的方式获得声源分类区间信息之后,执行步骤s74至步骤s76中的处理。此后,数据生成处理结束。这些处理类似于图7中的步骤s43至步骤s45中的处理,因此不重复描述。
[0275]
以上述方式,服务器12从多个收录设备11接收传输数据,使用这些传输数据生成对象声源数据,并输出生成的对象声源数据。
[0276]
此时,通过使用与其它对象相关联的信息来生成与目标对象相关联的最终声源分类区间信息,可以获得更高质量的目标声音。
[0277]
《第三实施例》
[0278]
《收录系统的配置示例》
[0279]
此外,根据上述描述,收录信号和位置信息用于生成声源分类区间信息。然而,图像信息可进一步用于此目的。
[0280]
在这种情况下,例如,如图10中描绘的配置收录系统。注意,图10中与图8中的部分相对应的部分被赋予相同的参考符号,并且在适当的情况下省略这些部分的描述。
[0281]
图10中描绘的收录系统包括收录设备11和服务器12。
[0282]
在该示例中,收录设备11包括麦克风21、运动测量单元22、位置测量单元23、成像单元101、收录单元24和传输单元25。
[0283]
图10中描绘的收录设备11的配置与图8中描绘的收录设备11的配置的不同之处在于设置了成像单元101,并且在其他方面与图8中描绘的收录设备11的配置相同。
[0284]
成像单元101包括小型相机,并且被配置为例如从与对象的位置相对应的视点捕获包含作为被摄体的对象的一部分的图像,并将获得的图像信息(图像信号)提供给传输单元25。注意,在某些情况下,基于图像信息的图像不包含作为被摄体的对象。
[0285]
传输单元25生成包含从收录单元24提供的收录信号、运动信息和位置信息以及从成像单元101提供的图像信息的传输数据,并将生成的传输数据发送到服务器12。
[0286]
同时,服务器12包括接收单元31、区间检测单元32、集成单元71和对象声源数据生成单元33。对象声源数据生成单元33包括信号处理单元41和元数据生成单元42。
[0287]
在这种情况下,图10中描绘的服务器12的配置与图8中描绘的服务器12的配置相同。然而,图10中描绘的服务器12将接收单元31从传输数据中提取的图像信息提供给区间检测单元32和集成单元71。
[0288]
因此,区间检测单元32基于从接收单元31提供的收录信号、运动信息和图像信息,生成声源分类区间信息。
[0289]
例如,在基于图像信息的图像包含作为被摄体的目标对象的一部分的情况下,图像信息用于检测目标对象的动作。
[0290]
具体地,例如,基于图像信息,基于在每个时间点检测到的目标对象的动作来校正声源分类区间信息。
[0291]
可替代地,例如,可以通过将图像信息、运动信息和收录信号分配给诸如dnn的标识符来进行计算,以获得在收录信号中的每个时间点上动作声音的存在或不存在。
[0292]
类似地,集成单元71还基于收录信号、运动信息、位置信息、图像信息和声源分类区间信息执行位置信息比较处理、时间区间集成处理和区间平滑处理。
[0293]
此时,与区间检测单元32的情况类似,图像信息可以用于检测目标对象的动作、时间区间集成处理等,或者可以用于检测目标对象周围是否存在其它对象、检测其它对象的动作等。
[0294]
《收录处理的描述》
[0295]
接下来,将描述图10中描绘的收录设备11和服务器12的操作。
[0296]
首先将参考图11中的流程图描述由收录设备11执行的收录处理。
[0297]
注意,步骤s101和步骤s102中的处理类似于图6中的步骤s11和步骤s12中的处理,因此不重复描述。
[0298]
在步骤s103中,成像单元101捕获作为被摄体的对象(即,收录设备11的周围)的图像,并将由此获得的图像信息提供给传输单元25。
[0299]
传输单元25生成包含从成像单元101提供的图像信息和从收录单元24提供的收录信号、运动信息和位置信息的传输数据。
[0300]
在生成传输数据之后,执行步骤s104和步骤s105中的处理。此后,收录处理结束。这些处理类似于图6中的步骤s13和步骤s14中的处理,因此不重复描述。
[0301]
以上述方式,收录设备11捕获周围被摄体的图像,生成包含所获得的图像信息的传输数据,并将生成的传输数据发送到服务器12。以这种方式,允许服务器12不仅使用运动信息和位置信息,而且使用图像信息来获得更高质量的目标声音。
[0302]
《数据生成处理的描述》
[0303]
下面将参考图12中的流程图描述由图10中描绘的服务器12执行的数据生成处理。
[0304]
注意,步骤s131中的处理类似于图9中的步骤s71中的处理,因此不重复描述。然而,在步骤s131中,接收单元31还从传输数据中提取图像信息,并将图像信息提供给区间检测单元32和集成单元71。
[0305]
在步骤s132中,区间检测单元32基于从接收单元31提供的收录信号、运动信息和图像信息生成声源分类区间信息,并将生成的声源分类区间信息提供给集成单元71。
[0306]
注意,在步骤s132中执行与图9中的步骤s72中的处理类似的处理。在这种情况下,这里的图像信息用于检测目标对象等的动作,以生成声源分类区间信息。
[0307]
在步骤s133中,集成单元71对从区间检测单元32和接收单元31提供的信息进行集成,以生成最终声源分类区间信息。
[0308]
在步骤s133中,执行与图9中的步骤s73中的处理类似的处理。然而,这里,不仅使用声源分类区间信息、收录信号、运动信息和位置信息,而且还使用图像信息来执行位置信息比较处理、时间区间集成处理和区间平滑处理。换句话说,例如,图像信息被用于参考对象的选择或相对方位信息的生成。
[0309]
在以这样的方式获得最终声源分类区间信息之后,执行步骤s134至步骤s136中的处理。此后,数据生成处理结束。这些处理类似于图9中的步骤s74至步骤s76中的处理,因此不重复描述。
[0310]
以上述方式,服务器12从多个收录设备11接收传输数据,使用这些传输数据生成对象声源数据,并输出生成的对象声源数据。
[0311]
此时,通过同样使用图像信息生成与目标对象相关联的声源分类区间信息,可以获得更高质量的目标声音。
[0312]
《第四实施例》
[0313]
《收录系统的配置示例》
[0314]
在图10中描绘的收录系统中,已经描述了其中使用从对应于各个对象的位置的视点获得的图像信息的示例。然而,可以使用与作为被摄体的整个目标空间的图像相关联的图像信息,其中存在各个收录设备11所附接的对象,即,所有对象。
[0315]
在这种情况下,例如,如图13中描绘的配置收录系统。注意,图13中与图8中的部分相对应的部分被赋予相同的参考符号,并且在适当的情况下省略这些部分的描述。
[0316]
图13中描绘的收录系统包括收录设备11、成像设备131和服务器12。收录设备11和服务器12各自具有与图8中描绘的对应配置相同的配置。
[0317]
例如,成像设备131包括相机等,并且被配置为捕获作为被摄体的整个目标空间(其中存在收录设备11所附接的对象)的图像,并且将由此获得的图像信息发送到服务器12。注意,当收录设备11正在收录时,即,麦克风21正在收集声音时,成像设备131继续成像。
[0318]
此外,服务器12的接收单元31不仅接收从收录设备11发送的传输数据,还接收从成像设备131发送的图像信息。
[0319]
接收单元31将接收到的图像信息提供给集成单元71。此外,集成单元71基于从接收单元31提供的收录信号、运动信息、位置信息和图像信息,并基于从区间检测单元32提供的声源分类区间信息,生成最终声源分类区间信息。
[0320]
在该示例中,集成单元71使用图像信息来检测各个对象的动作。
[0321]
例如,向集成单元71提供与各个对象相关联的位置信息,并且因此可以基于这些位置信息来指定哪些对象对应于通过对图像信息执行图像识别等而获得的图像中的每个对象。此外,集成单元71可以通过对图像信息执行图像识别等来指定由每个对象执行哪个动作。换句话说,集成单元71可以指定在每个时间点从相对应的对象发射对象声源的哪个声音。
[0322]
集成单元71通过使用以上述方式指定的各个对象的动作进行时间区间集成处理
等来生成最终的声源分类区间信息。此外,例如,可以将图像信息输入到诸如dnn的标识符,用于在时间区间集成处理中执行的计算处理。
[0323]
注意,区间检测单元32还可以使用图像信息来检测各个对象的动作。
[0324]
《数据生成处理的描述》
[0325]
在收录系统具有图13中描绘的配置的情况下,每个收录设备11执行参考图6描述的收录处理,并将传输数据发送到服务器12。此外,成像设备131向服务器12发送图像信息。
[0326]
此后,服务器12执行图14中描绘的数据生成处理。下面将参考图14中的流程图描述由图13中描绘的服务器12执行的数据生成处理。
[0327]
在步骤s161中,接收单元31接收从成像设备131发送的图像信息,并将图像信息提供给集成单元71。
[0328]
此外,从收录设备11向服务器12发送传输数据,并且服务器12执行步骤s162和s163中的处理,以生成声源分类区间信息。
[0329]
注意,步骤s162和步骤s163中的处理类似于图9中的步骤s71和步骤s72中的处理,因此不重复描述。
[0330]
在步骤s164中,集成单元71执行信息集成。
[0331]
具体地,集成单元71基于从接收单元31提供的图像信息、收录信号、运动信息和位置信息,以及基于从区间检测单元32提供的声源分类区间信息,执行位置信息比较处理、时间区间集成处理和区间平滑处理,以获得最终声源分类区间信息。此时,例如,图像信息被用于参考对象的选择。
[0332]
集成单元71将获得的最终声源分类区间信息提供给信号处理单元41,基于最终声源分类区间信息生成声源分类信息,并将生成的声音分类信息提供给元数据生成单元42。
[0333]
在以这样的方式获得声源分类区间信息之后,执行步骤s165至步骤s167中的处理,并且数据生成处理结束。这些处理类似于图9中的步骤s74至步骤s76中的处理,因此不重复描述。
[0334]
以上述方式,服务器12接收来自多个收录设备11的传输数据和来自成像设备131的图像信息,使用这些传输数据和图像信息生成对象声源数据,并输出生成的对象声源数据。这样,通过使用图像信息也可以获得更高质量的目标声音。
[0335]
《第五实施例》
[0336]
《收录系统的配置示例》
[0337]
注意,上面已经描述了其中使用服务器12生成声源分类区间信息的示例。然而,可以使用收录设备11生成声源分类区间信息。
[0338]
在这种情况下,例如,如图15中描绘的,在收录设备11侧设置上述区间检测单元32。注意,图15中与图8中的部分相对应的部分被赋予相同的参考符号,并且在适当的情况下省略这些部分的描述。
[0339]
图15中描绘的收录系统包括收录设备11和服务器12。
[0340]
此外,收录设备11包括麦克风21、运动测量单元22、位置测量单元23、收录单元24、区间检测单元32和传输单元25。
[0341]
图15中描绘的收录设备11的配置与图8中描绘的收录设备11的配置的不同之处在于设置了区间检测单元32,并且在其他方面与图8中描绘的收录设备11的配置相同。
[0342]
区间检测单元32基于从收录单元24提供的收录信号和运动信息生成声源分类区间信息,并将由此获得的声源分类区间信息和从收录单元24提供的收录信号、运动信息和位置信息提供给传输单元25。
[0343]
传输单元25生成包含收录信号、运动信息、位置信息和从区间检测单元32提供的声源分类区间信息的传输数据,并将传输数据发送到服务器12。
[0344]
同时,服务器12包括接收单元31、集成单元71和对象声源数据生成单元33。对象声源数据生成单元33包括信号处理单元41和元数据生成单元42。
[0345]
这里的服务器12的配置与图8中描绘的服务器12的不同之处在于没有设置区间检测单元32,并且在其他方面与图8中描绘的服务器12的配置相同。
[0346]
在图15中描绘的示例中,服务器12的接收单元31从接收的传输数据中提取收录信号、运动信息、位置信息和声源分类区间信息。
[0347]
此后,接收单元31将收录信号、运动信息、位置信息和声源分类区间信息提供给集成单元71,将收录信号、运动信息和位置信息提供给信号处理单元41,并将运动信息和位置信息提供给元数据生成单元42。
[0348]
此外,集成单元71基于从接收单元31提供的收录信号、运动信息、位置信息和声源分类区间信息生成最终声源分类区间信息,并将最终声源分类区间信息提供给信号处理单元41。此外,集成单元71还生成声源分类信息,并将声源分类信息提供给元数据生成单元42。
[0349]
通过以上述方式在收录设备11侧生成声源分类区间信息,可以实现施加在服务器12上的处理负荷的减少和高质量目标声音的获取。注意,在图10或图13中描绘的收录系统中,可以在收录设备11侧生成声源分类区间信息。
[0350]
根据本技术,如上所述,在存在多个移动体(对象)并且每个移动体(对象)发出声音的环境中,可以使用运动信息、位置信息和图像信息来区分收录信号中包含的目标对象的声音和其它对象的声音。
[0351]
以这种方式,可以实现对包含每个对象声源分类的声音的时间区间的检测、对每个对象声源分类的信号处理的执行、对每个对象的动作状态的行为识别等。
[0352]
例如,作为每个对象声源分类的声音的时间区间,可准确地检测行走声音、跑步声音、足球的踢球声、棒球的击球声或接球声、掌声、衣服的沙沙声或跳舞的脚步声等的时间区间。
[0353]
通常,动作声音不能仅从传感器信号中获取。此外,需要与语音的方位或说话人个性(个性)相关联的信息来区分从目标对象和从其它对象生成并包含在来自麦克风的收录信号中的相同类型的动作声音。
[0354]
关于这一点,与仅使用传感器信号或仅使用收录信号的情况相比,本技术能够准确地检测对象声源的声音的时间区间,并获得高质量的对象声源信号。
[0355]
具体地,假设在仅从收录信号检测动作声音的时间区间的情况下,目标对象和其它对象彼此靠近。
[0356]
在这种情况下,使用多麦克风估计声源的方位,并且所估计的方位用于区分目标对象的动作声音和其他对象的动作声音,类似于语音的情况。
[0357]
然而,例如,在诸如行走声音的动作声音的时间区间短或声源的方位随时间变化
的情况下,通常难以识别哪个对象正在发出动作声音。
[0358]
另一方面,运动信息仅包含基于目标对象的动作的身体运动信息,而不包含与其他对象的动作相关联的信息。
[0359]
因此,如在本技术中,通过组合收录信号和用于检测动作声音的时间区间的运动信息,可以准确地检测目标对象的动作声音的时间区间。
[0360]
例如,在检测作为动作声音的行走声音的时间区间的情况下,当仅使用收录信号时,地面或鞋子的状况显著影响检测精度。然而,通过组合使用运动信息和收录信号可以准确地检测行走声音的时间区间。
[0361]
此外,本技术能够在诸如运动和游戏的收录内容中的音频再现中检测包含对象声源的有效声音的时间区间,并防止在不必要的时间区间中传输对象声源信号。以这种方式,本技术实现了减少与要被传输或收录的内容相关联的信息的信息量,特别是对象声源信号的信息量,以及在后续阶段中的处理量。
[0362]
此外,根据本技术,针对每个对象或针对对象的每个对象声源生成对象声源信号。因此,在后续阶段中,可以为每个对象声源设置音频图像定位,因此,可以实现更准确的音频图像定位。
[0363]
此外,根据本技术,针对每个对象声源生成对象声源信号。因此,只有一些对象声源分类的声音是可选择性地再现的,例如在再现体育广播中只有动作声音而没有语音的情况。以这种方式,可以提高再现期间的功能。
[0364]
此外,根据本技术,在诸如体育比赛之类的内容的收录期间由服务器12执行实时处理的情况下,例如在当前情况下使用即时重放的情况下,可以提供与各个运动员的动作条件相关联的信息,并且该信息是有效的附加信息。
[0365]
具体地,作为与运动员的动作条件相关联的信息,例如,可以基于声源分类区间信息来提供指示预定动作声音的时间区间或语音的时间区间的信息。
[0366]
此外,本技术不仅适用于内容的收录等,还适用于各种情况,例如道路上存在多个车辆的情况、多个飞行体(例如无人机)飞行的情况、以及存在多个机器人的情况。
[0367]
例如,收录设备11可以设置在车辆上,并且由收录设备11获得的收录信号、运动信息等和由车辆上配备的驾驶记录器获得的信息可以用于确定与其它车辆的接触。
[0368]
《计算机的配置示例》
[0369]
同时,上述一系列过程可以通过硬件或软件来执行。在这系列过程由软件执行的情况下,构成软件的程序安装在计算机中。此处的计算机的示例包括包含在专用硬件中的计算机和能够在安装在计算机中的各种程序下执行各种功能的计算机,例如,通用个人计算机。
[0370]
图16是描绘在程序下执行上述一系列过程的计算机的硬件配置示例的框图。
[0371]
计算机包括经由总线504相互连接的cpu(中央处理单元)501、rom(只读存储器)502和ram(随机存取存储器)503。
[0372]
输入/输出接口505进一步连接到总线504。输入单元506、输出单元507、存储单元508、通信单元509和驱动器510连接到输入/输出接口505。
[0373]
输入单元506包括键盘、鼠标、麦克风、成像元件等。输出单元507包括显示器、扬声器等。存储单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510
驱动可移动记录介质511,例如,磁盘、光盘、磁光盘和半导体存储器。
[0374]
在如上所述配置的计算机中,例如,cpu 501经由输入/输出接口505和总线504将记录在存储单元508中的程序加载到ram 503中,并执行加载的程序,以执行上述一系列过程。
[0375]
例如,允许将由计算机(cpu 501)执行的程序记录在封装介质等可移动记录介质511中,并以这种形式提供。此外,允许经由有线或无线传输介质提供程序,例如,局域网、互联网和数字卫星广播。
[0376]
允许计算机的程序经由输入/输出接口505从附接到驱动器510的可移动记录介质511安装在存储单元508中。此外,允许通信单元509经由有线或无线传输介质接收程序,并将其安装在存储单元508中。相反,允许程序预先安装在rom 502或存储单元508中。
[0377]
注意,由计算机执行的程序可以是以本说明书中描述的顺序在时间序列中执行过程的程序,或者可以是并行执行过程或者在必要的时间(例如,在呼叫时)执行过程的程序。
[0378]
此外,根据本技术的实施方式不限于上述实施方式,并且可以在不脱离本技术的主题的情况下以各种方式进行修改。
[0379]
例如,允许本技术具有云计算的配置,其中,由多个装置经由网络彼此协作地共享和处理一个功能。
[0380]
此外,允许上述流程图中描述的各个步骤由一个装置执行或者由多个装置共享和执行。
[0381]
此外,在一个步骤包括多个过程的情况下,允许一个步骤中包括的多个过程由一个装置执行或者由多个装置共享和执行。
[0382]
此外,本技术还可以具有以下配置。
[0383]
(1)
[0384]
一种信号处理装置,包括:
[0385]
区间检测单元,被配置为检测包含从移动体发出的声音的时间区间,并且所述声音被包括在通过在所述移动体周围存在其它移动体的状态下收集所述移动体周围的声音而获得的收录信号中,基于所述收录信号和从附接到所述移动体的传感器输出的传感器信号来检测所述时间区间。
[0386]
(2)
[0387]
根据(1)所述的信号处理装置,进一步包括:
[0388]
数据生成单元,被配置为基于所述时间区间的检测结果从所述收录信号生成所述移动体的语音或动作声音的音频信号。
[0389]
(3)
[0390]
根据(2)所述的信号处理装置,其中,所述数据生成单元输出对象声源数据,所述对象声源数据包含所述音频信号和指示所述移动体的位置的位置信息。
[0391]
(4)
[0392]
根据(2)或(3)所述的信号处理装置,其中,所述数据生成单元输出对象声源数据,所述对象声源数据包含所述音频信号和指示所述移动体的方向的信息。
[0393]
(5)
[0394]
根据(2)至(4)中任一项所述的信号处理装置,其中,所述数据生成单元输出对象
声源数据,所述对象声源数据包含所述音频信号和指示基于所述音频信号的声音分类的声源分类信息。
[0395]
(6)
[0396]
根据(1)至(5)中任一项所述的信号处理装置,其中,所述区间检测单元基于所述移动体的所述收录信号和所述传感器信号,并基于所述其它移动体的所述收录信号或所述传感器信号,检测从所述移动体发出的所述声音的所述时间区间。
[0397]
(7)
[0398]
根据(6)所述的信号处理装置,其中,所述区间检测单元基于从所述移动体到所述其它移动体的距离,检测从所述移动体发出的所述声音的所述时间区间。
[0399]
(8)
[0400]
根据(6)或(7)所述的信号处理装置,其中,所述区间检测单元基于所述移动体的方向和所述其它移动体的位置,检测从所述移动体发出的所述声音的所述时间区间。
[0401]
(9)
[0402]
根据(6)至(8)中任一项所述的信号处理装置,其中,所述区间检测单元通过连接所述收录信号中包括的并且包含相同分类的声音的多个时间区间,基于所述时间区间的检测结果,获得所述时间区间的最终检测结果,所述时间区间被连续地对齐并且包括短于预定时间宽度的所述时间区间。
[0403]
(10)
[0404]
根据(9)所述的信号处理装置,其中,所述区间检测单元通过对所述时间区间的所述检测结果执行平滑处理来连接所述多个时间区间。
[0405]
(11)
[0406]
根据(2)至(5)中任一项所述的信号处理装置,其中,所述数据生成单元通过基于所述时间区间的所述检测结果对所述收录信号执行声源分离来生成所述音频信号。
[0407]
(12)
[0408]
根据(2)至(5)中任一项所述的信号处理装置,其中,所述数据生成单元通过基于所述时间区间的所述检测结果用其它信号替换所述收录信号的一部分或所述音频信号的一部分来生成所述最终音频信号。
[0409]
(13)
[0410]
一种信号处理方法,包括:
[0411]
由信号处理装置,
[0412]
检测包含从移动体发出的声音的时间区间,并且所述声音被包括在通过在所述移动体周围存在其它移动体的状态下收集所述移动体周围的声音而获得的收录信号中,基于所述收录信号和从附接到所述移动体的传感器输出的传感器信号来检测所述时间区间。
[0413]
(14)
[0414]
一种使计算机执行处理的程序,包括:
[0415]
检测包含从移动体发出的声音的时间区间的步骤,并且所述声音被包括在通过在所述移动体周围存在其它移动体的状态下收集所述移动体周围的声音而获得的收录信号中,基于所述收录信号和从附接到所述移动体的传感器输出的传感器信号来检测所述时间区间。
[0416]
参考符号列表
[0417]
11:收录设备
[0418]
12:服务器
[0419]
21:麦克风
[0420]
24:收录单元
[0421]
25:传输单元
[0422]
31:接收单元
[0423]
32:区间检测单元
[0424]
33:对象声源数据生成单元
[0425]
41:信号处理单元
[0426]
42:元数据生成单元
[0427]
71:集成单元。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献