语音对讲方法、设备、存储介质和计算机程序产品与流程

2022-02-20 14:21:45 来源：中国专利 TAG：

1.本发明涉及语音对讲领域，尤其涉及一种语音对讲方法、设备、存储介质和计算机程序产品。

背景技术：

2.对于安装有视频采集设备的公共场所，比如机房、银行大厅、候车大厅等区域，远程用户可以对公共区域发起语音对讲，即将远程用户产生的对讲音频由视频采集设备广播出来，则通过语音对讲能够使远程用户与公共区域内的人员进行双向的语音交流。
3.在实际中，远程用户可以借助存储有视频的服务器，向视频采集设备发起语音对讲，其中，服务器和视频采集设备通常均能够支持国家提出的gb/t28181-2011协议(简称国标)。但相比于借助服务器发起语音对讲，一种更方便的方式实际上是借助远程用户使用的终端设备发起语音对讲，但市面常见的终端设备往往不支持国标，从而无法实现终端设备与视频采集设备之间的对讲。
4.因此，如何使用不支持国标的终端设备向视频采集设备发起语音对讲就成为一个亟待解决的问题。

技术实现要素：

5.有鉴于此，本发明实施例提供一种语音对讲方法、设备、存储介质和计算机程序产品，用以实现设备之间的语音对讲。
6.第一方面，本发明实施例提供一种语音对讲方法，包括：
7.使用视频采集设备支持的所述第一通信协议，接收所述视频采集设备采集的音视频数据；
8.使用终端设备支持的所述第二通信协议，发送所述音视频数据至终端设备；
9.使用所述第二通信协议，接收所述音视频数据对应的对讲音频数据，所述对讲音频数据由所述终端设备采集并发送；
10.使用所述第一通信协议，发送所述对讲音频数据至所述视频采集设备。
11.第二方面，本发明实施例提供另一种语音对讲方法，包括：
12.使用所述第二通信协议，接收服务器发送的音视频数据，所述音视频数据由视频采集设备采集；
13.响应于对所述音视频数据触发的对讲启动操作，使用所述第二通信协议，发送对讲启动信令至所述服务器；
14.按照所述服务器根据所述对讲启动信令为所述终端设备分配的地址信息，使用所述第二通信协议，发送所述音视频数据对应的对讲音频至所述服务器，由所述服务器使用第一通信协议转发所述对讲音频至所述视频采集设备。
15.第三方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实
现上述第一方面或第二方面中的语音对讲方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。
16.第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面或第二方面所述的语音对讲方法。
17.第五方面，本方面实施例提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序/指令，其中，当计算机程序被处理器执行时，致使所述处理器实现如第一方面或第二方面所述的语音对讲方法。
18.本发明实施例提供的语音对讲方法，服务器和视频采集设备之间使用第一通信协议进行通信，服务器和终端设备之间使用第二通信协议通信。基于此，服务器使用第一通信协议接收视频采集设备采集的音视频数据，再使用第二通信协议，将音视频数据转发至终端设备。之后，服务器还可以接收终端设备采集的、与音视频数据对应的对讲音频数据，并最终借助第一通信协议将此对讲音频数据发送至视频采集设备，以完成终端设备与视频采集设备之间的语音对讲。
19.可见，借助服务器自身支持多种通信协议，因此，能够对视频采集设备和终端设备各自采集到的音视频数据和对讲音频数据进行相应的转换处理，以得到符合终端设备支持的第二通信协议的音视频数据，得到符合视频采集设备支持的第一通信协议的对讲音频数据，从而实现与视频采集设备和终端设备之间的双向语音对讲。上述方法中，对于不支持第一通信协议的终端设备，在不对终端设备支持的通信协议进行调整的情况下，利用服务器对数据的转换功能能够实现终端设备与视频采集设备之间的语音对讲，同时也能够降低使用终端设备实现语音对讲的成本。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的一种语音对讲系统的结构示意图；
22.图2为与图1所示实施例提供的语音对讲系统对应的信令图；
23.图3为本发明实施例提供的一种语音对讲方法的流程图；
24.图4为本发明实施例提供的另一种语音对讲方法的流程图；
25.图5为与图4所示实施例提供的语音对讲方法对应的信令图；
26.图6为本发明实施例提供的又一种语音对讲方法的流程图；
27.图7为与图6所示实施例提供的语音对讲方法对应的信令图；
28.图8为本发明实施例提供的又一种语音对讲方法的流程图；
29.图9为本发明实施例提供的语音对讲方法对应一种电子设备的结构示意图；
30.图10为本发明实施例提供的语音对讲方法对应另一种电子设备的结构示意图。
具体实施方式
31.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
32.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。
33.应当理解，本文中使用的术语“和/或”仅仅是一种描述关联物体的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联物体是一种“或”的关系。
34.取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
35.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
36.在对本发明各实施例提供的语义对讲方法进行详细描述之前，还可以对实现语音对讲的意义进行说明：
37.正如背景技术中提及的，远程用户可以对安装有视频采集设备的公共区域发起语音对讲，从而实现与公共区域内的人员进行单向或双向的语音交流。为后续描述简洁，远程用户均可以简称为用户。
38.一种常见的语音对讲场景，对于设置在互联网数据中心(internet data center，简称idc)机房内的视频采集设备，其可以用于拍摄反映机房内工作人员的工作情况的音视频数据。用户可以借助终端设备播放该音视频数据，以了解工作状态。在此种场景下，用户与机房内的工作人员之间通过双向语音交流即双向语音对讲，能够实现对机房内工作人员工作的远程指导。
39.又一种常见的语音对讲场景，对于设置在银行大厅、医院大厅等公共服务区域内的视频采集设备，用户可以借助终端设备实时了解公共服务区域的情况。当公共服务区域出现人员聚集或其他紧急情况时，用户通过进行双向语音对讲，能够对公共服务区域内的人员进行疏散。
40.在上述举例的场景中，用户均需要对配置有视频采集设备的公共区域内的人员进行语音对讲。当然上述场景只是一种示例，本发明并不对使用场景进行限定，任何有语音对讲需求的场景都可以按照本发明各实施例提供的方法实现终端设备和视频采集设备之间的语音对讲。
41.基于上述描述，下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。
42.为了便于方案理解，可以先从整个语音对讲系统的角度描述终端设备与视频采集设备之间实现语音对讲的过程。则图1为本发明实施例提供的一种语义对讲系统的结构框架图。如图1所示，该系统包括：视频采集设备、服务器和终端设备。
43.其中，视频采集设备可以是公共服务区域安装的视频采集设备，可选地，可以包括网络摄像机等。服务器用于接收并存储视频采集设备采集的音视频数据。视频采集设备和服务器均支持第一通信协议，二者可以使用第一通信协议进行通信。可选地，第一通信协议可以是国家提出的、专门用于实现语音对讲的gb/t28181-2011协议(简称国标协议)。当服务器采集到对讲音频数据时，服务器可以使用自身支持的第一通信协议实现自身和视频采集设备之间的语音对讲。
44.其中，终端设备可以是用户使用的各种移动终端，比如手机、笔记本电脑、平板电脑等等。该终端设备和服务器均支持第二通信协议，二者可以使用第二通信协议可以实现通信。可选地，第二通信协议可以包括超文本传送协议(hypertext transfer protocol，简称http协议)、tcp/ip协议等常见网络协议中的任一种。
45.基于图1所示的系统，终端设备与视频采集设备之间实现语音对讲的过程可以描述为：
46.视频采集设备和终端设备分别与服务器建立通信连接。则服务器可以使用第一通信协议接收到视频采集设备采集到的音视频数据，服务器又利用第二通信协议将音视频数据转发至终端设备。
47.由于服务器是使用不同的通信协议进行音视频数据的接收和转发，因此，对于从视频采集设备接收到的音视频数据，服务器可以对其进行转换，以使转换后的音视频数据符合第二通信协议的规定，并进一步将转换后的音视频数据发送至终端设备。
48.之后，当用户打开终端设备设备上安装的对讲应用程序(application，简称app)后，便可以借助此app观看到视频采集设备采集到的音视频数据。并且用户在观看音视频数据的过程中，还可以产生与音视频数据对应的对讲音频数据。终端设备采集对讲音频数据，并使用第二通信协议将其发送至服务器，服务器再使用第一通信协议将对讲音频数据发送至视频采集设备，从而实现了在不改变终端设备所支持通信协议的情况下，实现终端设备和视频采集设备之间的语音对讲。
49.上述过程也可以结合图2所示的信令图理解。
50.本实施例中，服务器可以使用第一通信协议接收视频采集设备采集的音视频数据，之后，再使用第二通信协议，将音视频数据转发至终端设备。对于用户观看音视频数据的过程中产生的对讲音频数据，服务器可以使用视频采集设备支持的第一通信协议，将其发送至视频采集设备，从而完成终端设备与视频采集设备之间的语音对讲。
51.由于系统中服务器自身支持多种通信协议，因此，能够对视频采集设备和终端设备各自采集到的音视频数据和对讲音频数据进行转换，从而分别实现服务器与视频采集设备、终端设备之间的通信。对于不支持第一通信协议的终端设备，在不改变终端设备所支持的通信协议的情况下，利用服务器对数据的转换能够实现终端设备与视频采集设备之间的
语音对讲，也降低了终端设备进行语音对讲的成本。
52.基于对上述语音对讲系统工作过程的描述，下面详细描述在进行语音对讲的过程中，系统中服务器的具体工作过程。则图3为本发明实施例提供的一种语音对讲方法的流程图。本发明实施例提供的该语音对讲方法可以由上述语音对讲系统中的服务器来执行。可以理解的是，该服务器可以实现为软件、或者软件和硬件的组合。如图3所示，该方法包括如下步骤：
53.s101，使用视频采集设备支持的第一通信协议，接收视频采集设备采集的音视频数据。
54.服务器可以先与设置在公共区域内的视频采集设备建立通信连接(即用于拉取音视频流的拉流连接)。基于拉流连接，服务器可以使用第一通信协议接收视频采集设备采集的音视频数据。
55.可选地，拉流连接的建立通常是在视频采集设备初次安装过程中完成的。可选地，可以借助终端设备实现上述拉流连接的建立：
56.用户可以与在公共服务区域内设置的视频采集设备具有归属关系。在安装好视频采集设备后，用户还可以对终端设备上安装的对讲app上触发设备添加操作。服务器响应于此添加操作，为安装好的视频采集设备分配发送音视频数据所需的设备标识信息以及地址信息，并且分配的各项信息也会反馈至终端设备。其中，设备标识信息用以反映视频采集设的身份，具体可以包括视频采集设备的用户名和密码。地址信息具体可以包括服务器的ip地址和端口编号。
57.对于反馈至终端设备的各项信息，用户可以将其填写到对讲app提供的设备添加界面中，从而完成视频采集设备的添加，也即是完成视频采集设备的安装。此时，服务器中会还存储视频采集设备的设备标识信息、地址信息以及终端设备的设备标识之间的对应关系。同时，服务器也会将为视频采集设备分配的各项信息通知给视频采集设备，以建立起服务器与视频采集设备之间的拉流连接，以使视频采集设备能够按照分配到的地址信息发送音视频数据至服务器。可选地，用户还可以进一步设置拉流连接的有效时间，比如分时段有效和全天有效等等。
58.基于建立的拉流连接，服务器可以根据自身存储的上述对应关系，实现视频采集设备和服务器之间的音视频数据的传输。
59.s102，使用终端设备支持的第二通信协议，发送音视频数据至终端设备。
60.s103，使用第二通信协议，接收音视频数据对应的对讲音频数据，对讲音频数据由终端设备采集并发送。
61.s104，使用第一通信协议，发送对讲音频数据至视频采集设备。
62.接着，可选地，响应于对对讲app触发的对讲启动操作，服务器还可以进一步将视频采集设备采集的音视频数据转发至用户使用的终端设备。
63.服务器接收到的音视频数据是支持第一通信协议的视频采集设备采集的，因此，该音视频数据显然不符合终端设备支持的第二通信协议，则服务器可以根据自身支持的第二通信协议，对视频采集设备采集的音视频数据进行转换处理，以得到符合第二通信协议的音视频数据，再使用第二通信协议将转换处理后的音视频数据转发至终端设备，用户便能够通过终端设备观看到音视频数据。
64.在音视频数据的观看过程中，用户还可以针对此音视频数据产生相应的对讲音频数据，终端设备具有的拾音器件可以采集用户产生的对讲音频数据，并使用第二通信协议将对讲音频数据发送至服务器。
65.最终，服务器还可以将终端设备发送的对讲音频数据转发至视频采集设备，以由视频采集设备进行播放，从而实现终端设备与视频采集设备之间的语音对讲。并且与音视频数据类似的，在发送对讲音频数据之前，服务器也会对该对讲音频数据进行转换，以得到并发送符合第一通信协议的对讲音频数据。
66.可选地，服务器和视频采集设备之间也可以建立另一拉流连接，并通过另一拉流连接实现对讲音频数据的传输。
67.本实施例中，服务器使用第一通信协议接收视频采集设备采集的音视频数据。再使用第二通信协议，将音视频数据转发至终端设备。之后，服务器又可以接收到音视频数据对应的对讲音频数据，此对讲音频数据由终端设备采集。最终，服务器借助第一通信协议将对讲音频数据发送至视频采集设备，从而完成终端设备与视频采集设备之间的语音对讲。
68.可见，上述方法中，服务器自身支持多种通信协议，其能够对视频采集设备和终端设备采集到的音视频数据和对讲音频数据进行转换，以分别实现与视频采集设备和终端设备进行通信。对于不支持第一通信协议的终端设备，在不对终端设备支持的通信协议进行调整的情况下，利用服务器对数据的转换功能能够实现终端设备与视频采集设备的语音对讲，也能够降低使用终端设备实现语音对讲的成本。
69.可选地，终端设备与视频采集设备之间具体可以通过信令传输和数据传输实现语音对讲。则图4为本发明实施例提供的另一种语音对讲方法的流程图。如图4所示，该方法可以包括如下步骤：
70.s201，使用视频采集设备支持的第一通信协议，接收视频采集设备采集的音视频数据。
71.s202，使用终端设备支持的第二通信协议，发送音视频数据至终端设备。
72.上述步骤201～步骤202的执行过程与前述实施例的相应步骤相似，可以参见如图3所示实施例中的相关描述，在此再不赘述。
73.s203，使用第二通信协议，接收终端设备针对音视频数据生成的对讲启动信令。
74.s204，响应于对讲启动信令，为终端设备分配发送对讲音频数据所需的地址信息。
75.s205，使用第二通信协议，接收终端设备按照地址信息发送的对讲音频数据，对讲音频数据由终端设备采集并发送。
76.在执行步骤201～步骤202后，用户可以在终端设备上观看到视频采集设备采集的音视频数据，用户可以在对讲app提供的操作界面上触发对讲启动操作，以由终端设备生成对讲启动信令，并使用第二通信协议将此对讲启动信令发送至服务器。可选地，由于终端设备支持第二通信协议，则对讲启动信令也是基于此第二通信协议定义的。
77.服务器可以对接收到的对讲启动信令进行响应，并为终端设备分配发送对讲音频数据所需的地址信息，也即是服务器为终端设备分配资源，以使终端设备使用分配到的资源实现对讲音频数据的传输。并且在建立地址信息和终端设备之间的对应关系的同时，服务器也会将此地址信息通知至终端设备。可选地，与步骤101中类似的，此地址信息同样可以是服务器的公网ip地址和端口编号，但接收音视频数据和对讲音频数据的地址信息不
同。
78.终端设备可以按照服务器为其分配的地址信息，将用户产生的对讲音频数据发送至服务器，以由服务器调用相应的端口获取对讲音频数据。
79.s206，使用第一通信协议，发送对讲音频数据至视频采集设备。
80.上述步骤206的执行过程与前述实施例的相应步骤相似，可以参见如图3所示实施例中的相关描述，在此再不赘述。
81.本实施例中，用户可以借助终端设备通过发送对讲启动信令，服务器通过对信令进行响应，实现终端设备和视频采集设备之间的语音对讲。并且本实施例中未详细描述的内容以及本实施例所能实现的有益效果可以参见图3所示实施例中的相关描述，在此不再赘述。
82.在实际中，可选地，用户也可以主动停止语音对讲，即在对讲app提供的操作界面上触发对讲停止操作，则基于图4所示的实施例，在步骤206之后，服务器还可以使用第二通信协议，接收终端设备发送的对讲停止信令。响应于此对讲停止信令，服务器停止接收对讲音频数据，同时也删除地址信息和终端设备之间的对应关系，也即是释放服务器内接收对讲音频数据所需的资源。同时服务器也会向终端设备发送对讲停止消息至终端设备，以通知用户语音对讲已停止。
83.图4所示的实施例以及上述描述的过程均可以结合图5所示的信令图理解。
84.需要说明的有，在实际中，由于终端设备和视频采集设备分别处于不用的内网中，因此，二者之间直接进行对讲存在往往困难。而使用本发明各实施例提供的语音对讲方法，则可以直接借助服务器的公网ip实现终端设备与视频采集设备之间的语音对讲。
85.上述各实施例中并未对视频采集设备的数量进行限定，可选地，在实际中，至少一个公共服务区域中设置的视频采集设备的数量可以是多个，此多个视频采集设备可以归属于同一用户，则服务器可以按照上述方式为每个视频采集设备分配不同的设备标识信息和地址信息，则对讲app上可以多画面显示多个视频采集设备各自采集的音视频数据，以供用户观看。则用户可以在对讲app提供的操作界面上选择对至少一个视频采集设备的音视频数据，并对选中的音视频数据产生对讲音频数据。
86.在上述情况下，为了保证对讲音频数据和音视频数据之间的一一对应，即保证不会将用户对一视频采集设备采集的音视频数据产生的对讲音频数据发送至另一视频采集设备。则图6为本发明实施例提供的又一种语音对讲方法的流程图。如图6所示，该方法可以包括如下步骤：
87.s301，使用视频采集设备支持的第一通信协议，接收视频采集设备采集的音视频数据。
88.s302，使用终端设备支持的第二通信协议，发送音视频数据至终端设备。
89.s303，使用第二通信协议，接收终端设备针对音视频数据生成的对讲启动信令。
90.s304，响应于对讲启动信令，为终端设备分配发送对讲音频数据所需的地址信息。
91.上述步骤301～步骤304的执行过程与前述实施例的相应步骤相似，可以参见如图4所示实施例中的相关描述，在此再不赘述。
92.s305，响应于对讲启动信令，为终端设备分配发送对讲音频数据所需的数据标识信息。
93.s306,建立地址信息和数据标识信息之间的对应关系。
94.s307,若封装于对讲音频数据中的数据标识信息，与接收对讲音频数据的地址信息对应，则使用第一通信协议，发送对讲音频数据至视频采集设备。
95.响应于终端设备生成的对讲启动信令，服务器还可以为终端设备分配数据标识信息，并同时建立地址信息与数据标识信息之间的对应关系。其中，数据标识信息用于表明音视频数据和对讲音频数据之间的一一对应性。可选地，数据标识信息可以是同步信源标识符，简称ssrc标识符。
96.终端设备在获取到数据标识信息后，可以将此标识信息封装到对讲音频数据中，并按照服务器为其分配的地址信息将封装有数据标识信息的对讲音频数据发送至服务器。
97.服务器可以根据地址信息和数据标识信息之间的对应关系，对接收到的对讲音频数据进行验证。若接收到的对讲音频数据中封装的数据标标识信息与接收该对讲音频数据的地址信息对应，则服务器会使用第一通信协议，根据对讲音频数据包含的数据标识信息，将此对讲音频数据传输至对应的视频采集设备。
98.基于图6所示实施例，当用户主动停止语音对讲后，服务器也可以使用第二通信协议，接收终端设备针对用户触发操作的音视频数据生成的对讲停止信令。并且响应于此信令删除地址信息和与数据标识信息之间的对应关系，也即是释放服务器内接收对讲音频数据所需的资源。同时服务器也会向终端设备发送对讲停止消息至终端设备。
99.图4所示的实施例以及上述描述的过程均可以结合图7所示的信令图理解。
100.可选地，上述各实施例可知，服务器需要处理的内容包括对终端设备产生的信令以及对讲音频数据。上述各实施例中的服务器实际上可以认为是服务器集群，其中包含用于处理信令的第一服务器以及用于处理数据的第二服务器。
101.其中，第一服务器主要用于响应对讲启动信令和对讲停止信令，为终端设备分配或收回地址信息和数据标识信息。可选地，可以根据不同第二服务器的负载情况为终端设备分配地址信息。由于第一服务器用于与终端设备进行交互，则第一服务器需要支持第二通信协议，可选地，第一服务器也可以支持第一通信协议。第二服务器用于与视频采集设备进行交互，以传输对讲音频数据，因此，其需要支持第一通信协议，可选地，第二服务器也可以支持第二通信协议。
102.通过服务器集群的设置可以使信令和对讲音频数据的处理相分离，保证信令和数据的处理效率和准确性。
103.除了上述实施例，下面还可以详细描述在进行语音对讲的过程中，语音对讲系统中终端设备的具体工作过程。则图8为本发明实施例提供的又一种语音对讲方法的流程图。本发明实施例提供的该语音对讲方法可以由上述语音对讲系统中的终端设备执行。可以理解的是，该终端设备可以实现为软件、或者软件和硬件的组合。如图8所示，该方法包括如下步骤：
104.s401，使用第二通信协议，接收服务器发送的音视频数据，音视频数据由视频采集设备采集。
105.s402，响应于对音视频数据触发的对讲启动操作，使用第二通信协议，发送对讲启动信令至服务器。
106.s403，按照服务器根据对讲启动信令为终端设备分配的地址信息，使用第二通信
协议，发送音视频数据对应的对讲音频至服务器，由服务器使用第一通信协议转发对讲音频至视频采集设备。
107.终端设备接收服务器使用第二通信协议发送的音视频数据，以供用户在终端设备上进行观看。其中，音视频数据由配置在公共区域内的视频采集设备采集，并使用第一通信协议将音视频数据发送至服务器。
108.接着，用户在观看音视频数据时，还可以借助对讲app提供的操作界面触发对讲启动操作。则终端设备响应于此对讲启动操作，使用第二通信协议发送对讲启动信令至服务器。
109.服务器响应于此对讲启动信令，为终端设备分配传输对讲音频数据所需的地址信息，并将此地址信息发送给终端设备。终端设备在采集到用户发出的对讲音频数据后，会使用第二通信协议，按照服务器为其分配的地址信息将对讲音频数据发送至服务器。
110.最终，服务器再使用第一通信协议将用户发出的对讲音频数据转发至视频采集设备，从而在不改变终端设备支持的通信协议的情况下，从而实现终端设备和视频采集设备之间的对讲。
111.本实施例中未详细描述的内容以及所能实现的技术效果可以参见上述图4所示实施例中的相关描述，在此不再赘述。
112.可选地，正如图6所示实施例中描述的，用户可以通过终端设备同时观看到多个视频采集设备各自采集到的音视频数据，并对其中的至少一个视频采集设备进行语音对讲。
113.对于终端设备与至少一个视频采集设备进行语音对讲的过程，服务器在为终端设备分配地址信息的同时，还会为终端设备分配数据标识信息。其中，分配的数据标识信息用于反映对讲音频数据和音视频数据之间的一一对应性。终端设备可以将分配到的数据标识信息封装到相应的对讲音频数据中，并按照分配到的地址信息将封装有数据标识信息的对讲音频数据发送至服务器，以使服务器根据地址信息和数据标识之间的对应关系确定是否将对讲音频数据发送至对应的视频采集设备。
114.上述内容还可以结合图6和图7所示实施例中的相关描述，在此不再赘述。
115.可选地，用户也可以主动停止语音对讲，则用户可以在对讲app提供的操作界面上触发对讲停止操作，则服务器会向终端设备返回对讲停止消息，以通知用户。
116.上述内容也可以结合图5或图7所示的信令图理解。
117.为了便于理解，以数据中心机房的安防场景对以上各实施例提供的云对讲方法的具体实现过程进行示例性说明。
118.假设数据中心的机房可以划分为abc三个区域，并且每个区域中可以分别安装有网络摄像头a～网络摄像头c(即上述各实施例中的视频采集设备)。
119.基于网络摄像头a～网络摄像头c与服务器之间建立的拉流连接，使网络摄像头a～网络摄像头c将自身拍摄的音视频数据发送至服务器。其中，拉流连接的建立过程可以参加图3所示实施例中的相关描述。并且网络摄像头和服务器均支持上述的gb/t28181-2011协议(即上述各实施例中的第一通信协议)，也即是使用上述gb/t28181-2011协议实现音视频数据的传输。
120.服务器接收到各网络摄像头采集的音视频数据后，又可以使用自身支持的http协议(即上述各实施例中的第二通信协议)将音视频数据发送至用户使用的终端设备。用户使
用的终端设备上安装的对讲app可以分屏显示机房中各网络摄像头拍摄的音视频数据。
121.在观看音视频数据的过程中，用户还可以在对讲app提供的操作界面上对网络摄像头a采集的音视频数据触发对讲启动操作。终端设备响应于此操作，采集用户发出的对讲音频数据，同时生成并发送对讲启动信令至服务器。服务器响应于此对讲启动信令，会为终端设备分配地址信息，比如公网ip和端口编号，同时还会为终端设备分配数据标识信息，比如ssrc标识符。服务器还可以存储终端设备、地址信息和数据标识信息之间的对应关系。
122.之后，终端设备先将分配到的数据标识信息封装到终端设备采集的对讲音频数据中，再按照分配到的地址信息将封装有数据标识信息的对讲音频数据发送至服务器。其中，终端设备和服务器之间的对讲启动信令和对讲音频数据的传输均使用http协议。
123.服务器还会进一步对封装有数据标识信息的对讲音频数据进行转换处理，以得到符合gb/t28181-2011协议的对讲音频数据，并将符合gb/t28181-2011协议的对讲音频数据发送至网络摄像头a，以由网络摄像头a对对讲音频数据进行播放，实现终端设备和网络摄像头a之间的语音对讲，使机房内区域a的人员能够和用户之间实现语音交互。
124.服务器在接收到封装有数据标识信息的对讲音频数据后，还可以根据存储的地址信息与数据标识信息之间的对应关系，确定是否将封装有数据标识信息的音频对讲数据发送。若封装于对讲音频数据中的数据标识信息，与接收对讲音频数据的地址信息对应，则使用gb/t28181-2011协议，发送对讲音频数据至网络摄像头a。通过数据标识信息的设置可以保证远程用户对网络摄像头a采集的音视频数据产生的对讲音频数据准确播放到机房的区域a内，不会将对讲音频数据错误播放到其他区域内，避免语音对讲失败。
125.可选地，用户还可以在对讲app提供的操作界面上，对网络摄像头a采集的音视频数据触发对讲停止操作。终端设备响应于此操作，生成并发送对讲停止信令至服务器，服务器会释放上述为终端设备分配的地址信息和数据标识信息。
126.在实际应用中，可选地，上述的服务器可以是服务器集群，则服务器1用于接收对讲开启信令和对讲停止信令，服务器2用于进行对讲音频数据和音视频数据的传输，从而实现信令和数据的分离处理。
127.上述过程中，终端设备上安装对讲app后，即可利用终端设备本身支持的通信协议，实现自身与网络摄像头之间的语音对讲，无需对终端设备支持的通信协议进行修改，也降低了终端设备进行语音对讲的成本。
128.需要说明的有，上述描述的是对网络摄像头a采集的音视频数据触发对讲启动操作的情况。二在实际应用中，用户可以对机房内任意的网络摄像头采集的音视频数据触发对讲启动操作和对讲停止操作。
129.在一个可能的设计中，上述的语音对讲方法具体可以借助一种电子设备实现。如图9所示，该电子设备可以包括：处理器21和存储器22。其中，所述存储器22用于存储支持该电子设备执行上述图3至图7所示实施例中提供的语音对讲方法的程序，所述处理器21被配置为用于执行所述存储器22中存储的程序。
130.所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器21执行时能够实现如下步骤：
131.用视频采集设备支持的所述第一通信协议，接收所述视频采集设备采集的音视频数据；
132.使用终端设备支持的所述第二通信协议，发送所述音视频数据至终端设备；
133.使用所述第二通信协议，接收所述音视频数据对应的对讲音频数据，所述对讲音频数据由所述终端设备采集并发送；
134.使用所述第一通信协议，发送所述对讲音频数据至所述视频采集设备。
135.可选地，所述处理器21还用于执行前述图3至图7所示实施例中的全部或部分步骤。
136.其中，所述电子设备的结构中还可以包括通信接口23，用于该电子设备与其他设备或通信网络通信。
137.另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图3至图7所示方法实施例中语音对讲方法所涉及的程序。
138.此外，本方面实施例提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序/指令，其中，当计算机程序被处理器执行时，致使所述处理器实现如图3至图7所示方法实施例中的语音对讲方法。
139.可选地，该计算机程序产品可以是服务器上安装的对讲app，该app专门适用于服务器。
140.在一个可能的设计中，上述的语音对讲方法具体可以借助另一种电子设备实现。如图10所示，该电子设备可以包括：处理器31和存储器32。其中，所述存储器32用于存储支持该电子设备执行上述图8所示实施例中提供的语音对讲方法的程序，所述处理器31被配置为用于执行所述存储器32中存储的程序。
141.所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器31执行时能够实现如下步骤：
142.使用所述第二通信协议，接收服务器发送的音视频数据，所述音视频数据由视频采集设备采集；
143.响应于对所述音视频数据触发的对讲启动操作，使用所述第二通信协议，发送对讲启动信令至所述服务器；
144.按照所述服务器根据所述对讲启动信令为所述终端设备分配的地址信息，使用所述第二通信协议，发送所述音视频数据对应的对讲音频至所述服务器，由所述服务器使用第一通信协议转发所述对讲音频至所述视频采集设备。
145.可选地，所述处理器31还用于执行前述图8所示实施例中的全部或部分步骤。
146.其中，所述电子设备的结构中还可以包括通信接口33，用于该电子设备与其他设备或通信网络通信。
147.另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图8所示方法实施例中语音对讲方法所涉及的程序。
148.本方面实施例提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序/指令，其中，当计算机程序被处理器执行时，致使所述处理器实现如图8所示方法实施例中的语音对讲方法。
149.可选地，该计算机程序产品可以是终端设备上安装的对讲app，该app专门适用于终端设备。
150.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于物理事件感知的目标设备无线电ID辨认方法和系统与流程

语音对讲方法、设备、存储介质和计算机程序产品与流程

相关文献

最热文献