用于视频问题回答的神经符号动作变换器的制作方法

2023-03-01 11:33:48 来源：中国专利 TAG：

技术特征：
1.一种在数据处理系统中用于执行基于人工智能的视频问题回答的方法，所述方法包括：由所述数据处理系统的视频解析器对输入视频数据序列进行解析以生成一个或多个情形数据结构，每个情形数据结构包括对应于实体的数据元素和实体之间的第一关系，所述实体和所述第一关系由所述视频解析器识别为存在于所述输入视频数据序列的图像中；在所述一个或多个情形数据结构上执行所述数据处理系统的至少一个第一机器学习计算机模型，以预测在所述一个或多个情形数据结构之间的一个或多个第二关系；通过在所接收的输入自然语言问题上执行所述数据处理系统的至少一个第二机器学习计算机模型，确定用于执行以回答所接收的输入自然语言问题的可执行程序；由所述数据处理系统在所述一个或多个情形数据结构和所预测的在所述一个或多个情形数据结构之间的一个或多个第二关系上执行所确定的可执行程序；以及由所述数据处理系统基于执行所确定的可执行程序的结果来输出对所述输入自然语言问题的回答。2.根据权利要求1所述的方法，其中，所述至少一个第一机器学习计算机模型包括情形编码器、经机器学习训练的动态变换器计算机模型、以及序列解码器。3.根据权利要求2所述的方法，其中，执行所述至少一个第一机器学习计算机模型包括：由所述情形编码器执行对所述情形数据结构的编码以生成对应于在所述一个或多个情形数据结构中表示的所述实体和关系的令牌序列；以及由所述经机器学习训练的动态变换器计算机模型处理所述令牌序列，以预测缺失的或后续的令牌序列，并且生成包括所预测的缺失的或后续的令牌序列的预测的令牌序列。4.根据权利要求3所述的方法，其中，所述至少一个第一机器学习计算机模型还包括序列解码器，并且其中，所述序列解码器基于预测的令牌序列，将所预测的一个或多个第二关系生成为一个或多个预测的超图数据结构。5.根据权利要求4所述的方法，其中，所述至少一个第二机器学习计算机模型包括语言/程序解析器和程序执行器，并且其中，确定所述可执行程序包括：由所述语言/程序解析器处理所述输入自然语言问题以预测要执行以回答所述输入自然语言问题的多个程序模块；由程序执行器将所述多个程序模块组合成可执行程序，所述可执行程序在所述一个或多个预测的超图数据结构上执行，以生成对所述输入自然语言问题的最终回答；以及由所述数据处理系统输出对所述输入自然语言问题的所述最终回答。6.如权利要求4所述的方法，其中，每个超图数据结构包括一个或多个超边，所述一个或多个超边将所述一个或多个情形数据结构中的第一情形数据结构连接到至少一个第二情形数据结构，其中所述至少一个情形数据结构是所述一个或多个情形数据结构中的第一情形数据结构或者不同情形数据结构中的一个。7.根据权利要求6所述的方法，其中，所述一个或多个超边中的每个超边包括和第一情形数据结构中的至少一个第一实体与所述至少一个第二实体数据结构中的至少一个第二实体相对应的预测动作。8.根据权利要求1所述的方法，其中，包括所述输入视频数据序列的一个或多个图像的
每个情形在所述一个或多个情形数据结构中具有相应的情形数据结构。9.根据权利要求1所述的方法，其中，所述情形数据结构是其中所述数据元素包括对应于所述实体的节点和对应于所述实体之间的关系的边的情形图数据结构。10.根据权利要求1所述的方法，其中，所述输入自然语言问题是交互问题类型、序列问题类型、预测问题类型或可行性问题类型的逻辑推理问题。11.一种包括计算机可读存储介质的计算机程序产品，所述计算机可读存储介质具有存储在其中的计算机可读程序，其中，所述计算机可读程序当在数据处理系统中被执行时，使所述数据处理系统：通过所述数据处理系统的视频解析器对输入视频数据序列进行解析以生成一个或多个情形数据结构，每个情形数据结构包括对应于实体的数据元素和实体之间的第一关系，所述实体和所述第一关系由所述视频解析器识别为存在于所述输入视频数据序列的图像中；在所述一个或多个情形数据结构上执行所述数据处理系统的至少一个第一机器学习计算机模型，以预测在所述一个或多个情形数据结构之间的一个或多个第二关系；通过在所接收的输入自然语言问题上执行所述数据处理系统的至少一个第二机器学习计算机模型，确定用于执行以回答所接收的输入自然语言问题的可执行程序；由所述数据处理系统在所述一个或多个情形数据结构和预测的在所述一个或多个情形数据结构之间的一个或多个第二关系上执行所确定的可执行程序；以及由所述数据处理系统基于执行所确定的可执行程序的结果来输出对所述输入自然语言问题的回答。12.根据权利要求11所述的计算机程序产品，其中，所述至少一个第一机器学习计算机模型包括情形编码器、经机器学习训练的动态变换器计算机模型、以及序列解码器。13.根据权利要求12所述的计算机程序产品，其中，所述计算机可读程序进一步使所述数据处理系统至少通过以下步骤执行所述至少一个第一机器学习计算机模型：由所述情形编码器执行对所述情形数据结构的编码以生成对应于在所述一个或多个情形数据结构中表示的所述实体和关系的令牌序列；以及由所述经机器学习训练的动态变换器计算机模型处理所述令牌序列，以预测缺失的或后续的令牌序列并且生成预测的令牌序列，所述预测的令牌序列包括所预测的缺失的或后续的令牌序列。14.根据权利要求13所述的计算机程序产品，其中，所述至少一个第一机器学习计算机模型还包括序列解码器，并且其中，所述序列解码器基于所述预测的令牌序列，将所预测的一个或多个第二关系生成为一个或多个预测的超图数据结构。15.根据权利要求14所述的计算机程序产品，其中，所述至少一个第二机器学习计算机模型包括语言/程序解析器和程序执行器，并且其中，所述计算机可读程序进一步使所述数据处理系统至少通过以下操作来确定所述可执行程序：由所述语言/程序解析器处理所述输入自然语言问题以预测要执行以回答所述输入自然语言问题的多个程序模块；由程序执行器将所述多个程序模块组合成可执行程序，所述可执行程序在所述一个或多个预测的超图数据结构上执行，以生成对所述输入自然语言问题的最终回答；以及
由所述数据处理系统输出对所述输入自然语言问题的所述最终回答。16.根据权利要求14所述的计算机程序产品，其中，每个超图数据结构包括一个或多个超边，所述一个或多个超边将所述一个或多个情形数据结构中的第一情形数据结构连接至至少一个第二情形数据结构，其中，所述至少一个情形数据结构是所述一个或多个情形数据结构中的所述第一情形数据结构或者不同情形数据结构中的一个。17.根据权利要求16所述的计算机程序产品，其中，所述一个或多个超边中的每个超边包括和所述第一情形数据结构中的至少一个第一实体与所述至少一个第二实体数据结构中的至少一个第二实体相对应的预测动作。18.根据权利要求11所述的计算机程序产品，其中，包括所述输入视频数据序列的一个或多个图像的每个情形在所述一个或多个情形数据结构中具有相应的情形数据结构。19.根据权利要求11所述的计算机程序产品，其中，所述情形数据结构是其中所述数据元素包括对应于所述实体的节点和对应于所述实体之间的关系的边的情形图数据结构。20.一种设备，包括：至少一个处理器；以及耦接至所述至少一个处理器的至少一个存储器，其中，所述至少一个存储器包括指令，所述指令在由所述至少一个处理器执行时使所述至少一个处理器：由所述数据处理系统的视频解析器对输入视频数据序列进行解析以生成一个或多个情形数据结构，每个情形数据结构包括对应于实体的数据元素和实体之间的第一关系，所述实体和所述第一关系由所述视频解析器识别为存在于所述输入视频数据序列的图像中；在所述一个或多个情形数据结构上执行所述数据处理系统的至少一个第一机器学习计算机模型，以预测在所述一个或多个情形数据结构之间的一个或多个第二关系；通过在所接收的输入自然语言问题上执行所述数据处理系统的至少一个第二机器学习计算机模型，确定用于执行以回答所接收的输入自然语言问题的可执行程序；由所述数据处理系统在所述一个或多个情形数据结构和预测的在所述一个或多个情形数据结构之间的一个或多个第二关系上执行所确定的可执行程序；以及由所述数据处理系统基于执行所确定的可执行程序的结果来输出对所述输入自然语言问题的回答。21.一种系统，包括分别用于执行根据权利要求1至10中任一项所述的方法的步骤的模块。

技术总结
本公开涉及用于视频问题回答的神经符号动作变换器。提供了用于执行基于人工智能的视频问题回答的机制。视频解析器对输入视频数据序列进行解析以生成情形数据结构，每个情形数据结构包括对应于实体的数据元素和实体之间的第一关系，所述实体和所述第一关系由所述视频解析器识别为存在于所述输入视频数据序列的图像中。第一机器学习计算机模型对情形数据结构进行操作，以预测情形数据结构之间的第二关系。第二机器学习计算机模型对所接收的输入问题执行以预测要执行以回答所接收的问题的可执行程序。该程序在情形数据结构和预测的第二关系上执行。基于执行程序的结果来输出问题的回答。的回答。的回答。

技术研发人员：吴波淦创王大阔陈振方
受保护的技术使用者：国际商业机器公司
技术研发日：2022.07.19
技术公布日：2023/2/6

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

用于视频问题回答的神经符号动作变换器的制作方法

相关文献

最热文献