一种数据处理方法、装置、设备及存储介质与流程

2022-04-27 09:23:39 来源：中国专利 TAG：

1.本公开涉及数据检索领域，特别是涉及一种数据处理方法、装置、设备及存储介质。

背景技术：

2.随着多媒体平台的发展，越来越多的用户将多媒体分享至多媒体平台，当用户需要在多媒体平台上浏览自己感兴趣的内容时，往往需要进行搜索，比如，输入文本内容，希望得到与文本内容相关的多媒体，或者，在浏览自己感兴趣的多媒体后，希望能够查询到该多媒体对应的文本内容，等等。
3.多媒体文本检索任务旨在根据一个多媒体得到对应的文本，或者根据一个文本检索出对应的多媒体，以满足用户在多媒体平台上的搜索需求，在多媒体文本检索任务中，通常需要对多媒体数据和文本数据进行数据处理，比如，与任一文本数据相似度较高的多媒体数据，都可以作为该文本数据对应的检索结果。
4.现有技术中，通常采用单塔模型或者双塔模型确定文本数据和多媒体数据之间的相似度，其中，单塔模型是指将文本数据和多媒体数据一起输入至特征分类模型进行分类，根据分类结果确定文本数据和多媒体数据的相似度，双塔模型是指分别对文本特征和多媒体特征进行特征提取，再对特征提取结果进行数据处理。
5.但是，由于在多媒体文本检索任务中，多媒体数据和文本数据是跨模态的两种不同的数据，具有异构性，而单塔模型和双塔模型都不能让多媒体数据和文本数据进行深层次的特征对齐，从而导致检索结果的准确性较差，用户体验也不够好。

技术实现要素：

6.为了解决相关技术中存在的单塔模型和双塔模型都不能让多媒体数据和文本数据进行深层次的特征对齐，从而导致检索结果的准确性较差，用户体验也不够好的问题，本公开提供了一种数据处理方法、装置、设备及存储介质，本公开的技术方案如下：
7.根据本公开实施例的第一方面，提供了一种数据处理方法，所述方法包括：
8.获取多媒体数据及文本数据；
9.抽取所述文本数据中的句子信息及所述句子信息对应的词语信息，并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析，得到句子特征及对应的词语特征；
10.提取所述多媒体数据的初始特征，并将所述初始特征输入至第一特征提取模型及第二特征提取模型，得到第一多媒体特征及第二多媒体特征，其中，所述第一多媒体特征表征所述多媒体数据对应的事件信息，所述第二多媒体特征表征所述多媒体数据中的实体信息或动作信息；
11.基于所述第一多媒体特征及所述句子特征之间的第一相似度，以及所述第二多媒体特征与所述词语特征之间的第二相似度，确定所述多媒体数据及文本数据之间的相似程
度。
12.可选地，所述词语信息包括多种，每种词语信息对应于一种词性，所述对所述句子信息及所述句子信息对应的词语信息分别进行语义分析，得到句子特征及对应的词语特征，包括：
13.对所述句子信息及所述句子信息对应的每种词语信息分别进行语义分析，得到句子特征及对应的每种词语特征；
14.所述提取所述多媒体数据的初始特征，并将所述初始特征输入至第一特征提取模型及第二特征提取模型，得到第一多媒体特征及第二多媒体特征，包括：
15.提取所述多媒体数据的初始特征，并将所述初始特征输入至第一特征提取模型及多个第二特征提取模型，得到第一多媒体特征及多个第二多媒体特征，其中，每个第二特征提取模型用于提取一种第二多媒体特征，每种第二多媒体特征对应于一种词语特征。
16.可选地，所述抽取所述文本数据中的句子信息及所述句子信息对应的词语信息，并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析，得到句子特征及对应的词语特征，包括：
17.利用词性标注模型，从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息；
18.根据所述词语信息，生成第二句子信息；
19.将所述第一句子信息及所述第二句子信息分别输入至语义分析模型进行语义分析，得到句子特征及所述句子特征对应的词语特征。
20.可选地，所述根据所述词语信息，生成第二句子信息，包括：
21.将所述词语信息采用预设符号进行分隔，得到所述词语信息对应的第二句子信息。
22.可选地，所述根据所述词语信息，生成第二句子信息，包括：
23.对所述词语信息对应的第一句子信息中的其他词语进行掩码处理，得到所述词语信息对应的第二句子信息。
24.可选地，所述抽取所述文本数据中的句子信息及所述句子信息对应的词语信息，并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析，得到句子特征及对应的词语特征，包括：
25.利用词性标注模型，从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息；
26.将所述第一句子信息输入至语义分析模型进行语义分析，得到句子特征及所述词语信息在对应的第一句子信息中的特征；
27.根据所述词语信息在对应的第一句子信息中的特征，计算所述句子特征对应的词语特征。
28.可选地，所述提取所述多媒体数据的初始特征，包括：
29.从所述多媒体数据中抽取预设数量的参考帧；
30.分别提取所述参考帧的特征信息，得到参考帧特征；
31.根据所述参考帧特征，计算所述多媒体数据的初始特征。
32.可选地，所述将所述初始特征输入至第一特征提取模型及第二特征提取模型，得
到第一多媒体特征及第二多媒体特征，包括：
33.将所述初始特征输入至第一特征提取模型及第二特征提取模型，得到初始第一多媒体特征及第二多媒体特征；
34.将所述初始特征输入至门控模型进行权重计算，得到所述初始第一多媒体特征及所述第二多媒体特征分别对应的权重；
35.根据初始第一多媒体特征的权重、所述第二多媒体特征以及所述第二多媒体特征的权重，对所述初始第一多媒体特征进行更新，得到第一多媒体特征。
36.根据本公开实施例的第二方面，提供了一种数据处理装置，所述装置包括：
37.获取单元，被配置为执行获取多媒体数据及文本数据；
38.抽取单元，被配置为执行抽取所述文本数据中的句子信息及句子信息对应的词语信息，并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析，得到句子特征及对应的词语特征；
39.提取单元，被配置为执行提取所述多媒体数据的初始特征，并将所述初始特征输入至第一特征提取模型及第二特征提取模型，得到第一多媒体特征及第二多媒体特征，其中，所述第一多媒体特征表征所述多媒体数据对应的事件信息，所述第二多媒体特征表征所述多媒体数据中的实体信息或动作信息；
40.确定单元，被配置为执行基于所述第一多媒体特征及所述句子特征之间的第一相似度，以及所述第二多媒体特征与所述词语特征之间的第二相似度，确定所述多媒体数据及文本数据之间的相似程度。
41.可选地，所述词语信息包括多种，每种词语信息对应于一种词性，所述抽取单元，被配置为执行：
42.对所述句子信息及所述句子信息对应的每种词语信息分别进行语义分析，得到句子特征及对应的每种词语特征；
43.所述提取单元，被配置为执行：
44.提取所述多媒体数据的初始特征，并将所述初始特征输入至第一特征提取模型及多个第二特征提取模型，得到第一多媒体特征及多个第二多媒体特征，其中，每个第二特征提取模型用于提取一种第二多媒体特征，每种第二多媒体特征对应于一种词语特征。
45.可选地，所述抽取单元，被配置为执行：
46.利用词性标注模型，从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息；
47.根据所述词语信息，生成第二句子信息；
48.将所述第一句子信息及所述第二句子信息分别输入至语义分析模型进行语义分析，得到句子特征及所述句子特征对应的词语特征。
49.可选地，所述抽取单元，被配置为执行：
50.将所述词语信息采用预设符号进行分隔，得到所述词语信息对应的第二句子信息。
51.可选地，所述抽取单元，被配置为执行：
52.对所述词语信息对应的第一句子信息中的其他词语进行掩码处理，得到所述词语信息对应的第二句子信息。
53.可选地，所述抽取单元，被配置为执行：
54.利用词性标注模型，从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息；
55.将所述第一句子信息输入至语义分析模型进行语义分析，得到句子特征及所述词语信息在对应的第一句子信息中的特征；
56.根据所述词语信息在对应的第一句子信息中的特征，计算所述句子特征对应的词语特征。
57.可选地，所述提取单元，被配置为执行：
58.从所述多媒体数据中抽取预设数量的参考帧；
59.分别提取所述参考帧的特征信息，得到参考帧特征；
60.根据所述参考帧特征，计算所述多媒体数据的初始特征。
61.可选地，所述提取单元，被配置为执行：
62.将所述初始特征输入至第一特征提取模型及第二特征提取模型，得到初始第一多媒体特征及第二多媒体特征；
63.将所述初始特征输入至门控模型进行权重计算，得到所述初始第一多媒体特征及所述第二多媒体特征分别对应的权重；
64.根据初始第一多媒体特征的权重、所述第二多媒体特征以及所述第二多媒体特征的权重，对所述初始第一多媒体特征进行更新，得到第一多媒体特征。
65.根据本公开实施例的第三方面，还提供了一种电子设备，包括：
66.处理器；
67.用于存储所述处理器可执行指令的存储器；
68.其中，所述处理器被配置为执行所述指令，以实现第一方面所述的方法。
69.根据本公开实施例的第四方面，还提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面所述的方法。
70.根据本公开实施例的第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机实现第一方面所述的方法。
71.本公开实施例提供的技术方案中，获取多媒体数据及文本数据；抽取文本数据中的句子信息及句子信息对应的词语信息，并对句子信息及对应的词语信息分别进行语义分析，得到文本数据的句子特征及对应的词语特征；提取多媒体数据的初始特征，并将初始特征输入至第一特征提取模型及第二特征提取模型，得到第一多媒体特征及第二多媒体特征，其中，第一多媒体特征表征多媒体数据对应的事件信息，所述第二多媒体特征表征多媒体数据中的实体信息或动作信息；基于第一多媒体特征及句子特征之间的第一相似度，以及第二多媒体特征与词语特征之间的第二相似度，计算多媒体数据及文本数据之间的相似程度。
72.这样，采用了多任务学习的方式，对同一多媒体数据，分别提取其第一多媒体特征及第二多媒体特征，进而，将多媒体数据中的事件对应的第一多媒体特征与文本数据的句子特征对应，将多媒体数据中的实体或动作对应的第二特征提取模型与文本数据的词语特征对应，实现对多媒体数据和文本数据进行特征对齐，进而得到多媒体数据和文本数据之间的相似程度，从而提高后续基于多媒体数据及文本数据之间的相似程度进行检索的准确
性，可以满足用户需求。
附图说明
73.图1是根据一示例性实施例示出的一种数据处理方法的流程图；
74.图2是根据一示例性实施例示出的一种生成句子特征对应的词语特征的逻辑示意图；
75.图3是根据一示例性实施例示出的一种生成句子特征对应的词语特征的逻辑示意图；
76.图4是根据一示例性实施例示出的一种生成句子特征对应的词语特征的逻辑示意图；
77.图5是根据一示例性实施例示出的一种方案架构图；
78.图6是根据一示例性实施例示出的一种数据处理装置的框图；
79.图7是根据一示例性实施例示出的一种电子设备的结构示意图；
80.图8是根据一示例性实施例示出的一种装置的框图。
具体实施方式
81.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
82.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
83.为了解决相关技术中存在的服务器会在同一时间内接收到大量的信息获取请求，负载压力过大的问题，本公开实施例提供了一种数据处理系统、方法、装置、设备及存储介质。
84.第一方面，将对本公开实施例提供的一种数据处理方法进行详细介绍。
85.如图1所示，本公开实施例提供的一种数据处理方法的流程图，具体包括如下步骤。
86.在s11中，获取多媒体数据及文本数据。
87.在本公开中，多媒体数据可以是视频数据、音频数据以及图像数据，文本数据中可以包括一句话或一段话，文本数据的内容可以是任意一种文字或语言，具体不做限定。
88.可以理解，多媒体数据与文本数据之间具有不同的特性，而在一些场景中，往往需要确定多媒体数据及文本数据之间的相似程度，比如，在执行检索任务时，需要根据多媒体数据检索到对应的文本数据，或者，根据文本数据检索到对应的多媒体数据，等等。
89.在s12中，抽取文本数据中的句子信息及句子信息对应的词语信息，并对句子信息及句子信息对应的词语信息分别进行语义分析，得到文本数据的句子特征及对应的词语特征。
90.其中，文本数据中的句子信息也就是文本数据中包括的完整的句子，每个句子都是由多个词语组成的，也就是说，每个句子信息都具有对应的词语信息。词语信息包括多种，每种词语信息对应于一种词性，比如，可以为名词(nouns)或动词(verbs)，另外，还可以为形容词、副词、冠词，等等。
91.那么，对句子信息及句子信息对应的词语信息分别进行语义分析，可以包括：对句子信息及句子信息对应的每种词语信息分别进行语义分析，得到句子特征及对应的每种词语特征。
92.其中，句子特征对应的每种词语特征对应于句子信息对应的每种词性的词语信息，比如，词语信息可以包括名词信息和动词信息，那么，语义分析后得到的句子特征对应的词语特征可以包括名词特征和动词特征。
93.这样，通过提取文本数据的多种特征，可以更全面地掌握文本数据的特性，便于进一步与多媒体数据从多个层面进行特征对齐，进而提高后续检索的准确性。
94.在本步骤中，抽取文本数据中的句子信息及句子信息对应的词语信息，并对句子信息及句子信息对应的词语信息分别进行语义分析，得到句子特征及对应的词语特征，具体可以包括如下步骤：
95.利用pos(part-of-speech tagging，词性标注)模型，从文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息；根据词语信息，生成第二句子信息；将第一句子信息及第二句子信息分别输入至语义分析模型进行语义分析，得到句子特征及句子特征对应的词语特征。
96.也就是说，利用pos模型抽取出文本数据中的每个句子以及词语，其中，抽取出的句子也就是第一句子信息，每个句子中的词语也就是第一句子信息对应的词语信息。
97.在本公开中，语义分析模型可以采用bert模型(bidirectional encoder representation from transformers，预训练的语言表征模型)，bert模型需要输入完整的句子，才能实现对输入信息的语义分析，因此，需要根据每个句子中的词语信息，生成第二句子信息。
98.举例而言，可以将词语信息采用预设符号进行分隔，得到词语信息对应的第二句子信息。比如，如图2所示，为生成句子特征对应的词语特征的逻辑示意图，如果第一句子信息为“aboy is performing for an audience.”，词语信息为名词信息，包括“boy”和“audience”，那么，假设预设符号为逗号，则第二句子信息可以表示为“boy，audience”，将“boy，audience”输入至bert模型进行语义分析，得到对应的词语特征。
99.或者，也可以对词语信息对应的第一句子信息中的其他词语进行掩码处理，得到词语信息对应的第二句子信息。比如，如图3所示，为另一种生成句子特征对应的词语特征的逻辑示意图，如果第一句子信息为“aboy is performing for an audience.”，词语信息为名词信息，包括“boy”和“audience”，那么，第二句子信息可以表示为“[mask]boy[mask][mask][mask][mask]audience[mask]”，其中，[mask]表示掩码处理后的词语，将“[mask]boy[mask][mask][mask][mask]audience[mask]”输入至bert模型进行语义分析，得到对应的词语特征。
[0100]
也就是说，将文本数据中的句子以及由词语重新构建的句子分别输入到语义分析模型进行编码，得到句子以及词语分别对应的特征，比如，可以将bert模型输出的cls
(classification，分类)特征作为每个输入的第一句子信息或第二句子信息对应的特征。
[0101]
另一种实现方式中，抽取文本数据中的句子信息及句子信息对应的词语信息，并对句子信息及句子信息对应的词语信息分别进行语义分析，得到句子特征及对应的词语特征，具体可以包括如下步骤：
[0102]
利用词性标注模型，从文本数据中抽取第一句子信息及第一句子信息对应的词语信息；将第一句子信息输入至语义分析模型进行语义分析，得到句子特征及词语信息在对应的第一句子信息中的特征；根据词语信息在对应的第一句子信息中的特征，计算句子特征对应的词语特征。
[0103]
也就是说，将第一句子信息输入至语义分析模型之后，可以得到第一句子信息的句子特征，比如，可以为bert模型输出的cls特征，同时，还可以得到词语信息在对应的第一句子信息中的特征，比如，如图4所示，为另一种生成句子特征对应的词语特征的逻辑示意图，如果第一句子信息为“a boy is performing for an audience.”，词语信息为名词信息，包括“boy”和“audience”，那么，bert模型输出的分析结果中可以分别包括“boy”和“audience”在第一句子信息中的特征，然后，可以对“boy”和“audience”在第一句子信息中的特征取平均值，得到对应的词语特征。
[0104]
在s13中，提取多媒体数据的初始特征，并将初始特征输入至第一特征提取模型及第二特征提取模型，得到第一多媒体特征及第二多媒体特征，其中，第一多媒体特征表征多媒体数据对应的事件信息，第二多媒体特征表征多媒体数据中的实体信息或动作信息。
[0105]
在本步骤中，可以采用vit(vision transformer，视觉学习)模型提取多媒体数据的初始特征，或者，也可以采用其他模型，具体不做限定。
[0106]
一种实现方式中，词语信息包括多种，每种词语信息对应于一种词性，那么，对应的，提取多媒体数据的第一多媒体特征及第二多媒体特征，可以包括：
[0107]
提取多媒体数据的初始特征，并将初始特征输入至第一特征提取模型及多个第二特征提取模型，得到第一多媒体特征及多个第二多媒体特征，其中，每个第二特征提取模型用于提取一种第二多媒体特征，每种第二多媒体特征对应于一种词语特征。
[0108]
其中，实体信息也就是多媒体数据中包括的人或物体的信息，可以理解，实体信息通常对应于文本数据中的名词信息，多媒体数据包括的动作信息通常为人或物体所进行的动作的信息，对应于文本数据中的动词信息，那么，可以认为第二多媒体特征与词语特征具有对应关系。而多媒体数据包括的事件信息通常由实体、动作以及实体与动作之间的关联关系构成，那么，可以认为第一多媒体特征与句子特征具有对应关系。
[0109]
通常，多媒体数据是由多帧多媒体数据构成的，那么，可以从多媒体数据中抽取预设数量的参考帧；然后，分别提取参考帧的特征信息，得到参考帧特征；根据参考帧特征，计算多媒体数据的初始特征。
[0110]
举例而言，若多媒体数据为视频数据，预设数量为16，那么，可以从视频数据中抽取16帧，作为参考帧，在提取出每个参考帧对应的特征信息之后，可以取平均值，得到视频数据512维的初始特征。其中，抽取出的参考帧可以是从视频数据中随机抽取的，也可以是选择视频数据中的关键帧抽取的，具体不做限定。
[0111]
这样，可以减少提取多媒体数据的第一多媒体特征及第二多媒体特征所需的计算量，节约系统资源，提高数据处理效率。
[0112]
一种实现方式中，可以基于初始特征对第一多媒体特征进行更新，具体来说，首先，将初始特征输入至第一特征提取模型及第二特征提取模型，得到初始第一多媒体特征及第二多媒体特征；然后，将初始特征输入至门控模型进行权重计算，得到初始第一多媒体特征及第二多媒体特征分别对应的权重；进而，根据初始第一多媒体特征的权重、第二多媒体特征以及第二多媒体特征的权重，对初始第一多媒体特征进行更新，得到第一多媒体特征。
[0113]
这样，可以进一步完善第一多媒体特征对多媒体数据的特性表征的准确度，有利于提高后续检索的准确度。
[0114]
举例而言，将初始特征输入至门控模型进行权重计算可以采用如下公式：
[0115]
g(x)＝softmax(w
p
×
agg(x))
[0116]
其中，softmax为激活函数，agg代表多帧集成网络，w
p
代表线性连接层，x代表初始特征，g(x)代表门控模型输出的权重，g(x)可以包括g(x)1、g(x)2、
…
、g(x)n，分别对应于初始第一多媒体特征的权重以及每个第二多媒体特征的权重，其中，第二多媒体特征的数量为n-1。
[0117]
根据初始第一多媒体特征的权重、第二多媒体特征以及第二多媒体特征的权重，对初始第一多媒体特征进行更新，可以采用如下公式：
[0118][0119]
其中，代表第一多媒体特征，i的取值可以为1、2、
……
、n，，v1(x)代表初始第一多媒体特征，v2(x)、v3(x)、
…
、vn(x)分别代表每个第二多媒体特征。
[0120]
一种实现方式中，可以采用多任务学习的方式，训练第一特征提取模型和第二特征提取模型，其中，可以利用mmoe(multi-gate mixture-of-experts，多门多专家模型)网络进行多任务学习。在mmoe网络中包括多个experts(专家)模型，分别用于输出每个任务的学习结果，还可以包括门控(gate)模型，用于针对某个任务确定各个experts模型的权重，进而，将各个experts模型的输出进行加权计算，对该任务对应的experts模型的学习结果进行更新，得到该任务的更新后的学习结果。利用多任务学习，一方面可以加快特征提取的速度，另一方面，还可以提高特征提取的准确性。
[0121]
在本公开中，第一特征提取模型及第二特征提取模型分别对应于mmoe网络中的一个experts模型，而且，第一特征提取模型具有其对应的门控模型。
[0122]
以第一特征提取模型为fusion(事件)experts模型，第二特征提取模型包括entity(实体)experts模型和action(动作)experts模型为例，对第一特征提取模型和第二特征提取模型的训练过程可以包括：
[0123]
第一步，获取训练多媒体数据及对训练多媒体数据进行标注后得到的真实entity特征、真实action特征以及真实fusion特征。
[0124]
第二步，提取训练多媒体数据的训练初始特征，将训练初始特征输入至预设mmoe网络中的预设entity experts模型、预设action experts模型以及预设fusion experts模型，分别得到预测entity特征、预测action特征以及初始fusion特征，同时，训练初始特征还会输入至预设mmoe网络中与预设fusion experts模型对应的门控模型，分别得到预测
entity特征、预测action特征以及初始fusion特征的权重。
[0125]
第三步，基于预测entity特征、预测action特征以及初始fusion特征及其对应的权重，进行加权计算，从而对初始fusion特征进行更新，得到预测fusion特征。
[0126]
第四步，分别计算预测entity特征与真实entity特征之间的损失值、预测action特征与真实action特征之间的损失值、以及预测fusion特征与真实fusion特征之间的损失值，并根据损失值对预设entity experts模型、预设action experts模型以及预设fusion experts模型的模型参数进行迭代调整，直至得到的损失值满足阈值条件，得到entity experts模型、action experts模型以及fusion experts模型。
[0127]
在s14中，基于第一多媒体特征及句子特征之间的第一相似度，以及第二多媒体特征与词语特征之间的第二相似度，确定多媒体数据及文本数据之间的相似程度。
[0128]
在本步骤中，第一相似度及第二相似度可以根据特征之间的余弦距离进行计算。具体而言，可以采用如下公式：
[0129][0130]
其中，vi可以代表第一多媒体特征或第二多媒体特征，si可以代表与vi对应的句子特征或词语特征。
[0131]
在本公开中，可以对第一相似度及第二相似度求均值，作为多媒体数据及文本数据之间的相似度，或者，也可以根据不同的业务需求，获取第一相似度及第二相似度的不同的权重，进而对第一相似度及第二相似度加权求均值，作为多媒体数据及文本数据之间的相似度，另外，还可以根据预设的评分规则，基于第一相似度及第二相似度的取值确定多媒体数据及文本数据之间的相似度分值，等等，具体不做限定。
[0132]
如图5所示，为本方案的架构图。其中，文本数据为“a boy is performing for an audience.”，文本数据经过词性标注模型抽取第一句子信息及第一句子信息对应的词语信息，其中，第一句子信息为完整的句子，对应的词语信息包括名词信息“boy，audience”和动词信息“performing”，然后，再经过预训练的语言表征模型，得到句子特征及句子特征对应的名词特征及动词特征。
[0133]
若第一特征提取模型为事件特征提取模型，第二特征提取模型包括实体特征提取模型及动作特征提取模型，那么，多媒体数据经过视觉学习模型提取初始特征，再经过事件特征提取模型、实体特征提取模型及动作特征提取模型，得到初始事件特征、实体特征及动作特征。同时，初始特征输入至门控模型，分别计算初始事件特征、实体特征及动作特征的权重，进而根据计算初始事件特征、实体特征及动作特征以及对应的权重，对初始事件特征进行更新，得到多媒体数据的事件特征。
[0134]
进而，基于事件特征及句子特征之间的句子相似度、实体特征与名词特征之间的名词相似度，以及动作特征与动词特征之间的动词相似度，确定多媒体数据及文本数据之间的相似程度。
[0135]
由以上可见，本公开实施例提供的技术方案中，采用了多任务学习的方式，对同一多媒体数据，分别提取其第一多媒体特征及第二多媒体特征，进而，根据第一特征提取模型与文本数据的句子信息具有对应关系，以及第二特征提取模型与文本数据的词语信息具有对应关系，可以对多媒体数据和文本数据进行特征对齐，得到多媒体数据和文本数据之间
的相似程度，从而提高后续基于多媒体数据及文本数据之间的相似程度进行检索的准确性，可以满足用户需求。
[0136]
第二方面，将对本公开实施例提供的一种数据处理装置进行详细介绍。
[0137]
如图6所示，本公开实施例提供的一种应用于服务器的数据处理装置包括：
[0138]
获取单元201，被配置为执行获取多媒体数据及文本数据；
[0139]
抽取单元202，被配置为执行抽取所述文本数据中的句子信息及句子信息对应的词语信息，并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析，得到句子特征及对应的词语特征；
[0140]
提取单元203，被配置为执行提取所述多媒体数据的初始特征，并将所述初始特征输入至第一特征提取模型及第二特征提取模型，得到第一多媒体特征及第二多媒体特征，其中，所述多媒体特征表征所述多媒体数据对应的事件信息，所述第二多媒体特征表征所述多媒体数据中的实体信息或动作信息；
[0141]
确定单元204，被配置为执行基于所述第一多媒体特征及所述句子特征之间的第一相似度，以及所述第二多媒体特征与所述词语特征之间的第二相似度，确定所述多媒体数据及文本数据之间的相似程度。
[0142]
一种实现方式中，所述词语信息包括多种，每种词语信息对应于一种词性，所述抽取单元202，被配置为执行：
[0143]
对所述句子信息及所述句子信息对应的每种词语信息分别进行语义分析，得到句子特征及对应的每种词语特征；
[0144]
所述提取单元203，被配置为执行：
[0145]
提取所述多媒体数据的初始特征，并将所述初始特征输入至第一特征提取模型及多个第二特征提取模型，得到第一多媒体特征及多个第二多媒体特征，其中，每个第二特征提取模型用于提取一种第二多媒体特征，每种第二多媒体特征对应于一种词语特征。
[0146]
一种实现方式中，所述抽取单元202，被配置为执行：
[0147]
利用词性标注模型，从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息；
[0148]
根据所述词语信息，生成第二句子信息；
[0149]
将所述第一句子信息及所述第二句子信息分别输入至语义分析模型进行语义分析，得到句子特征及所述句子特征对应的词语特征。
[0150]
一种实现方式中，所述抽取单元202，被配置为执行：
[0151]
将所述词语信息采用预设符号进行分隔，得到所述词语信息对应的第二句子信息。
[0152]
一种实现方式中，所述抽取单元202，被配置为执行：
[0153]
对所述词语信息对应的第一句子信息中的其他词语进行掩码处理，得到所述词语信息对应的第二句子信息。
[0154]
一种实现方式中，所述抽取单元202，被配置为执行：
[0155]
利用词性标注模型，从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息；
[0156]
将所述第一句子信息输入至语义分析模型进行语义分析，得到句子特征及所述词
语信息在对应的第一句子信息中的特征；
[0157]
根据所述词语信息在对应的第一句子信息中的特征，计算所述句子特征对应的词语特征。
[0158]
一种实现方式中，所述提取单元203，被配置为执行：
[0159]
从所述多媒体数据中抽取预设数量的参考帧；
[0160]
分别提取所述参考帧的特征信息，得到参考帧特征；
[0161]
根据所述参考帧特征，计算所述多媒体数据的初始特征。
[0162]
一种实现方式中，所述提取单元203，被配置为执行：
[0163]
将所述初始特征输入至第一特征提取模型及第二特征提取模型，得到初始第一多媒体特征及第二多媒体特征；
[0164]
将所述初始特征输入至门控模型进行权重计算，得到所述初始第一多媒体特征及所述第二多媒体特征分别对应的权重；
[0165]
根据初始第一多媒体特征的权重、所述第二多媒体特征以及所述第二多媒体特征的权重，对所述初始第一多媒体特征进行更新，得到第一多媒体特征。
[0166]
由以上可见，本公开实施例提供的技术方案中，采用了多任务学习的方式，对同一多媒体数据，分别提取其第一多媒体特征及第二多媒体特征，进而，根据第一特征提取模型与文本数据的句子信息具有对应关系，以及第二特征提取模型与文本数据的词语信息具有对应关系，可以对多媒体数据和文本数据进行特征对齐，得到多媒体数据和文本数据之间的相似程度，从而提高后续基于多媒体数据及文本数据之间的相似程度进行检索的准确性，可以满足用户需求。
[0167]
第三方面，将对本公开实施例提供的一种电子设备进行详细介绍。
[0168]
如图5所示，本公开实施例提供的一种电子设备的结构示意图。
[0169]
在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述方法。可选地，计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0170]
在示例性实施例中，还提供一种计算机程序产品，当其在计算机上运行时，使得计算机实现上述数据处理的方法。
[0171]
图6是根据一示例性实施例示出的另一种装置800的框图。例如，装置800可以是移动电话，计算机，数字广播电子设备，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
[0172]
参照图6，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(i/o)的接口812，传感器组件814，以及通信组件816。
[0173]
处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。
[0174]
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示
例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，多媒体等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0175]
电源组件807为装置800的各种组件提供电力。电源组件807可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。
[0176]
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或多媒体模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0177]
音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。
[0178]
i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
[0179]
传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
[0180]
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0181]
在示例性实施例中，装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述任一数据处理方
法。
[0182]
在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。可选地，例如，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性非临时性计算机可读存储介质计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0183]
根据本公开实施例的第四方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述任一数据处理方法。
[0184]
根据本公开实施例的第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机实现上述任一数据处理方法。
[0185]
由以上可见，本公开实施例提供的技术方案中，采用了多任务学习的方式，对同一多媒体数据，分别提取其第一多媒体特征及第二多媒体特征，进而，根据第一特征提取模型与文本数据的句子信息具有对应关系，以及第二特征提取模型与文本数据的词语信息具有对应关系，可以对多媒体数据和文本数据进行特征对齐，得到多媒体数据和文本数据之间的相似程度，从而提高后续基于多媒体数据及文本数据之间的相似程度进行检索的准确性，可以满足用户需求。
[0186]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0187]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于Kubernetes的Jenkins集群管理装置的制作方法

一种数据处理方法、装置、设备及存储介质与流程

相关文献

最热文献