基于多模态的场馆识别方法、系统、设备及存储介质与流程

2022-07-16 12:30:23 来源：中国专利 TAG：

1.本发明涉及在线旅游领域，具体地说，涉及基于多模态的场馆识别方法、系统、设备及存储介质。

背景技术：

2.在线旅游(online travel agency)，是旅游电子商务行业的专业词语。指“旅游消费者通过网络向旅游服务提供商预定旅游产品或服务，并通过网上支付或者线下付费，即各旅游主体可以通过网络进行产品营销或产品销售”。ota的出现将原来传统的旅行社销售模式放到网络平台上，更广泛的传递了线路信息，互动式的交流更方便了客人的咨询和订购。
3.在当前大数据时代，人们随身携带手机，遇到好看的景点或者去过的地点都会拍照留念记录，有的人会上传网络与他人分享，所以在ota平台上，我们可以看到各种各样的照片。对于这些别人随手拍的照片，作为ota平台，可以使用这些大数据来提升用户体验。比如，对于一些运动场地的景点，可以优先选择相关的场地图片展示，使得用户在第一眼就能够了解到需要的场馆信息，所以就需要每张图片打上相应的标签。
4.ota平台每日图片增量惊人，无法有如此多的人力投入到对图片打标签中，所以寄希望于深度学习，减少人力成本，自动化对存量和增量均打上相应的标签。
5.因此，本发明提供了一种基于多模态的场馆识别方法、系统、设备及存储介质。

技术实现要素：

6.针对现有技术中的问题，本发明的目的在于提供基于多模态的场馆识别方法、系统、设备及存储介质，克服了现有技术的困难，能够基于攻略线上海量图片，利用多模态检索，能够过滤大量与场馆无关的图片，然后进一步对可能含场馆的图片，根据的需求分类，实现了一个对开放场景自动识别的机制，大大减少人工成本，便于后续对其他场景的应用。
7.本发明的实施例提供一种基于多模态的场馆识别方法，包括以下步骤：
8.将攻略文档中的攻略图片和所述攻略图片对应的介绍文本训练一多模态模型，并获得每个场馆类别标签对应的词向量；
9.将待识别图像输入所述多模态模型中的图片编码器，提取图片向量，根据所述图片向量与词向量的相似性参数来判断筛选出待确认图像；
10.将所述待确认图像输入经过训练的神经网络，输出所述待识别图像对应的场馆类别标签。
11.优选地，所述将攻略文档中的攻略图片和所述攻略图片对应的介绍文本训练一多模态模型，并获得每个场馆类别标签对应的词向量，包括：
12.将攻略文档中的攻略图片和所述攻略图片对应的介绍文本进行配对，获得图文对数据集，
13.通过所述图文对数据集训练一具有图片编码器和文本编码器的多模态模型；
14.通过所述文本编码器获得每个场馆类别标签对应的词特征以及相关的词向量。
15.优选地，所述将攻略文档中的攻略图片和所述攻略图片对应的介绍文本进行配对，获得图文对数据集，包括：
16.将所述攻略文档进行自然语义识别，获得自然段落的至少一第一场馆类别标签；
17.对所述攻略中的图片进行图片识别获得第二场馆类别标签；
18.将与所述图片相邻的上文以及下文各n个自然段中的第一场馆类别标签满足所述第二场馆类别标签的自然段集合作为所述图片的对应的介绍文本，n≤3；
19.将每个所述攻略图片与各自对应的介绍文本配对后形成图文对数据集。
20.优选地，所述将待识别图像输入所述多模态模型中的图片编码器，提取图片向量，根据所述图片向量与词向量的相似性参数来判断筛选出待确认图像，包括
21.所述将待识别图像输入所述多模态模型中的图片编码器，提取所述待识别图像的图片特征以及相关的图片向量；
22.将所述词向量与至少一图片向量相乘获得相似性参数满足预设阈值，则将所述待识别图像作为待确认图像。
23.优选地，训练所述神经网络的步骤，包括：
24.将所述待确认图像输入所述多模态模型中的图片编码器进行预处理，将所述待确认图像的尺寸调整为224*224；
25.将所述多模态模型的结尾添加用于分类的全连接层模块作为神经网络；
26.通过所述攻略文档中的攻略图片和所述攻略图片对应的介绍文本训练所述神经网络。
27.优选地，所述全连接层模块包括两层全连接层、连接在所述全连接层之间的丢弃层以及归一化层。
28.优选地，所述通过所述攻略文档中的攻略图片和所述攻略图片对应的介绍文本训练所述神经网络，包括：在训练时，损失函数采取交叉熵代价函数，并叠加标签平滑，迭代模型的损失函数，直到在验证集上的测试效果得到最优。
29.优选地，还包括对将发布的攻略文档中的介绍文本的至少一自然段提取词向量，获得与所述词向量的相似性参数最高的若干攻略图片作为待选图片集合，将所述待选图片集合中互动总数最高的攻略图片作为所述自然段的配图。
30.优选地，所述互动总数包括所述待选图片集合中每个攻略图片被在线观看、点赞、下载的总次数。
31.本发明的实施例还提供一种基于多模态的场馆识别系统，用于实现上述的基于多模态的场馆识别方法，所述基于多模态的场馆识别系统包括：
32.多模态识别模块，将攻略文档中的攻略图片和所述攻略图片对应的介绍文本训练一多模态模型，并获得每个场馆类别标签对应的词向量；
33.待确认图像模块，将待识别图像输入所述多模态模型中的图片编码器，提取图片向量，根据所述图片向量与词向量的相似性参数来判断筛选出待确认图像；
34.场馆类别模块，将所述待确认图像输入所述神经网络，输出所述待识别图像对应的场馆类别标签。
35.本发明的实施例还提供一种基于多模态的场馆识别设备，包括：
36.处理器；
37.存储器，其中存储有所述处理器的可执行指令；
38.其中，所述处理器配置为经由执行所述可执行指令来执行上述基于多模态的场馆识别方法的步骤。
39.本发明的实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现上述基于多模态的场馆识别方法的步骤。
40.本发明的目的在于提供基于多模态的场馆识别方法、系统、设备及存储介质，能够基于攻略线上海量图片，利用多模态检索，能够过滤大量与场馆无关的图片，然后进一步对可能含场馆的图片，根据的需求分类，实现了一个对开放场景自动识别的机制，大大减少人工成本，便于后续对其他场景的应用。
附图说明
41.通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。
42.图1是本发明的基于多模态的场馆识别方法的流程图。
43.图2是本发明的基于多模态的场馆识别系统的模块示意图。
44.图3是本发明的基于多模态的场馆识别设备的结构示意图。
45.图4是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
46.以下通过特定的具体实例说明本技术的实施方式，本领域技术人员可由本技术所揭露的内容轻易地了解本技术的其他优点与功效。本技术还可以通过另外不同的具体实施方式加以实施或应用系统，本技术中的各项细节也可以根据不同观点与应用系统，在没有背离本技术的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
47.下面以附图为参考，针对本技术的实施例进行详细说明，以便本技术所属技术领域的技术人员能够容易地实施。本技术可以以多种不同形态体现，并不限定于此处说明的实施例。
48.在本技术的表示中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的表示意指结合该实施例或示例表示的具体特征、结构、材料或者特点包括于本技术的至少一个实施例或示例中。而且，表示的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本技术中表示的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
49.此外，术语“第一”、“第二”仅用于表示目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本技术的表示中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
50.为了明确说明本技术，省略与说明无关的器件，对于通篇说明书中相同或类似的
构成要素，赋予了相同的参照符号。
51.在通篇说明书中，当说某器件与另一器件“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种器件“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素排除在外，而是意味着可以还包括其它构成要素。
52.当说某器件在另一器件“之上”时，这可以是直接在另一器件之上，但也可以在其之间伴随着其它器件。当对照地说某器件“直接”在另一器件“之上”时，其之间不伴随其它器件。
53.虽然在一些实例中术语第一、第二等在本文中用来表示各种元件，但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如，第一接口及第二接口等表示。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“a、b或c”或者“a、b和/或c”意味着“以下任一个：a；b；c；a和b；a和c；b和c；a、b和c”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。
54.此处使用的专业术语只用于言及特定实施例，并非意在限定本技术。此处使用的单数形态，只要语句未明确表示出与之相反的意义，那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化，并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
55.虽然未不同地定义，但包括此处使用的技术术语及科学术语，所有术语均具有与本技术所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义，只要未进行定义，不得过度解释为理想的或非常公式性的意义。
56.图1是本发明的基于多模态的场馆识别方法的流程图。如图1所示，本发明的实施例提供一种基于多模态的场馆识别方法，包括以下步骤：
57.s110、将攻略文档中的攻略图片和攻略图片对应的介绍文本训练一多模态模型，并获得每个场馆类别标签对应的词向量。
58.s120、将待识别图像输入多模态模型中的图片编码器，提取图片向量，根据图片向量与词向量的相似性参数来判断筛选出待确认图像。
59.s130、将待确认图像输入经过训练的神经网络，输出待识别图像对应的场馆类别标签。
60.本发明要解决的问题：针对目前大量攻略图片无标签的情况，建立算法模型，过滤掉场馆无关的图片，对场馆相关的图片进行细化分类，方便后续其他场景处理。本发明基于现有的海量攻略图片，建立算法模型，实现对现有及未来图片的标签判断，筛选出场馆相关的图片。可大幅减少人力成本，提升识别效率，便于后续选出更符合主题的图片，提升用户体验。
61.在一个优选实施例中，将攻略文档中的攻略图片和攻略图片对应的介绍文本训练
一多模态模型，并获得每个场馆类别标签对应的词向量，包括：
62.s111、将攻略文档中的攻略图片和攻略图片对应的介绍文本进行配对，获得图文对数据集。
63.s112、通过图文对数据集训练一具有图片编码器和文本编码器的多模态模型。
64.s113、通过文本编码器获得每个场馆类别标签对应的词特征以及相关的词向量。
65.在步骤s111中，将攻略文档中的攻略图片和攻略图片对应的介绍文本进行配对，获得图文对数据集，包括：
66.s1111、将攻略文档进行自然语义识别，获得自然段落的至少一第一场馆类别标签。
67.s1112、对攻略中的图片进行图片识别获得第二场馆类别标签。
68.s1113、将与图片相邻的上文以及下文各n个自然段中的第一场馆类别标签满足第二场馆类别标签的自然段集合作为图片的对应的介绍文本，n≤3。
69.s1114、将每个攻略图片与各自对应的介绍文本配对后形成图文对数据集。本发明通过将图文对数据集对具有图片编码器和文本编码器的多模态模型进行海量训练，从而让词特征(词向量)以及图片特征(图片向量)建立基于神经网络的识别联系。
70.在步骤s120中，将待识别图像输入多模态模型中的图片编码器，提取图片向量，根据图片向量与词向量的相似性参数来判断筛选出待确认图像，包括：
71.s121、将待识别图像输入多模态模型中的图片编码器，提取待识别图像的图片特征以及相关的图片向量。
72.s122、将词向量与至少一图片向量相乘获得相似性参数满足预设阈值，则将待识别图像作为待确认图像。通过相乘获得两个向量之间的相似性，即该文本词向量和图片的相似性，若相似性大于设定的阈值，则认为图片与文本词向量有一定的相似性。
73.训练神经网络的步骤，包括：
74.将待确认图像输入多模态模型中的图片编码器进行预处理，将待确认图像的尺寸调整为224*224。
75.将多模态模型的结尾添加用于分类的全连接层模块作为神经网络。
76.通过攻略文档中的攻略图片和攻略图片对应的介绍文本训练神经网络。
77.在一个优选实施例中，全连接层模块包括两层全连接层、连接在全连接层之间的丢弃层以及归一化层。
78.在一个优选实施例中，通过攻略文档中的攻略图片和攻略图片对应的介绍文本训练神经网络，包括：在训练时，损失函数采取交叉熵代价函数，并叠加标签平滑，迭代模型的损失函数，直到在验证集上的测试效果得到最优。
79.在一个优选实施例中，还包括对将发布的攻略文档中的介绍文本的至少一自然段提取词向量，获得与词向量的相似性参数最高的若干攻略图片作为待选图片集合，将待选图片集合中互动总数最高的攻略图片作为自然段的配图，从而能够为没有图片的纯文本的攻略文档增加合适的配图再进行发布，提升用户发布攻略文档的便捷性，并且可以为被使用的文档收取版权费，增强各个用户发布攻略图片的获利渠道。
80.在一个优选实施例中，互动总数包括待选图片集合中每个攻略图片被在线观看、点赞、下载的总次数，但不以此为限。
81.本发明通过结合文本对图片进行识别，增进了对图片语义的理解，本文介绍了如何利用多模态模型对图片进行识别，后续攻略可使用标签来判断图片是否为场馆，进行后续工作的展开。
82.本发明基于现有的海量攻略图片，建立算法模型，实现对现有及未来图片的标签判断，筛选出场馆相关的图片。可大幅减少人力成本，提升识别效率，便于后续选出更符合主题的图片，提升用户体验。
83.本发明的场馆识别方法，具体包含以下步骤：
84.s210：对线上攻略图片进行挖掘，包括但不限于景点、玩乐等
85.s220：建立检索模型，对于与场馆关键字相似度超出阈值的图片，挑选出来并输入后续的分类模型。
86.s230：对于疑似为场馆的图片，根据多模态建立图片分类模型，将图片输入该模型，进一步输出场馆类别
87.s240：人工干预和确认图片分类，并进行纠错。
88.s250：对于没有配攻略图片的攻略文档，基于上述检索模型、分类模型进行配图。
89.对于步骤s210，在本案实施中，挖掘不同类型的线上图片，选取一些可能出现场馆的场景，对场景进行分类，保证每个类别图片不少于1000张。具体类别包含但不限于体育场、羽毛球场、展览馆等。
90.对于步骤s220中检索模型，将多模态模型改造用于检索。该多模态模型预先在大型图文对数据集上进行了训练，在提出时用于零样本分类。本次检索使用的是其提供的模型用于推理端预测。本文抽取模型最后层特征并计算相似性，用于相似性检索。包含以下步骤：
91.步骤s221：抽取文本特征
92.选取类别相关英文关键词，如展览馆对应关键词为exhibition(英文展览馆)，将英文关键词输入模型中的文本编码器，通过编码器抽取该词特征，形成一维向量a；
93.步骤s222：抽取图片特征
94.将需要测试的图片输入多模态模型中的图片编码器，通过编码器抽取该图片特征，形成一维向量b；
95.步骤s223：判断两者是否相似
96.将两个一维向量矩阵相乘，通过相乘获得两个向量之间的相似性，即该文本和图片的相似性，若相似性大于设定的阈值，则认为图片与exhibition有一定的相似性，可能是展览馆，那会输出给后续的s230分类模型，但若相似值低于设定的阈值，那认为这张图片不是展览馆，不会输入s230中的分类模型，直接打上other的标签，不进行后续输出。
97.对于步骤s230中多模态分类模型，具体流程图如附图2所示。具体的，包含以下步骤：
98.步骤s231：数据集预处理
99.将训练集图片统一固定到224*224，以此方便对多张图片合并为batch，统一输入后续网络，加快计算速度。并进行归一化，消除特征间单位和尺度差异的影响。
100.步骤s232：网络搭建
101.本发明中，根据目标特点，搭建对应的深度卷积神经网络，基础模型选取s220的多
模态模型，与s220不同的是，在模型结尾添加multi-fc用于分类。对于multi-fc模块，选取多个全连接层(fc)，为防止过拟合，在两个fc中间加入dropout层，随机丢弃50％的节点，并加入batch normalization层，通过将同一个batch下图片均值和方差一致化，可以加快收敛速度。通过实验，选取fc的个数，由于fc计算量较大，但能增加较多线性信息，所以在保证准确率的前提性尽可能减少fc的使用。其中，全连接层(fully connected layers，fc)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中，全连接层可由卷积操作实现：对前层是全连接的全连接层可以转化为卷积核为1x1的卷积；而前层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积，h和w分别为前层卷积结果的高和宽。dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。batch normalization,批标准化,和普通的数据标准化类似,是将分散的数据统一的一种做法,也是优化神经网络的一种方法.在之前normalization的简介视频中我们一提到,具有统一规格的数据,能让机器学习更容易学习到数据之中的规律。
102.步骤s233：模型训练
103.在本发明中，训练数据为s210中挖掘到的数据，经过步骤s221的预处理，输入模型，训练分为两部分：
104.a)抽取特征：将预处理后的模型，输入多模态模型的图片编码部分，得到最终的特征图，此部分不做反向传播与训练。
105.b)训练multi-fc：将a中得到的特征图，高和宽进行池化，到1
×
1大小，即池化得到的向量为c(通道数)
×
1(宽)
×
1(高)大小，将向量输入步骤s232中提到的multi-fc模块，并对multi-fc模块进行反向传播与训练。
106.在训练时，损失函数(loss)采取交叉熵损失函数(cross entropy loss)，并叠加标签平滑(label smoothing)，减小噪声的影响，但不以此为限。优化算法采取timm中的sgdp算法，但不以此为限。迭代模型的损失函数，直到在验证集上的测试效果得到最优。
107.s234：模型预测
108.利用步骤s233中训练好的模型对线上ota图片做前向预测，如步骤三，先抽取特征，池化后再输入multi-fc层，最后输出图像的场馆类别，如果非场馆，则不输出。对线上预测图片做归一化处理，做法同步骤s231。
109.对于步骤s240，将s230中预测的类别与人工匹配，如与人工相同，则为相同，反之为错误，需要进一步调整训练。针对错误的case，总结错误类型，如对图片的特征判断错误或缺乏场外信息等，进一步调整的定义范围及数据，重复多轮迭代。
110.对于步骤s250，对将发布的攻略文档中的介绍文本的至少一自然段提取词向量，获得与词向量的相似性参数最高的若干攻略图片作为待选图片集合，将待选图片集合中互动总数最高的攻略图片作为自然段的配图，从而能够为没有图片的纯文本的攻略文档增加合适的配图再进行发布，提升用户发布攻略文档的便捷性(用户不需要拍摄攻略相关的照片，可以只提供攻略文本部分，而是可以自图片库中被分配到最合适的照片作为攻略文档的图片)，并且ota平台还可以为被使用的文档收取版权费并反馈给版权方，增强各个用户
发布攻略图片的获利渠道。
111.本发明的基于多模态的场馆识别方法基于攻略线上海量图片，利用多模态检索，能够过滤大量与场馆无关的图片，然后进一步对可能含场馆的图片，根据的需求分类，实现了一个对开放场景自动识别的机制，大大减少人工成本，便于后续对其他场景的应用。
112.图2是本发明的基于多模态的场馆识别系统的模块示意图。如2所示，本发明的基于多模态的场馆识别系统5包括：
113.多模态识别模块51，将攻略文档中的攻略图片和攻略图片对应的介绍文本训练一多模态模型，并获得每个场馆类别标签对应的词向量；
114.待确认图像模块52，将待识别图像输入多模态模型中的图片编码器，提取图片向量，根据图片向量与词向量的相似性参数来判断筛选出待确认图像；
115.场馆类别模块53，将待确认图像输入神经网络，输出待识别图像对应的场馆类别标签。
116.在一个优选实施例中，多模态识别模块51将攻略文档中的攻略图片和攻略图片对应的介绍文本进行配对，获得图文对数据集，通过图文对数据集训练一具有图片编码器和文本编码器的多模态模型，通过文本编码器获得每个场馆类别标签对应的词特征以及相关的词向量。
117.在一个优选实施例中，多模态识别模块51可以将攻略文档进行自然语义识别，获得自然段落的至少一第一场馆类别标签。对攻略中的图片进行图片识别获得第二场馆类别标签。将与图片相邻的上文以及下文各n个自然段中的第一场馆类别标签满足第二场馆类别标签的自然段集合作为图片的对应的介绍文本，n≤3。将每个攻略图片与各自对应的介绍文本配对后形成图文对数据集。本发明通过将图文对数据集对具有图片编码器和文本编码器的多模态模型进行海量训练，从而让词特征(词向量)以及图片特征(图片向量)建立基于神经网络的识别联系。
118.在一个优选实施例中，将待识别图像输入多模态模型中的图片编码器，提取图片向量，根据图片向量与词向量的相似性参数来判断筛选出待确认图像，包括：
119.s121、将待识别图像输入多模态模型中的图片编码器，提取待识别图像的图片特征以及相关的图片向量。
120.s122、将词向量与至少一图片向量相乘获得相似性参数满足预设阈值，则将待识别图像作为待确认图像。通过相乘获得两个向量之间的相似性，即该文本词向量和图片的相似性，若相似性大于设定的阈值，则认为图片与文本词向量有一定的相似性。
121.在一个优选实施例中，待确认图像模块52，将待确认图像输入多模态模型中的图片编码器进行预处理，将待确认图像的尺寸调整为224*224。将多模态模型的结尾添加用于分类的全连接层模块作为神经网络。通过攻略文档中的攻略图片和攻略图片对应的介绍文本训练神经网络。
122.在一个优选实施例中，全连接层模块包括两层全连接层、连接在全连接层之间的丢弃层以及归一化层。
123.在一个优选实施例中，通过攻略文档中的攻略图片和攻略图片对应的介绍文本训练神经网络，包括：在训练时，损失函数采取交叉熵代价函数，并叠加标签平滑，迭代模型的损失函数，直到在验证集上的测试效果得到最优。
124.在一个优选实施例中，还包括攻略配图模块54，对将发布的攻略文档中的介绍文本的至少一自然段提取词向量，获得与词向量的相似性参数最高的若干攻略图片作为待选图片集合，将待选图片集合中互动总数最高的攻略图片作为自然段的配图。从而能够为没有图片的纯文本的攻略文档增加合适的配图再进行发布，提升用户发布攻略文档的便捷性，并且可以为被使用的文档收取版权费，增强各个用户发布攻略图片的获利渠道。
125.在一个优选实施例中，互动总数包括待选图片集合中每个攻略图片被在线观看、点赞、下载的总次数，但不以此为限。
126.本发明的基于多模态的场馆识别系统基于攻略线上海量图片，利用多模态检索，能够过滤大量与场馆无关的图片，然后进一步对可能含场馆的图片，根据的需求分类，实现了一个对开放场景自动识别的机制，大大减少人工成本，便于后续对其他场景的应用。
127.本发明实施例还提供一种基于多模态的场馆识别设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的基于多模态的场馆识别方法的步骤。
128.如上所示，该实施例本发明的基于多模态的场馆识别系统能够基于攻略线上海量图片，利用多模态检索，能够过滤大量与场馆无关的图片，然后进一步对可能含场馆的图片，根据的需求分类，实现了一个对开放场景自动识别的机制，大大减少人工成本，便于后续对其他场景的应用。
129.所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。
130.图3是本发明的基于多模态的场馆识别设备的结构示意图。下面参照图3来描述根据本发明的这种实施方式的电子设备600。图3显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
131.如图3所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
132.其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。
133.存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(rom)6203。
134.存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
135.总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
136.电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备
等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储平台等。
137.本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的基于多模态的场馆识别方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
138.如上所示，该实施例本发明的基于多模态的场馆识别系统能够基于攻略线上海量图片，利用多模态检索，能够过滤大量与场馆无关的图片，然后进一步对可能含场馆的图片，根据的需求分类，实现了一个对开放场景自动识别的机制，大大减少人工成本，便于后续对其他场景的应用。
139.图4是本发明的计算机可读存储介质的结构示意图。参考图4所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
140.程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
141.计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
142.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计
算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
143.综上，本发明的目的在于提供基于多模态的场馆识别方法、系统、设备及存储介质，能够基于攻略线上海量图片，利用多模态检索，能够过滤大量与场馆无关的图片，然后进一步对可能含场馆的图片，根据的需求分类，实现了一个对开放场景自动识别的机制，大大减少人工成本，便于后续对其他场景的应用。
144.以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于OTA的远程连接方法、系统及车载连接设备、电动汽车与流程

基于多模态的场馆识别方法、系统、设备及存储介质与流程

相关文献

最热文献