视觉媒体个性化搜索方法和装置与流程

2021-11-15 18:55:00 来源：中国专利 TAG：

1.本发明涉及计算机应用技术，特别是涉及一种视觉媒体个性化搜索方法和装置。

背景技术：

2.随着智能终端设备拍摄功能的广泛应用，人们对智能终端设备的相册检索需求也越来越高，希望能够进行个性化的视觉媒体搜索(包括图片和视频的搜索)。例如，用户输入查询语句“查找女儿去年生日照片”，即可从相册中查找出相应的照片显示给用户。
3.针对上述个性化视觉媒体搜索需求，发明人在实现本技术的过程中通过研究发现：现有的视觉媒体搜索方案无法满足上述个性化的查询需求。具体原因如下：
4.现有的视觉媒体查询方案仅是基于图像的语义信息进行搜索，搜索时无法识别出图像的用户个性化信息。出于保护用户隐私的原因，在进行用于语义搜索的服务端模型训练时，不适合基于用户的个性化信息进行训练和识别，从而无法获得能够基于图像内容识别用户个性化信息的搜索模型，从而无法满足用户的个性化查询需求。例如，现有的视觉媒体查询方案可以从图像中识别出拍摄主体是个女孩，但是无法识别出拍摄主体与当前查询用户之间的关系，这样，就无法满足类似“查找女儿去年生日照片”这种个性化搜索需求。

技术实现要素：

5.有鉴于此，本发明的主要目的在于提供一种视觉媒体个性化搜索方法和装置，可以满足用户的个性化搜索视觉媒体的需求。
6.为了达到上述目的，本发明实施例提出的技术方案为：
7.一种视觉媒体个性化搜索方法，包括：
8.对用户的视觉媒体查询文本进行语义分析，得到其中包含的视觉语义信息、时间信息和/或地点信息；
9.将所述语义分析的结果，与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配，得到所述视觉媒体的查询相似度；所述视觉媒体为图像或视频；所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息；
10.基于所述查询相似度，生成相应的视觉媒体查询结果。
11.较佳地，所述将所述语义分析的结果，与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配包括：
12.如果所述语义分析的结果包含视觉语义信息，则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配，得到所述视觉媒体的视觉语义相似度；
13.如果所述语义分析的结果包含时间信息，则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配，得到所述视觉媒体的时间语义相似度；
14.如果所述语义分析的结果包含地点信息，则将该地点信息与所述视觉媒体的地点个性信息进行相似度匹配，得到所述视觉媒体的地点语义相似度；
15.基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似
度，按照加权计算方法，得到所述视觉媒体的查询相似度。
16.较佳地，当所述视觉媒体的视觉语义个性信息包含高维语义向量时，所述将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配包括：
17.基于所述语义分析得到的视觉语义信息，生成相应的高维语义向量；将转换得到的高维语义向量，与所述视觉媒体的视觉语义个性信息中的高维语义向量，进行相似度匹配，得到所述视觉媒体的第一视觉语义相似度；
18.如果所述语义分析得到的视觉语义信息包含查询目标相关的个性描述信息，并且所述视觉媒体的视觉语义个性信息包含个性标签信息，则将所述个性描述信息与所述个性标签信息，进行相似度匹配，得到所述视觉媒体的第二视觉语义相似度；
19.如果所述视觉媒体存在所述第二视觉语义相似度，则基于所述第一视觉语义相似度和第二视觉语义相似度，按照加权计算方法，得到所述视觉媒体的视觉语义相似度；否则，将所述第一视觉语义相似度，作为所述视觉媒体的视觉语义相似度。
20.较佳地，当所述视觉媒体的视觉语义个性信息仅包含文本信息时，所述将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配包括：
21.将所述语义分析得到的视觉语义信息，与所述视觉媒体的视觉语义个性信息进行相似度匹配，得到所述视觉媒体的视觉语义相似度。
22.较佳地，所述方法进一步包括：
23.智能终端设备在拍摄完所述视觉媒体后，基于当前登录用户的预设个性数据库，为所述视觉媒体生成所述属性数据，包括：
24.如果所述视觉媒体为照片，则基于该照片生成对应的视觉语义；
25.如果所述视觉媒体为视频，则基于该视频的关键帧生成对应的视觉语义；
26.基于所述视觉语义，查询当前登录用户的第一个性数据库，以识别所述视觉媒体中的拍摄对象与所述登录用户的关系，如果识别成功，则将识别出的所述关系作为个性标签，与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息；否则，将所述视觉语义保存为所述视觉媒体的视觉语义个性信息；所述第一个性数据库包括通讯数据库和/或图库；
27.基于所述视觉媒体的拍摄地点，查询当前登录用户的第二个性数据库，以识别所述拍摄地点与当前登录用户的关联信息，如果识别成功，则将所得到的关联信息作为个性标签，与所述拍摄地点共同保存为所述视觉媒体的地点个性信息；否则，将所述拍摄地点保存为所述视觉媒体的地点个性信息；所述第二个性数据库包括地点个性数据库；
28.基于所述视觉媒体的拍摄时间，查询当前登录用户的第三个性数据库，以识别所述时间信息与当前登录用户的关联信息，如果识别成功，则将所得到的关联信息作为个性标签，与所述拍摄时间共同保存为所述视觉媒体的时间个性信息；否则，将所述拍摄时间保存为所述视觉媒体的时间个性信息；所述第三个性数据库包括时间个性数据库。
29.本发明实施例还提出了一种视觉媒体个性化搜索装置，包括：
30.语义分析模块，用于对用户的视觉媒体查询文本进行语义分析，得到其中包含的视觉语义信息、时间信息和/或地点信息；
31.匹配模块，用于将所述语义分析的结果，与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配，得到所述视觉媒体的查询相似度；所述视觉媒体为图像或视频；
所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息；
32.结果生成模块，用于基于所述查询相似度，生成相应的视觉媒体查询结果。
33.较佳地，所述匹配模块，具体用于将所述语义分析的结果，与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配，包括：
34.如果所述语义分析的结果包含视觉语义信息，则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配，得到所述视觉媒体的视觉语义相似度；
35.如果所述语义分析的结果包含时间信息，则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配，得到所述视觉媒体的时间语义相似度；
36.如果所述语义分析的结果包含地点信息，则将该地点信息与所述视觉媒体的地点个性信息进行相似度匹配，得到所述视觉媒体的地点语义相似度；
37.基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似度，按照加权计算方法，得到所述视觉媒体的查询相似度。
38.较佳地，所述匹配模块，具体用于当所述视觉媒体的视觉语义个性信息包含高维语义向量时，将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配，包括：
39.基于所述语义分析得到的视觉语义信息，生成相应的高维语义向量；将转换得到的高维语义向量，与所述视觉媒体的视觉语义个性信息中的高维语义向量，进行相似度匹配，得到所述视觉媒体的第一视觉语义相似度；
40.如果所述语义分析得到的视觉语义信息包含查询目标相关的个性描述信息，并且所述视觉媒体的视觉语义个性信息包含个性标签信息，则将所述个性描述信息与所述个性标签信息，进行相似度匹配，得到所述视觉媒体的第二视觉语义相似度；
41.如果所述视觉媒体存在所述第二视觉语义相似度，则基于所述第一视觉语义相似度和第二视觉语义相似度，按照加权计算方法，得到所述视觉媒体的视觉语义相似度；否则，将所述第一视觉语义相似度，作为所述视觉媒体的视觉语义相似度。
42.较佳地，所述匹配模块，具体用于当所述视觉媒体的视觉语义个性信息仅包含文本信息时，将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配，包括：
43.将所述语义分析得到的视觉语义信息，与所述视觉媒体的视觉语义个性信息进行相似度匹配，得到所述视觉媒体的视觉语义相似度。
44.较佳地，所述装置进一步包括：
45.视觉媒体属性生成模块，用于在智能终端设备拍摄完所述视觉媒体后，基于当前登录用户的预设个性数据库，为所述视觉媒体生成所述属性数据，包括：
46.如果所述视觉媒体为照片，则基于该照片生成对应的视觉语义；
47.如果所述视觉媒体为视频，则基于该视频的关键帧生成对应的视觉语义；
48.基于所述视觉语义，查询当前登录用户的第一个性数据库，以识别所述视觉媒体中的拍摄对象与所述登录用户的关系，如果识别成功，则将识别出的所述关系作为个性标签，与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息；否则，将所述视觉语义保存为所述视觉媒体的视觉语义个性信息；所述第一个性数据库包括通讯数据库和/或图库；
49.基于所述视觉媒体的拍摄地点，查询当前登录用户的第二个性数据库，以识别所
述拍摄地点与当前登录用户的关联信息，如果识别成功，则将所得到的关联信息作为个性标签，与所述拍摄地点共同保存为所述视觉媒体的地点个性信息；否则，将所述拍摄地点保存为所述视觉媒体的地点个性信息；所述第二个性数据库包括地点个性数据库；
50.基于所述视觉媒体的拍摄时间，查询当前登录用户的第三个性数据库，以识别所述时间信息与当前登录用户的关联信息，如果识别成功，则将所得到的关联信息作为个性标签，与所述拍摄时间共同保存为所述视觉媒体的时间个性信息；否则，将所述拍摄时间保存为所述视觉媒体的时间个性信息；所述第三个性数据库包括时间个性数据库。
51.本发明实施例还提供了一种视觉媒体个性化搜索的电子设备，包括处理器和存储器；
52.所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述的视觉媒体个性化搜索方法。
53.本发明实施例还提供了一种计算机可读存储介质，其中存储有计算机可读指令，该计算机可读指令用于执行如上所述的视觉媒体个性化搜索方法。
54.综上所述，本发明提出的视觉媒体个性化搜索方法和装置，在进行视觉媒体个性化搜索时，先对用户的视觉媒体查询文本进行语义分析，得到其中包含的多种用于个性化搜索的信息，包括视觉语义信息、时间信息和/或地点信息，然后基于这些信息，对指定搜索范围内的每个视觉媒体的相应属性数据进行语义相似度匹配，得到各视觉媒体的查询相似度，最后利用这些视觉媒体的查询相似度，生成相应的视觉媒体查询结果。如此，在进行视觉媒体搜索时不再仅是基于图像的语义信息进行搜索，同时还充分利用了用户的个性信息进行搜索匹配，从而可以满足用户的个性化搜索视觉媒体需求。
附图说明
55.图1为本发明实施例的方法流程示意图；
56.图2为基于本发明实施例实现的一种为用户拍摄的照片生成属性数据的过程示意图；
57.图3为基于本发明实施例实现的一种图片搜索过程示意图；
58.图4为基于本发明实施例实现的另一种为用户拍摄的照片生成属性数据的过程示意图；
59.图5为基于本发明实施例实现的另一种图片搜索过程示意图；
60.图6为本发明实施例的装置结构示意图。
具体实施方式
61.为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。
62.图1为本发明实施例的视觉媒体个性化搜索方法流程示意图，如图1所示，该实施例主要包括：
63.步骤101、对用户的视觉媒体查询文本进行语义分析，得到其中包含的视觉语义信息、时间信息和/或地点信息。
64.本步骤，与现有搜索方案所不同的是，在对用户的视觉媒体查询文本进行语义分
析时，不再仅局限于获取搜索目标图像的语义信息，还需要获取用户的个性信息，例如，目标图像中的人物和用户的关系(如妻子、女儿等关系)、目标图像的拍摄时间对于用户而言所具有的特殊性(如结婚纪念日、宝宝出生日)、目标图像的拍摄时间对于用户而言所具有的特殊性(如家、公司、旅游地等)。这样，视觉媒体查询文本可以携带更多个性化的信息，如可以为“查询宝宝周岁时的照片”，从而可以充分利用用户的个性信息进行搜索匹配，因此，可以满足用户的个性化搜索视觉媒体需求，并提高了视觉媒体搜索的灵活性和智能化。
65.步骤102、将所述语义分析的结果，与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配，得到所述视觉媒体的查询相似度；所述视觉媒体为图像或视频；所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息。
66.本步骤，用于基于步骤101中对视觉媒体查询文本进行语义分析的结果，进行语义相似度匹配，以得到指定搜索范围内各视觉媒体与当前视觉媒体查询文本的匹配度(即上述查询相似度)。
67.这里，指定搜索范围内各视觉媒体的属性数据需要包括视觉语义个性信息、时间个性信息和/或地点个性信息，以便与视觉媒体查询文本进行个性化匹配。
68.对于所述搜索范围，本领域技术人员可根据实际需要选择。例如该搜索范围可以是用户设备的本地相册或者是用户在本地相册中选择的部分视觉媒体，也可以是用户上传至云端的视觉媒体相册等，不限于上述。为了较好的保护用户隐私，较佳地，所述搜索范围位于用户设备本地。
69.在一种实施方式中，对于指定搜索范围内各视觉媒体的属性数据，可以在用户设备拍摄完照片时，基于用户设备本地的个性化信息生成，具体如下：
70.智能终端设备在拍摄完所述视觉媒体后，基于当前登录用户的预设个性数据库，为所述视觉媒体生成所述属性数据，包括：
71.步骤y1、如果所述视觉媒体为照片，则基于该照片生成对应的视觉语义；如果所述视觉媒体为视频，则基于该视频的关键帧生成对应的视觉语义。
72.步骤y2、基于所述视觉语义，查询当前登录用户的第一个性数据库，以识别所述视觉媒体中的拍摄对象与所述登录用户的关系，如果识别成功，则将识别出的所述关系作为个性标签，与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息；否则，将所述视觉语义保存为所述视觉媒体的视觉语义个性信息；所述第一个性数据库包括通讯数据库和/或图库。
73.具体地，上述通讯数据库可以由智能终端设备上的通讯录应用程序生成。上述图库可以由智能终端设备上的图库应用程序生成，该图库应用程序支持用户对图像中的人物添加个性标签，如好友、家人、同事等个性信息。但不限于上述应用程序，只要能提供拍摄对象与用户之间关系信息的应用程序均可。
74.步骤y2中，当基于所述视觉语义，查询当前登录用户的第一个性数据库，识别出所述视觉媒体中的拍摄对象与所述登录用户的关系时，需要将识别出的所述关系作为个性标签，与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息，以使得视觉媒体的视觉语义个性信息包含有个性信息。在具体实现时：将识别出的所述关系作为个性标签，与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息时，可以采用纯文本的形式保存，也可以利用不同的域分别保存。
75.当采用纯文本的形式时，可以采用在一般的非个性化的视觉语义中进行增加个性标签或将相应图像主体替换为个性标签的方式，生成具有个性标签的视觉语义，并且也可以将视觉语义转换为相同含义但描述方式不同的文本信息，将这些视觉语义信息合并保存为视觉媒体的视觉语义个性信息。例如，对于非个性化的视觉语义“两个人一起烛光晚餐”，通过个性识别，获知其中的“两个人”为当前用户“我”和“妻子”，此时，可以基于“两个人一起烛光晚餐”，得到多种视觉语义：1、我和妻子一起烛光晚餐；2、两个人一起烛光晚餐；两个人一起吃饭。将这些视觉语义保存为相应视觉媒体的视觉语义个性信息。
76.当利用不同的域分别保存不同的视觉语义个性信息时，可以以高维语义向量的形式保存非个性化的视觉语义，以文本标签的形式保存个性标签，两者保存在不同域中。
77.步骤y3、基于所述视觉媒体的拍摄地点，查询当前登录用户的第二个性数据库，以识别所述拍摄地点与当前登录用户的关联信息，如果识别成功，则将所得到的关联信息作为个性标签，与所述拍摄地点共同保存为所述视觉媒体的地点个性信息；否则，将所述拍摄地点保存为所述视觉媒体的地点个性信息；所述第二个性数据库包括地点个性数据库。
78.所述地点个性数据库可以由智能终端设备上的导航应用程序生成，该导航应用程序允许用户为不同地点设置个性标签。但不限于导航应用程序，只要能提供地点个性信息的应用程序均可。
79.步骤y4、基于所述视觉媒体的拍摄时间，查询当前登录用户的第三个性数据库，以识别所述时间信息与当前登录用户的关联信息，如果识别成功，则将所得到的关联信息作为个性标签，与所述拍摄时间共同保存为所述视觉媒体的时间个性信息；否则，将所述拍摄时间保存为所述视觉媒体的时间个性信息；所述第三个性数据库包括时间个性数据库。
80.具体地，所述时间个性数据库可以由智能终端设备上的日历应用程序生成，该日历应用程序允许用户为不同时间、日期设置个性标签，如生日、结婚纪念日等。但不限于此，只要能提供时间个性信息的应用程序均可。
81.上述步骤y2～y4没有时间顺序。
82.利用上述步骤y1～y4，可以在用户拍摄照片或录制视频时，基于用户设备上存储的个性数据库(即上述第一个性数据库、第二个性数据库和第三个性数据库)为用户拍摄的照片或视频生成属性数据，使得该属性数据中不仅包含图像本身的语义信息，还包含用户的个性信息，以支持个性搜索。
83.具体地，步骤102中在将所述语义分析的结果与视觉媒体的属性数据进行语义相似度匹配时，先将所述语义分析得到的不同类型的信息，分别与视觉媒体的相应属性数据进行语义相似度匹配，然后再将视觉媒体的所有语义相似度值，按照加权方法计算得到一个总的语义相似度作为视觉媒体的查询相似度。相应的，在一种实施方式中，可以采用下述方法将所述语义分析的结果，与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配：
84.如果所述语义分析的结果包含视觉语义信息，则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配，得到所述视觉媒体的视觉语义相似度。
85.如果所述语义分析的结果包含时间信息，则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配，得到所述视觉媒体的时间语义相似度。
86.如果所述语义分析的结果包含地点信息，则将该地点信息与所述视觉媒体的地点
个性信息进行相似度匹配，得到所述视觉媒体的地点语义相似度；
87.基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似度，按照加权计算方法，得到所述视觉媒体的查询相似度。
88.在实际应用中，在将上述将语义分析结果中的视觉语义信息与视觉媒体的视觉语义个性信息进行相似度匹配时，可以考虑视觉媒体的视觉语义个性信息中是否包含高维语义向量，如果是，则需要在进行相似度匹配前，先基于语义分析得到的视觉语义信息生成相应的高维语义向量，以便与视觉媒体的高维语义向量进行匹配。相应的，在一种实施方式中，当所述视觉媒体的视觉语义个性信息包含高维语义向量时，可以采用下述方法将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配：
89.步骤x1、基于所述语义分析得到的视觉语义信息，生成相应的高维语义向量；将转换得到的高维语义向量，与所述视觉媒体的视觉语义个性信息中的高维语义向量，进行相似度匹配，得到所述视觉媒体的第一视觉语义相似度；
90.如果所述语义分析得到的视觉语义信息包含查询目标相关的个性描述信息，并且所述视觉媒体的视觉语义个性信息包含个性标签信息，则将所述个性描述信息与所述个性标签信息，进行相似度匹配，得到所述视觉媒体的第二视觉语义相似度。
91.步骤x2、如果所述视觉媒体存在所述第二视觉语义相似度，则基于所述第一视觉语义相似度和第二视觉语义相似度，按照加权计算方法，得到所述视觉媒体的视觉语义相似度；否则，将所述第一视觉语义相似度，作为所述视觉媒体的视觉语义相似度。
92.在一种实施方式中，当视觉媒体的视觉语义个性信息仅包含文本信息(即视觉媒体的视觉语义个性信息为纯文本信息，如个性标签)时，可以直接将语义分析得到的视觉语义信息，与视觉媒体的视觉语义个性信息进行相似度匹配，得到该视觉媒体的视觉语义相似度。
93.步骤103、基于所述查询相似度，生成相应的视觉媒体查询结果。
94.本步骤用于基于步骤102得到的各视觉媒体的查询相似度，进一步生成相应的查询结果。具体地可以是按照预设的查询策略生成相应的结果，例如，可以按照查询相似度进行排序，选择其他相似度达到一定阈值的视觉媒体作为查询结果进行显示，也可以按照查询相似度的降序显示所有视觉媒体等，不限于上述实施方式。
95.基于上述实施例可以看出，上述视觉媒体个性化搜索方法在进行视觉媒体个性化搜索时，不再仅是基于图像的语义信息进行搜索，同时还充分利用了用户的个性信息进行搜索匹配，可以满足用户的个性化搜索视觉媒体需求。下面结合几种具体应用场景对上述方法的具体实现进行详细说明。
96.场景1：图2为采用本发明实施例实现的一种为用户拍摄的照片生成属性数据的过程示意图，如图2所示，该过程包括：
97.1.用户使用照相机应用，拍照生成新图片。
98.2.后台生成图片对应的非个性化的视觉语义(采用图像标注技术)，时间信息(拍照时间)以及地点信息(gps)。
99.3.分析个性化的语义并生成标签保存,包括个性化的视觉语义，时间语义和地点语义。1)视觉语义：通过人脸识别得到实体(如图2中的妻子和我)，并通过自然语言处理(nlp)中的命名实体识别技术来在非个性化的视觉语义加入个性化信息。例如，“两个人一
起烛光晚餐”转换成“我和妻子一起烛光晚餐”。2)时间语义：通过分析日历等其它应用的数据库得到3)地点语义：通过分用户常用地点等数据库来判断。
100.4.非个性化的原始语义和个性化的标签会被保存起来，供查询使用。
101.场景2：图3为采用本发明实施例实现的一种图片搜索过程示意图，如图3所示，该过程包括：
102.1.输入查询文本或者语音识别出来的查询文本。
103.2.对输入的查询文本进行意图识别，抽取相关的线索，包括视觉语义线索、时间线索、地点线索。
104.3.搜索语义最相似的图片。利用图像线索搜索视觉语义域，利用时间线索搜索时间和时间标签域，利用地点线索搜索地点和地点标签域。
105.4.基于上一步得到的图像视觉语义相似度、时间语义相似度和地点语义相似度，加权之后得到最后的相似度结果并排序输出。
106.场景3：图4为基于本发明实施例实现的另一种为用户拍摄的照片生成属性数据的过程示意图，该过程与图2所示的方法相似，所不同的是：将图像的视觉语义分开存储。即利用高维语义向量表示一般的非个性视觉语义和使用文本标签表示个性化标签。其中，一般的非个性化的图像视觉语义是通过openai clip model等技术，生成高维语义向量并保存；通过人脸识别后得到的个性化图像视觉语义后保存在另一个域，这样，对于不同用户的个性化视觉语义，可以保存在不同标签中，从而可以满足不同用户的个性化搜索需求。
107.场景4：图5为基于本发明实施例实现的另一种图片搜索过程示意图，该过程是在采用场景3中的方法生成照片属性数据的基础上，进行图片搜索的方法示意图，如图5所示，该过程包括：
108.1.输入查询文本或者语音识别出来的查询文本。
109.2.对输入的查询文本进行意图识别，抽取相关的线索，包括视觉语义线索、时间线索、地点线索。
110.3、利用视觉语义线索搜索视觉语义域，利用时间线索搜索时间和时间标签域，利用地点线索搜索地点和地点标签域。
111.其中，时间和地点的搜索方法与上述场景2中的过程一致。与上述场景2所不同的是，图像线索搜索方法，具体为：
112.先对图像线索做命名实体识别，然后抽取识别出来的人物实体作为个性化视觉线索，将视觉语义线索分成一般视觉线索和个性化视觉线索两部分；分别计算各部分的相似度。1)一般视觉线索通过openai clip model等技术生成高维语义向量，然后，计算向量之间的相似度。2)个性化视觉线索在属性数据的视觉语义个性标签域中搜索并计算相似度。最后，对两部分的相似度加权计算，得到最后的视觉语义相似度。
113.4.基于上一步得到的图像视觉语义相似度、时间语义相似度和地点语义相似度，加权之后得到最后的相似度结果并排序输出。
114.上述场景1～4以照片为例为本技术实施例的具体实现进行了示例性说明。在实际应用中，基于视频的实现与上述场景类似，所不同的是视频场景中是基于关键帧的图像生成属性数据，并基于关键帧的属性数据进行相似度匹配，在此不再示例性说明。
115.与上述方法实施例相对应，本发明实施例还提出了一种视觉媒体个性化搜索装
置，如图6所示包括：
116.语义分析模块601，用于对用户的视觉媒体查询文本进行语义分析，得到其中包含的视觉语义信息、时间信息和/或地点信息；
117.匹配模块602，用于将所述语义分析的结果，与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配，得到所述视觉媒体的查询相似度；所述视觉媒体为图像或视频；所述属性数据包括视觉语义个性信息、时间个性信息和/或地点个性信息；
118.结果生成模块603，用于基于所述查询相似度，生成相应的视觉媒体查询结果。
119.在一种实施方式中，所述匹配模块602，具体用于将所述语义分析的结果，与指定搜索范围内每个视觉媒体的属性数据进行语义相似度匹配，包括：
120.如果所述语义分析的结果包含视觉语义信息，则将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配，得到所述视觉媒体的视觉语义相似度；
121.如果所述语义分析的结果包含时间信息，则将该时间信息与所述视觉媒体的时间个性信息进行相似度匹配，得到所述视觉媒体的时间语义相似度；
122.如果所述语义分析的结果包含地点信息，则将该地点信息与所述视觉媒体的地点个性信息进行相似度匹配，得到所述视觉媒体的地点语义相似度；
123.基于所述视觉媒体的视觉语义相似度、所述时间语义相似度和/或地点语义相似度，按照加权计算方法，得到所述视觉媒体的查询相似度。
124.在一种实施方式中，所述匹配模块602，具体用于当所述视觉媒体的视觉语义个性信息包含高维语义向量时，将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配，包括：
125.基于所述语义分析得到的视觉语义信息，生成相应的高维语义向量；将转换得到的高维语义向量，与所述视觉媒体的视觉语义个性信息中的高维语义向量，进行相似度匹配，得到所述视觉媒体的第一视觉语义相似度；
126.如果所述语义分析得到的视觉语义信息包含查询目标相关的个性描述信息，并且所述视觉媒体的视觉语义个性信息包含个性标签信息，则将所述个性描述信息与所述个性标签信息，进行相似度匹配，得到所述视觉媒体的第二视觉语义相似度；
127.如果所述视觉媒体存在所述第二视觉语义相似度，则基于所述第一视觉语义相似度和第二视觉语义相似度，按照加权计算方法，得到所述视觉媒体的视觉语义相似度；否则，将所述第一视觉语义相似度，作为所述视觉媒体的视觉语义相似度。
128.在一种实施方式中，所述匹配模块602，具体用于当所述视觉媒体的视觉语义个性信息仅包含文本信息时，将该视觉语义信息与所述视觉媒体的视觉语义个性信息进行相似度匹配，包括：
129.将所述语义分析得到的视觉语义信息，与所述视觉媒体的视觉语义个性信息进行相似度匹配，得到所述视觉媒体的视觉语义相似度。
130.在一种实施方式中，所述装置进一步包括：
131.视觉媒体属性生成模块(图中未示)，用于在智能终端设备拍摄完所述视觉媒体后，基于当前登录用户的预设个性数据库，为所述视觉媒体生成所述属性数据，包括：
132.如果所述视觉媒体为照片，则基于该照片生成对应的视觉语义；
133.如果所述视觉媒体为视频，则基于该视频的关键帧生成对应的视觉语义；
134.基于所述视觉语义，查询当前登录用户的第一个性数据库，以识别所述视觉媒体中的拍摄对象与所述登录用户的关系，如果识别成功，则将识别出的所述关系作为个性标签，与所述视觉语义共同保存为所述视觉媒体的视觉语义个性信息；否则，将所述视觉语义保存为所述视觉媒体的视觉语义个性信息；所述第一个性数据库包括通讯数据库和/或图库；
135.基于所述视觉媒体的拍摄地点，查询当前登录用户的第二个性数据库，以识别所述拍摄地点与当前登录用户的关联信息，如果识别成功，则将所得到的关联信息作为个性标签，与所述拍摄地点共同保存为所述视觉媒体的地点个性信息；否则，将所述拍摄地点保存为所述视觉媒体的地点个性信息；所述第二个性数据库包括地点个性数据库；
136.基于所述视觉媒体的拍摄时间，查询当前登录用户的第三个性数据库，以识别所述时间信息与当前登录用户的关联信息，如果识别成功，则将所得到的关联信息作为个性标签，与所述拍摄时间共同保存为所述视觉媒体的时间个性信息；否则，将所述拍摄时间保存为所述视觉媒体的时间个性信息；所述第三个性数据库包括时间个性数据库。
137.根据上述视觉媒体个性化搜索方法实施例，本技术实施例实现了一种视觉媒体个性化搜索的设备，包括处理器和存储器；所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述的视觉媒体个性化搜索方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的cpu等来执行部分和全部实际操作，从而实现上述视觉媒体个性化搜索实施方式中任一实施方式的功能。
138.其中，存储器具体可以实施为电可擦可编程只读存储器(eeprom)、快闪存储器(flash memory)、可编程程序只读存储器(prom)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为cpu或mcu。
139.本技术实施例实现了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上所述的视觉媒体个性化搜索的步骤。
140.需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。
141.各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如fpga或asic)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和
时间上的考虑来决定。
142.在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”并不表示将本发明相关部分的数量限制为“仅此一个”，并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中，“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系，而非限定这些相关部分的绝对位置。
143.以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种业务代码提交方法、处理方法、装置及电子设备与流程

视觉媒体个性化搜索方法和装置与流程

相关文献

最热文献