表情符号预测方法、装置、设备及存储介质与流程

2022-12-03 02:48:27 来源：中国专利 TAG：

1.本技术实施例涉及人工智能技术领域，尤其涉及一种表情符号预测方法、装置、设备及存储介质。

背景技术：

2.网络改变的不仅仅是人类信息传播的速度和质量，还极大地丰富了人类表情传意的方式，形成了独特的网络语言，其中又以大量的非言语的表情符号(emoji)为其特征。表情符号用来生动呈现和描摹日常面对面交际中的非言语信息，使双方如闻其声，如见其人。随着多媒体内容的逐渐丰富，社交媒体等场景的视频或图像中出现越来越多的表情符号，其可以进行更丰富的表意，不同的表情符号会影响语义和语境的表达。
3.目前，支持用户对图像进行编辑，例如对图像进行标注，添加的标注信息可以包括文本信息和表情符号。对于标注信息包括文本信息和表情符号的图像，在对该类图像进行标注信息转录时，由于表情符号丰富多样且版本较多，难以通过键盘输入法输出对应的表情符号，相关技术中仅对图像中的文本信息转录，忽略表情符号，转录的信息不完整。

技术实现要素：

4.本技术实施例提供一种表情符号预测方法、装置、设备及存储介质，可预测图像的标注信息中包含的表情符号，保证对图像的标注信息转录的完整性。
5.第一方面，本技术实施例提供一种表情符号预测方法，包括：
6.获取目标图像和目标文本信息，所述目标图像为具有标注信息的图像，所述标注信息包括所述目标文本信息和表情符号；
7.根据所述目标图像、所述目标文本信息和预先训练的表情符号预测模型，确定所述标注信息的至少一个预测表情符号，其中，所述表情符号预测模型根据多个训练样本训练得到，每个所述训练样本包括样本图像和所述样本图像的标注信息，所述样本图像的标注信息包括文本标注信息和标注表情符号；
8.显示所述标注信息的至少一个预测表情符号。
9.可选的，所述方法还包括：
10.响应于用户从所述标注信息的至少一个预测表情符号中选择目标表情符号的操作，将所述目标文本信息和所述目标表情符号按照所述标注信息的分布顺序合并，得到目标标注信息；
11.显示所述目标标注信息。
12.可选的，所述获取目标图像和目标文本信息，包括：
13.接收输入的所述目标图像和目标文本信息。
14.可选的，所述根据所述目标图像、所述目标文本信息和预先训练的表情符号预测模型，确定所述标注信息的至少一个预测表情符号，包括：
15.将所述目标图像和所述目标文本信息组成prompt范式输入所述表情符号预测模
型，输出所述标注信息的至少一个预测表情符号，所述prompt范式结构中待填充的内容为待预测的表情符号。
16.可选的，所述表情符号预测模型包括图像特征提取模型和文本特征提取模型，所述将所述目标图像和所述目标文本信息组成prompt范式输入所述表情符号预测模型，输出所述标注信息的至少一个预测表情符号，包括：
17.将所述目标图像输入所述图像特征提取模型，输出所述目标图像的特征向量；
18.依次将所述目标文本信息和表情库中的每一表情符号按照所述prompt范式结构合并得到候选信息；
19.依次将每一所述候选信息输入所述文本特征提取模型，输出所述候选信息的特征向量；
20.分别计算所述目标图像的特征向量和所述候选信息的特征向量之间的余弦相似度，按照所述余弦相似度从大到小的顺序，选取前k个余弦相似度对应的候选信息，将所述k个候选信息中的表情符号作为所述标注信息的至少一个预测表情符号输出，所述k为正整数。
21.可选的，所述表情符号预测模型根据所述n个训练样本通过如下方式训练得到：
22.针对所述n个训练样本中的每一训练样本，以所述训练样本中的样本图像、所述样本图像的文本标注信息和所述样本图像的标注表情符号为所述表情符号预测模型的输入，得到所述样本图像的特征向量和所述样本图像的标注信息的特征向量；
23.根据所述n个样本图像的特征向量和所述n个样本图像的标注信息的特征向量之间的余弦相似度，构建损失函数；
24.根据所述损失函数调整所述表情符号预测模型的参数，以得到已训练的表情符号预测模型。
25.可选的，所述表情符号预测模型包括图像特征提取模型和文本特征提取模型，所述以所述训练样本中的样本图像和所述样本图像的标注信息为所述表情符号预测模型的输入，得到所述样本图像的特征向量和所述样本图像的标注信息的特征向量，包括：
26.以所述训练样本中的样本图像为所述图像特征提取模型的输入，所述图像特征提取模型输出所述样本图像的特征向量；
27.以所述样本图像的标注信息为所述文本特征提取模型的输入，所述文本特征提取模型输出所述样本图像的标注信息的特征向量。
28.第二方面，本技术实施例提供一种表情符号预测装置，包括：
29.获取模块，用于获取目标图像和目标文本信息，所述目标图像为具有标注信息的图像，所述标注信息包括所述目标文本信息和表情符号；
30.确定模块，用于根据所述目标图像、所述目标文本信息和预先训练的表情符号预测模型，确定所述标注信息的至少一个预测表情符号，其中，所述表情符号预测模型根据多个训练样本训练得到，每个所述训练样本包括样本图像和所述样本图像的标注信息，所述样本图像的标注信息包括文本标注信息和标注表情符号；
31.显示模块，用于显示所述标注信息的至少一个预测表情符号。
32.可选的，所述显示模块还用于：
33.响应于用户从所述标注信息的至少一个预测表情符号中选择目标表情符号的操
作，将所述目标文本信息和所述目标表情符号按照所述标注信息的分布顺序合并，得到目标标注信息；
34.显示所述目标标注信息。
35.可选的，所述获取模块用于：
36.接收输入的所述目标图像和目标文本信息。
37.可选的，所述确定模块用于：
38.将所述目标图像和所述目标文本信息组成prompt范式输入所述表情符号预测模型，输出所述标注信息的至少一个预测表情符号，所述prompt范式结构中待填充的内容为待预测的表情符号。
39.可选的，所述表情符号预测模型包括图像特征提取模型和文本特征提取模型，所述确定模块用于：
40.将所述目标图像输入所述图像特征提取模型，输出所述目标图像的特征向量；
41.依次将所述目标文本信息和表情库中的每一表情符号按照所述prompt范式结构合并得到候选信息；
42.依次将每一所述候选信息输入所述文本特征提取模型，输出所述候选信息的特征向量；
43.分别计算所述目标图像的特征向量和所述候选信息的特征向量之间的余弦相似度，按照所述余弦相似度从大到小的顺序，选取前k个余弦相似度对应的候选信息，将所述k个候选信息中的表情符号作为所述标注信息的至少一个预测表情符号输出，所述k为正整数。
44.可选的，所述表情符号预测模型根据所述n个训练样本通过如下方式训练得到：
45.针对所述n个训练样本中的每一训练样本，以所述训练样本中的样本图像、所述样本图像的文本标注信息和所述样本图像的标注表情符号为所述表情符号预测模型的输入，得到所述样本图像的特征向量和所述样本图像的标注信息的特征向量；
46.根据所述n个样本图像的特征向量和所述n个样本图像的标注信息的特征向量之间的余弦相似度，构建损失函数；
47.根据所述损失函数调整所述表情符号预测模型的参数，以得到已训练的表情符号预测模型。
48.可选的，所述表情符号预测模型包括图像特征提取模型和文本特征提取模型，所述以所述训练样本中的样本图像和所述样本图像的标注信息为所述表情符号预测模型的输入，得到所述样本图像的特征向量和所述样本图像的标注信息的特征向量，包括：
49.以所述训练样本中的样本图像为所述图像特征提取模型的输入，所述图像特征提取模型输出所述样本图像的特征向量；
50.以所述样本图像的标注信息为所述文本特征提取模型的输入，所述文本特征提取模型输出所述样本图像的标注信息的特征向量。
51.第三方面，本技术实施例提供一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行如第一方面或其各实现方式中的方法。
52.第四方面，本技术实施例提供一种计算机可读存储介质，用于存储计算机程序，计
算机程序使得计算机执行如第一方面或其各实现方式中的方法。
53.第五方面，本技术实施例提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。
54.综上，在本技术实施例中，通过根据多个训练样本训练表情符号预测模型，每个训练样本包括样本图像和样本图像的标注信息，样本图像的标注信息包括文本标注信息和标注表情符号，表情符号预测模型可学习到图像、图像的文本标注信息与图像的标注表情符号之间的对应关系，从而，在获取到图像和该图像的文本标注信息后，可根据图像、该图像的文本标注信息和预先训练的表情符号预测模型确定出该图像的标注信息的至少一个预测表情符号，并显示该图像的标注信息的至少一个预测表情符号。便于用户在对图像进行标注信息转录时从预测表情符号中选择对应的表情符号键入(如复制或剪切显示的其中某个预测表情符号)，解决了表情符号难以通过键盘输入法键入的问题，从而，实现了可预测图像的标注信息中包含的表情符号，保证对图像的标注信息转录的完整性。
55.进一步地，本技术实施例的方法中，还可响应于用户从标注信息的至少一个预测表情符号中选择目标表情符号的操作，将目标文本信息和目标表情符号按照标注信息的分布顺序合并，得到目标标注信息并显示，对于标注信息包括表情符号的图像，可直接高效地完整转录该类图像的标注信息，解决了表情符号难以通过键盘输入法正确键入的问题，实现表情符号输入的可用性。
附图说明
56.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
57.图1为本技术实施例提供的一种表情符号预测方法的应用场景示意图；
58.图2为本技术实施例提供的一种表情符号预测方法的流程图；
59.图3为本技术实施例提供的一种表情符号预测模型训练方法的流程图；
60.图4为本技术实施例提供的一种表情符号预测界面显示示意图；
61.图5为本技术实施例提供的一种表情符号预测装置的结构示意图；
62.图6是本技术实施例提供的电子设备的示意性框图。
具体实施方式
63.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
64.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆
盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
65.在介绍本技术技术方案之前，下面先对本技术相关知识进行介绍：
66.1、人工智能(artificial intelligence,ai)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本技术实施例提供的技术方案主要涉及人工智能中的自然语言处理技术以及机器学习/深度学习等。
67.2、计算机视觉技术(computer vision,cv)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
68.相关技术中，对于标注信息包括文本信息和表情符号的图像，在对该类图像进行标注信息转录时，由于表情符号丰富多样且版本较多，难以通过键盘输入法输出对应的表情符号，往往仅对图像中的文本信息转录，忽略表情符号，转录的信息不完整。
69.为了解决这一技术问题，本技术实施例中，通过根据多个训练样本训练表情符号预测模型，每个训练样本包括样本图像和样本图像的标注信息，样本图像的标注信息包括文本标注信息和标注表情符号，表情符号预测模型可学习到图像、图像的文本标注信息与图像的标注表情符号之间的对应关系，从而，在获取到图像和该图像的文本标注信息后，可根据图像、该图像的文本标注信息和预先训练的表情符号预测模型确定出该图像的标注信息的至少一个预测表情符号，并显示该图像的标注信息的至少一个预测表情符号。便于用户在对图像进行标注信息转录时从预测表情符号中选择对应的表情符号键入(如复制或剪切显示的其中某个预测表情符号)，解决了表情符号难以通过键盘输入法键入的问题，从而，实现了可预测图像的标注信息中包含的表情符号，保证对图像的标注信息转录的完整性。
70.进一步地，本实施例的方法中，还可响应于用户从标注信息的至少一个预测表情符号中选择目标表情符号的操作，将目标文本信息和目标表情符号按照标注信息的分布顺序合并，得到目标标注信息并显示，对于标注信息包括表情符号的图像，可直接高效地完整转录该类图像的标注信息，解决了表情符号难以通过键盘输入法正确键入的问题，实现表
情符号输入的可用性。
71.应理解的是，本技术技术方案可以应用于如下场景，但不限于：
72.示例性的，图1为本技术实施例提供的一种表情符号预测方法的应用场景示意图，如图1所示，该应用场景中涉及终端设备110和服务器120，终端设备110可以与服务器120进行通信。
73.在一些可实现方式中，图1所示的应用场景中还可以包括：基站、核心网侧设备等，此外，图1示例性地示出了一个终端设备、一台服务器，实际上可以包括其他数量的终端设备和服务器，本技术实施例对此不做限制。
74.在一些可实现方式中，图1中的服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器。本技术实施例对此不做限制。
75.在一些可实现方式中，如图1所示的终端设备110可以安装有应用客户端，当该应用客户端运行于终端设备中时，可以与服务器120进行数据交互。其中，例如，这里的客户端具体可以包括：车载客户端、智能家居客户端、游戏客户端、多媒体客户端(如视频客户端)、社交客户端以及资讯类客户端(如新闻客户端)。
76.可选的，本技术实施例中，终端设备110可以是一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备。终端设备110可以是智能手机、智能电视、平板电脑、车载终端等，但不限于此。
77.在一种可实现的方式中，服务器120和终端设备110可以通过交互的方式执行本技术实施例提供的表情符号预测方法，或者，可以由终端设备110执行本技术实施例提供的表情符号预测方法。
78.在表情符号预测模型训练阶段，服务器120或终端设备110使用本技术实施例提供的训练方法训练得到表情符号预测模型。
79.在表情符号预测阶段，在一种可实现的方式中，用户可以通过终端设备110中安装的客户端、浏览器客户端或即时通信客户端上传目标图像以及键入目标图像的标注信息中的目标文本信息，终端设备获取到目标图像和目标文本信息后，根据目标图像、目标文本信息和预先训练的表情符号预测模型，确定标注信息的至少一个预测表情符号，显示标注信息的至少一个预测表情符号。
80.在另一种可实现的方式中，本技术实施例提供的表情符号预测方法还可以是终端设备110与服务器120之间交互执行。例如，用户可以通过终端设备110中安装的客户端、浏览器客户端或即时通信客户端上传目标图像以及键入目标图像的标注信息中的目标文本信息，终端设备110获取到目标图像和目标文本信息后，将目标图像和目标文本信息发送至服务器120，由服务器120根据目标图像、目标文本信息和预先训练的表情符号预测模型，确定标注信息的至少一个预测表情符号，并将标注信息的至少一个预测表情符号发送至终端设备，由终端设备进行显示。
81.需要说明的是，表情符号预测模型的训练过程和表情符号预测过程可以在服务器中完成，也可以在终端设备中完成。可选的，可以将服务器中训练好的模型文件(model文件)移植到终端设备上，若需要进行表情符号预测，则将目标图像和目标文本信息输入到训
练好的模型文件(model文件)，通过运行模型文件即可得到目标图像的标注信息的至少一个预测表情符号。
82.本技术实施例提供的表情符号预测方法，可应用于对标注信息包括表情符号的该类图像进行完整信息的转录，解决了在对表情符号进行信息转录时，表情符号难以通过键盘输入法正确键入的问题，实现表情符号输入的可用性。
83.下面将对本技术技术方案进行详细阐述：
84.图2为本技术实施例提供的一种表情符号预测方法的流程图，该方法例如可以由如图1所示的终端设备110执行，但不限于此，如图2所示，该方法可以包括如下步骤：
85.s101、获取目标图像和目标文本信息，目标图像为具有标注信息的图像，标注信息包括目标文本信息和表情符号。
86.具体地，本技术实施例中，目标图像是具有标注信息的图像，该标注信息例如可以是用户在图像上编辑的标注信息，该标注信息不仅包括目标文本信息还包括表情符号。其中，表情符号(emoji)为现如今网络用户使用的表情符号，是一种独特的网络语言，表情符号可用于表达爱意、感谢、祝贺等等。表情符号多使用在即时通信会话中，表情符号用来生动呈现和描摹日常面对面交际中的非言语信息，使双方如闻其声，如见其人。举例而言，表情符号如“加油
‑”
、“可爱
‑”
和“捂脸
‑”
等等。
87.示例性地，例如用户对一风景图像编辑的标注信息为“太美了！”，又例如用户对一舞者跳舞的图像编辑的标注信息为“这跳的”，或者标注信息为“这跳的”，可以看出，标注信息“这跳的”与“这跳的”表达的语义不同。
88.在一种可实施的方式中，获取目标图像和目标文本信息，具体可以是：
89.接收输入的目标图像和目标文本信息。
90.其中，目标图像可以是用户输入图像地址后上传，目标文本信息可以是用户键入的。
91.s102、根据目标图像、目标文本信息和预先训练的表情符号预测模型，确定标注信息的至少一个预测表情符号，其中，表情符号预测模型根据多个训练样本训练得到，每个训练样本包括样本图像和样本图像的标注信息，样本图像的标注信息包括文本标注信息和标注表情符号。
92.具体来说，表情符号预测模型根据多个训练样本训练得到，每个训练样本包括样本图像和样本图像的标注信息，样本图像的标注信息包括文本标注信息和标注表情符号，通过模型训练，表情符号预测模型可学习到图像、图像的文本标注信息与图像的标注表情符号之间的对应关系，从而，在获取到图像和该图像的文本标注信息后，可根据图像、该图像的文本标注信息和预先训练的表情符号预测模型确定出该图像的标注信息的至少一个预测表情符号。
93.可选的，本技术实施例中的表情符号预测模型可以是基于prompt范式的transform模型，还可以是使用其它机器学习类算法的模型，如隐马尔科夫模型(hmm)。
94.可选的，根据目标图像、目标文本信息和预先训练的表情符号预测模型，确定标注信息的至少一个预测表情符号，具体可以为：
95.将目标图像和目标文本信息组成prompt范式输入表情符号预测模型，输出标注信息的至少一个预测表情符号，prompt范式结构中待填充的内容为待预测的表情符号。
96.具体来说，prompt本质上是对任务数据进行变换，将原本的目标、标签，做一个转换，融入到数据之中。这样的变换使得通过自然的自监督学习，就可以实现任务所需的目标。在本实施例中，具体是变换输入的目标图像和目标文本信息。
97.示例性地，将目标图像和目标文本信息组成prompt范式，组成的prompt范式可以是：目标图像目标文本信息此处需要转录的表情符号可能是【表情符号】，其中【】中的内容即为待填充的内容，本实施例中待填充的内容为待预测的表情符号。
98.可选的，本技术实施例中组成的prompt范式还可以是：目标图像目标文本信息此处需要转录的表情符号可能是【表情符号1】，【表情符号2】，【表情符号3】。还可以其它形式，本实施例对此不做限制。
99.在一种可实施的方式中，表情符号预测模型包括图像特征提取模型和文本特征提取模型，将目标图像和目标文本信息组成prompt范式输入表情符号预测模型，输出标注信息的至少一个预测表情符号，具体可以为：
100.s1021、将目标图像输入图像特征提取模型，输出目标图像的特征向量。
101.其中，可选的，图像特征提取模型可以是视觉转换器(vision transformer，vit)或深度残差网络(resnet50)。图像特征提取模型用于提取目标图像的特征向量。
102.s1022、依次将目标文本信息和表情库中的每一表情符号按照prompt范式结构合并得到候选信息。
103.具体地，依次将目标文本信息和表情库中的每一表情符号按照prompt范式结构合并得到候选信息，得到的候选信息可以为：“目标文本信息此处需要转录的表情符号可能是【候选表情符号】”，其中的候选表情符号为表情库中的任一表情符号。例如，表情库中的表情符号有200个，则通过s1022得到的候选信息为200个。
104.s1023、依次将每一候选信息输入文本特征提取模型，输出候选信息的特征向量。
105.其中，文本特征提取模型可以是基于transformer的双向编码器表示(bidirectional encoder representations from transformer，bert)网络模型，bert是一个预训练的语言表征模型。具体地，候选信息输入文本特征提取模型后，通过分词处理，经过文本特征提取模型提取文本特征向量，得到候选信息的特征向量，可选的，表情符号可以作为分词处理后的一个分词。
106.s1024、分别计算目标图像的特征向量和候选信息的特征向量之间的余弦相似度，按照余弦相似度从大到小的顺序，选取前k个余弦相似度对应的候选信息，将该k个候选信息中的表情符号作为标注信息的至少一个预测表情符号输出，k为正整数。
107.具体地，按照余弦相似度从大到小的顺序，选取排在前面的k个余弦相似度对应的候选信息，将该k个候选信息中的表情符号作为标注信息的至少一个预测表情符号输出。k可以是1，还可以是大于1的数值。
108.s103、显示标注信息的至少一个预测表情符号。
109.进一步地，本实施例的方法在s103之后，还可以包括：
110.s104、响应于用户从标注信息的至少一个预测表情符号中选择目标表情符号的操作，将目标文本信息和目标表情符号按照标注信息的分布顺序合并，得到目标标注信息。
111.具体地，标注信息的分布顺序是指目标文本信息和表情符号的分布顺序。
112.s105、显示目标标注信息。
113.本实施例提供的表情符号预测方法，通过根据多个训练样本训练表情符号预测模型，每个训练样本包括样本图像和样本图像的标注信息，样本图像的标注信息包括文本标注信息和标注表情符号，表情符号预测模型可学习到图像、图像的文本标注信息与图像的标注表情符号之间的对应关系，从而，在获取到图像和该图像的文本标注信息后，可根据图像、该图像的文本标注信息和预先训练的表情符号预测模型确定出该图像的标注信息的至少一个预测表情符号，并显示该图像的标注信息的至少一个预测表情符号。便于用户在对图像进行标注信息转录时从预测表情符号中选择对应的表情符号键入(如复制或剪切显示的其中某个预测表情符号)，解决了表情符号难以通过键盘输入法键入的问题，从而，实现了可预测图像的标注信息中包含的表情符号，保证对图像的标注信息转录的完整性。
114.图2所示的实施例中，表情符号预测模型是根据多个训练样本预先训练得到的，下面结合图3示出一种表情符号预测模型的训练方法，本技术实施例中，表情符号预测方法可通过图3所示的方法训练得到。
115.图3为本技术实施例提供的一种表情符号预测模型训练方法的流程图，该方法例如可以由如图1所示的终端设备110或服务器120执行，但不限于此，如图3所示，该方法可以包括如下步骤：
116.s201、获取n个训练样本，每个训练样本包括样本图像和样本图像的标注信息，样本图像的标注信息包括文本标注信息和标注表情符号。
117.具体来说，样本图像的标注信息可以是与图像相关的标注信息，该标注信息包括文本标注信息和标注表情符号，标注信息可以是从大量网络文本中选取的包含表情符号的文本。本实施例对此不做限制。样本图像可以是网络图片或用户拍摄图像，本实施例对此不做限制。
118.s202、针对n个训练样本中的每一训练样本，以训练样本中的样本图像、样本图像的文本标注信息和样本图像的标注表情符号为表情符号预测模型的输入，得到样本图像的特征向量和样本图像的标注信息的特征向量。
119.具体地，针对n个训练样本中的每一训练样本，通过s202得到每一训练样本中样本图像的特征向量和样本图像的标注信息的特征向量，最终得到n个样本图像的特征向量和n个样本图像的标注信息的特征向量。
120.可选的，表情符号预测模型包括图像特征提取模型和文本特征提取模型，s202中以训练样本中的样本图像和样本图像的标注信息为表情符号预测模型的输入，得到样本图像的特征向量和样本图像的标注信息的特征向量，具体可以为：
121.s2021、以训练样本中的样本图像为图像特征提取模型的输入，图像特征提取模型输出样本图像的特征向量。
122.可选的，图像特征提取模型可以是视觉转换器(vision transformer，vit)或深度残差网络(resnet50)。图像特征提取模型用于提取样本图像的特征向量。
123.s2022、以样本图像的标注信息为文本特征提取模型的输入，文本特征提取模型输出样本图像的标注信息的特征向量。
124.可选的，文本特征提取模型可以是基于transformer的双向编码器表示
(bidirectional encoder representations from transformer，bert)网络模型，bert是一个预训练的语言表征模型。文本特征提取模型用于提取样本图像的标注信息的特征向量。
125.s203、根据n个样本图像的特征向量和n个样本图像的标注信息的特征向量之间的余弦相似度，构建损失函数。
126.示例性地，本实施例中，n个训练样本包括了n个样本图像-标注信息对，每个标注信息中包括表情符号。例如n个样本图像经图像特征提取模型的输出为(i1、i2、，
…
，in)，in为样本图像的特征向量，维度为(n，di)，n个样本图像的标注信息经文本特征提取模型的输出为(t1、t2、，
…
，tn)，tn为样本图像的标注信息的特征向量，维度为(n，d
t
)，得到的(i1、i2、，
…
，in)和(t1、t2、，
…
，tn)中，样本图像与样本图像的标注信息是一一对应的，例如i1与t1对应，属于同一训练样本，i2与t2对应，属于同一训练样本，
…in
与tn对应，属于同一训练样本。而i1与t2不属于同一训练样本，如此以来，有n个属于同一训练样本的样本图像的特征向量和标注信息的特征向量对，有n
2-n个不属于同一训练样本的样本图像的特征向量和标注信息的特征向量对。
127.计算n个样本图像的特征向量和n个样本图像的标注信息的特征向量之间的余弦相似度，即，计算ii与tj之间的余弦相似度，根据ii与tj之间的余弦相似度构建损失函数。
128.s204、根据损失函数调整表情符号预测模型的参数，以得到已训练的表情符号预测模型。
129.具体地，根据损失函数调整表情符号预测模型的参数，以得到优化损失函数，优化损失函数可最大化n个属于同一训练样本的样本图像的特征向量和标注信息的特征向量之间的余弦相似度，最小化n
2-n个不属于同一训练样本的样本图像的特征向量和标注信息的特征向量之间的余弦相似度。
130.示例性地，优化损失函数可以为如下公式所示：
[0131][0132]
上述公式中，ii(i＝1
…
n)为样本图像的特征向量，tj(j＝1
…
n)为样本图像的标注信息的特征向量，ii·
tj为ii和tj之间的余弦相似度，上述公式的含义是n
2-n个不属于同一训练样本的样本图像的特征向量和标注信息的特征向量之间的余弦相似度之和减去n个属于同一训练样本的样本图像的特征向量和标注信息的特征向量之间的余弦相似度之和最小，从而使得优化损失函数可最大化n个属于同一训练样本的样本图像的特征向量和标注信息的特征向量之间的余弦相似度，最小化n
2-n个不属于同一训练样本的样本图像的特征向量和标注信息的特征向量之间的余弦相似度。
[0133]
本实施例提供的表情符号预测模型训练方法，通过根据多个训练样本训练表情符号预测模型，每个训练样本包括样本图像和样本图像的标注信息，样本图像的标注信息包括文本标注信息和标注表情符号，表情符号预测模型可学习到图像、图像的文本标注信息与图像的标注表情符号之间的对应关系，从而，训练得到的表情符号预测模型可实现预测图像的标注信息中包含的表情符号，便于转录标注信息时，保证对图像的标注信息转录的完整性。
[0134]
下面结合一个具体的实施例，对本技术实施例的技术方案进行详细说明。
[0135]
图4为本技术实施例提供的一种表情符号预测界面显示示意图，用户可以通过终端设备110中安装的客户端、浏览器客户端或即时通信客户端上传目标图像以及键入目标图像的标注信息中的目标文本信息，在上传目标图像以及键入目标图像的标注信息中的目标文本信息之前，通过终端设备打开此表情符号预测界面。结合图4，本实施例提供的表情符号预测方法可以包括：
[0136]
s301、接收输入的目标图像和目标文本信息，目标图像为具有标注信息的图像，标注信息包括目标文本信息和表情符号。
[0137]
具体地，本实施例的方法的执行主体可以是终端设备，用户通过图4所示的表情符号预测界面输入目标图像的地址，点击显示按钮后在当前界面显示如图4所示的目标图像，目标图像上的标注信息为“这跳的”，该标注信息包括目标文本信息“这跳的”和表情符号用户可通过图4所示的文字输入框输入目标文本信息“这跳的”，然后点击emoji推荐按钮，终端设备即可接收到输入的目标图像和目标文本信息。
[0138]
s302、将目标图像输入图像特征提取模型，输出目标图像的特征向量。
[0139]
s303、依次将目标文本信息和表情库中的每一表情符号按照prompt范式结构合并得到候选信息。
[0140]
s304、依次将每一候选信息输入文本特征提取模型，输出候选信息的特征向量。
[0141]
s305、分别计算目标图像的特征向量和候选信息的特征向量之间的余弦相似度，按照余弦相似度从大到小的顺序，选取前k个余弦相似度对应的候选信息，将该k个候选信息中的表情符号作为标注信息的预测表情符号输出。
[0142]
如图4所示，标注信息的预测表情符号为5个。
[0143]
s306、显示标注信息的预测表情符号。
[0144]
s307、响应于用户从标注信息的至少一个预测表情符号中选择目标表情符号的操作，将目标文本信息和目标表情符号按照标注信息的分布顺序合并，得到目标标注信息。
[0145]
具体地，如图4所示，显示的标注信息的预测表情符号有5个，其中一个表情符号为用户选择的目标表情符号。将目标文本信息和目标表情符号按照标注信息的分布顺序合并，得到的目标标注信息为“这跳的”。从而实现了对图像的标注信息的完整转录。
[0146]
s308、显示目标标注信息。
[0147]
图5为本技术实施例提供的一种表情符号预测装置的结构示意图，如图5所示，该表情符号预测装置可以包括：获取模块11、确定模块12和显示模块13。
[0148]
其中，获取模块11用于获取目标图像和目标文本信息，目标图像为具有标注信息的图像，标注信息包括目标文本信息和表情符号。
[0149]
确定模块12用于根据目标图像、目标文本信息和预先训练的表情符号预测模型，确定标注信息的至少一个预测表情符号，其中，表情符号预测模型根据多个训练样本训练得到，每个训练样本包括样本图像和样本图像的标注信息，样本图像的标注信息包括文本标注信息和标注表情符号，n为正整数。
[0150]
显示模块13用于显示标注信息的至少一个预测表情符号。
[0151]
可选的，显示模块13还用于：
[0152]
响应于用户从标注信息的至少一个预测表情符号中选择目标表情符号的操作，将目标文本信息和目标表情符号按照标注信息的分布顺序合并，得到目标标注信息；
[0153]
显示目标标注信息。
[0154]
可选的，获取模块11用于：
[0155]
接收输入的目标图像和目标文本信息。
[0156]
可选的，确定模块12用于：
[0157]
将目标图像和目标文本信息组成prompt范式输入表情符号预测模型，输出标注信息的至少一个预测表情符号，prompt范式结构中待填充的内容为待预测的表情符号。
[0158]
可选的，表情符号预测模型包括图像特征提取模型和文本特征提取模型，确定模块12用于：
[0159]
将目标图像输入图像特征提取模型，输出目标图像的特征向量；
[0160]
依次将目标文本信息和表情库中的每一表情符号按照prompt范式结构合并得到候选信息；
[0161]
依次将每一候选信息输入文本特征提取模型，输出候选信息的特征向量；
[0162]
分别计算目标图像的特征向量和候选信息的特征向量之间的余弦相似度，按照余弦相似度从大到小的顺序，选取前k个余弦相似度对应的候选信息，将k个候选信息中的表情符号作为标注信息的至少一个预测表情符号输出，k为正整数。
[0163]
可选的，表情符号预测模型根据n个训练样本通过如下方式训练得到：
[0164]
针对n个训练样本中的每一训练样本，以训练样本中的样本图像、样本图像的文本标注信息和样本图像的标注表情符号为表情符号预测模型的输入，得到样本图像的特征向量和样本图像的标注信息的特征向量；
[0165]
根据n个样本图像的特征向量和n个样本图像的标注信息的特征向量之间的余弦相似度，构建损失函数；
[0166]
根据损失函数调整表情符号预测模型的参数，以得到已训练的表情符号预测模型。
[0167]
可选的，表情符号预测模型包括图像特征提取模型和文本特征提取模型，以训练样本中的样本图像和样本图像的标注信息为表情符号预测模型的输入，输出样本图像的特征向量和样本图像的标注信息的特征向量，包括：
[0168]
以训练样本中的样本图像为图像特征提取模型的输入，图像特征提取模型输出样本图像的特征向量；
[0169]
以样本图像的标注信息为文本特征提取模型的输入，文本特征提取模型输出样本图像的标注信息的特征向量。
[0170]
应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图5所示的表情符号预测装置可以执行图2对应的方法实施例，并且表情符号预测装置中的各个模块的前述和其它操作和/或功能分别为了实现图2对应的方法实施例中的相应流程，为了简洁，在此不再赘述。
[0171]
上文中结合附图从功能模块的角度描述了本技术实施例的表情符号预测模型训练装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还
可以通过硬件和软件模块组合实现。具体地，本技术实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本技术实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成，或者用编码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。
[0172]
图6是本技术实施例提供的电子设备的示意性框图。该电子设备可以是上述方法实施例中的服务器。
[0173]
如图6所示，该电子设备可包括：
[0174]
存储器210和处理器220，该存储器210用于存储计算机程序，并将该程序代码传输给该处理器220。换言之，该处理器220可以从存储器210中调用并运行计算机程序，以实现本技术实施例中的方法。
[0175]
例如，该处理器220可用于根据该计算机程序中的指令执行上述方法实施例。
[0176]
在本技术的一些实施例中，该处理器220可以包括但不限于：
[0177]
通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
[0178]
在本技术的一些实施例中，该存储器210包括但不限于：
[0179]
易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，dr ram)。
[0180]
在本技术的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器210中，并由该处理器220执行，以完成本技术提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。
[0181]
如图6所示，该电子设备还可包括：
[0182]
收发器230，该收发器230可连接至该处理器220或存储器210。
[0183]
其中，处理器220可以控制该收发器230与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器230可以包括发射机和接收机。收发器230还可以进一步包括天线，天线的数量可以为一个或多个。
[0184]
应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数
据总线之外，还包括电源总线、控制总线和状态信号总线。
[0185]
本技术还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本技术实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。
[0186]
当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本技术实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，dvd))、或者半导体介质(例如固态硬盘(solid state disk，ssd))等。
[0187]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0188]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0189]
作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本技术各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。
[0190]
以上，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以该权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于redis的数据索引方法、系统及存储介质与流程

表情符号预测方法、装置、设备及存储介质与流程

相关文献

最热文献