应用账号的识别方法、装置、电子设备及可读存储介质与流程

2022-04-24 17:33:21 来源：中国专利 TAG：

1.本技术涉及互联网技术领域，具体而言，本技术涉及一种应用账号的识别方法、装置、电子设备及可读存储介质。

背景技术：

2.随着移动互联网内容从单一图文走向图文结合短视频，各种应用程序上也有越来越多的应用账号发布大量短视频内容，例如，微信平台上有越来越多的公众号发布视频。
3.各种应用程序中都会出现热搜词，针对热搜词出现了越来越多的应用账号发布与热搜词相关联的信息，如发布视频或图文信息进行引流，即seo(search engine optimization，搜索引擎优化)，因此，有必要对应用账号的类型进行识别。
4.目前，通常是针对应用账号发布的信息进行关键词以识别应用账号的类型，这种方式识别的准确率不够高。

技术实现要素：

5.本技术的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：
6.第一方面，提供了一种应用账号的识别方法，包括：
7.获取应用程序的至少一个目标热搜词，获取至少一个应用账号通过所述应用程序发布的至少一个第一内容信息的标题；
8.基于所述目标热搜词和所述第一内容信息的标题，确定所述应用账号属于特定类别的第一概率；
9.获取所述应用账号通过所述应用程序发布的至少一个第二内容信息，基于所述第二内容信息确定所述应用账号属于所述特定类别的第二概率；
10.基于所述第一概率和所述第二概率确定所述应用账号的类别。
11.在第一方面的可选实施例中，第一内容信息包括第一图文信息和视频中的至少一种；第二内容信息包括第二图文信息。
12.在第一方面的可选实施例中，基于所述目标热搜词和所述第一内容信息的标题，确定所述应用账号属于特定类别的第一概率，包括：
13.确定所述第一内容信息的标题与所述目标热搜词之间的语义相似度；
14.基于所述语义相似度，确定所述第一概率。
15.在第一方面的可选实施例中，确定所述第一内容信息的标题与所述目标热搜词之间的语义相似度，包括：
16.将所述第一内容信息的标题转化为标题向量，将所述目标热搜词转化为对应的热搜词向量；
17.确定所述标题向量和所述热搜词向量之间的语义相似度。
18.在第一方面的可选实施例中，将所述第一内容信息的标题转化为标题向量，包括：
19.将所述标题拆分为至少一个词语；
20.若拆分得到的词语数量大于或等于预设数量，则将所述标题中顺序在前的预设数量的词语转化为所述标题向量；
21.若拆分得到的词语数量小于所述预设数量，将所述标题中顺序在最后的一个词语进行重复，直至词语数量等于所述预设数量，将重复词语后的标题转化为所述标题向量。
22.在第一方面的可选实施例中，基于所述语义相似度，确定所述第一概率，包括：
23.确定所述至少一个第一内容信息的第一数量，确定所述至少一个目标热搜词的第二数量；
24.基于所述第一数量和所述第二数量中的最大值，对所确定的语义相似度进行归一化，得到所述第一概率。
25.在第一方面的可选实施例中，基于所述第二内容信息确定所述应用账号属于所述特定类别的第二概率，包括：
26.将所述第二内容信息转化为预设格式的文本信息；
27.对所述文本信息进行分词得到至少一个词语，获取与所述至少一个词语对应的词语向量；
28.将所述词语向量转换为待分类向量，对所述待分类向量进行分类，确定所述第二内容信息的类型；
29.基于所述应用账号发布的至少一个第二内容信息分别对应的类型，确定所述第二概率。
30.在第一方面的可选实施例中，将所述词语向量转换为待分类向量，包括：
31.获取所述词语向量中每相邻预设维度的数值的平均值；
32.基于所获取的平均值构建所述待分类向量。
33.在第一方面的可选实施例中，基于所述第一概率和所述第二概率识别确定所述应用账号的类别，包括：
34.基于预设权重对所述第一概率和所述第二概率进行融合，得到融合数值；
35.确定与所述融合数值对应的应用账号的类别。
36.在第一方面的可选实施例中，基于预设权重对所述第一概率和所述第二概率进行融合，得到融合数值，包括：
37.获取所述应用账号的注册时间，确定与所述注册时间对应的第三概率；
38.基于预设权重对所述第一概率、所述第二概率和所述第三概率进行融合，得到融合数值。
39.在第一方面的可选实施例中，所述目标热搜词为所述应用程序在预设时间段内的热搜词，所述第一内容信息为所述应用账号在预设时间段内通过所述应用程序所发布的。
40.第二方面，提供了一种应用账号的识别装置，包括：
41.获取模块，用于获取应用程序的至少一个目标热搜词，获取至少一个应用账号通过所述应用程序发布的至少一个第一内容信息的标题；
42.第一确定模块，用于基于所述目标热搜词和所述第一内容信息的标题，确定所述应用账号属于特定类别的第一概率；
43.第二确定模块，用于获取所述应用账号通过所述应用程序发布的至少一个第二内容信息，基于所述第二内容信息确定所述应用账号属于所述特定类别的第二概率；
44.识别模块，用于基于所述第一概率和所述第二概率确定所述应用账号的类别。
45.在第二方面的可选实施例中，第一内容信息包括第一图文信息和视频中的至少一种；第二内容信息包括第二图文信息。
46.在第二方面的可选实施例中，第一确定模块在基于所述目标热搜词和所述第一内容信息的标题，确定所述应用账号属于特定类别的第一概率时，具体用于：
47.确定所述第一内容信息的标题与所述目标热搜词之间的语义相似度；
48.基于所述语义相似度，确定所述第一概率。
49.在第二方面的可选实施例中，第一确定模块在确定所述第一内容信息的标题与所述目标热搜词之间的语义相似度时，具体用于：
50.将所述第一内容信息的标题转化为标题向量，将所述目标热搜词转化为对应的热搜词向量；
51.确定所述标题向量和所述热搜词向量之间的语义相似度。
52.在第二方面的可选实施例中，第一确定模块在将所述第一内容信息的标题转化为标题向量时，具体用于：
53.将所述标题拆分为至少一个词语；
54.若拆分得到的词语数量大于或等于预设数量，则将所述标题中顺序在前的预设数量的词语转化为所述标题向量；
55.若拆分得到的词语数量小于所述预设数量，将所述标题中顺序在最后的一个词语进行重复，直至词语数量等于所述预设数量，将重复词语后的标题转化为所述标题向量。
56.在第二方面的可选实施例中，第一确定模块在基于所述语义相似度，确定所述第一概率时，具体用于：
57.确定所述至少一个第一内容信息的第一数量，确定所述至少一个目标热搜词的第二数量；
58.基于所述第一数量和所述第二数量中的最大值，对所确定的语义相似度进行归一化，得到所述第一概率。
59.在第二方面的可选实施例中，第二确定模块在基于所述第二内容信息确定所述应用账号属于所述特定类别的第二概率时，具体用于：
60.将所述第二内容信息转化为预设格式的文本信息；
61.对所述文本信息进行分词得到至少一个词语，获取与所述至少一个词语对应的词语向量；
62.将所述词语向量转换为待分类向量，对所述待分类向量进行分类，确定所述第二内容信息的类型；
63.基于所述应用账号发布的至少一个第二内容信息分别对应的类型，确定所述第二概率。
64.在第二方面的可选实施例中，第二确定模块在将词语向量转换为待分类向量时，具体用于：
65.获取词语向量中每相邻预设维度的数值的平均值；
66.基于所获取的平均值构建待分类向量。
67.在第二方面的可选实施例中，识别模块在基于所述第一概率和所述第二概率识别
确定所述应用账号的类别时，具体用于：
68.基于预设权重对第一概率和第二概率进行融合，得到融合数值；
69.确定与融合数值对应的应用账号的类别。
70.在第二方面的可选实施例中，识别模块在基于预设权重对第一概率和第二概率进行融合，得到融合数值时，具体用于：
71.获取应用账号的注册时间，确定与注册时间对应的第三概率；
72.基于预设权重对第一概率、第二概率和第三概率进行融合，得到融合数值。
73.在第二方面的可选实施例中，目标热搜词为所述应用程序在预设时间段内的热搜词，所述第一内容信息为所述应用账号在预设时间段内通过所述应用程序所发布的。
74.第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本技术第一方面所示的应用账号的识别方法。
75.第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本技术第一方面所示的应用账号的识别方法。
76.本技术提供的技术方案带来的有益效果是：
77.根据应用程序的目标热搜词和应用账号发布的第一内容信息的标题，确定应用账号属于特定类别的第一概率，根据应用账号发布的第二内容信息，确定应用账号属于特定类别的第二概率，结合第一概率和第二概率识别应用账号的类别，既可以考虑到应用账号发布的标题与目标热搜词之间的关系，也可以考虑到应用账号发布的第二内容信息所对应的类别，可以提高应用账号的类别识别的准确率。
78.进一步的，通过将词语向量转化为待分类向量，可以结合相邻至少两个词语的语义，结合的至少两个词语可能具有关联性，得到的语义更加完善，可以提高分类结果的准确率，同时减少分类过程中的计算量。
79.进一步的，通过应用账号的注册时间确定应用账号属于特定类别的第三概率，根据第一概率、第二概率和第三概率识别应用账号的类别，可以进一步提高应用账号类别识别的准确率。
80.本技术附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
81.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
82.图1为本技术实施例提供的一种应用账号的识别方法的应用环境图；
83.图2为本技术实施例提供的一种应用账号的识别方法的流程示意图；
84.图3为本技术实施例提供的一种应用账号的识别方法的流程示意图；
85.图4为本技术实施例提供的示例中的将视频的标题中的词语数量设定为预设数量的方案示意图；
86.图5为本技术实施例提供的示例中对词语进行分类的方案的示意图；
87.图6为本技术实施例提供的示例中的对待分类向量进行分类的方案的示意图；
88.图7为本技术实施例提供的识别应用账号的类别的方案的示意图；
89.图8为本技术实施例提供的识别应用账号的类别的方案的示意图；
90.图9为本技术实施例提供的示例中的应用账号的识别方法的流程示意图；
91.图10为本技术实施例提供的一种应用账号的识别装置的结构示意图；
92.图11为本技术实施例提供的一种应用账号的识别的电子设备的结构示意图。
具体实施方式
93.下面详细描述本技术的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本技术，而不能解释为对本技术的限制。
94.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本技术的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
95.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
96.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
97.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
98.本技术可以通过自然语言处理技术，基于应用程序的目标热搜词、应用账号发布的第一内容信息的标题以及应用账号发布的第二内容信息，确定应用账号的类别。
99.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
100.本技术提供的应用账号的识别方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。
101.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述
技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
102.seo是利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名，目的是让其在行业内占据领先地位，获得品牌收益。很大程度上是网站经营者的一种商业行为，将自己或自己公司的排名前移。
103.本技术提供的应用账号的识别方法，可以应用于如图1所示的应用环境中。具体的，应用程序根据多个用户的搜索词生成目标热搜词，获取应用账号发布的第一内容信息的标题，并获取应用账号发布的第二内容信息，根据第二内容信息和第一内容信息标题，识别该应用账号的类型，例如判断是否为seo应用账号。
104.上述应用账号的识别方法可以在终端中进行，也可以应用于服务器。
105.本技术领域技术人员可以理解，这里所使用的“终端”可以是手机、平板电脑、pda(personal digital assistant，个人数字助理)、mid(mobile internet device，移动互联网设备)等；“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
106.本技术实施例中提供了一种可能的实现方式，如图2所示，提供了一种应用账号的识别方法，该方法可以应用于终端或服务器，可以包括以下步骤：
107.步骤s201，获取应用程序的至少一个目标热搜词，获取至少一个应用账号通过应用程序发布的至少一个第一内容信息的标题。
108.其中，热搜词是应用程序的热搜榜的词语，可以根据多个用户通过应用程序进行搜索时所输入的搜索词或搜索语句确定，热搜词不一定是词语的形式，可以是短语或语句的形式。
109.具体的，目标热搜词可以为应用程序在预设时间段内的热搜词，第一内容信息可以为应用账号在预设时间段内通过应用程序发布的。
110.其中，第一内容信息可以包括第一图文信息和视频中的至少一种，即可以是应用账号在预设时间段内在应用程序上发布的视频，也可以是应用账号在预设时间段内在应用程序上发布的第一图文信息，第一图文信息可以包括应用账号所发布的文章，文章中包含有文字信息，也可以包含有图像或视频。具体的，应用账号可以是开发者、用户或商家在应用程序的平台上所注册的账号，例如，应用程序是微信，则应用账号可以是公众号。
111.其中，预设时间段可以是更新得到当前的热搜词以及下一次热搜词更新之间的时间段，例如，热搜词每天更新一次，则预设时间段为当前的热搜词所对应的当天的时间段。
112.步骤s202，基于目标热搜词和第一内容信息的标题，确定应用账号属于特定类别的第一概率。
113.其中，特定类别可以是用于表示该应用账号发布视频的目的类别，例如，可以包括seo类别和非seo类别。
114.具体的，可以通过确定目标热搜词和第一内容信息的标题之间的语义相似程度，来确定属于特定类别的第一概率，具体的确定第一概率的过程，将在下文进行详细阐述。
115.步骤s203，获取应用账号通过应用程序发布的至少一个第二内容信息，基于第二内容信息确定应用账号属于特定类别的第二概率。
116.其中，第二内容信息可以是应用账号所发布的第二图文信息，第二图文信息也可以包括应用账号所发布的文章，文章中包含有文字信息，也可以包含有图像或视频。
117.具体的，第一图文信息和第二图文信息可以相同，也可以不同。
118.具体的，可以获取第二内容信息中的文本信息，对文本信息进行分类，得到第二概率，具体确定第二概率的过程，将在下文进行详细阐述。
119.步骤s204，基于第一概率和第二概率确定应用账号的类别。
120.具体的，可以对第一概率和第二概率进行融合，得到融合结果，根据融合结果识别应用账号的类别；还可以结合应用账号的注册时间和融合结果，识别应用账号的类别，具体识别应用账号的类别的过程，将在下文进行详细阐述。
121.本实施例提供的应用账号的识别方法，根据应用程序的目标热搜词和应用账号发布的第一内容信息的标题，确定应用账号属于特定类别的第一概率，根据应用账号发布的第二内容信息，确定应用账号属于特定类别的第二概率，结合第一概率和第二概率识别应用账号的类别，既可以考虑到应用账号发布的第一内容信息的标题与热搜词之间的关系，也可以考虑到应用账号发布的第二内容信息所对应的类别，可以提高应用账号的类别识别的准确率。
122.以下将结合具体实施例阐述确定第一概率的具体过程。
123.本技术实施例中提供了一种可能的实现方式，如图3所示，步骤s202的基于目标热搜词和第一内容信息的标题，确定应用账号属于特定类别的第一概率，可以包括：
124.步骤s210，确定第一内容信息的标题与目标热搜词之间的语义相似度。
125.具体的，可以将第一内容信息的标题和目标热搜词分别转化为对应的向量，计算向量之间的相似度，得到标题与目标热搜词之间的语义相似度。
126.在具体实施过程中，步骤s210的确定第一内容信息的标题与目标热搜词之间的语义相似度，可以包括：
127.(1)将第一内容信息的标题转化为标题向量，将目标热搜词转化为对应的热搜词向量。
128.以下将详细阐述标题转化为标题向量的过程。
129.具体的，将第一内容信息的标题转化为标题向量，可以包括：
130.a、将标题拆分为至少一个词语。
131.具体的，可以使用分词工具，例如开源的jieba分词(一种分词工具)对标题进行分词，得到多个词语，即词序列(words sequences)。
132.b、若拆分得到的词语数量大于或等于预设数量，则将标题中顺序在前的预设数量的词语转化为标题向量。
133.具体的，标题和目标热搜词的长度不一致，即得到的向量维度不一致，因此可以将标题固定转为预设维度的向量。
134.c、若拆分得到的词语数量小于预设数量，将标题中顺序在最后的一个词语进行重复，直至词语数量等于预设数量，将重复词语后的标题转化为标题向量。
135.例如，将单个词语映射为100维的向量，可以采用“多截少补”的方式将标题固定为20个词语：超过20个词语的选前20个词语，不足20个词语的采用重复补最后一个词语。
136.如图4所示，以预设数量为5个为例，若只有三个词语，则重复词语3，直至得到5个词语；若有6个词语，则取前面5个词语。
137.具体的，以100维向量、20个单词为例，则标题可以映射为100
×
20的二维向量，形
式化表示可以如下：
138.v
text
＝f
text
(x
text
)∈r
100
×
20
ꢀꢀ
(1)
139.其中，v
text
为转化后的标题向量；
140.上述描述的是针对标题的转化为向量的过程，对于目标热搜词，转化为热搜词向量的过程相同，也是将目标热搜词进行拆分，转化为预设维度的向量，也可以遵循上述的“多截少补”的方式。
141.具体的，通过上述多截少补的方式，在第一内容信息的数量较多且标题较长时可以有效减少计算量，且可以使得标题向量和热搜词向量的维度相同，即所包含的元素的数量相同，从而提高相似度计算的准确率。
142.(2)确定标题向量和热搜词向量之间的语义相似度。
143.具体的，可以采用余弦相似度算法来计算每一标题向量和每一热搜词向量之间的语义相似度，计算公式如下：
[0144][0145]
其中，v
title(x)
表示标题向量；v
query(y)
表示热搜词向量；v
title(x)_i
表示标题向量中的第i个元素；v
query(y)_i
表示热搜词向量中的第i个元素；i为自然数。
[0146]
步骤s220，基于语义相似度，确定第一概率。
[0147]
在具体实施过程中，可以根据第一内容信息的第一数量、目标热搜词的第二数量以及所确定的语义相似度，确定第一概率。
[0148]
具体的，步骤s220的基于所确定的语义相似度，确定第一概率，可以包括：
[0149]
(1)确定至少一个第一内容信息的第一数量，确定至少一个目标热搜词的第二数量；
[0150]
(2)基于第一数量和第二数量中的最大值，对所确定的语义相似度进行归一化，得到第一概率。
[0151]
具体的，可以采用如下公式：
[0152][0153]
其中，v
title(x)
表示标题向量；v
query(y)
表示热搜词向量；m表示热搜词的个数；k表示应用账号发布的视频的个数；m和k均为自然数。
[0154]
上述公式分子含义为若一个应用账号的第一内容信息的所有标题和当期热词榜中目标热搜词的数量越大，则说明判断两者之间的相关性的准确率更高，分母则是使用热词榜和当期应用账号新发视频个数的最大值做归一化，使其整体取值在0～1之间。
[0155]
上述实施例阐述了确定第一概率的过程，以下将结合具体实施例阐述确定第二概率的具体过程。
[0156]
本技术实施例中提供了一种可能的实现方式，步骤s203的基于第二内容信息确定应用账号属于特定类别的第二概率，可以包括：
[0157]
(1)将第二内容信息转化为预设格式的文本信息；
[0158]
(2)对文本信息进行分词得到至少一个词语，获取与至少一个词语对应的词语向量。
[0159]
具体的，可以采用如下步骤：
[0160]
a、检测文本信息的字体，将文本信息的字体转化为预设字体；例如，将繁体字转化为简体字；
[0161]
b、对文本信息进行分词；例如，进行ansj(一种分词算法)中文分词；
[0162]
c、去除分词后的预定字符，得到预设格式的文本信息；例如，过滤空白字符和标点符号，得到预设格式的文本信息。
[0163]
可以预先设置多个词语分别对应的词语向量，查询分词得到的多个词语分别对应的词语向量。
[0164]
(3)将词语向量转换为待分类向量，对待分类向量进行分类，确定第二内容信息的类型。
[0165]
具体的，将词语向量转换为待分类向量，可以包括：
[0166]
a、获取词语向量中每相邻预设维度的数值的平均值；
[0167]
b、基于所获取的平均值构建待分类向量。
[0168]
例如，不同的是(x1,x2,
…
,x
n-1
,xn)表示一个文本信息对应的n-gram(n维)向量，待分类向量可以选取每相邻两个元素的平均值，即可以是预设维度还可以是其他数量，比如3，比如选取每相邻三个元素的平均值。
[0169]
如图5所示，将词语1至词语n分别对应转化为(x1,x2,
…
,x
n-1
,xn)，并选取每相邻两个元素的平均值，得到将输入到分类模型，进行分类。
[0170]
具体的，通过将词语向量转化为待分类向量，可以结合相邻至少两个词语的语义，结合的至少两个词语可能具有关联性，得到的语义更加完善，可以提高分类结果的准确率，同时减少分类过程中的计算量。
[0171]
如图6所示，可以将待分类向量输入到分类模型，输出对应的分类结果，分类结果可以是第二内容信息对应为特定类型的概率，也可以是多个类型分别对应的概率。
[0172]
具体的，若概率大于等于预设阈值，则可以判该第二内容信息为特定类别；若对应概率小于预设阈值，则可以判定第二内容信息不属于特定类别。
[0173]
例如，应用账号为公众号、第二内容信息为文章、特定类别为广告类别，若一篇文章xi基于上述分类模型识别为广告类别的概率大于阈值k(例如k＝0.8)，即属于广告类别，如果有fastext(xi＝广告)》k，则认为公众号文章xi即为广告文章。
[0174]
(4)基于应用账号发布的至少一个第二内容信息分别对应的类型，确定第二概率。
[0175]
具体的，可以应用账号发布的所有第二内容信息中为特定类别的第二内容信息的数量，以及第二内容信息的总数量，根据特定类别的第二内容信息的数量和第二内容信息的总数量，确定第二概率。
[0176]
具体的，可以采用如下公式进行计算第二概率：
[0177]
[0178]
其中，brandprob表示第二概率，m表示应用账户所发布的识别为特定类别的第二内容信息的数量；t表示应用账户所发布的第二内容信息的总数量。
[0179]
上述实施例阐述了确定第二概率的过程，以下将结合具体实施例阐述根据第一概率和第二概率识别应用账号的类别的过程。
[0180]
在一种实施方式中，步骤s204的基于第一概率和第二概率识别确定账号的类别，可以包括：
[0181]
(1)基于预设权重对第一概率和第二概率进行融合，得到融合数值；
[0182]
(2)确定与融合数值对应的应用账号的类别。
[0183]
具体的，可以采用求加权和的方式，确定应用账号的类别，具体融合计算方式如下：
[0184]
s＝αrel(x，y) (1-α)brandprob
ꢀꢀꢀꢀ
(5)
[0185]
其中，s为融合数值；rel(x，y)为第一概率；brandprob为第二概率；α为预设权重。
[0186]
如图7所示，在本实施例中，根据应用账号发布的第一内容信息的标题和目标热搜词确定第一概率；根据应用账号发布的第二内容信息确定第二概率；根据第一概率和第二概率确定融合数值，并确定应用账号的类别。
[0187]
在另一种实施方式中，步骤s204的基于预设权重对第一概率和第二概率进行融合，得到融合数值，可以包括：
[0188]
(1)获取应用账号的注册时间，确定与注册时间对应的第三概率。
[0189]
在具体实施过程中，确定与注册时间对应的第三概率，可以包括：
[0190]
a、确定目标热搜词的生成时间，并确定应用账号的注册时间；
[0191]
b、若注册时间在生成时间之后，则确定注册时间与生成时间之间的时间差；
[0192]
c、基于时间差确定第三概率。
[0193]
具体的，应用账号的注册时间可以在目标热搜词生成的时间之后，第三概率与时间差负相关，即应用账号的注册时间与目标热搜词生成的时间之间的时间差越短，则第三概率越大。
[0194]
(2)基于预设权重对第一概率、第二概率和第三概率进行融合，得到融合数值。
[0195]
具体的，还可以融合注册时间，确定与注册时间对应的第三概率，例如可以根据注册时间与当前的热搜词之间的时间差，查询与时间差对应的第三概率，再采用求加权和的方式，确定应用账号的类别，具体融合计算方式如下：
[0196]
s＝αrel(x，y) βbrandprob γt
ꢀꢀ
(6)
[0197]
其中，s为融合数值；rel(x，y)为第一概率；brandprob为第二概率；t为第三概率；α、β和γ均为预设权重。
[0198]
如图8所示，在本实施例中，根据应用账号发布的第一内容信息的标题和目标热搜词确定第一概率；根据应用账号发布的第二内容信息确定第二概率；根据应用账号的注册时间确定第三概率；根据第一概率、第二概率和第三概率确定融合数值，并确定应用账号的类别。
[0199]
具体的，若融合数值大于预设数值，可以判定应用账号为特定类别；若融合数值小于预设数值，可以判定应用账号不属于特定类别。
[0200]
上述实施方式中，通过应用账号的注册时间确定应用账号属于特定类别的第三概
率，根据第一概率、第二概率和第三概率识别应用账号的类别，可以进一步提高应用账号类别识别的准确率。
[0201]
为了更好地理解上述应用账号的识别方法，如图9所示，以下详细阐述一个本发明的应用账号的识别方法的示例：
[0202]
在一个示例中，本技术提供的应用账号的识别方法，包括如下步骤：
[0203]
步骤s900，获取应用程序在预设时间段内的至少一个目标热搜词；
[0204]
步骤s901，获取待识别的应用账号通过应用程序发布的至少一个第一内容信息的标题；
[0205]
步骤s902，确定第一内容信息的标题与目标热搜词之间的语义相似度；
[0206]
步骤s903，基于所确定的语义相似度，确定应用账号属于特定类别的第一概率；
[0207]
步骤s904，将应用账号发布的第二内容信息转化为预设格式的文本信息；
[0208]
步骤s905，对文本信息进行分词得到多个词语，获取与多个词语对应的词语向量；
[0209]
步骤s906，将词语向量转换为待分类向量，对待分类向量进行分类，确定第二内容信息的类型；
[0210]
步骤s907，基于应用账号发布的至少一个第二内容信息分别对应的类型，确定第二概率；
[0211]
步骤s908，基于预设权重对第一概率和第二概率进行融合，得到融合数值；
[0212]
步骤s909，判断融合数值是否大于或等于预设数值；若是，则应用账号为特定类别；若否，则应用账号不属于特定类别。
[0213]
上述的应用账号的识别方法，根据应用程序的目标热搜词和应用账号发布的第一内容信息的标题，确定应用账号属于特定类别的第一概率，根据应用账号发布的第二内容信息，确定应用账号属于特定类别的第二概率，结合第一概率和第二概率识别应用账号的类别，既可以考虑到应用账号发布的标题与目标热搜词之间的关系，也可以考虑到应用账号发布的第二内容信息所对应的类别，可以提高应用账号的类别识别的准确率。
[0214]
进一步的，通过将词语向量转化为待分类向量，可以结合相邻至少两个词语的语义，结合的至少两个词语可能具有关联性，得到的语义更加完善，可以提高分类结果的准确率，同时减少分类过程中的计算量。
[0215]
进一步的，通过应用账号的注册时间确定应用账号属于特定类别的第三概率，根据第一概率、第二概率和第三概率识别应用账号的类别，可以进一步提高应用账号类别识别的准确率。
[0216]
本技术实施例中提供了一种可能的实现方式，如图10所示，提供了一种应用账号的识别装置100，该应用账号的识别装置100可以包括：获取模块1001、第一确定模块1002、第二确定模块1003和识别模块1004，其中，
[0217]
获取模块1001，用于获取应用程序的至少一个目标热搜词，获取至少一个应用账号通过应用程序发布的至少一个第一内容信息的标题；
[0218]
第一确定模块1002，用于基于目标热搜词和第一内容信息的标题，确定应用账号属于特定类别的第一概率；
[0219]
第二确定模块1003，用于用于获取应用账号通过应用程序发布的至少一个第二内容信息，基于第二内容信息确定应用账号属于特定类别的第二概率；
[0220]
识别模块1004，用于基于第一概率和第二概率确定应用账号的类别。
[0221]
本技术实施例中提供了一种可能的实现方式，第一内容信息包括第一图文信息和视频中的至少一种；第二内容信息包括第二图文信息。
[0222]
本技术实施例中提供了一种可能的实现方式，第一确定模块1002在基于目标热搜词和第一内容信息的标题，确定应用账号属于特定类别的第一概率时，具体用于：
[0223]
确定第一内容信息的标题与目标热搜词之间的语义相似度；
[0224]
基于语义相似度，确定第一概率。
[0225]
本技术实施例中提供了一种可能的实现方式，第一确定模块1002在确定第一内容信息的标题与目标热搜词之间的语义相似度时，具体用于：
[0226]
将第一内容信息的标题转化为标题向量，将目标热搜词转化为对应的热搜词向量；
[0227]
确定标题向量和热搜词向量之间的语义相似度。
[0228]
本技术实施例中提供了一种可能的实现方式，第一确定模块1002在将第一内容信息的标题转化为标题向量时，具体用于：
[0229]
将标题拆分为至少一个词语；
[0230]
若拆分得到的词语数量大于或等于预设数量，则将标题中顺序在前的预设数量的词语转化为标题向量；
[0231]
若拆分得到的词语数量小于预设数量，将标题中顺序在最后的一个词语进行重复，直至词语数量等于预设数量，将重复词语后的标题转化为标题向量。
[0232]
本技术实施例中提供了一种可能的实现方式，第一确定模块1002在基于语义相似度，确定第一概率时，具体用于：
[0233]
确定至少一个第一内容信息的第一数量，确定至少一个目标热搜词的第二数量；
[0234]
基于第一数量和第二数量中的最大值，对所确定的语义相似度进行归一化，得到第一概率。
[0235]
本技术实施例中提供了一种可能的实现方式，第二确定模块1003在基于第二内容信息确定应用账号属于特定类别的第二概率时，具体用于：
[0236]
将第二内容信息转化为预设格式的文本信息；
[0237]
对文本信息进行分词得到至少一个词语，获取与至少一个词语对应的词语向量；
[0238]
将词语向量转换为待分类向量，对待分类向量进行分类，确定第二内容信息的类型；
[0239]
基于应用账号发布的至少一个第二内容信息分别对应的类型，确定第二概率。
[0240]
本技术实施例中提供了一种可能的实现方式，第二确定模块1003在将词语向量转换为待分类向量时，具体用于：
[0241]
获取词语向量中每相邻预设维度的数值的平均值；
[0242]
基于所获取的平均值构建待分类向量。
[0243]
本技术实施例中提供了一种可能的实现方式，识别模块1004在基于第一概率和第二概率识别确定应用账号的类别时，具体用于：
[0244]
基于预设权重对第一概率和第二概率进行融合，得到融合数值；
[0245]
确定与融合数值对应的应用账号的类别。
industry standard architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0258]
存储器4003可以是rom(read only memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，ram(random access memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是eeprom(electrically erasable programmable read only memory，电可擦可编程只读存储器)、cd-rom(compact disc read only memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。
[0259]
存储器4003用于存储执行本技术方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。
[0260]
其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0261]
本技术实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本技术中的应用账号的识别方法可以提高应用账号的类别识别的准确率。
[0262]
应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0263]
需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于
由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
[0264]
上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
[0265]
上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。
[0266]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0267]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0268]
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，识别模块还可以被描述为“识别应用账号的类别的模块”。
[0269]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

应用账号的识别方法、装置、电子设备及可读存储介质与流程

相关文献

最热文献