一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

新媒体账号的地域标注方法、装置、设备及存储介质与流程

2022-02-22 08:40:35 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,特别涉及一种新媒体账号的地域标注方法、装置、设备及存储介质。


背景技术:

2.随着移动互联网的蓬勃发展,出现了越来越多的新媒体平台,像微信公众号、微博、抖音、快手等。这些新媒体平台的用户规模已经超过10亿,很多政府单位也纷纷开通多个新媒体平台的新媒体账号,以便能够更好地宣传政府部门的政策,传递人民群众的心声,形成良好的政民互动。但由于新媒体账号群体庞大,运营水平参差不齐,给网络监管部门带来很大的困难。
3.在对新媒体账号进行管理时,地域维度是一个常见并且很重要的一个维度。而各个新媒体平台对账号注册的要求不一样,导致账号数据的地域维度有缺失。


技术实现要素:

4.本公开实施例提供了一种新媒体账号的地域标注方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
5.第一方面,本公开实施例提供了一种新媒体账号的地域标注方法,包括:
6.根据新媒体账号的认证类型将新媒体账号分为第一类别和第二类别;
7.将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签;
8.根据预设的标注规则对第二类别的新媒体账号数据进行标注,得到标注好的地域标签。
9.在一个可选地实施例中,将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签之前,还包括:
10.构建训练数据集;
11.根据训练数据集训练地域标注模型,其中,地域标注模型为添加词频-逆文本频率指数的支持向量机模型。
12.在一个可选地实施例中,将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签,包括:
13.提取第一类别的新媒体账号数据的关键词,得到关键词列表;
14.统计关键词列表的词频-逆文本频率指数,生成词频矩阵;
15.将词频矩阵转化成文本向量;
16.将文本向量输入地域标注模型,得到标注好的地域标签。
17.在一个可选地实施例中,根据预设的标注规则,对第二类别的新媒体账号数据进
行标注,得到标注好的地域标签,包括:
18.获取第二类别的新媒体账号对应的登记机关、登记地址和统一社会信用代码;
19.根据登记机关、登记地址和统一社会信用代码对应的行政区划三级信息得到新媒体账号的地域标签。
20.在一个可选地实施例中,根据登记机关、登记地址和统一社会信用代码对应的行政区划三级信息得到新媒体账号的地域标签,包括:
21.根据登记机关获取行政区划三级信息,得到新媒体账号的地域标签;或,
22.根据登记地址获取行政区划三级信息,得到新媒体账号的地域标签;或,
23.根据统一社会信用代码获取行政区划三级信息,得到新媒体账号的地域标签。
24.在一个可选地实施例中,得到新媒体账号的地域标签之后,还包括:
25.根据登记地址对应的经纬度信息以及标准的行政区划信息对新媒体账号的地域标签进行校验。
26.在一个可选地实施例中,第一类别的新媒体账号包括政府账号、媒体账号、社会团体账号;第二类别的新媒体账号包括企业账号、个体工商户账号。
27.第二方面,本公开实施例提供了一种新媒体账号的地域标注装置,包括:
28.分类模块,用于根据新媒体账号的认证类型将新媒体账号分为第一类别和第二类别;
29.第一标注模块,用于将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签;
30.第二标注模块,用于根据预设的标注规则对第二类别的新媒体账号数据进行标注,得到标注好的地域标签。
31.第三方面,本公开实施例提供了一种新媒体账号的地域标注设备,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述实施例提供的新媒体账号的地域标注方法。
32.第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以实现上述实施例提供的一种新媒体账号的地域标注方法。
33.本公开实施例提供的技术方案可以包括以下有益效果:
34.根据本公开实施例提供的新媒体账号的地域标注方法,可以根据新媒体账号的认证类型,将政府账号、社会团体账号、媒体账号分为第一类别,将企业账号和个体工商户账号分为第二类别,对第一类别的新媒体账号采用预训练的机器学习模型进行地域标注,对第二类别的新媒体账号采用预设的标注规则进行地域标注,通过根据新媒体账号的不同类别采用不同的方法生成地域标签,可以兼顾各类新媒体账号地域标签的完整性和准确率。通过对政府、媒体、社会团体等新媒体账号进行地域标注,可以支持上层应用基于地域维度的数据分析,如按地区进行账号筛选,统计某个地区的发稿量和传播情况等。
35.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
36.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
37.图1是根据一示例性实施例示出的一种新媒体账号的地域标注方法的流程示意图;
38.图2是根据一示例性实施例示出的一种新媒体账号的地域标注方法的另一流程示意图;
39.图3是根据一示例性实施例示出的一种验证结果的示意图;
40.图4是根据一示例性实施例示出的一种验证结果的另一示意图;
41.图5是根据一示例性实施例示出的一种模型训练方法的流程示意图;
42.图6是根据一示例性实施例示出的一种模型在线推断的流程示意图;
43.图7是根据一示例性实施例示出的一种新媒体账号的地域标注装置的结构示意图;
44.图8是根据一示例性实施例示出的一种新媒体账号的地域标注设备的结构示意图;
45.图9是根据一示例性实施例示出的一种计算机存储介质的示意图。
具体实施方式
46.以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
47.应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
48.下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
49.在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
50.通常,各大新媒体平台对新媒体账号的注册要求不尽相同,无法从名称上得到完整的三级地域标签信息。例如,新媒体账号中包含很多政府单位注册的账号,如政府部门账号,还有很多社会团体账号等,这些账号的信息是无法通过查询工商注册信息得到的。而且政府机构的地域标签不能只是按照地址来进行地域标签划分,他们还有行政方面的层级关系,比如北京检察院的地址是“北京市东城区建国门北大街9号”,但北京检察院的地域标签不能是“北京市-东城区”,而应该只是“北京市”。因此,本技术实施例提供的新媒体账号的
地域标注方法,可以根据新媒体账号的类别,有针对性地采用不同的地域标注方法,大大提高了各类新媒体账号地域标签的完整性和准确率。
51.下面结合附图对本技术实施例提供的新媒体账号的地域标注方法进行详细介绍。图1是根据一示例性实施例示出的一种新媒体账号的地域标注方法的流程示意图,参见图1,该方法具体包括以下步骤。
52.s101根据新媒体账号的认证类型将新媒体账号分为第一类别和第二类别。
53.通常,在执行步骤s101之前,还包括从互联网平台获取待标注的新媒体账号数据。其中,本技术实施例中的新媒体账号可为微信公众号、微博账号、抖音账号、快手账号等社交账号。获取的新媒体账号数据包括账号的昵称信息、认证信息、简介信息、标签信息、单位名称信息、功能类型信息、认证原因信息等账号数据。
54.进一步地,根据新媒体账号数据中的认证信息将新媒体账号分为第一类别和第二类别,其中,第一类别的新媒体账号包括政府账号、社会团体账号和媒体账号,第二类别的新媒体账号包括企业账号和个体工商户账号。
55.s102将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签。
56.由于在新媒体账号中,账号主体类别非常繁杂,使用单一的方式对账号打地域标签是不可行的。为了提高标注的准确率,本技术实施例对不同类别的账号采用不同的标注方法。对于政府账号、媒体账号、社会团体账号的第一类别的账号,采用预训练的地域标注模型进行标注。
57.首先,构建训练数据集,根据构建的训练数据集训练地域标注模型。
58.具体地,可从互联网平台采集大量政府账号、媒体账号、社会团体账号,其中,政府账号、媒体账号、社会团体账号的比例可为1:1:1,本公开实施例对训练集的数据占比不做具体限制,可根据实际情况自行设定。然后对采集的训练数据进行标注,可采用手工与自动标注相结合的方式。例如首先利用手工方式标注5044条政府部门的单位层级标签及地域标签,地域标签包括中央、省级、市级、区县级四级行政区划标签,然后使用标准的支持向量机分类模型进行训练,使用此模型对另外的13000条数据进行预测。最后对这13000条预测结果进行人工校对,生成最终的训练集。
59.进一步地,对训练集中的数据进行预处理,包括对账号数据中的昵称信息、认证信息、简介信息、标签信息、单位名称信息、功能类型信息、认证原因信息等字段进行空值填充、字符串拼接、标签标准化等预处理操作,得到预处理后的训练数据集。
60.进一步地,使用jieba分词工具对预处理后的训练数据集进行分词处理,并提取第一类别的新媒体账号数据的关键词,得到关键词列表,统计关键词列表的词频-逆文本频率指数,生成词频矩阵,将词频矩阵转化成文本向量,将文本向量输入地域标注模型,进行模型训练。
61.在一种可能的实现方式中,模型训练方法如图5所示,该方法包括获取模型训练数据集,对数据进行预处理,使用jieba分词工具对预处理后的训练数据集进行分词、向量化、根据词频-逆文本频率指数抽取关键词,生成词频矩阵,将处理后的文本向量输入朴素贝叶斯分类模型、支持向量机分类模型、随机森林分类模型分别进行训练,选择并验证效果好的模型,保存模型,结束。
62.在一个实施例中,地域标注模型可为添加词频-逆文本频率指数的支持向量机模型。支持向量机(support vector machine,svm)模型在本技术实施例中的效果较好。
63.进一步地,得到训练好的地域标注模型之后,对模型进行验证,图3和图4是模型在验证集上的验证结果,根据验证结果可知,使用svm分类算法模型,准确率可以达到80%以上,极大地提高了标注的准确率。
64.进一步地,将第一类别的新媒体账号数据输入训练好的地域标注模型,得到标注好的地域标签。
65.具体地,获取第一类别的新媒体账号数据,例如获取“中国警察网”、“北京教育局”、“海淀区人民政府”等政府部分的新媒体账号数据,获取“红十字基金会”、“河洛商会”、“蓝天救援队”等社会团体的新媒体账号数据,获取“中国新闻网”、“央视新闻”、“人民日报”等媒体的新媒体账号数据。
66.进一步地,提取第一类别的新媒体账号数据的关键词,得到关键词列表。
67.具体地,对获取到的第一类别的新媒体账号数据进行预处理,去除非字符类型、昵称为空、重复等的异常数据,然后对预处理后的第一类别的新媒体账号数据中的昵称信息、认证信息、简介信息、标签信息、单位名称信息、功能类型信息、认证原因信息等字段内容进行拼接,使用jieba分词工具进行分词,去除停用词,提取关键词,得到关键词列表。
68.进一步地,统计关键词列表的词频-逆文本频率指数,生成词频矩阵。
69.其中,词频是某个词在这篇文章中出现的频率,频率越高越可能是关键字,逆向文档频率是这个词出现在其它文章的频率,把词频-逆文本频率指数相乘,就是这个词在该文章中的重要程度。
70.将词频矩阵转化成文本向量,将文本向量输入地域标注模型,得到标注好的地域标签。
71.具体地,将词频矩阵转化成文本向量,将文本向量输入训练好的地域标注模型,地域标注模型输出该账号对应的地域编号信息,根据输出的地域编号信息,查询行政区划词典,得到对应的地域标签。其中,中央级账号具有中央标签,省级账号具有省级标签,地市级账号具有省级、地市级标签,而区县级账号具有省级、市级、区县级三级地域标签。
72.图6是根据一示例性实施例示出的一种模型在线推断的流程示意图,如图6所示,模型在线推断的方法包括:连接数据库,获取待标注的新媒体账号数据,然后加载预先训练的地域标注模型。
73.进一步地,输入政府、社会团体、媒体账号信息,对账号信息中的空值、异常值等数据进行预处理。对政府、社会团体、媒体账号数据的文本进行处理,包括抽取账号昵称、简介、描述等字段信息,对抽取的字段信息进行分词,提取关键词,得到关键词列表。然后进行在线推断,包括统计关键词列表的词频-逆文本频率指数,生成词频矩阵,将词频矩阵转化成文本向量,将文本向量输入地域标注模型,进行模型推断,得到标注好的地域标签。
74.根据该步骤,可以采用训练好的地域标注模型自动对新媒体账号中的政府账号、媒体账号、社会团体账号进行地域标注。解决了手工标注效率低、标注难度大的问题。根据标注好的地域标签,可以实现按地区账号筛选、按地区内容推送,还可以进行地域维度的数据分析与统计,例如统计某个地区的发稿量等。
75.s103根据预设的标注规则对第二类别的新媒体账号数据进行标注,得到标注好的
地域标签。
76.在一种可能的实现方式中,对于企业、个体工商户的第二类别的新媒体账号数据采用预设的标注规则进行地域标注。
77.具体地,获取企业、个体工商户的账户数据,根据企业、个体工商户的账户数据查询其企业登记机关、登记地址以及统一社会信用代码,根据登记机关、登记地址和统一社会信用代码对应的行政区划三级信息得到新媒体账号的地域标签。
78.在一种可能的实现方式中,根据登记机关获取行政区划三级信息,得到新媒体账号的地域标签。通常,大量企业根据企业登记机关可以明确得到行政区划三级信息,如企业登记机关为“郑州市金水区工商行政管理局”,则给该企业打上地域标签分别为河南省、郑州市、金水区。
79.在一种可能的实现方式中,根据登记地址获取行政区划三级信息,得到新媒体账号的地域标签。例如,“中国检察出版社”的认证主体为“中国检察出版社有限公司”,注册地址为“北京市石景山区香山南路109号院1号楼7层”,则地域标签为北京市、石景山区。
80.在一种可能的实现方式中,根据统一社会信用代码获取行政区划三级信息,得到新媒体账号的地域标签。企业统一社会信用代码中的第3-8位为6位行政区划代码信息,根据该行政区划代码能够得到三级行政区划名称,从而得到企业的三级地域标签。
81.在一种可能的实现方式中,还包括根据登记机关获取行政区划三级信息,得到新媒体账号的地域标签,根据登记地址获取行政区划三级信息,得到新媒体账号的地域标签,根据统一社会信用代码获取行政区划三级信息,得到新媒体账号的地域标签,对上述三种方式得到的地域标签进行对比,若上述至少两种方式得到的地域标签相同,将至少两种方式得到的相同地域标签作为新媒体账号的地域标签。若上述三种方式得到的地域标签都不相同,根据登记地址对应的经纬度信息以及标准的行政区划信息得到新媒体账号的地域标签。
82.进一步地,得到新媒体账号的地域标签之后,还包括:根据登记地址对应的经纬度信息以及标准的行政区划信息对新媒体账号的地域标签进行校验。
83.在一种可能的实现方式中,若企业或个体工商户的账号信息中没有统一社会信用代码,或者无法查询到登记机关信息,或者标注的地域标签信息不标准,可以获取该企业的登记地址信息,根据登记地址信息的经纬度查询地图,与标准的行政区划数据进行校验,得到校验后的标准化地域标签。
84.根据该步骤,可以结合标准的行政区划数据对标注后的账号进行校验,进一步提高了地域标签的准确性以及标准化程度。
85.为了便于理解本技术实施例提供的新媒体账号的标注方法,下面结合附图2进行说明。如图2所示,该方法包括以下步骤。
86.首先,连接数据库,获取待标注的新媒体账号数据,然后加载预先训练的地域标注模型。
87.进一步地,获取新媒体账号的昵称信息、认证信息、简介信息、标签信息、单位名称信息、功能类型信息、认证原因信息等账号数据。对账号信息中的空值、异常值等数据进行预处理。
88.进一步地,根据账号数据中的认证类型,将账号分为企业、个体工商户、政府、社会
团体、媒体等账号类别,对不同的账号类别采用不同的标注方法。
89.具体地,对政府、社会团体、媒体账号进行文本处理,包括抽取账号昵称、简介、描述等字段信息,对抽取的字段信息进行分词,提取关键词,得到关键词列表。然后进行在线推断,包括统计关键词列表的词频-逆文本频率指数,生成词频矩阵,将词频矩阵转化成文本向量,将文本向量输入地域标注模型,进行模型推断,得到标注好的地域标签。
90.对企业、个体工商户账号信息进行处理,抽取账号昵称、账号主体等信息,对账号信息进行预处理,删除异常信息。然后采集账号信息对应的登记机关、登记地址、统一社会信用代码,根据采集的注册信息对应的三级行政区划得到标注好的地域标签。
91.根据本技术实施例提供的新媒体账号的地域标注方法,可以根据新媒体账号的认证类型,将政府账号、社会团体账号、媒体账号分为第一类别,将企业账号和个体工商户账号分为第二类别,对第一类别的新媒体账号采用预训练的机器学习模型进行地域标注,对第二类别的新媒体账号采用预设的标注规则进行地域标注,通过对不同类别的新媒体账号采用不同的方法生成地域标签,可以兼顾各类新媒体账号地域标签的完整性和准确率。
92.本公开实施例还提供一种新媒体账号的地域标注装置,该装置用于执行上述实施例的新媒体账号的地域标注方法,如图7所示,该装置包括:分类模块701、第一标注模块702、第二标注模块703。
93.分类模块701,用于根据新媒体账号的认证类型将新媒体账号分为第一类别和第二类别;
94.第一标注模块702,用于将第一类别的新媒体账号数据输入预先训练的地域标注模型,得到标注好的地域标签;
95.第二标注模块703,用于根据预设的标注规则对第二类别的新媒体账号数据进行标注,得到标注好的地域标签。
96.需要说明的是,上述实施例提供的新媒体账号的地域标注装置在执行新媒体账号的地域标注方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的新媒体账号的地域标注装置与新媒体账号的地域标注方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
97.本公开实施例还提供一种与前述实施例所提供的新媒体账号的地域标注方法对应的电子设备,以执行上述新媒体账号的地域标注方法。
98.请参考图8,其示出了本技术的一些实施例所提供的一种电子设备的示意图。如图8所示,电子设备包括:处理器800,存储器801,总线802和通信接口803,处理器800、通信接口803和存储器801通过总线802连接;存储器801中存储有可在处理器800上运行的计算机程序,处理器800运行计算机程序时执行本技术前述任一实施例所提供的新媒体账号的地域标注方法。
99.其中,存储器801可能包含高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口803(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
100.总线802可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器801用于存储程序,处理器800在接收到执行指令后,执行程序,前述本技术实施例任一实施方式揭示的新媒体账号的地域标注方法可以应用于处理器800中,或者由处理器800实现。
101.处理器800可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器800中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器800可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801,处理器800读取存储器801中的信息,结合其硬件完成上述方法的步骤。
102.本技术实施例提供的电子设备与本技术实施例提供的新媒体账号的地域标注方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
103.本技术实施例还提供一种与前述实施例所提供的新媒体账号的地域标注方法对应的计算机可读存储介质,请参考图9,其示出的计算机可读存储介质为光盘900,其上存储有计算机程序(即程序产品),计算机程序在被处理器运行时,会执行前述任意实施例所提供的新媒体账号的地域标注方法。
104.需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
105.本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的新媒体账号的地域标注方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
106.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
107.以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献