骤。
15.本技术一些实施例提供的技术方案带来的有益效果至少包括:
16.在本技术实施例中,通过获取待识别的文本信息集合,并调用预设的文本编码函数针 对文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符 格式数据,进而对转换结果进行聚类分析以识别文本信息集合中各文本信息是否为异常信 息。整个识别过程中不需要依赖人工的判断或标注,通过文本编码函数进行文本格式转换就 可对文本信息进行相似聚类而实现智能识别,识别过程快,可与黑产快速同步,进而降低了 风险隐患。
附图说明
17.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他的附图。
18.图1是本技术实施例提供的一种系统架构示意图;
19.图2是本技术实施例提供的一种数据处理方法的流程示意图;
20.图3是本技术实施例提供的另一种数据处理方法的流程示意图;
21.图4是本技术实施例提供的又一种数据处理方法的流程示意图;
22.图5是本技术实施例提供的一种垃圾账号识别过程的举例示意图;
23.图6是本技术实施例提供的一种数据处理装置的结构示意图;
24.图7是本技术实施例提供的一种数据处理装置的结构示意图;
25.图8是本技术实施例提供的一种计算机可读存储介质的示意图;
26.图9是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
27.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施例方式 作进一步地详细描述。
28.下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要 素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相 反,它们仅是如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例 子。
29.在本技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理 解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语 在本技术中的具体含义。此外,在本技术的描述中,除非另有说明,“多个”是指两个或两个 以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可 以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关 联对象是一种“或”的关系。
30.请参见图1,为本技术实施例提供了一种发文关键字段推送的系统架构图。如图1所 示,本技术实施例提供的数据处理方法可以应用于内容平台的场景中,所述内容平台中
存在 用户和文章内容这两个实体,其中,用户在内容平台中注册账号、发布或浏览文章内容,所 对应的实体结构可以具体划分为用户终端以及内容服务设备,用户终端可以包括多个,用户 终端与内容服务设备之间可以通过网络相互连接。
31.用户终端可以包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设 备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端可以叫做不 同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远 程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无 绳电话、个人数字处理(personal digital assistant,pda)、5g网络或未来演进网络中的终端 设备等;所述内容服务设备具体可以为搭载了内容平台,且对用户注册账号或者对用户产生 的文章内容或者相应的评论信息进行存储的后台服务设备,例如:服务器、服务集群等;文 章内容具体可以为由多媒体数据所组成的内容,多媒体数据可以包括但不限于视频、图片、 文字等。
32.本技术实施例以数据处理装置为执行主体,数据处理装置具体可以为系统架构中的内 容服务设备,也可以为内容服务设备中数据处理推送应用程序。
33.在用户终端上可安装目标应用app,点击该app图标后进入注册界面,通过用户的操 作可向内容服务设备请求注册登录账号,在注册通过后,用户可在用户终端上通过该登录账 号登录并访问内容服务设备。
34.对于内容服务设备而言,可记录每个注册的用户终端的账号、登录状态、文章评论、 发布的内容文章等信息,并可根据这些信息识别其中的异常信息。
35.下面将结合具体的实施例对本方案进行详细说明。
36.请参见图2,为本技术实施例提供的一种数据处理方法的流程示意图。如图2所示,本 申请实施例的所述方法可以包括以下步骤:
37.s101,获取待识别的文本信息集合;
38.可以理解的是,所述待识别的文本信息集合,可以包括至少一个待识别的文本信息。 所述文本信息可以包括用户账号、用户评论等。
39.每个用户可在内容平台上注册账号,并通过所注册的账号登录该内容平台。所述内容 平台可以为即时通讯应用平台、短视频应用平台或其他社交应用平台。每个账号对应唯一标 识,可通过文本信息的形式表示,具体可以为指定格式的字符串,如由汉字、数字、字母、 符号中的一种或多种组成。
40.每个用户评论即为用户对内容平台中作者所发布的文章内容输入的评论信息。每个用 户评论可通过文本信息的形式表示,具体可以为指定格式的字符串,如由汉字、数字、字 母、符号、表情包或者图片等中的一种或多种组成。
41.在可行的实现方式中,若所述文本信息集合为账号集合,数据处理装置遍历当前登录 内容平台的所有账号,将这些账号确定为待识别的账号集合;或者,数据处理装置遍历注册 该内容平台的所有账号,将这些账号确定为待识别的账号集合;或者,数据处理装置遍历在 预设时间内收集的用于身份认证的多个账号作为待识别的账号集合,其中,数据处理装置可 按照预设周期进行遍历。若所述文本信息集合为评论集合,可以单个文章内容为单位,读取 每个文章内容的评论,将所读取到的评论作为待识别的评论集合。
42.s102,调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格
式转 换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数 据;
43.所述文本编码函数用于将所述文本信息中的各字符按照设置的文本格式转换成另一种 格式的计算机可识别的字符格式数据,从而可以更容易地对转换后的字符格式数据进行相似 聚类分析。
44.常用的文本编码函数包括多种。第一种是字符到字符集的映射函数ctype,例如数字字 符映射成n、英文字符映射成e、中文字符映射成c,通过这个编码方式可以将文本映射成 一个由字符集代号组成的新文本。第二种是文本缩码的映射函数shrink,例如将aab映射 成ab,通过这个编码方式可以规避利用重复字符规避检测的行为。第三种是字符编号的变 换函数number,是指按照字符出现的次序,以数字作为代替,重新编码原字符串,例如香 气飘飘、细雨霖霖等相似文本都会被编码成1233的形式。其余还有n-gram,set和sort等其 他规则的编码函数。
45.number是指按照字符出现的次序,以数字作为代替,重新编码原字符串。
46.这里借用n-gram中对长文本信息(句子)做切片采样的方法,把文本信息切分成长度为 n的多个文本片段。
47.sort是指对一个文本信息中所有字符,按照字典序(中文字符也有相应序列关系)重新 排序,生成一个长度不变、字符顺序改变了的新文本信息。
48.例如,文本信息为香气飘飘,对应的各个字符为“香”“气”“飘”“飘”,编码函数为number,则 将“香”“气”“飘”“飘”依次转换为“1”“2”“3”“3”,因此,转换后的字符格式数据为1233。
49.其中,调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转 换,可以是调用单个的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转 换,可以是调用包含至少两个文本编码函数的文本编码函数链针对所述文本信息集合中各文 本信息进行文本格式转换,还可以是调用包含至少两个文本编码函数链的文本编码函数链集 合针对所述文本信息集合中各文本信息进行文本格式转换。
50.s103,对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类 分析结果确定所述文本信息集合中各文本信息是否为异常信息。
51.可以理解的是,所述聚类分析即为对转换后得到的字符格式数据进行分组,将相似的字 符格式数据分为一组,认为这些相似的字符格式数据对应的文本信息是一个黑产构建的异常 信息团伙。若某个字符格式数据不存在与其相似的字符格式数据,那么这个字符格式数据对 应的文本信息为正常文本信息。
52.例如,若待识别的文本信息集合包括待识别的账号集合,转换后的字符格式数据包括 编号分别为1、2、3、4、5的字符格式数据,若字符格式数据1、2和3相似,则确定字符 格式数据1、2和3对应的账号为垃圾账号,是一个黑产构建的垃圾账号团伙。
53.在本技术实施例中,通过获取待识别的文本信息集合,并调用预设的文本编码函数针对 文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格 式数据,进而对转换结果进行聚类分析以识别文本信息集合中各文本信息是否为异常信息。 整个识别过程中不需要依赖人工的判断或标注,通过文本编码函数进行文本格式转换就可对 文本信息进行相似聚类而实现智能识别,识别过程快,可与黑产快速同
步,进而降低了风险 隐患。
54.请参见图3,为本技术实施例提供的另一种数据处理方法的流程示意图。本实施例以应 用单个编码函数链对各文本信息进行文本格式转换为例进行说明。该数据处理方法可以包括 以下步骤:
55.s201,获取待识别的文本信息集合;
56.可以理解的是,所述待识别的文本信息集合,可以包括至少一个待识别的文本信息。 所述文本信息可以包括用户账号、用户评论等。
57.假设文本信息集合为s=(t1、t2、t3…
tn),t1、t2、t3…
tn分别为待识别的文本信 息,例如t1为“小圆圆2008”,由汉字 数字组成。
58.s202,针对所述文本信息集合中各文本信息,调用预设的文本编码函数链,所述文本 编码函数链包括关联的至少两个文本编码函数;
59.可以理解的是,文本编码函数链是指由至少两个文本编码函数组成的函数序列,各文 本编码函数之间包含一定的关联顺序关系。
60.例如,文本编码函数链l=(f1,f2,f3…fn
),f1~fn分别为单个的文本编码函数,f1是第一个文本编码函数,f1的下一个文本编码函数为f2,f2的下一个文本编码函数为 f3,
……
,fn为最后一个文本编码函数。每个文本编码函数,用于将文本信息转换成新的字 符格式。当然,同一个文本编码函数链中的文本编码函数可以部分相同,也可以完全不同。
61.s203,按照所述文本编码函数链中文本编码函数的关联顺序关系,依次调用文本编码 函数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编 码函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格 式数据;
62.具体实现中,按照文本编码函数链中文本编码函数的关联顺序关系,通过文本编码函 数逐层对文本信息进行文本格式转换。也就是说,确定当前文本编码函数,如f2,那么上 一个文本编码函数为f1,采用f1对文本信息t1进行文本格式转换,输出为code
11
,那么code
11
为f2的输入,从而输出code
12
,然后再将code
12
作为下一个文本编码函数的输入,依 次进行文本格式转换,那么,最后一个文本编码函数fn的输出code
1n
即为t1对应的字符格 式数据。
63.对于文本信息集合中所有的文本信息都按照上述方式进行处理,从而可以得到每个文 本信息ti采用同一文本编码函数链进行文本格式转换后的字符格式数据code
in
,即t1对应的 字符格式数据为code
1n
,t2对应的字符格式数据为code
2n
,
……
,tn对应的字符格式数据为 code
nn
。
64.s204,对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚 类分析结果确定所述文本信息集合中各文本信息是否为异常信息。
65.可以理解的是,聚类分析的过程即为对所转换的字符格式数据进行分组的过程,即将相 似的字符格式数据分为一组。那么,如果所分组的结果中包括多个字符格式数据,可认为这 些字符格式数据对应的文本信息为异常信息,且由同一个黑产生成。
66.例如,文本编码函数链s=(shrink,ctype,shrink),文本信息t1为“小圆圆2008”,通 过文本编码函数链逐层变换,依次变换成“小圆208”、“ccnnn”、“cn”,而其他文本信 息,如“小方2009”和“小角角201”等,通过该文本编码函数链变换后,最终都将被变换成同 一
种编码“cn”,因此,认为“小圆圆2008”、“小方2009”和“小角角201”是一个黑产构建的 垃圾文本信息团伙。
67.在本技术实施例中,通过包含至少两个文本编码函数的单个编码函数链对待识别的文本 信息逐层进行文本格式转换,并根据转换后的字符格式数据识别文本信息是否为异常信息, 整个识别过程中不需要依赖人工的判断或标注,通过文本编码函数进行文本格式转换就可智 能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患。此外,文本编码函数链由 多个文本编码函数组成,文本编码函数也不需要依赖于人工预先标记,通过对文本编码函数 排列组合就可以生成新的文本编码函数链,可以精确的识别文本信息,能够对抗变化多端的 黑产。文本编码函数链具有可拓展性和轻量级配置,通过添加一行函数组合方式就召回大批 异常文本信息,并能够发现传统识别方法无法检测到的隐蔽相似情形,从而提高了对异常文 本信息的召回率。
68.请参见图4,为本技术实施例提供的又一种数据处理方法的流程示意图。本实施例以文 本编码函数链集合中包括至少两个文本编码函数链为例进行说明。该数据处理方法可以包括 以下步骤:
69.s301,确定宽度编码函数链的长度,枚举当前文本编码函数;
70.可以理解的是,宽度编码函数链是指采用宽度优先搜索的方法生成的编码函数链。
71.所谓宽度优先搜索,是指首先设置一个阈值c来表示文本编码函数链的长度,然后通 过逐步枚举文本编码函数的方法来组合出不同的文本编码函数链。不同的宽度编码函数链, c可以取不同的值,当然也可以相同。
72.此外,对待生成的宽度编码函数链,还需要枚举第一个文本编码函数。
73.枚举的方式可以为在不同种类的文本编码函数集合中任意选择一个函数。而对于不同 的宽度编码函数链,第一个文本编码函数可以不同,当然也可以相同。
74.例如,文本编码函数集合包括10种文本编码函数,分别为f1、f2、
……
、f
10
,则可在 其中选择任一文本编码函数(如f2)作为第一个文本编码函数。
75.s302,枚举下一文本编码函数,所述下一文本编码函数与所述当前文本编码函数不 同,在枚举过程中,当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等 于所述宽度编码函数链的长度时,生成所述宽度编码函数链;
76.再枚举第一个文本编码函数的下一个文本编码函数。枚举原则为下一个文本编码函数 与第一个文本编码函数不同即可,以避免重复进行相同的文本格式转换,如下一个文本编码 函数可以为f1-f
10
中除f2之外的任一文本编码函数(如f5)。
77.若此时所有枚举的文本编码函数的数量未达到设定的长度c,则按照上述方式再不断 枚举下一个文本编码函数,直到文本编码函数的数量达到c。当数量到达c时,输出长度为 c的文本编码函数链,即生成了一个宽度编码函数链。
78.并可按照上述相同的方式进行枚举,从而生成多个宽度编码函数链。
79.s303,将所述宽度编码函数链添加至文本编码函数链集合中;
80.将上述生成的宽度编码函数链依次添加至文本编码函数链集合中,以便通过文本编码 函数链集合中的各宽度编码函数链对待识别的文本信息进行文本格式转换后识别。其中,所 生成的宽度编码函数链数量越多,对待识别的文本信息的识别结果更准确。通过
上述方式可 以枚举出大量的宽度编码函数链,极少会出现不能覆盖相似文本的情况。为了进一步提高识 别结果的准确率,可通过深度优先搜索的方法生成深度编码函数链,从而召回更多的有着相 似的潜藏文本特征的文本信息。
81.深度优先搜索过程具体如下:
82.s304,采集所标注的相似文本,并获取当前的搜索状态state(layer,link,code),所述 layer为当前编码函数的位置、所述link为1至layer-1之间的文本编码函数组成的文本编 码函数链、所述codes为采用所述上一文本编码函数对各所述相似文本信息进行文本格式转 换得到的第一字符格式数据;
83.假设相似文本信息为t={t1,t2,t3,t4,t5};并定义搜索状态为state(layer, link,code),layer表示文本编码函数链上当前文本编码函数的位置,link表示从第1个到 第layer-1个文本编码函数构成的链条,code表示按照link中各个文本编码函数的关联顺 序关系,将上一文本编码函数的输出作为当前文本编码函数的输入,逐层对t中各个文本信 息进行文本格式转换,得到最后一个文本编码函数输出的字符格式数据,其中包括t1, t2,t3,t4,t5分别对应的字符格式数据code1、code2、code3、code4、code5。
84.s305,搜索所述位置对应的当前编码函数,采用所述当前文本编码函数对各所述第一 字符格式数据进行文本格式转换,得到各第二字符格式数据;
85.当搜索到layer层对应的当前文本编码函数时,依次枚举文本编码函数,并采用当前枚 举到的文本编码函数对code中的所有字符格式数据(code1、code2、code3、code4、 code5)进行相应变换,从而得到layer层输出的字符格式数据code'1、code'2、code'3、 code'4、code'5。
86.其中,枚举文本编码函数的方式为,依次遍历文本编码函数集合中的各文本编码函 数,采用当前遍历到的文本编码函数对code中的所有第一字符格式数据进行文本格式转 换,得到第二字符格式数据。
87.s306,当各所述第二字符格式数据全部相同时,将1至layer之间的文本编码函数作 为深度编码函数链,将所述深度编码函数链添加至所述文本编码函数链集合中,所述深度编 码函数链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。
88.若转换后的第二字符格式数据全部相同(即code'1=code'2=code'3=code'4=code'5), 那么将当前遍历到的文本编码函数确定为当前文本编码函数,也就是待生成的文本编码函数 链中的最后一个文本编码函数;若转换后的第二字符格式数据不全部相同,则继续遍历文本 编码函数集合中的下一个文本编码函数,并按照上述相同的方式对code中的所有字符格式 数据进行文本格式转换,若所有的文本编码函数遍历完成后,转换后的字符格式数据仍不完 全相同,则可任选一文本编码函数作为当前文本编码函数,然后继续枚举下一个的文本编码 函数,直到code中的字符格式数据全部相等,则生成对应的文本编码函数链。
89.同样的,采集多个相似文本进行深度优先搜索,可以生成多个深度编码函数链,然后 将这些深度编码函数链添加至上述编码函数链集合中。
90.需要说明的是,可单独采用宽度优先搜索或深度优先搜索的方式也可以生成文本编码 函数链集合。当然,也可以先采用深度优先搜索的方式生成文本编码函数链集合,在
此基础 上,再采用宽度优先搜索的方式生成文本编码函数链进行补充。
91.s307,获取待识别的文本信息集合;
92.可以理解的是,所述待识别的文本信息集合,可以包括至少一个待识别的文本信息。 所述文本信息可以包括用户账号、用户评论等。
93.假设待识别的文本信息集合为x,x={x1,x2,x3…
},x1,x2,x3…
为各个待识别 的文本信息。
94.s308,针对所述文本信息集合中各文本信息,调用预设的文本编码函数链集合,所述 文本编码函数链集合包括关联的至少两个文本编码函数链,每个所述文本编码函数链包括关 联的至少两个文本编码函数;
95.可以理解的是,所述预设的文本编码函数链集合为上述通过宽度优先搜索和/或深度优 先搜索的方式生成的文本编码函数链集合。
96.假设该文本编码函数链集合为l=(l1,l2,l3…
),每个文本编码函数链lj中包括至 少两个文本编码函数,j表示文本编码函数链的序号,j=1,2,3
…
。lj可以为宽度编码函数 链,也可以为深度编码函数链。
97.该文本编码函数链集合包括至少两个文本编码函数链,例如,l=(l1,l2,l3),各个 文本编码函数链之间存在第一关联顺序关系,如l1为第一个文本编码函数链,l1的下一个 文本编码函数链为l2,l2的下一个文本编码函数链为l3。
98.每个文本编码函数链包括至少两个文本编码函数,例如,l1=(f1,f2,f3),l2= (f1,f2,f1,f4),l3=(f3,f2,f1,f4)。在同一个文本编码函数链中,各文本编码函数 之间存在第二关联顺序关系,如l1中的第一个文本编码函数为f1,f1的下一个文本编码函 数为f2,f2的下一个文本编码函数为f3。
99.s309,按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系,依次调 用文本编码函数链;
100.对于一个文本信息需采用文本编码函数链集合中的全部文本编码函数链进行文本格式 转换。采用每个文本编码函数链进行文本格式转换的过程是独立的,则按照各个文本编码函 数链的第一关联顺序关系,依次调用每个文本编码函数链。
101.s310,按照所述文本编码函数链中文本编码函数的第二关联顺序关系,依次调用文本编 码函数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本 编码函数的输入,获取最后一个文本编码函数输出 的字符格式数据作为文本信息对应的字符格式数据。
102.具体实现中,对于当前调用的文本编码函数链,依次调用该文本编码函数链中的各个 文本编码函数对文本信息进行转换处理,具体的,在调用过程中,将上一文本编码函数的输 出作为当前文本编码函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本 信息对应的字符格式数据。
103.例如,对x1按照l1,l2,l3…
的第一关联顺序关系,依次调用lj进行文本格式转换, 得到x1对应的字符格式数据为code
1,j
,j表示文本编码函数链的序号。
104.其中,对于当前调用的文本编码函数链l1,l1=(f1,f2,f3),按照f1,f2,f3的第 二关联顺序关系,先调用f1,采用f1对x1进行转换处理,输出code1,再调用f2,将 code1输入至f2中,输出code2,再调用f3,将code2输入至f3中,输出code3,那么 code3即为采用l1对x1进行文
本格式转换后得到的字符格式数据。
105.需要说明的是,对于其余文本信息x2,x3…
,同样的,采用文本编码函数链集合对x2进行文本格式转换,得到字符格式数据为code
2,j
,采用文本编码函数链集合对x3进行文本 格式转换,得到字符格式数据为code
3,j
,
…
,最终可得到每个文本信息对应的编码结果为 code
i,j
,i表示文本的序号,j表示文本编码函数链的序号,具体可用如下矩阵表示:
[0106][0107]
其中,每行表示采用不同的文本编码函数链对同一文本信息进行编码后的字符格式数 据,每列表示采用同一文本编码函数链对不同文本信息进行编码后的字符格式数据。
[0108]
s311,获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余 文本信息;
[0109]
可以理解的是,目标文本信息为文本信息集合中的任一文本信息。为了找到和目标文 本信息相似的文本信息,则需要将文本信息集合中的其余文本信息对应的字符格式数据与目 标文本信息对应的字符格式数据进行逐一比对。
[0110]
s312,对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一 文本编码函数链进行文本格式转换的字符格式数据集合进行分组,得到各所述文本编码函数 链对应的分组结果;
[0111]
每列可理解为不同层的编码结果,例如,code
1,1
、code
2,1
、
…
、code
i,1
表示第一层编 码结果,code
1,2
、code
2,2
、
…
、code
i,2
表示第二层编码结果。然后分别对每层编码结果中的 字符格式数据进行分组。
[0112]
例如,按照文本编码函数链的序号顺序分为第一层和第二层,且包括5个文本信息, 若第一层的分组结果是code
1,1
,code
4,1
,code
5,1
,(code
2,1
code
3,1
),第二层的分组结果为 code
1,2
,code
2,2
,code
4,2
,(code
3,2
code
5,2
)。
[0113]
s313,确定所述分组结果中各分组的字符格式数据的数量,确定所述数量大于或者等 于数量阈值的目标分组;
[0114]
完全相同的code分为一组,而分到同个组的字符格式数据及其对应的文本信息是一个 黑产构建的异常文本团伙,因此,当分组中只包括单个字符格式数据(code)时,表明不存 在相似的字符格式数据,该字符格式数据对应的文本信息大概率为正常文本信息。因此,剔 除每组分组结果中字符格式数据数量小于数量阈值的分组,那么所保留的字符格式数据数量 大于或者等于数量阈值的目标分组则为异常文本信息的分组。其中,数量阈值可为2、3等 大于1的任一值。在本技术实施例中,所述数量阈值为2。
[0115]
例如,在第一层的分组结果中保留(code
2,1
code
3,1
)的目标分组,在第二层的分组结 果中保留(code
3,2
code
5,2
)的目标分组。
[0116]
s314,将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。
[0117]
可见,上述保留的目标分组中,均有相同的code,因此,每个code对应的文本信息 均为异常信息。
[0118]
可选的,将所述目标分组中的字符格式数据对应的文本信息确定为异常信息之后,还 包括:
[0119]
在所述分组结果中,将包括至少两个字符格式数据的分组合并为一个分组,并将包括 一个字符格式数据的分组保持为一个分组,生成最终分组结果;
[0120]
将所述最终分组结果发送至服务器,以使所述服务器将所述最终分组结果作为训练样 本训练其他有监督模型。
[0121]
通过合并相似字符格式数据,来对异常文本信息进行团伙聚合。找到异常文本信息团 伙的意义在于,它可以帮助其他业务人员总结发现黑产规律,也可以作为其他有监督模型的 输入,在此不多赘述。
[0122]
由于函数链是相互独立的,可以采取依次分层合并的方式来划分异常文本信息团伙。 例如第一层的分组结果是(code
1,1
)(code
4,1
)(code
5,1
)(code
2,1
code
3,1
),第二层的分组 结果为(code
1,2
)(code
2,2
)(code
4,2
)(code
3,2
code
5,2
),则合并结果是(code1)(code4) (code
2 code
3 code5),然后将该合并结果与下一层分组结果进行合并,以此类推,直到所 有分组做完合并,并将最终的合并结果和/或单个的合并结果发送至服务器,以作为其他有 监督模型的输入样本,或者给业务人员做规则分析等。
[0123]
可选的,所述将所述目标分组中的字符格式数据对应的文本信息确定为异常信息之 后,还包括:
[0124]
确定所述目标分组中各文本被分配的分组数量,并获取所述文本编码函数链集合中文 本编码函数链的总数量;
[0125]
统计所有分组结果中,同一字符格式数据被分配的分组数量,即为该字符格式数据的 命中次数。
[0126]
例如,对于序列号为2的字符格式数据,仅分配至第一分组中,因此,对应的命中次 数为1;对于序列号为3的字符格式数据,同时被分配到第一分组和第二分组,因此,对应 的命中次数为2;对于序列号为5的字符格式数据,仅分配至第一分组中,因此,对应的命 中次数为1。
[0127]
另外,文本编码函数链的总数量为j,对应上述矩阵的列数。在上述举例中,j=2。
[0128]
计算所述分组数量与所述总数量的比值。
[0129]
计算每个文本信息对应的命中次数与文本编码函数链的总数量的比值,从而得到每个 文本信息的命中概率,所有的文本信息的命中概率都会被划归到0到1的得分区间。
[0130]
例如,对于序列号为2的文本信息,对应的命中概率为1/2;对于序列号为3的文本信 息,对应的命中概率为2/2;对于序列号为5的文本信息,对应的命中概率为1/2。
[0131]
可选的,计算比值的方法还可以为:获取所述文本编码函数链集合中各所述文本编码 函数链对应的权重系数,计算各所述权重系数的第一和值;确定所述目标分组中各字符格式 数据所属的分组,确定各字符格式数据所属的分组对应的目标文本编码函数链;计算各所述 目标文本编码函数链对应的权重系数的第二和值;计算所述第二和值与所述第一和值的比 值。
[0132]
同样的,所述比值也表示文本信息的命中概率。例如,每个文本编码函数链对应的权 重系数为w,w={w1,w2,w3,...},那么,每个文本信息的命中概率为(w1*l1 w2*l2 .... wj*lj)/(w1 w2 ... wj),lj=0或1,j=1,2,
…
,n。其中,lj=0表示某个文本信息通 过该文
本编码函数链进行文本格式转换后,分组结果中仅包括该字符格式数据。
[0133]
例如,通过序列号为1的文本编码函数链对各文本信息进行文本格式转换后,分组结 果为(code
1,1
code
4,1
code
5,1
code
2,1
code
3,1
),那么对于序列号为1、4、5的文本信息, l1=0,对于序列号为2、3的文本信息,l1=1。
[0134]
因此,可以得到每个文本信息对应的命中概率,当文本编码函数链的总数量越多时, 得到的命中概率更准确。
[0135]
将所述比值发送至处罚平台,所述比值用于指示所述处罚平台基于各所述比值对所述 目标分组中的字符格式数据对应的文本信息进行处罚处理。
[0136]
比值充当衡量文本信息异常程度的得分,通过设置经验阈值选取出得分过高的文本信息 作为垃圾文本信息,进行处罚。
[0137]
比值越大,表明该比值对应的文本信息的异常程序越严重。因此,可以理解的是,在 处罚平台侧预先保存了所设置的不同比值范围与不同处罚策略的对应关系,如表1所示,当 接收到数据处理装置发送的各文本信息的比值时,查找各比值所属比值范围,从而确定对应 的处罚策略,并根据该处罚策略对文本信息进行处罚、管理等。
[0138]
其中,所述处罚策略可以包括:禁止转发、禁止发表评论、禁止登陆一个月、封号以 及永久注销等。
[0139]
需要说明的是,表格中所列的具体比值范围仅仅作为参考举例,并不代表实际应用中 采取的数值。
[0140]
表1
[0141]
比值范围处罚策略0.0-0.2禁止转发0.2-0.4禁止发表评论0.4-0.6禁止登陆一个月0.6-0.8封号0.8-1.0永久注销
[0142]
在本技术实施例中,通过包含至少两个文本编码函数链的多个文本编码函数对待识别 的文本信息集合逐个进行文本格式转换,并根据转换后的字符格式数据识别相应的文本信息 是否为异常信息,整个识别过程中不需要依赖人工的判断或标注,通过编码函数进行文本模 式转换就可智能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患并可以节省人 工成本。同时,通过宽度优先搜索和/或深度优先搜索的方式生成大量的文本编码函数链样 本,可以精确的识别异常信息,能够对抗变化多端的黑产。文本编码函数链具有可拓展性和 轻量级配置,通过添加一行函数组合方式就召回大批垃圾账号,并能够发现传统文本方法无 法检测到的隐蔽相似情形,从而提高了召回率。此外,由于按照文本编码函数链进行文本格 式转换的过程只涉及对单个文本自身的计算,而不会涉及多个文本间的计算,所以很容易实 现并行化和分布式计算,当待识别的文本信息数量很大时,例如在某个内容平台每日登录的 全量账号上做昵称形似挖掘,就可以把大规模账号部署在分布式集群上进行快速计算,提高 了识别效率。另外,对所识别的异常信息计算异常程度得分或分组合并处理,为后续工作提 供了数据基础。
[0143]
下面将结合图5对本技术的流程进行说明。如图5所示,待识别的文本信息集合包
括 待识别的账号集合,待识别的账号集合为x,x=(x1、x2、
…
、xi),文本编码函数链集合 为l,l=(l1、l2、
…
、lj)。
[0144]
首先,从账号集合x中提取出编号为1的账号x1,并从文本编码函数链集合l中提取 出编号为1的文本编码函数链l1,采用l1对x1进行文本格式转换,得到x1对应的字符格 式数据code
1,1
;然后从文本编码函数链集合l中提取出编号为2的文本编码函数链l2,采 用l2对x1进行文本格式转换,得到x1对应的字符格式数据code
1,2
;按照编号顺序依次提 取文本编码函数链中的各文本编码函数链,直到提取编号为j的最后一个文本编码函数链 lj,采用lj对x1进行文本各式转换,得到x1对应的字符格式数据code
1,j
,从而得到采用文 本编码函数链l对x1进行文本格式转换后的字符格式数据集合code
1,1
、code
1,2
、
…
、 code
1,j
。
[0145]
再提取文本信息集合x中编号为2的文本信息x2,按照上述相同的方式,得到x2进 行文本格式转换后的字符格式数据集合code
2,1
、code
2,2
、
…
、code
2,j
。
[0146]
按照编号顺序依次提取文本信息集合x中的各文本信息,直到提取编号为i的最后一 个文本信息xi,按照上述相同的方式,得到xi进行文本格式转换后的字符格式数据集合 code
i,1
、code
i,2
、
…
、code
i,j
。
[0147]
最后,对采用同一文本编码函数链得到的字符格式数据进行分组,如图4中虚线框所 示,对code
1,1
、code
2,1
、
…
、code
i,1
分组,对code
1,2
、code
2,2
、
…
、code
i,2
分组,
…
,对code
1,j
、code
2,j
、
…
、code
i,j
分组。
[0148]
确定每个分组中,分为同一组的字符格式数据,那么该字符格式数据对应的文本信息 即为异常信息。
[0149]
下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例 中未披露的细节,请参照本技术方法实施例。
[0150]
请参见图6,其示出了本技术一个示例性实施例提供的数据处理装置的结构示意图。该 数据处理装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1 包括文本获取模块10、格式转换模块20和文本识别模块30。
[0151]
文本获取模块10,用于获取待识别的文本信息集合;
[0152]
格式转换模块20,用于调用预设的文本编码函数针对所述文本信息集合中各文本信息 进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对 应的字符格式数据;
[0153]
文本识别模块30,用于对所述文本信息集合中各文本信息对应的字符格式数据进行聚 类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。
[0154]
可选的,所述格式转换模块20,具体用于:
[0155]
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链,所述文本编码函 数链包括关联的至少两个文本编码函数;
[0156]
按照所述文本编码函数链中文本编码函数的关联顺序关系,依次调用文本编码函数对 文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码函数 的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数 据。
[0157]
可选的,所述格式转换模块20,具体用于:
[0158]
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链集合,所述文
本编 码函数链集合包括关联的至少两个文本编码函数链,每个所述文本编码函数链包括关联的至 少两个文本编码函数;
[0159]
按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系,依次调用文本 编码函数链;
[0160]
按照所述文本编码函数链中文本编码函数的第二关联顺序关系,依次调用文本编码函 数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码 函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式 数据。
[0161]
可选的,所述装置1还包括函数链集合生成模块40,用于:
[0162]
确定宽度编码函数链的长度,枚举当前文本编码函数;
[0163]
枚举下一文本编码函数,所述下一文本编码函数与所述当前文本编码函数不同,在枚 举过程中,当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等于所述宽 度编码函数链的长度时,生成所述宽度编码函数链;
[0164]
将所述宽度编码函数链添加至文本编码函数链集合中。
[0165]
可选的,所述函数链集合生成模块40,还用于:
[0166]
采集所标注的相似文本信息,并获取当前的搜索状态state(layer,link,codes),所 述layer为当前文本编码函数的位置、所述link为1至layer-1之间的文本编码函数组成 的文本编码函数链、所述codes为采用所述上一文本编码函数对各所述相似文本信息进行文 本格式转换得到的第一字符格式数据;
[0167]
搜索所述位置对应的当前文本编码函数,采用所述当前文本编码函数对各所述第一字 符格式数据进行文本格式转换,得到各第二字符格式数据;
[0168]
当各所述第二字符格式数据全部相同时,将1至layer之间的文本编码函数作为深度 编码函数链,将所述深度编码函数链添加至所述文本编码函数链集合中,所述深度编码函数 链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。
[0169]
可选的,所述待识别的文本信息集合包括待识别的账号集合,所述账号集合包括在预 设时间内收集的用于身份认证的多个账号;所述文本识别模块30,具体用于:
[0170]
根据聚类分析结果确定所述账号集合中各账号是否为垃圾账号。
[0171]
可选的,所述文本识别模块30,具体用于:
[0172]
获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余文本信 息;
[0173]
对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一文本编 码函数链进行文本格式转换的字符格式数据集合进行分组,得到各所述文本编码函数链对应 的分组结果;
[0174]
确定所述分组结果中各分组的字符格式数据的数量,确定所述数量大于或者等于数量 阈值的目标分组;
[0175]
将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。
[0176]
可选的,所述装置还包括结果发送模块50,用于:
[0177]
在所述分组结果中,将包括至少两个字符格式数据的分组合并为一个分组,并将包括 一个字符格式数据的分组保持为一个分组,生成最终分组结果;
[0178]
将所述最终分组结果发送至服务器,以使所述服务器将所述最终分组结果作为训练样 本训练其他有监督模型。
[0179]
需要说明的是,上述实施例提供的数据处理装置在执行数据处理方法时,仅以上述各 功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能 模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功 能。另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其实现过 程详见方法实施例,这里不再赘述。
[0180]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0181]
在本技术实施例中,通过包含至少两个文本编码函数链的多个文本编码函数对待识别 的文本信息集合逐个进行文本格式转换,并根据转换后的字符格式数据识别相应的文本信息 是否为异常信息,整个识别过程中不需要依赖人工的判断或标注,通过编码函数进行文本模 式转换就可智能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患并可以节省人 工成本。同时,通过宽度优先搜索和/或深度优先搜索的方式生成大量的文本编码函数链样 本,可以精确的识别异常信息,能够对抗变化多端的黑产。文本编码函数链具有可拓展性和 轻量级配置,通过添加一行函数组合方式就召回大批垃圾账号,并能够发现传统文本方法无 法检测到的隐蔽相似情形,从而提高了召回率。此外,由于按照文本编码函数链进行文本格 式转换的过程只涉及对单个文本自身的计算,而不会涉及多个文本间的计算,所以很容易实 现并行化和分布式计算,当待识别的文本信息数量很大时,例如在某个内容平台每日登录的 全量账号上做昵称形似挖掘,就可以把大规模账号部署在分布式集群上进行快速计算,提高 了识别效率。另外,对所识别的异常信息计算异常程度得分或分组合并处理,为后续工作提 供了数据基础。
[0182]
本技术实施例还提供了一种非暂态计算机可读存储介质,所述计算机存储介质可以存 储有多条指令,所述指令适于由处理器加载并执行如上述所示实施例的方法步骤,具体执行 过程可以参见图1-图6所示实施例的具体说明,在此不进行赘述。
[0183]
图8是根据本技术的实施例的计算机可读存储介质的示意图。如图8所示,根据本申 请实施例的计算机可读存储介质,其上存储有非暂态计算机可读指令310。当该非暂态计算 机可读指令310由处理器运行时,执行前述的全部或部分步骤。
[0184]
请参见图9,为本技术实施例提供了一种电子设备的结构示意图。如图9所示,所述电 子设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003, 存储器1005,至少一个通信总线1002。
[0185]
其中,通信总线1002用于实现这些组件之间的连接通信。
[0186]
其中,用户接口1003可以包括显示屏(display)、摄像头(camera),可选用户接口 1003还可以包括标准的有线接口、无线接口。
[0187]
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
[0188]
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线 路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程 序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功 能和处理数据。可选的,处理器1001可以采用数字信号处理(digital signal processing, dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程
逻辑阵列 (programmable logic array,pla)中的至少一种硬件形式来实现。处理器1001可集成中 央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu) 和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用 程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线 通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片 进行实现。
[0189]
其中,存储器1005可以包括随机存储器(random access memory,ram),也可以包 括只读存储器(read-only memory)。可选的,该存储器1005包括非瞬时性计算机可读介质 (non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代 码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可 存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、 图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方 法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器 1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系 统、网络通信模块、用户接口模块以及数据处理应用程序。
[0190]
在图9所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获 取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的数据处理应用程序, 并具体执行以下操作:
[0191]
获取待识别的文本信息集合;
[0192]
调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将 各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据;
[0193]
对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析 结果确定所述文本信息集合中各文本信息是否为异常信息。
[0194]
在一个实施例中,所述处理器1001在执行调用预设的文本编码函数针对所述文本信息 集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据, 得到各文本信息对应的字符格式数据时,具体执行以下操作:
[0195]
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链,所述文本编码函 数链包括关联的至少两个文本编码函数;
[0196]
按照所述文本编码函数链中文本编码函数的关联顺序关系,依次调用文本编码函数对 文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码函数 的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数 据。
[0197]
在一个实施例中,所述处理器1001在执行调用预设的文本编码函数针对所述文本信息 集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据, 得到各文本信息对应的字符格式数据时,具体执行以下操作:
[0198]
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链集合,所述文本编 码函数链集合包括关联的至少两个文本编码函数链,每个所述文本编码函数链包括关联的至 少两个文本编码函数;
[0199]
按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系,依次调用文本 编码函数链;
[0200]
按照所述文本编码函数链中文本编码函数的第二关联顺序关系,依次调用文本编码函 数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码 函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式 数据。
[0201]
在一个实施例中,所述处理器1001通过以下方式生成所述文本编码函数链集合:
[0202]
确定宽度编码函数链的长度,枚举当前文本编码函数;
[0203]
枚举下一文本编码函数,所述下一文本编码函数与所述当前文本编码函数不同,在枚 举过程中,当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等于所述宽 度编码函数链的长度时,生成所述宽度编码函数链;
[0204]
将所述宽度编码函数链添加至文本编码函数链集合中。
[0205]
在一个实施例中,所述处理器1001还执行以下操作:
[0206]
采集所标注的相似文本信息,并获取当前的搜索状态state(layer,link,codes),所 述layer为当前文本编码函数的位置、所述link为1至layer-1之间的文本编码函数组成 的文本编码函数链、所述codes为采用所述上一文本编码函数对各所述相似文本信息进行文 本格式转换得到的第一字符格式数据;
[0207]
搜索所述位置对应的当前文本编码函数,采用所述当前文本编码函数对各所述第一字 符格式数据进行文本格式转换,得到各第二字符格式数据;
[0208]
当各所述第二字符格式数据全部相同时,将1至layer之间的文本编码函数作为深度 编码函数链,将所述深度编码函数链添加至所述文本编码函数链集合中,所述深度编码函数 链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。
[0209]
在一个实施例中,待识别的文本信息集合包括待识别的账号集合,所述账号集合包括 在预设时间内收集的用于身份认证的多个账号;所述处理器1001在执行根据聚类分析结果 确定所述文本信息集合中各文本信息是否为异常信息,具体执行以下操作:
[0210]
根据聚类分析结果确定所述账号集合中各账号是否为垃圾账号。
[0211]
在一个实施例中,所述处理器1001在执行对所述文本信息集合中各文本信息对应的字 符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异 常信息时,具体执行以下操作:
[0212]
获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余文本信 息;
[0213]
对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一文本编 码函数链进行文本格式转换的字符格式数据集合进行分组,得到各所述文本编码函数链对应 的分组结果;
[0214]
确定所述分组结果中各分组的字符格式数据的数量,确定所述数量大于或者等于数量 阈值的目标分组;
[0215]
将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。
[0216]
在一个实施例中,所述处理器1001在执行将所述目标分组中的字符格式数据对应的文 本信息确定为异常信息之后,还执行以下操作:
[0217]
在所述分组结果中,将包括至少两个字符格式数据的分组合并为一个分组,并将包括 一个字符格式数据的分组保持为一个分组,生成最终分组结果;
[0218]
将所述最终分组结果发送至服务器,以使所述服务器将所述最终分组结果作为训练样 本训练其他有监督模型。
[0219]
在本技术实施例中,通过包含至少两个文本编码函数链的多个文本编码函数对待识别 的文本信息集合逐个进行文本格式转换,并根据转换后的字符格式数据识别相应的文本信息 是否为异常信息,整个识别过程中不需要依赖人工的判断或标注,通过编码函数进行文本模 式转换就可智能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患并可以节省人 工成本。同时,通过宽度优先搜索和/或深度优先搜索的方式生成大量的文本编码函数链样 本,可以精确的识别异常信息,能够对抗变化多端的黑产。文本编码函数链具有可拓展性和 轻量级配置,通过添加一行函数组合方式就召回大批垃圾账号,并能够发现传统文本方法无 法检测到的隐蔽相似情形,从而提高了召回率。此外,由于按照文本编码函数链进行文本格 式转换的过程只涉及对单个文本自身的计算,而不会涉及多个文本间的计算,所以很容易实 现并行化和分布式计算,当待识别的文本信息数量很大时,例如在某个内容平台每日登录的 全量账号上做昵称形似挖掘,就可以把大规模账号部署在分布式集群上进行快速计算,提高 了识别效率。另外,对所识别的异常信息计算异常程度得分或分组合并处理,为后续工作提 供了数据基础。
[0220]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过 计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该 程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光 盘、只读存储记忆体或随机存储记忆体等。
[0221]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围, 因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些
本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。