一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置、存储介质及电子设备与流程

2023-02-12 09:42:19 来源:中国专利 TAG:

技术特征:
1.一种数据处理方法,其特征在于,所述方法包括:获取待识别的文本信息集合;调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据;对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。2.根据权利要求1所述的方法,其特征在于,所述调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据,包括:针对所述文本信息集合中各文本信息,调用预设的文本编码函数链,所述文本编码函数链包括关联的至少两个文本编码函数;按照所述文本编码函数链中文本编码函数的关联顺序关系,依次调用文本编码函数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数据。3.根据权利要求1所述的方法,其特征在于,所述调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据,包括:针对所述文本信息集合中各文本信息,调用预设的文本编码函数链集合,所述文本编码函数链集合包括关联的至少两个文本编码函数链,每个所述文本编码函数链包括关联的至少两个文本编码函数;按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系,依次调用文本编码函数链;按照所述文本编码函数链中文本编码函数的第二关联顺序关系,依次调用文本编码函数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数据。4.根据权利要求3所述的方法,其特征在于,通过以下方式生成所述文本编码函数链集合:确定宽度编码函数链的长度,枚举当前文本编码函数;枚举下一文本编码函数,所述下一文本编码函数与所述当前文本编码函数不同,在枚举过程中,当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等于所述宽度编码函数链的长度时,生成所述宽度编码函数链;将所述宽度编码函数链添加至文本编码函数链集合中。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:采集所标注的相似文本信息,并获取当前的搜索状态state(layer,link,codes),所述layer为当前文本编码函数的位置、所述link为1至layer-1之间的文本编码函数组成的文本编码函数链、所述codes为采用所述上一文本编码函数对各所述相似文本信息进行文本格式转换得到的第一字符格式数据;
搜索所述位置对应的当前文本编码函数,采用所述当前文本编码函数对各所述第一字符格式数据进行文本格式转换,得到各第二字符格式数据;当各所述第二字符格式数据全部相同时,将1至layer之间的文本编码函数作为深度编码函数链,将所述深度编码函数链添加至所述文本编码函数链集合中,所述深度编码函数链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。6.根据权利要求1所述的方法,其特征在于,所述待识别的文本信息集合包括待识别的账号集合,所述账号集合包括在预设时间内收集的用于身份认证的多个账号;则所述根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息,包括:根据聚类分析结果确定所述账号集合中各账号是否为垃圾账号。7.根据权利要求1所述的方法,其特征在于,所述对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息,包括:获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余文本信息;对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一文本编码函数链进行文本格式转换的字符格式数据集合进行分组,得到各所述文本编码函数链对应的分组结果;确定所述分组结果中各分组的字符格式数据的数量,确定所述数量大于或者等于数量阈值的目标分组;将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。8.一种数据处理装置,其特征在于,所述装置包括:文本获取模块,用于获取待识别的文本信息集合;格式转换模块,用于调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据;文本识别模块,用于对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。9.一种非暂态计算机可读存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的方法步骤。10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~7任意一项的方法步骤。

技术总结
本申请实施例公开了一种数据处理方法、装置、存储介质及电子设备,所述方法包括:获取待识别的文本信息集合;调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据;对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。因此,采用本申请实施例,通过文本编码函数进行文本格式转换就可对文本信息进行相似聚类而实现智能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患。进而降低了风险隐患。进而降低了风险隐患。


技术研发人员:吴珺
受保护的技术使用者:北京字节跳动网络技术有限公司
技术研发日:2021.06.02
技术公布日:2022/12/5
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献