一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

消息识别方法、装置、设备及存储介质与流程

2022-04-13 12:35:10 来源:中国专利 TAG:


1.本技术涉及互联网技术领域,特别涉及一种消息识别方法、装置、设备及存储介质。


背景技术:

2.随着计算机技术的发展和终端功能的多样化,社交类应用提供了一种便于用户之间进行交流的社交平台,在社交平台上可以通过消息交互来达到交流目的。例如,社交平台提供了一种基于模板的消息交互方式,用户可以调用社交平台所提供的固定模板,基于该固定模板所规定的排版以及信息类型等,在固定模板的基础上进行编辑,以便生成待推送的消息。有一些恶意用户会利用这类消息来进行一些恶意行为,例如发广告、进行欺诈等等,对用户造成了不必要的骚扰,还可能会对用户的财产安全造成威胁。
3.在相关技术中,为了避免对用户造成骚扰或者财产安全的威胁,社交平台的服务器会对待下发的消息内容进行识别,具体识别方法可以包括:将获取到的大量消息作为文本直接输入到文本识别模型中,由该识别模型对文本进行识别,以确定消息是否为恶意消息。
4.在上述过程中,由于待识别的消息的数量级大,导致服务器在识别过程中的计算量大,需要耗费大量的数据处理资源,且,由于被识别的是消息的完整文本,其中会夹杂很多冗余信息,例如格式类的信息,导致识别的准确率和效率较低。


技术实现要素:

5.本技术实施例提供了一种消息识别方法、装置、设备及存储介质,提高了消息识别的准确率和效率。所述技术方案如下:
6.一方面,提供了一种消息识别方法,所述方法包括:
7.获取第一消息,所述第一消息基于模板生成;
8.确定指纹样本,所述指纹样本包括基于目标类型的样本消息得到的多个参考字符串,所述多个参考字符串用于表示所述样本消息的编辑文本内容;
9.获取所述第一消息所包括的多个字符串,所述多个字符串用于表示所述第一消息的编辑文本内容;
10.对所述多个参考字符串和所述多个字符串进行匹配,得到匹配结果,响应于所述匹配结果符合目标条件,确定所述第一消息属于所述目标类型。
11.另一方面,提供了一种消息识别装置,所述装置包括:
12.消息获取模块,用于获取第一消息,所述第一消息基于模板生成;
13.样本确定模块,用于确定指纹样本,所述指纹样本包括基于目标类型的样本消息得到的多个参考字符串,所述多个参考字符串用于表示样本消息的编辑文本内容;
14.字符串获取模块,用于获取所述第一消息所包括的多个字符串,所述多个字符串用于表示所述第一消息的编辑文本内容;
15.匹配模块,用于对所述多个参考字符串和所述多个字符串进行匹配,得到匹配结果;
16.类型确定模块,用于响应于所述匹配结果符合目标条件,确定所述第一消息属于所述目标类型。
17.在一种可选的实现方式中,所述匹配结果符合目标条件是指:
18.匹配成功的参考字符串的数量大于或等于目标数量;
19.匹配成功的参考字符串的数量占所述多个参考字符串的数量的比例大于或等于目标比例。
20.在一种可选的实现方式中,所述装置还包括:
21.对比模块,用于周期性对比第一指纹集合和第二指纹集合,所述第一指纹集合包括所述目标类型的指纹样本,所述第二指纹集合包括非目标类型的指纹样本;
22.删除模块,用于若所述第一指纹集合与所述第二指纹集合中存在重合的指纹样本,则从所述第一指纹集合中删除所述重合的指纹样本。
23.在一种可选的实现方式中,所述装置还包括:
24.样本消息获取模块,用于获取所述模板的样本消息,所述样本消息属于所述目标类型;
25.删除模块,用于删除所述样本消息中的无意义字符,在删除位置填充目标符号,得到多个第一样本字符串,每两个所述第一样本字符串以所述目标符号为分隔;
26.所述删除模块,还用于删除所述多个第一样本字符串中目标样本字符串,所述目标样本字符串为两个所述目标符号之间字数不满足字数阈值的字符串,得到多个第二样本字符串;
27.参考字符串获取模块,用于从所述多个第二样本字符串中获取所述多个参考字符串。
28.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行以实现本技术实施例中消息识别方法中所执行的操作。
29.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行以实现如本技术实施例中消息识别方法中所执行的操作。
30.另一方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的消息识别方法。
31.本技术实施例提供的技术方案带来的有益效果是:
32.在本技术实施例中,提供了一种消息识别方法,对于基于模板生成的消息,可以获取这类模板的指纹样本,也即是能够表示消息中编辑文本内容的多个参考字符串,来与消息中的对应字符串进行匹配,以确定该消息是否属于目标类型。通过采用表示编辑文本内容的字符串之间的匹配,减少了消息识别过程中数据处理的计算量,不需要进行大量的模型计算,且指纹样本的维护代价小,且,这种方式,充分利用了基于消息模板生成的消息具
有相似或相同语法结构的特征,匹配准确率高,提高了消息识别的准确率和效率。
附图说明
33.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是根据本技术实施例提供的消息识别方法的实施环境示意图;
35.图2是根据本技术实施例提供的一种消息识别方法的流程图;
36.图3是根据本技术实施例提供的另一种消息识别方法的流程图;
37.图4是根据本技术实施例提供的一种指纹样本获取方法的流程图;
38.图5是根据本技术实施例提供的一种消息识别装置的框图;
39.图6是根据本技术实施例提供的一种服务器的结构示意图。
具体实施方式
40.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
41.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
42.下面介绍一下本技术实施例提供的消息识别方法的实施环境,图1是根据本技术实施例提供的消息识别方法的实施环境示意图。该实施环境包括:终端101和服务器102。
43.终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。可选的,终端101是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端101能够安装和运行有应用程序。可选的,该应用程序是社交应用程序,该社交应用程序能够提供会话功能等社交相关功能。示意性的,终端101是用户使用的终端,终端101中运行的应用程序内登录有用户的用户账号。
44.服务器102为社交应用平台的服务器,社交应用平台是指一种通过社交关系和/或共同兴趣(或共同利益)将人与人之间联系起来的网络架构,用户可以通过该社交应用平台所提供的客户端进行日常交流以及处理一些日常事务。每个用户可以拥有用于为该社交应用平台上其他用户所辨识的网络身份。
45.在社交应用平台上,不同用户之间可以通过互相确认的方式以建立社交关系,例如,互相加好友或互相关注等。当两个用户建立了社交关系后,他们成为彼此的社交网络联系人。一组用户可以通过自行选择的方式,以形成具有彼此之间的社交关系,从而形成一个社交群组。该群组内的每个成员都是该群组内所有其他成员的社交网络联系人。
46.用户或组织可以在社交应用平台上建立一个公共社交网络标识,并允许公众(例如,在社交应用平台上的任何用户)与该公共社交网络标识在社交应用平台上进行交流,该交流可以基于一种单向确认的方式,而无需用户之间互相确认。例如,用户可以选择订阅公
共社会网络标识(例如,“跟随”公共社会网络身份)消息或发布信息,通过如订阅这类的单向确认方式,成为公共社会网络标识的社交网络联系人。公共社交网络身份的拥有者还可以将订阅了其消息或发布信息的其他用户作为其社交网络联系人。社交应用平台为这类公共社交网络标识提供消息模板,以便该类公共社交网络标识基于消息模板来生成消息,从而进行消息的批量推送,与该公共社交网络标识具有社交关系的用户标识则可以接收到被批量推送的消息。
47.社交应用平台上的每个用户和每个公共社会网络标识均具有社交网络联系人列表,以供其与其列表中的用户或公共社会网络标识采用即时通信消息等形式进行交流。例如,在一个社交群组内的用户可以通过社交应用平台提供的接口进行相互通信,而用户之间也可以通过社交应用平台提供的接口进行相互通信。
48.该服务器102能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
49.可选的,在消息识别过程中,服务器102承担主要计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,服务器102或终端101分别能够单独承担计算工作。
50.可选的,终端101泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员能够知晓,上述终端101的数量能够更多。比如上述终端101为几十个或几百个,或者更多数量,此时上述消息识别方法的实施环境还包括其他终端。本技术实施例对终端的数量和设备类型不加以限定。
51.可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(hyper text mark-up language,html)、可扩展标记语言(extensible markup language,xml)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocol security,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
52.在本发明实施例中,提供了一种消息识别方法,其中,消息是基于消息模板生成的。这类型消息中的格式内容至少占了消息内容的一半,除去格式内容外,消息发送者能够自定义的内容非常有限,因此只要对自定义部分内容进行检查,而不需要对完整的消息进行语义分析和分词统计,大大降低了工作量。而且,一些恶意消息的发送者为了适应多账号、多模板、广撒网、内容变化快的工作模式,必然需要减少个性化内容以增强内容的复用性,同时为了兼顾迅速变化的需要,不可能每次调用都创建一个新的消息模板,因此,基于同一模板生成的消息除了格式内容外,其自定义的内容通常具有高度一致的语言风格和语法结构。本技术实施例充分利用了上述特征,对待发布的第一消息进行处理得到有限的字
符串,并通过与指纹样本进行匹配来识别待发布的第一消息的消息类型,更为具体的描述请参见下述实施例。
53.图2是根据本技术实施例提供的一种消息识别方法的流程图,如图2所示,在本技术实施例中以应用于服务器为例进行说明。该消息识别方法包括以下步骤:
54.201、获取第一消息,该第一消息基于模板生成。
55.在本技术实施例中,该第一消息为待发布的消息,或者,为用户消息数据库中所存储的已发布消息,针对不同识别需求,该消息可以来自于不同来源,例如,若需要对待发布的消息进行识别,则从消息发布请求中提取该第一消息,来进行后续步骤,再相应执行发布相关步骤,其中,消息发布请求用于指示服务器进行消息发布;若需要对已发布的消息进行识别,则从用于存储已发布消息的用户消息数据库中,提取第一消息,来进行后续步骤,再相应执行对已发布消息的相关处理步骤,本技术实施例对此不作限定。
56.其中,模板为服务器所预定义的消息模板,也即是用来发送消息的模板。在一些实施例中,上述第一消息由社交应用平台上的公共社交网络标识提供,服务器通过接收公共社交网络标识的消息发布请求,从消息发布请求中提取该第一消息,又或者,服务器从用户消息数据库中公共社交网络标识的已发布消息中提取该第一消息。
57.202、确定指纹样本,该指纹样本包括基于目标类型的样本消息得到的多个参考字符串,该多个参考字符串用于表示样本消息的编辑文本内容。
58.在本技术实施例中,指纹样本是从属于目标类型的样本消息中获取到的,该样本消息即为指纹样本的指纹原文,基于消息模板生成,目标类型是指指纹样本的类型为非正常类型。其中,指纹样本包括有多个参考字符串,参考字符串用于表示样本消息的编辑文本内容,该编辑文本内容是除了消息模板中的模板格式内容以外的自定义内容,通过用户进行输入等编辑操作得到。
59.203、获取第一消息所包括的多个字符串,该多个字符串用于表示第一消息的编辑文本内容。
60.在本技术实施例中,服务器对第一消息进行处理,得到仅用于表示编辑文本内容的多个字符串。
61.204、对多个参考字符串和多个字符串进行匹配,得到匹配结果,响应于匹配结果符合目标条件,确定第一消息属于目标类型。
62.在本技术实施例中,匹配结果是指指纹样本中的多个参考字符串匹配成功的数量。目标条件用于指示第一消息与指纹样本对应的样本消息为相似消息。
63.在本技术实施例中,提供了一种消息识别方法,对于基于模板生成的消息,可以获取这类模板的指纹样本,也即是能够表示消息中编辑文本内容的多个参考字符串,来与消息中的对应字符串进行匹配,以确定该消息是否属于目标类型。通过采用表示编辑文本内容的字符串之间的匹配,减少了消息识别过程中数据处理的计算量,不需要进行大量的模型计算,且指纹样本的维护代价小,且,这种方式,充分利用了基于消息模板生成的消息具有相似或相同语法结构的特征,匹配准确率高,提高了消息识别的准确率和效率。
64.图3是根据本技术实施例提供的一种消息识别方法的流程图,如图3所示,在本技术实施例中以终端和服务器之间的交互为例进行说明。该消息识别方法包括以下步骤:
65.301、终端响应于用户基于模板的编辑操作,生成第一消息。
66.在本技术实施例中,终端的社交应用客户端能够提供基于模板的消息编辑功能,用户通过社交应用客户端的消息编辑界面,来进行模板的选择以及基于模板的文字输入等编辑操作,从而生成待推送的消息。
67.在一种可选的实现方式中,终端的社交应用客户端提供至少一个消息模板,例如,消息模板为“信用卡刷卡通知”模板,“商品购买成功提醒”模板等,其中,“信用卡刷卡通知”模板的具体样式为“【尊敬的用户】
……
【您的账号】
……
【您的消费金额】
……”
,“尊敬的用户”、“您的账号”以及“您的消费金额”为消息模板中预设的固定内容,其余部分为用户可自定义的内容。
68.在一种可选的实现方式中,终端的社交应用客户端显示消息编辑界面,消息编辑界面中包括至少一个消息模板,获取用户在该消息编辑界面中选择的需要编辑的消息模板,显示所选中消息模板的模板编辑界面,进一步的,获取用户在所显示的模板编辑界面中输入的文字,生成第一消息。例如,用户选择的消息模板为“信用卡刷卡通知”模板,终端的社交应用客户端基于该模板显示消息编辑界面,获取用户在消息编辑界面的文字输入,生成“【尊敬的用户】如果你想财富增值,【您的账号】如果你想一夜暴富,【您的消费金额】你就要关注xxx老师的公众号”。
69.302、终端响应于消息发布指令,向服务器发送消息发布请求,该消息发布请求携带第一消息和模板的模板标识。
70.在本技术实施例中,消息发布指令是指用户发布消息的指令,模板标识是指每个消息模板的唯一标识。在一些实施例中,用户可以在终端的社交应用客户端上通过对消息发布按钮的点击操作或者语音输入等方式,来触发相应的消息发布指令,终端响应于消息发布指令,向服务器发送消息发布请求,该消息发布请求用于指示服务器进行消息发布。
71.303、服务器接收到消息发布请求后,根据该模板的模板标识,确定该模板对应的指纹样本,该指纹样本包括多个参考字符串,多个参考字符串用于表示样本消息的编辑文本内容。
72.在本技术实施例中,指纹样本包括有多个参考字符串,参考字符串用于表示样本消息的编辑文本内容,该编辑文本内容是指除了消息模板中的模板格式内容以外的自定义内容,通过用户进行输入等编辑操作得到。例如,在一个指纹样本中存在3个参考字符串,分别用于表示编辑文本内容“财富增值”、“一夜暴富”以及“关注xxx老师的公众号”。
73.在一种可选的实现方式中,服务器关联有第一指纹集合,该第一指纹集合包括目标类型的指纹样本,其中,目标类型是指指纹样本的类型为非正常类型。在一些实施例中,该第一指纹集合可以为黑指纹集合,该第一指纹集合中的指纹样本所对应的样本消息的内容性质指向非正常内容。服务器在接收到消息发布请求后,以模板的模板标识作为索引,在该第一指纹集合中查询与该模板对应的指纹样本。
74.在一种可选的实现方式中,服务器在关联有第一指纹集合的基础上,还关联有第二指纹集合,该第二指纹集合包括非目标类型的指纹样本,其中,非目标类型是指指纹样本的类型为正常类型。在一些实施例中,该第二指纹集合可以为白指纹集合,该第二指纹集合中的指纹样本所对应的样本消息的内容性质指向正常内容。且,该第二指纹集合能够作为第一指纹集合的补充,避免将正常内容识别为非正常内容。
75.在一种可选的实现方式中,将第二指纹集合作为补充的实现方式为:服务器对第
一指纹集合与第二指纹集合进行周期性对比,通过比较,确定两个集合中存在的重合指纹,然后从第一指纹集合中删去重合指纹。通过将上述两种指纹集合进行周期性比对,可以确保指纹样本的准确性,也就不会造成后续将正常内容识别为非正常内容,导致误处理等情况。
76.例如,在第一指纹样本集合,也即是黑指纹集合中,收录了内容为“持续坚持和维护”的指纹样本,服务器在对两种指纹集合进行比对时,检测到第二指纹样本集合,也即是白指纹集合中,也收录了“持续坚持和维护”的指纹样本,此时,服务器从黑指纹集合中删除该指纹样本,保留白指纹集合中的该指纹样本。也即是,服务器需要确保黑指纹集合中不存在白指纹集合中的指纹样本,这样,当有政府机构或者其他善意用户在所下发的模板消息中,携带有部分黑指纹集合中的指纹样本时,由于这些信息中还存在白指纹集合中的指纹样本,因此服务器并不会将这些信息确认为是非正常内容。
77.需要说明的是,上述步骤302至步骤303是根据本技术实施例提供的一种根据模板的模板标识确定与之对应的指纹样本的一种实施方式。在另一种可选的实现方式中,服务器在接收到消息发布请求后,确定任一指纹样本,该指纹样本为基于任一消息模板的指纹样本,然后服务器继续执行后续步骤304至步骤311,本技术实施例对此不进行具体限制。
78.另外,需要说明的是,本技术实施例中获取指纹样本的过程将在后续步骤401至404中进行描述,故在此不做赘述。
79.304、服务器删除第一消息中无意义字符,在删除位置填充目标符号,得到多个第一字符串,每两个第一字符串以目标符号为分隔。
80.在本技术实施例中,无意义字符包括符号和不属于目标语种的字符,其中目标语种为第一消息所属的语种。目标符号为第一消息对应的文本中不会存在的特殊符号,例如,该目标符号为“@”、“#”、“&”等等。服务器对第一消息中无实际意义的信息进行删除,例如符号,还删除该第一消息中不属于目标语种的字符,并对删除后的空白处以目标符号进行填充,不仅可以减少后续处理的数据量,还能够为第一消息的拆分做出提前准备。
81.下面以目标语种为汉语为例,对本步骤的具体实现方式进行说明:
82.在一种可选的实现方式中,服务器按照从左往右的顺序依次识别第一消息中的每个字符,当识别到字符表示为符号时,例如标点符号或者其他普通符号等,将该字符删除;当识别到字符表示为非汉语内容时,例如字母、数字等,将该字符删除;服务器在将第一消息中所有的符号及非汉语内容删除后,对该第一消息中由于字符删除而出现的所有空白处以目标符号进行填充。
83.在一种可选的实现方式中,服务器按照从左往右的顺序依次识别第一消息中的每个字符,当识别到字符表示为符号或非汉语内容时,将该符号或非汉语内容所对应的字符进行删除,随即在字符删除处出现的空白处以一个目标符号进行填充,也即是,对于符号和非汉语内容所对应的字符在删除的同时以目标符号进行填充。可选地,服务器从右往左进行上述识别过程,本实施例对此不做限定。
84.需要说明的是,以上是以第一消息的目标语种为汉语为例,在另一种可选的实现方式中,当第一消息的目标语种为英语时,服务器删除第一消息中的符号及非英文内容,以目标符号填充删除后的空白位置,得到多个第一字符串。本技术实施例对第一消息的目标语种不进行限制。
85.上述步骤是本技术实施例对第一消息中无意义字符进行删除的一种实现方式,服务器还可以有其他删除无意义字符的方式,例如,删除第一消息中的感叹词,以及删除第一消息中的量词等。本技术对此不进行具体限制。
86.305、服务器删除多个第一字符串中的目标字符串,该目标字符串为两个目标符号之间字数不满足字数阈值的字符串,得到多个第二字符串,该多个第二字符串用于表示第一消息的编辑文本内容。
87.上述步骤305包括以下步骤:服务器对每个第一字符串的字符个数进行检查;若存在第一字符串的字符个数小于字数阈值,则该第一字符串为目标字符串,删除该目标字符串;若存在第一字符串的字符个数大于或等于字数阈值,则保留该第一字符串;将检查过的多个第一字符串作为多个第二字符串。
88.服务器通过对字符个数不满足字数阈值的目标字符串进行删除,保留满足字数阈值的第一字符串,得到第一消息的多个第二字符串,避免了对消息中没有实际意义的文本内容进行识别,进一步减少了后续数据的处理量。
89.例如,服务器可以将字数阈值设置为第一字符串的字符个数所表示的汉语内容长度为4个汉字,也即是,当服务器检查到有第一字符串所表示的汉语长度少于4个汉字,则删去该第一字符串;当服务器检查到有第一字符串所表示的汉语长度大于或等于4个汉字时,保留该第一字符串。
90.需要说明的是,本技术实施例中,服务器按照上述步骤303至步骤305以从前往后的顺序先进行指纹样本的获取,再对第一消息进行处理得到多个第一字符串,再得到多个第二字符串。在另一种可选的实现方式中,服务器可以先按照步骤304和305对第一消息进行处理,在得到多个第二字符串后再执行步骤303,获取第一消息对应的指纹样本。本技术实施例对此不进行具体限制。
91.306、服务器将模板的指纹样本中的多个参考字符串与多个第二字符串进行匹配,得到匹配结果。
92.在本技术实施例中,模板对应的指纹样本中存在多个参考字符串,通过对第一消息进行处理,也得到了多个第二字符串。服务器将该指纹样本中的多个参考字符串与多个第二字符串进行匹配,当存在有两个字符串相同时,则认为该两个字符串匹配成功。
93.需要说明的是,第一消息与指纹样本都是基于模板生成的,与模板的指纹样本的指纹原文在语法结构、排版特征以及语言风格上具有高度的相似性,基于第一消息处理得到的多个第二字符串,与指纹样本中的多个参考字符串均表示编辑文本内容,是通过用户进行输入等编辑操作得到的。例如,多个第二字符串中的第一个字符串表示的内容为“你好”,指纹样本的第一个参考字符串表示的内容为“您好”;多个第二字符串中的第二个字符串表示的内容为“快来关注”,指纹样本的第二个参考字符串表示的内容为“就要关注”,等等,都表示模板的自定义内容,也即是编辑文本内容。
94.在一种可选的实现方式中,服务器对于指纹样本的多个参考字符串中的每个参考字符串,根据每个参考字符串的字符串编号,从多个第二字符串中确定与多个参考字符串的字符串编号相同的字符串,然后将参考字符串和所确定的字符串进行匹配。例如,服务器获取指纹样本中每个参考字符串的编号,确定参考字符串的编号均为奇数号,则服务器将多个第二字符串中编号为奇数号的字符串作为待匹配的字符串,然后服务器将多个第二字
符串中待匹配的字符串与指纹样本中的参考字符串进行一一对应匹配,最终得到匹配结果。通过上述按照字符串编号来进行字符串匹配的方式,保证了匹配的准确性。
95.307、服务器根据匹配结果,确定第一消息与指纹样本所对应的样本消息是否符合目标条件,如果是,则执行步骤308至311,如果否,则结束该处理流程。
96.在本技术实施例中,模板的指纹样本中的多个参考字符串与多个第二字符串之间匹配成功的数量越多,说明该多个参考字符串与多个第二字符串所表示的文本内容中相同的文本内容越多,因此,通过字符串之间匹配成功的数量,来确定第一消息与指纹样本对应的样本消息是否符合目标条件,准确度高。
97.在一种可选的实现方式中,服务器获取模板的指纹样本中多个参考字符串与多个第二字符串之间匹配成功的数量,若匹配成功的参考字符串的数量大于或等于目标数量,或者,匹配成功的参考字符串的数量占该多个参考字符串的数量的比例大于或等于目标比例,则确定第一消息与指纹样本所对应的样本消息为相似消息。
98.在一种可选的实现方式中,服务器可以预先设置一个数量阈值,用于表示目标条件,当匹配成功的参考字符串数量大于或等于数量阈值时,则确定第一消息与指纹样本所对应的样本消息为相似消息,例如,该数量阈值可以设置为10。在另一种可选的实现方式中,服务器可以预先设置一个比例阈值,用于表示目标条件,当匹配成功的参考字符串的数量占该多个参考字符串的数量的比例大于或等于比例阈值时,则确定第一消息与指纹样本所对应的样本消息为相似消息。例如,该比例阈值可以设置为80%,当多个第二字符串中有80%以上的字符串与指纹样本中的参考字符串匹配成功,则认为第一消息与指纹样本所对应的样本消息为相似消息。本技术实施例对预设阈值的具体数值和表示类型不做具体限定。
99.308、服务器基于指纹样本的目标类型,确定第一消息属于目标类型。
100.在本技术实施例中,服务器确定第一消息与指纹样本所对应的样本消息为相似消息后,则确定第一消息的目标类型与指纹样本的目标类型一致。
101.在一种可选的实现方式中,目标类型包括广告类型或者携带有恶意欺诈内容的类型,例如,服务器确定指纹样本对应的消息类型为广告类型,说明该指纹样本的消息样本的内容属于广告性质,则可以确定第一消息的内容性质也属于广告性质。本技术实施例对目标类型的判定不进行具体限制。
102.服务器经过步骤301-308,对待发布的第一消息进行识别,由于通过指纹样本来确定第一消息的目标类型,不需要训练模型,且,指纹样本的维护成本小,数据处理量小,因此,可以提高消息识别的准确率和效率。
103.可选地,在服务器将第一消息识别为目标类型后,还对该第一消息进行下述步骤309至311中任一种处理步骤。
104.309、服务器不发布第一消息。
105.在本技术实施例中,服务器确定第一消息属于目标类型后,拒绝由终端发送的消息发布请求,不发布第一消息。
106.步骤309与步骤301-308可以构成一种可能的实施方式,在确定第一消息属于目标类型,也即是非正常类型后,拒绝发布第一消息,避免该第一消息对用户造成困扰。
107.310、服务器在第一消息中添加第一提示信息,得到第二消息,发布该第二消息,该
第一提示信息用于提示所发布的消息内容存在风险。
108.在本技术实施例中,服务器确定第一消息属于目标类型后,在第一消息中添加第一提示信息,例如,该第一提示信息为“此消息内容含有广告,请谨慎浏览”。本发明对第一提示信息的内容不做限定。基于此,服务器生成第二消息,并基于消息发布请求发布该第二消息。
109.步骤310与步骤301-308可以构成一种可能的实施方式,在确定第一消息属于目标类型,也即是非正常类型后,生成带有提示信息的第二消息,提醒用户谨慎浏览。
110.311、服务器发布第一消息和第二提示信息,该第二提示信息用于提示该第一消息存在风险。
111.在本技术实施例中,服务器确定第一消息属于目标类型后,基于消息发布请求发布第一消息,同时,发布第二提示信息,例如,该第二提示信息为“该第一消息存在风险,请谨慎浏览”。本发明对第二提示信息的内容不做限定。
112.步骤310与步骤301-308可以构成一种可能的实施方式,在确定第一消息属于目标类型,也即是非正常类型后,在发布第一消息的同时,发布第二提示信息,提醒用户谨慎浏览。
113.需要说明的是,在上述由步骤301至311所构成的消息识别方法中,是对用户待发布的消息进行识别,以确定是否发布或者如何进行发布的过程,基于上述消息类型的识别,能够实现在消息发布过程中对恶意消息的过滤。而在另一种可能的实现方式中,服务器从用户消息数据库中提取用户已发布的消息,来进行识别,以确定是否对已发布消息进行删除、提示等处理,实现对已发布消息中恶意消息的过滤。相应地,在服务器将第一消息识别为目标类型后,还对该第一消息进行删除、提示等处理,例如,从用户消息数据库中删除,使得其他用户无法再接收或访问到该第一消息,又例如,在已发布的消息中增加第一提示信息,再例如,在已发布的消息中链接第二提示信息,若用户点开该已发布的消息,则同步显示第二提示信息,达到警示效果。
114.当然,上述不同的实施方式可以互相结合,以构成不同的实施方案,本发明实施例对此不进行具体限制。
115.在本技术实施例中,提供了一种消息识别方法,对于基于模板生成的消息,可以获取这类模板的指纹样本,也即是能够表示消息中编辑文本内容的多个参考字符串,来与消息中的对应字符串进行匹配,以确定该消息是否属于目标类型。通过采用表示编辑文本内容的字符串之间的匹配,减少了消息识别过程中数据处理的计算量,不需要进行大量的模型计算,且指纹样本的维护代价小,且,这种方式,充分利用了基于消息模板生成的消息具有相似或相同语法结构的特征,匹配准确率高,提高了消息识别的准确率和效率。
116.下面对上述步骤中指纹样本的获取方法进行说明。图4是根据本技术实施例提供的一种指纹样本获取方法的流程图,如图4所示,在本技术实施例中以应用于服务器为例进行说明。该方法包括以下步骤:
117.401、服务器获取模板的样本消息,该样本消息属于目标类型。
118.在本技术实施例中,样本消息即为指纹样本的指纹原文,是基于模板生成的模板消息。也即是,该样本消息与上述步骤301-308中的第一消息是基于同一模板生成的消息。例如,样本消息是基于“信用卡刷卡模板”生成的,该样本消息的内容为“【尊敬的用户】你想
财富增值吗,【您的账号】你想一夜暴富吗,【您的消费金额】快来关注xxx老师的公众号”。
119.402、服务器删除样本消息中无意义字符,在删除位置填充目标符号,得到多个第一样本字符串,每两个第一样本字符串以目标符号为分隔。
120.在本技术实施例中,服务器对样本消息中无实际意义的字符进行删除,包括符号和不属于目标语种的字符,并对删除后的空白处以目标符号进行填充,不仅可以减少后续处理的数据量,还能够为样本消息的拆分做出提前准备。具体实现方式与上述步骤304中得到多个第一字符串的步骤一致,故在此不再赘述。
121.403、服务器删除多个第一样本字符串中的目标字符串,该目标字符串为两个目标符号之间字数不满足字数阈值的字符串,得到多个第二样本字符串。
122.在本技术实施例中,得到多个第二样本字符串的过程与上述步骤305中得到多个第二字符串的过程一致,故在此不再赘述。
123.404、服务器从多个第二样本字符串中获取多个参考字符串作为模板的指纹样本。
124.在本技术实施例中,服务器在得到多个第二样本字符串以后对多个第二样本字符串中的字符串进行编号,并随机选取,得到多个参考字符串,作为模板的指纹样本。
125.在一种可选的实现方式中,服务器可以选取多个第二样本字符串中编号为奇数号的字符串作为参考字符串,例如,该多个第二样本字符串可以为“@s1@s2@s3@s4@s5@s6@”,对于参考字符串的选取可以为:参考字符串1:“s1”、参考字符串2:“s3”、参考字符串3:“s5”,也即是在6个字符串中选取3个编号为奇数号的字符串作为参考字符串,得到模板的指纹样本。本技术实施例对字符串的选取方式不进行限制。
126.在一种可选的实现方式中,服务器将获取到的指纹样本存储到第一指纹集合中。
127.需要说明的是,上述步骤401至步骤404是根据本技术实施例提供的一种从基于模板生成的样本消息中,获取指纹样本的一种实施方式,其中,该模板与待识别的消息属于同一模板。在另一种可选的实现方式中,指纹样本的获取可以从基于任一模板生成的样本消息中获取到,本技术实施例对此不进行具体限制。
128.在本技术实施例中,提供了一种指纹样本的获取方法,通过对样本消息中无实际意义的字符进行删除,进一步的,删除样本消息中不满足字数阈值的文本内容,大大节约了后续处理的数据量,最终选取多个用于表示样本消息的编辑文本内容的参考字符串作为指纹样本,用于确认第一消息的消息类型,准确性高,且指纹样本的维护代价小。
129.图5是根据本技术实施例提供的一种消息识别装置的框图。该装置用于执行上述消息识别方法执行时的步骤,参见图5,装置包括:消息获取模块501、样本确定模块502、字符串获取模块503、匹配模块504以及类型确定模块505。
130.消息获取模块501,用于获取第一消息,该第一消息基于模板生成;
131.样本确定模块502,用于确定指纹样本,该指纹样本包括基于目标类型的样本消息得到的多个参考字符串,该多个参考字符串用于表示该样本消息的编辑文本内容;
132.字符串获取模块503,用于获取第一消息所包括的多个字符串,该多个字符串用于表示该第一消息的编辑文本内容;
133.匹配模块504,用于对多个参考字符串和多个字符串进行匹配,得到匹配结果;
134.类型确定模块505,用于响应于匹配结果符合目标条件,确定第一消息属于目标类型。
135.在一种可选的实现的方式中,该字符串获取模块503包括:
136.第一删除单元,用于删除第一消息中的无意义字符;
137.填充单元,用于在删除位置填充目标符号,得到多个第一字符串,每两个第一字符串以目标符号为分隔;
138.第二删除单元,用于删除多个第一字符串中的目标字符串,该目标字符串为两个目标符号之间字数不满足字数阈值的字符串,得到多个第二字符串。
139.在一种可选的实现的方式中,该第一删除单元用于下述至少一项:
140.删除第一消息中的符号;
141.删除第一消息中不属于目标语种的字符,该目标语种为第一消息所属语种。
142.在一种可选的实现的方式中,该匹配模块504用于:
143.对于多个参考字符串中的每个参考字符串,根据每个参考字符串的字符串编号,从多个字符串中确定与多个参考字符串的字符串编号相同的字符串,将参考字符串和所确定的字符串进行匹配。
144.在一种可选的实现的方式中,该消息识别装置还包括:
145.消息发布模块,用于下述任一项:
146.不发布第一消息;
147.在第一消息中添加第一提示信息,得到第二消息,发布第二消息,该第一提示信息用于提示所发布的消息内容存在风险;
148.发布第一消息和第二提示信息,该第二提示信息用于提示第一消息存在风险。
149.在一种可选的实现的方式中,匹配结果符合目标条件是指:
150.匹配成功的参考字符串的数量大于或等于目标数量;
151.匹配成功的参考字符串的数量占多个参考字符串的数量的比例大于或等于目标比例。
152.在一种可选的实现的方式中,该消息识别装置还包括:
153.对比模块,用于周期性对比第一指纹集合和第二指纹集合,第一指纹集合包括目标类型的指纹样本,第二指纹集合包括非目标类型的指纹样本;
154.删除模块,用于若第一指纹集合与第二指纹集合中存在重合的指纹样本,则从该第一指纹集合中删除重合的指纹样本。
155.在一种可选的实现的方式中,该消息识别装置还包括:
156.样本消息获取模块,用于获取模板的样本消息,该样本消息属于目标类型;
157.删除模块,用于删除样本消息中的无意义字符,在删除位置填充目标符号,得到多个第一样本字符串,每两个第一样本字符串以目标符号为分隔;
158.该删除模块,还用于删除多个第一样本字符串中目标样本字符串,该目标样本字符串为两个目标符号之间字数不满足字数阈值的字符串,得到多个第二样本字符串;
159.参考字符串获取模块,用于从多个第二样本字符串中获取多个参考字符串。
160.在本技术实施例中,提供了一种消息识别装置,对于基于模板生成的消息,可以获取这类模板的指纹样本,也即是能够表示消息中编辑文本内容的多个参考字符串,来与消息中的对应字符串进行匹配,以确定该消息是否属于目标类型。通过采用表示编辑文本内容的字符串之间的匹配,减少了消息识别过程中数据处理的计算量,不需要进行大量的模
型计算,且指纹样本的维护代价小,且,这种方式,充分利用了基于消息模板生成的消息具有相似或相同语法结构的特征,匹配准确率高,提高了消息识别的准确率和效率。
161.需要说明的是:上述实施例提供的消息识别装置在消息识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的消息识别装置与消息识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
162.图6是根据本技术实施例提供的一种服务器的结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(central processing units,cpu)601和一个或一个以上的存储器602,其中,该存储器602中存储有至少一条程序代码,该至少一条程序代码由处理器601加载并执行以实现上述各个方法实施例提供的消息识别方法。当然,该服务器还能够具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还能够包括其他用于实现设备功能的部件,在此不做赘述。
163.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于计算机设备,该计算机可读存储介质中存储有至少一段程序代码,该至少一段程序代码由处理器加载并执行以实现上述实施例的消息识别方法中计算机设备所执行的操作。
164.本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的消息识别方法。
165.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
166.以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献