一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于NLP的业务活动大数据挖掘方法及系统与流程

2022-07-16 16:02:38 来源:中国专利 TAG:

基于nlp的业务活动大数据挖掘方法及系统
技术领域
1.本公开涉及大数据技术领域,尤其涉及一种基于nlp的业务活动大数据挖掘方法及系统。


背景技术:

2.自然语言处理(natural language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。nlp的主要应用领域包括:机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等。当下,nlp与大数据挖掘的结合越来越紧密,通过nlp辅助进行用户大数据挖掘和分析已成为热点。然而在实际应用过程中发明人发现,如何高质量地实现在线业务活动的分析挖掘是现目前需要解决的一个问题。


技术实现要素:

3.本公开的一个目的是提供一种基于nlp的业务活动大数据挖掘方法及系统。
4.本公开的技术方案是通过如下至少部分实施例实现的。
5.一种基于nlp的业务活动大数据挖掘方法,该方法通过大数据挖掘平台系统实施,该方法至少包括:对初始线上活动事件的第一用户会话文本簇进行文本特征相关性分析获得交叉性会话文本内容集,并基于所述交叉性会话文本内容集确定不同于初始线上活动事件的第二线上活动事件以及所述第二线上活动事件的第二用户会话文本簇;以及,根据所述第二用户会话文本簇,确定所述第二线上活动事件与所述初始线上活动事件之间的活动依赖性。
6.在一些独立性实施例下,所述对初始线上活动事件的第一用户会话文本簇进行文本特征相关性分析获得交叉性会话文本内容集,并基于所述交叉性会话文本内容集确定不同于初始线上活动事件的第二线上活动事件以及所述第二线上活动事件的第二用户会话文本簇,包括:获得不少于两个初始线上活动事件中各所述初始线上活动事件的第一用户会话文本簇;其中,所述不少于两个初始线上活动事件携带一致的或者存在联系的要素信息,各所述第一用户会话文本簇中包含至少一个用户会话文本;对所述不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本进行文本特征相关性分析,确定出至少一个交叉性会话文本内容集;确定在所述至少一个交叉性会话文本内容集内存在的不同于所述不少于两个初始线上活动事件的至少一个第二线上活动事件,以及各所述第二线上活动事件在所述至少一个交叉性会话文本内容集内的第二用户会话文本簇;所述根据所述第二用户会话文本簇,确定所述第二线上活动事件与所述初始线上活动事件之间的活动依赖性,包括:就各所述第二线上活动事件而言,在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖
性。
7.在一些独立性实施例下,所述在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性,包括:在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二用户会话文本簇中各用户会话文本配对的交叉性会话文本内容集;在所述第二用户会话文本簇中用户会话文本配对的交叉性会话文本内容集的数目大于第一交叉数目判定值的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性。
8.在一些独立性实施例下,所述方法还包括:在所述交叉性会话文本内容集的数目大于第二交叉数目判定值的基础上,确定所述不少于两个初始线上活动事件之间具有设定依赖状态;所述确定在所述至少一个交叉性会话文本内容集内存在的不同于所述不少于两个初始线上活动事件的至少一个第二线上活动事件,以及各所述第二线上活动事件在所述至少一个交叉性会话文本内容集内的第二用户会话文本簇,包括:在所述不少于两个初始线上活动事件之间具有设定依赖状态的基础上,确定在所述至少一个交叉性会话文本内容集内存在的不同于所述不少于两个初始线上活动事件的至少一个第二线上活动事件,以及各所述第二线上活动事件在所述至少一个交叉性会话文本内容集内的第二用户会话文本簇。
9.在一些独立性实施例下,所述不少于两个初始线上活动事件包括至少一个包含第一要素信息的第一线上活动交互主题和至少一个包含第二要素信息的第二线上活动交互主题,所述设定依赖状态包括所述第一线上活动交互主题与所述第二线上活动交互主题之间的事件流量吸引状态;所述在所述交叉性会话文本内容集的数目大于第二交叉数目判定值的基础上,确定所述不少于两个初始线上活动事件之间具有设定依赖状态,包括:在所述交叉性会话文本内容集的数目大于第二交叉数目判定值的基础上,逐一确定在所述至少一个交叉性会话文本内容集内存在的第一线上活动交互主题的数目和第二线上活动交互主题的数目;在所述第一线上活动交互主题的数目大于初始线上活动事件数目判定值,且所述第二线上活动交互主题的数目大于第二线上活动事件数目判定值的基础上,确定对应于所述第一线上活动交互主题与所述第二线上活动交互主题之间的事件流量吸引状态。
10.在一些独立性实施例下,各所述用户会话文本皆携带阶段数字签名;所述对所述不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本进行文本特征相关性分析,确定出至少一个交叉性会话文本内容集,包括:对所述不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本,进行基于活动场景和自然语言处理的联合分析,确定出至少一个场景会话文本内容集以及各所述场景会话文本内容集内的不少于两个联合场景会话文本;就各所述场景会话文本内容集而言,在所述场景会话文本内容集内的不少于两个
联合场景会话文本在会话阶段层面下符合指定的会话周期要求的基础上,利用各所述联合场景会话文本的阶段数字签名,确定阶段会话文本内容集,并通过所述场景会话文本内容集和所述阶段会话文本内容集确定交叉性会话文本内容集。
11.在一些独立性实施例下,所述不少于两个初始线上活动事件包括至少一个包含第一要素信息的第一线上活动交互主题和至少一个包含第二要素信息的第二线上活动交互主题,所述第一要素信息与第二要素信息一致或者存在联系,各所述用户会话文本皆携带场景数字签名;所述对所述不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本,进行基于活动场景和自然语言处理的联合分析,确定出至少一个场景会话文本内容集以及各所述场景会话文本内容集内的不少于两个联合场景会话文本,包括:将各所述包含第一要素信息的第一线上活动交互主题的用户会话文本簇中的各用户会话文本作为候选的用户会话文本;从各所述包含第二要素信息的第二线上活动交互主题的用户会话文本簇中,确定与至少一个所述候选的用户会话文本的场景数字签名配对的目标用户会话文本;就各所述目标用户会话文本而言,通过所述目标用户会话文本的场景数字签名以及与所述目标用户会话文本对应的至少一个候选的用户会话文本的场景数字签名,确定至少一个场景会话文本内容集,并将所述目标用户会话文本和所述至少一个候选的用户会话文本皆作为所述场景会话文本内容集内的联合场景会话文本。
12.在一些独立性实施例下,所述在所述场景会话文本内容集内的不少于两个联合场景会话文本在会话阶段层面下符合指定的会话周期要求的基础上,利用各所述联合场景会话文本的阶段数字签名,确定阶段会话文本内容集,包括:通过所述场景会话文本内容集内的不少于两个联合场景会话文本的阶段数字签名,确定每两个联合场景会话文本之间的会话阶段差异;在所述场景会话文本内容集内指向相异线上活动事件的联合场景会话文本之间的最小会话阶段差异低于指定的阶段判定值的基础上,利用各所述联合场景会话文本的阶段数字签名,确定阶段会话文本内容集。
13.在一些独立性实施例下,各所述用户会话文本是基于收集的业务活动日志确定的基础上,所述场景数字签名包括如下一项或多项:收集用户会话文本对应的业务活动日志的业务日志收集线程的区分信息、收集用户会话文本对应的业务活动日志的业务日志收集线程的配置参数;所述阶段数字签名包括如下一项或多项:用户会话文本对应的业务活动日志的收集时段、用户会话文本对应的业务活动日志的收集时序节点;各所述用户会话文本是基于收集的会话大数据捕捉信息确定的基础上,所述场景数字签名包括用户会话文本对应的捕捉窗口的配置参数;所述阶段数字签名包括如下一项或多项:用户会话文本对应的会话大数据捕捉信息的收集时段、用户会话文本对应的会话大数据捕捉信息的收集时序节点。
14.在一些独立性实施例下,所述获得不少于两个初始线上活动事件中各所述初始线上活动事件的第一用户会话文本簇,包括:通过不少于一种要素信息,从待定的线上活动事件簇中确定所述不少于两个初始线上活动事件;其中,各所述初始线上活动事件携带所述不少于一种要素信息中的其中一
种要素信息;利用预置的多模态约束,获得所述不少于两个初始线上活动事件中各所述初始线上活动事件的第一用户会话文本簇;其中,各所述初始线上活动事件的第一用户会话文本簇中包含所述初始线上活动事件在所述多模态约束内的至少一个用户会话文本。
15.在一些独立性实施例下,所述方法还包括:就各所述第二线上活动事件而言,在确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性的基础上,通过所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间的依赖程度值;利用各所述第二线上活动事件与所述不少于两个初始线上活动事件之间的依赖程度值,创建并输出挖掘报告。。
16.一种大数据挖掘平台系统,包括:用于存储可执行计算机程序的存储器,用于执行所述存储器中存储的可执行计算机程序时实现上述方法的处理器。
17.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行上述方法。
18.根据本公开的一个实施例,通过对携带一致的或者存在联系的要素信息的不少于两个初始线上活动事件的用户会话文本数据进行挖掘识别,确定出至少一个交叉性会话文本内容集,并对至少一个交叉性会话文本内容集内存在的不同于不少于两个初始线上活动事件的至少一个第二线上活动事件的用户会话文本数据进行挖掘识别,确定出与不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件,这样能够对不同线上活动事件的用户会话文本数据进行深入挖掘,以尽可能高质量地挖掘用户会话文本数据的潜在依赖特征,从而实现对大量的用户会话文本数据的事件依赖性分析和挖掘,以对海量的用户会话文本数据进行针对性整合汇总,进而为后续线上活动事件的进一步挖掘分析提供完整可靠的依据。此外,鉴于上述文本特征相关性分析可以基于自然语言处理技术得到,因而还能够通过调整相关的ai模型来提高事件依赖性分析的灵活性。
附图说明
19.图1是示出可以实现本公开的实施例的大数据挖掘平台系统的一种通信配置的示意图。图2是示出可以实现本公开的实施例的基于nlp的业务活动大数据挖掘方法的流程示意图。图3是示出可以实现本公开的实施例的基于nlp的业务活动大数据挖掘方法的应用环境的架构示意图。
具体实施方式
20.下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,所描述的实施例不应视为对本公开的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。
21.本公开实施例的技术方案可以总结为如下:对初始线上活动事件的第一用户会话文本簇进行文本特征相关性分析获得交叉性会话文本内容集,并基于所述交叉性会话文本内容集确定不同于初始线上活动事件的第二线上活动事件以及所述第二线上活动事件的第二用户会话文本簇;以及,根据所述第二用户会话文本簇,确定所述第二线上活动事件与所述初始线上活动事件之间的活动依赖性。这样一来,能够对不同线上活动事件的用户会话文本数据进行深入挖掘,以尽可能高质量地挖掘用户会话文本数据的潜在依赖特征,从而实现对大量的用户会话文本数据的事件依赖性分析和挖掘。
22.图1是示出可以实现本公开的实施例的大数据挖掘平台系统100的一种通信配置的框图,大数据挖掘平台系统100包括用于存储可执行计算机程序的存储器101,用于执行所述存储器101中存储的可执行计算机程序时实现本公开实施例中基于nlp的业务活动大数据挖掘方法的处理器102。
23.图2是示出可以实现本公开的实施例的基于nlp的业务活动大数据挖掘方法的流程示意图,基于nlp的业务活动大数据挖掘方法可以通过图1所示的大数据挖掘平台系统100实现,进一步可以包括以下相关步骤所描述的技术方案。
24.在step101中,获得不少于两个初始线上活动事件中各所述初始线上活动事件的第一用户会话文本簇。
25.示例性的,所述不少于两个初始线上活动事件携带一致的或者存在联系的要素信息,各所述第一用户会话文本簇中包含至少一个用户会话文本。
26.对于本公开实施例而言,不少于两个初始线上活动事件中的各初始线上活动事件皆可以为不同的具有流式特性且能收集到用户会话文本数据的线上活动事件,比如vr游戏交互事件、焦点舆情讨论事件、数字办公协作事件、智慧医疗服务事件等。对于一些示例而言,不少于两个初始线上活动事件可以是事先设置的初始线上活动事件簇中的不少于两个。
27.在一些可能的设计思路下,各初始线上活动事件的第一用户会话文本簇中可涵盖该初始线上活动事件的至少一个用户会话文本。线上活动事件的各用户会话文本可以是对该线上活动事件在相应的活动阶段/活动周期/会话阶段/会话周期存在于相应的会话场景/活动场景内的文本数据信息。一般而言,可以通过活动日志收集或会话大数据收集等不同的方式收集各初始线上活动事件在不同活动阶段/活动周期/会话阶段/会话周期存在于不同的会话场景/活动场景内的文本数据信息,确定出各初始线上活动事件的至少一个用户会话文本,进而得到各初始线上活动事件的第一用户会话文本簇。对于一些示例而言,可以直接获得收集的各初始线上活动事件的用户会话文本得到各初始线上活动事件的第一用户会话文本簇。在另外的一些示例下,可以先将收集的每一线上活动事件的用户会话文本进行缓存,再通过从缓存的线上活动事件的用户会话文本记录中提取得到不少于两个初始线上活动事件中各初始线上活动事件的用户会话文本簇。
28.在一些示例下,线上活动事件携带的要素信息可涵盖线上活动事件品类,如vr游戏交互事件、社区团购活动事件、远程教育交互事件、数字办公协作事件、智慧医疗服务事
件等,也可涵盖线上活动事件的关键词要素信息,如线上活动事件的关键词区分信息、线上活动事件所对应的关键词品类、线上活动事件携带的关键词注释等。
29.对于一些可能的示例而言,不少于两个初始线上活动事件之间可以携带一致的要素信息,也可以携带相异但是存在联系的要素信息。一致的要素信息可涵盖但不限于一致的线上活动事件品类、一致的线上活动事件的关键词要素信息等。相异但是存在联系的要素信息可涵盖相异但是存在联系的线上活动事件品类,如vr游戏交互事件与数字办公协作事件、vr游戏交互事件与社区团购活动事件、远程教育交互事件与数字办公协作事件等,也可涵盖相异但是存在联系的线上活动事件的关键词要素信息,如vr游戏交互事件的关键词区分信息与该vr游戏交互事件的云社区团购活动事件的关键词区分信息、vr游戏交互事件的关键词区分信息与该vr游戏交互事件的数字办公协作事件的关键词区分信息等,还可涵盖相异但是存在联系的关键词品类,如指定的第一关键词品类与指定的第二关键词品类。一般而言,可以灵活确定不同的要素信息之间是否具有联系。
30.在step102中,对所述不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本进行文本特征相关性分析,确定出至少一个交叉性会话文本内容集。
31.对于本公开实施例而言,交叉性会话文本内容集为不少于两个初始线上活动事件的用户会话文本在会话阶段和/或会话场景层面下存在交叉的内容集。每一交叉性会话文本内容集能够反映不少于两个初始线上活动事件在一致或类似的会话阶段和/或会话场景层面下存在一例,也即不少于两个初始线上活动事件的用户会话文本在会话阶段和/或会话场景层面下存在一例交叉或者类似的情况。对不少于两个初始线上活动事件的用户会话文本簇中的用户会话文本进行文本特征相关性分析,可以理解为在会话阶段和/或会话场景层面下对不少于两个初始线上活动事件中一个初始线上活动事件的用户会话文本簇中的至少一个用户会话文本与另一个初始线上活动事件的用户会话文本簇中的至少一个用户会话文本进行基于nlp的文本特征联合分析(比如匹配分析)。通过对不少于两个初始线上活动事件的用户会话文本簇中的用户会话文本进行文本特征相关性分析,能够得到这两个初始线上活动事件之间的至少一个交叉性会话文本内容集。一般而言,可以基于不同的思路对不少于两个初始线上活动事件的用户会话文本簇中的用户会话文本进行文本特征相关性分析,确定出至少一个交叉性会话文本内容集。
32.在step103中,确定在所述至少一个交叉性会话文本内容集内存在的不同于所述不少于两个初始线上活动事件的至少一个第二线上活动事件,以及各所述第二线上活动事件在所述至少一个交叉性会话文本内容集内的第二用户会话文本簇。
33.对于本公开实施例而言,第二线上活动事件可以是在至少一个交叉性会话文本内容集内存在的除初始线上活动事件之外的不同的具有流式特性且能收集到用户会话文本数据的线上活动事件。比如,第二线上活动事件可以是在至少一个交叉性会话文本内容集存在的与初始线上活动事件因果关系的vr游戏交互事件、焦点舆情讨论事件、数字办公协作事件、智慧医疗服务事件等。一般而言,可灵活确定在至少一个交叉性会话文本内容集内存在的至少一个第二线上活动事件,以及每一第二线上活动事件在至少一个交叉性会话文本内容集内的第二用户会话文本簇。
34.对于一些示例而言,可以获得在该至少一个交叉性会话文本内容集内的至少一个关联会话文本,并对每一关联会话文本所对应的线上活动事件进行汇总,确定出在该至少
一个交叉性会话文本内容集内存在的至少一个线上活动事件;将该至少一个线上活动事件中除初始线上活动事件之外的线上活动事件作为第二线上活动事件;将至少一个关联会话文本中每一第二线上活动事件的用户会话文本添加到该第二线上活动事件的第二用户会话文本簇。
35.对于一些示例而言,可以获得在该至少一个交叉性会话文本内容集内存在的至少一个线上活动事件,将该至少一个线上活动事件中除初始线上活动事件之外的线上活动事件作为第二线上活动事件;通过获得每一第二线上活动事件在该至少一个交叉性会话文本内容集内的至少一个用户会话文本,确定出每一第二线上活动事件的第二用户会话文本簇。
36.在step104中,就各所述第二线上活动事件而言,在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性。
37.对于本公开实施例而言,活动依赖性可反映第二线上活动事件与不少于两个初始线上活动事件之间存在的各类依赖联系或者影响关系,示例性地可包括第二线上活动事件与不少于两个初始线上活动事件在事件特征层面下的活动依赖性、在要素信息层面下的活动依赖性等。
38.进一步地,用户会话文本数目判定值可以预置。一般而言,可以根据不同的活动依赖性确定相应的用户会话文本数目判定值。第二线上活动事件的第二用户会话文本簇中的各用户会话文本可反映该第二线上活动事件在至少一个交叉性会话文本内容集内存在一例,第二用户会话文本簇中用户会话文本的数目能够反映该第二线上活动事件在至少一个交叉性会话文本内容集内存在的累计值。在第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,可以确定第二线上活动事件与不少于两个初始线上活动事件之间具有活动依赖性。
39.对于一些可能的示例而言,第二线上活动事件与不少于两个初始线上活动事件存在的活动依赖性可涵盖第二线上活动事件与不少于两个初始线上活动事件在事件特征层面下的活动依赖性。在事件特征层面下的活动依赖性可涵盖第二线上活动事件与初始线上活动事件之间存在互相影响、因果关系、智慧医疗服务事件沟通、社区团购认证等状态。比如,在初始线上活动事件为第一vr游戏交互事件,第二线上活动事件为第二vr游戏交互事件的基础上,第二线上活动事件与不少于两个初始线上活动事件存在的活动依赖性可以是第二vr游戏交互事件与不少于两个第一vr游戏交互事件之间存在互相影响状态、因果关系状态等。在初始线上活动事件为第一vr游戏交互事件,第二线上活动事件为数字办公协作事件的基础上,第二线上活动事件与不少于两个初始线上活动事件存在的活动依赖性可以是不少于两个第一vr游戏交互事件与该数字办公协作事件存在用户个人信息绑定的依赖状态;在初始线上活动事件为第一vr游戏交互事件,第二线上活动事件为社区团购活动事件的基础上,第二线上活动事件与不少于两个初始线上活动事件存在的活动依赖性可以是不少于两个第一vr游戏交互事件与社区团购活动事件存在信息推送决策依赖。
40.对于一些可能的示例而言,第二线上活动事件与不少于两个初始线上活动事件存在的活动依赖性可涵盖第二线上活动事件与不少于两个初始线上活动事件在要素信息层面下的活动依赖性。在要素信息层面下的活动依赖性可涵盖第二线上活动事件与不少于两
个初始线上活动事件在要素信息层面下存在隐式联系。比如,第二线上活动事件可以是深层次的与不少于两个初始线上活动事件中任一线上活动事件具有一致或者存在联系的线上活动事件品类、线上活动事件的关键词要素信息等的线上活动事件。
41.应用于上述实施例,通过对携带一致的或者存在联系的要素信息的不少于两个初始线上活动事件的用户会话文本数据进行挖掘识别,确定出至少一个交叉性会话文本内容集,并对至少一个交叉性会话文本内容集内存在的不同于不少于两个初始线上活动事件的至少一个第二线上活动事件的用户会话文本数据进行挖掘识别,确定出与不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件,这样能够对不同线上活动事件的用户会话文本数据进行深入挖掘,以尽可能高质量地挖掘用户会话文本数据的潜在依赖特征,从而实现对大量的用户会话文本数据的事件依赖性分析和挖掘,以对海量的用户会话文本数据进行针对性整合汇总,进而为后续线上活动事件的进一步挖掘分析提供完整可靠的依据。此外,鉴于上述文本特征相关性分析可以基于自然语言处理技术得到,因而还能够通过调整相关的ai模型来提高事件依赖性分析的灵活性。
42.对于一些可能的示例而言,以上step104中在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性,可涵盖如下step111和step112所记录的内容。
43.step111,在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二用户会话文本簇中各用户会话文本配对的交叉性会话文本内容集。
44.对于本公开实施例而言,第二线上活动事件的第二用户会话文本簇中的各用户会话文本可反映该第二线上活动事件在至少一个交叉性会话文本内容集内存在一例,各用户会话文本所对应的交叉性会话文本内容集可以理解为该用户会话文本配对的交叉性会话文本内容集。一般而言,可以灵活确定第二用户会话文本簇中各用户会话文本配对的交叉性会话文本内容集。
45.对于一些示例而言,各用户会话文本可以对应一个阶段周期约束区间和一个活动场景,通过确定各用户会话文本的阶段周期约束区间和活动场景所在的交叉性会话文本内容集,可以确定各用户会话文本配对的交叉性会话文本内容集。
46.step112,在所述第二用户会话文本簇中用户会话文本配对的交叉性会话文本内容集的数目大于第一交叉数目判定值(重叠数目阈值)的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性。
47.对于本公开实施例而言,第一交叉数目判定值可以是事先预设的。一般而言,可以灵活确定对应的第一交叉数目判定值。
48.应用于以上实施例,在第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定第二用户会话文本簇中各用户会话文本配对的交叉性会话文本内容集,并在第二用户会话文本簇中用户会话文本配对的交叉性会话文本内容集的数目大于第一交叉数目判定值的基础上,确定第二线上活动事件与不少于两个初始线上活动事件之间具有活动依赖性。如此一来,可以将在大于第一交叉数目判定值的交叉性会话文本内容集中存在的第二线上活动事件作为与不少于两个初始线上活
动事件之间具有活动依赖性,从而可以提高分析效果与不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件的精度,继而可以提升对用户会话文本数据的分析针对性。
49.对于一些可能的示例而言,本公开实施例提供一种基于nlp的业务活动大数据挖掘方法还可以包括如下step201-step205所记录的技术方案。
50.step201,获得不少于两个初始线上活动事件中各所述初始线上活动事件的第一用户会话文本簇;其中,所述不少于两个初始线上活动事件携带一致的或者存在联系的要素信息,各所述第一用户会话文本簇中包含至少一个用户会话文本。
51.step202,对所述不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本进行文本特征相关性分析,确定出至少一个交叉性会话文本内容集。
52.对于本公开实施例而言,以上step201-step202分别对应于以上实施例中的step101-step102,一般而言,可以参阅以上step101-step102的示例性技术方案。
53.step203,在所述交叉性会话文本内容集的数目大于第二交叉数目判定值的基础上,确定所述不少于两个初始线上活动事件之间具有设定依赖状态。
54.对于本公开实施例而言,第二交叉数目判定值可以是事先预设的。一般而言,可以灵活确定对应的第二交叉数目判定值。
55.可以理解的是,设定依赖状态可涵盖指定的两个初始线上活动事件之间存在互相影响、因果关系、智慧医疗服务事件沟通、社区团购认证等状态,比如,指定的两个vr游戏交互事件之间存在互相影响状态。
56.step204,在所述不少于两个初始线上活动事件之间具有设定依赖状态的基础上,确定在所述至少一个交叉性会话文本内容集内存在的不同于所述不少于两个初始线上活动事件的至少一个第二线上活动事件,以及各所述第二线上活动事件在所述至少一个交叉性会话文本内容集内的第二用户会话文本簇。
57.step205,就各所述第二线上活动事件而言,在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性。
58.对于本公开实施例而言,以上step204-step205分别对应于以上实施例中的step103-step104,一般而言,可以参阅以上step103-step104的示例性技术方案。
59.在本公开实施例中,在交叉性会话文本内容集的数目大于第二交叉数目判定值的基础上,确定不少于两个初始线上活动事件之间具有设定依赖状态,并在不少于两个初始线上活动事件之间具有设定依赖状态的基础上,对与不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件进行挖掘,从而可以提高挖掘到的与不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件的精度,继而可以提升对用户会话文本数据的分析针对性。
60.对于一些可能的示例而言,所述不少于两个初始线上活动事件包括至少一个包含第一要素信息的第一线上活动交互主题和至少一个包含第二要素信息的第二线上活动交互主题,所述设定依赖状态包括所述第一线上活动交互主题与所述第二线上活动交互主题之间的事件流量吸引状态(比如不同的线上活动交互主题可能会影响其他用户的关注度或者注意力)。以上step203可涵盖如下内容。
61.step211,在所述交叉性会话文本内容集的数目大于第二交叉数目判定值的基础上,逐一确定在所述至少一个交叉性会话文本内容集内存在的第一线上活动交互主题的数目和第二线上活动交互主题的数目。
62.对于本公开实施例而言,第一要素信息和第二要素信息可以是不同的一致或者存在联系的要素信息。第二交叉数目判定值可以是事先预设的。一般而言,可以灵活确定第二交叉数目判定值。事件流量吸引状态可以理解为包含第一要素信息和包含第二要素信息的两种初始线上活动事件之间的流量吸引状态,换言之,第一线上活动交互主题和第二线上活动交互主题这两种初始线上活动事件之间的流量吸引状态。
63.step212,在所述第一线上活动交互主题的数目大于初始线上活动事件数目判定值,且所述第二线上活动交互主题的数目大于第二线上活动事件数目判定值的基础上,确定对应于所述第一线上活动交互主题与所述第二线上活动交互主题之间的事件流量吸引状态。
64.对于本公开实施例而言,初始线上活动事件数目判定值和第二线上活动事件数目判定值皆可以为事先预设的。初始线上活动事件数目判定值与第二线上活动事件数目判定值可以一致,也可以不一致。一般而言,可以灵活确定初始线上活动事件数目判定值和第二线上活动事件数目判定值。
65.应用以上实施例,在第一线上活动交互主题与第二线上活动交互主题之间具有事件流量吸引状态的基础上,可以挖掘出与存在事件流量吸引状态的不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件,从而可以进一步提高对用户会话文本数据进行有针对性的分析。
66.对于一些可能的示例而言,本公开实施例提供一种基于nlp的业务活动大数据挖掘方法可以包括以下step301-step305所记录的技术方案。
67.step301,获得不少于两个初始线上活动事件中各所述初始线上活动事件的第一用户会话文本簇。
68.示例性的,所述不少于两个初始线上活动事件携带一致的或者存在联系的要素信息,各所述第一用户会话文本簇中包含至少一个用户会话文本;各所述用户会话文本皆携带阶段数字签名。
69.对于本公开实施例而言,各用户会话文本的阶段数字签名可以对应一个阶段周期约束环节或一个阶段周期约束区间等。一般而言,可以灵活的选择阶段数字签名。比如,各用户会话文本都可以携带一个反应该用户会话文本对应于线上活动事件存在于相应的会话场景定位标签处的阶段周期约束环节的阶段数字签名。又比如,各用户会话文本都可以携带一个反应该用户会话文本所属线上活动事件在相应的会话场景定位标签处对应的阶段周期约束区间的阶段数字签名(比如时序标签)。
70.step302,对所述不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本,进行基于活动场景和自然语言处理的联合分析,确定出至少一个场景会话文本内容集以及各所述场景会话文本内容集内的不少于两个联合场景会话文本。
71.对于本公开实施例而言,每一个场景会话文本内容集能够反映不少于两个初始线上活动事件在一致或类似的会话场景定位标签(比如场景状态标签)上存在一例,可以理解,不少于两个初始线上活动事件的用户会话文本在会话场景中存在一例交叉或者类似的
情况,其中,每一场景会话文本内容集可以对应不少于两个初始线上活动事件中每一个初始线上活动事件的至少一个用户会话文本,每一场景会话文本内容集对应的各用户会话文本可以是该场景会话文本内容集内的联合场景会话文本。通过在会话场景中对不少于两个初始线上活动事件中一个初始线上活动事件的第一用户会话文本簇中的各用户会话文本与另一个初始线上活动事件的第一用户会话文本簇中的各用户会话文本进行基于nlp的文本特征联合分析,能够得到这两个初始线上活动事件之间的场景会话文本内容集,继而能够得到不少于两个初始线上活动事件之间的至少一个场景会话文本内容集以及每一场景会话文本内容集内的不少于两个联合场景会话文本。
72.一般而言,可以基于不同的思路对不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本进行基于活动场景和自然语言处理的联合分析,确定出至少一个场景会话文本内容集以及每一场景会话文本内容集内的不少于两个联合场景会话文本,本公开实施例对此不作进一步限制。比如,不少于两个初始线上活动事件中各初始线上活动事件皆可以携带一个场景数字签名,每一场景数字签名能够反映一个会话场景定位标签,可以对不少于两个初始线上活动事件中一个初始线上活动事件的第一用户会话文本簇中的各用户会话文本与另一个初始线上活动事件的第一用户会话文本簇中的各用户会话文本进行对比,在两个用户会话文本的场景数字签名对应一致或类似的会话场景定位标签的基础上,确定两个用户会话文本在会话场景中匹配,从而能够得到一个对应于这两个用户会话文本的场景会话文本内容集,这两个用户会话文本可以理解为该场景会话文本内容集内的联合场景会话文本(具有重叠/交叉的会话文本)。
73.step303,就各所述场景会话文本内容集而言,在所述场景会话文本内容集内的不少于两个联合场景会话文本在会话阶段层面下符合指定的会话周期要求的基础上,利用各所述联合场景会话文本的阶段数字签名,确定阶段会话文本内容集,并通过所述场景会话文本内容集和所述阶段会话文本内容集确定交叉性会话文本内容集。
74.对于本公开实施例而言,场景会话文本内容集可以理解为两个初始线上活动事件在一致或类似的会话场景定位标签中存在,而两个初始线上活动事件可以是同时存在的,也可以不是同时存在的,可以理解,场景会话文本内容集内的不少于两个联合场景会话文本在会话阶段层面下可以存在联系,也可能不存在联系。鉴于交叉性会话文本内容集可以理解为两个初始线上活动事件在一致或类似的时空上出现了,基于此,可以在场景会话文本内容集内的不少于两个联合场景会话文本在会话阶段层面下符合指定的会话周期要求的基础上,针对该场景会话文本内容集,确定阶段会话文本内容集,并基于该场景会话文本内容集和该阶段会话文本内容集确定一个交叉性会话文本内容集,其中,在该不少于两个联合场景会话文本可以作为该交叉性会话文本内容集内的关联会话文本。
75.进一步的,指定的会话周期要求可涵盖但不限于两个联合场景会话文本在会话阶段层面下的差异低于指定的会话阶段差异判定值、两个联合场景会话文本在一致或类似会话场景定位标签处共同对应的阶段约束值大于指定的阶段约束判定值等。比如,每一联合场景会话文本都可以携带一个反应该用户会话文本所对应的线上活动事件存在于相应的会话场景定位标签处的阶段周期约束环节(比如时间点)的阶段数字签名,基于两个联合场景会话文本的阶段数字签名可以确定两个联合场景会话文本在会话阶段层面下的差异,在该差异低于指定的会话阶段差异判定值的基础上,可以确定在该场景会话文本内容集内的
不少于两个联合场景会话文本在会话阶段层面下符合指定的会话周期要求。又如,每一联合场景会话文本都可以携带一个反应该联合场景会话文本所对应的线上活动事件在相应的会话场景定位标签处对应的阶段周期约束区间的阶段数字签名,可以通过两个联合场景会话文本的阶段数字签名对应的阶段周期约束区间之间的重叠内容确定两个联合场景会话文本在一致或类似会话场景定位标签处共同对应的阶段约束值(比如时长值),在该阶段约束值大于指定的阶段约束判定值的基础上,可以确定在该场景会话文本内容集内的不少于两个联合场景会话文本在会话阶段层面下符合指定的会话周期要求(比如时序条件)。
76.对于一些示例而言,每一场景会话文本内容集对应的阶段会话文本内容集可以是基于该场景会话文本内容集内的每一联合场景会话文本的阶段数字签名确定的。一般而言,可以基于真实需求选择适合的思路基于场景会话文本内容集内的每一联合场景会话文本的阶段数字签名,确定阶段会话文本内容集。比如,可以将每一联合场景会话文本的阶段数字签名对应的阶段周期约束区间和/或阶段周期约束环节挖掘相交部分的信息,确定出阶段会话文本内容集;也可以确定每一联合场景会话文本的阶段数字签名对应的阶段周期约束区间和/或阶段周期约束环节中的最小活动阶段/活动周期/会话阶段/会话周期值和最大活动阶段/活动周期/会话阶段/会话周期值,将该最小活动阶段/活动周期/会话阶段/会话周期值与该最大活动阶段/活动周期/会话阶段/会话周期值之间的阶段周期约束区间作为阶段会话文本内容集。
77.step304,确定在所述至少一个交叉性会话文本内容集内存在的不同于所述不少于两个初始线上活动事件的至少一个第二线上活动事件,以及各所述第二线上活动事件在所述至少一个交叉性会话文本内容集内的第二用户会话文本簇。
78.step305,就各所述第二线上活动事件而言,在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性。
79.对于一些可能的示例而言,可以在用户会话文本挖掘模块中输出一个包括至少一个场景会话文本内容集的报告,并在该报告中的每一场景会话文本内容集内输出示该场景会话文本内容集内的至少一个联合场景会话文本,以及每一与该不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件在该场景会话文本内容集内的各用户会话文本。
80.在本公开实施例中,对不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本,进行基于活动场景和自然语言处理的联合分析,确定出至少一个场景会话文本内容集以及每一场景会话文本内容集内的不少于两个联合场景会话文本,针对每一场景会话文本内容集,在该场景会话文本内容集内的不少于两个联合场景会话文本在会话阶段层面下符合指定的会话周期要求的基础上,基于每一联合场景会话文本的阶段数字签名,确定阶段会话文本内容集,并基于该场景会话文本内容集和该阶段会话文本内容集确定交叉性会话文本内容集。如此可以及时有效地确定至少一个交叉性会话文本内容集。
81.对于一些可能的示例而言,所述不少于两个初始线上活动事件包括至少一个包含第一要素信息的第一线上活动交互主题和至少一个包含第二要素信息的第二线上活动交互主题,所述第一要素信息与第二要素信息一致或者存在联系,各所述用户会话文本皆携带场景数字签名。以上step302可涵盖如下step311-step313所记录的内容。
82.step311,将各所述包含第一要素信息的第一线上活动交互主题的用户会话文本簇中的各用户会话文本作为候选的用户会话文本。
83.对于本公开实施例而言,第一要素信息和第二要素信息可以是不同的一致或者存在联系的要素信息。各用户会话文本的场景数字签名对应一个会话场景定位标签,可以是一个定位标签词,也可以是一个定位标签集。
84.step312,从各所述包含第二要素信息的第二线上活动交互主题的用户会话文本簇中,确定与至少一个所述候选的用户会话文本的场景数字签名配对的目标用户会话文本。
85.对于本公开实施例而言,两个用户会话文本的场景数字签名配对的情况可涵盖但不限于两个用户会话文本的场景数字签名对应的会话场景定位标签为同一定位标签词、两个用户会话文本的场景数字签名对应的会话场景定位标签属于同一定位标签集或者两个用户会话文本的场景数字签名对应的会话场景定位标签之间的差异低于设定的差异判定值等中的一种或多种。一般而言,可以根据实际情况基于不同的思路确定两个用户会话文本的场景数字签名是否匹配。
86.step313,就各所述目标用户会话文本而言,通过所述目标用户会话文本的场景数字签名以及与所述目标用户会话文本对应的至少一个候选的用户会话文本的场景数字签名,确定至少一个场景会话文本内容集,并将所述目标用户会话文本和所述至少一个候选的用户会话文本皆作为所述场景会话文本内容集内的联合场景会话文本。
87.对于本公开实施例而言,对于每一目标用户会话文本,该目标用户会话文本以及与该目标用户会话文本对应的候选的用户会话文本可以对应一个场景会话文本内容集。一般而言,可以基于不同的思路确定每一目标用户会话文本以及与该目标用户会话文本对应的候选的用户会话文本对应的场景会话文本内容集。比如,对于一组场景数字签名配对的目标用户会话文本与至少一个候选的用户会话文本,可以将该目标用户会话文本的场景数字签名对应的活动场景和/或场景环节,以及每一候选的用户会话文本的场景数字签名对应的活动场景和/或场景环节的统计结果,作为场景会话文本内容集;也可以将该目标用户会话文本的场景数字签名对应的活动场景和/或场景环节,以及每一候选的用户会话文本的场景数字签名对应的活动场景和/或场景环节之间的重叠内容,作为场景会话文本内容集。
88.对于一些可能的示例而言,还可以对确定的至少一个交叉性会话文本内容集进行冗余处理或者分类统计处理,确定出最后的至少一个交叉性会话文本内容集。比如,可以将活动阶段/活动周期/会话阶段/会话周期或会话场景中紧靠的多个交叉性会话文本内容集分类统计一个交叉性会话文本内容集,也可以对活动阶段/活动周期/会话阶段/会话周期或会话场景中一致的多个交叉性会话文本内容集进行冗余处理,确定出一个交叉性会话文本内容集。
89.对于一些可能的示例而言,以上step303中所述的在所述场景会话文本内容集内的不少于两个联合场景会话文本在会话阶段层面下符合指定的会话周期要求的基础上,利用各所述联合场景会话文本的阶段数字签名,确定阶段会话文本内容集,可涵盖如下描述内容。
90.step321,通过所述场景会话文本内容集内的不少于两个联合场景会话文本的阶
段数字签名,确定每两个联合场景会话文本之间的会话阶段差异。
91.对于本公开实施例而言,每一联合场景会话文本的阶段数字签名可以对应一个阶段周期约束环节,两个联合场景会话文本之间的会话阶段差异可以是这两个联合场景会话文本的阶段数字签名对应的阶段周期约束环节的比较结果。对于一些示例而言,每一联合场景会话文本的阶段数字签名可以对应一个阶段周期约束区间,两个联合场景会话文本之间的会话阶段差异可以是这两个联合场景会话文本的阶段数字签名对应的阶段周期约束区间之间的差异。一般而言,基于真实需求选择适合的思路确定每一场景会话文本内容集内每两个联合场景会话文本之间的会话阶段差异。
92.step322,在所述场景会话文本内容集内指向相异线上活动事件的联合场景会话文本之间的最小会话阶段差异低于指定的阶段判定值的基础上,利用各所述联合场景会话文本的阶段数字签名,确定阶段会话文本内容集。
93.对于本公开实施例而言,对于每一场景会话文本内容集,可以确定该场景会话文本内容集内每一联合场景会话文本的阶段数字签名,基于每一联合场景会话文本的阶段数字签名可以确定指向相异线上活动事件的每两个联合场景会话文本之间的会话阶段差异,其中最小的会话阶段差异可以为指向相异线上活动事件的联合场景会话文本之间的最小会话阶段差异,在该最小会话阶段差异低于指定的阶段判定值的基础上,可以基于该场景会话文本内容集内的每一联合场景会话文本的阶段数字签名确定阶段会话文本内容集。
94.指定的阶段判定值可以是事先预设的。一般而言,可以灵活确定指定的阶段判定值。
95.对于一些可能的示例而言,在不少于两个初始线上活动事件之间具有设定依赖状态的基础上,可以根据不少于两个初始线上活动事件之间的设定依赖状态确定匹配的指定的阶段判定值。比如,对于需要进行持续操作的设定依赖状态,可配置较小的指定的阶段判定值,比如,对于设定依赖状态为两个设定线上活动事件之间存在互相影响行为的情形,需要两个线上活动事件同时存在于一致或类似的会话场景定位标签处,可配置一个较小的指定的阶段判定值,比如,5s、10s、15s等。又比如,对于不需要进行持续操作的设定依赖状态,可配置较大的指定的阶段判定值,比如,对于设定依赖状态为两个线上活动事件之间的延时的智慧医疗服务事件沟通行为的情形,两个线上活动事件可以同时存在于一致或类似的会话场景定位标签处,也可以不是同时存在于一致或类似的会话场景定位标签处,可配置一个较大的指定的阶段判定值,如12h、24h等。
96.应用以上实施例,可以全面地确定每一场景会话文本内容集内至少一个联合场景会话文本之间的阶段会话文本内容集,进而可以精准地确定在邻近活动阶段/活动周期/会话阶段/会话周期存在于一致或类似会话场景定位标签处的至少一个初始线上活动事件之间的交叉性会话文本内容集,进而进一步提高对第二线上活动事件与不少于两个初始线上活动事件之间的活动依赖性进行分析的质量。
97.对于一些可能的示例而言,各所述用户会话文本是基于收集的业务活动日志确定的基础上,所述场景数字签名包括如下一项或多项:收集用户会话文本对应的业务活动日志的业务日志收集线程的区分信息、收集用户会话文本对应的业务活动日志的业务日志收集线程的配置参数;所述阶段数字签名包括如下一项或多项:用户会话文本对应的业务活动日志的收集时段、用户会话文本对应的业务活动日志的收集时序节点。可以理解,业务活
动日志可以是业务日志收集线程收集的包括线上活动事件的部分业务活动日志,也可以是包括线上活动事件的全部业务活动日志。
98.应用以上实施例,可以基于设置于不同会话场景定位标签处的业务日志收集线程收集的数量较大的业务活动日志,确定不少于两个初始线上活动事件以及第二线上活动事件的用户会话文本,进而能够提高获得的用户会话文本在会话阶段和/或会话场景层面下的影响度,继而可以提升对第二线上活动事件与不少于两个初始线上活动事件之间的活动依赖性进行分析的质量。
99.对于一些可能的示例而言,各所述用户会话文本是基于收集的会话大数据捕捉信息确定的基础上,所述场景数字签名包括用户会话文本对应的捕捉窗口的配置参数;所述阶段数字签名包括如下一项或多项:用户会话文本对应的会话大数据捕捉信息的收集时段、用户会话文本对应的会话大数据捕捉信息的收集时序节点。对于一些示例而言,会话大数据捕捉信息可涵盖结合不同的捕捉线程收集的线上活动事件的捕捉窗口。一般而言,结合的捕捉线程可涵盖但不限于任何适用信息捕捉的捕捉线程。
100.应用以上实施例,可以基于捕捉线程收集的数量较大的会话大数据捕捉信息确定不少于两个初始线上活动事件以及第二线上活动事件的用户会话文本,从而可以进一步提高获得的用户会话文本在会话阶段和/或会话场景层面下的影响度,继而可以提升对第二线上活动事件与不少于两个初始线上活动事件之间的活动依赖性进行分析的质量。
101.对于一些可能的示例而言,本公开实施例提供一种基于nlp的业务活动大数据挖掘方法可以包括如下step401-step405所记录的内容。
102.step401,通过不少于一种要素信息,从待定的线上活动事件簇中确定所述不少于两个初始线上活动事件;其中,各所述初始线上活动事件携带所述不少于一种要素信息中的其中一种要素信息。
103.对于本公开实施例而言,待定的线上活动事件簇可以是不同的包含不少于两个线上活动事件的簇。不少于一种要素信息包括一种要素信息或两种以上相关的要素信息,可以是事先设定的。从待定的线上活动事件簇中确定的不少于两个初始线上活动事件分别具有该不少于一种要素信息中的其中一种要素信息,也即从待定的线上活动事件簇中确定的不少于两个初始线上活动事件具有一致或者存在联系的要素信息。一般而言,可以基于真实需求选择适合的思路从待定的线上活动事件簇中确定不少于两个初始线上活动事件。比如,待定的线上活动事件簇中的每一线上活动事件皆可以携带一个要素信息区分信息,每一要素信息区分信息能够反映一种要素信息,可以通过对每一线上活动事件的要素信息区分信息与该不少于一种要素信息中的每一要素信息进行比较,确定该线上活动事件是否为具有该不少于一种要素信息中的其中一种要素信息的初始线上活动事件。
104.step402,利用预置的多模态约束,获得所述不少于两个初始线上活动事件中各所述初始线上活动事件的第一用户会话文本簇。
105.示例性的,各所述初始线上活动事件的第一用户会话文本簇中包含所述初始线上活动事件在所述多模态约束内的至少一个用户会话文本。
106.对于本公开实施例而言,多模态约束可涵盖阶段周期约束区间可活动场景。阶段周期约束区间可以是默认区间也可以是动态区间。
107.利用预置的阶段周期约束区间和活动场景,可以确定不少于两个初始线上活动事
件中每一线上活动事件在该多模态约束内的至少一个用户会话文本,从而能够得到各初始线上活动事件的第一用户会话文本簇。一般而言,可以通过不同的思路,获得不少于两个初始线上活动事件中各初始线上活动事件在该多模态约束内的至少一个用户会话文本,确定出各初始线上活动事件的第一用户会话文本簇。
108.step403,对所述不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本进行文本特征相关性分析,确定出至少一个交叉性会话文本内容集。
109.step404,确定在所述至少一个交叉性会话文本内容集内存在的不同于所述不少于两个初始线上活动事件的至少一个第二线上活动事件,以及各所述第二线上活动事件在所述至少一个交叉性会话文本内容集内的第二用户会话文本簇。
110.step405,就各所述第二线上活动事件而言,在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性。
111.在本公开实施例中,通过不少于一种要素信息,从待定的线上活动事件簇中确定不少于两个初始线上活动事件,其中,各初始线上活动事件具有不少于一种要素信息中的其中一种要素信息;并利用预置的多模态约束,获得不少于两个初始线上活动事件中各初始线上活动事件的用户会话文本簇;其中,各初始线上活动事件的用户会话文本簇中包含初始线上活动事件在该多模态约束内的至少一个用户会话文本。如此,能够灵活快捷地获得携带一致的或者存在联系的要素信息的不少于两个初始线上活动事件在预设的多模态约束内的用户会话文本数据,从而可以识别出在该多模态约束内与不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件。
112.对于一些可能的示例而言,以上step402可涵盖如下内容。
113.step411,对所述多模态约束进行拆分操作,确定出若干个模态约束分支;对于本公开实施例而言,每一模态约束分支可涵盖一个对应的活动阶段/活动周期/会话阶段/会话周期区间和一个对应的活动场景。对于一些示例而言,可以在活动阶段/活动周期/会话阶段/会话周期维度和/或空间维度对多模态约束进行等分拆分操作,比如结合预设的活动阶段/活动周期/会话阶段/会话周期步长在活动阶段/活动周期/会话阶段/会话周期维度上将该多模态约束拆解为若干个活动周期一致的模态约束分支,或结合预设的空间步长在空间维度上将该多模态约束划分为多个空间面积相等的模态约束分支。对于一些示例而言,可以对多模态约束进行非等分拆分操作,确定出多个阶段约束值不等和/或空间面积不等的模态约束分支。一般而言,基于真实需求选择适合的思路对多模态约束进行拆分操作。
114.step412,采用并行处理思路,并行获得所述不少于两个初始线上活动事件中各所述初始线上活动事件在各所述模态约束分支内的至少一个用户会话文本,确定出所述不少于两个线上活动事件中各所述线上活动事件的第一用户会话文本簇。
115.对于本公开实施例而言,可以通过同时实施多个并行处理项目的方式,获得不少于两个初始线上活动事件中各初始线上活动事件在每一模态约束分支内的至少一个用户会话文本。
116.一般而言,可以基于不同的思路确定至少一个用于获得用户会话文本的并行处理项目,通过实施每一并行处理项目,能够得到不少于两个初始线上活动事件中各初始线上
活动事件在每一模态约束分支内的至少一个用户会话文本,继而能够得到不少于两个初始线上活动事件中各初始线上活动事件的用户会话文本簇。每一并行处理项目可以是分布式任务等不同的并行处理机制实施的。每一个并行处理项目可以获得不少于两个初始线上活动事件中各初始线上活动事件在一个模态约束分支内的至少一个用户会话文本,也可以仅获得一个初始线上活动事件在一个模态约束分支内的至少一个用户会话文本。
117.应用以上实施例,对多模态约束进行拆分操作,确定出若干个模态约束分支,并采用并行处理思路,并行获得不少于两个初始线上活动事件中各初始线上活动事件在每一模态约束分支内的至少一个用户会话文本,确定出不少于两个初始线上活动事件中各初始线上活动事件的用户会话文本簇。如此,采用并行处理思路,可以进一步提高获得不少于两个初始线上活动事件中各初始线上活动事件的用户会话文本簇的效率,继而可以提升对与不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件进行挖掘质量。
118.对于一些可能的示例而言,本公开实施例提供一种基于nlp的业务活动大数据挖掘方法可以包括如下step501-step506所记录的内容。
119.step501,获得不少于两个初始线上活动事件中各所述初始线上活动事件的第一用户会话文本簇;所述不少于两个初始线上活动事件携带一致的或者存在联系的要素信息,各所述第一用户会话文本簇中包含至少一个用户会话文本。
120.step502,对所述不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本进行文本特征相关性分析,确定出至少一个交叉性会话文本内容集。
121.step503,确定在所述至少一个交叉性会话文本内容集内存在的不同于所述不少于两个初始线上活动事件的至少一个第二线上活动事件,以及各所述第二线上活动事件在所述至少一个交叉性会话文本内容集内的第二用户会话文本簇。
122.step504,就各所述第二线上活动事件而言,在所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性。
123.step505,就各所述第二线上活动事件而言,在确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性的基础上,通过所述第二线上活动事件的第二用户会话文本簇中用户会话文本的数目,确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间的依赖程度值。
124.对于本公开实施例而言,依赖程度值可以是不同的对第二线上活动事件与不少于两个初始线上活动事件之间的依赖指数进行反应的程度信息。一般而言,可以基于真实需求选择适合的思路确定第二线上活动事件与不少于两个初始线上活动事件之间的依赖程度值。
125.对于一些示例而言,可以事先选择符合真实需求的思路确定用户会话文本的数目与依赖程度值之间的匹配关系,从而可以基于第二线上活动事件的第二用户会话文本簇中用户会话文本的数目,确定与该数目对应的第二线上活动事件与不少于两个初始线上活动事件之间的依赖程度值。
126.step506,利用各所述第二线上活动事件与所述不少于两个初始线上活动事件之间的依赖程度值,创建并输出挖掘报告。
127.对于本公开实施例而言,可以针对每一第二线上活动事件,基于该第二线上活动
事件与不少于两个初始线上活动事件之间的依赖程度值,创建并输出一组挖掘报告。其中,该挖掘报告可涵盖用于对该第二线上活动事件与不少于两个初始线上活动事件之间的活动依赖性进行挖掘的不同的报告。
128.对于一些示例而言,可以基于每一第二线上活动事件与不少于两个初始线上活动事件之间的依赖程度值,创建并输出一组挖掘报告。其中,该挖掘报告可涵盖用于对每一第二线上活动事件与不少于两个初始线上活动事件之间的活动依赖性进行挖掘的不同的报告。
129.本公开实施例中,可以在第二线上活动事件与不少于两个线上活动事件之间具有活动依赖性的基础上,根据该第二线上活动事件的第二用户会话文本簇中用户会话文本的数目,确定相应的依赖程度值,并基于该依赖程度值,输出挖掘报告,以对该活动依赖性进行挖掘。
130.对于另外的一些独立性实施例而言,还可以包括如下step601-step604所记录的内容。
131.step601,对不少于两个初始线上活动事件的第一用户会话文本簇中的用户会话文本进行文本特征相关性分析,确定出至少一个交叉性会话文本内容集。
132.对于本公开实施例而言,指定的两种初始线上活动事件可涵盖指定的第一品类的初始线上活动事件和第二品类的初始线上活动事件,其中,第一品类和第二品类可以是动态可调的。不少于两个初始线上活动事件可涵盖进行关键词标示后的至少一个第一品类的初始线上活动事件和至少一个第二品类的初始线上活动事件。对于进行关键词标示后的第一品类的初始线上活动事件和第二品类的初始线上活动事件的用户会话文本在会话阶段和/或会话场景层面下进行基于nlp的文本特征联合分析,可以确定至少一个初始线上活动事件与至少一个初始线上活动事件之间的至少一个交叉性会话文本内容集。
133.对于一些示例而言,可以获得在指定的阶段周期约束区间内不少于两个初始线上活动事件的各用户会话文本,从而得到不少于两个初始线上活动事件的第一用户会话文本簇。指定的阶段周期约束区间可以是动态可调的。比如,指定的阶段周期约束区间可以是当前活动阶段/活动周期/会话阶段/会话周期之前的一个活动周期,默认指定的阶段周期约束区间为当前活动阶段/活动周期/会话阶段/会话周期之前的24h内。
134.step602,在不少于两个初始线上活动事件之间的交叉性会话文本内容集的数目大于第二交叉数目判定值的基础上,确定指定的两种初始线上活动事件之间不少于两个初始线上活动事件存在活动关联。
135.step603,在该不少于两个初始线上活动事件存在活动关联的基础上,确定在至少一个交叉性会话文本内容集内存在的除该不少于两个初始线上活动事件之外的至少一个第二线上活动事件,以及每一第二线上活动事件在该至少一个交叉性会话文本内容集内的第二用户会话文本簇。
136.step604,针对每一第二线上活动事件,在该第二线上活动事件的第二用户会话文本簇中用户会话文本的数目大于用户会话文本数目判定值的基础上,确定该第二线上活动事件与该不少于两个初始线上活动事件之间具有活动依赖性。
137.对于一些可能的示例而言,可以汇总交叉性会话文本内容集的累计值、各交叉性会话文本内容集内的关联会话文本的累计值以及各关联会话文本所对应的初始线上活动
事件;基于各初始线上活动事件的线上活动事件关键词区分信息,确定出噪声清洗后的初始线上活动事件清单以及初始线上活动事件清单中初始线上活动事件的数目;汇总初始线上活动事件清单中每一线上活动事件对应的关联会话文本的数目。
138.对于一些可能的示例而言,可以在用户会话文本挖掘模块输出第一品类(类型)的初始线上活动事件的线上活动事件累计值、第二品类的初始线上活动事件的线上活动事件累计值、每一品类的初始线上活动事件在指定的阶段周期约束区间内的用户会话文本的数目、在至少一个交叉性会话文本内容集内存在的初始线上活动事件的数目、在至少一个交叉性会话文本内容集内的关联会话文本的数目、以及每一关联会话文本。
139.对于一些可独立的实施例而言,在确定所述第二线上活动事件与所述不少于两个初始线上活动事件之间具有活动依赖性之后,该方法还可以包括如下内容:根据具有活动依赖性的所述第二线上活动事件以及所述不少于两个初始线上活动事件,确定活动事件体验反馈;基于所述活动事件体验反馈,确定目标业务活动场景的业务功能升级策略;利用所述业务功能升级策略对所述目标业务活动场景进行业务功能升级。
140.对于一些可独立的实施例而言,可以将具有活动依赖性的所述第二线上活动事件以及所述不少于两个初始线上活动事件进行汇总,得到线上活动事件簇,然后提取出线上活动事件簇的活动事件体验反馈,该活动事件体验反馈可以包括用户的使用反馈或者评论等,然后基于活动事件体验反馈确定与线上活动事件簇对应的目标业务活动场景还需要进行哪些方面的功能优化升级,即业务功能升级策略,在此基础上,可以利用业务功能升级策略实现针对性的业务功能升级,从而最大范围地满足不同线上活动事件所对应的用户业务需求。
141.对于一些可独立的实施例而言,基于所述活动事件体验反馈,确定目标业务活动场景的业务功能升级策略,可以包括如下内容:提取所述活动事件体验反馈的反馈观点情绪字段;利用所述活动事件体验反馈的反馈观点情绪字段,访问预设反馈观点情绪存储集,获得与所述活动事件体验反馈的反馈观点情绪字段匹配的第一活动反馈观点情绪字段示例,其中,所述预设反馈观点情绪存储集包括多个活动反馈观点情绪字段示例;根据所述第一活动反馈观点情绪字段示例和预设功能需求字段存储集,获得与所述活动事件体验反馈的反馈观点情绪字段匹配的不少于一个目标业务功能需求字段,其中,所述预设功能需求字段存储集包括多个业务功能需求字段;基于所述目标业务功能需求字段生成目标业务活动场景的业务功能升级策略。如此设计,可以借助预设反馈观点情绪存储集以及预设功能需求字段存储集进行目标业务功能需求字段的定位,从而基于目标业务功能需求字段完整准确地生成业务功能升级策略。
142.对于一些可独立的实施例而言,所述利用所述活动事件体验反馈的反馈观点情绪字段,访问预设反馈观点情绪存储集,获得与所述活动事件体验反馈的反馈观点情绪字段匹配的第一活动反馈观点情绪字段示例,包括:提取所述活动事件体验反馈的反馈观点情绪字段的第一业务需求描述字段;根据所述第一业务需求描述字段,从所述预设反馈观点情绪存储集记录的多个活动反馈观点情绪字段示例中确定所述第一活动反馈观点情绪字段示例。如此设计,可以提高与所述活动事件体验反馈的反馈观点情绪字段匹配的第一活动反馈观点情绪字段示例的精度和可信度。
143.对于一些可独立的实施例而言,所述根据所述第一业务需求描述字段,从所述预
设反馈观点情绪存储集记录的多个活动反馈观点情绪字段示例中确定所述第一活动反馈观点情绪字段示例,包括:基于所述第一业务需求描述字段与所述多个活动反馈观点情绪字段示例对应的多个第二业务需求描述字段中每个第二业务需求描述字段之间的词向量差异,从所述多个活动反馈观点情绪字段示例中确定所述第一活动反馈观点情绪字段示例。如此设计,可以提高第一活动反馈观点情绪字段示例的精度和可信度。
144.对于一些可独立的实施例而言,所述基于所述第一业务需求描述字段与所述多个活动反馈观点情绪字段示例对应的多个第二业务需求描述字段中每个第二业务需求描述字段之间的词向量差异,从所述多个活动反馈观点情绪字段示例中确定所述第一活动反馈观点情绪字段示例,包括:将所述多个第二业务需求描述字段中与所述第一业务需求描述字段之间的词向量差异最小的第二业务需求描述字段所对应的不少于一个活动反馈观点情绪字段示例确定为所述第一活动反馈观点情绪字段示例;或者将所述多个第二业务需求描述字段中与所述第一业务需求描述字段之间的词向量差异不大于第一阈值的第二业务需求描述字段所对应的不少于一个活动反馈观点情绪字段示例确定为所述第一活动反馈观点情绪字段示例。如此设计,可以确保第一活动反馈观点情绪字段示例的确定不会出现遗漏。
145.对于一些可独立的实施例而言,所述多个活动反馈观点情绪字段示例中的至少两个活动反馈观点情绪字段示例构成指向于相同需求项目的反馈情绪变化信息,所述至少两个活动反馈观点情绪字段示例对应的第二业务需求描述字段为所述至少两个活动反馈观点情绪字段示例形成的反馈情绪变化信息的全局业务需求描述字段。
146.图3是示出可以实现本公开的实施例的基于nlp的业务活动大数据挖掘方法的应用环境的架构示意图,基于nlp的业务活动大数据挖掘方法的应用环境中可以包括互相通信的大数据挖掘平台系统100和业务活动用户端200。基于此,大数据挖掘平台系统100和业务活动用户端200在运行时实现或者部分实现本公开实施例的基于nlp的业务活动大数据挖掘方法。
147.以上已经结合附图描述了本公开的实施例,至少具有如下有益效果:通过对携带一致的或者存在联系的要素信息的不少于两个初始线上活动事件的用户会话文本数据进行挖掘识别,确定出至少一个交叉性会话文本内容集,并对至少一个交叉性会话文本内容集内存在的不同于不少于两个初始线上活动事件的至少一个第二线上活动事件的用户会话文本数据进行挖掘识别,确定出与不少于两个初始线上活动事件之间具有活动依赖性的第二线上活动事件,这样能够对不同线上活动事件的用户会话文本数据进行深入挖掘,以尽可能高质量地挖掘用户会话文本数据的潜在依赖特征,从而实现对大量的用户会话文本数据的事件依赖性分析和挖掘,以对海量的用户会话文本数据进行针对性整合汇总,进而为后续线上活动事件的进一步挖掘分析提供完整可靠的依据。此外,鉴于上述文本特征相关性分析可以基于自然语言处理技术得到,因而还能够通过调整相关的ai模型来提高事件依赖性分析的灵活性。
148.以上所述,仅为本公开的较佳实施例而已,并非用于限定本公开的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献