一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于大数据的话题用户画像处理方法及人工智能服务器与流程

2021-11-03 12:34:00 来源:中国专利 TAG:


1.本技术涉及大数据和话题分析技术领域,更具体地,涉及一种基于大数据的话题用户画像处理方法及人工智能服务器。


背景技术:

2.用户画像(persona)又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用(比如在线购物、舆情分析、话题分析等)。
3.在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,能够真实反映用户的多个维度的需求。
4.现目前,随着大数据的快速发展,用户在社交网络上的各类话题交流越来越频繁,话题用户画像信息同样蕴含着许多有价值的内容。为此,在一些场景下需要对话题用户画像信息进行挖掘和分析,而在进行话题用户画像信息挖掘之前,如何对话题用户画像信息进行汇总是相对比较重要的。然而相关的话题用户画像处理技术仍然存在一些缺陷。


技术实现要素:

5.本技术的一个目的是提供一种用于进行画像图谱处理的新技术方案。
6.根据本技术的第一方面,提供一种基于大数据的话题用户画像处理方法,包括:判断当前采集的用户操作数据是否满足预设的话题关注检测条件,如果是,确定所述用户操作数据为第一话题关注操作数据;将所述第一话题关注操作数据导入已建立的第一话题用户画像图谱,并获取与第一话题用户画像图谱相关联的历史话题画像图谱,所述历史话题画像图谱与所述第一话题用户画像图谱对应同一热点话题;依据所述历史话题画像图谱判断是否需要对第一话题用户画像图谱进行调整;若是,则依据所述历史话题画像图谱调整所述第一话题用户画像图谱。
7.根据本技术的第二方面,提供一种人工智能服务器,包括:存储器,用于存储可执行的指令;处理器,用于根据所述可执行的指令的控制,运行所述电子设备执行上述的方法。
8.根据本技术的一个实施例,通过在判断到当前采集的用户操作数据满足话题关注检测条件时,将该用户操作数据确定为第一话题关注操作数据导入已建立的第一话题用户画像图谱,并获取与该第一话题用户画像图谱相关联,且对应同一热点话题的历史话题画像图谱,并在依据该历史话题画像图谱判断出需要对第一话题用户画像图谱进行调整时,依据该历史话题画像图谱对第一话题用户画像图谱进行调整,实现了对在变化的话题环境下的话题用户画像图谱的建立,并且由于在建立话题用户画像图谱的过程中,依据同一热点话题的历史话题画像图谱对已建立的话题用户画像图谱进行调整,可以削弱已建立的话题用户画像图谱在时序层面的的偏差积累,进而确保的话题用户画像图谱在尽可能长的时
间段内的准确性以及可扩展性,以便实现对话题用户画像图谱的实时更新迭代。
9.通过以下参照附图对本技术的示例性实施例的详细描述,本技术的其它特征及其优点将会变得清楚。
附图说明
10.被结合在说明书中并构成说明书的一部分的附图示出了本技术的实施例,并且连同其说明一起用于解释本技术的原理。
11.图1是示出可以实现本技术的实施例的人工智能服务器的一种硬件配置的框图。
12.图2是示出可以实现本技术的实施例的人工智能服务器的另一种硬件配置的框图。
13.图3是示出可以实现本技术的实施例的基于大数据的话题用户画像处理方法的流程图。
14.图4是示出可以实现本技术的实施例的基于大数据的话题用户画像处理系统的架构示意图。
具体实施方式
15.现在将参照附图来详细描述本技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本技术的范围。
16.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本技术及其应用或使用的任何限制。
17.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
18.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
19.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
20.<硬件配置>图1是示出可以实现本技术的实施例的人工智能服务器100的一种硬件配置的框图,人工智能服务器100可以包括处理器110和存储器120,存储器120用于存储可执行的指令,处理器110用于根据可执行的指令的控制,运行人工智能服务器100执行本技术中的基于大数据的话题用户画像处理方法。
21.图2是示出可以实现本技术的实施例的人工智能服务器100的另一种硬件配置的框图,人工智能服务器100可以包括处理器110、存储器120和基于大数据的话题用户画像处理装置400,基于大数据的话题用户画像处理装置400包括至少一个可以软件或固件(firmware)的形式储存于所述存储器120中的软件功能模块,所述处理器110通过运行存储在存储器120内的软件程序以及模块,例如本技术实施例中的基于大数据的话题用户画像处理装置400,从而执行各种功能应用以及数据处理,即实现本技术实施例中的基于大数据的话题用户画像处理方法。
22.<方法实施例>图3是示出可以实现本技术的实施例的基于大数据的话题用户画像处理方法的流程图,基于大数据的话题用户画像处理方法可以通过图1或图2所示的人工智能服务器100实现,进一步可以包括以下步骤100

步骤300所描述的技术方案。
23.步骤s100、人工智能服务器判断当前采集的用户操作数据是否满足预设的话题关注检测条件,如果是,确定所述用户操作数据为第一话题关注操作数据。
24.可以理解的是,人工智能服务器可以从社交用户终端中获取用户操作数据(在获得社交用户终端的授权的前提下),然后对用户操作数据进行话题关注检测条件判断。比如,可以提取用户操作数据的操作行为特征,并将操作行为特征与预设的行为特征进行相似度比较,在相似度达到设定值时判定用户操作数据满足预设的话题关注检测条件,进而确定用户操作数据为第一话题关注操作数据。
25.例如,第一话题关注操作数据可以指针对热门话题或者舆情的一些列操作行为,比如点赞、收藏、转发等。
26.步骤s200、人工智能服务器将所述第一话题关注操作数据导入已建立的第一话题用户画像图谱,并获取与第一话题用户画像图谱相关联的历史话题画像图谱,所述历史话题画像图谱与所述第一话题用户画像图谱对应同一热点话题。
27.在本技术实施例中,话题用户画像图谱通过图形化方式汇总和展示话题用户的画像信息,包括评论画像、业务需求画像等。换言之,话题用户画像图谱可以尽可能多地汇总不同类型的用户画像,在一些可能的条件下,也可以勾画用户的评论性画像或者情绪画像等。
28.例如,历史话题画像图谱可以与第一话题用户画像图谱在时序上存在关联,比如历史话题画像图谱的生成时刻在第一话题用户画像图谱的生成时刻的几分钟前或者几个小时前。
29.此外,热点话题包括购物话题、体育话题、娱乐话题等,再次不作限定。
30.步骤s300、人工智能服务器依据所述历史话题画像图谱判断是否需要对第一话题用户画像图谱进行调整;若是,则依据所述历史话题画像图谱调整所述第一话题用户画像图谱。
31.在本技术实施例中,由于话题用户画像图谱是不断更新的,在更新过程中可能会出现些许偏差,如果不及时进行调整和修正,可能导致偏差累积,从而影响后续话题用户画像图谱的可用性,为此,可以结合历史话题画像图谱对第一话题用户画像图谱进行调整,从而削弱已建立的话题用户画像图谱在时序层面的的偏差积累,进而确保的话题用户画像图谱在尽可能长的时间段内的准确性以及可扩展性,以便实现对话题用户画像图谱的实时更新迭代。
32.在一些可能的实施例中,本技术的实施例的基于大数据的话题用户画像处理方法中的步骤s300所描述的依据所述历史话题画像图谱判断是否需要对第一话题用户画像图谱进行调整,可以包括以下实施方式:检测所述历史话题画像图谱中的所有话题关注操作数据中是否存在与所述第一话题关注操作数据相匹配的第二话题关注操作数据,所述第一话题关注操作数据与所述第二话题关注操作数据中相匹配的话题关键词的数量大于第一阈值,若存在,则确定需要对第一话题用户画像图谱进行调整;和/或,检测所述历史话题画
像图谱中所有话题关注操作数据和所述第一话题用户画像图谱中的所有话题关注操作数据中,是否存在与所述第一话题关注操作数据相匹配的第三话题关注操作数据,所述第一话题关注操作数据与所述第三话题关注操作数据中相匹配的话题关键词的数量大于第二阈值,若存在,则确定需要对当前话题用户画像图谱进行调整。
33.其中,话题关键词可以通过自然语言处理技术提取得到,本技术不再进一步说明。通过考虑话题关键词,能够将不同话题关注操作数据进行全局分析,从而确保话题用户画像图谱调整判断的可信度,确保话题用户画像图谱的调整准确性和实时性。
34.在一些可能的实施例中,本技术的实施例的基于大数据的话题用户画像处理方法中的步骤s300所描述的依据所述历史话题画像图谱调整所述第一话题用户画像图谱,可以包括以下步骤s311

步骤s315。
35.步骤s311、依据所述历史话题画像图谱从所述第一话题用户画像图谱中确定待更新的话题关注数据序列l1。
36.例如,可以按照时间先后顺序形成话题关注数据序列l1。
37.此外,依据所述历史话题画像图谱从所述第一话题用户画像图谱中确定待更新的话题关注数据序列l1可以包括:依据所述历史话题画像图谱中的所有话题关注操作数据和所述第一话题用户画像图谱中的所有话题关注操作数据建立关注状态描述;将所述关注状态描述中的第一话题关注操作数据作为当前描述特征图;将当前描述特征图添加至话题关注数据序列l1,判断所述关注状态描述中是否存在当前描述特征图的上游特征图,所述当前描述特征图的上游特征图导入至第一话题用户画像图谱的时间早于所述当前描述特征图;若否,结束当前流程;若是,判断当前描述特征图与所述历史话题画像图谱之间是否满足设定的关联度测评条件,若否,将所述当前描述特征图的上游特征图确定为当前描述特征图,并返回所述将当前描述特征图添加至话题关注数据序列l1的步骤,若是,结束当前流程。
38.在本技术实施例中,关注状态描述可以是可视化描述列表或者可视化描述图,比如可以是图数据。如此设计,通过上述逐一进行特征图导入以形成话题关注数据序列l1的技术方案,能够确保话题关注数据序列l1的完整性。
39.在实际实施过程中,上述依据所述历史话题画像图谱中的所有话题关注操作数据和所述第一话题用户画像图谱中的所有话题关注操作数据建立关注状态描述,可以包括以下实施方式:针对话题关注操作数据序列l2中每一话题关注操作数据,确定该话题关注操作数据在所处话题用户画像图谱中关联的画像图数据节点的画像图数据节点集合;话题关注操作数据序列l2至少包括:所述历史话题画像图谱中的所有话题关注操作数据和所述第一话题用户画像图谱中的所有话题关注操作数据;若所述话题关注操作数据序列l2中任意两个话题关注操作数据关联的画像图数据节点集合中存在大于y个的相同的画像图数据节点,则通过有向连边将该两个话题关注操作数据关联,形成所述关注状态描述,y为大于0的自然数。
40.例如,有向连边关联话题关注操作数据以形成关注状态描述图数据或者关注状态描述特征图,能够确保关注状态描述能够进行可视化展示,提高关注状态描述的可读性。
41.可选的,对于上述实施方式所描述的判断当前描述特征图与所述历史话题画像图谱之间是否满足设定的关联度测评条件而言,进一步可以包括以下内容:判断当前描述特
征图的上游特征图是否为所述历史话题画像图谱中的话题关注操作数据,若是,确定当前描述特征图与所述历史话题画像图谱之间满足设定的关联度测评条件,若否,确定当前描述特征图与所述历史话题画像图谱之间不满足设定的关联度测评条件;和/或,判断当前描述特征图是否与所述历史话题画像图谱中的至少一个话题关注操作数据满足以下条件:相匹配的话题关键词的数量大于第三阈值;若是,确定当前描述特征图与所述历史话题画像图谱之间满足设定的关联度测评条件,若否,确定当前描述特征图与所述历史话题画像图谱之间不满足设定的关联度测评条件。
42.例如,关联度测评条件可以是强关联条件。通过引入强关联条件,能够确保对当前描述特征图与所述历史话题画像图谱之间的关联性的准确可靠判断。
43.步骤s312、确定所述话题关注数据序列l1中各话题关注操作数据的第一关注状态信息,第一关注状态信息指示关注方式信息和关注频率信息。
44.在本技术实施例中,关注方式信息可以是点赞、收藏、转发等,关注频率信息可以是重复访问点赞、收藏、转发的相关话题的频率。
45.步骤s313、将所述话题关注数据序列l1中各话题关注操作数据的第一关注状态信息作为输入传入至已训练的关注状态更新网络得到所述话题关注数据序列l1中各话题关注操作数据的第二关注状态信息。
46.例如,关注状态更新网络可以是人工智能模型网络。
47.步骤s314、针对所述话题关注数据序列l1中各话题关注操作数据,在第一话题用户画像图谱中确定与该话题关注操作数据相关联的画像图数据节点。
48.可以理解的是,画像图数据节点用于通过节点化的形式记录话题用户画像,从而在保证话题用户画像准确性的前提下确保话题用户画像之间的关联性。
49.步骤s315、依据该话题关注操作数据的第一关注状态信息、第二关注状态信息更新所述画像图数据节点在所述第一话题用户画像图谱中的关注方式。
50.比如,通过更新关注方式,能够实现对第一话题用户画像图谱中的画像图数据节点的连接状态,从而实时跟进用户的话题关注行为,比如可以及时地将用户的关注方式由点赞更新为收藏,从而进一步地更新话题用户画像信息,便于后续进行相关的业务服务或者产品推送。
51.在一些可能的实施例中,本技术的实施例的基于大数据的话题用户画像处理方法中的步骤s315所描述的依据该话题关注操作数据的第一关注状态信息、第二关注状态信息更新所述画像图数据节点在所述第一话题用户画像图谱中的关注方式包括:利用该话题关注操作数据的第一关注状态信息、第二关注状态信息对所述画像图数据节点的舆情关注方式信息进行舆情观点更新;依据更新后的舆情关注方式信息更新所述画像图数据节点在所述第一话题用户画像图谱的关注方式。
52.例如,舆情关注方式信息用于表征画像图数据节点对应的关注操作的类型,比如是跟帖评论,还是收藏评论等。进一步地,舆情观点更新可以用于对用户的舆情观点进行调整,比如用户跟帖评论的是积极评论,则可以将用户的舆情观点更新为积极观点。如此,可以依据更新后的舆情关注方式信息进一步对画像图数据节点在所述第一话题用户画像图谱的关注方式进行更新,比如将关注方式由转发(中立)更新为点赞(积极)。
53.在一些可能的实施例中,本技术的实施例的基于大数据的话题用户画像处理方法
中的步骤s300所描述的依据所述历史话题画像图谱调整所述第一话题用户画像图谱,可以包括以下步骤s321和步骤s322。
54.步骤s321、将所述历史话题画像图谱中的画像图数据节点与第一话题用户画像图谱中的画像图数据节点进行融合,得到全局话题画像图谱。
55.比如,可以将所述历史话题画像图谱中的画像图数据节点与第一话题用户画像图谱中的画像图数据节点进行连接,从而得到整体层面的全局话题画像图谱。
56.步骤s322、对所述全局话题画像图谱中的话题关注操作数据的关注状态信息和话题关注操作数据相关联的画像图数据节点的关注方式进行调整,以使调整后得到的话题用户画像图谱中,关联至少一个相同画像图数据节点的话题关注操作数据之间的关注状态信息的差异情况满足设定条件。
57.在本技术实施例中,对所述全局话题画像图谱中的话题关注操作数据的关注状态信息和话题关注操作数据相关联的画像图数据节点的关注方式进行调整,可以理解为对关注状态信息和关注方式进行更新或者修正,这样以来,可以确保调整后得到的话题用户画像图谱中关联至少一个相同画像图数据节点的话题关注操作数据之间的关注状态信息的差异尽可能不会太明显。
58.在一些可选的实施例中,本技术的实施例的基于大数据的话题用户画像处理方法中的步骤s300之后,所述方法还包括步骤s400和步骤s500。
59.步骤s400、对第一话题用户画像图谱中的所有话题关注操作数据进行分组,得到至少两个话题关注操作数据组。
60.可以理解的是,所述对第一话题用户画像图谱中的所有话题关注操作数据进行分组,得到至少两个话题关注操作数据组包括:按照遗传算法并利用第一话题用户画像图谱中所有话题关注操作数据生成话题关注操作轨迹;将所述话题关注操作轨迹的轨迹起点作为当前操作单元,针对所述话题关注操作轨迹中除当前操作单元以外的每一其他操作单元,计算当前操作单元与该其他操作单元的关注状态信息的差异情况得到第一差异描述值,若所述第一差异描述值小于预设的关注状态描述阈值,则将该其他操作单元与当前操作单元归入同一话题关注操作数据组;判断与当前操作单元归入同一话题关注操作数据组的每一其他操作单元是否具有下游操作单元,若否,结束当前流程;若是,将与当前描述特征图归入同一话题关注操作数据组的每一其他操作单元的每一下游特征图作为当前描述特征图,返回针对所述话题关注操作轨迹中除当前操作单元以外的每一其他操作单元,计算当前操作单元与该其他操作单元的关注状态信息的差异情况得到第一差异描述值的步骤。
61.遗传算法可以是最大生成树算法,操作单元可以理解为树中的结点。下游操作单元可以理解为子结点,差异描述值可以用于对差异情况进行量化表达。
62.步骤s500、针对每一话题关注操作数据组,判断该话题关注操作数据组中话题关注操作数据的数量是否大于预设的数量阈值,若是,则从话题关注操作数据组中确定话题关注冗余数据,并从第一话题用户画像图谱中剔除所述话题关注冗余数据。
63.可以理解,通过剔除话题关注冗余数据,能够提高话题关注操作数据组的数据质量,减少人工智能服务器的运算符合,提高画像图谱的生成效率。
64.在一些可能的实施例中,本技术的实施例的基于大数据的话题用户画像处理方法
中的步骤s200所描述的将所述第一话题关注操作数据导入已建立的第一话题用户画像图谱时进一步包括:记录当前时间为第一话题关注操作数据的画像信息导入时间。基于此,本技术的实施例的基于大数据的话题用户画像处理方法中的步骤s500所描述的所述从话题关注操作数据组中确定话题关注冗余数据包括:将所述话题关注操作数据组中画像信息导入时间最早的话题关注操作数据确定为话题关注冗余数据;或者,针对所述话题关注操作数据组中的每一话题关注操作数据,确定该话题关注操作数据与该话题关注操作数据组中的其他话题关注操作数据之间的区分度;将对应的区分度最小的话题关注操作数据确定为话题关注冗余数据。
65.在一些可能的实施例中,本技术的实施例的基于大数据的话题用户画像处理方法中的步骤s200所描述的将所述第一话题关注操作数据导入已建立的第一话题用户画像图谱时进一步包括:记录当前时间为第一话题关注操作数据的画像信息导入时间。基于此,本技术的实施例的基于大数据的话题用户画像处理方法中的步骤s500所描述的所述从话题关注操作数据组中确定话题关注冗余数据包括:对话题关注操作数据组中的所有话题关注操作数据进行分类,其中,同一类别中的各话题关注操作数据关联有相同的画像图数据节点;判断所有类别中是否存在满足指定条件的类别,所述指定条件为:所述类别中的话题关注操作数据不属于同一话题用户画像图谱;若是,则将所述满足指定条件的类别中画像信息导入时间最早的话题关注操作数据确定为话题关注冗余数据;若否,则将所有类别的所有话题关注操作数据中画像信息导入时间最早的话题关注操作数据确定为话题关注冗余数据。
66.可以理解的是,通过上述方案,能够从不同角度精准确定出话题关注冗余数据,从而提高数据清洗的准确性,避免对正常数据的误清洗。
67.应用本技术实施例,通过在判断到当前采集的用户操作数据满足话题关注检测条件时,将该用户操作数据确定为第一话题关注操作数据导入已建立的第一话题用户画像图谱,并获取与该第一话题用户画像图谱相关联,且对应同一热点话题的历史话题画像图谱,并在依据该历史话题画像图谱判断出需要对第一话题用户画像图谱进行调整时,依据该历史话题画像图谱对第一话题用户画像图谱进行调整,实现了对在变化的话题环境下的话题用户画像图谱的建立,并且由于在建立话题用户画像图谱的过程中,依据同一热点话题的历史话题画像图谱对已建立的话题用户画像图谱进行调整,可以削弱已建立的话题用户画像图谱在时序层面的的偏差积累,进而确保的话题用户画像图谱在尽可能长的时间段内的准确性以及可扩展性,以便实现对话题用户画像图谱的实时更新迭代。
68.在一些选择性的实施例中,人工智能服务器除了实现上述的话题用户画像图谱的实时更新迭代,还可以对评论性信息进行情绪分析,从而得到不同用户的情绪分析结果,基于此,在上述步骤s300的基础上,该方法还可以包括以下内容:通过调整后的第一话题用户画像图谱定位话题评论时段,基于所述话题评论时段获得话题评论数据,结合话题评论数据以及预设的情绪识别网络对待识别话题评论数据进行情感极性识别,得到所述待识别话题评论数据的目标情绪标签,将所述目标情绪标签存储在所述待识别话题评论数据对应的主题目录下。
69.在另一些选择性的实施例中,上述的“通过调整后的第一话题用户画像图谱定位话题评论时段,基于所述话题评论时段获得话题评论数据,结合话题评论数据以及预设的
情绪识别网络对待识别话题评论数据进行情感极性识别,得到所述待识别话题评论数据的目标情绪标签,将所述目标情绪标签存储在所述待识别话题评论数据对应的主题目录下”,可以通过以下实施方式实现。
70.s201、人工智能服务器获取n组话题评论数据;n组话题评论数据为实时汇总的话题评论数据,n为正整数。
71.人工智能服务器可从社交用户终端接收实时汇总到的话题评论数据,并对实时汇总到的话题评论数据进行存储。然后,人工智能服务器可按照预设训练周期,间歇性地通过存储的话题评论数据获取n组话题评论数据;或者,人工智能服务器可在存储的话题评论数据数目大于或等于预设存储阈值的情况下,通过存储的话题评论数据获取n组话题评论数据。
72.其中,预设训练周期可以是一个小时、一天、一周、一个月、一个季度或一年等。
73.相应的,训练周期还可以基于上述的话题评论时段确定。
74.在本技术实施例中,人工智能服务器获取实时汇总到的初始话题评论数据;对初始话题评论数据进行数据优化处理,得到目标话题评论数据;目标话题评论数据包括n组话题评论数据。
75.其中,人工智能服务器可接收来自社交用户终端的实时汇总到的初始话题评论数据;该实时汇总到的初始话题评论数据是上述实时汇总到的话题评论数据。人工智能服务器可将目标话题评论数据确定为n组话题评论数据,或者,将目标话题评论数据中的部分话题评论数据确定为n组话题评论数据。
76.例如,n组话题评论数据可以是针对相同事件、主题、话题、舆情的评论数据,n组话题评论数据可以由不同用户发出,话题评论数据可以是文本数据、语音数据或者图像数据等。
77.s202、人工智能服务器将n组话题评论数据传入到第一情绪识别网络,进行文本情绪识别处理,得到每组话题评论数据中情感极性识别结果的极性描述值;情感极性识别结果用于表征话题评论数据中文本情绪的情感极性;第一情绪识别网络为初始情绪识别网络或者为当前的情绪识别网络。
78.人工智能服务器用第一情绪识别网络对n组话题评论数据进行基于深度学习的前向推理,得到n组话题评论数据中每组话题评论数据中情感极性识别结果、每组话题评论数据中情感极性识别结果的极性描述值和文本情绪信息。其中,人工智能服务器用第一情绪识别网络对n组话题评论数据进行基于深度学习的前向推理的过程可以包括:人工智能服务器向第一情绪识别网络分别传入n组话题评论数据,运行第一情绪识别网络,第一情绪识别网络输出每组话题评论数据中情感极性识别结果、每组话题评论数据中情感极性识别结果的极性描述值和文本情绪信息。
79.其中,初始情绪识别网络是利用带有标签的话题评论训练数据训练得到的;该标签包括话题评论训练数据中情感极性识别结果、情感极性识别结果的文本情绪信息。情感极性识别结果可以包含文本情绪在话题评论数据中的尽可能多的情感极性。
80.在本技术实施例中,人工智能服务器可利用n组话题评论数据训练初始情绪识别网络,得到训练后的情绪识别网络。该训练后的情绪识别网络用于对后续实时汇总到的话题评论数据识别文本情绪,即该训练后的情绪识别网络为当前的情绪识别网络。
81.或者,人工智能服务器可利用n组话题评论数据训练当前的情绪识别网络,得到训练后的情绪识别网络。该训练后的情绪识别网络用于对后续实时汇总到的话题评论数据识别文本情绪,即该训练后的情绪识别网络为当前的情绪识别网络。
82.其中,当前的情绪识别网络是初始情绪识别网络或训练后的情绪识别网络。
83.可以理解的是,人工智能服务器对初始情绪识别网络训练得到的训练后的情绪识别网络,相较于对训练后的情绪识别网络训练得到的训练后的情绪识别网络,可以尽可能规避模型学习中的学习了新的知识之后,几乎彻底遗忘掉之前习得的内容的问题,换言之,尽可能规避出现训练后的情绪识别网络的识别性能差于初始情绪识别网络的识别性能的情况下,继续对该训练后的情绪识别网络训练导致识别性能降低的缺陷累加。其中,学习了新的知识之后,几乎彻底遗忘掉之前习得的内容可以理解为灾难性遗忘问题,该问题问题是指利用n组话题评论数据训练初始情绪识别网络得到的训练后的情绪识别网络,丢失了初始情绪识别网络具有的一些较佳的识别性能。
84.s203、人工智能服务器根据第一极性描述值阈值和获取到的情感极性识别结果的极性描述值,确定积极评价信息和消极评价信息。
85.其中,积极评价信息包括第一情感极性识别结果和n组话题评论数据中包括第一情感极性识别结果的话题评论数据,消极评价信息包括第二情感极性识别结果和n组话题评论数据中包括第二情感极性识别结果的话题评论数据;第一情感极性识别结果为极性描述值高于第一极性描述值阈值的情感极性识别结果,第二情感极性识别结果为极性描述值低于第一极性描述值阈值的情感极性识别结果;第一极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值。
86.在本技术实施例中,人工智能服务器可获取第一极性描述值阈值。人工智能服务器再针对获取到的n组话题评论数据的所有情感极性识别结果,可将n组话题评论数据的所有情感极性识别结果中极性描述值大于或等于第一极性描述值阈值的情感极性识别结果、及其所属的话题评论数据和其对应的文本情绪信息确定为积极评价信息;将n组话题评论数据的所有情感极性识别结果中极性描述值小于第一极性描述值阈值的情感极性识别结果、及其所属的话题评论数据和其对应的文本情绪信息确定为消极评价信息。其中,第一极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值。
87.需要说明的是,n组话题评论数据中的某一组话题评论数据可能被划分到积极评价信息和消极评价信息,作为积极评价信息的该组话题评论数据的情感极性识别结果和作为消极评价信息的该组话题评论数据的情感极性识别结果不同。
88.在本技术实施例中,积极评价信息和消极评价信息均包括情感极性识别结果、情感极性识别结果所属的话题评论数据和情感极性识别结果的文本情绪信息。
89.举例而言,积极评价信息可以是“好棒哦”、“点赞”、“好样的”、“好人一生平安”等。消极评价信息可以是“太让人难受了”、“这人这么这样”、“呵呵”、“傻逼啊”等。
90.可以理解,不同极性的评价信息可以反映出不同用户对相同事件、舆情的看法,从而为后续的舆情分析提供准确的依据。
91.s204、人工智能服务器根据积极评价信息和消极评价信息对第一情绪识别网络进行训练,得到第二情绪识别网络。
92.人工智能服务器可确定积极评价信息中的话题评论数据为积极评价信息的输入、
确定积极评价信息中的情感极性识别结果和情感极性识别结果的文本情绪信息为积极评价信息的输出、确定消极评价信息中的话题评论数据为消极评价信息的输入、确定消极评价信息中的情感极性识别结果和情感极性识别结果的文本情绪信息为消极评价信息的输出。然后,利用积极评价信息的输入和输出、以及消极评价信息的输入和输出,对第一情绪识别网络进行训练,得到第二情绪识别网络。
93.示例性地,人工智能服务器可以将第二情绪识别网络发送给与人工智能服务器连接的其他具有较佳运算能力的智能设备或者舆情分析终端。
94.s205、利用所述第二情绪识别网络对待识别话题评论数据进行情感极性识别,得到所述待识别话题评论数据的目标情绪标签,将所述目标情绪标签存储在所述待识别话题评论数据对应的主题目录下。
95.在本技术实施例中,待识别话题评论数据可以是针对话题a的评论数据,待识别话题评论数据可以是一条或者多条,以一条待识别话题评论数据为例,可以将待识别话题评论数据作为输入传入到第二情绪识别网络,然后得到第二情绪识别网络输出的目标情绪标签,进而将目标情绪标签存储待识别话题评论数据对应的主题目录下。
96.可以理解的是,主题目录下可以记录待识别话题评论数据对应的多个目标情绪标签,比如高兴、赞同、愤怒、悲伤、反对等,通过记录不同的目标情绪标签,能够通过这些目标情绪标签分析待识别话题评论数据对应的目标话题或者目标主题的舆情信息,从而尽可能确保得到的舆情信息是真实反映用户情绪极性的。
97.可以理解的是,人工智能服务器利用第一情绪识别网络识别出n组话题评论数据的情感极性识别结果,则对于第一情绪识别网络来说,极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果就是文本情绪识别为积极的情感极性识别结果。人工智能服务器利用大于第一情绪识别网络对应的极性描述值阈值的第一极性描述值阈值,选择极性描述值大于该第一极性描述值阈值的情感极性识别结果为积极评价信息,极性描述值小于该第一极性描述值阈值的情感极性识别结果为消极评价信息。其中,积极评价信息表示文本情绪识别为积极的情感极性识别结果,消极评价信息表示文本情绪识别为消极的情感极性识别结果。这样就可以将第一情绪识别网络识别出的文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果划分到消极评价信息中,而该文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果是第一情绪识别网络识别出的所有文本情绪识别为积极的情感极性识别结果中的精准性较低的,即该文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果是所有文本情绪识别为积极的情感极性识别结果中误识别概率最大的。因此,这样确定出的积极评价信息中的误识别概率较大的文本情绪识别为积极的情感极性识别结果(可以称为不确定积极评价信息)被有效削减,则积极评价信息的精准性高于利用第一情绪识别网络对应的极性描述值阈值确定出的文本情绪识别为积极的情感极性识别结果的精准性。进而,利用精准性高于第一情绪识别网络识别出的文本情绪识别为积极的情感极性识别结果的精准性的积极评价信息,训练第一情绪识别网络得到的第二情绪识别网络的正确识别数目更高,即提高了情绪识别网络的正确识别数目。
98.其次,积极评价信息和消极评价信息还是利用n组话题评论数据生成的,而n组话
题评论数据是实时汇总的话题评论数据,则积极评价信息和消极评价信息就是当前的话题舆论中的数据。进而,利用该积极评价信息和该消极评价信息训练得到的第二情绪识别网络在当前的话题舆论中的识别准确率更高,即提高了情绪识别网络在当前的话题舆论中的识别准确率。
99.另外,人工智能服务器利用第一情绪识别网络识别出n组话题评论数据中的情感极性识别结果、情感极性识别结果的文本情绪信息,无需人工手动标注n组话题评论数据,就可得到用于训练第一情绪识别网络的积极评价信息和消极评价信息。如此,实现了无监督的训练情绪识别网络。
100.最后,利用第二情绪识别网络对待识别话题评论数据进行情感极性识别,得到待识别话题评论数据的目标情绪标签,并将目标情绪标签存储在所述待识别话题评论数据对应的主题目录下,能够利用识别性能较佳且尽可能规避灾难性遗忘的第二情绪识别网络实现精准的情感极性识别,通过这些目标情绪标签分析待识别话题评论数据对应的目标话题或者目标主题的舆情信息,从而尽可能确保得到的舆情信息是真实反映用户情绪极性的。
101.在一些可能的实施例中,本技术实施例提供的基于人工智能的话题大数据分析方法中s201可以包括s301

s303。
102.s301、人工智能服务器获取实时汇总到的初始话题评论数据。
103.人工智能服务器可对接收到的每组初始话题评论数据执行s302

s303,以确定是否保存每组初始话题评论数据。
104.或者,人工智能服务器可先保存接收到的每组初始话题评论数据;再对存储的初始话题评论数据执行s302

s303。
105.s302、人工智能服务器将初始话题评论数据传入到当前的情绪识别网络,进行文本情绪识别处理,得到每组初始话题评论数据中情感极性识别结果。
106.人工智能服务器用当前的情绪识别网络对初始话题评论数据进行基于深度学习的前向推理,得到初始话题评论数据中每组初始话题评论数据中情感极性识别结果中情感极性识别结果,还得到每组初始话题评论数据中情感极性识别结果的极性描述值和文本情绪信息。
107.其中,人工智能服务器用当前的情绪识别网络对初始话题评论数据进行基于深度学习的前向推理的过程可以包括:人工智能服务器可将从社交用户终端接收到的每组初始话题评论数据传入到当前的情绪识别网络,输出每组初始话题评论数据中情感极性识别结果;或者,将存储的每组初始话题评论数据传入到当前的情绪识别网络,输出每组初始话题评论数据中情感极性识别结果。
108.s303、人工智能服务器对每组初始话题评论数据执行大数据处理,以得到目标话题评论数据。
109.其中,大数据处理包括:若第i组初始话题评论数据中情感极性识别结果与对应的第i

1组初始话题评论数据中情感极性识别结果之间的相似值大于预设相似值阈值,则移除第i组初始话题评论数据;i大于等于1小于等于k,k等于初始话题评论数据的数目。换言之,大数据处理可以理解为去冗余处理。
110.人工智能服务器针对第i组初始话题评论数据中的每个情感极性识别结果,确定情感极性识别结果与对应的第i

1组初始话题评论数据中情感极性识别结果之间的相似值
(文本相似度)。若第i组初始话题评论数据中的所有情感极性识别结果的相似值都大于预设相似值阈值,表示第i组初始话题评论数据是第i

1组初始话题评论数据的重复组,则人工智能服务器移除第i组初始话题评论数据。若第i组初始话题评论数据中的至少一个情感极性识别结果的相似值小于或等于预设相似值阈值,则人工智能服务器保存第i组初始话题评论数据或不移除已经保存的第i组初始话题评论数据。最后,人工智能服务器将保存的初始话题评论数据确定为目标话题评论数据。
111.其中,第i组初始话题评论数据中的每个情感极性识别结果与对应的第i

1组初始话题评论数据中的情感极性识别结果之间的相似值,大于第i组初始话题评论数据中的每个情感极性识别结果与第i

1组初始话题评论数据中的其他情感极性识别结果之间的相似值。第i

1组初始话题评论数据中的其他情感极性识别结果是除与第i组初始话题评论数据中的每个情感极性识别结果对应的情感极性识别结果之外的情感极性识别结果。
112.其中,相似值是指两个情感极性识别结果之间的词向量相似度,比如欧式距离等。
113.其中,第0组初始话题评论数据可以是预先存储在人工智能服务器中的话题评论数据。或者,第1组初始话题评论数据中情感极性识别结果与对应的第0组初始话题评论数据中情感极性识别结果之间的相似值等于0。
114.在本技术实施例中,人工智能服务器确定第i组初始话题评论数据中的所有情感极性识别结果与一一对应的第i

1组初始话题评论数据中情感极性识别结果之间的相似值大于预设相似值阈值,则移除第i组初始话题评论数据。
115.可以理解的是,人工智能服务器通过移除与第i

1组初始话题评论数据相似值高的第i组初始话题评论数据,即减少了目标话题评论数据所需的存储空间大小,又保证目标话题评论数据的数据多样性和数据区分度,减少冗余数据的占比。
116.在一些可能的实施例中,本技术实施例提供的基于人工智能的话题大数据分析方法中的s201可以包括s401

s404。
117.s401、人工智能服务器获取实时汇总到的初始话题评论数据。
118.需要说明的是,s401的详情可参见上述s301的相关说明,本技术实施例这里不予赘述。
119.s402、人工智能服务器将初始话题评论数据传入到当前的情绪识别网络,进行文本情绪识别处理,得到每组初始话题评论数据中情感极性识别结果、以及每组初始话题评论数据对应的语料描述集。
120.人工智能服务器用当前的情绪识别网络对初始话题评论数据进行基于深度学习的前向推理,得到每组初始话题评论数据中情感极性识别结果、以及每组初始话题评论数据对应的语料描述集。
121.举例而言,语料描述集可以是话题评论数据对应的文本特征向量,或者文本描述特征,在此不作限定。
122.其中,人工智能服务器用当前的情绪识别网络对初始话题评论数据进行基于深度学习的前向推理的过程可以包括:人工智能服务器可将从社交用户终端接收到的每组初始话题评论数据传入到当前的情绪识别网络,输出每组初始话题评论数据中情感极性识别结果和每组初始话题评论数据对应的语料描述集。或者,将存储的每组初始话题评论数据传入到当前的情绪识别网络,输出每组初始话题评论数据中情感极性识别结果和每组初始话
题评论数据对应的语料描述集。
123.其中,每组初始话题评论数据对应的语料描述集是当前的情绪识别网络的一个语料网络层输出的,每组初始话题评论数据中情感极性识别结果是当前的情绪识别网络的输出层输出的。其中,当前的情绪识别网络的这个语料网络层可以是与当前的情绪识别网络的输出层最接近的网络层。
124.可以理解的是,与当前的情绪识别网络的输出层越接近的网络层输出的语料描述集所记录的情感极性描述的特征维度越大,则该情感极性描述受自然语言分析误差、文本情绪干扰等的影响越小,该情感极性描述能反映出的文本情绪信息更准确。因此,可以选择与当前的情绪识别网络的输出层最接近的网络层输出的语料情感极性描述层作为每组初始话题评论数据对应的语料描述集。
125.s403、人工智能服务器对每组初始话题评论数据执行大数据处理,以得到候选话题评论数据。
126.其中,大数据处理包括:若第i组初始话题评论数据中情感极性识别结果与对应的第i

1组初始话题评论数据中情感极性识别结果之间的相似值大于预设相似值阈值,则移除第i组初始话题评论数据;i大于等于1小于等于k,k等于初始话题评论数据的数目。
127.需要说明的是,s403得到候选话题评论数据的具体过程可参见上述s303得到目标话题评论数据的相关说明,本技术实施例这里不予赘述。
128.s404、人工智能服务器在候选话题评论数据的数目大于第一预设阈值的情况下,根据候选话题评论数据和候选话题评论数据对应的语料描述集确定候选话题评论数据中情感极性识别结果的情感极性描述,并根据候选话题评论数据中情感极性识别结果的情感极性描述,对候选话题评论数据进行数据优化处理,得到目标话题评论数据。
129.在本技术实施例中,人工智能服务器针对每组候选话题评论数据执行以下步骤,以确定候选话题评论数据中情感极性识别结果的情感极性描述:按照候选话题评论数据和候选话题评论数据对应的语料描述集之间的语料描述相似度,对候选话题评论数据和候选话题评论数据中情感极性识别结果进行调整,得到调整后的候选话题评论数据和调整后的情感极性识别结果;对候选话题评论数据对应的语料描述集降维处理,得到候选话题评论数据对应的语料描述集的情感极性特征向量;确定调整后的情感极性识别结果在候选话题评论数据对应的语料描述集中的情感极性是调整后的情感极性识别结果在调整后的候选话题评论数据中的情感极性;根据调整后的情感极性识别结果在候选话题评论数据对应的语料描述集中的情感极性,从候选话题评论数据对应的语料描述集的情感极性特征向量中确定候选话题评论数据中情感极性识别结果的情感极性描述。
130.其中,候选话题评论数据中情感极性识别结果的情感极性描述可以是候选话题评论数据中情感极性识别结果的情感极性特征向量。
131.示例性地,人工智能服务器可包括话题评论数据获取模型,话题评论数据获取模型包括情感极性描述提取模块。该情感极性描述提取模块利用第一情绪识别网络对某一组候选话题评论数据进行文本情绪识别处理(换言之基于深度学习的前向推理)后,得到该组候选话题评论数据中的情感极性识别结果r1和情感极性识别结果r2、以及某一组候选话题评论数据对应的语料描述集v3。
132.然后,该情感极性描述提取模块按照该组候选话题评论数据和该组候选话题评论
数据对应的语料描述集之间的语料描述相似度,对包括情感极性识别结果r1和情感极性识别结果r2的该组候选话题评论数据进行调整,得到调整后的候选话题评论数据、以及调整后的情感极性识别结果r4和情感极性识别结果r5;然后,确定调整后的情感极性识别结果r4和情感极性识别结果r5在该组候选话题评论数据对应的语料描述集中的情感极性是调整后的情感极性识别结果r4和情感极性识别结果r5在调整后的候选话题评论数据中的情感极性;对该组候选话题评论数据对应的语料描述集降维处理,得到该组候选话题评论数据对应的语料描述集的情感极性特征向量。
133.最后,根据调整后的情感极性识别结果r4在该组候选话题评论数据对应的语料描述集中的情感极性,从将该组候选话题评论数据对应的语料描述集的情感极性特征向量中确定情感极性识别结果r1的情感极性特征向量;根据调整后的情感极性识别结果r5在该组候选话题评论数据对应的语料描述集中的情感极性,从将该组候选话题评论数据对应的语料描述集的情感极性特征向量中确定情感极性识别结果r2的情感极性特征向量。
134.在本技术实施例中,人工智能服务器得到候选话题评论数据中情感极性识别结果的情感极性描述后,对候选话题评论数据中情感极性识别结果的情感极性描述进行簇划分处理,得到至少一个第一情感极性识别结果簇;根据候选话题评论数据中情感极性识别结果的情感极性描述、以及至少一个第一情感极性识别结果簇,确定每一组候选话题评论数据中情感极性识别结果与所属的第一情感极性识别结果簇的中心簇成员之间的欧式距离的距离均值;按照距离均值,从候选话题评论数据进行移除,得到目标话题评论数据。其中,目标话题评论数据的距离均值大于候选话题评论数据中除目标话题评论数据以外的其他话题评论数据的距离均值;目标话题评论数据的数目等于第一预设阈值。
135.在本技术实施例中,人工智能服务器可以按照距离均值,对候选话题评论数据进行升序排序;然后,对排序后的候选话题评论数据依次移除距离均值最小的话题评论数据,直至排序后的候选话题评论数据的数目等于第一预设阈值,则确定排序后的候选话题评论数据为目标话题评论数据。
136.或者,人工智能服务器可从候选话题评论数据中移除距离均值小于预设距离均值阈值的话题评论数据,得到目标话题评论数据。
137.在本技术实施例中,人工智能服务器可采用k均值簇划分处理算法(k

means clustering algorithm,k

means)对候选话题评论数据中情感极性识别结果的情感极性描述进行簇划分处理。
138.可以理解的是,一个情感极性识别结果与所属的第一情感极性识别结果簇的中心簇成员之间的欧式距离越远,表示该情感极性识别结果与所属的第一情感极性识别结果簇中的中心簇成员之间的情感极性描述差异越大;因此,若某一组候选话题评论数据中的所有情感极性识别结果与所属的第一情感极性识别结果簇的中心簇成员之间的欧式距离的距离均值越大,表示该组候选话题评论数据的情感极性识别结果与所属的第一情感极性识别结果簇中的中心簇成员之间的情感极性描述差异较大,则保留该组候选话题评论数据可以提高目标话题评论数据的多样性和区分度。
139.需要说明的是,人工智能服务器对初始话题评论数据可以基于两个情感极性识别结果之间的相似值进行数据优化(比如,s302

s303所记录的处理过程或s402

s403所记录的处理过程),或者基于情感极性识别结果的情感极性描述簇划分处理结果进行数据优化
(比如,s402和s404所记录的处理过程),又或者先基于两个情感极性识别结果之间的相似值进行数据优化再基于情感极性识别结果的情感极性描述簇划分处理结果进行数据优化,本技术实施例不作限制。
140.示例性地,以人工智能服务器针对初始话题评论数据,先基于两个情感极性识别结果之间的相似值进行数据优化,再基于情感极性识别结果的情感极性描述簇划分处理结果进行数据优化为例,人工智能服务器可包括话题评论数据获取模型,话题评论数据获取模型包括:基于相似值的数据优化模块和基于情感极性描述簇划分处理的数据优化模块;基于情感极性描述簇划分处理的数据优化模块包括情感极性描述提取模块。
141.比如,人工智能服务器向话题评论数据获取模型传入初始话题评论数据和当前的情绪识别网络;基于相似值的数据优化模块执行上述s402

s403,实现对初始话题评论数据基于两个情感极性识别结果之间的相似值进行数据优化,以得到候选话题评论数据;基于情感极性描述簇划分处理的数据优化模块执行上述s404,实现对候选话题评论数据基于情感极性识别结果的情感极性描述簇划分处理结果进行数据优化,以得到目标话题评论数据。
142.在本技术实施例中,人工智能服务器训练第一情绪识别网络得到第二情绪识别网络之后,还可以判断第二情绪识别网络是否大于第一情绪识别网络,并根据判断结果确定是否对第二情绪识别网络继续训练。
143.在一些可选的实施例中,本技术实施例提供的基于人工智能的话题大数据分析方法在s204之后,可以包括s701

s703。
144.s701、人工智能服务器确定第一情绪识别网络的识别性能评价值和第二情绪识别网络的识别性能评价值。
145.人工智能服务器可以将上述目标话题评论数据划分为上述n组话题评论数据和m组话题评论数据。比如,人工智能服务器利用m组话题评论数据确定第一情绪识别网络的识别性能评价值和第二情绪识别网络的识别性能评价值。其中,m组话题评论数据为实时汇总的话题评论数据,m组话题评论数据与n组话题评论数据不同。n组话题评论数据用于训练第一情绪识别网络;m组话题评论数据用于确定情绪识别网络的识别性能评价值,m为正整数。情绪识别网络的识别性能评价值可以理解为情绪识别网络的识别能力或者性能的量化描述。
146.其中,人工智能服务器可以对目标话题评论数据随机划分成n组话题评论数据和m组话题评论数据。
147.在本技术实施例中,人工智能服务器可先获取m组话题评论数据;再将m组话题评论数据传入到第一情绪识别网络,进行文本情绪识别处理,得到每组话题评论数据中情感极性识别结果的第一极性描述值;还将m组话题评论数据传入到第二情绪识别网络,进行文本情绪识别处理,得到每组话题评论数据中情感极性识别结果的第二极性描述值;然后,确定第一数目和第二数目。其中,第一数目为第一极性描述值高于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目。第二数目为第二极性描述值高于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目。第一数目用于表征第一情绪识别网络的识别性能评价值,第二数目用于表征第二情绪识别网络的识别性能评价值。
148.人工智能服务器先用第一情绪识别网络对m组话题评论数据进行基于深度学习的
前向推理,得到m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第一情感极性识别结果)、每组话题评论数据中情感极性识别结果的极性描述值(可以称为第一极性描述值)。其中,人工智能服务器用第一情绪识别网络对m组话题评论数据进行基于深度学习的前向推理的过程可以包括:人工智能服务器分别将m组话题评论数据传入到第一情绪识别网络,第一情绪识别网络输出m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第一情感极性识别结果)、以及m组话题评论数据中每组话题评论数据中情感极性识别结果的极性描述值(可以称为第一极性描述值)等。然后,人工智能服务器统计第一极性描述值高于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目,得到第一数目num1。
149.其次,人工智能服务器还用第二情绪识别网络对m组话题评论数据进行基于深度学习的前向推理,得到m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第二情感极性识别结果)、每组话题评论数据中情感极性识别结果的极性描述值(可以称为第二极性描述值)。其中,人工智能服务器用第二情绪识别网络对m组话题评论数据进行基于深度学习的前向推理的过程可以包括:人工智能服务器还分别将m组话题评论数据传入到第二情绪识别网络,第二情绪识别网络输出m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第二情感极性识别结果)、以及m组话题评论数据中每组话题评论数据中情感极性识别结果的极性描述值(可以称为第二极性描述值)。然后,人工智能服务器统计第二极性描述值高于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目,得到第二数目num2。
150.进一步地,人工智能服务器若确定第一数目num1大于第二数目num2,则确定第一情绪识别网络的识别性能评价值大于第二情绪识别网络的识别性能评价值。人工智能服务器若确定第一数目num1小于第二数目num2,则确定第一情绪识别网络的识别性能评价值差于第二情绪识别网络的识别性能评价值,即第二情绪识别网络的识别性能评价值大于第一情绪识别网络的识别性能评价值。人工智能服务器若确定第一数目num1等于第二数目num2,则确定第一情绪识别网络的识别性能评价值与第二情绪识别网络的识别性能评价值相同。
151.可以理解的是,人工智能服务器分别用第一情绪识别网络和第二情绪识别网络,对m组话题评论数据进行文本情绪识别处理(换言之基于深度学习的前向推理),得到第一数目num1、第二数目num2。由于第一情绪识别网络和第二情绪识别网络是对相同的话题评论数据(即m组话题评论数据)进行文本情绪评估处理,并且,第一情绪识别网络对应的第一数目num1和第二情绪识别网络对应的第二数目num2都是指极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目。那么,在处理文本情绪相同、且用于统计情感极性识别结果数目的极性描述值阈值相同的情况下,通过比较第一情绪识别网络对应的第一数目num1和第二情绪识别网络对应的第二数目num2的关系,就可以确定第一情绪识别网络和第二情绪识别网络中哪一个情绪识别网络对相同的话题评论数据,识别出的极性描述值大于同一个极性描述值阈值(即第一情绪识别网络对应的极性描述值阈值)的情感极性识别结果的数目更多。而对相同的话题评论数据,识别出的极性描述值大于同一个极性描述值阈值(即第一情绪识别网络对应的极性描述值阈值)的情感极性识别结果的数目更多,则表示了该情绪识别网络的识别性能评价值更优。
152.在本技术实施例中,上述第二数目可以是第二极性描述值高于第三极性描述值阈值的情感极性识别结果的数目,第三极性描述值阈值小于第一情绪识别网络对应的极性描述值阈值。
153.需要说明的是,人工智能服务器设置的第三极性描述值阈值越小,生成第二情绪识别网络的迭代次数越少。
154.可以理解的是,极性描述值可以理解为置信度或者可信度。
155.s702、人工智能服务器在确定第二情绪识别网络的识别性能评价值大于第一情绪识别网络的识别性能评价值的情况下,确定第二情绪识别网络对应的极性描述值阈值,第二情绪识别网络用于对后续收集到的话题评论数据的识别。
156.人工智能服务器在第一数目num1小于第二数目num2时,确定第二情绪识别网络的识别性能评价值大于第一情绪识别网络的识别性能评价值。人工智能服务器确定第二情绪识别网络对应的极性描述值阈值,并将第二情绪识别网络及其对应的极性描述值阈值用于对后续收集到的话题评论数据的识别。人工智能服务器可将第二情绪识别网络及其对应的极性描述值阈值发送给与人工智能服务器连接的其他具有网络处理和运行能力的智能终端。
157.其中,第一数目num1小于第二数目num2,表示第二情绪识别网络相较于第一情绪识别网络,能够对相同的话题评论数据(即m组话题评论数据),识别出的极性描述值大于同一个极性描述值阈值(即第一情绪识别网络对应的极性描述值阈值)的情感极性识别结果的数目更多。
158.需要说明的是,情绪识别网络的识别准确率等于该情绪识别网络的积极极性数目除以全极性数目,该全极性数目是该情绪识别网络识别出的极性描述值大于该情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目。因此,如果第二情绪识别网络相较于第一情绪识别网络,能够对相同的话题评论数据,识别出的极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目更多,则表示在采用第一情绪识别网络对应的极性描述值阈值的情况下,第二情绪识别网络的全极性数目大于第一情绪识别网络的全极性数目。再结合前面上述分析到的“训练第一情绪识别网络得到的第二情绪识别网络的正确识别数目更高”可知,第二情绪识别网络的正确识别数目大于第一情绪识别网络的正确识别数目(积极极性识别数目);那么,为了提高第二情绪识别网络的识别准确率,则可以为第二情绪识别网络设置第二情绪识别网络对应的极性描述值阈值,以使得第二情绪识别网络的全极性数目等于第一情绪识别网络的全极性数目。
159.在本技术实施例中,人工智能服务器可以在确定第二情绪识别网络的识别性能评价值大于第一情绪识别网络的识别性能评价值的情况下,对上述第二情绪识别网络输出的m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第二情感极性识别结果),按照第二情绪识别网络输出m组话题评论数据中每组话题评论数据中情感极性识别结果的极性描述值(可以称为第二极性描述值),对所有的第二情感极性识别结果进行降序排序;然后,将排序后的第二情感极性识别结果中的排序编号等于第一数目的情感极性识别结果的极性描述值,作为第二情绪识别网络对应的极性描述值阈值。
160.可以理解的是,第二情绪识别网络对m组话题评论数据识别出的极性描述值大于第二情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目,就等于第一情绪识
别网络对m组话题评论数据识别出的极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目,即第二情绪识别网络的全极性数目等于第一情绪识别网络的全极性数目。进而,由于第二情绪识别网络的正确识别数目大于第一情绪识别网络的正确识别数目,则可知确定第二情绪识别网络的识别准确率大于第一情绪识别网络的识别准确率。
161.s703、人工智能服务器在确定第一情绪识别网络的识别性能评价值大于第二情绪识别网络的识别性能评价值的情况下,再次确定积极评价信息和消极评价信息;根据再次确定的积极评价信息和消极评价信息,对第一情绪识别网络进行训练。
162.在本技术实施例中,人工智能服务器可确定再次确定的积极评价信息包括消极评价信息中满足设定条件的评价信息和积极评价信息;确定再次确定的消极评价信息包括消极评价信息中除满足设定条件的评价信息以外的其他评价信息。
163.需要说明的是,由于第二情绪识别网络对消极评价信息中的上述误识别概率较大的文本情绪识别为积极的情感极性识别结果(可以称为不确定积极评价信息)具有引导作用,对消极评价信息中的真实的消极评价信息具有阻隔作用,则人工智能服务器根据消极评价信息中的每组话题评论数据中情感极性识别结果的极性描述值,从消极评价信息中确定满足设定条件的评价信息为积极评价信息。
164.其中,设定条件可以是按照情感极性识别结果的极性描述值降序排序后的消极评价信息中的前h个评价信息。h是第二预设阈值。
165.或者,设定条件可以是第二极性描述值阈值。第二极性描述值阈值可以是根据第一极性描述值阈值和/或第一情绪识别网络对应的极性描述值阈值设置的。
166.示例性地,第二极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值;或者,第二极性描述值阈值等于第一极性描述值阈值;又或者,第二极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值、且小于第一极性描述值阈值。
167.需要说明的是,第二预设阈值设置的越小,则训练第二情绪识别网络的迭代次数越多,训练第二情绪识别网络的训练效果越好,如,对识别为消极的情感极性识别结果抑制能力越高。
168.在其他的一些实施例中,本技术实施例提供的基于人工智能的话题大数据分析方法在s701之后,还可以包括s704。
169.s704、人工智能服务器在确定第二情绪识别网络的识别性能评价值等于第一情绪识别网络的识别性能评价值的情况下,确定第二情绪识别网络对应的极性描述值阈值是第一情绪识别网络对应的极性描述值阈值,第二情绪识别网络用于对后续收集到的话题评论数据的识别。
170.人工智能服务器在第一数目num1等于第二数目num2时,确定第二情绪识别网络的识别性能评价值等于第一情绪识别网络的识别性能评价值。人工智能服务器将第一情绪识别网络对应的极性描述值阈值作为第二情绪识别网络对应的极性描述值阈值,并将第二情绪识别网络及其对应的极性描述值阈值用于对后续收集到的话题评论数据的识别。人工智能服务器可将第二情绪识别网络及其对应的极性描述值阈值发送给与人工智能服务器连接的对应终端。
171.可以理解的是,人工智能服务器在对训练第一情绪识别网络得到第二情绪识别网
络,提高了第二情绪识别网络的正确识别数目之后,还可以为第二情绪识别网络设置第二情绪识别网络对应的极性描述值阈值,以使得第二情绪识别网络的全极性数目等于第一情绪识别网络的全极性数目。那么,由于第二情绪识别网络的正确识别数目大于第一情绪识别网络的正确识别数目,则可知确定第二情绪识别网络的识别准确率大于第一情绪识别网络的识别准确率。
172.在一些选择性的实施例中,本技术实施例提供的基于人工智能的话题大数据分析方法在s204之后,可以包括s205。
173.s205、人工智能服务器对所述主题目录下的目标情绪标签进行意图挖掘,得到意图挖掘结果;根据所述意图挖掘结果向所述待识别话题评论数据对应的社交用户终端进行话题推送。
174.可以理解的是,推送话题是与待识别话题评论数据的话题相关的话题,且推送话题偏向与正面、积极的话题,这样可以确保社交用户终端接收到感兴趣的话题且尽可能确保社交用户终端接收到的话题是具有积极意义的话题,避免消极话题的推送。
175.在一些选择性的实施例中,本技术实施例提供的基于人工智能的话题大数据分析方法中s205可以包括s901

s906。
176.s901、人工智能服务器获取主题目录下的目标情绪标签对应的情绪描述数据队列,其中,所述情绪描述数据队列包括不间断的x条情绪描述数据,x为大于1的整数。
177.s902、人工智能服务器根据所述情绪描述数据队列获取扰动描述数据队列,其中,所述扰动描述数据队列包括不间断的x条扰动描述数据。
178.可以理解的是,扰动描述数据可以理解为噪声数据或者干扰数据。
179.s903、人工智能服务器基于所述情绪描述数据队列,通过情绪意图挖掘线程所包括的第一意图分析单元获取情绪意图内容队列,其中,所述情绪意图内容队列包括x个情绪意图内容。
180.可以理解的是,情绪意图挖掘线程可以是神经网络模型,意图分析单元可以是特征提取网络。
181.s904、人工智能服务器基于所述扰动描述数据队列,通过所述情绪意图挖掘线程所包括的第二意图分析单元获取扰动意图内容队列,其中,所述扰动意图内容队列包括x个扰动意图内容。
182.s905、人工智能服务器基于所述情绪意图内容队列以及所述扰动意图内容队列,通过所述情绪意图挖掘线程所包括的情绪意图分类单元获取所述情绪描述数据队列所对应的情绪意图分类结果。
183.可以理解的是,情绪意图分类单元可以是全连接层。
184.s906、人工智能服务器根据所述情绪意图分类结果确定所述情绪描述数据队列的意图挖掘结果;可以理解的是,意图挖掘结果用于表征不同用户的话题关注倾向和兴趣点。
185.如此设计,通过意图挖掘结果进行话题推送,可以确保社交用户终端接收到感兴趣的话题且尽可能确保社交用户终端接收到的话题是具有积极意义的话题,避免消极话题的推送。
186.在一些选择性的实施例中,本技术实施例提供的基于人工智能的话题大数据分析
方法中s905可以包括s9051a

s9055a。
187.s9051a、人工智能服务器基于所述情绪意图内容队列,通过所述情绪意图挖掘线程所包括的第一全局特征提取单元获取x个第一意图特征,其中,每个第一意图特征对应于一个情绪意图内容。
188.s9052a、人工智能服务器基于所述扰动意图内容队列,通过所述情绪意图挖掘线程所包括的第二全局特征提取单元获取x个第二意图特征,其中,每个第二意图特征对应于一个扰动意图内容。
189.s9053a、人工智能服务器对所述x个第一意图特征以及所述x个第二意图特征进行整合处理,得到x个目标意图特征,其中,每个目标意图特征包括一个第一意图特征以及一个第二意图特征。
190.s9054a、人工智能服务器基于所述x个目标意图特征,通过所述情绪意图挖掘线程所包括的时间域关注单元获取全局意图特征,其中,所述全局意图特征为根据所述x个目标意图特征以及x个时间域系数确定的,每个目标意图特征对应于一个时间域系数。
191.可以理解的是,时间域关注单元可以理解为时间注意力网络,时间域系数可以理解为时序权重。
192.s9055a、人工智能服务器基于所述全局意图特征,通过所述情绪意图挖掘线程所包括的情绪意图分类单元获取所述情绪描述数据队列所对应的情绪意图分类结果。
193.在一些选择性的实施例中,本技术实施例提供的基于人工智能的话题大数据分析方法中s905可以包括s9051b

s9054b。
194.s9051b、人工智能服务器基于所述情绪意图内容队列,通过所述情绪意图挖掘线程所包括的第一空间域关注单元获取x个第一意图特征,其中,每个第一意图特征对应于一个情绪意图内容。
195.例如,空间域关注单元可以理解为空间注意力网络。
196.s9052b、人工智能服务器基于所述扰动意图内容队列,通过所述情绪意图挖掘线程所包括的第二空间域关注单元获取x个第二意图特征,其中,每个第二意图特征对应于一个扰动意图内容。
197.s9053b、人工智能服务器对所述x个第一意图特征以及所述x个第二意图特征进行整合处理,得到x个目标意图特征,其中,每个目标意图特征包括一个第一意图特征以及一个第二意图特征。
198.s9054b、人工智能服务器基于所述x个目标意图特征,通过所述情绪意图挖掘线程所包括的所述情绪意图分类单元获取所述情绪描述数据队列所对应的情绪意图分类结果。
199.可以理解,通过时间域关注单元或者空间域关注单元获取意图特征,并进行特征整合处理和分析,能够确保情绪意图分类结果的准确性和时效性。
200.<系统实施例>在上述的方法实施例的基础上,本技术实施例还提出了一种系统实施例,也即基于大数据的话题用户画像处理系统,请结合参阅图4,基于大数据的话题用户画像处理系统30可以包括互相通信的人工智能服务器100和社交用户终端200。进一步地,基于大数据的话题用户画像处理系统30的功能性描述如下。
201.人工智能服务器100判断当前从社交用户终端200中采集的用户操作数据是否满
足预设的话题关注检测条件,如果是,确定所述用户操作数据为第一话题关注操作数据;将所述第一话题关注操作数据导入已建立的第一话题用户画像图谱,并获取与第一话题用户画像图谱相关联的历史话题画像图谱,所述历史话题画像图谱与所述第一话题用户画像图谱对应同一热点话题;依据所述历史话题画像图谱判断是否需要对第一话题用户画像图谱进行调整;若是,则依据所述历史话题画像图谱调整所述第一话题用户画像图谱。
202.以上已经结合附图描述了本技术的实施例,根据本实施例,提供一种话题用户画像图谱构建的技术方案,通过在判断到当前采集的用户操作数据满足话题关注检测条件时,将该用户操作数据确定为第一话题关注操作数据导入已建立的第一话题用户画像图谱,并获取与该第一话题用户画像图谱相关联,且对应同一热点话题的历史话题画像图谱,并在依据该历史话题画像图谱判断出需要对第一话题用户画像图谱进行调整时,依据该历史话题画像图谱对第一话题用户画像图谱进行调整,实现了对在变化的话题环境下的话题用户画像图谱的建立,并且由于在建立话题用户画像图谱的过程中,依据同一热点话题的历史话题画像图谱对已建立的话题用户画像图谱进行调整,可以削弱已建立的话题用户画像图谱在时序层面的的偏差积累,进而确保的话题用户画像图谱在尽可能长的时间段内的准确性以及可扩展性,以便实现对话题用户画像图谱的实时更新迭代。
203.本领域技术人员公知的是,随着诸如大规模集成电路技术的电子信息技术的发展和软件硬件化的趋势,要明确划分计算机系统软、硬件界限已经显得比较困难了。因为,任何操作可以软件来实现,也可以由硬件来实现。任何指令的执行可以由硬件完成,同样也可以由软件来完成。对于某一机器功能采用硬件实现方案还是软件实现方案,取决于价格、速度、可靠性、存储容量、变更周期等非技术性因素。因此,对于电子信息技术领域的普通技术人员来说,更为直接和清楚地描述一个技术方案的方式是描述该方案中的各个操作。在知道所要执行的操作的情况下,本领域技术人员可以基于对所述非技术性因素的考虑直接设计出期望的产品。
204.本技术可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本技术的各个方面的计算机可读程序指令。
205.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd

rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
206.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计
算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
207.以上已经描述了本技术的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本技术的范围由所附权利要求来限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献