基于人工智能的话题大数据分析方法及话题分析服务器与流程

2021-11-03 12:33:00 来源：中国专利 TAG：

1.本技术涉及人工智能和话题分析技术领域，更具体地，涉及一种基于人工智能的话题大数据分析方法及话题分析服务器。

背景技术：

2.随着互联网的迅猛发展，论坛、社区、博客、购物网站等上面的评论性自然语言承载了两种信息：一是客观事实信息，二是带有人的主观感情色彩的评论性信息。评论性信息反映了人们对于某个特定对象的态度、立场和意见等。
3.现目前，针对评论性信息的情感分析能够为后续的产品升级和服务推送提供准确可靠的决策依据。传统的情感分析大多基于人工实现，然而随着信息量的暴增，人工处理情感分析的技术效率较低。为改善这一问题，相关技术通过结合人工智能（artificial intelligence，ai）实现智能化、自动化的评论性信息处理和情感分析。
4.在实际应用过程中，相关评论性信息处理和情感分析技术大多利用人工智能网络实现。然而，发明人发现，这种方式虽然能够提高评论性信息处理和情感分析的效率，但是在某些方法仍然存在一些缺陷。

技术实现要素：

5.本技术的一个目的是提供一种用于进行评论性信息处理和情感分析的新技术方案。
6.根据本技术的第一方面，提供一种基于人工智能的话题大数据分析方法，应用于话题分析服务器，所述方法包括：获取n组话题评论数据；所述n组话题评论数据为实时汇总的话题评论数据，n为正整数；将所述n组话题评论数据传入到第一情绪识别网络，进行文本情绪识别处理，得到每组话题评论数据中情感极性识别结果的极性描述值；所述情感极性识别结果用于表征话题评论数据中文本情绪的情感极性；第一情绪识别网络为初始情绪识别网络或者为当前的情绪识别网络；根据第一极性描述值阈值和获取到的情感极性识别结果的极性描述值，确定积极评价信息和消极评价信息；所述积极评价信息包括第一情感极性识别结果和所述n组话题评论数据中包括所述第一情感极性识别结果的话题评论数据，所述消极评价信息包括第二情感极性识别结果和所述n组话题评论数据中包括所述第二情感极性识别结果的话题评论数据；所述第一情感极性识别结果为极性描述值高于所述第一极性描述值阈值的情感极性识别结果，所述第二情感极性识别结果为极性描述值低于所述第一极性描述值阈值的情感极性识别结果；所述第一极性描述值阈值大于所述第一情绪识别网络对应的极性描述值阈值；根据所述积极评价信息和所述消极评价信息对所述第一情绪识别网络进行训练，
得到第二情绪识别网络；利用所述第二情绪识别网络对待识别话题评论数据进行情感极性识别，得到所述待识别话题评论数据的目标情绪标签，将所述目标情绪标签存储在所述待识别话题评论数据对应的主题目录下。
7.根据本技术的第二方面，提供一种话题分析服务器，包括：存储器，用于存储可执行的指令；处理器，用于根据所述可执行的指令的控制，运行所述话题分析服务器执行上述的方法。
8.根据本技术的一个实施例，话题分析服务器利用第一情绪识别网络识别出n组话题评论数据的情感极性识别结果，则对于第一情绪识别网络来说，极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果就是文本情绪识别为积极的情感极性识别结果。话题分析服务器利用大于第一情绪识别网络对应的极性描述值阈值的第一极性描述值阈值，选择极性描述值大于该第一极性描述值阈值的情感极性识别结果为积极评价信息，极性描述值小于该第一极性描述值阈值的情感极性识别结果为消极评价信息。其中，积极评价信息表示文本情绪识别为积极的情感极性识别结果，消极评价信息表示文本情绪识别为消极的情感极性识别结果。这样就可以将第一情绪识别网络识别出的文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果划分到消极评价信息中，而该文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果是第一情绪识别网络识别出的所有文本情绪识别为积极的情感极性识别结果中的精准性较低的，即该文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果是所有文本情绪识别为积极的情感极性识别结果中误识别概率最大的。因此，这样确定出的积极评价信息中的误识别概率较大的文本情绪识别为积极的情感极性识别结果（可以称为不确定积极评价信息）被有效削减，则积极评价信息的精准性高于利用第一情绪识别网络对应的极性描述值阈值确定出的文本情绪识别为积极的情感极性识别结果的精准性。进而，利用精准性高于第一情绪识别网络识别出的文本情绪识别为积极的情感极性识别结果的精准性的积极评价信息，训练第一情绪识别网络得到的第二情绪识别网络的正确识别数目更高，即提高了情绪识别网络的正确识别数目。
9.其次，积极评价信息和消极评价信息还是利用n组话题评论数据生成的，而n组话题评论数据是实时汇总的话题评论数据，则积极评价信息和消极评价信息就是当前的话题舆论中的数据。进而，利用该积极评价信息和该消极评价信息训练得到的第二情绪识别网络在当前的话题舆论中的识别准确率更高，即提高了情绪识别网络在当前的话题舆论中的识别准确率。
10.另外，话题分析服务器利用第一情绪识别网络识别出n组话题评论数据中的情感极性识别结果、情感极性识别结果的文本情绪信息，无需人工手动标注n组话题评论数据，就可得到用于训练第一情绪识别网络的积极评价信息和消极评价信息。如此，实现了无监督的训练情绪识别网络。
11.最后，利用第二情绪识别网络对待识别话题评论数据进行情感极性识别，得到待识别话题评论数据的目标情绪标签，并将目标情绪标签存储在所述待识别话题评论数据对应的主题目录下，能够利用识别性能较佳且尽可能规避灾难性遗忘的第二情绪识别网络实
现精准的情感极性识别，通过这些目标情绪标签分析待识别话题评论数据对应的目标话题或者目标主题的舆情信息，从而尽可能确保得到的舆情信息是真实反映用户情绪极性的。
12.通过以下参照附图对本技术的示例性实施例的详细描述，本技术的其它特征及其优点将会变得清楚。
附图说明
13.被结合在说明书中并构成说明书的一部分的附图示出了本技术的实施例，并且连同其说明一起用于解释本技术的原理。
14.图1是示出可以实现本技术的实施例的话题分析服务器的一种硬件配置的框图。
15.图2是示出可以实现本技术的实施例的话题分析服务器的另一种硬件配置的框图。
16.图3是示出可以实现本技术的实施例的基于人工智能的话题大数据分析方法的流程图。
17.图4是示出可以实现本技术的实施例的基于人工智能的话题大数据分析系统的架构示意图。
具体实施方式
18.现在将参照附图来详细描述本技术的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本技术的范围。
19.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本技术及其应用或使用的任何限制。
20.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
21.在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。
22.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
23.<硬件配置>图1是示出可以实现本技术的实施例的话题分析服务器100的一种硬件配置的框图，话题分析服务器100可以包括处理器110和存储器120，存储器120用于存储可执行的指令，处理器110用于根据可执行的指令的控制，运行话题分析服务器100执行本技术中的基于人工智能的话题大数据分析方法。
24.图2是示出可以实现本技术的实施例的话题分析服务器100的另一种硬件配置的框图，话题分析服务器100可以包括处理器110、存储器120和基于人工智能的话题大数据分析装置400，基于人工智能的话题大数据分析装置400包括至少一个可以软件或固件（firmware）的形式储存于所述存储器120中的软件功能模块，所述处理器110通过运行存储在存储器120内的软件程序以及模块，例如本技术实施例中的基于人工智能的话题大数据分析装置400，从而执行各种功能应用以及数据处理，即实现本技术实施例中的基于人工智
能的话题大数据分析方法。
25.<方法实施例>图3是示出可以实现本技术的实施例的基于人工智能的话题大数据分析方法的流程图，基于人工智能的话题大数据分析方法可以通过图1或图2所示的话题分析服务器100实现，进一步可以包括以下所描述的技术方案。
26.s201、话题分析服务器获取n组话题评论数据；n组话题评论数据为实时汇总的话题评论数据，n为正整数。
27.话题分析服务器可从社交用户终端接收实时汇总到的话题评论数据，并对实时汇总到的话题评论数据进行存储。然后，话题分析服务器可按照预设训练周期，间歇性地通过存储的话题评论数据获取n组话题评论数据；或者，话题分析服务器可在存储的话题评论数据数目大于或等于预设存储阈值的情况下，通过存储的话题评论数据获取n组话题评论数据。
28.其中，预设训练周期可以是一个小时、一天、一周、一个月、一个季度或一年等。
29.在本技术实施例中，话题分析服务器获取实时汇总到的初始话题评论数据；对初始话题评论数据进行数据优化处理，得到目标话题评论数据；目标话题评论数据包括n组话题评论数据。
30.其中，话题分析服务器可接收来自社交用户终端的实时汇总到的初始话题评论数据；该实时汇总到的初始话题评论数据是上述实时汇总到的话题评论数据。话题分析服务器可将目标话题评论数据确定为n组话题评论数据，或者，将目标话题评论数据中的部分话题评论数据确定为n组话题评论数据。
31.例如，n组话题评论数据可以是针对相同事件、主题、话题、舆情的评论数据，n组话题评论数据可以由不同用户发出，话题评论数据可以是文本数据、语音数据或者图像数据等。
32.s202、话题分析服务器将n组话题评论数据传入到第一情绪识别网络，进行文本情绪识别处理，得到每组话题评论数据中情感极性识别结果的极性描述值；情感极性识别结果用于表征话题评论数据中文本情绪的情感极性；第一情绪识别网络为初始情绪识别网络或者为当前的情绪识别网络。
33.话题分析服务器用第一情绪识别网络对n组话题评论数据进行基于深度学习的前向推理，得到n组话题评论数据中每组话题评论数据中情感极性识别结果、每组话题评论数据中情感极性识别结果的极性描述值和文本情绪信息。其中，话题分析服务器用第一情绪识别网络对n组话题评论数据进行基于深度学习的前向推理的过程可以包括：话题分析服务器向第一情绪识别网络分别传入n组话题评论数据，运行第一情绪识别网络，第一情绪识别网络输出每组话题评论数据中情感极性识别结果、每组话题评论数据中情感极性识别结果的极性描述值和文本情绪信息。
34.其中，初始情绪识别网络是利用带有标签的话题评论训练数据训练得到的；该标签包括话题评论训练数据中情感极性识别结果、情感极性识别结果的文本情绪信息。情感极性识别结果可以包含文本情绪在话题评论数据中的尽可能多的情感极性。
35.在本技术实施例中，话题分析服务器可利用n组话题评论数据训练初始情绪识别网络，得到训练后的情绪识别网络。该训练后的情绪识别网络用于对后续实时汇总到的话
题评论数据识别文本情绪，即该训练后的情绪识别网络为当前的情绪识别网络。
36.或者，话题分析服务器可利用n组话题评论数据训练当前的情绪识别网络，得到训练后的情绪识别网络。该训练后的情绪识别网络用于对后续实时汇总到的话题评论数据识别文本情绪，即该训练后的情绪识别网络为当前的情绪识别网络。
37.其中，当前的情绪识别网络是初始情绪识别网络或训练后的情绪识别网络。
38.可以理解的是，话题分析服务器对初始情绪识别网络训练得到的训练后的情绪识别网络，相较于对训练后的情绪识别网络训练得到的训练后的情绪识别网络，可以尽可能规避模型学习中的学习了新的知识之后，几乎彻底遗忘掉之前习得的内容的问题，换言之，尽可能规避出现训练后的情绪识别网络的识别性能差于初始情绪识别网络的识别性能的情况下，继续对该训练后的情绪识别网络训练导致识别性能降低的缺陷累加。其中，学习了新的知识之后，几乎彻底遗忘掉之前习得的内容可以理解为灾难性遗忘问题，该问题问题是指利用n组话题评论数据训练初始情绪识别网络得到的训练后的情绪识别网络，丢失了初始情绪识别网络具有的一些较佳的识别性能。
39.s203、话题分析服务器根据第一极性描述值阈值和获取到的情感极性识别结果的极性描述值，确定积极评价信息和消极评价信息。
40.其中，积极评价信息包括第一情感极性识别结果和n组话题评论数据中包括第一情感极性识别结果的话题评论数据，消极评价信息包括第二情感极性识别结果和n组话题评论数据中包括第二情感极性识别结果的话题评论数据；第一情感极性识别结果为极性描述值高于第一极性描述值阈值的情感极性识别结果，第二情感极性识别结果为极性描述值低于第一极性描述值阈值的情感极性识别结果；第一极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值。
41.在本技术实施例中，话题分析服务器可获取第一极性描述值阈值。话题分析服务器再针对获取到的n组话题评论数据的所有情感极性识别结果，可将n组话题评论数据的所有情感极性识别结果中极性描述值大于或等于第一极性描述值阈值的情感极性识别结果、及其所属的话题评论数据和其对应的文本情绪信息确定为积极评价信息；将n组话题评论数据的所有情感极性识别结果中极性描述值小于第一极性描述值阈值的情感极性识别结果、及其所属的话题评论数据和其对应的文本情绪信息确定为消极评价信息。其中，第一极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值。
42.需要说明的是，n组话题评论数据中的某一组话题评论数据可能被划分到积极评价信息和消极评价信息，作为积极评价信息的该组话题评论数据的情感极性识别结果和作为消极评价信息的该组话题评论数据的情感极性识别结果不同。
43.在本技术实施例中，积极评价信息和消极评价信息均包括情感极性识别结果、情感极性识别结果所属的话题评论数据和情感极性识别结果的文本情绪信息。
44.举例而言，积极评价信息可以是“好棒哦”、“点赞”、“好样的”、“好人一生平安”等。消极评价信息可以是“太让人难受了”、“这人这么这样”、“呵呵”等。
45.可以理解，不同极性的评价信息可以反映出不同用户对相同事件、舆情的看法，从而为后续的舆情分析提供准确的依据。
46.s204、话题分析服务器根据积极评价信息和消极评价信息对第一情绪识别网络进行训练，得到第二情绪识别网络。
47.话题分析服务器可确定积极评价信息中的话题评论数据为积极评价信息的输入、确定积极评价信息中的情感极性识别结果和情感极性识别结果的文本情绪信息为积极评价信息的输出、确定消极评价信息中的话题评论数据为消极评价信息的输入、确定消极评价信息中的情感极性识别结果和情感极性识别结果的文本情绪信息为消极评价信息的输出。然后，利用积极评价信息的输入和输出、以及消极评价信息的输入和输出，对第一情绪识别网络进行训练，得到第二情绪识别网络。
48.示例性地，话题分析服务器可以将第二情绪识别网络发送给与话题分析服务器连接的其他具有较佳运算能力的智能设备或者舆情分析终端。
49.s205、利用所述第二情绪识别网络对待识别话题评论数据进行情感极性识别，得到所述待识别话题评论数据的目标情绪标签，将所述目标情绪标签存储在所述待识别话题评论数据对应的主题目录下。
50.在本技术实施例中，待识别话题评论数据可以是针对话题a的评论数据，待识别话题评论数据可以是一条或者多条，以一条待识别话题评论数据为例，可以将待识别话题评论数据作为输入传入到第二情绪识别网络，然后得到第二情绪识别网络输出的目标情绪标签，进而将目标情绪标签存储待识别话题评论数据对应的主题目录下。
51.可以理解的是，主题目录下可以记录待识别话题评论数据对应的多个目标情绪标签，比如高兴、赞同、愤怒、悲伤、反对等，通过记录不同的目标情绪标签，能够通过这些目标情绪标签分析待识别话题评论数据对应的目标话题或者目标主题的舆情信息，从而尽可能确保得到的舆情信息是真实反映用户情绪极性的。
52.可以理解的是，话题分析服务器利用第一情绪识别网络识别出n组话题评论数据的情感极性识别结果，则对于第一情绪识别网络来说，极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果就是文本情绪识别为积极的情感极性识别结果。话题分析服务器利用大于第一情绪识别网络对应的极性描述值阈值的第一极性描述值阈值，选择极性描述值大于该第一极性描述值阈值的情感极性识别结果为积极评价信息，极性描述值小于该第一极性描述值阈值的情感极性识别结果为消极评价信息。其中，积极评价信息表示文本情绪识别为积极的情感极性识别结果，消极评价信息表示文本情绪识别为消极的情感极性识别结果。这样就可以将第一情绪识别网络识别出的文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果划分到消极评价信息中，而该文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果是第一情绪识别网络识别出的所有文本情绪识别为积极的情感极性识别结果中的精准性较低的，即该文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果是所有文本情绪识别为积极的情感极性识别结果中误识别概率最大的。因此，这样确定出的积极评价信息中的误识别概率较大的文本情绪识别为积极的情感极性识别结果（可以称为不确定积极评价信息）被有效削减，则积极评价信息的精准性高于利用第一情绪识别网络对应的极性描述值阈值确定出的文本情绪识别为积极的情感极性识别结果的精准性。进而，利用精准性高于第一情绪识别网络识别出的文本情绪识别为积极的情感极性识别结果的精准性的积极评价信息，训练第一情绪识别网络得到的第二情绪识别网络的正确识别数目更高，即提高了情绪识别网络的正确识别数目。
53.其次，积极评价信息和消极评价信息还是利用n组话题评论数据生成的，而n组话题评论数据是实时汇总的话题评论数据，则积极评价信息和消极评价信息就是当前的话题舆论中的数据。进而，利用该积极评价信息和该消极评价信息训练得到的第二情绪识别网络在当前的话题舆论中的识别准确率更高，即提高了情绪识别网络在当前的话题舆论中的识别准确率。
54.另外，话题分析服务器利用第一情绪识别网络识别出n组话题评论数据中的情感极性识别结果、情感极性识别结果的文本情绪信息，无需人工手动标注n组话题评论数据，就可得到用于训练第一情绪识别网络的积极评价信息和消极评价信息。如此，实现了无监督的训练情绪识别网络。
55.最后，利用第二情绪识别网络对待识别话题评论数据进行情感极性识别，得到待识别话题评论数据的目标情绪标签，并将目标情绪标签存储在所述待识别话题评论数据对应的主题目录下，能够利用识别性能较佳且尽可能规避灾难性遗忘的第二情绪识别网络实现精准的情感极性识别，通过这些目标情绪标签分析待识别话题评论数据对应的目标话题或者目标主题的舆情信息，从而尽可能确保得到的舆情信息是真实反映用户情绪极性的。
56.在一些可能的实施例中，本技术实施例提供的基于人工智能的话题大数据分析方法中s201可以包括s301
‑
s303。
57.s301、话题分析服务器获取实时汇总到的初始话题评论数据。
58.话题分析服务器可对接收到的每组初始话题评论数据执行s302
‑
s303，以确定是否保存每组初始话题评论数据。
59.或者，话题分析服务器可先保存接收到的每组初始话题评论数据；再对存储的初始话题评论数据执行s302
‑
s303。
60.s302、话题分析服务器将初始话题评论数据传入到当前的情绪识别网络，进行文本情绪识别处理，得到每组初始话题评论数据中情感极性识别结果。
61.话题分析服务器用当前的情绪识别网络对初始话题评论数据进行基于深度学习的前向推理，得到初始话题评论数据中每组初始话题评论数据中情感极性识别结果中情感极性识别结果，还得到每组初始话题评论数据中情感极性识别结果的极性描述值和文本情绪信息。
62.其中，话题分析服务器用当前的情绪识别网络对初始话题评论数据进行基于深度学习的前向推理的过程可以包括：话题分析服务器可将从社交用户终端接收到的每组初始话题评论数据传入到当前的情绪识别网络，输出每组初始话题评论数据中情感极性识别结果；或者，将存储的每组初始话题评论数据传入到当前的情绪识别网络，输出每组初始话题评论数据中情感极性识别结果。
63.s303、话题分析服务器对每组初始话题评论数据执行大数据处理，以得到目标话题评论数据。
64.其中，大数据处理包括：若第i组初始话题评论数据中情感极性识别结果与对应的第i
‑
1组初始话题评论数据中情感极性识别结果之间的相似值大于预设相似值阈值，则移除第i组初始话题评论数据；i大于等于1小于等于k，k等于初始话题评论数据的数目。换言之，大数据处理可以理解为去冗余处理。
65.话题分析服务器针对第i组初始话题评论数据中的每个情感极性识别结果，确定
情感极性识别结果与对应的第i
‑
1组初始话题评论数据中情感极性识别结果之间的相似值（文本相似度）。若第i组初始话题评论数据中的所有情感极性识别结果的相似值都大于预设相似值阈值，表示第i组初始话题评论数据是第i
‑
1组初始话题评论数据的重复组，则话题分析服务器移除第i组初始话题评论数据。若第i组初始话题评论数据中的至少一个情感极性识别结果的相似值小于或等于预设相似值阈值，则话题分析服务器保存第i组初始话题评论数据或不移除已经保存的第i组初始话题评论数据。最后，话题分析服务器将保存的初始话题评论数据确定为目标话题评论数据。
66.其中，第i组初始话题评论数据中的每个情感极性识别结果与对应的第i
‑
1组初始话题评论数据中的情感极性识别结果之间的相似值，大于第i组初始话题评论数据中的每个情感极性识别结果与第i
‑
1组初始话题评论数据中的其他情感极性识别结果之间的相似值。第i
‑
1组初始话题评论数据中的其他情感极性识别结果是除与第i组初始话题评论数据中的每个情感极性识别结果对应的情感极性识别结果之外的情感极性识别结果。
67.其中，相似值是指两个情感极性识别结果之间的词向量相似度，比如欧式距离等。
68.其中，第0组初始话题评论数据可以是预先存储在话题分析服务器中的话题评论数据。或者，第1组初始话题评论数据中情感极性识别结果与对应的第0组初始话题评论数据中情感极性识别结果之间的相似值等于0。
69.在本技术实施例中，话题分析服务器确定第i组初始话题评论数据中的所有情感极性识别结果与一一对应的第i
‑
1组初始话题评论数据中情感极性识别结果之间的相似值大于预设相似值阈值，则移除第i组初始话题评论数据。
70.可以理解的是，话题分析服务器通过移除与第i
‑
1组初始话题评论数据相似值高的第i组初始话题评论数据，即减少了目标话题评论数据所需的存储空间大小，又保证目标话题评论数据的数据多样性和数据区分度，减少冗余数据的占比。
71.在一些可能的实施例中，本技术实施例提供的基于人工智能的话题大数据分析方法中的s201可以包括s401
‑
s404。
72.s401、话题分析服务器获取实时汇总到的初始话题评论数据。
73.需要说明的是，s401的详情可参见上述s301的相关说明，本技术实施例这里不予赘述。
74.s402、话题分析服务器将初始话题评论数据传入到当前的情绪识别网络，进行文本情绪识别处理，得到每组初始话题评论数据中情感极性识别结果、以及每组初始话题评论数据对应的语料描述集。
75.话题分析服务器用当前的情绪识别网络对初始话题评论数据进行基于深度学习的前向推理，得到每组初始话题评论数据中情感极性识别结果、以及每组初始话题评论数据对应的语料描述集。
76.举例而言，语料描述集可以是话题评论数据对应的文本特征向量，或者文本描述特征，在此不作限定。
77.其中，话题分析服务器用当前的情绪识别网络对初始话题评论数据进行基于深度学习的前向推理的过程可以包括：话题分析服务器可将从社交用户终端接收到的每组初始话题评论数据传入到当前的情绪识别网络，输出每组初始话题评论数据中情感极性识别结果和每组初始话题评论数据对应的语料描述集。或者，将存储的每组初始话题评论数据传
入到当前的情绪识别网络，输出每组初始话题评论数据中情感极性识别结果和每组初始话题评论数据对应的语料描述集。
78.其中，每组初始话题评论数据对应的语料描述集是当前的情绪识别网络的一个语料网络层输出的，每组初始话题评论数据中情感极性识别结果是当前的情绪识别网络的输出层输出的。其中，当前的情绪识别网络的这个语料网络层可以是与当前的情绪识别网络的输出层最接近的网络层。
79.可以理解的是，与当前的情绪识别网络的输出层越接近的网络层输出的语料描述集所记录的情感极性描述的特征维度越大，则该情感极性描述受自然语言分析误差、文本情绪干扰等的影响越小，该情感极性描述能反映出的文本情绪信息更准确。因此，可以选择与当前的情绪识别网络的输出层最接近的网络层输出的语料情感极性描述层作为每组初始话题评论数据对应的语料描述集。
80.s403、话题分析服务器对每组初始话题评论数据执行大数据处理，以得到候选话题评论数据。
81.其中，大数据处理包括：若第i组初始话题评论数据中情感极性识别结果与对应的第i
‑
1组初始话题评论数据中情感极性识别结果之间的相似值大于预设相似值阈值，则移除第i组初始话题评论数据；i大于等于1小于等于k，k等于初始话题评论数据的数目。
82.需要说明的是，s403得到候选话题评论数据的具体过程可参见上述s303得到目标话题评论数据的相关说明，本技术实施例这里不予赘述。
83.s404、话题分析服务器在候选话题评论数据的数目大于第一预设阈值的情况下，根据候选话题评论数据和候选话题评论数据对应的语料描述集确定候选话题评论数据中情感极性识别结果的情感极性描述，并根据候选话题评论数据中情感极性识别结果的情感极性描述，对候选话题评论数据进行数据优化处理，得到目标话题评论数据。
84.在本技术实施例中，话题分析服务器针对每组候选话题评论数据执行以下步骤，以确定候选话题评论数据中情感极性识别结果的情感极性描述：按照候选话题评论数据和候选话题评论数据对应的语料描述集之间的语料描述相似度，对候选话题评论数据和候选话题评论数据中情感极性识别结果进行调整，得到调整后的候选话题评论数据和调整后的情感极性识别结果；对候选话题评论数据对应的语料描述集降维处理，得到候选话题评论数据对应的语料描述集的情感极性特征向量；确定调整后的情感极性识别结果在候选话题评论数据对应的语料描述集中的情感极性是调整后的情感极性识别结果在调整后的候选话题评论数据中的情感极性；根据调整后的情感极性识别结果在候选话题评论数据对应的语料描述集中的情感极性，从候选话题评论数据对应的语料描述集的情感极性特征向量中确定候选话题评论数据中情感极性识别结果的情感极性描述。
85.其中，候选话题评论数据中情感极性识别结果的情感极性描述可以是候选话题评论数据中情感极性识别结果的情感极性特征向量。
86.示例性地，话题分析服务器可包括话题评论数据获取模型，话题评论数据获取模型包括情感极性描述提取模块。该情感极性描述提取模块利用第一情绪识别网络对某一组候选话题评论数据进行文本情绪识别处理(换言之基于深度学习的前向推理)后，得到该组候选话题评论数据中的情感极性识别结果r1和情感极性识别结果r2、以及某一组候选话题评论数据对应的语料描述集v3。
87.然后，该情感极性描述提取模块按照该组候选话题评论数据和该组候选话题评论数据对应的语料描述集之间的语料描述相似度，对包括情感极性识别结果r1和情感极性识别结果r2的该组候选话题评论数据进行调整，得到调整后的候选话题评论数据、以及调整后的情感极性识别结果r4和情感极性识别结果r5；然后，确定调整后的情感极性识别结果r4和情感极性识别结果r5在该组候选话题评论数据对应的语料描述集中的情感极性是调整后的情感极性识别结果r4和情感极性识别结果r5在调整后的候选话题评论数据中的情感极性；对该组候选话题评论数据对应的语料描述集降维处理，得到该组候选话题评论数据对应的语料描述集的情感极性特征向量。
88.最后，根据调整后的情感极性识别结果r4在该组候选话题评论数据对应的语料描述集中的情感极性，从将该组候选话题评论数据对应的语料描述集的情感极性特征向量中确定情感极性识别结果r1的情感极性特征向量；根据调整后的情感极性识别结果r5在该组候选话题评论数据对应的语料描述集中的情感极性，从将该组候选话题评论数据对应的语料描述集的情感极性特征向量中确定情感极性识别结果r2的情感极性特征向量。
89.在本技术实施例中，话题分析服务器得到候选话题评论数据中情感极性识别结果的情感极性描述后，对候选话题评论数据中情感极性识别结果的情感极性描述进行簇划分处理，得到至少一个第一情感极性识别结果簇；根据候选话题评论数据中情感极性识别结果的情感极性描述、以及至少一个第一情感极性识别结果簇，确定每一组候选话题评论数据中情感极性识别结果与所属的第一情感极性识别结果簇的中心簇成员之间的欧式距离的距离均值；按照距离均值，从候选话题评论数据进行移除，得到目标话题评论数据。其中，目标话题评论数据的距离均值大于候选话题评论数据中除目标话题评论数据以外的其他话题评论数据的距离均值；目标话题评论数据的数目等于第一预设阈值。
90.在本技术实施例中，话题分析服务器可以按照距离均值，对候选话题评论数据进行升序排序；然后，对排序后的候选话题评论数据依次移除距离均值最小的话题评论数据，直至排序后的候选话题评论数据的数目等于第一预设阈值，则确定排序后的候选话题评论数据为目标话题评论数据。
91.或者，话题分析服务器可从候选话题评论数据中移除距离均值小于预设距离均值阈值的话题评论数据，得到目标话题评论数据。
92.在本技术实施例中，话题分析服务器可采用k均值簇划分处理算法（k
‑
means clustering algorithm，k
‑
means）对候选话题评论数据中情感极性识别结果的情感极性描述进行簇划分处理。
93.可以理解的是，一个情感极性识别结果与所属的第一情感极性识别结果簇的中心簇成员之间的欧式距离越远，表示该情感极性识别结果与所属的第一情感极性识别结果簇中的中心簇成员之间的情感极性描述差异越大；因此，若某一组候选话题评论数据中的所有情感极性识别结果与所属的第一情感极性识别结果簇的中心簇成员之间的欧式距离的距离均值越大，表示该组候选话题评论数据的情感极性识别结果与所属的第一情感极性识别结果簇中的中心簇成员之间的情感极性描述差异较大，则保留该组候选话题评论数据可以提高目标话题评论数据的多样性和区分度。
94.需要说明的是，话题分析服务器对初始话题评论数据可以基于两个情感极性识别结果之间的相似值进行数据优化（比如，s302
‑
s303所记录的处理过程或s402
‑
s403所记录
的处理过程），或者基于情感极性识别结果的情感极性描述簇划分处理结果进行数据优化（比如，s402和s404所记录的处理过程），又或者先基于两个情感极性识别结果之间的相似值进行数据优化再基于情感极性识别结果的情感极性描述簇划分处理结果进行数据优化，本技术实施例不作限制。
95.示例性地，以话题分析服务器针对初始话题评论数据，先基于两个情感极性识别结果之间的相似值进行数据优化，再基于情感极性识别结果的情感极性描述簇划分处理结果进行数据优化为例，话题分析服务器可包括话题评论数据获取模型，话题评论数据获取模型包括：基于相似值的数据优化模块和基于情感极性描述簇划分处理的数据优化模块；基于情感极性描述簇划分处理的数据优化模块包括情感极性描述提取模块。
96.比如，话题分析服务器向话题评论数据获取模型传入初始话题评论数据和当前的情绪识别网络；基于相似值的数据优化模块执行上述s402
‑
s403，实现对初始话题评论数据基于两个情感极性识别结果之间的相似值进行数据优化，以得到候选话题评论数据；基于情感极性描述簇划分处理的数据优化模块执行上述s404，实现对候选话题评论数据基于情感极性识别结果的情感极性描述簇划分处理结果进行数据优化，以得到目标话题评论数据。
97.在本技术实施例中，话题分析服务器训练第一情绪识别网络得到第二情绪识别网络之后，还可以判断第二情绪识别网络是否大于第一情绪识别网络，并根据判断结果确定是否对第二情绪识别网络继续训练。
98.在一些可选的实施例中，本技术实施例提供的基于人工智能的话题大数据分析方法在s204之后，可以包括s701
‑
s703。
99.s701、话题分析服务器确定第一情绪识别网络的识别性能评价值和第二情绪识别网络的识别性能评价值。
100.话题分析服务器可以将上述目标话题评论数据划分为上述n组话题评论数据和m组话题评论数据。比如，话题分析服务器利用m组话题评论数据确定第一情绪识别网络的识别性能评价值和第二情绪识别网络的识别性能评价值。其中，m组话题评论数据为实时汇总的话题评论数据，m组话题评论数据与n组话题评论数据不同。n组话题评论数据用于训练第一情绪识别网络；m组话题评论数据用于确定情绪识别网络的识别性能评价值，m为正整数。情绪识别网络的识别性能评价值可以理解为情绪识别网络的识别能力或者性能的量化描述。
101.其中，话题分析服务器可以对目标话题评论数据随机划分成n组话题评论数据和m组话题评论数据。
102.在本技术实施例中，话题分析服务器可先获取m组话题评论数据；再将m组话题评论数据传入到第一情绪识别网络，进行文本情绪识别处理，得到每组话题评论数据中情感极性识别结果的第一极性描述值；还将m组话题评论数据传入到第二情绪识别网络，进行文本情绪识别处理，得到每组话题评论数据中情感极性识别结果的第二极性描述值；然后，确定第一数目和第二数目。其中，第一数目为第一极性描述值高于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目。第二数目为第二极性描述值高于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目。第一数目用于表征第一情绪识别网络的识别性能评价值，第二数目用于表征第二情绪识别网络的识别性能评价值。
103.话题分析服务器先用第一情绪识别网络对m组话题评论数据进行基于深度学习的前向推理，得到m组话题评论数据中每组话题评论数据中情感极性识别结果（可以称为第一情感极性识别结果）、每组话题评论数据中情感极性识别结果的极性描述值(可以称为第一极性描述值)。其中，话题分析服务器用第一情绪识别网络对m组话题评论数据进行基于深度学习的前向推理的过程可以包括：话题分析服务器分别将m组话题评论数据传入到第一情绪识别网络，第一情绪识别网络输出m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第一情感极性识别结果)、以及m组话题评论数据中每组话题评论数据中情感极性识别结果的极性描述值(可以称为第一极性描述值)等。然后，话题分析服务器统计第一极性描述值高于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目，得到第一数目num1。
104.其次，话题分析服务器还用第二情绪识别网络对m组话题评论数据进行基于深度学习的前向推理，得到m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第二情感极性识别结果)、每组话题评论数据中情感极性识别结果的极性描述值(可以称为第二极性描述值)。其中，话题分析服务器用第二情绪识别网络对m组话题评论数据进行基于深度学习的前向推理的过程可以包括：话题分析服务器还分别将m组话题评论数据传入到第二情绪识别网络，第二情绪识别网络输出m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第二情感极性识别结果)、以及m组话题评论数据中每组话题评论数据中情感极性识别结果的极性描述值(可以称为第二极性描述值)。然后，话题分析服务器统计第二极性描述值高于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目，得到第二数目num2。
105.进一步地，话题分析服务器若确定第一数目num1大于第二数目num2，则确定第一情绪识别网络的识别性能评价值大于第二情绪识别网络的识别性能评价值。话题分析服务器若确定第一数目num1小于第二数目num2，则确定第一情绪识别网络的识别性能评价值差于第二情绪识别网络的识别性能评价值，即第二情绪识别网络的识别性能评价值大于第一情绪识别网络的识别性能评价值。话题分析服务器若确定第一数目num1等于第二数目num2，则确定第一情绪识别网络的识别性能评价值与第二情绪识别网络的识别性能评价值相同。
106.可以理解的是，话题分析服务器分别用第一情绪识别网络和第二情绪识别网络，对m组话题评论数据进行文本情绪识别处理(换言之基于深度学习的前向推理)，得到第一数目num1、第二数目num2。由于第一情绪识别网络和第二情绪识别网络是对相同的话题评论数据(即m组话题评论数据)进行文本情绪评估处理，并且，第一情绪识别网络对应的第一数目num1和第二情绪识别网络对应的第二数目num2都是指极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目。那么，在处理文本情绪相同、且用于统计情感极性识别结果数目的极性描述值阈值相同的情况下，通过比较第一情绪识别网络对应的第一数目num1和第二情绪识别网络对应的第二数目num2的关系，就可以确定第一情绪识别网络和第二情绪识别网络中哪一个情绪识别网络对相同的话题评论数据，识别出的极性描述值大于同一个极性描述值阈值(即第一情绪识别网络对应的极性描述值阈值)的情感极性识别结果的数目更多。而对相同的话题评论数据，识别出的极性描述值大于同一个极性描述值阈值(即第一情绪识别网络对应的极性描述值阈值)的情感极性识别结果
的数目更多，则表示了该情绪识别网络的识别性能评价值更优。
107.在本技术实施例中，上述第二数目可以是第二极性描述值高于第三极性描述值阈值的情感极性识别结果的数目，第三极性描述值阈值小于第一情绪识别网络对应的极性描述值阈值。
108.需要说明的是，话题分析服务器设置的第三极性描述值阈值越小，生成第二情绪识别网络的迭代次数越少。
109.可以理解的是，极性描述值可以理解为置信度或者可信度。
110.s702、话题分析服务器在确定第二情绪识别网络的识别性能评价值大于第一情绪识别网络的识别性能评价值的情况下，确定第二情绪识别网络对应的极性描述值阈值，第二情绪识别网络用于对后续收集到的话题评论数据的识别。
111.话题分析服务器在第一数目num1小于第二数目num2时，确定第二情绪识别网络的识别性能评价值大于第一情绪识别网络的识别性能评价值。话题分析服务器确定第二情绪识别网络对应的极性描述值阈值，并将第二情绪识别网络及其对应的极性描述值阈值用于对后续收集到的话题评论数据的识别。话题分析服务器可将第二情绪识别网络及其对应的极性描述值阈值发送给与话题分析服务器连接的其他具有网络处理和运行能力的智能终端。
112.其中，第一数目num1小于第二数目num2，表示第二情绪识别网络相较于第一情绪识别网络，能够对相同的话题评论数据(即m组话题评论数据)，识别出的极性描述值大于同一个极性描述值阈值(即第一情绪识别网络对应的极性描述值阈值)的情感极性识别结果的数目更多。
113.需要说明的是，情绪识别网络的识别准确率等于该情绪识别网络的积极极性数目除以全极性数目，该全极性数目是该情绪识别网络识别出的极性描述值大于该情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目。因此，如果第二情绪识别网络相较于第一情绪识别网络，能够对相同的话题评论数据，识别出的极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目更多，则表示在采用第一情绪识别网络对应的极性描述值阈值的情况下，第二情绪识别网络的全极性数目大于第一情绪识别网络的全极性数目。再结合前面上述分析到的“训练第一情绪识别网络得到的第二情绪识别网络的正确识别数目更高”可知，第二情绪识别网络的正确识别数目大于第一情绪识别网络的正确识别数目（积极极性识别数目）；那么，为了提高第二情绪识别网络的识别准确率，则可以为第二情绪识别网络设置第二情绪识别网络对应的极性描述值阈值，以使得第二情绪识别网络的全极性数目等于第一情绪识别网络的全极性数目。
114.在本技术实施例中，话题分析服务器可以在确定第二情绪识别网络的识别性能评价值大于第一情绪识别网络的识别性能评价值的情况下，对上述第二情绪识别网络输出的m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第二情感极性识别结果)，按照第二情绪识别网络输出m组话题评论数据中每组话题评论数据中情感极性识别结果的极性描述值(可以称为第二极性描述值)，对所有的第二情感极性识别结果进行降序排序；然后，将排序后的第二情感极性识别结果中的排序编号等于第一数目的情感极性识别结果的极性描述值，作为第二情绪识别网络对应的极性描述值阈值。
115.可以理解的是，第二情绪识别网络对m组话题评论数据识别出的极性描述值大于
第二情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目，就等于第一情绪识别网络对m组话题评论数据识别出的极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果的数目，即第二情绪识别网络的全极性数目等于第一情绪识别网络的全极性数目。进而，由于第二情绪识别网络的正确识别数目大于第一情绪识别网络的正确识别数目，则可知确定第二情绪识别网络的识别准确率大于第一情绪识别网络的识别准确率。
116.s703、话题分析服务器在确定第一情绪识别网络的识别性能评价值大于第二情绪识别网络的识别性能评价值的情况下，再次确定积极评价信息和消极评价信息；根据再次确定的积极评价信息和消极评价信息，对第一情绪识别网络进行训练。
117.在本技术实施例中，话题分析服务器可确定再次确定的积极评价信息包括消极评价信息中满足设定条件的评价信息和积极评价信息；确定再次确定的消极评价信息包括消极评价信息中除满足设定条件的评价信息以外的其他评价信息。
118.需要说明的是，由于第二情绪识别网络对消极评价信息中的上述误识别概率较大的文本情绪识别为积极的情感极性识别结果(可以称为不确定积极评价信息)具有引导作用，对消极评价信息中的真实的消极评价信息具有阻隔作用，则话题分析服务器根据消极评价信息中的每组话题评论数据中情感极性识别结果的极性描述值，从消极评价信息中确定满足设定条件的评价信息为积极评价信息。
119.其中，设定条件可以是按照情感极性识别结果的极性描述值降序排序后的消极评价信息中的前h个评价信息。h是第二预设阈值。
120.或者，设定条件可以是第二极性描述值阈值。第二极性描述值阈值可以是根据第一极性描述值阈值和/或第一情绪识别网络对应的极性描述值阈值设置的。
121.示例性地，第二极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值；或者，第二极性描述值阈值等于第一极性描述值阈值；又或者，第二极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值、且小于第一极性描述值阈值。
122.需要说明的是，第二预设阈值设置的越小，则训练第二情绪识别网络的迭代次数越多，训练第二情绪识别网络的训练效果越好，如，对识别为消极的情感极性识别结果抑制能力越高。
123.在其他的一些实施例中，本技术实施例提供的基于人工智能的话题大数据分析方法在s701之后，还可以包括s704。
124.s704、话题分析服务器在确定第二情绪识别网络的识别性能评价值等于第一情绪识别网络的识别性能评价值的情况下，确定第二情绪识别网络对应的极性描述值阈值是第一情绪识别网络对应的极性描述值阈值，第二情绪识别网络用于对后续收集到的话题评论数据的识别。
125.话题分析服务器在第一数目num1等于第二数目num2时，确定第二情绪识别网络的识别性能评价值等于第一情绪识别网络的识别性能评价值。话题分析服务器将第一情绪识别网络对应的极性描述值阈值作为第二情绪识别网络对应的极性描述值阈值，并将第二情绪识别网络及其对应的极性描述值阈值用于对后续收集到的话题评论数据的识别。话题分析服务器可将第二情绪识别网络及其对应的极性描述值阈值发送给与话题分析服务器连接的对应终端。
126.可以理解的是，话题分析服务器在对训练第一情绪识别网络得到第二情绪识别网络，提高了第二情绪识别网络的正确识别数目之后，还可以为第二情绪识别网络设置第二情绪识别网络对应的极性描述值阈值，以使得第二情绪识别网络的全极性数目等于第一情绪识别网络的全极性数目。那么，由于第二情绪识别网络的正确识别数目大于第一情绪识别网络的正确识别数目，则可知确定第二情绪识别网络的识别准确率大于第一情绪识别网络的识别准确率。
127.在一些选择性的实施例中，本技术实施例提供的基于人工智能的话题大数据分析方法在s204之后，可以包括s205。
128.s205、话题分析服务器对所述主题目录下的目标情绪标签进行意图挖掘，得到意图挖掘结果；根据所述意图挖掘结果向所述待识别话题评论数据对应的社交用户终端进行话题推送。
129.可以理解的是，推送话题是与待识别话题评论数据的话题相关的话题，且推送话题偏向与正面、积极的话题，这样可以确保社交用户终端接收到感兴趣的话题且尽可能确保社交用户终端接收到的话题是具有积极意义的话题，避免消极话题的推送。
130.在一些选择性的实施例中，本技术实施例提供的基于人工智能的话题大数据分析方法中s205可以包括s901
‑
s906。
131.s901、话题分析服务器获取主题目录下的目标情绪标签对应的情绪描述数据队列，其中，所述情绪描述数据队列包括不间断的x条情绪描述数据，x为大于1的整数。
132.s902、话题分析服务器根据所述情绪描述数据队列获取扰动描述数据队列，其中，所述扰动描述数据队列包括不间断的x条扰动描述数据。
133.可以理解的是，扰动描述数据可以理解为噪声数据或者干扰数据。
134.s903、话题分析服务器基于所述情绪描述数据队列，通过情绪意图挖掘线程所包括的第一意图分析单元获取情绪意图内容队列，其中，所述情绪意图内容队列包括x个情绪意图内容。
135.可以理解的是，情绪意图挖掘线程可以是神经网络模型，意图分析单元可以是特征提取网络。
136.s904、话题分析服务器基于所述扰动描述数据队列，通过所述情绪意图挖掘线程所包括的第二意图分析单元获取扰动意图内容队列，其中，所述扰动意图内容队列包括x个扰动意图内容。
137.s905、话题分析服务器基于所述情绪意图内容队列以及所述扰动意图内容队列，通过所述情绪意图挖掘线程所包括的情绪意图分类单元获取所述情绪描述数据队列所对应的情绪意图分类结果。
138.可以理解的是，情绪意图分类单元可以是全连接层。
139.s906、话题分析服务器根据所述情绪意图分类结果确定所述情绪描述数据队列的意图挖掘结果；可以理解的是，意图挖掘结果用于表征不同用户的话题关注倾向和兴趣点。
140.如此设计，通过意图挖掘结果进行话题推送，可以确保社交用户终端接收到感兴趣的话题且尽可能确保社交用户终端接收到的话题是具有积极意义的话题，避免消极话题的推送。
141.在一些选择性的实施例中，本技术实施例提供的基于人工智能的话题大数据分析方法中s905可以包括s9051a
‑
s9055a。
142.s9051a、话题分析服务器基于所述情绪意图内容队列，通过所述情绪意图挖掘线程所包括的第一全局特征提取单元获取x个第一意图特征，其中，每个第一意图特征对应于一个情绪意图内容。
143.s9052a、话题分析服务器基于所述扰动意图内容队列，通过所述情绪意图挖掘线程所包括的第二全局特征提取单元获取x个第二意图特征，其中，每个第二意图特征对应于一个扰动意图内容。
144.s9053a、话题分析服务器对所述x个第一意图特征以及所述x个第二意图特征进行整合处理，得到x个目标意图特征，其中，每个目标意图特征包括一个第一意图特征以及一个第二意图特征。
145.s9054a、话题分析服务器基于所述x个目标意图特征，通过所述情绪意图挖掘线程所包括的时间域关注单元获取全局意图特征，其中，所述全局意图特征为根据所述x个目标意图特征以及x个时间域系数确定的，每个目标意图特征对应于一个时间域系数。
146.可以理解的是，时间域关注单元可以理解为时间注意力网络，时间域系数可以理解为时序权重。
147.s9055a、话题分析服务器基于所述全局意图特征，通过所述情绪意图挖掘线程所包括的情绪意图分类单元获取所述情绪描述数据队列所对应的情绪意图分类结果。
148.在一些选择性的实施例中，本技术实施例提供的基于人工智能的话题大数据分析方法中s905可以包括s9051b
‑
s9054b。
149.s9051b、话题分析服务器基于所述情绪意图内容队列，通过所述情绪意图挖掘线程所包括的第一空间域关注单元获取x个第一意图特征，其中，每个第一意图特征对应于一个情绪意图内容。
150.例如，空间域关注单元可以理解为空间注意力网络。
151.s9052b、话题分析服务器基于所述扰动意图内容队列，通过所述情绪意图挖掘线程所包括的第二空间域关注单元获取x个第二意图特征，其中，每个第二意图特征对应于一个扰动意图内容。
152.s9053b、话题分析服务器对所述x个第一意图特征以及所述x个第二意图特征进行整合处理，得到x个目标意图特征，其中，每个目标意图特征包括一个第一意图特征以及一个第二意图特征。
153.s9054b、话题分析服务器基于所述x个目标意图特征，通过所述情绪意图挖掘线程所包括的所述情绪意图分类单元获取所述情绪描述数据队列所对应的情绪意图分类结果。
154.可以理解，通过时间域关注单元或者空间域关注单元获取意图特征，并进行特征整合处理和分析，能够确保情绪意图分类结果的准确性和时效性。
155.示例性地，以上述第一情绪识别网络为初始情绪识别网络m0为例。话题分析服务器可包括话题评论数据获取模型和训练模块。本技术实施例提供的基于人工智能的话题大数据分析方法可以包括s801
‑
s812。
156.s801、话题评论数据获取模型获取实时汇总到的初始话题评论数据。
157.s802、话题评论数据获取模型对初始话题评论数据进行数据优化处理得到目标话
题评论数据，并对将目标话题评论数据划分为n组话题评论数据和m组话题评论数据。
158.其中，n组话题评论数据用于训练第一情绪识别网络；m组话题评论数据用于确定情绪识别网络的识别性能评价值。
159.s803、训练模块将m组话题评论数据传入到初始情绪识别网络m0，初始情绪识别网络m0输出m组话题评论数据中每组话题评论数据中情感极性识别结果的极性描述值(可以称为第一极性描述值)；再统计第一极性描述值高于初始情绪识别网络m0对应的极性描述值阈值的情感极性识别结果的数目，得到第一数目num1。
160.s804、训练模块将n组话题评论数据传入到初始情绪识别网络m0，进行文本情绪识别处理，得到每组话题评论数据中情感极性识别结果的极性描述值。
161.在本技术实施例中，训练模块用初始情绪识别网络m0对n组话题评论数据进行基于深度学习的前向推理，得到n组话题评论数据中每组话题评论数据中情感极性识别结果、每组话题评论数据中情感极性识别结果的极性描述值和文本情绪信息、以及每组话题评论数据对应的语料描述集。其中，话题分析服务器用初始情绪识别网络m0对n组话题评论数据进行基于深度学习的前向推理的过程可以包括：训练模块向初始情绪识别网络m0(或第一情绪识别网络)分别传入n组话题评论数据，运行第一情绪识别网络，初始情绪识别网络m0(或第一情绪识别网络)输出每组话题评论数据中情感极性识别结果、每组话题评论数据中情感极性识别结果的极性描述值和文本情绪信息、以及每组话题评论数据对应的语料描述集。
162.需要说明的是，这里的n组话题评论数据中每组话题评论数据对应的语料描述集的详细，可参见上述s402中的关于每组初始话题评论数据对应的语料描述集的相关说明，本技术实施例这里不予赘述。
163.s805、训练模块根据第一极性描述值阈值和获取到的情感极性识别结果的极性描述值，确定积极评价信息和消极评价信息；第一极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值。
164.其中，积极评价信息包括第一情感极性识别结果和n组话题评论数据中包括第一情感极性识别结果的话题评论数据，消极评价信息包括第二情感极性识别结果和n组话题评论数据中包括第二情感极性识别结果的话题评论数据；第一情感极性识别结果为极性描述值高于第一极性描述值阈值的情感极性识别结果，第二情感极性识别结果为极性描述值低于第一极性描述值阈值的情感极性识别结果；第一极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值。
165.在本技术实施例中，话题分析服务器在以一个评价信息是一个情感极性识别结果及其所属的话题评论数据和其对应的文本情绪信息的情况下，可获取第一极性描述值阈值。话题分析服务器再针对获取到的n组话题评论数据的所有情感极性识别结果，可将n组话题评论数据的所有情感极性识别结果中极性描述值大于或等于第一极性描述值阈值的情感极性识别结果、及其所属的话题评论数据和其对应的文本情绪信息确定为积极评价信息；将n组话题评论数据的所有情感极性识别结果中极性描述值小于第一极性描述值阈值的情感极性识别结果、及其所属的话题评论数据和其对应的文本情绪信息确定为消极评价信息。其中，第一极性描述值阈值大于第一情绪识别网络对应的极性描述值阈值。
166.在本技术实施例中，话题分析服务器在以一个评价信息是一个第一情感极性识别
结果簇，一个第一情感极性识别结果簇包括至少一个情感极性识别结果及其所属的话题评论数据和其对应的文本情绪信息的情况下，可获取第一极性描述值阈值、并根据n组话题评论数据和n组话题评论数据对应的语料描述集确定n组话题评论数据中情感极性识别结果的情感极性描述；对n组话题评论数据中情感极性识别结果的情感极性描述进行簇划分处理，得到至少一个第二情感极性识别结果簇；对每一个第二情感极性识别结果簇中的所有情感极性识别结果的极性描述值求平均，得到每一个第二情感极性识别结果簇的极性描述值；再将至少一个第二情感极性识别结果簇中极性描述值大于或等于第一极性描述值阈值的第二情感极性识别结果簇、及其所属的话题评论数据和其对应的文本情绪信息确定为积极评价信息；将至少一个第二情感极性识别结果簇中极性描述值小于第一极性描述值阈值的第二情感极性识别结果簇、及其所属的话题评论数据和其对应的文本情绪信息确定为消极评价信息。
167.其中，话题分析服务器可采用k
‑
means对n组话题评论数据中情感极性识别结果的情感极性描述进行簇划分处理。
168.需要说明的是，训练模块确定n组话题评论数据中情感极性识别结果的情感极性描述的详细，可参见上述s404中的确定候选话题评论数据中情感极性识别结果的情感极性描述的相关说明，本技术实施例这里不予赘述。
169.s806、训练模块根据积极评价信息和消极评价信息对初始情绪识别网络m0进行训练，得到第二情绪识别网络。
170.需要说明的是，s806的详细可参见上述s204的相关说明，本技术实施例这里不予赘述。
171.s807、训练模块将m组话题评论数据传入到第二情绪识别网络，第二情绪识别网络输出m组话题评论数据中每组话题评论数据中情感极性识别结果的极性描述值(可以称为第二极性描述值)；再统计第二极性描述值高于初始情绪识别网络m0对应的极性描述值阈值的情感极性识别结果的数目，得到第二数目num2。
172.s808、训练模块判断第二数目num2是否大于第一数目num1。
173.训练模块确定第二数目num2大于第一数目num1，执行s809。确定第二数目num2不大于第一数目num1，执行s810。
174.s809、训练模块确定第二情绪识别网络对应的极性描述值阈值，并将第二情绪识别网络及其对应的极性描述值阈值用于对后续收集到的话题评论数据的识别。
175.训练模块可对上述第二情绪识别网络输出的m组话题评论数据中每组话题评论数据中情感极性识别结果(可以称为第二情感极性识别结果)，按照第二情绪识别网络输出m组话题评论数据中每组话题评论数据中情感极性识别结果的极性描述值(可以称为第二极性描述值)，对所有的第二情感极性识别结果进行降序排序；然后，将排序后的第二情感极性识别结果中的排序编号等于第一数目的情感极性识别结果的极性描述值，作为第二情绪识别网络对应的极性描述值阈值。
176.s810、训练模块判断第二数目num2是否等于第一数目num1。
177.训练模块确定第二数目num2等于第一数目num1，执行s811。确定第二数目num2不等于第一数目num1(即第二数目num2小于第一数目num1)，执行s812。
178.s811、训练模块将第一情绪识别网络对应的极性描述值阈值作为第二情绪识别网
络对应的极性描述值阈值，并将第二情绪识别网络及其对应的极性描述值阈值用于对后续收集到的话题评论数据的识别。
179.s812、训练模块按照情感极性识别结果的极性描述值对消极评价信息进行降序排序，将降序排序后的消极评价信息中的前h个评价信息确定为积极评价信息，得到再次确定的积极评价信息和再次确定的消极评价信息。
180.在本技术实施例中，训练模块可根据再次确定的积极评价信息和再次确定的消极评价信息，继续对初始情绪识别网络m0进行训练，即执行s806。其中，再次确定的积极评价信息包括该前p个评价信息和积极评价信息；再次确定的消极评价信息包括消极评价信息中除该前h个评价信息以外的其他评价信息。
181.需要说明的是，训练模型得到再次确定的积极评价信息和再次确定的消极评价信息之后，可用再次确定的积极评价信息和再次确定的消极评价信息对第二情绪识别网络进行训练，然后，不执行s806，执行s807。
182.需要说明的是，训练模块根据再次确定的积极评价信息和再次确定的消极评价信息继续对初始情绪识别网络m0进行训练的具体过程，与根据积极评价信息和消极评价信息对第一情绪识别网络进行训练的具体过程同理；训练模块根据再次确定的积极评价信息和再次确定的消极评价信息对第二情绪识别网络进行训练的具体过程，与根据积极评价信息和消极评价信息对第一情绪识别网络进行训练的具体过程同理，本技术实施例这里均不予赘述。
183.以上述第一情绪识别网络为初始情绪识别网络m0为例。话题分析服务器可包括话题评论数据获取模型和训练模块。其中，话题分析服务器获取当前的情绪识别网络，向话题评论数据获取模块传入当前的情绪识别网络和实时汇总到的初始话题评论数据。话题分析服务器向训练模块传入初始情绪识别网络m0。话题评论数据获取模型执行s801
‑
s802，训练模块执行s803
‑
s812。训练模块输出第二情绪识别网络mk及其对应的极性描述值阈值，并将第二情绪识别网络mk及其对应的极性描述值阈值用于对后续收集到的话题评论数据的识别。训练模块可将第二情绪识别网络mk及其对应的极性描述值阈值发送给与话题分析服务器连接的对应终端。
184.<系统实施例>在上述的方法实施例的基础上，本技术实施例还提出了一种系统实施例，也即基于人工智能的话题大数据分析系统，请结合参阅图4，基于人工智能的话题大数据分析系统30可以包括互相通信的话题分析服务器100和社交用户终端200。进一步地，基于人工智能的话题大数据分析系统30的功能性描述如下。
185.以上已经结合附图描述了本技术的实施例，根据本实施例，提供一种话题大数据分析方法，话题分析服务器利用第一情绪识别网络识别出n组话题评论数据的情感极性识别结果，则对于第一情绪识别网络来说，极性描述值大于第一情绪识别网络对应的极性描述值阈值的情感极性识别结果就是文本情绪识别为积极的情感极性识别结果。话题分析服务器利用大于第一情绪识别网络对应的极性描述值阈值的第一极性描述值阈值，选择极性描述值大于该第一极性描述值阈值的情感极性识别结果为积极评价信息，极性描述值小于该第一极性描述值阈值的情感极性识别结果为消极评价信息。其中，积极评价信息表示文本情绪识别为积极的情感极性识别结果，消极评价信息表示文本情绪识别为消极的情感极
性识别结果。这样就可以将第一情绪识别网络识别出的文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果划分到消极评价信息中，而该文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果是第一情绪识别网络识别出的所有文本情绪识别为积极的情感极性识别结果中的精准性较低的，即该文本情绪识别为积极的情感极性识别结果中的极性描述值低于第一极性描述值阈值的情感极性识别结果是所有文本情绪识别为积极的情感极性识别结果中误识别概率最大的。因此，这样确定出的积极评价信息中的误识别概率较大的文本情绪识别为积极的情感极性识别结果（可以称为不确定积极评价信息）被有效削减，则积极评价信息的精准性高于利用第一情绪识别网络对应的极性描述值阈值确定出的文本情绪识别为积极的情感极性识别结果的精准性。进而，利用精准性高于第一情绪识别网络识别出的文本情绪识别为积极的情感极性识别结果的精准性的积极评价信息，训练第一情绪识别网络得到的第二情绪识别网络的正确识别数目更高，即提高了情绪识别网络的正确识别数目。
186.其次，积极评价信息和消极评价信息还是利用n组话题评论数据生成的，而n组话题评论数据是实时汇总的话题评论数据，则积极评价信息和消极评价信息就是当前的话题舆论中的数据。进而，利用该积极评价信息和该消极评价信息训练得到的第二情绪识别网络在当前的话题舆论中的识别准确率更高，即提高了情绪识别网络在当前的话题舆论中的识别准确率。
187.另外，话题分析服务器利用第一情绪识别网络识别出n组话题评论数据中的情感极性识别结果、情感极性识别结果的文本情绪信息，无需人工手动标注n组话题评论数据，就可得到用于训练第一情绪识别网络的积极评价信息和消极评价信息。如此，实现了无监督的训练情绪识别网络。
188.最后，利用第二情绪识别网络对待识别话题评论数据进行情感极性识别，得到待识别话题评论数据的目标情绪标签，并将目标情绪标签存储在所述待识别话题评论数据对应的主题目录下，能够利用识别性能较佳且尽可能规避灾难性遗忘的第二情绪识别网络实现精准的情感极性识别，通过这些目标情绪标签分析待识别话题评论数据对应的目标话题或者目标主题的舆情信息，从而尽可能确保得到的舆情信息是真实反映用户情绪极性的。（有益效果）本领域技术人员公知的是，随着诸如大规模集成电路技术的电子信息技术的发展和软件硬件化的趋势，要明确划分计算机系统软、硬件界限已经显得比较困难了。因为，任何操作可以软件来实现，也可以由硬件来实现。任何指令的执行可以由硬件完成，同样也可以由软件来完成。对于某一机器功能采用硬件实现方案还是软件实现方案，取决于价格、速度、可靠性、存储容量、变更周期等非技术性因素。因此，对于电子信息技术领域的普通技术人员来说，更为直接和清楚地描述一个技术方案的方式是描述该方案中的各个操作。在知道所要执行的操作的情况下，本领域技术人员可以基于对所述非技术性因素的考虑直接设计出期望的产品。
189.本技术可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本技术的各个方面的计算机可读程序指令。
190.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形
设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd
‑
rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
191.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。
192.用于执行本技术操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c 等，以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本技术的各个方面。
193.这里参照根据本技术实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本技术的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。
194.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
195.也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产
生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
196.附图中的流程图和框图显示了根据本技术的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
197.以上已经描述了本技术的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本技术的范围由所附权利要求来限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种标识信息处理方法、装置及电子设备与流程

基于人工智能的话题大数据分析方法及话题分析服务器与流程

相关文献

最热文献