基于文本分析的文本关系处理方法、装置和设备与流程

2022-07-30 10:34:53 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种基于文本分析的文本关系处理方法、装置和设备。

背景技术：

2.特定的时间和地域内发生的、有一个或多个角色参与、由一个或多个动作组成的一件事情称为事件。各行各业都在产生海量的事件文本，例如金融领域。因此我们不仅需要对海量事件文本进行有效存储、计算与分析，更需要从海量事件文本中挖掘潜在价值、探究事件发展变化规律。
3.现有技术中，通常通过计算出现在原因事件和结果事件中词语的因果强度关系，确定事件文本的因果强度关系。
4.然而现有技术中，以词语为粒度代表事件不可避免的存在信息损失；在原因事件与结果事件中可能存在一些意义不大的高频词，导致最终得出的事件文本的因果强度关系不准确。

技术实现要素：

5.本技术提供一种基于文本分析的文本关系处理方法、装置和设备，用以解决不能准确得出事件文本的因果强度关系的问题。
6.第一方面，本技术提供一种基于文本分析的文本关系处理方法，所述方法包括：
7.获取目标事件组文本，所述目标事件组文本包括第一事件文本与第二事件文本，其中，所述第一事件文本与所述第二事件文本具有因果关系，所述第一事件文本表征原因事件文本，所述第二事件文本表征结果事件文本；
8.确定所述目标事件组文本的语义因果强度信息和词频因果强度信息；其中，所述语义因果强度信息表征基于文本语义信息确定的所述第一事件文本与所述第二事件文本的因果强度关系，所述词频因果强度信息表征基于单词概率信息确定的所述第一事件文本与所述第二事件文本的因果强度关系；
9.根据所述语义因果强度信息和所述词频因果强度信息，确定所述目标事件组文本的目标因果强度信息，所述目标因果强度信息表征所述第一事件文本与所述第二事件文本的因果强度关系。
10.在可选的一种实施方式中，确定所述目标事件组文本的语义因果强度信息和词频因果强度信息，包括：
11.基于对比学习方法和预设的预训练语言模型，确定所述目标事件组文本的所述语义因果强度信息；
12.基于所述目标事件组文本的统计信息，确定所述目标事件组文本的所述词频因果强度信息。
13.在可选的一种实施方式中，基于对比学习方法和预设的预训练语言模型，确定所
述语义因果强度信息，包括：
14.基于对比学习方法，优化所述第一事件文本与所述第二事件文本的目标向量空间距离，确定优化后的所述目标事件组文本；
15.根据所述优化后的目标事件组文本，确定所述语义因果强度信息。
16.在可选的一种实施方式中，基于对比学习方法，优化所述第一事件文本与所述第二事件文本的目标向量空间距离，确定优化后的所述目标事件组文本，包括：
17.获取数据源中其他与所述第一事件文本具有弱因果关系的n个弱关系事件文本，其中n为大于或等于1的正整数；
18.基于对比学习方法，根据所述目标事件组文本以及各个弱关系事件文本，确定所述数据源的对比损失函数；
19.根据所述对比损失函数的函数值，优化所述第一事件文本与所述第二事件文本的目标向量空间距离，确定优化后的目标事件组文本，其中，所述损失函数的函数值与所述目标向量空间距离具有正相关关系，所述函数值取得最小值时的目标事件组文本为最优目标事件组文本。
20.在可选的一种实施方式中，根据所述优化后的目标事件组文本，确定所述语义因果强度信息，包括：
21.基于预设的预训练语言模型，确定所述优化后的目标事件文本中的每一单词的特征向量，对每一特征向量进行池化处理，确定所述优化后的目标事件文本的语义特征向量；
22.基于预设映射参数，对所述语义特征向量进行映射，确定所述语义因果强度信息。
23.在可选的一种实施方式中，基于所述目标事件组文本的统计信息，确定所述目标事件组文本的词频因果强度信息，包括：
24.基于所述目标事件组文本每一单词的统计概率信息，确定所述目标事件组文本中每一单词对的必要性因果强度和所述目标事件组文本中每一单词对的充分性因果强度；
25.根据每一单词对的必要性因果强度和充分性因果强度，确定每一单词对的目标因果强度；
26.根据每一单词对的目标因果强度，确定所述目标事件组文本的词频因果强度信息。
27.在可选的一种实施方式中，基于所述目标事件组文本每一单词的统计概率信息，确定所述目标事件组文本中每一单词对的必要性因果强度和所述目标事件组文本中每一单词对的充分性因果强度，包括：
28.基于所述目标事件组每一单词的统计概率信息，确定所述目标事件组文本中每一单词对的初始必要性因果强度和所述目标事件组文本中每一单词对的初始充分性因果强度；
29.根据预设修正参数，对所述每一单词的初始必要性因果强度和初始充分性因果强度进行修正，确定所述第一事件文本中每一单词与所述第二事件文本中每一单词的必要性因果强度和充分性因果强度。
30.在可选的一种实施方式中，所述第一事件文本为金融原因事件文本，所述第二事件文本为金融结果事件文本；所述方法还包括：
31.根据所述目标因果强度信息生成金融事件事理图谱，其中，所述事理图谱用于对
金融交易事件进行预测分析。
32.第二方面，本技术提供一种基于文本分析的文本关系处理装置，所述装置包括：
33.获取单元，用于获取目标事件组文本，所述目标事件组文本包括第一事件文本与第二事件文本，其中，所述第一事件文本与所述第二事件文本具有因果关系，所述第一事件文本表征原因事件文本，所述第二事件文本表征结果事件文本；
34.第一确定单元，用于确定所述目标事件组文本的语义因果强度信息和词频因果强度信息；其中，所述语义因果强度信息表征基于文本语义信息确定的所述第一事件文本与所述第二事件文本的因果强度关系，所述词频因果强度信息表征基于单词概率信息确定的所述第一事件文本与所述第二事件文本的因果强度关系；
35.第二确定单元，用于根据所述语义因果强度信息和所述词频因果强度信息，确定所述目标事件组文本的目标因果强度信息，所述目标因果强度信息表征所述第一事件文本与所述第二事件文本的因果强度关系。
36.第三方面，本技术提供一种电子设备，所述电子设备包括：存储器，处理器；
37.存储器：用于存储所述处理器可执行指令；
38.其中，所述处理器被配置为执行如第一方面所述的方法。
39.第四方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
40.第五方面，本技术提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的方法。
41.本技术提供的基于文本分析的文本关系处理方法、装置和设备，通过以下步骤：获取目标事件组文本，包括具有因果关系的第一事件文本与第二事件文本，第一事件文本表征原因事件文本，第二事件文本表征结果事件文本；确定目标事件组文本的语义因果强度信息和词频因果强度信息；根据语义因果强度信息和词频因果强度信息，确定目标事件组文本的目标因果强度信息，目标因果强度信息表征第一事件文本与第二事件文本的因果强度关系。该方法基于目标事件组文本的语义信息与词频信息确定了事件文本的因果强度信息，避免了信息损失，提高了确定事件文本的因果强度关系的准确性。
附图说明
42.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
43.图1为本技术实施例提供的一种基于文本分析的文本关系处理方法的流程图；
44.图2为本技术实施例提供的另一种基于文本分析的文本关系处理方法的流程图；
45.图3为本技术实施例提供的一种基于文本分析的文本关系处理装置的结构示意图；
46.图4为本技术实施例提供的另一种基于文本分析的文本关系处理装置的结构示意图；
47.图5为本技术实施例提供的一种电子设备的结构示意图；
48.图6是根据一示例性实施例示出的一种终端设备的框图。
49.通过上述附图，已示出本技术明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围，而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
50.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
51.首先对本技术所涉及的名词进行解释：
52.事理图谱：是一个事理逻辑知识库，描述了事件之间的演化规律和模式，结构上是一个有向有环图，节点代表事件，有向边代表事件之间的顺承、因果和上下位等关系。
53.对比学习：通过将数据分别与正例样本和负例样本在特征空间进行对比，来学习样本的特征表示。
54.在生产生活中，各行各业都产生海量的事件文本，例如金融领域会产生海量的金融事件数据，这些金融事件中具有错综复杂的关系，为了了解事件发展规律，不仅需要对海量事件文本进行有效存储、计算与分析，更需要从海量事件文本中挖掘潜在价值、探究事件发展变化规律。
55.现有技术中，通常通过计算出现在原因事件和结果事件中词语的因果强度关系，确定事件文本的因果强度关系。
56.然而现有技术中，以词语为粒度代表事件不可避免的存在信息损失；在原因事件与结果事件中可能存在一些意义不大的高频词，导致最终得出的事件文本的因果强度关系不准确。
57.本技术提供的基于文本分析的文本关系处理方法，旨在解决现有技术的如上技术问题。
58.本技术的技术方案中，所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
59.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
60.图1为本技术实施例提供的一种基于文本分析的文本关系处理方法的流程图，如图1所示，该方法包括：
61.101、获取目标事件组文本，目标事件组文本包括第一事件文本与第二事件文本，其中，第一事件文本与第二事件文本具有因果关系，第一事件文本表征原因事件文本，第二事件文本表征结果事件文本。
62.示例性地，获取具有因果关系的原因事件文本和结果事件文本，即第一事件文本和第二事件文本，根据第一事件文本与第二事件文本拼接形成目标事件组文本。
63.102、确定目标事件组文本的语义因果强度信息和词频因果强度信息；其中，语义因果强度信息表征基于文本语义信息确定的第一事件文本与第二事件文本的因果强度关
系，词频因果强度信息表征基于单词概率信息确定的第一事件文本与第二事件文本的因果强度关系。
64.示例性地，基于目标事件文本的文本语义信息确定目标事件文本的语义因果强度信息，第一事件文本和第二事件文本的语义因果强度信息，并且基于目标事件文本的每一单词概率信息确定目标事件文本的词频因果强度信息，即第一事件文本和第二事件文本的词频因果强度信息。
65.103、根据语义因果强度信息和词频因果强度信息，确定目标事件组文本的目标因果强度信息，目标因果强度信息表征第一事件文本与第二事件文本的因果强度关系。
66.示例性地，融合确定的目标事件文本的语义因果强度信息和词频因果强度信息，确定目标事件组文本的目标因果强度信息，其中目标事件组文本的目标因果强度信息可以用于预测分析该目标事件文本的下游事件。
67.本实施例中，通过以下步骤：获取目标事件组文本，包括具有因果关系的第一事件文本与第二事件文本，第一事件文本表征原因事件文本，第二事件文本表征结果事件文本；确定目标事件组文本的语义因果强度信息和词频因果强度信息；根据语义因果强度信息和词频因果强度信息，确定目标事件组文本的目标因果强度信息，目标因果强度信息表征第一事件文本与第二事件文本的因果强度关系。该方法基于目标事件组文本的语义信息与词频信息确定了事件文本的因果强度信息，避免了信息损失，提高了确定事件文本的因果强度关系的准确性。
68.图2为本技术实施例提供的另一种基于文本分析的文本关系处理方法的流程图，如图2所示，该方法包括：
69.201、获取目标事件组文本，目标事件组文本包括第一事件文本与第二事件文本，其中，第一事件文本与第二事件文本具有因果关系，第一事件文本表征原因事件文本，第二事件文本表征结果事件文本。
70.示例性地，本步骤参见步骤101，不再赘述。
71.202、基于对比学习方法，优化第一事件文本与第二事件文本的目标向量空间距离，确定优化后的目标事件组文本。
72.一个示例中，步骤202包括以下步骤：
73.获取数据源中其他与第一事件文本具有弱因果关系的n个弱关系事件文本，其中n为大于或等于1的正整数；
74.基于对比学习方法，根据目标事件组文本以及各个弱关系事件文本，确定数据源的对比损失函数；
75.根据对比损失函数的函数值，优化第一事件文本与第二事件文本的目标向量空间距离，确定优化后的目标事件组文本，其中，损失函数的函数值与目标向量空间距离具有正相关关系，函数值取得最小值时的目标事件组文本为最优目标事件组文本。
76.示例性地，将目标事件组文本中的第一事件文本与第二事件文本看作是空间中的两个向量，基于对比学习方法，拉近第一事件文本与第二事件的空间距离，即优化第一事件文本与第二事件文本的目标向量空间距离，并确定优化后的目标事件组文本。
77.一个示例中，数据源中第一事件文本与第二事件文本具有较强的因果关系，获取数据源中其他与第一事件文本具有弱因果关系或没有因果关系的n个弱关系事件文本，其
中n为大于或等于1的正整数；基于对比学习方法中损失函数的定义，根据目标事件组文本以及各个弱关系事件文本，确定数据源的对比损失函数；根据对比损失函数的函数值，优化第一事件文本与第二事件文本的目标向量空间距离，即，拉近第一事件文本与第二事件的空间距离并且拉远第一事件与各个弱关系事件文本的空间距离，使第一事件文本与第二事件文本的因果强度高于第一事件文本与其他弱关系事件的因果强度，进而确定优化后的目标事件组文本，其中，损失函数的函数值与目标向量空间距离具有正相关关系，函数值越小，目标向量空间距离越小，函数值取得最小值时的目标事件组文本为最优目标事件组文本。
78.一个示例中，数据源的损失函数可以用下式表示：
[0079][0080]
其中，数据源有n个事件，其中s1，s2为因果强度较大的事件，sj为弱关系事件，损失函数确保拉近因果强度大的事件而远离因果强度小的事件；τ为温度系数，用于控制对弱关系事件文本的重视程度。
[0081]
203、根据优化后的目标事件组文本，确定语义因果强度信息，其中，语义因果强度信息表征基于文本语义信息确定的第一事件文本与第二事件文本的因果强度关系。
[0082]
一个示例中，步骤203包括以下步骤：
[0083]
基于预设的预训练语言模型，确定优化后的目标事件文本中的每一单词的特征向量，对每一特征向量进行池化处理，确定优化后的目标事件文本的语义特征向量；
[0084]
基于预设映射参数，对语义特征向量进行映射，确定语义因果强度信息。
[0085]
示例性地，将目标事件组文本输入至预设的预训练语言模型，例如双向编码预训练语言模型(bidirectional encoder representations from，简称bert模型)、鲁棒优化的双向编码预训练语言模型(a robustly optimized bert pretraining approach，简称roberta模型)以及自学习语义的双向编码预训练语言模型(a lite bert for self-supervised learning of language representations，简称albert模型)中的任意一种或多种；预训练语言模型输出确定目标事件文本中的每一单词的上下文相关的向量，即特征向量，并将这些向量进行池化处理，得到固定长度的向量，即语义特征向量，再将该语义特征向量经由一个全连接网络，基于预设映射参数，对语义特征向量进行映射，确定语义因果强度信息，例如语义因果强度分数。
[0086]
一个示例中，确定目标事件组文本的语义因果强度分数过程可以表达为以下公式：
[0087]
h1，...，hk，...，h
m n
＝plm(s1，s2)
[0088]
h＝pooler(h1，...，hk，...，h
m n
)
[0089]
c＝σ(wh b)
[0090]
其中，plm函数表示预训练语言模型，h1，...，hk，...，h
m n
为其输出的目标事件组文本特征向量，pooler表示池化函数，将这些特征向量映射为一个固定长度的语义特征向量h。h由一个全连接神经网络映射为因果强度分数c，w、b为该全连接网络的预设映射参数。σ表示sigmoid函数，为该全连接网络的激活函数，用来对因果强度分数进行归一化，确保其
取值范围在0到1之间：
[0091][0092]
一个示例中，bert模型为基于双向编码器结构的预训练语言模型。当输入为s1，s2两段文本时，bert模型使用特殊的符号将两段文本拼接为：[cls]s1[sep]s2[sep]，其中[cls]符号标记文本的开始，[sep]符号标记文本的结尾。以[cls]符号对应的特征向量表示作为所有单词特征向量的bert模型的池化结果：
[0093]
pooler
bert
(h
[cls]
，...，h
[sep]
)＝h
[cls]
[0094]
一个示例中，roberta模型是对bert模型的改进方法。roberta模型的模型结构与bert模型相同，但在预训练设置上进行了改动，包括使用更大的批处理大小与更大的训练数据，对于roberta模型，当输入为s1，s2两段文本时，roberta模型将s1，s2两段文本拼接为如下形式：《s》s1s2《/s》，其中《s》符号标记文本的开始，《/s》符号标记文本的结尾，并以《s》符号对应的特征向量作为robreta模型的池化结果：
[0095]
pooler
robreta
(h
《s》
，...，h
＜/s＞
)＝h
《s》
[0096]
一个示例中，albert模型在bert模型的基础上引入跨层参数共享机制，使模型的每一个转化层共享相同的参数。这一改进在取得与bert模型相近的实验结果的同时显著降低了模型参数量，并使得albert模型可以在使用同样计算资源的情况下构建比bert模型更大规模的模型。当输入为s1，s2两段文本时，albert模型将s1，s2两段文本拼接为如下形式：[sep]s1s2[sep]，其中[sep]符号同时标记文本的开始与结尾，并以第一个[sep]符号对应的特征向量作为albert模型的池化结果：
[0097]
pooler
albert
(h
[sep]
，...，h
′
[sep]
)＝h
[sep]
[0098]
204、基于目标事件组文本每一单词的统计概率信息，确定目标事件组文本中每一单词对的必要性因果强度和目标事件组文本中每一单词对的充分性因果强度。
[0099]
一个示例中，步骤204包括以下步骤：
[0100]
基于目标事件组每一单词的统计概率信息，确定目标事件组文本中每一单词对的初始必要性因果强度和目标事件组文本中每一单词对的初始充分性因果强度；
[0101]
根据预设修正参数，对每一单词的初始必要性因果强度和初始充分性因果强度进行修正，确定第一事件文本中每一单词与第二事件文本中每一单词的必要性因果强度和充分性因果强度。
[0102]
示例性地，事件间的因果关系强度体现在必要性与充分性两个方面，考虑第一事件与第二事件(s1，s2)，必要性强调若结果事件s2发生，则之前必须有原因事件s1发生；充分性强调若原因事件s1发生，则结果事件s2一定在其后发生，因此基于目标事件组文本每一单词的统计概率信息，确定目标事件组文本中每一单词对的初始必要性因果强度和目标事件组文本中每一单词对的初始充分性因果强度，其中，第一事件文本和第二事件文本中可能同时包括一些无意义的高频词，这会导致因果强度的计算不准确，很可能使得得到的因果强度偏大。因此，使用惩罚系数，即预设修正参数，将单词的先验概率作为惩罚项，对高频词的后验概率进行惩罚，对每一单词的初始必要性因果强度和初始充分性因果强度进行修正，进而确定目标事件组文本中每一单词对的必要性因果强度和目标事件组文本中每一单词对的充分性因果强度。
[0103]
一个示例中，(降雨，洪水)这一事件对具有较强的必要性与较弱的充分性，因为若没有降雨，洪水几乎不可能发生，但即使发生了降雨，也不一定会导致洪水发生。相反，(风暴，损失)这一事件对具有较强的充分性与较弱的必要性，因为风暴几乎必然会带来损失，但造成损失的原因不一定是风暴。
[0104]
一个示例中，确定目标事件组文本中每一单词对的必要性因果强度和目标事件组文本中每一单词对的充分性因果强度的过程，可以表达为：
[0105]
建立目标事件组文本的文本匹配任务，输入为第一事件文本和第二事件文本：
[0106][0107]
其中，n为第一事件文本s1所包含的单词数，m为第二事件文本s2所包含的单词数，为第一段文本s1中的单词，为第二段文本s2中的单词。
[0108]
从必要性与充分性两个角度考虑，对于第一事件文本中的单词ic与第二事件文本中的单词je，使用如下的方法计算两个单词间的因果强度：
[0109][0110][0111]
其中，cs
nec
(ic，je)表征单词对(ic，je)的必要性因果强度，cs
suf
(ic，je)表征单词对(ic，je)的充分性因果强度。直观上看，后验概率p(ic|je)越大，反映了因果关系的必要性越强；(je|ic)越大，反映了因果关系的充分性越强，其中为惩罚项系数，即预设修正参数，本实施例中将其设置为0.66。
[0112]
其中，上式中的各项概率值可以通过统计信息进行估计：
[0113][0114][0115][0116]
其中f(ic，we)为单词ic出现在第一事件文本中的概率，f(wc，je)为单词je出现在第二事件文本中的概率，f(ic，je)是统计得到的单词ic出现在第一事件文本中且单词je出现在第二事件文本中的概率，w是所有单词集合，m与n为归一化系数，确保计算结果满足概率的性质。
[0117]
205、根据每一单词对的必要性因果强度和充分性因果强度，确定每一单词对的目标因果强度。
[0118]
示例性地，将每一单词对的必要性因果强度和充分性因果强度进行组合，确定每一单词对的目标因果强度。
[0119]
一个示例中，单词对(ic，je)的目标因果强度cs(ic，je)是其考虑必要性与充分性的因果强度的组合：
[0120]
cs(ic，je)＝cs
nec
(ic，je)
λ
cs
suf
(ic，je)
1-λ
#(3-6)
[0121]
其中，cs
nec
(ic，je)表征单词对(ic，je)的必要性因果强度，cs
suf
(ic，je)表征单词对(ic，je)的充分性因果强度，cs(ic，je)为单词对的目标因果强度。θ取值为0或1。
[0122]
206、根据每一单词对的目标因果强度，确定目标事件组文本的词频因果强度信息，其中，词频因果强度信息表征基于单词概率信息确定的第一事件文本与第二事件文本的因果强度关系。
[0123]
示例性地，根据每一单词对的目标因果强度，确定目标事件组文本的词频因果强度信息，例如词频因果强度分数，其中，词频因果强度信息表征基于单词概率信息确定的第一事件文本与第二事件文本的因果强度关系。
[0124]
一个示例中，两个事件s1，s2的因果强度是目标事件组文本中所有单词对的目标因果强度的组合：
[0125][0126]
其中，cs
t
(s1，s2)为目标事件组文本的词频因果强度信息，s1为第一事件文本，s2为第二事件文本，cs(ic，je)为单词对(ic，je)的目标因果强度。
[0127]
一个示例中，在因果关系强度计算中，c为第一事件文本和第二事件文本的因果关系强度分数，c的取值范围为0与1之前的实数，c＝0表示事件文本s1与事件文本s之间不存在因果关系，即s1与s2的发生是相互独立的；c＝1表示事件s1与事件s2之间存在确定性的因果关系，即事件s1发生是事件s2发生的充分必要条件。
[0128]
207、根据语义因果强度信息和词频因果强度信息，确定目标事件组文本的目标因果强度信息，目标因果强度信息表征第一事件文本与第二事件文本的因果强度关系。
[0129]
示例性地，本步骤参见步骤103，不再赘述。
[0130]
208、第一事件文本为金融原因事件文本，第二事件文本为金融结果事件文本；根据目标因果强度信息生成金融事件事理图谱，其中，事理图谱用于对金融交易事件进行预测分析。
[0131]
示例性地，目标事件组文本为具有因果关系的金融事件，即第一事件文本为金融原因，第二事件文本为金融结果事件文本，根据目标因果强度信息生成金融事件事理图谱，该事理图谱描述了金融事件之间的演化规律以及事件间顺承、因果和上下位关系，可以用于对金融事件的下游金融交易事件进行预测分析。
[0132]
本实施例中，通过对比学习优化了目标事件组文本中第一事件文本与第二事件文本的目标向量空间距离，提高了目标事件组文本的语义因果强度信息的准确性；通过预设修正系数，提高了目标事件组文本的词频因果强度信息的准确性，进而综合提高了目标事件组文本的目标因果强度信息的准确性，并且提高了对金融交易事件预测分析的有效性与准确度。
[0133]
图3为本技术实施例提供的一种基于文本分析的文本关系处理装置的结构示意图，如图3所示，该装置包括：
[0134]
获取单元31，用于获取目标事件组文本，目标事件组文本包括第一事件文本与第二事件文本，其中，第一事件文本与第二事件文本具有因果关系，第一事件文本表征原因事件文本，第二事件文本表征结果事件文本。
[0135]
第一确定单元32，用于确定目标事件组文本的语义因果强度信息和词频因果强度
信息；其中，语义因果强度信息表征基于文本语义信息确定的第一事件文本与第二事件文本的因果强度关系，词频因果强度信息表征基于单词概率信息确定的第一事件文本与第二事件文本的因果强度关系。
[0136]
第二确定单元33，用于根据语义因果强度信息和词频因果强度信息，确定目标事件组文本的目标因果强度信息，目标因果强度信息表征第一事件文本与第二事件文本的因果强度关系。
[0137]
图4为本技术实施例提供的另一种基于文本分析的文本关系处理装置的结构示意图，如图3所示实施例的基础上，如图4所示，该装置包括：
[0138]
一个示例中，第一确定单元32包括：
[0139]
第一确定子单元321，用于基于对比学习方法和预设的预训练语言模型，确定目标事件组文本的语义因果强度信息。
[0140]
第二确定子单元322，用于基于目标事件组文本的统计信息，确定目标事件组文本的词频因果强度信息。
[0141]
一个示例中，第一确定子单元321具体用于：
[0142]
基于对比学习方法，优化第一事件文本与第二事件文本的目标向量空间距离，确定优化后的目标事件组文本。
[0143]
根据优化后的目标事件组文本，确定语义因果强度信息。
[0144]
一个示例中，第一确定子单元321具体还用于：
[0145]
获取数据源中其他与第一事件文本具有弱因果关系的n个弱关系事件文本，其中n为大于或等于1的正整数。
[0146]
基于对比学习方法，根据目标事件组文本以及各个弱关系事件文本，确定数据源的对比损失函数。
[0147]
根据对比损失函数的函数值，优化第一事件文本与第二事件文本的目标向量空间距离，确定优化后的目标事件组文本，其中，损失函数的函数值与目标向量空间距离具有正相关关系，函数值取得最小值时的目标事件组文本为最优目标事件组文本。
[0148]
一个示例中，第一确定子单元321具体还用于：
[0149]
基于预设的预训练语言模型，确定优化后的目标事件文本中的每一单词的特征向量，对每一特征向量进行池化处理，确定优化后的目标事件文本的语义特征向量。
[0150]
基于预设映射参数，对语义特征向量进行映射，确定语义因果强度信息。
[0151]
一个示例中，第二确定子单元322具体用于：
[0152]
基于目标事件组文本每一单词的统计概率信息，确定目标事件组文本中每一单词对的必要性因果强度和目标事件组文本中每一单词对的充分性因果强度。
[0153]
根据每一单词对的必要性因果强度和充分性因果强度，确定每一单词对的目标因果强度。
[0154]
根据每一单词对的目标因果强度，确定目标事件组文本的词频因果强度信息。
[0155]
一个示例中，第二确定子单元322具体还用于：
[0156]
基于目标事件组每一单词的统计概率信息，确定目标事件组文本中每一单词对的初始必要性因果强度和目标事件组文本中每一单词对的初始充分性因果强度。
[0157]
根据预设修正参数，对每一单词的初始必要性因果强度和初始充分性因果强度进
行修正，确定第一事件文本中每一单词与第二事件文本中每一单词的必要性因果强度和充分性因果强度。
[0158]
一个示例中，第一事件文本为金融原因事件文本，第二事件文本为金融结果事件文本；该装置还包括：
[0159]
处理单元41，用于根据目标因果强度信息生成金融事件事理图谱，其中，事理图谱用于对金融交易事件进行预测分析。
[0160]
图5为本技术实施例提供的一种电子设备的结构示意图，如图5所示，电子设备包括：存储器51，处理器52。
[0161]
存储器51；用于存储处理器52可执行指令的存储器。
[0162]
其中，处理器52被配置为执行如上述实施例提供的方法。
[0163]
图6是根据一示例性实施例示出的一种终端设备的框图，该设备可以是移动电话，计算机，数字广播终端，消息收发设备，平板设备，医疗设备，个人数字助理等。
[0164]
装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(i/o)接口812，传感器组件814，以及通信组件816。
[0165]
处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。
[0166]
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0167]
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。
[0168]
多媒体组件808包括在装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0169]
音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组
件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。
[0170]
i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
[0171]
传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
[0172]
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0173]
在示例性实施例中，装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
[0174]
在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0175]
本技术实施例还提供了一种非临时性计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例提供的方法。
[0176]
本技术实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
[0177]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求书指出。
[0178]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种农民建房选址野外实时分析方法与流程

基于文本分析的文本关系处理方法、装置和设备与流程

相关文献

最热文献