文本评价方法、装置、设备及存储介质与流程

2022-07-16 11:17:50 来源：中国专利 TAG：

1.本发明涉及人工智能领域，尤其涉及一种文本评价方法、装置、设备及存储介质

背景技术：

2.文本生成是目前自然语言处理技术中的一个重要研究领域，取得了令人瞩目的成就。但针对生成文本质量的评价仍是一个难点问题。文本生成的评价可以看作一个计算生成句和标准参考句之间相似度的任务。相关技术中，常常采用将句子进行文本切分后计算相似度，如bleu(bilingual evaluation understudy，双语评估辅助工具)，rouge-n(recall-oriented understudy for gisting evaluation，以回忆为导向的主旨评估基础研究工具)等评估方法基于n-gram模型的方式对生成句和标准参考句进行相似度评价，然而，该评估方法形式单一，利用句中相邻词间的搭配信息进行考虑，没有考虑全局语义层次上的匹配，导致文本评价结果的合理性较差。因此，如何制定一个合理的评价指标，客观而准确的评价生成文本的质量是一个亟需解决的问题。

技术实现要素：

3.本发明提供了一种文本评价方法、装置、设备及存储介质，用于提高文本评价的合理性。
4.为实现上述目的，本发明第一方面提供了一种文本评价方法，包括：获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系；其中，映射关系中包括：目标文本中的字符与参考文本之间的置信度，或者参考文本中的字符与目标文本之间的置信度；基于映射关系，生成目标文本的评价结果。
5.可选的，在本发明第一方面的第一种实现方式中，上述基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系的步骤，包括：获取目标文本中每个字符的字符特征，以及参考文件中每个字符的字符特征；针对目标文本中的每个字符，将当前字符的字符特征与参考文件中的每个字符的字符特征进行对比，得到相似度；将最大的相似度确定为当前字符的置信度；将目标文本的每个字符的相似度确定为目标文本映射至参考文本的映射关系。
6.可选的，在本发明第一方面的第二种实现方式中，基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系的步骤，包括：将目标文本和参考文本进行拼接处理，得到拼接文本；将拼接文本输入至预训练的语言表征模型，输出拼接文本的文本特征；将文本特征输入至预设的多层感知机层，输出中间结果；将中间结果输入至预设的激活函数，得到目标文本和参考文本的映射关系。
7.可选的，在本发明第一方面的第三种实现方式中，上述语言表征模型通过预设的训练样本集训练得到；训练样本集包括多组训练样本对；训练样本对的样本标签用于：指示训练样本对中的文本样本之间的置信度。其中，如果训练样本对中包括样本文本和样本文
本的样本摘要，训练样本对对应的置信度为一；如果训练样本对象中包括样本文本和与样本文本无关的文本，训练样本对对应的置信度为零。
8.可选的，在本发明第一方面的第四种实现方式中，上述基于映射关系，生成目标文本的评价结果的步骤，包括：如果目标文本为原始文本的压缩文本，获取目标文本映射至原始文本的第一映射关系，以及参考文本映射至目标文本的第二映射关系；计算第一映射关系中各个置信度的第一平均值，以及第二映射关系中各个置信度的第二平均值；将第一平均值和第二平均值的乘积，确定为目标文本的评价结果。
9.可选的，在本发明第一方面的第五种实现方式中，上述基于映射关系，生成目标文本的评价结果的步骤，包括：如果目标文本为参考文本的重写文本，获取目标文本映射至参考文本的第一映射关系，以及参考文本映射至目标文本的第二映射关系；计算第一映射关系中各个置信度的第一平均值，以及第二映射关系中各个置信度的第二平均值；将第一平均值和第二平均值的乘积，确定为目标文本的评价结果。
10.可选的，在本发明第一方面的第六种实现方式中，上述基于映射关系，生成目标文本的评价结果的步骤，包括：如果目标文本为参考文本的答案文本，获取目标文本映射至参考文本的第一映射关系；其中，参考文本包括：原始文本和问题文本；将第一映射关系中各个置信度的和，确定为目标文本的评价结果。
11.本发明第二方面提供了一种文本评价装置，包括：第一获取模块，用于获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；第一确定模块，用于基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系；其中，映射关系中包括：目标文本中的字符与参考文本之间的置信度，或者参考文本中的字符与目标文本之间的置信度；第一生成模块，用于基于映射关系，生成目标文本的评价结果。
12.可选的，在本发明第二方面的第一种实现方式中，上述第一确定模块，还用于：获取目标文本中每个字符的字符特征，以及参考文件中每个字符的字符特征；针对目标文本中的每个字符，将当前字符的字符特征与参考文件中的每个字符的字符特征进行对比，得到相似度；将最大的相似度确定为当前字符的置信度；将目标文本的每个字符的相似度确定为目标文本映射至参考文本的映射关系。
13.可选的，在本发明第二方面的第二种实现方式中，上述第一确定模块，还用于：将目标文本和参考文本进行拼接处理，得到拼接文本；将拼接文本输入至预训练的语言表征模型，输出拼接文本的文本特征；将文本特征输入至预设的多层感知机层，输出中间结果；将中间结果输入至预设的激活函数，得到目标文本和参考文本的映射关系。
14.可选的，在本发明第二方面的第三种实现方式中，上述语言表征模型通过预设的训练样本集训练得到；训练样本集包括多组训练样本对；训练样本对的样本标签用于：指示训练样本对中的文本样本之间的置信度。其中，如果训练样本对中包括样本文本和样本文本的样本摘要，训练样本对对应的置信度为一；如果训练样本对象中包括样本文本和与样本文本无关的文本，训练样本对对应的置信度为零。
15.可选的，在本发明第二方面的第四种实现方式中，上述第一生成模块，还用于：如果目标文本为原始文本的压缩文本，获取目标文本映射至原始文本的第一映射关系，以及参考文本映射至目标文本的第二映射关系；计算第一映射关系中各个置信度的第一平均
值，以及第二映射关系中各个置信度的第二平均值；将第一平均值和第二平均值的乘积，确定为目标文本的评价结果。
16.可选的，在本发明第二方面的第五种实现方式中，上述第一生成模块，还用于：如果目标文本为参考文本的重写文本，获取目标文本映射至参考文本的第一映射关系，以及参考文本映射至目标文本的第二映射关系；计算第一映射关系中各个置信度的第一平均值，以及第二映射关系中各个置信度的第二平均值；将第一平均值和第二平均值的乘积，确定为目标文本的评价结果。
17.可选的，在本发明第二方面的第六种实现方式中，上述第一生成模块，还用于：如果目标文本为参考文本的答案文本，获取目标文本映射至参考文本的第一映射关系；其中，参考文本包括：原始文本和问题文本；将第一映射关系中各个置信度的和，确定为目标文本的评价结果。
18.本发明第三方面提供了一种文本评价设备，包括：存储器和至少一个处理器，存储器中存储有指令；至少一个处理器调用存储器中的指令，以使得文本评价设备执行上述的文本评价方法。
19.本发明的第四方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述文本评价方法。
20.本发明提供的技术方案中，获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系；其中，映射关系中包括：目标文本中的字符与参考文本之间的置信度，或者参考文本中的字符与目标文本之间的置信度；基于映射关系，生成目标文本的评价结果。该方法中，采用目标文本中的字符与参考文本之间的置信度、参考文本中的字符与目标文本之间的置信度等方式定义生成文本和参考文本的映射关系，基于该映射关系生成目标文本的评价结果，该方式下，从字符特征、参考文本全局特征方面充分考虑了生成文本与参考文本之间语义内容的相似性，客观而准确的评价了生成文本的质量。
附图说明
21.图1为本发明实施例中文本评价方法的一个实施例示意图；
22.图2为本发明实施例中文本评价方法的另一个实施例示意图；
23.图3为本发明实施例中文本评价方法的另一个实施例示意图；
24.图4为本发明实施例中文本评价装置的一个实施例示意图；
25.图5为本发明实施例中文本评价设备的一个实施例示意图。
具体实施方式
26.本发明实施例提供了一种文本评价方法、装置、设备及存储介质，用于提高人脸特征提取的准确性。
27.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示
或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中文本评价方法的一个实施例包括：
29.101、获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；
30.上述目标文本是待评价的文本，可以是一个句子、一个段落或者一个篇章，目标文本由文本生成模型输出。文本生成模型可以参照现有技术，包括lstm(long-short term memory，长短期记忆)、gru(gate recurrent unit，门循环单元)等神经网路模型，参考文本则是作为参考目标，通过比较目标文本与该文本的属性如流畅性、内部的关联性等来判断生成文本的质量。目标文本应用的场景不同，参考文本数量及来源各不相同。一般来说，文本生成常用于压缩、重写、问答等各个场景，当需要从原始文本中抽取其中一句话或者几句话构成文本摘要时，目标文本为原始文本的压缩文本，这种情况下，参考文本可以是目标文本的原始文本和标准文本，该标准文本可以是人工撰写的高质量文本，也可以采用人们认可度最高的模型生成文本，在这里不做限定；当目标文本为参考文本的答案文本，参考文本包括：原始文本和问题文本；当文本生成用于重写场景时，参考文本就是原始文本。
31.通过文本生成模型获取目标生成文本，并基于目标文本应用的场景不同，从相应途径获取参考文本。
32.本步骤中，从各途径获取待评价的目标文本以及用于评价目标文本的参考文本，其中，原始文本、标准文本、问题文本均可作为参考文本，针对不同的应用场景，纳入文本评价参考范围内，参考文本范围更加广泛。
33.102、基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系；其中，映射关系中包括：目标文本中的字符与参考文本之间的置信度，或者参考文本中的字符与目标文本之间的置信度；
34.在这里，文本特征是文本中可以用于标识该文本内容并能与其他文本区别开的基本单位，包括语义、结构等部分内容，可以是一个字、词、短语等，一般通过预先训练的神经网络模型获取。映射关系通过字符特征与整个文本特征之间的置信度来定义，可以通过多层感知机(muti－layer perception，简称mlp)及相应激活函数获取。置信度也称可靠度，可以理解为，两个对象对比结果中置信度越大，两者的相似度就越高。
35.该方式下，根据目标文本的文本特征和参考文本的文本特征，采用字符与整个文本特征之间的置信度来表述两个文本的映射关系，从字符与文本内容方面获取了两个文本的对应关系。
36.103、基于映射关系，生成目标文本的评价结果。
37.具体地，针对不同的应用场景，可以配置相应的参考文本，根据目标文本和参考文本的映射关系，采用不同的运算方式进行处理，生成目标文本的评价结果。
38.进一步地，可以在评估结果大于或等于第一设定阈值的情况下，将文本生成质量确定为优秀；可以在评估结果大于或等于第二设定阈值，且小于第一设定阈值的情况下，将
文本生成质量确定为良；可以在评估指标小于第二设定阈值的情况下，将文本生成质量确定为差；其中，第二设定阈值小于第一设定阈值。
39.本步骤中，采用目标文本中的字符与参考文本之间的置信度、参考文本中的字符与目标文本之间的置信度作为评价指标，用来评价目标文本的生成质量，从字符特征、参考文本的结构、主题等方面考虑，更好地反映了生成文本与参考文本间的语义关系，客观而准确的评价生成了生成文本的质量。
40.上述文本评价方法，获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系；其中，映射关系中包括：目标文本中的字符与参考文本之间的置信度，或者参考文本中的字符与目标文本之间的置信度；基于映射关系，生成目标文本的评价结果。该方法中，采用目标文本中的字符与参考文本之间的置信度、参考文本中的字符与目标文本之间的置信度等方式定义生成文本和参考文本的映射关系，基于该映射关系生成目标文本的评价结果，该方式下，从字符特征、参考文本全局特征方面充分考虑了生成文本与参考文本之间语义内容的相似性，客观而准确的评价了生成文本的质量。
41.请参见图2，本方案提供一种示例性实施例，对上述文本评价方法进行详细的介绍。
42.201、获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；
43.本步骤与步骤101相同，故不赘述。
44.202、获取目标文本中每个字符的字符特征，以及参考文件中每个字符的字符特征；针对目标文本中的每个字符，将当前字符的字符特征与参考文件中的每个字符的字符特征进行对比，得到相似度；将最大的相似度确定为当前字符的置信度；将目标文本的每个字符的相似度确定为目标文本映射至参考文本的映射关系。
45.通过预先训练的神经网络模型获取目标文本及参考文本中每个字符的字符特征。可选地，神经网络模型包括bert(bidirectional encoder representation from transformers)模型。利用带有内容相似度标签和生成语句辨识标签的训练样本对神经网络模型进行训练，可以获得bert评估模型，该模型可以分析文本的词义特征。一个实施例中，将目标文本和参考文本输入预设的bert模型经过词法分析过后生成的token序列进行embedding(嵌入)，来获取目标文本和参考文本中每个字符的特征分布向量。针对目标文本中的每个字符，将当前字符的字符特征分布向量与参考文件中的每个字符的字符特征分布向量进行对比，计算字符特征分布向量的余弦相似度，将最大的相似度的值确定为当前字符的置信度。
46.进一步地，确定目标文本中每个字符的映射关系，获得整个目标文本中所有字符的相似度。
47.一种具体的实现方式中，本实施例可以提供定义目标文本a到参考文本b的映射关系的公式，假设a的文本长度为n个字符，那么a文本中每个字符a对应到b的文本的置信度(取值范围为0-1)为：
48.reflex(a
→
b)＝{a1，a2,
…an
}
49.其中，an为目标文本a中第n个字符的字符特征与b所有文本字符特征对比后，得到的余弦相似度最大的值；{a1，a2,
…an
}为目标文本a中所有字符的字符特征与b文本对比后，得到的余弦相似度最大的值的集合。
50.本步骤中，利用预先训练的神经网络模型来分析文本的词义特征，得到目标文本及参考文本的字符特征，将目标文本中的每个字符的字符特征与参考文件字符的字符特征进行相似度对比，将最大的相似度确定为该字符的置信度，进而可以得到整个目标文件所有字符的相似度的集合。
51.203、基于映射关系，生成目标文本的评价结果。
52.本步骤与步骤103相同，故不赘述。
53.上述文本评价方法中，利用训练过的评估模型，分析文本的词义特征。将目标文本中的每个字符的字符特征与参考文件字符的字符特征进行相似度对比，将最大的相似度确定为该字符的置信度，进而可以得到整个目标文件所有字符的相似度的集合。该方式下，从字符及整个文本内容方面充分考虑了参考文本与生成文本之间的语义内容的相似性，客观而准确的评价了生成文本的质量。
54.请参见图3，本方案还提供一种示例性实施例，对上述文本评价方法进行详细的介绍。
55.301、获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；
56.本步骤与步骤101相同，故不赘述。
57.302、将目标文本和参考文本进行拼接处理，得到拼接文本；将拼接文本输入至预训练的语言表征模型，输出拼接文本的文本特征；将文本特征输入至预设的多层感知机层，输出中间结果；将中间结果输入至预设的激活函数，得到目标文本和参考文本的映射关系；
58.在这里，将目标文本和参考文本进行组合拼接，获得文本对，将文本对输入至预训练的语言表征模型，输出拼接文本的文本特征，通过预设的多层感知机层及预设的激活函数，得到目标文本和参考文本的映射关系。其中，语言表征模型可以通过预设的训练样本集训练得到，训练样本集包括多组训练样本对，训练样本对的样本标签用于指示训练样本对中的文本样本之间的置信度。当训练样本对中包括样本文本和样本文本的样本摘要时，设置训练样本对对应的置信度为一；可以理解的，样本摘要是通过关键词，位置等多种特征，摘取样本原文内容得到，因此，每个样本摘要中的字符均能在样本文本的字符中匹配到，该训练样本对对应的置信度最高。当训练样本对象中包括样本文本和与样本文本无关的文本，设置训练样本对对应的置信度最低，设置为零。
59.一个实施例中，语言表征模型包括预先训练过的bert模型用来分析文本的词义特征。通过将目标文本和参考文本进行拼接组成文本对，输入该模型得到文本特征，将文本特征输入至预设的多层感知机层mlp，输出多维特征向量，将输出的向量通过sigmoid激活函数(将数字映射到0-1范围内)，获得整个目标文本中所有字符的相似度。
60.303、基于映射关系，生成目标文本的评价结果。
61.本步骤与步骤103相同，故不赘述。
62.上述文本评价方法中，利用预设的训练样本集训练语言表征模型，将目标文本和参考文本进行拼接组成文本对，输入该模型得到文本的语义特征，通过预设的多层感知机
层及预设的激活函数，得到目标文本和参考文本的映射关系。以该映射关系为基础，生成评价指标，从字符及文本内容方面充分考虑了参考文本与生成文本之间的语义内容的相似性，客观而准确的评价了生成文本的质量。
63.下述实施例提供基于映射关系生成目标文本的评价结果的具体实现方式。
64.如前文所述，参考文本作为参考目标，通过比较目标文本与参考文本的属性如流畅性、内部的关联性等来判断生成文本的质量。目标文本应用的场景不同，参考文本数量及来源各不相同。
65.一种具体方式中，参考文本包括标准文本和目标文本的原始文本，如果目标文本为原始文本的压缩文本，获取目标文本映射至原始文本的第一映射关系，以及标准文本映射至目标文本的第二映射关系；计算第一映射关系中各个置信度的第一平均值，以及第二映射关系中各个置信度的第二平均值；将第一平均值和第二平均值的乘积，确定为目标文本的评价结果。
66.具体地，当需要从原始文本中抽取其中一句话或者几句话构成文本摘要时，目标文本为原始文本的压缩文本，参数文本为标准文本和目标文本的原始文本。标准文本是通过人工撰写得到的高质量文本。在这里，我们希望目标文本不会超出原始文本的范围，我们又希望生成的目标文本能够完美覆盖标准文本的内容。
67.因此，本实施例可以提供该场景下的评价指标公式，即：
68.score＝mean(reflex(y
→
x))
×
mean(reflex(z
→
y))
69.其中，x为原始文本；y为目标文本，z为标准文本，mean(reflex(y
→
x))为第一映射关系中各个置信度的第一平均值；mean(reflex(z
→
y))为第二映射关系中各个置信度的第二平均值。
70.另一种具体方式中，如果目标文本为参考文本的重写文本，获取目标文本映射至参考文本的第一映射关系，以及参考文本映射至目标文本的第二映射关系；计算第一映射关系中各个置信度的第一平均值，以及第二映射关系中各个置信度的第二平均值；将第一平均值和第二平均值的乘积，确定为目标文本的评价结果。
71.具体地，例如识别文字生成、文本重新编写等场景，该场景下，参看文本为原始文本。在这里，我们既希望目标文本能涵盖原始文本的内容，同时原始文本也能涵盖目标文本的内容，
72.因此，本实施例可以提供该场景下的评价指标公式，即：
73.score＝mean(reflex(y
→
x))
×
mean(reflex(x
→
y))
74.其中，x为原始文本；y为目标文本，mean(reflex(y
→
x))为第一映射关系中各个置信度的第一平均值；mean(reflex(x
→
y))为第二映射关系中各个置信度的第二平均值。
75.还有一种具体方式，如果目标文本为参考文本的答案文本，获取目标文本映射至参考文本的第一映射关系；其中，参考文本包括：原始文本和问题文本；将第一映射关系中各个置信度的和，确定为目标文本的评价结果。
76.具体地，该场景包括：在线客服、知识获取、情感类聊天等。该场景下，参考文本包括：原始文本和问题文本；在这里，问题文本基于参考文本生成目标文本(答案文本)。我们希望目标文本是基于问题文本和参考文本生成的，对于目标文本的每个字符，字符特征的评价分数越高越好，所以对置信度结果采用加和的计算方式处理。
77.因此，本实施例可以提供该场景下的评价指标公式，即：
78.score＝sum(reflex(a
→
[q,c]))
[0079]
其中，a为目标文本(答案文本)中的字符；q为问题文本，c为原始文本。
[0080]
上述针对生成文本的压缩、重写、问答应用场景，配置相应的参考文本，从原始文本、标准文本、问题文本等多方面进行考虑，生成评价指标，基于评价指标，比较目标文本和参考文本的属性如流畅性，内部的关联性，该指标扩大了计算范围，对于生成文本的质量的判定更加合理、准确。
[0081]
上述文本评价方法，获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系；其中，映射关系中包括：目标文本中的字符与参考文本之间的置信度，或者参考文本中的字符与目标文本之间的置信度；基于映射关系，生成目标文本的评价结果。该方法中，采用目标文本中的字符与参考文本之间的置信度、参考文本中的字符与目标文本之间的置信度等方式定义生成文本和参考文本的映射关系，基于该映射关系生成目标文本的评价结果，该方式下，从字符特征、参考文本全局特征方面充分考虑了生成文本与参考文本之间语义内容的相似性，客观而准确的评价了生成文本的质量。
[0082]
下面对本发明实施例中文本评价装置进行描述，请参阅图4，本发明实施例中文本评价装置的一个实施例包括：
[0083]
第一获取模块401，用于获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；
[0084]
第一确定模块402，用于基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系；其中，映射关系中包括：目标文本中的字符与参考文本之间的置信度，或者参考文本中的字符与目标文本之间的置信度；
[0085]
第一生成模块403，用于基于映射关系，生成目标文本的评价结果。
[0086]
上述文本评价方法、装置、设备及存储介质，获取待评价的目标文本，以及用于评价目标文本的参考文本；其中，目标文本预先由文本生成模型输出；基于目标文本的文本特征和参考文本的文本特征，确定目标文本和参考文本的映射关系；其中，映射关系中包括：目标文本中的字符与参考文本之间的置信度，或者参考文本中的字符与目标文本之间的置信度；基于映射关系，生成目标文本的评价结果。该方式下，从字符特征、参考文本全局特征方面充分考虑了生成文本与参考文本之间语义内容的相似性，客观而准确的评价了生成文本的质量。
[0087]
上述第一确定模块，还用于：获取目标文本中每个字符的字符特征，以及参考文件中每个字符的字符特征；针对目标文本中的每个字符，将当前字符的字符特征与参考文件中的每个字符的字符特征进行对比，得到相似度；将最大的相似度确定为当前字符的置信度；将目标文本的每个字符的相似度确定为目标文本映射至参考文本的映射关系。
[0088]
上述第一确定模块，还用于：将目标文本和参考文本进行拼接处理，得到拼接文本；将拼接文本输入至预训练的语言表征模型，输出拼接文本的文本特征；将文本特征输入至预设的多层感知机层，输出中间结果；将中间结果输入至预设的激活函数，得到目标文本和参考文本的映射关系。
[0089]
上述语言表征模型通过预设的训练样本集训练得到；训练样本集包括多组训练样本对；训练样本对的样本标签用于：指示训练样本对中的文本样本之间的置信度。其中，如果训练样本对中包括样本文本和样本文本的样本摘要，训练样本对对应的置信度为一；如果训练样本对象中包括样本文本和与样本文本无关的文本，训练样本对对应的置信度为零。
[0090]
上述第一生成模块，还用于：如果目标文本为原始文本的压缩文本，获取目标文本映射至原始文本的第一映射关系，以及参考文本映射至目标文本的第二映射关系；计算第一映射关系中各个置信度的第一平均值，以及第二映射关系中各个置信度的第二平均值；将第一平均值和第二平均值的乘积，确定为目标文本的评价结果。
[0091]
上述第一生成模块，还用于：如果目标文本为参考文本的重写文本，获取目标文本映射至参考文本的第一映射关系，以及参考文本映射至目标文本的第二映射关系；计算第一映射关系中各个置信度的第一平均值，以及第二映射关系中各个置信度的第二平均值；将第一平均值和第二平均值的乘积，确定为目标文本的评价结果。
[0092]
上述第一生成模块，还用于：如果目标文本为参考文本的答案文本，获取目标文本映射至参考文本的第一映射关系；其中，参考文本包括：原始文本和问题文本；将第一映射关系中各个置信度的和，确定为目标文本的评价结果。
[0093]
上面图4从模块化的角度对本发明实施例中文本评价装置进行详细描述，下面从硬件处理的角度对本发明实施例中文本评价设备进行详细描述。
[0094]
图5是本发明实施例提供的一种文本评价设备的结构示意图，该文本评价设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对文本评价设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在文本评价设备500上执行存储介质530中的一系列指令操作。
[0095]
文本评价设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如windows serve，mac os x，unix，linux，freebsd等等。本领域技术人员可以理解，图5示出的文本评价设备结构并不构成对文本评价设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0096]
本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行文本评价方法的步骤。
[0097]
本发明还提供一种文本评价设备，文本评价设备包括存储器和处理器，存储器中存储有指令，指令被处理器执行时，使得处理器执行上述各实施例中的文本评价方法的步骤。
[0098]
进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储
程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。
[0099]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0100]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0101]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0102]
以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：自然语言理解系统的评估方法、装置及网络设备与流程

文本评价方法、装置、设备及存储介质与流程

相关文献

最热文献