机器阅读理解模型的训练方法、装置及可读存储介质与流程

2021-12-17 19:39:00 来源：中国专利 TAG：

1.本发明涉及机器学习与自然语言处理(nlp，natural language processing)技术领域，具体涉及一种机器阅读理解模型的训练方法、装置及计算机可读存储介质。

背景技术：

2.机器阅读理解(mrc，machine reading comprehension)是指对文本的自动、无监督的理解。让计算机具备通过文本数据获取知识和回答问题的能力，被认为是构建通用智能体的一个关键步骤。机器阅读理解的任务目标在于让机器学会根据文章内容回答人类提出的问题，这类任务可以作为测试计算机能否很好地理解自然语言的基线方法。同时机器阅读理解又有广泛的应用场景，例如搜索引擎、电子商务、教育领域等。
3.在过去的二十年左右，自然语言处理(nlp)为底层句法和语义文本处理任务开发了强大的方法，如解析，语义角色标注和文本分类。在同一时期，机器学习和概率推理领域也取得了重要突破。目前人工智能已经逐步转向研究如何利用这些进步来理解文本。
4.这里“理解文本”一词意思是基于文本语料库和背景/理论形成一套连贯一致的理解。一般来说，人们在读完一篇文章之后就会在脑海里形成一定的印象，例如这篇文章讲的是什么人，做了什么事情，出现了什么，发生在哪里等等。人们能够很轻而易举地归纳出文章中的重点内容。机器阅读理解的研究就是赋予计算机与人类同等的阅读能力，即让计算机阅读一篇文章，随后让计算机解答与文中信息相关的问题。
5.机器阅读理解其实和人阅读理解面临的问题是类似的，不过为了降低任务难度，很多目前研究的机器阅读理解都将世界知识排除在外，采用人工构造的比较简单的数据集，以及回答一些相对简单的问题。给定需要机器理解的文章以及对应的问题，比较常见的任务形式包括人工合成问答、填字方式(cloze-style queries)和选择题等方式。
6.其中，人工合成问答是由人工构造的由若干简单事实形成的文章以及给出对应问题，要求机器阅读理解文章内容并做出一定的推理，从而得出正确答案，正确答案往往是文章中的某个关键词或者实体。
7.目前，机器阅读理解目前大多是采用大规模预训练语言模型，通过寻找文章中每个词语与问题中每个词语的对应关系(该对应关系可以称为对齐信息)发现深层特征，基于此特征，找到文章中的原话来回答人类提出的问题。图1示出了现有技术中预训练语言模型的示意图。
8.如图1所示，以检索到的文章和问题为输入，经过预训练语言模型对文章和问题文本进行编码，并计算词语之间的对齐信息，最终输出答案所在位置的概率，选择概率最大的作为上述问题的答案。
9.目前的机器阅读理解技术中，最终给出的答案的准确性不高。

技术实现要素：

10.本发明实施例要解决的技术问题是提供一种机器阅读理解模型的训练方法、装置
及计算机可读存储介质，能够以较少的训练时间，训练得到性能较好的机器阅读理解模型，进而提高了机器阅读理解模型对答案预测的准确性。
11.根据本发明实施例的一个方面，提供了一种机器阅读理解模型的训练方法，包括：
12.根据训练文本中每个词的位置和答案标签的位置，计算得到每个词与所述答案标签之间的距离；
13.将所述词与所述答案标签之间的距离输入至一平滑函数，获得所述平滑函数输出的所述词对应的概率值；
14.将所述词对应的概率值作为所述词平滑后的标签，训练机器阅读理解模型；
15.其中，在所述距离的绝对值大于0且小于预设门限的情况下，若所述词为停用词，所述平滑函数输出的概率值为大于0且小于1的第一数值；若所述词不是停用词，所述平滑函数输出的概率值为0；
16.在所述距离的绝对值大于或等于所述预设门限的情况下，所述平滑函数输出的概率值为0；
17.在所述距离等于0的情况下，所述平滑函数输出最大值，且所述最大值大于0.9且小于1。
18.此外，根据本发明至少一个实施例，所述第一数值与所述距离的绝对值负相关。
19.此外，根据本发明至少一个实施例，所述答案标签包括：答案起始标签和答案结束标签；
20.所述词与所述答案标签之间的距离包括：所述词与答案起始标签之间的起始距离，以及，所述词与答案结束标签之间的结束距离；
21.在所述答案标签为答案起始标签的情况下，所述词对应的概率值表示所述词为答案起始标签的概率；
22.在所述答案标签为答案结束标签的情况下，所述词对应的概率值表示所述词为答案结束标签的概率。
23.此外，根据本发明至少一个实施例，所述将所述词对应的概率值作为所述词平滑后的标签，训练机器阅读理解模型的步骤，包括：
24.使用所述词对应的概率值，替换所述词对应的标签，训练所述机器阅读理解模型。
25.此外，根据本发明至少一个实施例，所述答案标签包括答案起始标签和答案结束标签。
26.此外，根据本发明至少一个实施例，所述训练方法还包括：
27.利用训练得到的所述机器阅读理解模型，对输入的文章和问题进行答案标签的预测。
28.根据本发明实施例的另一方面，还提供了一种机器阅读理解模型的训练装置，包括：
29.距离计算模块，用于根据训练文本中每个词的位置和答案标签的位置，计算得到每个词与所述答案标签之间的距离；
30.标签平滑模块，用于将所述词与所述答案标签之间的距离输入至一平滑函数，获得所述平滑函数输出的所述词对应的概率值
31.模型训练模块，用于将所述词对应的概率值作为所述词平滑后的标签，训练机器
阅读理解模型；
32.其中，在所述距离的绝对值大于0且小于预设门限的情况下，若所述词为停用词，所述平滑函数输出的概率值为大于0且小于1的第一数值；若所述词不是停用词，所述平滑函数输出的概率值为0；
33.在所述距离的绝对值大于或等于所述预设门限的情况下，所述平滑函数输出的概率值为0；
34.在所述距离等于0的情况下，所述平滑函数输出最大值，且所述最大值大于0.9且小于1。
35.此外，根据本发明至少一个实施例，所述第一数值与所述距离的绝对值负相关。
36.此外，根据本发明至少一个实施例，所述答案标签包括：答案起始标签和答案结束标签；
37.所述词与所述答案标签之间的距离包括：所述词与答案起始标签之间的起始距离，以及，所述词与答案结束标签之间的结束距离；
38.在所述答案标签为答案起始标签的情况下，所述词对应的概率值表示所述词为答案起始标签的概率；
39.在所述答案标签为答案结束标签的情况下，所述词对应的概率值表示所述词为答案结束标签的概率。
40.此外，根据本发明至少一个实施例，所述的训练装置还包括：
41.答案标注模块，用于利用训练得到的所述机器阅读理解模型，对输入的文章和问题进行答案标签的预测。
42.本发明实施例还提供了一种机器阅读理解模型的训练装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的机器阅读理解模型的训练方法的步骤。
43.本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的机器阅读理解模型的训练方法的步骤。
44.与现有技术相比，本发明实施例提供的机器阅读理解模型的训练方法、装置及计算机可读存储介质，通过将答案边界附近的停用词的概率信息融入到模型训练过程中，可以以较少的训练时间，训练得到性能较好的机器阅读理解模型，进而提高了训练得到的模型对答案预测的准确性。
附图说明
45.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
46.图1为现有技术的一种预训练语言模型的示例图；
47.图2为本发明实施例的机器阅读理解模型的训练方法的一种流程示意图；
48.图3为本发明实施例提供的平滑函数的一个示例图；
49.图4为本发明实施例的机器阅读理解模型的一种结构示意图；
50.图5为本发明实施例的机器阅读理解模型的训练装置的一种结构示意图；
51.图6为本发明实施例的机器阅读理解模型的训练装置的另一结构示意图。
具体实施方式
52.为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。
53.应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
54.在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
55.本发明实施例提供的机器阅读理解模型的训练方法，特别适用于从给定的文章中寻找出问题的答案，该答案通常是文章中的一部分文本。请参照图2，给出了本发明实施例提供的机器阅读理解模型的训练方法的一种流程示意图，如图2所示，该训练方法包括：
56.步骤21，根据训练文本中每个词的位置和答案标签的位置，计算得到每个词与所述答案标签之间的距离。
57.这里，训练文本可以是一篇文章，答案标签用于标注问题的答案在文章中的具体位置，一种常用的标注方式是独热(one-hot)编码方式，例如，对于答案在文章中的起始词位置和结束词位置分别标注为1(分别对应于答案起始标签和答案结束标签)，对于文章中的其他词位置则标注为0。
58.在计算训练文本中的每个词与所述答案标签之间的距离时，可以采用词的绝对位置与答案标签的绝对位置相减的方式，这里，绝对位置是指词在训练文本中的排序，所述答案标签可以包括答案起始标签和答案结束标签，分别用于指示答案在训练文本中起始位置和结束位置。所述词与所述答案标签之间的距离包括：所述词与答案起始标签之间的起始距离，以及，所述词与答案结束标签之间的结束距离。
59.表1给出了训练文本以及距离计算的一个具体示例，假设训练文本为“people who in the 10th and 11th centuries gave
…”
，该训练文本中的各个词的绝对位置依次为1(people)、2(who)、3(in)、4(the)、5(10th)、6(and)、7(11th)、8(centuries)、9(gave)
…
，问题的答案为“10th and 11th centuries”，即答案起始标签的位置是5(10th)，答案结束标签的位置是8(centuries)，如表1所示，在采用独热编码方式时，答案起始标签处被标注为1，其他位置标注为0；答案结束标签处被标注为1，其他位置则被标注为0。
60.那么，对于词“people”来说，它与答案起始标签之间的距离(即表1中的起始距离)为：1-5＝-4，它与答案结束标签之间的距离(即表1中的结束距离)为：1-8＝-7。类似的，对
于词“who”来说，它与答案起始标签之间的距离(即表1中的起始距离)为：2-5＝-3，它与答案结束标签之间的距离(即表1中的结束距离)为：2-8＝-6。其他词与所述答案标签之间的距离可以参照表1所示。
[0061][0062]
表1
[0063]
步骤22，将所述词与所述答案标签之间的距离输入至一平滑函数，获得所述平滑函数输出的所述词对应的概率值，其中，在所述距离的绝对值大于0且小于预设门限的情况下，若所述词为停用词，所述平滑函数输出的概率值为大于0且小于1的第一数值；若所述词不是停用词，所述平滑函数输出的概率值为0。
[0064]
这里，本发明实施例提供了一种平滑函数，该平滑函数的输入为词与所述答案标签之间的距离，输出则是所述词对应的概率值，即，所述词是答案标签的概率。其中，在所述答案标签为答案起始标签的情况下，所述词对应的概率值表示所述词为答案起始标签的概率；在所述答案标签为答案结束标签的情况下，所述词对应的概率值表示所述词为答案结束标签的概率。
[0065]
可以看出，平滑函数输出的概率值是距离的函数，而距离中保留了词的位置信息，从而可以提供了潜在的答案边界信息。考虑到答案附近的停用词有可能是潜在的答案边界位置，例如，表1中的答案为“10th and 11th centuries”，而包括有停用词“in”和“the”的文本“in the 10th and 11th centuries”，也可以被视为是答案的另一种形式。因此，本发明实施例的所述平滑函数，在输入为停用词(例如，此处的停用词包括有“in”和“the”)的距离时，可以输出某个不为0的第一数值，从而在模型训练中引入了停用词作为答案边界的信息，可以加快模型的训练过程，并提高训练得到的模型对答案预测的准确性。某个词是否为停用词，可以通过该词是否存在于预先建立的停用词表来判断。停用词通常是在网页检索领域在搜索过程中被排除的词，用于提高网页的检索速度。
[0066]
考虑到某个停用词与答案之间的距离越大，其作为答案边界的可能性通常会越小，因此，在所述距离的绝对值大于0且小于预设门限的情况下，若所述词为停用词，所述平滑函数输出所述第一数值，这里，所述第一数值与所述距离的绝对值负相关。通常，所述第一数值是接近于0的数值，例如取值范围介于0～0.5之间的某个数值。
[0067]
而在某个词与答案之间的距离过大时，其作为答案边界的可能性通常很小，因此本发明实施例预先设置了一个门限，当所述距离的绝对值大于或等于所述门限时，所述平滑函数输出的概率值为0。另外，当所述距离等于0时，表示所述词恰好为答案标签所在位置，此时，平滑函数输出最大值，且所述最大值大于0.9且小于1。
[0068]
下面提供了一个平滑函数的具体示例，如果某个词为停用词，可以采用以下平滑函数f(x)来计算该词对应的概率值，这里x表示该词与所述答案标签之间的距离。
[0069][0070]
δ(x)＝1，若x＝0；
[0071]
δ(x)＝0，若x≠0；
[0072]
图3给出了上述平滑函数f(x)与x的示意图，可以看出，在x＝0时，f(x)输出最大值；且f(x)与|x|负相关，即|x|越小，f(x)越大。
[0073]
表2以答案起始标签为例，提供了本发明实施例所生成的概率值的一个示例。与现有技术的普通标签平滑、高斯分布平滑等相比，本发明实施例针对停用词和非停用词分别引入了不同的概率值的计算方式，从而可以在后续模型训练中通过停用词的概率值引入停用词作为答案边界的信息。
[0074][0075]
表2
[0076]
步骤23，将所述词对应的概率值作为所述词平滑后的标签，训练机器阅读理解模型。
[0077]
这里，本发明实施例可以使用所述词对应的概率值，替换所述词对应的标签(如表2中的第二行所示的答案起始标签)，训练所述机器阅读理解模型。这里，所述词对应的标签，用于表示所述词是答案标签的概率。使用上述步骤22中获得的概率值作为所述词平滑后的标签，以表1中展示的例子来说，平滑后的标签展示在表2中的最后一行。因为“in the 10th and 11th centuries”和“the 10th and 11th centuries”都是正确的答案，本发明实施例可以将停用词相关的标签信息融入到了模型训练中。
[0078]
机器阅读理解模型的训练过程通常包括：
[0079]
1)使用标准分布随机初始化模型的参数。
[0080]
2)输入训练数据(包括训练文本、问题以及每个词平滑后的标签)并开始训练，使用梯度下降来优化损失函数，损失函数loss被定义为：
[0081]
loss＝-∑label
i
logp
i
[0082]
这里，label
i
表示词i平滑后的标签(即步骤22中得到的词i对应的概率值)；p
i
表示机器阅读理解模型输出的词i作为答案标签的概率值。
[0083]
图4给出了一种常见的机器阅读理解模型的结构，其中：
[0084]
a)输入层(input)是用来接收输入的训练文本和问题的字符序列，输入形式为[cls]训练文本[sep]问题[sep]。其中[cls]和[sep]是两个特殊的字符，用于分割两部分输入。
[0085]
b)向量转换层(embedding)是用于把输入层的字符序列映射为嵌入向量。
[0086]
c)编码层(encoder层)用来从所述嵌入向量中抽取语言特征。特别地，encoder层通常由多层transformer组成。
[0087]
d)softmax层是用来做出标签预测并输出相对应的概率，也就是输出上述p
i
，用于表示词i作为答案标签的概率值。
[0088]
e)输出层(output)在模型训练时则使用上述步骤d中输出的概率来生成损失函数，在预测答案时使用上述步骤d中输出的概率来生成对应的答案。
[0089]
通过以上步骤，本发明实施例针对停用词和非停用词分别引入了不同的概率值的计算方式，从而可以在后续模型训练中，融入答案边界附近的停用词的概率信息，从而可以以较少的训练时间，训练得到性能较好的机器阅读理解模型，进而提高了训练得到的模型对答案预测的准确性。
[0090]
在上述步骤23之后，本发明实施例还可以利用训练得到的所述机器阅读理解模型，对输入的文章和问题进行答案标签的预测。
[0091]
基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图5，本发明实施例提供的机器阅读理解模型的训练装置500，可以对输入的文章和问题进行答案预测，能够减少机器阅读理解模型的训练时间并提供答案预测的准确性。如图5所示，该机器阅读理解模型的训练装置500具体包括：
[0092]
距离计算模块501，用于根据训练文本中每个词的位置和答案标签的位置，计算得到每个词与所述答案标签之间的距离；
[0093]
标签平滑模块502，用于将所述词与所述答案标签之间的距离输入至一平滑函数，获得所述平滑函数输出的所述词对应的概率值；
[0094]
模型训练模块503，用于将所述词对应的概率值作为所述词平滑后的标签，训练机器阅读理解模型。
[0095]
其中，在所述距离的绝对值大于0且小于预设门限的情况下，若所述词为停用词，所述平滑函数输出的概率值为大于0且小于1的第一数值；若所述词不是停用词，所述平滑函数输出的概率值为0；
[0096]
在所述距离的绝对值大于或等于所述预设门限的情况下，所述平滑函数输出的概率值为0；
[0097]
在所述距离等于0的情况下，所述平滑函数输出最大值，且所述最大值大于0.9且小于1。
[0098]
通过以上模型，本发明实施例的机器阅读理解模型的训练装置，可以在模型训练中融入答案边界附近的停用词的概率信息，从而可以减少模型训练时间并改善训练得到的模型的预测性能。
[0099]
可选的，所述第一数值与所述距离的绝对值负相关。
[0100]
可选的，在所述距离的绝对值大于或等于所述预设门限时，所述平滑函数输出的概率值为0；在所述距离等于0时，所述平滑函数输出最大值，且所述最大值大于0.9且小于1。
[0101]
可选的，所述答案标签包括答案起始标签和答案结束标签。
[0102]
可选的，所述模型训练模块503，还用于使用所述词对应的概率值，替换所述词对
应的标签，训练所述机器阅读理解模型。
[0103]
可选的，上述训练装置还包括以下模块：
[0104]
答案标注模块，用于利用训练得到的所述机器阅读理解模型，对输入的文章和问题进行答案标签的预测。
[0105]
请参考图6，本发明实施例还提供了机器阅读理解模型的训练装置的一种硬件结构框图，如图6所示，该机器阅读理解模型的训练装置600包括：
[0106]
处理器602；和
[0107]
存储器604，在所述存储器604中存储有计算机程序指令，
[0108]
其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器602执行以下步骤：
[0109]
根据训练文本中每个词的位置和答案标签的位置，计算得到每个词与所述答案标签之间的距离；
[0110]
将所述词与所述答案标签之间的距离输入至一平滑函数，获得所述平滑函数输出的所述词对应的概率值；
[0111]
将所述词对应的概率值作为所述词平滑后的标签，训练机器阅读理解模型；
[0112]
其中，在所述距离的绝对值大于0且小于预设门限的情况下，若所述词为停用词，所述平滑函数输出的概率值为大于0且小于1的第一数值；若所述词不是停用词，所述平滑函数输出的概率值为0；
[0113]
在所述距离的绝对值大于或等于所述预设门限的情况下，所述平滑函数输出的概率值为0；
[0114]
在所述距离等于0的情况下，所述平滑函数输出最大值，且所述最大值大于0.9且小于1。
[0115]
进一步地，如图6所示，该机器阅读理解模型的训练装置600还可以包括网络接口601、输入设备603、硬盘605、和显示设备606。
[0116]
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器602代表的一个或者多个具有计算能力的处理器，所述处理器可以包括中央处理器(cpu,central processing unit)和/或图形处理器(gpu，graphics processing unit)，以及由存储器604代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。
[0117]
所述网络接口601，可以连接至网络(如因特网、局域网等)，从网络中接收数据(如训练文本以及问题)，并可以将接收到的数据保存在硬盘605中。
[0118]
所述输入设备603，可以接收操作人员输入的各种指令，并发送给处理器602以供执行。所述输入设备603可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等)。
[0119]
所述显示设备606，可以将处理器602执行指令获得的结果进行显示，例如显示模型训练的进度以及答案预测结果等。
[0120]
所述存储器604，用于存储操作系统运行所必须的程序和数据，以及处理器602计算过程中的中间结果等数据。
[0121]
可以理解，本发明实施例中的存储器604可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram)，其用作外部高速缓存。本文描述的装置和方法的存储器604旨在包括但不限于这些和任意其它适合类型的存储器。
[0122]
在一些实施方式中，存储器604存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统6041和应用程序6042。
[0123]
其中，操作系统6041，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6042，包含各种应用程序，例如浏览器(browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6042中。
[0124]
本发明上述实施例揭示的机器阅读理解模型的训练方法可以应用于处理器602中，或者由处理器602实现。处理器602可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述机器阅读理解模型的训练方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器604，处理器602读取存储器604中的信息，结合其硬件完成上述方法的步骤。
[0125]
可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0126]
对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0127]
可选的，所述第一数值与所述距离的绝对值负相关。
[0128]
可选的，在所述距离的绝对值大于或等于所述预设门限时，所述平滑函数输出的概率值为0；在所述距离等于0时，所述平滑函数输出最大值，且所述最大值大于0.9且小于1。
[0129]
可选的，所述答案标签包括答案起始标签和答案结束标签。
[0130]
具体地，所述计算机程序被处理器602执行时还可实现如下步骤：
[0131]
使用所述词对应的概率值，替换所述词对应的标签，训练所述机器阅读理解模型。
[0132]
具体地，所述计算机程序被处理器602执行时还可实现如下步骤：
[0133]
利用训练得到的所述机器阅读理解模型，对输入的文章和问题进行答案标签的预测。
[0134]
在本发明的一些实施例中，还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现以下步骤：
[0135]
根据训练文本中每个词的位置和答案标签的位置，计算得到每个词与所述答案标签之间的距离；
[0136]
将所述词与所述答案标签之间的距离输入至一平滑函数，获得所述平滑函数输出的所述词对应的概率值；
[0137]
将所述词对应的概率值作为所述词平滑后的标签，训练机器阅读理解模型；
[0138]
其中，在所述距离的绝对值大于0且小于预设门限的情况下，若所述词为停用词，所述平滑函数输出的概率值为大于0且小于1的第一数值；若所述词不是停用词，所述平滑函数输出的概率值为0；
[0139]
在所述距离的绝对值大于或等于所述预设门限的情况下，所述平滑函数输出的概率值为0；
[0140]
在所述距离等于0的情况下，所述平滑函数输出最大值，且所述最大值大于0.9且小于1。
[0141]
该程序被处理器执行时能实现上述机器阅读理解模型的训练方法中的所有实现方式，且能达到相同的技术效果，为避免重复，此处不再赘述。
[0142]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0143]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0144]
在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0145]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0146]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0147]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的机器阅读理解模型的训练方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁盘或者光盘等各种可以存储程序代码的介质。
[0148]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：涡轮叶片气膜孔孔内换热计算方法与流程

机器阅读理解模型的训练方法、装置及可读存储介质与流程

相关文献

最热文献