面向真实应用场景的多文档机器阅读理解模型的制作方法

2022-02-22 07:12:51 来源：中国专利 TAG：

1.本发明属于机器阅读理解领域，涉及面向真实应用场景的多文档机器阅读理解模型。

背景技术：

2.自然语言处理是实现人工智能的核心技术。在自然语言处理领域，深度学习技术在机器翻译、人机对话等方面取得了重大突破。机器阅读理解作为自然语言处理领域的核心技术，借助于深度学习技术，也获得了快速发展。
3.机器阅读理解的主要任务是让机器学会阅读和理解文章，对于机器阅读理解系统来说，基于给定的问题，其能从相关文章中寻找答案。机器阅读理解技术涉及到语言理解、知识推理、摘要生成等复杂技术，因而面临着诸多挑战。传统的机器阅读理解技术往往采用基于人工规则的模式匹配方法，或者借鉴信息抽取的方法构造关系数据库来寻找答案。这些方法效率低下，且准确率不高。随着深度学习技术的日趋成熟，以及各种大规模机器阅读理解数据集(如cnn/daily[1]、squad[2]、hlf-rc[3]、people daily news和children’s fairy tale(cft)[4]等)的发布，基于深度学习的机器阅读理解技术取得了巨大的进步，但是以上数据集还具有文档单一，数据人工合成、任务简单、应用领域有限等缺点，而面向真实应用场景的机器阅读理解数据集如ms marco[5]、dureader[6]等由于数据量较大，任务复杂，对模型要求较高等特点，目前在这一方面的研究还未取得较明显的效果。
[0004]
明显的，机器阅读理解技术目前还存在以下问题：
[0005]
(1)词向量模块仍需改善[30]；
[0006]
(2)模型缺乏推理能力；
[0007]
(3)模型缺乏外部知识；
[0008]
(4)答案生成技术研究不足；
[0009]
(5)模型编码技术有待提高[29]。当前的机器阅读理解模型的文章和问题编码层大多采用循环神经网络(recurrent neural network，rnn)和各种改进版，虽然此类技术能在一定程度上对文章和问题进行编码，但是其编码获取的信息仍然有限，还不能很好的编码上下文全局信息，并且其复杂的结构和大量的参数限制了整体模型的运行效率。

技术实现要素：

[0010]
本发明的目的在于：提供了面向真实应用场景的多文档机器阅读理解模型，解决了上述问题的不足。
[0011]
本发明采用的技术方案如下：
[0012]
面向真实应用场景的多文档机器阅读理解模型，使用transformer中的多头注意力机制替换dureader基线模型中的编码层和建模层，其处理步骤为：输入q(query),k(key),v(value)，其中q为查询对象，k-v为键值对，q、k、v首先经过一个线性变换层，然后输入到缩放点乘注意力机制中，进行单独的h次(头数)操作，然后将h次的操作结果进行拼接，
再进行一次线性变换得到的值作为多头attention的结果；其计算公式1/2如下
[0013]
headi＝attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀ
(1)
[0014]
multihead(q,k,v)＝concat(head1,...,headh)woꢀꢀꢀ
(2)
[0015]
式中w表示权重，concat()表示连接操作。
[0016]
进一步地，模型首先通过点乘操作计算q与k之间的相似度，然后为了防止其结果过大，除以一个尺度标度其中dk为一个q和k向量的维度，再利用softmax操作将其结果归一化为概率分布，然后再乘以v就得到一个attention度量，该操作可以表示为公式3
[0017][0018]
当q＝k＝v时，则是self-attention模型。
[0019]
综上所述，由于采用了上述技术方案，本发明的有益效果是：
[0020]
1.面向真实应用场景的多文档机器阅读理解模型，以基于深度学习的技术，对当前面向真实应用场景的多文档机器阅读理解模型进行分析，并针对模型存在的问题提出可能的解决方案，希望能建立一个时间开销小，性能优越的机器阅读理解模型，并基于此模型构建一个能用于实际应用场景的机器阅读理解系统。
[0021]
2.改进基线模型编码模块，希望改进后的模型能大幅降低模型训练时间；改进模型的建模层，简化模型的结构，进一步缩短模型的训练时间，提高模型性能。
附图说明
[0022]
为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，其中：
[0023]
图1是本发明多头注意力总体结构图；
[0024]
图2是本发明缩放点成注意力总体结构图；
[0025]
图3是本发明改进模型总体结构图。
具体实施方式
[0026]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0027]
因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0028]
需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他
性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0029]
下面结合实施例对本发明的特征和性能作进一步的详细描述。
[0030]
实施例一
[0031]
面向真实应用场景的多文档机器阅读理解模型，使用transformer中的多头注意力机制替换dureader基线模型中的编码层和建模层，其处理步骤为：输入q(query),k(key),v(value)，其中q为查询对象，k-v为键值对，q、k、v首先经过一个线性变换层，然后输入到缩放点乘注意力机制中，进行单独的h次(头数)操作，然后将h次的操作结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果；其计算公式1/2如下
[0032]
headi＝attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀ
(1)
[0033]
multihead(q,k,v)＝concat(head1,...,headh)woꢀꢀꢀ
(2)
[0034]
式中w表示权重，concat()表示连接操作。
[0035]
进一步地，模型首先通过点乘操作计算q与k之间的相似度，然后为了防止其结果过大，除以一个尺度标度其中dk为一个q和k向量的维度，再利用softmax操作将其结果归一化为概率分布，然后再乘以v就得到一个attention度量，该操作可以表示为公式3
[0036][0037]
当q＝k＝v时，则是self-attention模型。
[0038]
针对技术问题的不足，首先采用文献法，通过大量的阅读国内外高质量的相关研究文献，找寻可行的改进方案，然后采取实验法验证改进方案。
[0039]
本方案最开始采用文献[vaswani a,shazeer n,parmar n,et al.attention is all you need[c]//advances in neural information processing systems.2017:5998-6008]中的自注意力机制替换建模层和编码层的bilstm，该方法能有效的降低时间开销，但是效果没有bilstm好，通过进一步阅读相关资料发现自注意力机制用来编码还存在一定的缺陷，这种方法不能有效的编码文章和问题的全局语境信息。基于此，本方案决定舍弃该方案，继续阅读文献，寻找新的可行方案，最终，本方案发现文献[vaswani a,shazeer n,parmar n,et al.attention is all you need[c]//advances in neural information processing systems.2017:5998-6008]提出的多头注意力也许能有效解决我的问题，于是就在模型中用该方法替换了编码层和建模层的bilstm，然后通过实验进行验证，实验结果证明了本方案的正确性。
[0040]
本方案的方法创新之处在于完全使用transformer中的多头注意力机制替换dureader基线模型中的编码层和建模层，通过实验证明了我们的方法不仅能有效提升模型的回答问题准确率，而且在模型训练的时间开销上有了很大的减少。图1为多头注意力的总体结构示意图。在实验过程中不断调整模型的参数设置，以求模型能达到更好的效果。实验证明，本方案采取的研究方法构建的机器阅读理解模型不仅能提高模型的性能，而且在很大程度上降低了模型的整体运行时间。最终构建的模型如图3所示
[0041]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明的保护范围，任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于单目图像和先验信息的3D目标检测方法与流程

面向真实应用场景的多文档机器阅读理解模型的制作方法

相关文献

最热文献