辅助理解的对话系统人工评估方法、装置及存储介质

2022-05-26 16:03:48 来源：中国专利 TAG：

1.本发明涉及自然语言处理与人机交互技术领域，尤其涉及一种辅助理解的对话系统人工评估方法、装置及存储介质。

背景技术：

2.闲聊型对话研究是自然语言处理领域中不可忽视的一个研究课题，而目前还不够成熟的对话评估技术大大限制了对话系统的进一步研究与应用。根据评估主体的不同，对话系统评估一般分为两种方式：人工评估和自动化评估。自动化评估是以使用一些评估指标和评估模型为主，通过统计对话特征乃至深度学习模型去挖掘对话上下文中的语义关系，从而进行自动化的评估；然而对于闲聊形式的对话来说，没有标准的回复作为参考，自动化评估方式很难在此场景下取得较好的效果。为了实现更准确的对话系统评估，需要确保人工评估的可靠性与一致性，从而获取高质量的人工标注数据（即评估数据）。
3.目前的对话系统人工评估中一个较为关键的问题是缺少标准的对话评估方案，使得不同工作的重叠度低，可复现性差。目前的人工评估方案的差异主要集中在评估形式或评估细节上：例如在对话智能挑战赛convai中，每个用户与一个对话机器人配对并经过4-6轮的交谈，之后以1-4的分数回答问题：“您喜欢与该用户交谈的程度是多少”。而在facebook ai的研究团队提出了多轮对话场景下的对比评估方案acute-eval，考虑了分数评估方法可能带来结果的偏差等问题，在给定两段完整的多轮对话下，询问用户更偏好于哪一边的说话者，用偏好来给出对话系统的评估。此外，对话领域中根据任务场景或者数据集的不同，对话系统评估的质量标准也可能不同。多个研究者的调研显示现有的评估标准之间存在较低的重叠度，这给工人的评估工作带来了不确定性。有研究者将nlg（自然语言生成技术）领域的论文中不同的评估标准与对应的出现次数总结为表格的形式，表格的稀疏性表明被调查论文中使用的评估标准不统一，使得不同工作之间的比较非常困难。
4.为了确保闲聊型对话中评估数据（也即对话评估结果）的有效性，现有的方案中一般对工人评估的一致性进行计算来衡量标注结果的好坏。然而在多数的人工评估方案中，参与评估的工人的一致性较低，评估结果不可靠。因此，许多研究致力于提高其评估方案结果的一致性。例如研究者novikova的工作证明了打分时使用连续量表能够提高语言评估一致性。而另一批研究者在众包标注任务上的研究指出，标注工人会因为缺乏对任务的理解导致其完成任务的准确率和质量不高。sashank santhanam基于认知偏差的理论进行了对话评估任务的实验，说明在一定条件下给定生成句子的参考能够提高工人之间的一致性；而facebook ai的研究团队考虑工人对任务问题的不同理解，测量了每个问题的不同措辞下工人的一致性，并选择了一致性最高的措辞用于后续实验中。然而已有的评估方案例如更换措辞、增加参考仅仅聚焦于一到两个研究点，并没有系统的考虑整个对话评估任务中涉及到的理解过程，综上所述，评估结果的可靠性以及评估数据的质量均有待提升。

技术实现要素：

5.本发明的目的是提供一种辅助理解的对话系统人工评估方法、装置及存储介质，可以提高工人评估的一致性，提升评估结果的可靠性以及评估数据的质量。
6.本发明的目的是通过以下技术方案实现的：一种辅助理解的对话系统人工评估方法，包括：从已有的评估标准中筛选出若干对话评估标准，构建评估标准框架，生成基础评估模板；参考阅读理解考核方式设计阅读问题，在所述基础评估模板上，将阅读问题嵌入至待评估的对话内容中，生成包含阅读问题的评估模板并提供给参与对话系统人工评估的工人；接收各工人填写的包含阅读问题的评估模板，从中提取阅读问题的作答结果，利用阅读问题的作答结果进行工人筛选，从筛选出的工人填写的包含阅读问题的评估模板中提取对话内容的评估结果作为人工评估的结果。
7.一种辅助理解的对话系统人工评估装置，包括：评估标准筛选与基础评估模板生成单元，用于从已有的评估标准中筛选出若干对话评估标准，构建评估标准框架，生成基础评估模板；阅读问题嵌入单元，用于参考阅读理解考核方式设计阅读问题，在所述基础评估模板上，将阅读问题嵌入至待评估的对话内容中，生成包含阅读问题的评估模板并提供给参与对话系统人工评估的工人；评估结果筛选单元，用于接收各工人填写的包含阅读问题的评估模板，从中提取阅读问题的作答结果，利用阅读问题的作答结果进行工人筛选，从筛选出的工人填写的包含阅读问题的评估模板中提取对话内容的评估结果作为人工评估的结果。
8.一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。
9.一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。
10.由上述本发明提供的技术方案可以看出，从任务理解的角度出发，通过增强工人对任务的理解程度来完善对话评估方案，提高工人评估的可靠性，从而获取高质量的评估数据。
附图说明
11.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。
12.图1为本发明实施例提供的一种辅助理解的对话系统人工评估方法的流程图；图2为本发明实施例提供的基础评估模板的示意图；图3为本发明实施例提供的缺失句子选择策略的示意图；
图4为本发明实施例提供的对话内容排序策略的示意图；图5为本发明实施例提供的一种辅助理解的对话系统人工评估装置的示意图；图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
13.下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。
14.首先对本文中可能使用的术语进行如下说明：术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。
15.其次，对本发明提供的方案做一个整体性的说明；本发明计划在基础的对话评估流程中增加以理解为导向的评估策略，将工人对任务的理解细化为对多轮对话的理解和对对话评估标准的理解，本发明所述的工人是指参与对话评估的用户。为了实现以上目的，本发明在提供一套清晰的对话标准框架的基础上，通过在基础的评估流程中增加辅助理解策略来改善评估结果。具体的，在对话标准研究中，本发明对对话中常用的标准进行分组和整理，选择出待评估的对话标准，并总结出清晰的质量标准定义。此外，本发明还参考中英文考试中常用的阅读理解测试和阅读策略设计，在基础评估模板中呈现对话历史的部分嵌入了单选补全对话、内容拖拽排序的阅读任务，并记录收集工人评估对话历史的所用时间，依据一致性算法计算出工人作答的一致性指标，说明理解对话历史对评估结果的改善。
16.下面对本发明所提供的一种辅助理解的对话系统人工评估方法、装置及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。
17.实施例一如图1所示，一种辅助理解的对话系统人工评估方法，主要包括如下步骤：步骤11、从已有的评估标准中筛选出若干对话评估标准，构建评估标准框架，生成基础评估模板。
18.步骤12、参考阅读理解考核方式设计阅读问题，在所述基础评估模板上，将阅读问题嵌入至待评估的对话内容中，生成包含阅读问题的评估模板并提供给参与对话系统人工评估的工人。
19.本发明实施例中，设计了缺失句子选择策略与对话内容排序策略，这两种策略对应着不同的阅读问题，可以根据待评估的对话内容选择相应的策略，基于所选择的策略产生相应的阅读问题，并嵌入至对话内容中。
20.步骤13、接收各工人填写的包含阅读问题的评估模板，从中提取阅读问题的作答结果，利用阅读问题的作答结果进行工人筛选，从筛选出的工人填写的包含阅读问题的评
估模板中提取对话内容的评估结果作为人工评估的结果。
21.本发明实施例中，根据步骤12所设置的阅读问题来评测工人的理解水平，仅将通过理解测试的工人所提交的评估结果作为人工评估的结果，后文还针对这些人工评估结果进行了一致性分析，以说明本发明的优越性。
22.为了便于理解，下面针对上述方案的主要原理进行介绍。
23.为了确定评估标准及其定义，本发明调研了2016～2020 年自然语言处理领域的几个主要会议中的105 篇相关论文，依据分组分析的方法，将其中使用的27个标准作为研究对象。此外，为了对标准进行更好的分类、定义，也在字典、语言学论文中探索了这些质量标准的定义和使用场景，从而将这27个标准分成了7 组如表1所示。
分组编号标准名分组依据1fluency，grammaticality，correctness，readability，understandable句子本身质量评价2relevance，coherence，consistency，sensibleness，listening，maintaincontext，logic与对话历史的关联评价3informativeness，diversity，specificity，proactivity，flexible句子的一般性或重复性评价4overallquality，appropriateness，naturalness,humanness，adequacy对话历史下句子的整体质量评价5engagement，interestingness交互体验评价6empathy，emotion情感体验评价7others/
[0024] 表1 分组情况为了选出最终使用的评估标准，需要考量每个评估标准的定义以及它们在对话领域中的使用情况，例如在第一组中，“grammaticality”和“correctness”在定义上是相同的，均关注语法规则的一致性，同时这类标注无需人工，而一般认为“readability”比“grammaticality”要好，因为它更强调句子被理解的容易程度。此外，虽然“fluency”是这个组中使用最频繁的标准，但是它更强调“人”或者“机器”的语言能力，面向句子时使用readability评估更为合适。因此将“readability”选为对话标准之一。最后，选择了五个评估标准（readability（可读性），relevance（相关性），consistency（一致性），informativeness（信息性），naturalness（自然性））作为后续实验中对话回复的评估标准。除了naturalness代表整体的句子质量之外，遵循的原则是选出的标准定义互不交叉、并且覆盖对话回复评估的各个方面。本发明所选出的这五个对话评估标准及对应的定义如表2所示： readabilitythequalityoftheresponsetobeunderstoodeasilyrelevancethequalityofaresponsetoconnectwiththecontextconsistencythequalityofaresponseagreeingwiththeknowninformationinformativenessthequalityoftheresponseprovidingnewinformationnaturalnesstheplausibilityoftheresponsegeneratedbyahuman
表2 筛选的评估标准及其定义基于上述五个对话评估标准，构建评估标准框架，生成基础评估模板，如图2所示，提供了基础评估模板的示例，上半部分包含了对话历史和对话回复（即对话内容），下半部分为评分区域。
[0025]
在工人有基本的语言知识和阅读能力的基础上，本发明给出适用于闲聊形式对话的辅助理解策略，辅助工人理解对话历史，从而改善评估结果。
[0026]
本发明总结出了能够在闲聊型对话中应用的7种文本类选择任务，并且考虑了每个任务/题目类型是否需要额外的人工标注标签，在表3中给出了分析结果。可以看到，缺失
文本选择和排序选择不需要人工标注以及设计额外问题就可以进行，因此适合作为阅读任务加入对话历史辅助理解方案中。细节理解选择主旨概括选择句意理解选择推理判断选择态度情感选择缺失文本选择排序选择是否需要额外人工标注是是是是是否否
[0027]
表3文本类选择阅读任务分析常规的阅读能力评估方式依赖于阅读完成后的理解（例如在对话内容之后设置多项选择题），需要工人在阅读完文本后回答相关问题。然而，“理解”发生在阅读过程中，在阅读结束之后回答多个分离的阅读理解问题使得工人对阅读材料中的信息进行推理的难度增加，也会增加评估和标注的成本。因此，本发明在对话历史的辅助理解方案中，通过将问题嵌入对话的阅读过程，帮助工人对长对话进行更好的理解。由于长对话不同于其他语篇能够划分段落或者划分章节，它是一个连续的对话过程，当将独立的问题的嵌入会导致其连贯性被打破。因此，在嵌入的过程中，省略直接的问题（例如询问：你认为空缺处应该插入以下哪一句话），而直接将阅读理解的任务过程与对话内容融合，具体的策略和前端界面设计如下：1）缺失句子选择策略（简称策略1）：工人在单个任务中阅读对话历史的同时进行对话中缺失句子的单项选择，然后进行句子的评分。
[0028]
具体来说：参考英语考试中的阅读理解考核方式，对待评估的对话内容，选择指定位置a处的句子作为单选试题，选项包括待评估的对话内容中指定位置a处的原有句子，以及从数据集中随机选出的一个句子。此策略下的阅读问题是期望工人能够准确的选出指定位置a处的原有句子。如图3所示，提供了缺失句子选择策略的示例；图3中缺失句子的位置为第三轮（turn）对话的第一句，设置有两个选项可，分别为原句子和数据集中一个随机句子，顺序随机。在前端页面的实现中，工人在选择前，选择框中有灰色提示语“please select the proper sentence”（请选择正确的句子）；当工人点击选择框后，弹出两个选项，分别为一个数据集中随机采集的句子以及对话中原本的句子。鼠标经过的选项背景变为橘色，工人点击后选项中的文本将会替换掉灰色提示语。
[0029]
2）对话内容排序策略（简称策略2）：工人在单个任务中阅读对话历史的同时需要对对话中随机打乱的句子进行重新排序，然后进行句子的打分。
[0030]
具体来说：参考英语考试中的阅读理解考核方式，对待评估的对话内容，将句子随机打乱，并要求工人进行重新排序，此策略下的阅读问题是期望工人能够将随机打乱的句子排序恢复为原有的句子排序。考虑到打乱单个句子再进行排序难度很大，如图4所示，以对话的轮（turn）为单位，取中间的三轮进行打乱，需要打乱的对话轮被用绿色标明并有文字提示，可以进行拖拽排序，在点击确认confirm（确认）按钮之后不能再次被拖拽。在前端实现中，设置了以下的检查步骤：当工人如果没有进行拖拽而直接进行打分时，会有弹窗提示“you should drag and sort the above dialogue turns !”（即“你应该拖动并排序上面的对话”），并无法进行后续的评分任务，从而保证工人在进行了阅读任务后再进行句子评估。
[0031]
由于在一个对话中同时嵌入两种策略对应的阅读问题会使得阅读难度较大，因此在应用中可以选择其中的一种策略，从而达到辅助工人理解对话历史的目的。具体的，当对话历史内容的轮数（turn）小于设定值时，建议应用策略1的缺失句子选择策略；当对话历史内容的轮数（turn）大于等于设定值轮时，两种策略都可以使用，示例性的，设定值可以为4。
在上述策略1中，由于在阅读对话历史时增加了单项选择补全缺失句子的策略，可根据正确答案（原对话中的句子）进行正确率检查，并将作出正确答案的工人筛选出来，进行后续的数据分析；在策略2中，由于在阅读对话历史时增加了让工人排序对话的策略，根据正确排序（原对话轮的排序）进行正确率检查，将作出正确排序的工人筛选出来。本发明仅将以上筛选出的工人所提供的评估结果作为人工评估的结果，并进行后续的数据分析。
[0032]
本发明实施例上述方案相比于现有的闲聊型对话人工评估流程，有以下几个优势：（1）完善了闲聊型对话中的人工评估流程中的细节；（2）验证了通过在基础模板中增加辅助理解策略，提高工人的理解程度可以提高对话评估中人工标注的一致性。
[0033]
为了验证本发明上述方案的技术效果与性能，通过实验进行说明。
[0034]
一、实验设置。
[0035]
为了更细致的研究每种方案和不同策略带来的优势，如表4所示，在基础评估模板之上分别进行了以下设置：设置1为基础评估模板，设置2和设置3分别为基础模板之上增加了缺失句子选择策略和对话内容排序策略。
[0036]
表4实验设置上述缺失句子选择策略基础评估模板、对话内容排序策略基础评估模板均属于前述步骤12定义的包含阅读问题的评估模板。
[0037]
为了验证本发明的优势，将每一个对话历史和其对应的回答作为一个任务的内容发布到amt的平台上，对于每个任务招募》20个工人参与，并规定了以下的工人具有资格参与：1）工人所在的国家为us（美国），ca（加拿大），au（澳大利亚）中的一个，尽可能保证工人的日常使用语言为英语；（2）hit批准率（工人在平台上所有提交任务中被批准的比例）为》95%；（3）批准的数量（工人在平台上所有提交任务的被批准的总数量）》100。最终选择符合条件并通过了每个设置下的正确率检查的工人进行后续的数据分析，如表5所示。
[0038]
表5参与人数分布（每个hit的参与人数）本实验基于所选择的实验数据集dailydialog和4个主流的对话生成模型（hred，gpt，blender，dialogpt），将得到的对话数据基于基础模版，结合前述实施例一的方案构建
了三种前端界面，用来收集和观察工人的评估分数和提交的答案。考虑到幅度估计、对比评估在对话评估中使用率不高，本实验采用的是5分李克特量表进行评估。
[0039]
二、工人一致性提高。
[0040]
在没有标准回复作为参考的人工标注实验中，往往以工人一致性来评估数据的有效性。本实验中使用类内相关系数来衡量工人评级的一致性。
[0041]
实验中关注的是本发明提供的上述方案是否对工人之间的一致性产生积极影响。分别对n=[3,20]（n为工人数目）区间的类内相关系数进行了计算，并在n=6时对readability、relevance、informative、consistency四个评估标准上进行了分析，分析结果如表6所示。可以看到，设置1（即基础模板）在5个标准中上的评估结果的一致性均不高，结果可靠性较低。而在基础模板上加入辅助理解的策略，在对话历史中嵌入了阅读问题后，设置2、设置3在各个标准上的一致性均有提高。尤其是在对话框架中属于“对话历史的关联评估”分组的两个标准relevance和consistency上，设置3的一致性均达到了0.6以上，说明内容拖拽排序策略是一种非常有效的策略，通过排序增强了工人对对话历史的理解，从而改善了评估结果。实验验证了在基础评估模板上添加缺失句子选择的阅读问题或内容拖拽排序的阅读问题能够有效提高工人的一致性，如表6所示。
[0042]
表6不同标准和设置下的一致性结果三、平均分数分析本实验对比了4个对话系统的平均分数，如表7所示，其中human是对话数据集中原本的回复。实验发现，gpt以及dialogpt模型在闲聊型的对话中所产生的回复好于hred以及blender模型，甚至在评估标准readability上的评分高过了人类回复的评分，这表明这两个对话模型能够产生可读性极高的回复。而在relevance和consistency这两个评估标准上，人类回复的评分远远超过对话模型，这表明对话模型在与对话历史的关联评估标准上还有待提高。
[0043]
表7不同标准下对话模型的平均分数四、时间成本分析。
[0044]
由于设置2和设置3中增加了选择、排序这两个额外的阅读任务，考虑了每个设置下工人所花的时间是否对结果产生影响。与之前的评估流程中不考虑时间，或者仅仅使用整体作答的平均时间不同，本实验关注两个主要的指标，如表8所示，包括：不同设置下工人完成任务的阅读理解所用时间（阅读时间）和评估打分所用时间（答题时间），这两个指标通过收集前端代码中返回的时间戳获得。在设置2和3中，对对话历史的处理（选择、排序）时间也包括在阅读理解时间中。将两部分时间分开进行统计能够更好的帮助我们对上下文阅读难度、评估对话标准的难度进行区分。
[0045]
表8不同设置下的时间花费对比不同设置下的阅读时间和答题时间，可以看到设置1下工人平均所花费的答题时间是最少的，而设置2、设置3所花费的答题时间更长。结合类内相关系数的差异，可以明显的看出增加了辅助理解策略后，工人对标准的打分要比原先更认真。由于阅读时间包含了阅读任务要求和对话历史的时间，在阅读时间的统计中，发现设置2的阅读时间会比设置3要长，这说明缺失句子选择作为阅读任务会比对话内容排序策略花费更多的时间。结合三种设置下的答题时间和工人的一致性结果，表明工人经过了对话标准或者对话历史的理解后，能够给出更认真、一致性更好的评估结果。
[0046]
实施例二
本发明实施例提供一种辅助理解的对话系统人工评估装置，其主要通过前述实施例一提供的方案实现，如图5所示，其主要包括：评估标准筛选与基础评估模板生成单元，用于从已有的评估标准中筛选出若干对话评估标准，构建评估标准框架，生成基础评估模板；阅读问题嵌入单元，用于参考阅读理解考核方式设计阅读问题，在所述基础评估模板上，将阅读问题嵌入至待评估的对话内容中，生成包含阅读问题的评估模板并提供给各个参与对话系统人工评估的工人；评估结果筛选单元，用于接收各工人填写的包含阅读问题的评估模板，从中提取阅读问题的作答结果，利用阅读问题的作答结果进行工人筛选，从筛选出的工人填写的包含阅读问题的评估模板中提取对话内容的评估结果作为人工评估的结果。
[0047]
上述装置中各单元所涉及主要原理在之前的实施例一中已经做了详细的介绍，故不再赘述。
[0048]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
[0049]
实施例三本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例一提供的方法。
[0050]
进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。
[0051]
本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；输出设备可以为显示终端；存储器可以为随机存取存储器（random access memory，ram），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。
[0052]
实施例四本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例一提供的方法。
[0053]
本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是u盘、移动硬盘、只读存储器（read-only memory，rom）、磁碟或者光盘等各种可以存储程序代码的介质。
[0054]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于视频数据的遗留物检测分析方法与流程

辅助理解的对话系统人工评估方法、装置及存储介质

相关文献

最热文献