一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Bert模型的大数据自动测试方法与流程

2022-04-27 07:17:43 来源:中国专利 TAG:
一种基于bert模型的大数据自动测试方法
技术领域
1.本发明涉及大数据测试研究领域,具体涉及一种基于bert模型的大数据自动测试方法。


背景技术:

2.大数据测试已经广泛应用于多个领域,在测试过程中,测试集构建的数量和质量,直接影响到大数据模型的准确性。如何能快速、大量的构建测试集,就显得尤为重要。
3.目前,对于大数据语义模型的测试,需要先收集大量数据,然后通过人工标注构建测试集进行测试。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:业务紧密相关的语料库数据量少,只能通过收集实际内容再进行标注,而实际内容收集速度往往很慢,依赖实际业务量。大数据人工测试效率低,输出形式单一。


技术实现要素:

4.为了克服现有技术的不足,本发明提供了一种基于bert模型的大数据自动测试方法,实现了大数据领域的自动测试,降低人力成本,提高工作效率。技术方案如下:本发明提供了一种基于bert模型的大数据自动测试方法,该方法包括如下内容:步骤1,构建大数据自动测试系统,该系统包含测试集模块x、预处理模块y,其中测试集模块x包含自动标注系统a、bert模型标注系统b,测试集模块x给使用者提供随机测试集,随机测试集来源分别由自动标注系统a和bert模型标注系统b生成。
5.自动标注系统a是已有的大数据语料库标注系统,通过收集的大量真实语料进行标注,构建出了一个大数据库,根据需要测试的模型类型,自动标注系统a随机出一定规模的测试集提供验证。
6.bert模型标注系统b是基于训练成熟的bert模型,将少量的语料测试集通过固有的随机屏蔽方法,生成大量相似度可调整的模拟测试集。
7.将训练成熟的bert模型运用到测试集生成过程,具体为:bert模型从真实语料中,随机的抽取15%的token作为即将参与mask的对象,这些被选中的token中,数据生成器并不会把他们全部变成[mask],其80%用[mask]标记替换该token;10%用一个随机的单词替换该token;剩下的10%保持该token不变。真实语料测试集p为[p1,p2,
……
pn],根据p调用bert模型生成的测试集q为[q1,q2,
……
qn],其中每一个生成的qi是根据pi生成的集合,如q2=[p21,p22,

p2m],则最终生成的测试集为s为[p1*q1,p1*q2
……
pn*qn];基于bert生成的测试集构建基类,和继承类统一管理,继承自同一个基类的测试集有明确的标识。
[0008]
步骤2,选定测试集后,设定执行时间,系统检测指定时间是否存在资源冲突,如果选定时间段资源已经饱和,则会提醒资源冲突,需要重新选择时间执行;如果设定的执行时间资源空闲时,系统提示设定告警推送方式及配置收件人员信息。
[0009]
步骤3,开始进行测试;步骤4,测试结束后,自动生成测试链接进行推送给收件人,收件人点击链接可以
查看测试结果。
[0010]
优选的,所述自动标注系统a的数据选择,支持不同数据类型type、不同数量数据集的混合。
[0011]
优选的,步骤1还包括:对bert模型标注系统b生成的结果进行人工抽检,定期对bert模型进行优化迭代。
[0012]
优选的,步骤1之后,步骤2执行之前还包括通过远程调用大数据自动标注接口启动。
[0013]
优选的,步骤2的告警推送支持邮件、微信、手机短信方式。
[0014]
优选的,步骤3测试过程中如果出现异常,根据设定告警推送方式进行告警推送,配置的收件人收到告警后,人工判断后继续执行,或者修复异常后重新执行。
[0015]
优选的,步骤4测试结束后,还可以通过测试结果获取接口进行数据调取集成到其他环境中。
[0016]
优选的,步骤4中收件人根据测试链接可以选择自定义生成测试报告,包括自定义测试报告的格式、数据的统计方式、图表的展现形式,最终生成一份符合要求的测试报告。
[0017]
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过采用bert模型,基于有限的少量实际数据,可以生成大量的初始标注数据,大幅增加业务相关语料库的数量;通过自动化测试系统,实现了大数据领域的自动测试,降低人力成本,提高工作效率。
附图说明
[0018]
图1 为本公开实施例提供的一种大数据自动测试系统的整体架构图。
[0019]
图2为本公开实施例提供的一种大数据自动测试系统的工作流程图。
具体实施方式
[0020]
为了阐明本发明的技术方案和工作原理,下面将结合附图对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0021]
本技术的说明书和权利要求书及上述附图中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里描述的那些以外的顺序实施。
[0022]
本公开实施例提供了一种基于bert模型的大数据自动测试方法,附图1为大数据自动测试系统的整体架构图,附图2为大数据自动测试系统的工作流程图,结合这两个图,该方法包括如下内容:步骤1,构建大数据自动测试系统,该系统包含测试集模块x、预处理模块y,其中测试集模块x包含自动标注系统a、bert模型标注系统b,测试集模块x给使用者提供随机测试集,随机测试集来源分别由自动标注系统a和bert模型标注系统b生成。
[0023]
自动标注系统a是已有的大数据语料库标注系统,通过收集的大量真实语料进行标注,构建出了一个大数据库。根据需要测试的模型类型,自动标注系统a随机出一定规模
的测试集提供验证。
[0024]
优选的,自动标注系统a的数据选择,支持不同数据类型type(如法律、案例、心理知识等)、不同数量的混合。
[0025]
bert模型标注系统b是基于训练成熟的bert模型,将少量的语料测试集通过固有的随机屏蔽(mask)方法,生成大量相似度可调整的模拟测试集。
[0026]
传统的bert模型,只是用来进行预测训练,比如一个真实语料:my dog is cute, he likes playing。通过随机mask一部分内容如dog、playing等,要求模型正确预测被屏蔽的内容。然后将预测可信度最高的值作为结果进行呈现。
[0027]
将训练成熟的bert模型运用到测试集生成过程,具体为:bert模型从真实语料中,随机的抽取15%的token作为即将参与mask的对象,这些被选中的token中,数据生成器并不会把他们全部变成[mask],80%用[mask]标记替换该token;10%用一个随机的单词替换该token;剩下的10%保持该token不变。因为原始文本中只有15%的token参与了mask操作, 并不会破坏原语言的表达能力和语言规则;同时由于本发明采用的bert模型更为成熟,可以直接将可信度较高的值进行随机组合,构造大量模拟测试集,如t1:my dog is handsome, he likes playing;t2:my dog is cute, he hates playing;
……
;tn:my cat is cute, he likes playing等。真实语料测试集p为[p1,p2,
……
pn],根据p调用bert模型生成的测试集q为[q1,q2,
……
qn],其中每一个生成的qi是根据pi生成的集合,如q2=[p21,p22,

p2m],则最终生成的测试集为s为[p1*q1,p1*q2
……
pn*qn];基于bert生成的测试集构建基类(如autotype),和继承类(如bert_from_autotype)统一管理,继承自同一个基类的测试集有明确的标识,方便溯源。
[0028]
由于本发明使用的bert模型已经是经过训练后成熟度相对较高,生成的测试集也比较成熟,一般可以直接用来做混合测试。优选的,步骤1还包括:对bert模型标注系统b生成的结果进行人工抽检,可以更加提高测试集的质量,对于质量不满足要求的可以在抽检结果中记录,定期对bert模型进行优化迭代。
[0029]
步骤2,选定测试集后,设定执行时间,系统检测指定时间是否存在资源冲突,由于大数据测试时,对资源消耗严重,所以需要通过资源检测模块对资源进行检测和合理分配。如果选定时间段资源已经饱和,则会提醒资源冲突,需要重新选择时间执行;如果设定的执行时间资源空闲时,系统提示设定告警推送方式及配置收件人员信息。
[0030]
优选的,步骤2执行之前还包括通过远程调用大数据自动标注接口启动,大数据自动标注接口文档说明如下:接口j接口描述:大数据自动标注接口请求方式:post请求参数:request参数说明类型是否必填默认值type测试对象类型integer是1:智库nums测试集数量integer是100000isbert是否使用bertinteger是1:是modelpath模型路径string是无
优选的,步骤2的告警推送支持邮件、微信、手机短信等方式。默认为手机短信。
[0031]
步骤3,开始进行测试优选的,测试过程中如果出现异常,根据设定告警推送方式进行告警推送,配置的收件人收到告警后,人工判断后继续执行,或者修复异常后重新执行。
[0032]
步骤4,测试结束后,自动生成测试链接进行推送给收件人,收件人点击链接可以查看测试结果优选的,步骤4测试结束后,还可以通过测试结果获取接口进行数据调取集成到其他环境中。测试结果获取接口文档说明如下:接口k接口描述:测试结果获取接口请求方式:post请求参数:request参数说明类型是否必填默认值taskld测试任务idinteger是无优选的,步骤4中收件人根据测试链接可以选择自定义生成测试报告,包括自定义测试报告的格式、数据的统计方式、图表的展现形式等,最终生成一份符合要求的测试报告。
[0033]
以上结合附图对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献