算法比赛关联性预测方法、装置、设备及介质与流程

2021-10-24 12:50:00 来源：中国专利 TAG：关联性人工智能介质算法装置

技术特征：
1.一种算法比赛关联性预测方法，其特征在于，包括：获取历史算法比赛数据，并对所述历史算法比赛数据进行标注处理，得到第一样本集；对所述第一样本集中的每个样本进行分词处理，得到第二样本集；对于所述第二样本集中的每个第二样本，从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集；按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分，得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集；确定每个第一子集中每个字的相似字，并利用每个字的相似字替换每个第一子集中对应的字，将每个第二子集中的字替换为随机字，及将每个第三子集中的字替换为掩码；利用替换后的所述第二样本集训练bert模型，得到预测模型；当接收到待预测数据时，将所述待预测数据输入至所述预测模型，并获取所述预测模型的输出数据；根据所述输出数据计算所述待预测数据中数据间的关联性。2.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，所述对所述第一样本集中的每个样本进行分词处理，得到第二样本集包括：获取预先构建的词典，并根据所述词典构建分词模型；利用所述分词模型对每个样本进行分词处理，得到候选词；利用所述候选词构建有向无环图；对于所述有向无环图中的登录词，基于动态规划算法查找所述有向无环图的最大概率路径，得到基于词频的切分组合，并利用所述切分组合对所述登录词进行切分，得到第一分词结果；对于所述有向无环图中的未登录词，采用hmm算法及viterbi 算法对所述未登录词进行规划，得到第二分词结果；根据所述第一分词结果及所述第二分词结果生成每个样本的分词；整合每个样本的分词，得到所述第二样本集。3.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，所述确定每个第一子集中每个字的相似字包括：启动wordnet接口；将每个第一子集中的每个字通过所述wordnet接口传输至wordnet词典；在所述wordnet词典中查询每个字，得到候选字集；当接收到通过所述wordnet接口返回的所述候选字集时，从所述候选字集中随机获取任意字作为对应的每个字的相似字。4.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，所述利用替换后的所述第二样本集训练bert模型，得到预测模型包括：确定所述第二样本集中每个第二样本的标注及替换前的形式；将每个第二样本的标注及替换前的形式确定为训练目标训练所述bert模型；当所述bert模型达到收敛时，停止训练；将收敛时得到的模型确定为所述预测模型。
5.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，在得到所述预测模型后，所述方法还包括：从所述第二样本集中获取真正例、真负例、假正例及假负例；将所述真正例的样本量确定为第一样本量，将所述真负例的样本量确定为第二样本量，将所述假正例的样本量确定为第三样本量，将所述假负例的样本量确定为第四样本量；计算所述第一样本量与所述第二样本量的和作为第一数值；计算所述第一样本量、所述第二样本量、所述第三样本量及所述第四样本量的和作为第二数值；计算所述第一数值与所述第二数值的商作为准确率；当所述准确率大于或者等于配置准确率时，确定所述预测模型通过验证。6.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，所述根据所述输出数据计算所述待预测数据中数据间的关联性包括：从所述输出数据中获取所述预测模型在输出层的cls输出；利用sigmoid函数处理所述cls输出，得到概率值；获取预设阈值；当所述概率值大于或者等于所述预设阈值时，确定所述待预测数据中的数据间具有关联性；或者当所述概率值小于所述预设阈值时，确定所述待预测数据中的数据间不具有关联性。7.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，在根据所述输出数据计算所述待预测数据中数据间的关联性后，所述方法还包括：获取上传所述待预测数据的用户；当确定所述待预测数据中的数据间具有关联性时，将所述待预测数据传输至所述用户的终端设备；或者当确定所述待预测数据中的数据间不具有关联性时，向所述用户的终端设备发送提示信息，所述提示信息用于提示所述待预测数据中的数据间不具有关联性。8.一种算法比赛关联性预测装置，其特征在于，包括：标注单元，用于获取历史算法比赛数据，并对所述历史算法比赛数据进行标注处理，得到第一样本集；分词单元，用于对所述第一样本集中的每个样本进行分词处理，得到第二样本集；构建单元，用于对于所述第二样本集中的每个第二样本，从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集；拆分单元，用于按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分，得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集；替换单元，用于确定每个第一子集中每个字的相似字，并利用每个字的相似字替换每个第一子集中对应的字，将每个第二子集中的字替换为随机字，及将每个第三子集中的字替换为掩码；训练单元，用于利用替换后的所述第二样本集训练bert模型，得到预测模型；输入单元，用于当接收到待预测数据时，将所述待预测数据输入至所述预测模型，并获
取所述预测模型的输出数据；计算单元，用于根据所述输出数据计算所述待预测数据中数据间的关联性。9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的算法比赛关联性预测方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的算法比赛关联性预测方法。

技术总结
本发明涉及人工智能领域，提供一种算法比赛关联性预测方法、装置、设备及介质，能够在按照比例拆分后，利用每个字的相似字替换每个第一子集中对应的字，将每个第二子集中的字替换为随机字，及将每个第三子集中的字替换为掩码，利用替换后的所述第二样本集训练BERT模型，得到预测模型，采用屏蔽及替换的方法进行完形填空式的训练，由于屏蔽及替换的方式更加符合中文特征，替换方式多样，有效提升了训练效果，使训练得到的预测模型能够适用于中文场景，进而基于改进的模型实现对数据间关联性的准确预测，由于模型的训练方式更加符合中文特征，因此预测的准确率也更高。此外，本发明还涉及区块链技术，预测模型可存储于区块链节点中。中。中。

技术研发人员：陈宇张莉姜敏华张茜
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2021.09.16
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于无人机的高精度多目标智能识别定位追踪方法及系统与流程

算法比赛关联性预测方法、装置、设备及介质与流程

相关文献

最热文献