一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

页面信息处理方法、装置、电子设备和存储介质与流程

2022-05-06 08:57:17 来源:中国专利 TAG:

技术特征:
1.一种页面信息处理方法,包括:获取目标页面的超文本信息;对所述目标页面的超文本信息进行切词,以得到多个子词;根据所述超文本信息进行页面渲染,以确定所述超文本信息中各子词对应的页面元素;根据多个所述子词对应的页面元素在所述目标页面中的显示位置,对所述目标页面进行特征提取。2.根据权利要求1所述的方法,其中,所述根据多个所述子词对应的页面元素在所述目标页面中的显示位置,对所述目标页面进行特征提取,包括:根据多个所述子词对应的页面元素在所述目标页面中的显示位置,确定多个所述子词的第一编码;根据多个所述子词的词向量、对应子词在所述超文本信息中的文本顺序,以及对应子词所属的语句中的至少一个或多个组合,确定多个所述子词的第二编码;将多个所述子词的第一编码,与对应子词的第二编码融合,以得到输入编码;将所述输入编码输入预训练模型进行特征提取,以得到所述目标页面的特征。3.根据权利要求2所述的方法,其中,所述根据多个所述子词对应的页面元素在所述目标页面中的显示位置,确定多个所述子词的第一编码,包括:针对任意的一个子词,根据对应页面元素中第一角点距离所述目标页面边缘的距离,以及所述页面元素中与所述第一角点对角的第二角点距离所述目标页面边缘的距离,确定所述第一编码。4.根据权利要求1-3任一项所述的方法,其中,所述对所述目标页面的超文本信息进行切词,以得到多个子词,包括:对所述目标页面的超文本信息,采用子词切分器对所述超文本信息中的文本和超文本标签进行切词,以得到多个子词。5.一种模型训练方法,包括:获取训练页面的超文本信息;对所述训练页面的超文本信息进行切词,以得到多个子词;根据所述超文本信息进行页面渲染,以确定所述超文本信息中各子词对应的页面元素;对所述多个子词加扰,以得到多个加扰后的子词;根据多个所述子词对应的页面元素在所述训练页面中的显示位置,以及所述多个加扰后的子词,生成输入编码;采用所述超文本信息对所述输入编码进行标注,得到训练样本;采用所述训练样本,对预训练模型进行训练。6.根据权利要求5所述的方法,其中,所述根据多个所述子词对应的页面元素在所述训练页面中的显示位置,以及所述多个加扰后的子词,生成输入编码,包括:根据多个加扰前的子词对应的页面元素在所述训练页面中的显示位置,确定加扰前的各子词的第一编码;根据多个加扰后的子词的词向量、对应加扰后的子词在所述超文本信息中的文本顺
序,以及所属的语句中的至少一个或多个组合,确定加扰后的各子词的第二编码;将加扰前的各子词的第一编码,与加扰后的对应子词的第二编码融合,以得到所述输入编码。7.根据权利要求5所述的方法,其中,所述采用所述训练样本,对预训练模型进行训练,包括:将所述训练样本中的输入编码输入预训练模型进行特征提取,以得到所述训练页面的预测特征;根据所述训练页面的预测特征,采用重建模型预测得到所述训练页面的重建超文本信息;根据所述训练样本中的超文本信息和所述重建超文本信息之间的差异,调整所述预训练模型的模型参数。8.根据权利要求5-7任一项所述的方法,其中,所述对所述多个子词加扰,以得到多个加扰后的子词,包括:采用设定加扰策略,对所述多个子词加扰,以得到多个加扰后的子词;其中,所述设定加扰策略包括下列中的至少一个:对待加扰子词中的超文本标签和/或文本进行字符掩码;对待加扰子词中的超文本标签和/或文本进行字符顺序调整;对待加扰子词中的超文本标签进行字符替换;删除待加扰子词中的超文本标签;删除待加扰子词中的超文本标签的首个字符和/或末尾字符;替换待加扰子词中的超文本标签的首个字符和/或末尾字符;对待加扰子词中的文本插入干扰字符。9.一种页面信息处理装置,包括:获取模块,用于获取目标页面的超文本信息;切词模块,用于对所述目标页面的超文本信息进行切词,以得到多个子词;确定模块,用于根据所述超文本信息进行页面渲染,以确定所述超文本信息中各子词对应的页面元素;提取模块,用于根据多个所述子词对应的页面元素在所述目标页面中的显示位置,对所述目标页面进行特征提取。10.根据权利要求9所述的装置,其中,所述提取模块,包括:第一确定单元,用于根据多个所述子词对应的页面元素在所述目标页面中的显示位置,确定多个所述子词的第一编码;第二确定单元,用于根据多个所述子词的词向量、对应子词在所述超文本信息中的文本顺序,以及对应子词所属的语句中的至少一个或多个组合,确定多个所述子词的第二编码;融合单元,用于将多个所述子词的第一编码,与对应子词的第二编码融合,以得到输入编码;提取单元,用于将所述输入编码输入预训练模型进行特征提取,以得到所述目标页面的特征。
11.根据权利要求10所述的装置,其中,所述第一确定单元,用于:针对任意的一个子词,根据对应页面元素中第一角点距离所述目标页面边缘的距离,以及所述页面元素中与所述第一角点对角的第二角点距离所述目标页面边缘的距离,确定所述第一编码。12.根据权利要求9-11任一项所述的装置,其中,所述切词模块,用于:对所述目标页面的超文本信息,采用子词切分器对所述超文本信息中的文本和超文本标签进行切词,以得到多个子词。13.一种模型训练装置,包括:页面获取模块,用于获取训练页面的超文本信息;处理模块,用于对所述目标页面的超文本信息进行切词,以得到多个子词;渲染模块,用于根据所述超文本信息进行页面渲染,以确定所述超文本信息中各子词对应的页面元素;加扰模块,用于对所述多个子词加扰,以得到多个加扰后的子词;生成模块,用于根据多个所述子词对应的页面元素在所述训练页面中的显示位置,以及所述多个加扰后的子词,生成输入编码;标注模块,用于采用所述超文本信息对所述输入编码进行标注,得到训练样本;训练模块,用于采用所述训练样本,对预训练模型进行训练。14.根据权利要求13所述的装置,其中,所述加扰模块,用于:采用设定加扰策略,对所述多个子词加扰,以得到多个加扰后的子词;其中,所述设定加扰策略包括下列中的至少一个:对待加扰子词中的超文本标签和/或文本进行字符掩码;对待加扰子词中的超文本标签和/或文本进行字符顺序调整;对待加扰子词中的超文本标签进行字符进行替换;删除待加扰子词中的超文本标签;删除待加扰子词中的超文本标签的首个字符和/或末尾字符;替换待加扰子词中的超文本标签的首个字符和/或末尾字符;对待加扰子词中的文本插入干扰字符。15.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法,或者,权利要求5-8中任一项所述的方法。16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法,或者,权利要求5-8中任一项所述的方法。17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的方法,或者,权利要求5-8中任一项所述的方法。

技术总结
本公开公开了一种页面信息处理方法、装置、电子设备和存储介质,涉及人工智能领域,尤其涉及深度学习和自然语言处理领域。具体实现方案为:通过获取目标页面的超文本信息,对目标页面的超文本信息进行切词,以得到多个子词,从而根据超文本信息进行页面渲染,以确定超文本信息中各子词对应的页面元素,进而根据多个子词对应的页面元素在目标页面中的显示位置,对目标页面进行特征提取。基于超文本信息中各子词对应的页面元素的显示位置,对超文本信息对应的目标页面进行特征提取,从而可以在提取到的特征中携带有目标页面的结构化信息和富文本信息,增强了特征携带的信息量,以便执行后续任务时提高任务执行的准确度。便执行后续任务时提高任务执行的准确度。便执行后续任务时提高任务执行的准确度。


技术研发人员:柴业坤 王硕寰 孙宇
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.12.29
技术公布日:2022/5/5
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献