一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于内容分割的Web数字对象提取方法及系统与流程

2022-03-23 02:13:44 来源:中国专利 TAG:

技术特征:
1.一种基于内容分割的web数字对象提取方法,其特征在于,所述方法包括:根据用户在前端界面的选择操作,控制待转换web页面在浏览模式和数字对象生成模式之间进行切换;在所述待转换web页面处于所述数字对象生成模式的情况下,将待转换web页面分割为多个内容块,所述多个内容块在前端界面进行展示;提取所述多个内容块中的关键信息,所述关键信息包括标题、摘要和关键词中的至少一者;根据用户从展示的所述多个内容块中选择的目标内容块,创建与所述目标内容块对应的数字对象配置界面;根据用户从所述数字对象配置界面中选择的目标关键信息,将所述目标内容块和所述目标关键信息发送至数字对象引擎,以构建与所述目标内容块对应的目标数字对象,所述目标关键信息将作为所述目标数字对象的自定义属性。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据用户在前端界面中对所述目标内容块的调节操作,控制所述目标内容块进行边界调节,以对所述目标内容块进行修正,获得修正目标内容块;所述根据用户从展示的所述多个内容块中选择的目标内容块,创建与所述目标内容块对应的数字对象配置界面;根据用户从所述数字对象配置界面中选择的目标关键信息,将所述目标内容块和所述目标关键信息发送至数字对象引擎,以构建与所述目标内容块对应的目标数字对象,所述目标关键信息将作为所述目标数字对象的自定义属性,包括:根据用户从展示的所述多个内容块中选择的所述修正目标内容块,创建与所述修正目标内容块对应的数字对象配置界面;根据用户从该数字对象配置界面中选择的修正目标关键信息,将所述修正目标内容块和所述修正目标关键信息发送至数字对象引擎,以构建与所述修正目标内容块对应的修正目标数字对象,所述修正目标关键信息将作为所述修正目标数字对象的自定义属性。3.根据权利要求1所述的系统,其特征在于,所述提取所述多个内容块中的关键信息,包括:在内容块为具有标题的第一内容块的情况下,通过预设标题模型预测所述第一内容块的标题,以及通过textrank算法提取所述第一内容块中的摘要和关键词;在内容块为无标题的第二内容块的情况下,通过textrank算法提取所述第二内容块中的摘要和关键词。4.根据权利要求3所述的方法,其特征在于,获得所述预设标题模型的训练过程,包括如下步骤:提取预设数量的标题样本web页面的文本特征作为训练集,所述文本特征由多个不同类型的初始特征共同构成;将所述训练集输入初始标题模型进行训练,获得所述预设标题模型;其中,所述多个不同类型的初始特征包括:文本长度特征和文本长度变化量特征、字体大小特征和字体大小变化量特征、字体颜色特征和字体颜色变化量特征、字体权重特征和字体权重变化量特征、内容块背景颜色特征和内容块背景颜色变换量特征、背景边框特征、文本长度变化量特征。
5.根据权利要求1所述的方法,其特征在于,所述在所述待转换web页面处于所述数字对象生成模式的情况下,将待转换web页面分割为多个内容块,包括:获取所述待转换web页面的dom树;根据获取的所述dom树,构建与所述dom树对应的副本dom树;将所述副本dom树中的行内节点与相连的文字节点进行合并处理,以及对所述副本dom树进行去除web页面头和web页面页脚的预处理,获得目标dom树;通过预设哈希值算法,计算所述目标dom树中的各个节点的结构哈希值;根据计算获得的所述各个节点的结构哈希值,将所述待转换web页面分割为多个内容块。6.根据权利要求5所述的方法,其特征在于,所述根据获取的所述dom树,构建与所述dom树对应的副本dom树,包括:向预设dom树副本构建算法中,每次输入所述待转换web页面的dom树中的一个节点和该节点对应的父节点;在所述一个节点为非无关节点时,构建与所述非无关节点对应的副本节点,并遍历所述一个节点的子节点,以创建所述一个子节点的所有子节点各自对应的副本子节点;将所述副本子节点中的每个副本子节点与前一个副本子节点相连,由此构建与所述dom树对应的副本dom树。7.根据权利要求5所述的方法,其特征在于,对所述副本dom树进行去除web页面头和web页面页脚的预处理,包括:对所述副本dom树中每个节点的包围盒的宽度值进行排序;在所述排序结果中,按从大到小的顺序选择出一个满足预设要求的目标宽度值;将所述副本dom树中包围盒的宽度值与所述目标宽度值相同的节点,沿y轴顺序排列为数组;对所述数组中的每个节点的文字密度和外链比值进行计算;将所述每个节点中的文字密度低于第一预设阈值的节点,确定为下界节点,以及将所述每个节点中的外链比值高于第二预设阈值的节点,确定为上界节点;根据确定的所述下界节点和所述上界节点,去除所述副本dom树中位于所述下界节点以上的所有节点和所述上界节点以下的所有节点。8.根据权利要求5所述的方法,其特征在于,所述通过预设哈希值算法,计算所述目标dom树中的各个节点的结构哈希值,包括:将所述各个节点,分别输入所述预设哈希值算法;在输入所述预设哈希值算法中的节点为叶子节点的情况下,将所述叶子节点的标签值和class属性值初始化为字符串变量;通过对所述字符串变量进行哈希值计算,获得所述叶子节点的结构哈希值;在输入所述预设哈希值算法中的节点为列表节点的情况下,将所述列表节点的标签值和class属性值初始化为字符串变量;将所述列表节点的第一个子节点的结构哈希值和所述列表节点的字符串变量进行拼接,获得第一字符串变量;通过对所述第一字符串变量进行哈希值计算,获得所述列表节点的结构哈希值;
在输入所述预设哈希值算法中的节点为具有子节点,且不为列表节点的目标节点的情况下,将所述目标节点的标签值和class属性值初始化为字符串变量;将所述目标节点的所有子节点按各自的结构哈希值进行排序;将排序后的所有子节点的结构哈希值和所述目标节点的字符串变量进行拼接,获得第二字符串变量;通过对所述第二字符串变量进行哈希值计算,获得所述目标节点的结构哈希值。9.根据权利要求5所述的方法,其特征在于,所述根据计算获得的所述各个节点的结构哈希值,将所述待转换web页面分割为多个内容块,包括:将所述各个节点的结构哈希值,分别输入预设分割算法;在输入所述预设分割算法中的节点为叶子节点的情况下,不对该叶子节点进行分割;在输入所述预设分割算法中的节点只有一个子节点的情况下,将该节点和该节点的子节点作为整体进行内容块的分割;在输入所述预设分割算法中的节点包括多个子节点的情况下,将该节点所包括的多个子节点中结构哈希值相同的子节点划分为一个内容块。10.根据权利要求5-9任一所述的方法,其特征在于,在将所述待转换web页面分割为多个内容块之后,所述方法还包括:通过所述预设标题模型,提取所述目标dom树中的各个节点的标题;在一个节点具有标题的情况下,将该节点的标题确定为该节点所属的最小内容块的标题;将经过标题标记后的所述多个内容块分别输入预设分割优化算法,进行内容块的分割优化,获得优化后的各个内容块。11.根据权利要求10所述的方法,其特征在于,所述将经过标题标记后的所述多个内容块分别输入预设分割优化算法,进行内容块的分割优化,获得优化后的各个内容块,包括:将经过标题标记后的所述多个内容块分别输入预设分割优化算法;在输入所述分割优化算法中的内容块为无标题标记的内容块,且该内容块包含有标题标记的子内容块的情况下,去除该无标题标记的内容块的外围内容块划分,以将该包含有标题标记的子内容块作为独立的内容块;在输入所述分割优化算法中的内容块为有标题标记的内容块,且该内容块包含无标题标记的子内容块的情况下,将该无标题标记的子内容块与该有标题标记的内容块进行合并。12.根据权利要求5-9任一所述的方法,其特征在于,在将所述待转换web页面分割为多个内容块之后,所述方法还包括:对所述待转换web页面进行动态内容监测;在监测到新增节点的情况下,计算所述新增节点的结构哈希值,并将所述新增节点划分为内容块,所述新增节点至少包括一个;在所述各个节点中存在与所述新增节点中的根节点的结构哈希值相同的第一节点的情况下,将所述新增节点对应的内容块与包含所述第一节点的最小内容块进行合并。13.一种基于内容分割的web数字对象提取系统,其特征在于,所述系统包括:模式切换模块,用于根据用户在前端界面的选择操作,控制待转换web页面在浏览模式
和数字对象生成模式之间进行切换;内容块分割模块,用于在所述待转换web页面处于所述数字对象生成模式的情况下,将待转换web页面分割为多个内容块,所述多个内容块在前端界面进行展示;关键信息提取模块,用于提取所述多个内容块中的关键信息,所述关键信息包括标题、摘要和关键词中的至少一者;数字对象配置模块,用于根据用户从展示的所述多个内容块中选择的目标内容块,创建与所述目标内容块对应的数字对象配置界面;数字对象注册模块,用于根据用户从所述数字对象配置界面中选择的目标关键信息,将所述目标内容块和所述目标关键信息发送至数字对象引擎,以构建与所述目标内容块对应的目标数字对象,所述目标关键信息将作为所述目标数字对象的自定义属性。

技术总结
本申请提供一种基于内容分割的Web数字对象提取方法及系统,方法包括:根据用户在前端界面的选择操作,控制Web页面在浏览模式和数字对象生成模式之间进行切换;在Web页面处于数字对象生成模式的情况下,将Web页面分割为多个内容块;提取多个内容块中的关键信息;根据用户从展示的多个内容块中选择的目标内容块,创建与目标内容块对应的数字对象配置界面;根据用户从数字对象配置界面中选择的目标关键信息,将目标内容块和目标关键信息发送至数字对象引擎,以构建与目标内容块对应的目标数字对象,目标关键信息将作为目标数字对象的自定义属性。旨在自动从Web页面中获取数据,并解析数据的元信息,进而转换成数字对象。进而转换成数字对象。进而转换成数字对象。


技术研发人员:张颖 刘譞哲 马郓
受保护的技术使用者:北京大学
技术研发日:2021.12.21
技术公布日:2022/3/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献