一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于文本分类和信息抽取的暗网商品标注方法及系统与流程

2022-02-25 21:36:20 来源:中国专利 TAG:


1.本发明涉及信息分类领域,特别涉及一种基于文本分类和信息抽取的暗网商品标注方 法及系统。


背景技术:

2.本发明涉及暗网商品标注多使用人工标注,各个站点没有统一的分类体系和分类模型; 明网商品标注多基于分类和实体抽取模型。然而不论是文本分类模型还是实体抽取模型都 存在一定的局限性。
3.文本分类模型进行暗网商品的细粒度分类,由于标签个数多,模型效果一般较差,难 以达到较高的准确率。
4.实体抽取模型进行暗网商品的细粒度标注,存在标注粒度太散的问题,同时高度依赖 于知识库的完备性,暗网数据较为稀疏,构建完备的暗网商品知识库需要耗费大量的人力。


技术实现要素:

5.针对文本分类模型和实体抽取模型难以达到细粒度标注的问题,本发明提出一种基于 文本分类和信息抽取的暗网商品标注方法及系统,该方案结合文本分类和信息抽取技术, 提升暗网商品理解效果和数据标注的鲁棒性。
6.本发明采用的技术方案如下:一种基于文本分类和信息抽取的暗网商品标注方法,构 建暗网商品分类体系,对商品进行分类,得到商品的分类标签;提取暗网商品描述文本中 的关键信息获取信息标签;融合分类标签与信息标签对商品进行标注。
7.进一步的,所述分类标签包括两级类别标签,二级类别标签为一级类别标签下的细分 类别标签。
8.进一步的,所述对商品进行分类方法为:若暗网存在商品自有商品类别,则直接通过 映射模型将将其原有的商品类别映射到统一的暗网商品分类体系中;若不存在,则通过有 监督机器学习模型为商品标注所属类别。
9.进一步的,所述映射模型为人工构建的自有商品类别到暗网商品分类体系的映射字典。
10.进一步的,所述有监督机器学习模型为fasttext模型。
11.进一步的,采用tf-idf模型抽取暗网商品描述文本中的关键信息。
12.本发明还提供了一种基于文本分类和信息抽取的暗网商品标注系统,包括商品分类模 块、信息抽取模块以及标签融合模块;
13.暗网商品分类模块,采用映射模型和有监督机器学习模型相结合的方式进行商品一二 级分类;
14.信息抽取模块,采用无监督信息抽取模型抽取商品描述文本中的关键信息;
15.标签融合模块,融合暗网商品分类模块的分类结果和信息抽取模块的抽取结果,
进行 商品标注。
16.与现有技术相比,采用上述技术方案的有益效果为:
17.(1)结合文本分类和信息抽取技术构建一套暗网商品分类体系,包含封闭的一二级类 别和开放的三级类别。
18.(2)可实现暗网商品的多维度标注,在保证覆盖粗粒度和细粒度标签的同时达到较高 的准确率。
19.(3)有监督模型训练样本构建过程中只需标注一二级类别,信息抽取模型无需构建训 练样本,降低人工标注所需的人力成本。
附图说明
20.图1是为本发明提出的标注方法原理图。
21.图2是为本发明一实施例中采用映射模型的映射示意图。
22.图3是为本发明一实施例中fasttext模型结构示意图。
23.图4是为本发明一实施例中采用fasttext模型的分类示意图。
24.图5是为本发明一实施例中信息抽取示意图。
具体实施方式
25.下面结合附图对本发明做进一步描述。
26.实施例1如图1所示,本实施例提供了一种基于文本分类和信息抽取的暗网商品标注方法,包括构建暗网商品分类体系,对商品进行分类,得到商品的分类标签;提取暗网商品描述文本中的关键信息获取信息标签;融合分类标签与信息标签对商品进行标注。
[0027][0028][0029][0030][0031]
在本实施例中,采用映射模型和有监督机器学习模型相结合的方式进行商品一二级分 类;
[0032]
对于部分暗网商品交易网站具备原有的商品类别(一般为一二级类别),则直接通过映 射模型将将其原有的商品类别映射到统一的暗网商品分类体系中。
[0033]
对于不具备原有商品类别的暗网网站,则通过有监督机器学习模型为商品标注所属类 别。
[0034]
具体的,映射模型为人工构建的自有商品类别到暗网商品分类体系的映射字典。映射 示意图如图2所示。
[0035]
在本实施例中,采用fasttext模型作为有监督机器学习模型对文本进行分类,模型架构 如图3所示,其中“x1-xn”为输入层;“hidden”为中间层;“output”为输出层。输入层 输入样本为文本切词后的词向量序列,输出结果为输入样本所属一二级类别。
[0036]
fasttext模型具备高效的训练和预测速度;支持多语言表达;性能明显优于word2vec 工具;专注于文本分类问题等多种优点。在其他实施例中,也可替换为其他的短
文本分类 模型。
[0037]
如图4所示,针对输入文本“四川幼儿园家长资源自动发货”“山东省万医生信息数据 精准营销自动发货”,fasttext模型输出为该商品所属一级类别“数据”和二级类别“个人 信息”。
[0038]
在本实施例中,采用无监督信息抽取模型抽取商品描述文本中的关键信息,优选采用 tf-idf模型,也可以替换为其他的关键信息抽取模型。
[0039]
tf-idf模型抽取关键信息的主要思想是如果某个词语在一篇文章中出现的频率高,并 且在其他文章中较少出现,则认为该词语能较好的代表当前文章的含义。即一个词语的重 要性与它在文档中出现的次数成正比,与它在语料库中文档出现的频率成反比。
[0040][0041][0042]
tf-idf=tf*idf。
[0043]
如图5所示,针对输入文本“四川幼儿园家长资源自动发货”“山东省万医生信息数据 精准营销自动发货”,tf-idf模型输出为该文本中的关键信息,如“四川幼儿园家长资源条 自动发货”的关键信息为“家长”;“山东省万医生信息数据精准营销自动发货”的关键信 息为“医生”。
[0044]
最后,即可通过分类标签和信息标签融合对商品进行标注,融合过程中可根据一二级分 类对三级分类进行校验,也可通过三级分类对一二级分类进行校验,从而提升商品标注的 准确率。
[0045]
实施例2
[0046]
本实施例提供了一种基于文本分类和信息抽取的暗网商品标注系统,包括商品分类模 块、信息抽取模块以及标签融合模块;
[0047]
暗网商品分类模块,采用映射模型和有监督机器学习模型相结合的方式进行商品一二 级分类;
[0048]
信息抽取模块,采用无监督信息抽取模型抽取商品描述文本中的关键信息;
[0049]
标签融合模块,融合暗网商品分类模块的分类结果和信息抽取模块的抽取结果,进行 商品标注。
[0050]
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特 征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域 技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要 求保护的范围。
[0051]
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特 征和/或步骤以外,均可以以任何方式组合。
[0052]
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代 特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而 已。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献