一种基于单通道算法的物资快速自动化分类方法和装置与流程

2022-07-31 08:12:15 来源：中国专利 TAG：

1.本发明属于物资管理、人工智能领域，尤其涉及一种基于单通道算法的物资快速自动化分类方法和装置。

背景技术：

2.物资自动化管理体系建设是推进企业现代化发展的重要战略目标。随着工业发展和生成技术提升，企业物资管理所涉及的物资种类、数量飞速增加，依靠人力管理庞大的物资数据费时费力，已不能满足现今物资管理需求。
3.现今自然语言处理和机器学习等人工智能技术已可以通过物资数据识别物资分类，实现物资自动化分类提升物资分类速度和准确率，从而降低物资分类消耗的人力和物力，并提升物资管理工作效率。
4.但是现有技术存在识别准确率低、速度慢的问题，且已完成分类的物资数据很难对未分类的物资进行经验指导。

技术实现要素：

5.鉴于上述的分析，本发明旨在提出一种基于单通道算法的物资快速自动化分类方法和装置，用于解决数据技术问题中的至少一个。
6.本发明的目的主要是通过以下技术方案实现的：
7.一方面，本发明提供了一种基于单通道算法的物资快速自动化分类方法，包括：
8.采集新物资数据；
9.计算所述新物资数据与预设的物资分类数据库中的各物资对应的簇的相似度，将相似度最大的簇作为目标簇，根据所述最大的相似度作如下判断：
10.当所述最大相似度大于所述第一阈值且小于第二阈值时，将所述新物资数据分配至所述目标簇对应的分类标签下，并将所述新物资数据作为簇特征数据写入所述目标簇对应的簇数据集；
11.其中，所述簇特征数据用于描述所述物资分类数据库中簇的特征，存储在各所述簇对应的簇数据集中。
12.进一步地，当所述最大相似度不小于所述第二阈值时，将所述新物资数据对应的物资分配至所述目标簇对应的分类标签下。
13.进一步地，当所述最大相似度不大于所述第一阈值时，根据所述新物资数据，建立新簇和新的簇数据集；
14.将所述新物资数据写入所述新的簇数据集。
15.进一步地，所述簇数据集包括：至少一个用于表征物资分类的簇特征数据；
16.所述计算所述新物资数据与预设的物资分类数据库中的各物资对应的簇的相似度，包括：
17.分别计算物资分类数据库中各簇的簇特征数据与所述新物资数据中各特征数据
相似度；
18.取各所述簇特征数据与所述新物资数据中的特征数据的相似度的平均值作为所述物资与所述簇的相似度。
19.进一步地，所述新物资数据中的特征数据或所述簇特征数据，均包括至少一个属性数据，所述属性数据为物资名称、功能用途的文本描述、材质、计量单位和计量数值中的任一个，且各所述属性数据两两不同；每一个所述属性数据对应一个预设加权系数；
20.所述分别计算各所述簇特征数据与所述新物资数据中各特征数据的相似度，包括：
21.针对每一个簇特征数据，分别确定各所述属性数据与所述新物资数据的特征数据中相应属性数据的相似度；
22.根据各所述属性数据的加权系数和相似度，确定所述簇特征数据与所述新物资数据的各特征数据的相似度。
23.进一步地，构建所述簇和所述簇数据集，形成物资分类数据库。
24.进一步地，采集先验物资数据，所述先验物资数据包括：物资类别标签；
25.提取所述先验物资数据的所述物资类别标签；
26.判断是否存在所述物资类别标签对应的簇；
27.在不存在所述物资类别标签对应的簇时，以所述先验物资数据为中心建立新的簇和新的簇数据集，并将所述先验物资数据写入所述新的簇数据集。
28.进一步地，在存在所述物资类别标签对应的簇时，确定所述先验物资数据与所述簇的相似度；
29.当所述先验物资数据与所述簇的相似度小于所述第二阈值时，将所述先验物资数据写入所述簇对应的簇数据集中。
30.另一方面，本技术实施例提供了一种基于单通道算法的物资快速自动化分类装置，包括：采集模块、数据处理模块和分类模块；
31.所述采集模块用于采集新物资数据；
32.所述数据处理模块用于计算所述新物资数据与预设的物资分类数据库中的各物资对应的簇的相似度，将相似度最大的簇作为目标簇；
33.所述分类模块用于当所述最大相似度大于所述第一阈值且小于第二阈值时，将所述新物资数据分配至所述目标簇对应的分类标签下，并将所述新物资数据作为簇特征数据写入所述目标簇对应的簇数据集；
34.其中，所述簇特征数据用于描述所述物资分类数据库中簇的特征，存储在各所述簇对应的簇数据集中。
35.进一步地，所述分类模块还用于当所述最大相似度不大于所述第一阈值时，根据所述新物资数据，建立新簇和新的簇数据集；将所述新物资数据写入所述新的簇数据集。
36.与现有技术相比，本发明至少能实现以下技术效果之一：
37.1、通过设置第二阈值实现簇特征数据的自动扩展，从而加速数据分类地过程。
38.2、通设置加权系数和第二阈值，使得相似度的确定不再受纯文本字数的影响，以减少误分类和无类的概率，从而提高了数据分类的准确性。
39.3、在确定物资为新的类别时，利用采集到的物资特征数据，创建新簇和相应的簇
数据集，并结合加权系数和第二阈值，保证新簇的分类的准确性和效率。
40.本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
41.附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。
42.图1为本发明实施例提供的一种基于单通道算法的物资快速自动化分类方法的流程图。
具体实施方式
43.下面结合附图来具体描述本发明的优选实施例，其中，附图构成本发明一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。
44.物资自动化分类主要是依据物资数据处理和分析的结果对物资进行分类，将物资按照规范化物资标准(gb 7635.1-2002《全国主要产品分类与代码》等)归类到相应的物资类别下，辅助物资管理人员的物资分类工作。物资数据中主要包含数字、字符、文字等。
45.针对上述场景，现有技术主要存在以下三个问题：
46.1、当出现新物资时，不能自动更新物资分类细节。例如，原有的物质分类有苹果和橘子，当出现新物资桃子时，无法自动获取桃子的特征数据，例如颜色，形状，尺寸等。只能人工手动操作。
47.2、当物资出现新特征时，不能自动更新物资分类细节。例如，原有分类中，橘子的形状特征是扁球型，但有一些品种的橘子的形状是椭球型或接近于球形。对于这类品种的橘子没有办法自动归类于橘子，只能人工手动分类并人工手动修改物资分类细节。或者某一类物资出现新的形式时，例如滑盖手机和翻盖手机，两者都属于手机，但两者并非同时出现。即如果不能伴随技术的更新，而更新物资分类细节，会导致新出现的技术不能归类于相应的类别。
48.3、现有分类完全基于特征数据的文本的相似度，容易出现误分类的情况。
49.通常物资的特征数据包含的数字、字符、文字的数量较少，因此一旦出现文字描述不一致，或字符数不相同时，相似度会出现巨大波动。例如，原有类别的名称为ddd，而新物资的名字为6,6'-二羟基-2,2'-二萘基二硫醚，显然两个名字的字符数相差巨大，在其他属性的总字符数较少时，即便其他属性的字符完全相同，也可能导致新物质特征数据的相似度不能达到预设值，从而出现“查无此类”的情况。而实际上ddd为6,6'-二羟基-2,2'-二萘基二硫醚的英文缩写。此外，具有相同的功能的多种物品有时会分为一类，不同种类物品的名字的差异通常很大，此时如果单纯依靠纯文本分类，也会出现误分类的情况。
50.为了解决上述技术问题，本发明实施例提出了一种基于单通道算法的物资快速自动化分类方法，如图1所示，包括以下步骤：
51.步骤1、采集新物资数据。
52.在本技术实施例中，新物资数据包括：复杂文本型属性数据、简单文本型属性数据
和数值型属性数据。其中，复杂文本属性一般为物资管理属性，例如物资名称、具体描述、功能用途等。简单文本属性以物资自然属性为主，例如材质、计量单位等。数值型属性一般包括质量、价格等。
53.步骤2、根据预设的簇特征数据和新物资数据，确定目标簇以及新物资数据对应的物资与目标簇的相似度。
54.在本技术实施例中，簇特征数据用于描述簇的特征，存储在簇数据集中。具体地，簇对应于物资类别，例如苹果、橘子。簇特征数据对应物资特征，例如苹果的颜色、形状、尺寸、功能和价格等。
55.因此，计算物资与目标簇的相似度时，需要通过比对新物资数据中的特征数据和簇特征数据。具体地，分别计算各簇特征数据与新物资数据的相似度；取各簇特征数据与新物资数据中的特征数据的相似度的平均值为物资与簇的相似度。
56.步骤3、判断相似度是否大于第一阈值，如果是执行步骤4，否则执行步骤6。
57.在本技术实施例中，第一阈值用于判断新物资是否对应于某一个簇，即新物资的类别是否已经以簇的形式存在。
58.为了避免出现6,6'-二羟基-2,2'-二萘基二硫醚无法被识别成ddd之类的情况，在本技术如下定义新物资数据或簇特征数据：
59.包括至少一个属性数据，属性数据为物资名称、功能用途的文本描述、材质、计量单位和计量数值中的任一个，且各属性数据两两不同；每一个属性数据对应一个预设加权系数。通过加权系数可以提高某些属性对相似度的贡献，进而避免单纯的文本相似度造成的误分类。例如，对于按照用途分类的物资类别，可以增加该属性数据对应的加权系数，使该用途的物资都能分到相应的类别下。对ddd之类的物资，可以增加其特有的物资自然数属性的加权系数，例如，熔点，化学式，谱图峰值、关联物质等。
60.基于上述场景，在本技术实施例中，分别计算各簇特征数据与新物资数据中各特征数据的相似度的具体方法为：针对每一个簇特征数据，分别确定各属性数据与新物资数据的特征数据中相应属性数据的相似度。根据各属性数据的加权系数和相似度，确定簇特征数据与新物资数据的各特征数据的相似度。例如，簇特征数据与新物资数据的属性相似度分别为a、b和c，而相应的加权系数为0.2、0.3和0.5，则簇特征数据与新物资数据的相似度为0.2a 0.3b 0.5c。
61.步骤4、判断相似度是否小于第二阈值，如果是，执行步骤5，否则执行步骤8。
62.步骤5、将新物资数据分配至簇对应的分类标签下，并将新物资数据写入目标簇对应的簇数据集，并结束当前流程。
63.在本技术实施例中，通过设置加权系数和第二阈值，为自动扩展簇特征数据提供了基础。具体地，通常利用纯文本计算相似度时，字符数量对相似度的影响是显著的。假设簇特征数据原来有100个字符，新物资a有95个字符，相似度为95％。此时设定新物资相似度到达95％时，认为新物资a属于该簇。增加簇特征数据之后，簇特征数据为120个字符，如果是纯文本比较，那么新物资a与修改后的簇特征数据相似度很难保证大于95％，即现有技术在自动增加簇特征数据后，可能会导致将原本属于该簇的物资分到别的簇。所以现有技术无法在保证分类精确度的情况下，实现自动增加簇特征数据。而加入加权系数后，即便增加簇特征数据的字符数，也能保证新物资a的相似度为95％。
64.设置第二阈值是为了细化新物资与簇特征数据的区别，以便于区分完全相同和部分相同。例如，橘子a是扁球形的，如果橘子b也是扁球形的，两者相似度为100％。但如果橘子b长得近似椭球形，橘子a和橘子b还是归属于同一个簇，但椭球形和扁球形是存在差异的，此时相似度为98％。此时如果设定第二阈值为99％，橘子b的属性数据就会写入簇对应的簇数据集中，以使椭球形成为了橘子的一个簇特征数据，从而实现了自动扩展了簇特征数据的目的。
65.步骤6、根据新物资数据，建立新簇和新的簇数据集。
66.步骤7、将新物资数据写入新的簇数据集，并结束当前流程。
67.在本技术实施例中，当相似度不大于第一阈值时，说明新物资属于新的类别，此时基于新物资数据建立新簇和簇数据集。结合第二阈值和加权系数，可以不断扩展新簇的簇特征数据。
68.步骤8、将新物资数据对应的物资分配至目标簇对应的分类标签下。
69.在本技术实施例中，被认为完全相同的新物资不会写入簇数据集，而现有技术需要把归类后的数据全部写入簇数据集，以作为簇特征数据。因此，经过一段时间后，本技术簇数据集中簇特征数据的数量远小于现有技术中簇数据集中簇特征数据的数量。因此，本技术耗费在分类上的时间远小于现有技术，因而具有更高地数据处理效率。
70.在本技术实施例中，为了保证分类的准确性，利用先验数据先行建立簇和簇数据集。同时还可以在上述过程中，校验加权系数、第一阈值和第二阈值，进一步保证物资分类的准确性。
71.具体地，包括以下步骤：
72.s1、采集先验物资数据。
73.在本技术实施例中，为了加快处理效率，可以预先为先验物资数据设置物资类别标签。
74.s2、提取先验物资数据的物资类别标签。
75.s3、判断是否存在物资类别标签对应的簇，如果是执行s4，否则执行s8。
76.s4、确定所述先验物资数据与所述簇的相似度；
77.s5、确定先验物资数据与簇的相似度是否小于第二阈值，如果是执行s6，否则执行s7。
78.s6、将所述先验物资数据写入所述簇对应的簇数据集中，并结束当前流程
79.s7、将先验物资数据分配至簇对应的分类标签下，并结束当前流程。
80.s8、以先验物资数据为中心建立新的簇和新的簇数据集，并将先验物资数据写入新的簇数据集。
81.本技术实施例提供了一种基于单通道算法的物资快速自动化分类装置，其特征在于，包括：采集模块、数据处理模块和分类模块；
82.所述采集模块用于采集新物资数据；
83.所述数据处理模块用于根据预设的簇特征数据和所述新物资数据，确定目标簇以及所述新物资数据对应的物资与所述簇特征数据对应的簇的相似度，所述目标簇为预设的物资分类数据库中与所述新物资数据对应的物资的相似度最大的簇；
84.所述分类模块用于当所述最大相似度大于所述第一阈值且小于第二阈值时，将所
述新物资数据分配至所述目标簇对应的分类标签下，并将所述新物资数据写入所述目标簇对应的簇数据集；
85.其中，所述簇特征数据用于描述所述物资分类数据库中簇的特征，存储在各所述簇对应的簇数据集中。
86.在本技术实施例中，所述分类模块还用于当所述最大相似度不大于所述第一阈值时，根据所述新物资数据，建立新簇和新的簇数据集；将所述新物资数据写入所述新的簇数据集。
87.为了说明上述实施例的可行，本技术给出下述实施例：
88.实施例1
89.a、物资总数据集构建与预处理。
90.步骤a10，先验物资数据输入
91.将规范化的物资数据及其对应物资类别作为先验物资数据输入，将对应的物资类别作为先验物资数据的物资类别标签标记，构成先验数据集。
92.步骤a20，新物资数据输入
93.将待分类的规范化物资数据作为新物资数据输入，构成新数据集。
94.步骤a30，合成总数据集
95.将先验数据集和新数据集合成为总数据集，保留先验数据集的物资类别标签。
96.步骤a40，总数据集文本向量化
97.将总数据集中物资数据的文本通过word2vec模型文本向量化。
98.步骤a50，计算总数据集tf-idf值
99.计算总数据集中物资数据文本的tf-idf值。
100.b、先验物资数据的single-pass(单通道)聚类处理。
101.首先初始化物资类别簇集，然后依次从先验数据集中取出先验物资数据si进行single-pass聚类处理。
102.步骤b10，提取si的物资类别标签pi
103.提取先验物资数据si的物资类别标签pi作为single-pass聚类算法的待处理文本。
104.步骤b20，判断物资类别簇集中是否已存在物资类别标签为pi的簇c，是则跳转到b30，否则跳转到b31
105.在物资类别簇集中搜索物资类别标签pi，如果搜索到则代表先验物资数据si的物资类别已经被记录，记录物资类别标签为pi的簇为簇c，跳转到b30；否则跳转到b31，将先验物资数据si的物资类别记录下。
106.步骤b30，判断si与簇c相似度是否小于thres_up(第二阈值)，是则跳转到b40
107.计算先验物资数据si与簇c的相似度p，然后判断p是否小于阙值thres_up，是则先验物资数据si具有典型特征，值得被记录到簇数据集中，跳转到b40；否则舍弃该先验物资数据。
108.步骤b31，以si为簇中心构建新簇
109.在物资类别簇集中以先验物资数据si为簇中心增加簇及其对应的数据集，该簇的物资类别标签为先验物资数据si的物资类别标签pi。
110.步骤b40，在簇c数据集记录si物资
111.在物资类别簇集的簇c数据集下记录先验物资数据si。
112.步骤b50，循环执行步骤b10-b40，直到先验数据集处理完成，得到训练好的先验物资类别簇集。
113.c、新物资数据的single-pass聚类处理。
114.顺序从新数据集中取出新物资数据wi进行single-pass聚类处理。
115.步骤c10，计算wi与各簇相似度，记录最大相似度的簇c
116.计算新物资数据wi与物资类别簇集的各簇相似度，记录相似度最大的簇为c并记录簇c的相似度pc。
117.步骤c20，判断wi与簇c相似度是否大于thres_down，是则跳转到c30，否则跳转到c31
118.判断新物资数据wi与簇c的相似度是否大于thres_down(第一阈值)，是则找到新物资数据wi对应的物资类别，跳转到c30；否则跳转到c31。
119.步骤c30，判断wi与簇c相似度是否小于thres_up，是则跳转到c40
120.判断新物资数据wi与簇c的相似度是否小于thres_up，是则新物资数据wi具有代表性，值得被记录到簇数据集中，跳转到c40；否则新物资数据wi处理结束。
121.步骤c31，以wi为簇中心构建新簇
122.在物资类别簇集中以新物资数据wi为簇中心增加簇及其对应的数据集，为该簇新建物资类别标签。
123.步骤c40，簇c文本集记录wi
124.在物资类别簇集的簇c数据集下记录新物资数据wi。
125.步骤c50，循环执行步骤c10-c40，直到新数据集处理完成，所有新物资数据均已标记物资类别标签。
126.其中，物资数据与簇相似度计算方法是：
127.计算物资数据与簇中各物资数据的相似度pi，然后计算相似度pi的平均值p作为物资数据与簇的相似度。
128.所述单条物资数据与物资数据相似度计算方法是：
129.分别计算各物资数据属性项(簇特征数据或新物资数据)的相似度，将各物资数据属性项的相似度乘其对应的系数(由物资专家设定)，再求和。
130.所述复杂文本属性的相似度pc的计算方式是：
131.在文本tf-idf值的基础上计算余弦相似度。
132.所述简单文本属性的相似度ps的计算方式是：
133.在文本tf-idf值的基础上计算余弦相似度，再求余弦相似度的sigmoid函数。
134.所述数值分别为x和y的数值型属性的相似度pd的计算方式是：
135.p_d＝sigmoid(1-|x-y|/(max(x,y)))
136.所述sigmoid函数具体如下：
137.s＝1/(1 e^
(-f)
)
138.sigmoid函数的作用是增加相同的自然属性对物资的区分作用。
139.对比例1
140.与实施例1相比，对比例1中不包含过程b，以及没有设置第二阈值(thres_up)和加权系数。
141.分别按照实施例1和对比例1的方式进行分类速率测试(对2000条数据进行分类)和分类准确性测试(对2096条数据进行分类)，结果如表1和表2所示：
142.表1分类速率测试
[0143][0144]
表2分类准确性测试
[0145][0146]
由表1和表2可知，本技术提供的技术方案具有更高的分类速率和更高地分类准确性。
[0147]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于Android手机数据的轨迹异常分析方法与流程

一种基于单通道算法的物资快速自动化分类方法和装置与流程

相关文献

最热文献