一种地址识别方法及装置、存储介质与流程

2021-11-05 21:10:00 来源：中国专利 TAG：

1.本技术涉及电子应用领域，尤其涉及一种地址识别方法及装置、存储介质。

背景技术：

2.网络黑产对于电商平台已经造成了巨大的威胁，来自于黑产的攻击者主要通过各大电商平台注册账号，利用这些账号进行帮商家刷单、刷信誉等作弊行为，对电商的评价体系造成冲击，损害电商平台、正常经营的商家和买家的利益。特别是，在物流的配送环节，大量的网络黑产通过刷单或者恶意下单等行为，影响电商、物流配送及本地生活行业的正常生态。为了发掘其中的地址作弊风险，迫切需要可以识别出交易订单中的虚假地址。
3.然而，目前基于规则的风险评分技术需要基于专家的业务经验确定规则，导致更新慢、覆盖范围小、漏判可能性大；因此提出了基于有监督分类技术的风险评分方法，然而虚假地址不断变化，且真地址样本的数量远远大于假地址样本的数量，导致针对复杂的虚假地址检测，无法准确的识别出虚假地址。

技术实现要素：

4.本技术实施例提供一种地址识别方法及装置、存储介质，能够提高识别出虚假地址的准确性。
5.本技术的技术方案是这样实现的：
6.第一方面，本技术实施例提出一种地址识别方法，所述方法包括：
7.根据预设分类维度，从待识别地址信息中提取至少一组词向量和至少一个词统计数量；
8.利用预设神经网络模型，依次预测每组词向量中、一个词向量与相邻的下一个词向量之间的关联概率，得到每组词向量对应的一组关联概率；所述预设神经网络模型为通过无监督训练得到的模型；
9.将所述至少一组词向量对应的至少一组关联概率和所述至少一个词统计数量输入预设分类模型中，得到所述待识别地址信息对应的分类结果，所述分类结果用于识别所述待识别地址信息的真实性；所述预设分类模型为通过有监督训练得到的模型。
10.第二方面，本技术实施例提出一种地址识别装置，所述装置包括：
11.提取单元，用于根据预设分类维度，从待识别地址信息中提取至少一组词向量和至少一个词统计数量；
12.预测单元，用于利用预设神经网络模型，依次预测每组词向量中、一个词向量与相邻的下一个词向量之间的关联概率，得到每组词向量对应的一组关联概率；所述预设神经网络模型为通过无监督训练得到的模型；
13.分类单元，用于将所述至少一组词向量对应的至少一组关联概率和所述至少一个词统计数量输入预设分类模型中，得到所述待识别地址信息对应的分类结果，所述分类结果用于识别所述待识别地址信息的真实性；所述预设分类模型为通过有监督训练得到的模
型。
14.第三方面，本技术实施例提出一种地址识别装置，所述装置包括：处理器、存储器及通信总线；所述处理器执行存储器存储的运行程序时实现如上述的方法。
15.第四方面，本技术实施例提出一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述的方法。
16.本技术实施例提供了一种地址识别方法及装置、存储介质，该方法包括：根据预设分类维度，从待识别地址信息中提取至少一组词向量和至少一个词统计数量；利用预设神经网络模型，依次预测每组词向量中、一个词向量与相邻的下一个词向量之间的关联概率，得到每组词向量对应的一组关联概率；预设神经网络模型为通过无监督训练得到的模型；将至少一组词向量对应的至少一组关联概率和至少一个词统计数量输入预设分类模型中，得到待识别地址信息对应的分类结果，分类结果用于识别待识别地址信息的真实性；预设分类模型为通过有监督训练得到的模型。采用上述实现方案，采用的是无监督训练得到的预设神经网络模型和有监督训练得到的预设分类模型相结合的形式，根据预设分类维度，将待识别地址信息转换为文本序列模式的分词信息，利用无监督训练的预设神经网络模型、能够对地址文本中的特征信息进行关联概率的计算，之后利用预设分类模型进行类别识别，能够提取出能够区分出真假地址的关键特征，进而提高虚假地址识别的准确性。
附图说明
17.图1为本技术实施例提供的一种地址识别方法的流程图；
18.图2为本技术实施例提供的一种示例性的地址识别的流程框图；
19.图3为本技术实施例提供的一种地址识别装置的结构示意图一；
20.图4为本技术实施例提供的一种地址识别装置的结构示意图二。
具体实施方式
21.应当理解，此处描述的具体实施例仅仅用以解释本技术。并不用于限定本技术。
22.本技术实施例提供一种地址识别方法，如图1所示，该方法可以包括：
23.s101、根据预设分类维度，从待识别地址信息中提取至少一组词向量和至少一个词统计数量。
24.本技术实施例提出的一种地址识别方法适用于对电商平台、物流配送、本地生活平台上的交易订单中的地址进行虚假地址识别的场景中。
25.本技术实施例中，进行地址识别的装置可以为任何具备数据处理和存储功能的设备，例如：平板电脑、手机、个人计算机(personal computer，pc)、笔记本电脑、可穿戴设备等设备。
26.本技术实施例中，从交易订单中获取对应的待识别地址信息，首先对待识别地址信息进行分词、词频统计等数据预处理，具体的，对待识别地址信息进行分词，得到分词结果；对分词结果进行词频统计，得到第一分词和第二分词；其中第一分词的词频高于预设词频阈值，第二分词的词频低于预设词频阈值。之后，才根据预设分类维度，从预处理后的待识别地址信息中提取至少一组词向量和至少一个词统计数量。
27.需要说明的是，本技术实施例可以使用jieba分词等分词方式对待识别地址信息
进行分词，具体的分词方式可以根据实际情况进行选择，本技术实施例不做具体的限定。
28.具体的，地址识别装置根据预设分类维度，将第一分词划分为至少一组分词，并对至少一组分词进行词向量提取，得到至少一组词向量；地址识别装置统计第二分词的数量，第二分词的数量为至少一个词统计数量中的一个统计数量。
29.需要说明的是，本技术实施例可以采用sougou预训练词向量对第一分词进行词向量提取。具体的词向量提取方式可以根据实际情况进行选择，本技术实施例不做具体的限定。
30.可以理解的是，对词频高于预设词频阈值的第一分词进行词向量提取，后输入预设神经网络模型中进行概率计算，能够减少预设神经网络模型的词表维度，从而极大的减少预设神经网络模型的处理数据量，提高预设神经网络模型的处理速度。
31.本技术实施例中，预设分类维度包括目标地址、停用词、英文字符、汉字数字、阿拉伯数字、罕见字的数量和停用词之间的字符数量这七个分类维度；其中，目标地址为词频高于预设词频阈值、且除停用词、英文字符、汉字数字、阿拉伯数字外的地址信息；罕见字为词频低于预设词频阈值的地址信息；停用词为表征行政区划的词。
32.示例性的，停用词为省、市、区、县、街道、小区等行政区划的词；英文字符为a、b、c等字符；汉字数字为一、二、三等数字；阿拉伯数字为1、2、3等数字。
33.需要说明的是，针对目标地址、停用词、英文字符、汉字数字和阿拉伯数据的分类维度，需输入预设神经网络模型中进行概率计算，因此，可将第一分词划分为上述五个分类维度下的五组分词。
34.进一步地，本技术实施例中，从待识别地址信息中，查找停用词对应的一组词向量中、每两个相邻词向量之间的字符数量，得到一组字符数量；从一组字符数量中筛选预设数量的字符数量，并对预设数量的字符数量进行处理，得到一个统计值；一个统计值为至少一个词统计数量中的一个统计数量。
35.可知，针对七个分类维度而言，至少一组词向量可包括目标地址、停用词、英文字符、汉字数字和阿拉伯数据这五个分类维度对应的五组词向量，至少一个词统计数量可包括第二分词的数量和一个统计值这两个分类维度对应的两个词统计数量。
36.本技术实施例中，预设数量的字符数量可以为三个字符数量，从一组字符数量中筛选预设数量的字符数量的过程可以包括：地址识别装置对一组字符数量按照从大到小的顺序进行排序，并从排序后的一组字符数量中查找排列在前3的字符数量，之后对前3的字符数量按照一定的权重值进行加权，得到最终值。
37.示例性的，前3的字符数量对应的权重值可以为0.2、0.7、0.1。
38.s102、利用预设神经网络模型，依次预测每组词向量中、一个词向量与相邻的下一个词向量之间的关联概率，得到每组词向量对应的一组关联概率；预设神经网络模型为通过无监督训练得到的模型。
39.本技术实施例中，地址识别装置将至少一组词向量输入预设神经网络模型中，针对每组词向量，利用预设神经网络模型预测每两个相邻词向量之间的关联关系，得到每组词向量对应的一组关联概率。
40.需要说明的是，预设神经网络模型对应的预设长度。地址识别装置在将至少一组词向量输入预设神经网络模型之前，先将每一组词向量的长度调整成预设长度。
41.示例性的，预设长度为20，对长度大于20的一组词向量截短成20；对于长度小于20的一组词向量，通过在结尾添加占位符将长度补齐到20。
42.需要说明的是，上述截短操作可以是将超过20的部分舍弃，也可以是将超过20的部分转移至其他一组词向量中，具体的截短操作可根据实际情况进行选择，本技术实施例不做具体的限定。
43.本技术实施例中，预设神经网络模型为char
‑
rnn网络，其中，char
‑
rnn网络包括embedding嵌入层、rnn神经网络层和线性映射层。
44.本技术实施例中，将至少一组词向量输入embedding嵌入层，其输入形式可以词汇编号，如[34，56，199，500，500]可以代表[北京，海淀，花园，占位符，占位符，占位符]，在embedding嵌入层，[b,s]矩阵被映射到[b,s,l]矩阵，其中，b代表批次大小batch size，s代表句子长度，l代表词向量长度。
[0045]
本技术实施例中，rnn神经网络层由两个单向lstm层组成，其中每个lstm层中的神经元为128个。
[0046]
本技术实施例中，线性映射层的输入维度为128，在线性映射层，128维被映射到了词表维度，之后通过softmax函数判断该词向量映射到的是哪个词向量。
[0047]
本技术实施例中，预设神经网络模型是通过无监督训练得到的，具体的，利用真样本地址信息对初始神经网络模型进行无监督训练，得到预设神经网络模型。
[0048]
需要说明的是，将真样本地址信息分为训练集和验证集，利用训练街对初始神经网络模型进行训练，利用验证集验证训练后的神经网络模型的性能，由于预设神经网络模型是通过无监督训练得到的，在预设神经网络模型中，用来衡量预设神经网络模型性能是否提升的指标为验证集上的loss值，其中loss函数衡量的是由前一个词到后一个词的概率的损失值，及验证集loss值的减小则代表预设神经网络模型的性能提升。
[0049]
s103、将至少一组词向量对应的至少一组关联概率和至少一个词统计数量输入预设分类模型中，得到待识别地址信息对应的分类结果，分类结果用于识别待识别地址信息的真实性；预设分类模型为通过有监督训练得到的模型。
[0050]
本技术实施例中，预设分类模型为随机森林random forest模型。
[0051]
本技术实施例中，预设分类模型对至少一组关联概率和至少一个词统计数量的分类结果包括虚假地址和真实地址，也可以为对至少一组关联概率和至少一个词统计数量的打分结果，地址识别装置根据打分结果判断待识别地址信息的风险程度，进而识别出待识别地址信息为真实地址还是虚假地址。
[0052]
本技术实施例中，预设分类模型采用的是有监督训练方式进行训练的，具体的，先基于预设神经网络模型，对真样本地址信息和假样本地址信息进行处理，得到样本输出结果；之后将样本输出结果分为训练集和测试集，基于样本输出结果对初始分类模型进行有监督训练，得到预设分类模型。
[0053]
本技术实施例中，将训练集输入初始分类模型中进行训练，再通过测试集对训练好的分类模型进行分类测试，最终得到预设分类模型。
[0054]
示例性的，如图2所示，对原始地址进行数据预处理，之后，将原始地址划分为核心地址内容、省市区等停用词、英文字符、汉字字符、阿拉伯数字、罕见字数量和停用词间字符长度这七个维度分词，并将核心地址内容、省市区等停用词、英文字符、汉字字符、阿拉伯数
字这五个维度的分词输入char
‑
rnn中，输出概率向量1、概率向量2、概率向量3、概率向量4和概率向量5；将概率向量1、概率向量2、概率向量3、概率向量4、概率向量5、罕见字数量和停用词间字符长度输入radom forest模型中，得到原始地址的分类结果。即原始地址是为真实地址还是虚假地址。
[0055]
可以理解的是，采用的是无监督训练得到的预设神经网络模型和有监督训练得到的预设分类模型相结合的形式，根据预设分类维度，将待识别地址信息转换为文本序列模式的分词信息，利用无监督训练的预设神经网络模型、能够对地址文本中的特征信息进行关联概率的计算，之后利用预设分类模型进行类别识别，能够提取出能够区分出真假地址的关键特征，进而提高虚假地址识别的准确性。
[0056]
本技术实施例提供一种地址识别装置1。如图3所示，该地址识别装置1包括：
[0057]
提取单元10，用于根据预设分类维度，从待识别地址信息中提取至少一组词向量和至少一个词统计数量；
[0058]
预测单元11，用于利用预设神经网络模型，依次预测每组词向量中、一个词向量与相邻的下一个词向量之间的关联概率，得到每组词向量对应的一组关联概率；所述预设神经网络模型为通过无监督训练得到的模型；
[0059]
分类单元12，用于将所述至少一组词向量对应的至少一组关联概率和所述至少一个词统计数量输入预设分类模型中，得到所述待识别地址信息对应的分类结果，所述分类结果用于识别所述待识别地址信息的真实性；所述预设分类模型为通过有监督训练得到的模型。
[0060]
可选的，所述装置还包括：训练单元；
[0061]
所述训练单元，用于利用真样本地址信息对初始神经网络模型进行无监督训练，得到所述预设神经网络模型；基于所述预设神经网络模型，对真样本地址信息和假样本地址信息进行处理，得到样本输出结果；基于所述样本输出结果对初始分类模型进行有监督训练，得到所述预设分类模型。
[0062]
可选的，所述装置还包括：分词单元、统计单元和划分单元；
[0063]
所述分词单元，用于对所述待识别地址信息进行分词，得到分词结果；
[0064]
所述统计单元，用于对所述分词结果进行词频统计，得到第一分词和第二分词；所述第一分词的词频高于预设词频阈值，所述第二分词的词频低于预设词频阈值；
[0065]
所述划分单元，用于根据所述预设分类维度，将所述第一分词划分为至少一组分词，并对所述至少一组分词进行词向量提取，得到所述至少一组词向量；
[0066]
所述统计单元，还用于统计所述第二分词的数量，所述第二分词的数量为所述至少一个词统计数量中的一个统计数量。
[0067]
可选的，所述预设分类维度包括目标地址、停用词、英文字符、汉字数字、阿拉伯数字、罕见字的数量和停用词之间的字符数量；其中，所述目标地址为词频高于预设词频阈值、且除停用词、英文字符、汉字数字、阿拉伯数字外的地址信息；所述罕见字为词频低于预设词频阈值的地址信息；所述停用词为表征行政区划的词。
[0068]
可选的，所述装置还包括：查找单元和筛选单元；
[0069]
所述查找单元，用于从所述待识别地址信息中，查找所述停用词对应的一组词向量中、每两个相邻词向量之间的字符数量，得到一组字符数量；
[0070]
所述筛选单元，用于从一组字符数量中筛选预设数量的字符数量，并对所述预设数量的字符数量进行处理，得到一个统计值；所述一个统计值为所述至少一个词统计数量中的一个统计数量。
[0071]
可选的，所述预设神经网络模型为字符级循环神经网络char
‑
rnn模型。
[0072]
可选的，所述预设分类模型为随机森林模型。
[0073]
本技术实施例提供的一种地址识别装置，根据预设分类维度，从待识别地址信息中提取至少一组词向量和至少一个词统计数量；利用预设神经网络模型，依次预测每组词向量中、一个词向量与相邻的下一个词向量之间的关联概率，得到每组词向量对应的一组关联概率；预设神经网络模型为通过无监督训练得到的模型；将至少一组词向量对应的至少一组关联概率和至少一个词统计数量输入预设分类模型中，得到待识别地址信息对应的分类结果，分类结果用于识别待识别地址信息的真实性；预设分类模型为通过有监督训练得到的模型。由此可见，本实施例提出的地址识别装置，采用的是无监督训练得到的预设神经网络模型和有监督训练得到的预设分类模型相结合的形式，根据预设分类维度，将待识别地址信息转换为文本序列模式的分词信息，利用无监督训练的预设神经网络模型、能够对地址文本中的特征信息进行关联概率的计算，之后利用预设分类模型进行类别识别，能够提取出能够区分出真假地址的关键特征，进而提高虚假地址识别的准确性。
[0074]
图4为本技术实施例提供的一种地址识别装置1的组成结构示意图二，在实际应用中，基于上述实施例的同一公开构思下，如图4所示，本实施例的地址识别装置1包括：处理器13、存储器14及通信总线15。
[0075]
在具体的实施例的过程中，上述提取单元10、预测单元11、分类单元12、训练单元、分词单元、统计单元、划分单元、查找单元和筛选单元可由位于终端1上的处理器13实现，上述处理器13可以为特定用途集成电路(asic，application specific integrated circuit)、数字信号处理器(dsp，digital signal processor)、数字信号处理图像处理装置(dspd，digital signal processing device)、可编程逻辑图像处理装置(pld，programmable logic device)、现场可编程门阵列(fpga，field programmable gate array)、cpu、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本实施例不作具体限定。
[0076]
在本技术实施例中，上述通信总线15用于实现处理器13和存储器14之间的连接通信；上述处理器13执行存储器14中存储的运行程序时实现如下的地址识别方法：
[0077]
根据预设分类维度，从待识别地址信息中提取至少一组词向量和至少一个词统计数量；
[0078]
利用预设神经网络模型，依次预测每组词向量中、一个词向量与相邻的下一个词向量之间的关联概率，得到每组词向量对应的一组关联概率；所述预设神经网络模型为通过无监督训练得到的模型；
[0079]
将所述至少一组词向量对应的至少一组关联概率和所述至少一个词统计数量输入预设分类模型中，得到所述待识别地址信息对应的分类结果，所述分类结果用于识别所述待识别地址信息的真实性；所述预设分类模型为通过有监督训练得到的模型。
[0080]
进一步地，上述处理器13，还用于利用真样本地址信息对初始神经网络模型进行无监督训练，得到所述预设神经网络模型；基于所述预设神经网络模型，对真样本地址信息
和假样本地址信息进行处理，得到样本输出结果；基于所述样本输出结果对初始分类模型进行有监督训练，得到所述预设分类模型。
[0081]
进一步地，上述处理器13，还用于对所述待识别地址信息进行分词，得到分词结果；对所述分词结果进行词频统计，得到第一分词和第二分词；所述第一分词的词频高于预设词频阈值，所述第二分词的词频低于预设词频阈值；根据所述预设分类维度，将所述第一分词划分为至少一组分词，并对所述至少一组分词进行词向量提取，得到所述至少一组词向量；统计所述第二分词的数量，所述第二分词的数量为所述至少一个词统计数量中的一个统计数量。
[0082]
进一步地，所述预设分类维度包括目标地址、停用词、英文字符、汉字数字、阿拉伯数字、罕见字的数量和停用词之间的字符数量；其中，所述目标地址为词频高于预设词频阈值、且除停用词、英文字符、汉字数字、阿拉伯数字外的地址信息；所述罕见字为词频低于预设词频阈值的地址信息；所述停用词为表征行政区划的词。
[0083]
进一步地，上述处理器13，还用于从所述待识别地址信息中，查找所述停用词对应的一组词向量中、每两个相邻词向量之间的字符数量，得到一组字符数量；从一组字符数量中筛选预设数量的字符数量，并对所述预设数量的字符数量进行处理，得到一个统计值；所述一个统计值为所述至少一个词统计数量中的一个统计数量。
[0084]
进一步地，所述预设神经网络模型为字符级循环神经网络char
‑
rnn模型。
[0085]
进一步地，所述预设分类模型为随机森林模型。
[0086]
本技术实施例提供一种存储介质，其上存储有计算机程序，上述计算机可读存储介质存储有一个或者多个程序，上述一个或者多个程序可被一个或者多个处理器执行，应用于地址识别装置中，该计算机程序实现如上述的地址识别方法。
[0087]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0088]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台图像显示设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本公开各个实施例所述的方法。
[0089]
以上所述，仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：更新DIKW图谱的方法、装置、存储介质和电子设备与流程

一种地址识别方法及装置、存储介质与流程

相关文献

最热文献