复杂地址分词方法和装置、计算机可读存储介质与流程

2022-02-22 07:17:45 来源：中国专利 TAG：

1.本公开涉及地址数据处理领域，特别涉及一种复杂地址分词方法和装置、计算机可读存储介质。

背景技术：

2.地址数据作为基础的应用数据，与人们的日常生活息息相关，在各行各业及各大应用领域中都普遍存在，针对复杂地址数据的正确分词和应用，在很多应用场景中都具有极其重要的意义和社会价值。其中如何实现复杂地址的精准分词，成为了当前各大涉及lbs(location based services，基于位置的服务)领域的公司和科研机构工作的重点。

技术实现要素：

3.发明人通过研究发现：相关技术的地址分词方法，通常基于元数据库匹配或者基于统计学原理，考虑方式比较单一，不能满足实际复杂场景的应用需要，如何提升地址分词的准确度，仍是一个需要解决的技术问题。
4.鉴于以上技术问题中的至少一项，本公开提供了一种复杂地址分词方法和装置、计算机可读存储介质，可以基于增量学习实现复杂地址的精准切分。
5.根据本公开的一个方面，提供一种复杂地址分词方法，包括：
6.对训练样本标注数据集进行预训练，得到地址切分模型；
7.进行当前地址切分模型应用，确定当前地址切分模型的切分精度；
8.判断当前地址切分模型的切分精度是否大于预定阈值；
9.在当前地址切分模型的切分精度大于预定阈值的情况下，根据标准地址库里的标准地址或专家判断对模型切分结果进行纠正，得到训练样本增量标注数据集；
10.基于训练样本增量标注数据集，采用增量学习方式，学习新增样本数据的规律，进行模型重构，得到新的地址切分模型；
11.将新的地址切分模型作为当前地址切分模型，之后执行进行当前地址切分模型应用，确定当前地址切分模型的切分精度的步骤。
12.在本公开的一些实施例中，所述复杂地址分词方法还包括：
13.获取待分词的行业地址数据集和相应的标准地址库集合；
14.根据实际业务需要，随机从待分词的行业地址数据集中选择部分数据，进行人工标注，得到训练样本标注数据集。
15.在本公开的一些实施例中，所述进行当前地址切分模型应用，确定当前地址切分模型的切分精度包括：
16.将当前地址切分模型进行工程化封装；
17.采用当前地址切分模型批量对待分词地址数据集中的地址数据进行切分，输出模型切分结果，其中，模型切分结果为模型切分后的地址要素集合；
18.根据模型切分结果确定当前地址切分模型的切分精度。
19.在本公开的一些实施例中，所述根据模型切分结果确定当前地址切分模型的切分精度包括：
20.将当前地址切分模型切分后的地址要素集合与标准地址库里的标准地址进行批量比对，确定当前地址切分模型的切分精度。
21.在本公开的一些实施例中，所述复杂地址分词方法还包括：
22.在当前地址切分模型的切分精度不大于预定阈值的情况下，输出当前地址切分模型。
23.在本公开的一些实施例中，所述对训练样本标注数据集进行预训练，得到地址切分模型包括：
24.对训练样本标注数据集进行向量化处理；
25.采用深度学习算法进行模型预训练，并进行参数调优后，得到训练好的地址切分模型。
26.根据本公开的另一方面，提供一种复杂地址分词装置，包括：
27.模型预训练单元，用于对训练样本标注数据集进行预训练，得到地址切分模型；
28.模型应用单元，用于进行当前地址切分模型应用，确定当前地址切分模型的切分精度；
29.模型判定单元，用于判断当前地址切分模型的切分精度是否大于预定阈值；
30.数据核验和增量单元，用于在当前地址切分模型的切分精度大于预定阈值的情况下，根据标准地址库里的标准地址或专家判断对模型切分结果进行纠正，得到训练样本增量标注数据集；
31.模型重构单元，用于基于训练样本增量标注数据集，采用增量学习方式，学习新增样本数据的规律，进行模型重构，得到新的地址切分模型；
32.循环迭代单元，用于将新的地址切分模型作为当前地址切分模型，之后执行进行当前地址切分模型应用，确定当前地址切分模型的切分精度的操作。
33.在本公开的一些实施例中，所述复杂地址分词装置用于执行实现如上述任一实施例所述的复杂地址分词方法的操作。
34.根据本公开的另一方面，提供一种复杂地址分词装置，包括：
35.存储器，用于存储指令；
36.处理器，用于执行所述指令，使得所述装置执行实现如上述任一实施例所述的复杂地址分词方法的操作。
37.根据本公开的另一方面，提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如上述任一实施例所述的复杂地址分词方法。
38.本公开可以基于增量学习实现复杂地址的精准切分，满足各种复杂场景的实际需要。
附图说明
39.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
40.图1为本公开复杂地址分词方法一些实施例的示意图。
41.图2为本公开复杂地址分词方法另一些实施例的示意图。
42.图3为本公开一些实施例中地址切分结果的示例图。
43.图4为本公开复杂地址分词装置一些实施例的示意图。
44.图5为本公开复杂地址分词装置另一些实施例的示意图。
45.图6为本公开复杂地址分词装置又一些实施例的示意图。
具体实施方式
46.下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
47.除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
48.同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
49.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。
50.在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。
51.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
52.图1为本公开复杂地址分词方法一些实施例的示意图。优选的，本实施例可由本公开复杂地址分词装置执行。图1实施例的方法可以包括步骤11-步骤15，其中：
53.步骤11，对训练样本标注数据集进行预训练，得到地址切分模型(地址分词模型)。
54.在本公开的一些实施例中，步骤11可以包括：对训练样本标注数据集进行向量化处理；采用bi-lstm(bi-directional long short-term memory，双向长短期记忆网络)神经网络等深度学习算法进行模型预训练，并进行参数调优后，得到训练好的地址切分模型。
55.步骤12，进行当前地址切分模型应用，确定当前地址切分模型(即当前模型、现有模型)的切分精度。
56.在本公开的一些实施例中，步骤12可以包括步骤121-步骤123，其中：
57.步骤121，将当前地址切分模型进行工程化封装。
58.步骤122，采用当前地址切分模型批量对待分词地址数据集中的地址数据进行切分，输出模型切分结果，其中，模型切分结果为模型切分后的地址要素集合。
59.步骤123，根据模型切分结果确定当前地址切分模型的切分精度。
60.在本公开的一些实施例中，步骤123可以包括：将当前地址切分模型切分后的地址
要素集合与标准地址库里的标准地址进行批量比对，确定当前地址切分模型的切分精度。
61.步骤13，判断当前地址切分模型的切分精度(切分精准度值)是否大于预定阈值。
62.步骤14，在当前地址切分模型的切分精度大于预定阈值的情况下，根据标准地址库里的标准地址或专家判断对模型切分结果进行纠正，得到训练样本增量标注数据集。
63.步骤15，基于训练样本增量标注数据集，采用增量学习方式，学习新增样本数据的规律，进行模型重构，得到新的地址切分模型。
64.步骤16，将新的地址切分模型作为当前地址切分模型，之后执行步骤12，即，执行进行当前地址切分模型应用，确定当前地址切分模型的切分精度的步骤。
65.在本公开的一些实施例中，步骤16可以包括：进入环节迭代过程，重复模型应用
→
结果核验
→
训练样本增量
→
模型重构等步骤(即重复执行步骤12-步骤15)，直到构建的分词模型切分精准度，满足设定阈值的要求，进入结束流程，输出现有模型。
66.基于本公开上述实施例提供的复杂地址分词方法，首先对少量标注数据集，应用bi-lstm神经网络等深度学习算法进行预训练，得到预训练模型；接下来进行模型应用，并判断构建的地址切分模型是否达到业务预定的精度要求；当模型分词精度小于设定阈值时，在业务实际应用中，借助已知的标准地址库或专家经验进行切分结果纠正，从而得到增量的标注数据集；进一步应用增量学习的理论，进行模型重构，学习新增样本数据的规律，得到准确度更高的切分模型，再通过上述步骤的多次迭代，不断提高地址切分模型的准度，从而实现了复杂中文地址数据的高精准切分。
67.发明人通过研究发现：在公安接警、道路电话救援等诸多业务场景中，都需要报警人或者求助人通过电话向相关人员告知具体的位置，接警员通过文字记录下事发的具体地点，比如说“扬州市华扬西路越泽烟酒店”、“解放路博物馆对面阳光小区3栋楼下”、“红星美凯龙旁巷子内中发白棋牌室”等，处警人员或者救援人员根据记录的点位进行出警或救助，为了实现快速定位及其他深层次的应用，需要首先对上述由当事人口头描述的地址数据进行精准分词，识别出各个关键地址要素，再基于地址要素之前的语境关系，精准定位目标位置。
68.但是相关技术的地址分词方法，主要分为三种，包括基于外部地址库的分词方法、基于规则或者基于统计的分词方法，这三种方法对外部地址库的依赖都很强，并且只能处理有一定规律的地址文本，对于上述场景描述的复杂地址数据的处理效果很差，且考虑的要素均比较单一，不能满足上述复杂场景的精准切分需要。应用本公开上述实施例的方法，可以实现上述地址精准分词。
69.图2为本公开复杂地址分词方法另一些实施例的示意图。优选的，本实施例可由本公开复杂地址分词装置执行。图2实施例的方法可以包括步骤s1-步骤s9，其中：
70.步骤s1、数据获取。
71.在本公开的一些实施例中，步骤s1可以包括：获取待分词的行业地址数据集p1以及标准地址库集合p2。在公安、消防等领域中，由于实际业务的需要，日积月累下，都积累了大量接警及道路电话求援的待分词地址数据集p1；同时也都建设了大量当地市/县的地址实体库，这些地址库基本涵盖了辖区内所有的空间地理实体，基于这些地址实体库，就可以快速构建一个相对大而全的标准地址集合，可以作为地址分词的标准地址库集合p2。
72.步骤s2、地址样本数据标注。
73.在本公开的一些实施例中，步骤s2可以包括：根据实际业务需要及人手条件，可以随机从待分词地址数据集p1中，选择部分地址数据，进行人工标注，得到训练样本数据集合s1，一万以上的标注样本即可进行模型训练。
74.步骤s3、地址切分模型预训练。
75.在本公开的一些实施例中，步骤s3可以包括：基于步骤s2中标注好的样本数据集s1，向量化处理后，应用bi-lstm神经网络算法等深度学习算法，进行模型拟合，并对相关参数调优后，得到训练好的复杂地址切分的元模型θ0；
76.步骤s4、地址切分模型应用阶段。
77.在本公开的一些实施例中，步骤s4可以包括：将训练好的地址切分的元模型θ0，进行工程化封装后，批量对待分词地址数据集p1中的地址数据进行切分，输出模型切分后的地址要素集合m0。
78.步骤s5、地址切分模型切分结果核验。
79.在本公开的一些实施例中，步骤s5可以包括：将元模型0切分后的地址要素集合m0与标准地址库p2里的标准地址进行批量比对，对元模型θ0的切分结果进行核验，计算出模型的切分精准度值n0。
80.图3为本公开一些实施例中地址切分结果的示例图。如3所示，待切分地址为：常营保利嘉园3号院门口停车场。地址切分模型切分后的结果为“常营”、“保利嘉园”、“3号院”、“门口”、“停车场”。
81.步骤s6、判断切分精度是否满足需要。
82.在本公开的一些实施例中，步骤s6可以包括：根据公安所在业务对分词结果准确性的要求，设定相对应的阈值比较θ0切分精准度值n0与阈值的大小，当流程结束，输出现有模型θ0。
83.步骤s7、训练样本增量。
84.在本公开的一些实施例中，步骤s7可以包括：当说明元模型θ0不能满足实际需要，借助标准地址库里的标准地址或公安业务专家判断对元模型θ0的切分结果进行批量纠正，可以得到训练样本的增量标注数据集s2。
85.步骤s8、增量学习与模型重构。
86.在本公开的一些实施例中，步骤s8可以包括：对增量标注数据集s2，基于增量学习的理论，进行模型重构，学习新增标注样本数据集的规律，得到新的准确度更高的地址切分模型θ1。
87.步骤s9、重复上述步骤s4、s5、s6、s7、s8，直到构建的地址切分模型切分θ
x
的切分精准度进入结束流程，输出现有模型，保证精准的地址数据。
88.基于本公开上述实施例提供的复杂地址分词方法，和相关技术分词方法相比具有明显的优势：1、本公开上述实施例采用深度学习的方法，可以不依赖任何外部地址库，实现了复杂中文地址的精准切分。2、本公开上述实施例基于少量标注好的样本数据，就可以构建地址切分模型，从而大大减少了数据标注的工作量。3、本公开上述实施例可以应用增量学习的原理，直接学习新增数据的规律，对现有模型进行重构，而不需要对所有数据进行再训练模型，从而大大减少了模型训练的时间和成本。
89.图4为本公开复杂地址分词装置一些实施例的示意图。如图4所示，本公开复杂地址分词装置可以包括模型预训练单元41、模型应用单元42、模型判定单元43、数据核验和增量单元44、模型重构单元45和循环迭代单元46，其中：
90.模型预训练单元41，用于对训练样本标注数据集进行预训练，得到地址切分模型。
91.在本公开的一些实施例中，模型预训练单元41可以用于对训练样本标注数据集进行向量化处理；采用深度学习算法进行模型预训练，并进行参数调优后，得到训练好的地址切分模型。
92.模型应用单元42，用于进行当前地址切分模型应用，确定当前地址切分模型的切分精度。
93.在本公开的一些实施例中，模型应用单元42可以用于将当前地址切分模型进行工程化封装；采用当前地址切分模型批量对待分词地址数据集中的地址数据进行切分，输出模型切分结果，其中，模型切分结果为模型切分后的地址要素集合；根据模型切分结果确定当前地址切分模型的切分精度。
94.在本公开的一些实施例中，模型应用单元42可以用于将当前地址切分模型切分后的地址要素集合与标准地址库里的标准地址进行批量比对，确定当前地址切分模型的切分精度。
95.模型判定单元43，用于判断当前地址切分模型的切分精度是否大于预定阈值。
96.在本公开的一些实施例中，模型判定单元43还可以用于在当前地址切分模型的切分精度不大于预定阈值的情况下，输出当前地址切分模型。
97.数据核验和增量单元44，用于在当前地址切分模型的切分精度大于预定阈值的情况下，根据标准地址库里的标准地址或专家判断对模型切分结果进行纠正，得到训练样本增量标注数据集。
98.模型重构单元45，用于基于训练样本增量标注数据集，采用增量学习方式，学习新增样本数据的规律，进行模型重构，得到新的地址切分模型。
99.循环迭代单元46，用于将新的地址切分模型作为当前地址切分模型，之后执行进行当前地址切分模型应用，确定当前地址切分模型的切分精度的操作。
100.在本公开的一些实施例中，所述复杂地址分词装置可以用于执行实现如上述任一实施例(例如图1或图2实施例)所述的复杂地址分词方法的操作。
101.基于本公开上述实施例提供的复杂地址分词装置，采用深度学习的方法，可以不依赖任何外部地址库，实现了复杂中文地址的精准切分。本公开上述实施例可以应用增量学习的原理，直接学习新增数据的规律，对现有模型进行重构，而不需要对所有数据进行再训练模型，从而大大减少了模型训练的时间和成本。
102.图5为本公开复杂地址分词装置另一些实施例的示意图。与图4实施例相比，图5实施例的复杂地址分词装置还可以包括数据输入单元40，其中：
103.数据输入单元40，用于获取待分词的行业地址数据集和相应的标准地址库集合；根据实际业务需要，随机从待分词的行业地址数据集中选择部分数据，进行人工标注，得到训练样本标注数据集。
104.在本公开的一些实施例中，数据输入单元40可以用于获取标注好的地址样本数据和标准地址集合，并作为实际地址数据的输入单元，接收并初步处理数据。
105.模型预训练单元41，用于基于标注好的样本数据，向量化处理后，应用bi-lstm神经网络等深度学习算法，进行模型训练，并进行参数调优后，得到训练好的原始地址切分模型。
106.模型应用单元42，用于应用初始的预训练模型或基于增量数据集的重构模型，对实际的地址数据进行切分，得到复杂地址的切分结果。
107.模型判定单元43，用于计算现有分词模型的切分准度值，并判断切分精度是否达到了预设阈值的要求，当切分精度小于设定阈值时，进入结束流程，输出现有模型。
108.数据核验和增量单元44，用于当现有模型的切分精度不满足预设精度时，借助标准地址库里的标准地址或专家判断对模型的切分结果进行纠正，得到训练样本增量数据。
109.模型重构单元45，用于基于增量的标注数据，应用增量学习的理论，学习新增样本数据的规律，进行模型重构，得到新的地址切分模型。
110.循环迭代单元46，用于基于装置的循环机制，循环迭代模型应用、精度核验、数据增量及模型重构等环节，不断提高装置的地址切分精准度，直到构建的分词模型切分精准度，满足设定阈值的要求，进入结束流程，输出现有模型。
111.本公开上述实施例基于少量标注好的样本数据，就可以构建地址切分模型，从而大大减少了数据标注的工作量。
112.图6为本公开复杂地址分词装置又一些实施例的示意图。如图6所示，本公开复杂地址分词装置可以包括存储器61和处理器62，其中：
113.存储器61，用于存储指令。
114.处理器62，用于执行所述指令，使得所述装置执行实现如上述任一实施例(例如图1或图2实施例)所述的复杂地址分词方法的操作。
115.基于本公开上述实施例提供的复杂地址分词装置，首先对少量标注数据集，应用bi-lstm神经网络等深度学习算法进行预训练，得到预训练模型；接下来进行模型应用，并判断构建的地址切分模型是否达到业务预定的精度要求；当模型分词精度小于设定阈值时，在业务实际应用中，借助已知的标准地址库或专家经验进行切分结果纠正，从而得到增量的标注数据集；进一步应用增量学习的理论，进行模型重构，学习新增样本数据的规律，得到准确度更高的切分模型，再通过上述步骤的多次迭代，不断提高地址切分模型的准度，从而实现了复杂中文地址数据的高精准切分。
116.本公开上述实施例提供了一种基于增量学习的复杂地址分词的方法和装置，可以用于实现复杂地址的精准切分，满足各种复杂场景的实际需要。
117.本公开上述实施例针对地址数据处理领域，基于增量学习的原理，公开了一种先进的针对行业中涉及到的复杂地址数据的地址分词方法和装置，能够对以“自然语言形式”描述的复杂中文地址数据进行精准切分，并设计了相应的复杂地址分词装置，自动进行复杂地址的精准分词。
118.根据本公开的另一方面，提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如上述任一实施例(例如图1或图2实施例)所述的复杂地址分词方法。
119.基于本公开上述实施例提供的计算机可读存储介质，采用深度学习的方法，可以不依赖任何外部地址库，实现了复杂中文地址的精准切分；基于少量标注好的样本数据，就
可以构建地址切分模型，从而大大减少了数据标注的工作量；可以应用增量学习的原理，直接学习新增数据的规律，对现有模型进行重构，而不需要对所有数据进行再训练模型，从而大大减少了模型训练的时间和成本。
120.在上面所描述的复杂地址分词装置可以实现为用于执行本技术所描述功能的通用处理器、可编程逻辑控制器(plc)、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
121.至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。
122.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指示相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
123.本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

复杂地址分词方法和装置、计算机可读存储介质与流程

相关文献

最热文献