一种诈骗号码的识别方法及装置与流程

2022-11-13 12:07:21 来源：中国专利 TAG：

1.本技术属于人工智能技术领域，具体涉及一种诈骗号码的识别方法及装置。

背景技术：

2.随着信息通信技术与人工智能技术的不断发展，电信业务为社会发展和人民生活提供了极大的便利。但电信业务在带来便利的同时，也让部分不法分子从中发现一定的“可乘之机”。如今，通过电信技术进行诈骗犯罪的案件出现了明显增加的态势，给电信用户的生命财产安全造成了严重的危害和影响。
3.传统电信诈骗方式具有诈骗人员与sim(subscriber identity module，用户身份识别模块)卡不分离、外呼频率高、大量终端位置集中等特点，因此很容易被运营商的防诈模型识别。而为了逃避运营商的监管与打击，使用gsm(global system for mobile communications，全球移动通信系统)网络和voip(voice over internet protocol，基于ip的语音传输)网络无缝连接的goip(gsm over internet protocol，基于ip的全球移动通信系统)设备进行诈骗，已经成为了电信诈骗的新趋势、新手段。
4.goip诈骗模式与传统电信诈骗模式相比较，具有人卡分离、虚拟拨号、任意切换号码拨号以及回拨可接通等特点，这极大地增加了运营商对该类诈骗模式的发现、研判、拦截以及溯源的成本与难度。并且，传统诈骗号码的识别方法多着眼于对单一的呼叫行为数据进行分析，信息源类型单一，特征分析不够全面，适应度较差，难以实现对诈骗号码的精准分析与识别。

技术实现要素：

5.本技术实施例的目的是提供一种诈骗号码的识别方法及装置，以解决现有技术中传统诈骗号码的识别方法难以实现对诈骗号码的精准分析与识别的问题。
6.第一方面，本技术实施例提供了一种诈骗号码的识别方法，所述方法包括：
7.将目标号码的呼叫行为特征数据和用户业务特征数据，输入至第一识别模型中，获得所述目标号码为诈骗号码的第一概率值；
8.将所述目标号码预设时长内的轨迹特征数据，输入至第二识别模型中，获得所述目标号码为诈骗号码的第二概率值；
9.基于证据理论以及所述第一概率值和所述第二概率值，确定所述目标号码是否为诈骗号码。
10.第二方面，本技术实施例提供一种诈骗号码的识别装置，所述装置包括：
11.第一识别模块，用于将目标号码的呼叫行为特征数据和用户业务特征数据，输入至第一识别模型中，获得所述目标号码为诈骗号码的第一概率值；
12.第二识别模块，用于将所述目标号码预设时长内的轨迹特征数据，输入至第二识别模型中，获得所述目标号码为诈骗号码的第二概率值；
13.第三识别模块，用于基于证据理论以及所述第一概率值和所述第二概率值，确定
所述目标号码是否为诈骗号码。
14.第三方面，本技术实施例提供一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的诈骗号码的识别方法中的步骤。
15.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的诈骗号码的识别方法中的步骤。
16.本技术实施例中，利用呼叫行为特征数据、用户业务特征数据和轨迹特征数据多种信息源进行诈骗号码识别，特征分析更加丰富，有利于对诈骗号码进行精确分析以及提高诈骗号码识别的准确性。此外，本技术实施例先通过第一识别模型和第二识别模式分别进行诈骗号码的识别，之后再基于证据理论将两个识别模型的识别结果进行融合，从而得到最终识别结果，相比于通过单一识别模型识别诈骗号码的方式，基于两个并列的识别模型识别诈骗号码，在进一步提升诈骗号码识别的准确性的同时，还可以提升模型的稳定性与容错性，有助于实际场景化应用。
附图说明
17.图1为本技术实施例提供的诈骗号码的识别方法的流程示意图；
18.图2为本技术实施例提供的诈骗号码的识别方法的示例的流程示意图；
19.图3为本技术实施例提供的创建第二识别模型的流程示意图；
20.图4为本技术实施例提供的诈骗号码的识别装置的示意框图。
具体实施方式
21.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，均属于本技术保护的范围。
22.应理解，说明书中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
23.在本技术的各种实施例中，应理解，步骤的序号并不意味着绝对的先后执行顺序，各步骤的执行顺序应以其功能和内在逻辑进行确定，因此，各步骤的序号不应对本技术实施例的实施过程构成绝对的限定。
24.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的诈骗号码的识别方法进行详细地说明。
25.本技术实施例提供了一种诈骗号码的识别方法，应用于电子设备，该电子设备可以是服务器或终端设备。
26.如图1所示，该诈骗号码的识别方法可以包括：
27.步骤101：将目标号码的呼叫行为特征数据和用户业务特征数据，输入至第一识别
模型中，获得目标号码为诈骗号码的第一概率值。
28.本技术实施例中预先构建了第一识别模型，该第一识别模型可以根据电话号码的呼叫行为特征数据和用户业务特征数据，预估电话号码为诈骗号码的概率，因此，可以将目标号码的呼叫行为特征数据和用户业务特征数据作为输入数据，输入至第一识别模型中，从而获得目标号码为诈骗号码的第一概率值。
29.其中，这里所述的诈骗号码可以是goip号码，即第一识别模型可以预估目标号码为goip号码的概率。当然这里所述的诈骗号码也可以是其他类型的诈骗号码。
30.其中，这里所述的目标号码的呼叫行为特征数据可以包括但不限于以下至少一项：日均主叫呼叫时长平均值、日均主叫呼叫次数平均值、日均主叫呼叫时长标准差、日均主叫呼叫次数标准差、日均被叫呼叫时长平均值、日均被叫呼叫次数平均值、日均被叫呼叫时长标准差、日均被叫呼叫次数标准差、主叫时间与被叫时间的比值、被叫熵值、同基站境外号码聚集平均值(即同一基站下境外号码的聚集平均值)、被叫号码异网占比(假设本网为电信网络，则异网是指除电信网络之外的移动网络、联通网络等)和预设时段(如早上8点至晚上17点时段)内呼叫次数平均值等。
31.其中，这里所述的目标号码的用户业务特征数据可以包括但不限于以下至少一项：用户在网时长(在网时长越长，目标号码为诈骗号码的可能性越低)、套餐资费(一般诈骗人员不会开通费用较高的套餐自费来增加诈骗成本，因此，通过套餐资费也可以在一定程度上有助于诈骗号码的判断)和信用等级(信用等级越高，目标号码为诈骗号码的可能性越低)。
32.步骤102：将目标号码预设时长内的轨迹特征数据，输入至第二识别模型中，获得目标号码为诈骗号码的第二概率值。
33.本技术实施例中还预先构建了第二识别模型，该第二识别模型可以根据电话号码的轨迹特征数据，预估电话号码为诈骗号码的概率，因此，可以将目标号码的轨迹特征数据作为输入数据，输入至第二识别模型中，从而获得目标号码为诈骗号码的第二概率值。
34.其中，这里所述的目标号码的轨迹特征数据可以是由多个按照时间先后顺序排列的轨迹点形成的轨迹序列。其中，每个轨迹点可以是由位置区码(location area code，lac)和小区识别号(cell identity，ci)组成的。
35.步骤103：基于证据理论以及第一概率值和第二概率值，确定目标号码是否为诈骗号码。
36.本技术实施例中，可以基于证据理论(即d-s证据理论)，对两个识别模型的诊断结果进行整合，从而得到更加全面与准确的融合识别结果。
37.本技术实施例中，利用呼叫行为特征数据、用户业务特征数据和轨迹特征数据多种信息源进行诈骗号码识别，分析数据更加丰富，有利于对诈骗号码进行精确分析以及提高诈骗号码识别的准确性。此外，本技术实施例先通过第一识别模型和第二识别模型分别进行诈骗号码的识别，之后再基于证据理论将两个识别模型的识别结果进行融合，从而得到最终识别结果，相比于通过单一识别模型识别诈骗号码的方式，基于两个并列的识别模型识别诈骗号码，在进一步提升诈骗号码识别的准确性的同时，还可以提升模型的稳定性与容错性，有助于实际场景化应用。
38.作为一种可选实施例，本技术实施例还提供了一种第一识别模型的建立方法，如
下所述：
39.步骤a1：基于预设算法，在n个呼叫行为特征中确定n个优选呼叫行为特征，以及在m个用户业务特征中确定m个优选用户业务特征。其中，n小于或等于n，m小于或等于m，m、n、m和n均为正整数。
40.步骤a2：将多个号码的优选呼叫行为特征的数据和优选用户业务特征的数据作为初始第一识别模型的样本数据，对初始第一识别模型进行训练，获得第一识别模型。
41.下面分别对步骤a1和步骤a2进行进一步的解释说明。
42.步骤a1：基于预设算法，在n个呼叫行为特征中确定n个优选呼叫行为特征，以及在m个用户业务特征中确定m个优选用户业务特征。
43.本技术实施例中，可以先统计一些可能有利于识别诈骗号码的呼叫行为特征和用户业务特征，然后再基于预设算法，在统计得到的呼叫行为特征中进行筛选，获得更有助于识别诈骗号码的呼叫行为特征(即优选呼叫行为特征)，以及基于预设算法，在统计得到的用户业务特征中进行筛选，获得更有助于识别诈骗号码的用户业务特征，即优选用户业务特征。
44.可选地，步骤a1：在n个呼叫行为特征中确定n个优选呼叫行为特征，以及在m个用户业务特征中确定m个优选用户业务特征，可以包括：
45.步骤a11：获取多个号码的n个呼叫行为特征的数据以及m个用户业务特征的数据。
46.如图2中的步骤201所示，在保证用户隐私安全的前提下，可以先获取多个号码(如全量号码)的呼叫行为数据集和用户业务数据集。其中，呼叫行为数据集中可以包括：主被叫号码、呼叫发起时间、呼叫结束时间等数据。用户业务数据集中可以包括：用户开户时间、套餐资费、信用等级等数据。
47.之后，如图2中的步骤203所示，对呼叫行为数据集中的数据和用户业务数据集中的数据进行统计分析。
48.其中，对呼叫行为数据集中的数据进行统计分析，可以生成号码的日均主叫呼叫时长平均值、日均主叫呼叫次数平均值、日均主叫呼叫时长标准差、日均主叫呼叫次数标准差、日均被叫呼叫时长平均值、日均被叫呼叫次数平均值、日均被叫呼叫时长标准差、日均被叫呼叫次数标准差、主叫时间与被叫时间的比值、被叫熵值、同基站境外号码聚集平均值、被叫号码异网占比、预设时段内呼叫次数平均值等n个呼叫行为特征的数据。
49.其中，对用户业务数据集中的数据进行统计分析，可以生成用户在网时长(根据开户时间和当前时间确定)、套餐资费、信用等级等m个用户业务特征的数据。可选地，还可以对每个号码的信用等级进行归一化处理、将套餐资费等连续型特征离散化，从而统一数据格式，便于预设算法的计算。
50.可选地，如图2所示，在执行步骤203之前，可以先执行步骤202，对呼叫行为数据集中的数据和用户业务数据集中的数据进行数据清洗，去除数据集中的空值、异常数据等。例如，由于信息同步可能有延迟，在完成数据统计后才发现电话号码已注销，则该电话号码的各数据均为空值，可以去除。再例如，一条通话记录中，出现主被叫号码相同、呼叫结束时间早于通话结束时间等数据时，说明这些数据为异常数据，则可以去除。
51.步骤a12：基于随机森林算法和多个号码的n个呼叫行为特征的数据，确定每个呼叫行为特征的信任度，以及基于随机森林算法和多个号码的m个用户业务特征的数据，确定
每个用户业务特征的信任度。
52.步骤a13：根据每个呼叫行为特征的信任度，在n个呼叫行为特征中确定优选呼叫行为特征，以及根据每个用户业务特征的信任度，在m个用户业务特征中确定优选用户业务特征。
53.如图2中的步骤204所示，本技术实施例中，可以基于随机森林算法(即预设算法)进行呼叫行为特征筛选。具体地，首先可以通过步骤a12，将所有号码的同一个呼叫行为特征的数据，作为随机森林算法的输入，从而获得该呼叫行为特征的信任度。然后再通过步骤a13，根据每个呼叫行为特征的信任度，在n个呼叫行为特征中确定优选呼叫行为特征，如：按照信任度从大到小的顺序，对呼叫行为特征进行排序，并将排在前第一预设位(如前4位、前5位等)的呼叫行为特征确定为优选呼叫行为特征；或者，将信任度大于或等于第一预设值的呼叫行为特征确定为优选呼叫行为特征。
54.如图2中的步骤204所示，本技术实施例中，还可以基于随机森林算法进行用户业务特征筛选。具体地，首先可以通过步骤a12，将所有号码的同一个用户业务特征的数据，作为随机森林算法的输入，从而获得该用户业务特征的信任度。然后再通过步骤a13，根据每个用户业务特征的信任度，在n个用户业务特征中确定优选用户业务特征。具体地，可以按照信任度从大到小的顺序，对用户业务特征进行排序，并将排在前第二预设位(如前3位、前4位等)的用户业务特征确定为优选用户业务特征；或者，将信任度大于或等于第二预设值的用户业务特征确定为优选用户业务特征。
55.本技术实施例中，通过随机森林算法获取呼叫行为特征与用户业务特征的信任度，并根据信任度值对各特征进行评估与优选，以筛除特征中的冗余特征，通过这种筛选方式，可以改善传统人工特征选取过程中的不确定性与人工依赖性。
56.步骤a2：将多个号码的优选呼叫行为特征的数据和优选用户业务特征的数据作为初始第一识别模型的样本数据，对初始第一识别模型进行训练，获得第一识别模型。
57.本技术实施例中，可以将多个号码的优选呼叫行为特征的数据和优选用户业务特征的数据作为初始第一识别模型的样本数据。具体地，基于模型的通用性，本技术实施例可以将每个号码的优选呼叫行为特征的数据与优选用户业务特征的数据进行串行融合，生成特征向量(即样本数据，包括正样本和负样本)，使得特征向量中的信息更加全面，降低信息丢失率。之后，则可以利用作为样本数据的特征向量对初始第一识别模型进行训练，获得第一识别模型。
58.可选地，可以采用留出法对参与模型建立的号码的特征向量进行处理，按3：1或4：1的比例，将特征向量分为训练集(即前面所述的样本数据)与测试集。初始第一识别模型接收训练集，进行分类训练。根据初始第一识别模型的输出结果，可以调整模型参数，以优化模型，最终得到第一识别模型。之后再用测试集评估第一识别模型的泛化能力。
59.可选地，第一识别模型可以是基于支持向量机(support vector machine，svm)构建的且支持概率赋值输出的识别模型。
60.在诈骗号码数据分析过程中，存在数据分布不均匀的情况，诈骗号码样本远少于正常号码样本，这对于决策树等算法具有一定的局限。而svm是在有限样本的情况下提出的分类算法，解决了小样本情况下的机器学习问题，因此，本技术实施例中采用基于svm构建的模型，对呼叫行为特征数据与用户业务特征数据进行分析。
61.但基于svm构建的模型一般为无阈值输出，即输出结果为用于表示“是”的数值(如 1)或用于表示“否”的数值(如-1)，而本技术实施例中，可以对基于svm构建的识别模型进行改造，使模型可以输出具体的概率值，实现对诈骗号码识别的概率赋值输出，这样相比于传统意义的无阈值输出，可以进一步提升模型的严谨性以及模型的适用性，使模型可以适用更多种应用场景。
62.可选地，本技术实施例中，可以采用plat方法对基于svm构建的识别模型进行改造，获得初始第一识别模型，其定义如下：
63.f(x)＝∑jyjβjk(xj,) c(1)
64.o(x)＝f(x) b(2)
[0065][0066]
其中，f(x)为支持向量机的决策函数表达式；xj为样本数据，yj为样本数据xj对应的标签值(用于表示“是”的标签值或用于表示“否”的标签值)；k(xj，x)为支持向量机的核函数；βj为拉格朗日乘子；o(x)为支持向量机的无阈值输出；p为支持向量机改造后的概率赋值输出；c、b、q、w均表示一个预设常数。
[0067]
获得初始第一识别模型后，通过作为样本数据的优选呼叫行为特征的数据和优选用户业务特征的数据，对初始第一识别模型进行训练，则可得到基于svm构建的且支持概率赋值输出的第一识别模型，如图2中的步骤205所示。之后，则可以通过第一识别模型，对目标号码进行诈骗号码识别，如图2中的步骤206所示。
[0068]
作为一种可选实施例，本技术实施例还提供了一种第二识别模型的建立方法，如下所述：
[0069]
步骤b1：获取多个号码预设时长内的轨迹特征数据。
[0070]
如图2中的步骤201和图3中的步骤301所示，在保证用户隐私安全的前提下，可以获取多个号码(如全量号码)的轨迹数据集。其中，轨迹数据集中可以包括lac、ci、基站经纬度等数据。
[0071]
如图2中的步骤202所示，在获取轨迹数据集之后，可以对轨迹数据集中的数据进行数据清洗，去除数据集中的空值、异常数据等。例如，由于信息同步可能有延迟，在完成数据统计后才发现电话号码已注销，则该电话号码的各数据均为空值，可以去除。再例如，可以基于基站经纬度进行异常数据清除，在基站纬度超过90
°
时，对应的lac和ci数据认为是异常数据，则可以去除。
[0072]
如图2中的步骤207所示，在完成数据清洗后，可以对轨迹数据集中的数据进行处理，获得轨迹特征数据。具体地，可以先对轨迹数据集中的数据进行初步统计分析，将所有号码的lac和ci，与对应的采集时间点关联处理。然后，由于一些诈骗号码(如goip号码)具有位置轨迹重合、号码群集等特性，因此，为便于分析号码的轨迹特征数据，可以如图3中的步骤302所示，将所有号码的lac与ci转换为以二维坐标形式表示的轨迹点：(lac，ci)。之后，如图3中的步骤303所示，以预设时长(如24小时)为周期，将每个号码的所有(lac，ci)坐标按照时间先后顺序，进行汇总、整理，生成各号码的轨迹序列。该轨迹序列可表示为：pi＝(p
i1
，p
i2
，
…
，p
in
)，其中p
in
＝(lac
in
，ci
in
)，i为某号码的标识符，n为预设时长内轨迹点的个数。这里所述的轨迹序列即为本步骤所要获取的轨迹特征数据。
[0073]
由于lac和ci能够确定无线基站下的扇区位置，故根据专家经验，可直接作为号码的典型轨迹特征使用。
[0074]
步骤b2：确定多个号码中任意两个号码的轨迹序列之间的最长公共子序列长度值。
[0075]
本步骤中，利用最长公共子序列(longest common subsequence，lcss)算法，计算任意两个号码预设时长内的轨迹序列的最长公共子序列长度值lcss(pu，p
t
)，如图3中的步骤304所述。
[0076]
其中，lcss(pu，p
t
)定义如下：
[0077][0078]
其中，u、t为任意两个号码的标识符；a表示号码u的轨迹序列，n为轨迹序列a中的轨迹点个数的最大值，b表示号码t的轨迹序列，n
′
为轨迹序列b中的轨迹点个数的最大值，n与n
′
可以相同，也可以不同；φ表示空集；dist(p
un
，p
tn
′
)表示轨迹点p
un
与轨迹点p
tn’之间的距离值，γ为第一预设相似阈值。
[0079]
上述lcss(pu，p
t
)公式表示，在任意一个号码轨迹序列中的轨迹点个数为0(即a＝φ或b＝φ，或a＝φ且b＝φ)时，两个号码的轨迹序列之间的最长公共子序列长度值lcss(pu，p
t
)＝0；在a≠φ且b≠φ时，若a、b两个轨迹序列中的最后一个轨迹点之间的距离小于第一预设相似阈值γ，说明两个轨迹点相同，则两个号码的轨迹序列的最长公共子序列长度值lcss(pu，p
t
)＝1 css(p
un-1
，p
tn
′‑1)，否则lcss(pu，p
t
)＝max(lcss(p
un
，p
tn
′‑1)，lcss(p
un-1
，p
tn
′
))。
[0080]
步骤b3：根据任意两个号码之间的最长公共子序列长度值，确定任意两个号码之间的轨迹相似度。
[0081]
本步骤中，可以根据预设归一化公式，将任意两个号码之间的最长公共子序列长度值(即lcss(pu，p
t
))进行归一化处理，得到两个号码之间的轨迹相似度l(pu，p
t
)，如图3中的步骤305所示。
[0082]
步骤b4：筛选出轨迹相似度大于第二预设相似阈值的所有号码。
[0083]
由于一些诈骗号码(如goip号码)具有位置轨迹重合的特征，而正常电话号码之前的轨迹重合度较小，因此，本技术实施例可以基于此，对号码进行筛选，筛选出轨迹相似度l(pu，p
t
)》第二预设相似阈值k1的号码，如图3中的步骤306所示。
[0084]
步骤b5：基于lac和ci对筛选出的号码进行聚类处理，形成多个聚类群。
[0085]
其中，每个聚类群对应一个轨迹点，即一个聚类群中包括的号码均是因具有一个相同的轨迹点而聚类为一个群组的。由于一个号码可以包括多个不同的轨迹点，因此，同一号码可以出现在多个聚类群中。
[0086]
由于一些诈骗号码(如goip号码)具有号码群集等特性，因此，本技术实施例可以基于此，对步骤b4筛选出的号码进行聚类处理，形成聚类群n1至nn，如图3中的步骤307所示。具体地，可以根据轨迹点以及两两相关原则进行聚类分群，即：对于任意两个号码，若二者
之间具有一个相同轨迹点(lac，ci)，则将两个号码划分在同一聚类群中。
[0087]
其中，某一个聚类群中包括的号码总数越多，该聚类群中的号码为诈骗号码的可能性越大。
[0088]
步骤b6：将最长公共子序列长度值计算公式(即lcss(pu，p
t
)公式)、轨迹相似度计算公式(即预设归一化公式)、号码筛选算法(依据轨迹相似度进行筛选)、聚类算法、聚类得到的聚类群以及预设基本概率赋值输出公式，定义为第二识别模型。
[0089]
本技术实施例中，可以定义第二识别模型的基本概率赋值输出公式(即预设基本概率赋值输出公式)，如图3中的步骤308所示。该基本概率赋值输出公式可以根据号码所在聚类群内号码总数中的最大值进行号码的基本概率赋值输出。
[0090]
其中，该基本概率赋值输出公式为：
[0091][0092]
其中，gi表示i号码为诈骗号码的基本概率赋值输出；h为i号码所在聚类群内号码总数中的最大值，例如，i号码在三个聚类群中出现，这三个聚类群内号码总数分别为7、8、9，则h取最大值9。z表示第一聚类阈值，c表示第二聚类阈值，z小于c，z和c的数值大小可预先根据专家经验确定。k2为大于0且小于1的预设概率值，可预先根据专家经验确定。
[0093]
通过前述建立的第二识别模型，则可以对目标号码进行诈骗号码识别，如图2中的步骤209所示，因此，本技术实施例还提供了基于第二识别模型，获得目标号码为诈骗号码的概率的实现方式，如下所述：
[0094]
步骤102：将目标号码预设时长内的轨迹特征数据，输入至第二识别模型中，获得目标号码为诈骗号码的第二概率值，可以包括：
[0095]
步骤c1：将目标号码预设时长内的轨迹特征数据输入至第二识别模型。
[0096]
步骤c2：通过第二识别模型，确定任意两个目标号码的轨迹序列之间的最长公共子序列长度值，以及根据最长公共子序列长度值，确定任意两个目标号码之间的轨迹相似度。其中，目标号码的数量为至少两个。
[0097]
步骤c3：通过第二识别模型，对于轨迹相似度大于预设相似阈值的两个目标号码，依据轨迹点确定其所属的聚类群。这里所述的聚类群即为通过步骤b5得到的。
[0098]
步骤c4：通过第二识别模型，确定每一目标号码所属的聚类群内包括的号码总数中的最大值，以及根据最大值与预设聚类阈值之间的大小关系，确定目标号码为诈骗号码的第二概率值。
[0099]
其中，这里所述的预设聚类阈值可以包括：第一聚类阈值(即前述z)和第二聚类阈值(即前述c)。
[0100]
可选地，步骤c4中的“根据最大值与预设聚类阈值之间的大小关系，确定目标号码为诈骗号码的第二概率值”可以包括：
[0101]
步骤c41：在最大值小于第一聚类阈值的情况下，确定目标号码为诈骗号码的第二概率值为0。
[0102]
步骤c42：在最大值大于或等于第一聚类阈值且小于第二聚类阈值的情况下，确定目标号码为诈骗号码的第二概率值为预设概率值。其中，这里所述的预设概率值即为前述
k2。
[0103]
步骤c43：在最大值大于或等于第二聚类阈值的情况下，确定目标号码为诈骗号码的第二概率值为1。
[0104]
本技术实施例在深入分析诈骗号码轨迹特征的基础上，充分挖掘与利用了号码的位置信息(即轨迹点)，首先利用lcss算法实现了号码轨迹间的相似性度量，之后结合号码轨迹聚合思想进一步对疑似诈骗号码进行研判，为诈骗号码的识别提供了又一判断依据。
[0105]
其中，在得到第一识别模型和第二识别模型对目标号码的识别结果后，则可以如图2中的步骤210所示，对作为决策级信息的第一识别模型和第二识别模型对目标号码的识别结果进行融合，然后根据融合结果，输出最终识别结果，如图2中的步骤211所示。下面对于这部分内容进行进一步的解释说明。
[0106]
作为一种可选实施例，步骤103：基于证据理论以及第一概率值和第二概率值，确定目标号码是否为诈骗号码，可以包括：
[0107]
步骤d1：根据目标号码可能的判断结果，建立识别框架。
[0108]
其中，识别框架(也称为完备集合)中可以包括：目标号码是诈骗号码的第一元素和目标号码是正常号码的第二元素。
[0109]
本技术实施例中，识别框架可以用θ表示，则θ＝{θ1，θ2}，其中，θ1表示目标号码为诈骗号码的第一元素，θ2表示目标号码为正常号码的第二元素。
[0110]
步骤d2：根据第一识别模型对目标号码的输出结果，构造基于识别框架的第一证据体，以及根据第二识别模型对目标号码的输出结果，构造基于识别框架的第二证据体。
[0111]
其中，第一证据体包括：第一元素和第一概率值；第二证据体包括：第一元素和第二概率值。
[0112]
对于识别框架的任一子集a，只要满足m(a)＞0，则称a为证据的焦元，其中，m(a)为子集a(也可以称为命题a)的基本概率赋值。证据的焦元和它的基本概率赋值构成的二元体(a，m(a))称为证据体。
[0113]
在本技术实施例中，识别框架θ的子集包括：{θ1}、{θ2}和{θ1，θ2}(即θ)。
[0114]
对于第一识别模型，m1(θ1)＝x，m1(θ2)＝1-x，m1(θ)＝0，x为第一概率值，即第一识别模型对目标号码的输出结果。
[0115]
对于第二识别模型，m2(θ1)＝y，m2(θ2)＝1-y，m2(θ)＝0，y为第二概率值，即第二识别模型对目标号码的输出结果。
[0116]
本技术实施例中，第一证据体可以是(θ1，m1(θ1))，第二证据体可以是(θ1，m2(θ1))。
[0117]
步骤d3：根据证据理论组合函数，确定第一证据体与第二证据体共同作用下的融合基本概率赋值。
[0118]
在本技术实施例中，证据理论组合函数为：
[0119][0120]
其中，mh(θ1)为第一证据体与第二证据体联合作用下的融合基本概率赋值，m1(θ1)表示第一证据体的基本概率赋值，m2(θ1)表示第二证据体的基本概率赋值，k为归一化常数或冲突系数，表示证据之间的冲突程度，归一化常数随着冲突程度的增加而增加。
[0121]
步骤d4：根据融合基本概率赋值，确定第一证据体与第二证据体共同作用下的信任函数值和似真度函数值。
[0122]
其中，信任函数值bel({θ1})＝mh(θ1)。
[0123]
其中，似真度函数值
[0124]
步骤d5：根据信任函数值和似真函数值，确定第一证据体与第二证据体共同作用下的信度区间。
[0125]
其中，该信度区间的下限值为信任函数值，上限值为似真度函数值，即信度区间为[bel，pl]。
[0126]
步骤d6：根据预设决策规则和第一证据体与第二证据体共同作用下的信度区间，确定目标号码是否为诈骗号码。
[0127]
其中，预设决策规则可以包括：最大信任决策规则、绝对支持决策规则以及不确定性限定决策规则。在同时满足上述三个决策规则时，则可得到正确的决策结果。
[0128]
以上即为对本技术实施例提供的诈骗号码的识别方法的描述。
[0129]
综上所述，本技术实施例提供的技术方案，利用呼叫行为特征数据、用户业务特征数据和轨迹特征数据多种信息源进行诈骗号码识别，分析数据更加丰富，有利于对诈骗号码进行精确分析以及提高诈骗号码识别的准确性。此外，本技术实施例先通过第一识别模型和第二识别模式分别进行诈骗号码的识别，之后再基于证据理论将两个识别模型的识别结果进行融合，从而得到最终识别结果，相比于通过单一识别模型识别诈骗号码，基于两个并列的识别模型识别诈骗号码，在进一步提升诈骗号码识别的准确性的同时，还可以提升模型的稳定性与容错性，有助于实际场景化应用。总之，本技术实施例提供的诈骗号码的识别方法可以更好地帮助运营商发现诈骗号码，并在一定程度上提升了运营商的业务处理质量与客户服务质量。
[0130]
以上介绍了本技术实施例提供的诈骗号码的识别方法，下面将结合附图介绍本技术实施例提供的诈骗号码的识别装置。
[0131]
如图4所示，本技术实施例还提供了一种诈骗号码的识别装置，应用于电子设备。
[0132]
其中，所述诈骗号码的识别装置可以包括：
[0133]
第一识别模块401，用于将目标号码的呼叫行为特征数据和用户业务特征数据，输入至第一识别模型中，获得所述目标号码为诈骗号码的第一概率值。
[0134]
第二识别模块402，用于将所述目标号码预设时长内的轨迹特征数据，输入至第二识别模型中，获得所述目标号码为诈骗号码的第二概率值。
[0135]
第三识别模块403，用于基于证据理论以及所述第一概率值和所述第二概率值，确定所述目标号码是否为诈骗号码。
[0136]
可选地，所述第一识别模型为基于支持向量机构建的且支持概率赋值输出的识别模型。
[0137]
可选地，所述装置还可以包括：
[0138]
筛选模块，用于基于预设算法，在n个呼叫行为特征中确定n个优选呼叫行为特征，以及在m个用户业务特征中确定m个优选用户业务特征。
[0139]
模型训练模块，用于将多个号码的优选呼叫行为特征的数据和优选用户业务特征的数据作为初始第一识别模型的样本数据，对所述初始第一识别模型进行训练，获得所述
第一识别模型。
[0140]
可选地，所述筛选模块可以包括：
[0141]
获取单元，用于获取多个号码的所述n个呼叫行为特征的数据以及所述m个用户业务特征的数据。
[0142]
第一确定单元，用于基于随机森林算法和所述多个号码的所述n个呼叫行为特征的数据，确定每个呼叫行为特征的信任度，以及基于随机森林算法和所述多个号码的所述m个用户业务特征的数据，确定每个用户业务特征的信任度。
[0143]
筛选单元，用于根据每个呼叫行为特征的信任度，在所述n个呼叫行为特征中确定所述优选呼叫行为特征，以及根据每个用户业务特征的信任度，在所述m个用户业务特征中确定所述优选用户业务特征。
[0144]
可选地，所述第二识别模块可以包括：
[0145]
输入单元，用于将所述目标号码预设时长内的轨迹特征数据输入至第二识别模型。
[0146]
其中，所述轨迹特征数据是由多个按照时间先后顺序排列的轨迹点形成的轨迹序列，每个轨迹点由位置区码和小区识别码组成。
[0147]
第二确定单元，用于通过所述第二识别模型，确定任意两个所述目标号码的轨迹序列之间的最长公共子序列长度值，以及根据所述最长公共子序列长度值，确定任意两个所述目标号码之间的轨迹相似度。
[0148]
其中，所述目标号码的数量为至少两个。
[0149]
第三确定单元，用于通过所述第二识别模型，对于轨迹相似度大于预设相似阈值的两个所述目标号码，依据轨迹点确定其所属的聚类群；其中，所述聚类群为预先聚类得到的，每一聚类群对应一个轨迹点，同一号码属于至少一个聚类群。
[0150]
第三确定单元，用于通过所述第二识别模型，确定每一所述目标号码所属的聚类群内包括的号码总数中的最大值，以及根据所述最大值与预设聚类阈值之间的大小关系，确定所述目标号码为诈骗号码的第二概率值。
[0151]
可选地，所述预设聚类阈值可以包括：第一聚类阈值和第二聚类阈值，所述第一聚类阈值小于所述第二聚类阈值。
[0152]
所述第三确定单元可以包括：
[0153]
第一确定子单元，用于在所述最大值小于所述第一聚类阈值的情况下，确定所述目标号码为诈骗号码的第二概率值为0。
[0154]
第二确定子单元，用于在所述最大值大于或等于所述第一聚类阈值且小于所述第二聚类阈值的情况下，确定所述目标号码为诈骗号码的第二概率值为预设概率值。
[0155]
其中，所述预设概率值大于0且小于1。
[0156]
第三确定子单元，用于在所述最大值大于或等于所述第二聚类阈值的情况下，确定所述目标号码为诈骗号码的第二概率值为1。
[0157]
可选地，所述第三识别模块可以包括：
[0158]
识别框架建立单元，用于根据目标号码可能的判断结果，建立识别框架。
[0159]
其中，所述识别框架中包括：所述目标号码是诈骗号码的第一元素和所述目标号码是正常号码的第二元素。
[0160]
证据体构造单元，用于根据所述第一识别模型对所述目标号码的输出结果，构造基于所述识别框架的第一证据体，以及根据所述第二识别模型对所述目标号码的输出结果，构造基于所述识别框架的第二证据体。
[0161]
其中，所述第一证据体包括：所述第一元素和所述第一概率值；所述第二证据体包括：所述第二元素和所述第二概率值。
[0162]
第四确定单元，用于根据证据理论组合函数，确定所述第一证据体与所述第二证据体共同作用下的融合基本概率赋值。
[0163]
第五确定单元，用于根据所述融合基本概率赋值，确定所述第一证据体与所述第二证据体共同作用下的信任函数值和似真度函数值。
[0164]
第六确定单元，用于根据所述信任函数值和所述似真函数值，确定所述第一证据体与所述第二证据体共同作用下的信度区间。
[0165]
第七确定单元，用于根据预设决策规则和所述信度区间，确定所述目标号码是否为诈骗号码。
[0166]
本技术实施例提供的诈骗号码的识别装置能够实现图1所示方法实施例中诈骗号码的识别装置实现的各个过程，为避免重复，这里不再赘述。
[0167]
本技术实施例中，利用呼叫行为特征数据、用户业务特征数据和轨迹特征数据多种信息源进行诈骗号码识别，分析数据更加丰富，有利于对诈骗号码进行精确分析以及提高诈骗号码识别的准确性。此外，本技术实施例先通过第一识别模型和第二识别模式分别进行诈骗号码的识别，之后再基于证据理论将两个识别模型的识别结果进行融合，从而得到最终识别结果，相比于通过单一识别模型识别诈骗号码，基于两个并列的识别模型识别诈骗号码，在进一步提升诈骗号码识别的准确性的同时，还可以提升模型的稳定性与容错性，有助于实际场景化应用。总之，本技术实施例提供的诈骗号码的识别方法可以更好地帮助运营商发现诈骗号码，并在一定程度上提升了运营商的业务处理质量与客户服务质量。
[0168]
本技术实施例还提供了一种电子设备，包括处理器和存储器，存储器上存储有可在所述处理器上运行的程序或指令，该程序或指令被处理器执行时实现上述诈骗号码的识别方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0169]
本技术实施例还提供了一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述诈骗号码的识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0170]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0171]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom、ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器或者网络设备等)执行各个实施例
或者实施例的某些部分所述的方法。
[0172]
最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于智能合约的物联网设备调度方法、系统及设备与流程

一种诈骗号码的识别方法及装置与流程

相关文献

最热文献