用于分析加密货币交易的数据获取方法和装置与流程

2022-07-10 19:15:34 来源：中国专利 TAG：

1.本公开涉及一种用于获取学习数据以生成用于检测加密货币诈骗账户的机器学习模型的方法和装置。

背景技术：

2.与现有货币不同，加密货币具有匿名性，因此除了发送方和接收方之外的第三方根本无法知道交易细节。由于账户的匿名性，交易流向难以追踪(不可追踪)，虽然诸如汇款记录、收款记录等所有记录都是公开可得的，但交易的主体却无法得知。
3.由于上述的自由度和透明度，加密货币被认为是现有关键货币的替代品，与现有货币相比，加密货币有望以更低的费用和简单的汇款程序有效地用于国际交易等。然而，由于匿名性，加密货币有时被用作犯罪手段，例如被用于诈骗交易。
4.同时，由于加密货币交易的海量数据，存在很难通过人工识别诈骗交易特征来确定诈骗主体的问题。在这方面，机器学习可以自动学习海量数据之间的关系。
5.因此，需要一种使用机器学习来识别将加密货币用作犯罪手段的交易主体的方法。

技术实现要素：

6.解决问题的方案
7.根据本公开的一种用于获取学习数据以生成用于检测加密货币诈骗账户的机器学习模型的方法包括：从第一数据库接收与诈骗地址相关的报告的步骤，该第一数据库具有关于其中存储的被报告的诈骗地址的信息；从报告中获取第一诈骗地址和与第一诈骗地址相关的第一描述的步骤；利用自然语言处理从第一描述中提取与第一诈骗地址相关的多个第一关键字的步骤；以及将第一诈骗地址存储在第二数据库中的步骤。
8.根据本公开的获取学习数据的方法包括：从公开访问的网站接收文本信息的步骤；从文本信息中提取包括加密货币地址的主要文本信息的步骤；利用自然语言处理从主要文本信息中提取多个第二关键字的步骤；获取诈骗信息检测模型的步骤；通过将多个第二关键字应用于诈骗信息检测模型来确定包括在主要文本信息中的加密货币地址是否为诈骗地址的步骤；当加密货币地址为诈骗地址时，获取加密货币地址作为第二诈骗地址的步骤；以及将第二诈骗地址存储在第二数据库中的步骤。
9.在根据本公开的获取学习数据的方法中，获取诈骗信息检测模型的步骤包括：获取与从被确定为包括良性加密货币地址的网站获取的良性加密货币地址相关的字的步骤；获取与良性加密货币地址相关的每一个字在网站上出现的第一频率的步骤；获取第一关键字中的每一个在第一描述中出现的第二频率的步骤；以及通过机器学习与被标记为良性的良性加密货币地址相关的字、第一频率、第二频率和被标记为诈骗的多个第一关键字获取诈骗信息检测模型的步骤。
10.根据本公开的获取学习数据的方法包括：从提供与加密货币地址相对应的标签的
服务中获取第二描述的步骤；基于多个第一关键字获取诈骗关键字集的步骤；当第二描述中描述了诈骗关键字集中的包括的字时，将与第二描述相对应的加密货币地址确定为第三诈骗地址的步骤；以及将第三诈骗地址存储在第二数据库中的步骤。
11.在根据本公开的用于获取学习数据的方法中，获取诈骗关键字集的步骤包括：获取多个第一关键字中的每一个在第一描述中出现的频率的步骤；以及将多个第一关键字中的预定数量的高频字确定为诈骗关键字集的步骤。
12.根据本公开的获取学习数据的方法进一步包括：从提供与加密货币地址相对应的标签的服务中获取代表地址的可靠性的分数信息的步骤；当分数信息代表良性可靠性并且第二描述中不包括诈骗关键字集中包括的字时，将加密货币地址确定为良性地址的步骤；当分数信息代表诈骗并且第二描述中包括诈骗关键字集中包括的字时，将加密货币地址确定为第三诈骗地址的步骤；以及将良性地址和第三诈骗地址存储在第二数据库中的步骤。
13.根据本公开的一种装置，用于获取学习数据以生成用于检测加密货币诈骗账户的机器学习模型，包括处理器和存储器，处理器根据存储在存储器中的命令执行：从第一数据库接收与诈骗地址相关的报告的步骤，该第一数据库具有关于其中存储的被报告的诈骗地址的信息；从报告中获取第一诈骗地址和与第一诈骗地址相关的第一描述的步骤；利用自然语言处理从第一描述中提取与第一诈骗地址相关的多个第一关键字的步骤；以及将第一诈骗地址存储在第二数据库中的步骤。
14.根据本公开的用于获取学习数据的装置的处理器根据存储在存储器中的命令执行：从公开访问的网站接收文本信息的步骤；从文本信息中提取包括加密货币地址的主要文本信息的步骤；利用自然语言处理从主要文本信息中提取多个第二关键字的步骤；获取诈骗信息检测模型的步骤；通过将多个第二关键字应用于诈骗信息检测模型来确定包括在主要文本中的加密货币地址是否为诈骗地址的步骤；当加密货币地址为诈骗地址时，获取加密货币地址作为第二诈骗地址的步骤；以及将第二诈骗地址存储在第二数据库中的步骤。
15.根据本公开的用于获取学习数据的装置的处理器根据存储在存储器中的命令执行：获取与从确定为包括良性加密货币地址的网站获取的良性加密货币地址相关的字的步骤；获取与良性加密货币地址相关的每一个字在网站上出现的第一频率的步骤；获取第一关键字中的每一个在第一描述中出现的第二频率的步骤；通过机器学习与被标记为良性的良性加密货币地址相关的字、第一频率、第二频率和被标记为诈骗的多个第一关键字来获取诈骗信息检测模型的步骤。
16.根据本公开的用于获取学习数据的装置的处理器根据存储在存储器中的命令执行：从提供与加密货币地址相对应的标签的服务中获取第二描述的步骤；基于多个第一关键字获取诈骗关键字集的步骤；当第二描述中描述了诈骗关键字集中包括的字时，将与第二描述相对应的加密货币地址确定为第三诈骗地址的步骤；以及将第三诈骗地址存储在第二数据库中的步骤。
17.根据本公开的用于获取学习数据的装置的处理器根据存储在存储器中的命令执行：获取多个第一关键字中的每一个在第一描述中出现的频率的步骤，以及将多个第一关键字中的预定数量的高频字确定为诈骗关键字集的步骤。
18.根据本公开的用于获取学习数据的装置的处理器根据存储在存储器中的命令进
一步执行：从提供与加密货币地址相对应的标签的服务中获取代表地址可靠性的分数信息的步骤，当分数信息代表良性并且第二描述中不包括诈骗关键字集中包括的字时，将加密货币地址确定为良性地址的步骤；当分数信息代表诈骗并且第二描述中包括诈骗关键字集中包括的字时，将加密货币地址确定为第三诈骗地址的步骤；以及将良性地址和第三诈骗地址存储在第二数据库中的步骤。
19.此外，可以将执行上述用于获取学习数据的方法的程序记录在计算机可读记录介质中。
附图说明
20.图1是根据本公开的实施例的学习数据获取装置的框图。
21.图2是示出根据本公开的实施例的学习数据获取装置的示图。
22.图3是示出根据本公开的实施例的学习数据获取装置的操作的流程图。
23.图4是示出根据本公开的实施例的学习数据获取装置的操作的示图。
24.图5是示出根据本公开的实施例的学习数据获取装置的操作的流程图。
25.图6是示出根据本公开的实施例的学习数据获取装置的操作的示图。
26.图7是示出根据本发明的实施例的用于获取诈骗信息检测模型的方法的流程图。
27.图8是示出根据本公开的实施例的学习数据获取装置的操作的流程图。
28.图9是示出根据本公开的实施例的学习数据获取装置的操作的流程图。
29.图10是示出根据本公开的实施例的学习数据获取装置的操作的示图。
30.图11是示出根据本公开的实施例的导出机器学习模型的配置的示图。
具体实施方式
31.参照下面结合附图描述的实施例，所公开的实施例的优点和特征以及实现这些优点和特征的方法将变得显而易见。然而，本发明不限于以下所公开的实施例，而是可以以各种不同的形式实施，并且这些实施例仅允许使本公开完整，并且仅提供给本领域的普通技术人员以充分向其告知本发明的范围。
32.将简要描述说明书中使用的术语，并且将详细描述所公开的实施例。
33.本说明书中使用的术语是在考虑本公开的功能的同时尽可能选择当前广泛使用的通用术语，但这些术语可能会根据本领域技术人员的意图或先例、新技术的出现等发生变化。此外，在具体情况下，存在由申请人任意选择的术语，在这种情况下，其含义将在本发明的相应说明书中进行详细说明。因此，本公开中使用的术语应根据术语的含义和本公开的内容来定义，而不是根据术语的简单名称来定义。
34.除非上下文明确指定单数，否则说明书中的单数表述包括复数表述。此外，除非上下文明确指定复数，否则复数表述包括单数表述。
35.在整个说明书中，当一个部件“包括”某个元件时，除非另有特别说明，这意味着该部件进一步包括其他元件，而不是排除其他元件。
36.此外，如在说明书中使用的，术语“单元”指的是软件或硬件元件，并且“单元”执行某些任务。然而，“单元”并不意味着仅限于软件或硬件。“单元”可以被配置为在可寻址存储介质上并且可以被配置为再生一个或多个处理器。因此，举例来说，“单元”包括诸如软件元
件、面向对象的软件元件、类元件和任务元件、进程、函数、属性、程序、子例程、程序代码段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表、阵列和变量等元件。在元件和“单元”内提供的功能可以合并为较少数量的元件和“单元”，或者进一步划分为附加的元件和“单元”。
37.根据本公开的实施例，“单元”可以由处理器和存储器实现。术语“处理器”应广义地解释为包括通用处理器、中央处理单元(cpu)、微处理器、数字信号处理器(dsp)、控制器、微控制器、状态机等。在一些情况下，“处理器”可以指专用半导体(asic)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)等。术语“处理器”可以指代处理设备的组合，例如dsp和微处理器的组合、多个微处理器的组合、一个或多个微处理器与dsp核心的组合，或任何其他此类配置。
38.术语“存储器”应广义地解释为包括能够存储电子信息的任何电子部件。术语“存储器”可以指各种类型的处理器可读介质，例如随机存取存储器(ram)、只读存储器(rom)、非易失性随机存取存储器(nvram)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除prom(eeprom)、闪存、磁性或光数据存储设备和寄存器。如果处理器能够从存储器读取信息和/或将信息写入存储器，则称存储器与处理器进行电子通信。集成在处理器中的存储器与处理器进行电子通信。
39.在下文中，将参照附图对实施例进行详细描述，以便本公开所属领域的普通技术人员能够容易地实施这些实施例。为了在附图中清楚地描述本公开，将省略与描述无关的部分。
40.图1是根据本公开的实施例的学习数据获取装置100的框图。
41.参照图1，根据实施例的学习数据获取装置100可以包括数据学习单元110和数据识别单元120中的至少一个。如上所述的学习数据获取装置100可以包括处理器和存储器。
42.数据学习单元110可以学习用于使用数据集执行目标任务的机器学习模型。数据学习单元110可以接收与目标任务相关的数据集和标签信息。数据学习单元110可以通过对数据集和标签信息之间的关系进行机器学习来获取机器学习模型。数据学习单元110获取的机器学习模型可以是用于使用数据集生成标签信息的模型。
43.数据识别单元120可以接收并存储数据学习单元110的机器学习模型。数据识别单元120可以通过将机器学习模型应用于输入数据来输出标签信息。此外，数据识别单元120可以使用输入数据、标签信息以及由机器学习模型输出的结果来更新机器学习模型。
44.可以将数据学习单元110和数据识别单元120中的至少一个以至少一个硬件芯片的形式制造并安装在电子设备中。例如，可以将数据学习单元110和数据识别单元120中的至少一个以用于人工智能(ai)的专用硬件芯片的形式制造，或者可以制造为现有通用处理器(例如，cpu或应用处理器)或专用图形处理器(例如，gpu)的一部分并安装在已经描述的各种电子设备中。
45.此外，数据学习单元110和数据识别单元120可以分别安装在不同的电子设备中。例如，数据学习单元110和数据识别单元120中的一个可以包括在电子设备中，而另一个可以包括在服务器中。此外，数据学习单元110和数据识别单元120可以将数据学习单元110建立的机器学习模型信息通过有线或无线方式提供给数据识别单元120，输入到数据识别单元120的数据可以作为附加学习数据提供给数据学习单元110。
46.同时，数据学习单元110和数据识别单元120中的至少一个可以被实现为软件模块。当数据学习单元110和数据识别单元120中的至少一个被实现为软件模块(或包括指令的程序模块)时，该软件模块可以存储在存储器或非暂时性计算机可读介质中。在这种情况下，至少一个软件模块可以由os(操作系统)设置，或者由预定的应用程序设置。或者，至少一个软件模块的一部分可以由os(操作系统)提供，而另一部分可以由预定的应用程序提供。
47.根据本公开的实施例的数据学习单元110可以包括数据获取单元111、预处理单元112、学习数据选择单元113、模型学习单元114和模型评估单元115。
48.数据获取单元111可以获取机器学习所需的数据。由于学习需要大量数据，因此数据获取单元111可以接收包括多个数据的数据集。
49.可以将标签信息分配给多个数据中的每一个。标签信息可以是描述多个数据中的每一个的信息。标签信息可以是目标任务想要导出的信息。标签信息可以从用户输入中获取，可以从存储器中获取，或者可以从机器学习模型的结果中获取。例如，如果目标任务是从加密货币地址的交易历史中确定该加密货币地址是否为诈骗者拥有的地址，则用于机器学习的多个数据可以是与该加密货币地址的交易历史相关的数据，标签信息可以是该加密货币地址是否为诈骗者拥有的地址。
50.预处理单元112可以对获得的数据进行预处理，以便将接收到的数据用于机器学习。预处理单元112可以将获得的数据集处理为预设格式，使得稍后将描述的模型学习单元114可以使用该数据。
51.学习数据选择单元113可以从预处理数据中选择学习所需的数据。可以将选择的数据提供给模型学习单元114。学习数据选择单元113可以根据预设标准从预处理数据中选择学习所需的数据。此外，学习数据选择单元113可以通过稍后描述的模型学习单元114的学习，根据预设标准选择数据。
52.模型学习单元114可以基于数据集学习关于输出哪个标签信息的标准。此外，模型学习单元114可以使用数据集和关于数据集的标签信息作为学习数据来执行机器学习。此外，模型学习单元114可以通过另外使用先前获取的机器学习模型来执行机器学习。在这种情况下，之前获取的机器学习模型可以是之前构建的模型。例如，机器学习模型可以是通过接收基础学习数据而预先构建的模型。
53.可以通过考虑学习模型的应用领域、学习的目的、设备的计算机性能等来构建机器学习模型。机器学习模型可以是例如基于神经网络的模型。例如，诸如深度神经网络(dnn)、循环神经网络(rnn)、长短期记忆模型(lstm)、双向循环深度神经网络(brdnn)、卷积神经网络(cnn)等的模型可用作机器学习模型，但本发明不限于此。
54.根据各种实施例，当存在多个先前构建的机器学习模型时，模型学习单元114可以将输入学习数据与基础学习数据之间的相关性较大的机器学习模型确定为要学习的机器学习模型。在这种情况下，基础学习数据可以按数据类型预先分类，机器学习模型可以按数据类型预先建立。例如，可以根据学习数据的生成地点、学习数据的生成时间、学习数据的大小、学习数据的创建者以及学习数据中的对象类型等各种标准对基础学习数据进行预分类。
55.此外，模型学习单元114可以使用例如包括误差反向传播或梯度下降的学习算法
来训练机器学习模型。
56.此外，模型学习单元114可以通过例如以学习数据作为输入值的监督学习来学习机器学习模型。此外，模型学习单元114可以通过例如无监督学习来获得机器学习模型，以在没有任何监督的情况下通过自行学习目标任务所需的各种数据来发现目标任务的标准。此外，模型学习单元114可以例如使用关于基于学习的目标任务的结果是否正确的反馈通过强化学习来学习机器学习模型。
57.此外，当机器学习模型被学习时，模型学习单元114可以存储学习到的机器学习模型。在这种情况下，模型学习单元114可以将学习到的机器学习模型存储在包括数据识别单元120的电子设备存储器中。可选地，模型学习单元114可以将学习到的机器学习模型存储在通过有线或无线网络连接到电子设备的服务器的存储器中。
58.存储学习到的机器学习模型的存储器还可以一起存储，例如，与电子设备的至少一个其他元件相关的命令或数据。此外，存储器可以存储软件和/或程序。该程序可以包括例如内核、中间件、应用编程接口(api)和/或应用程序(或“应用”)等。
59.模型评估单元115将评估数据输入到机器学习模型，并且当从评估数据输出的结果不满足预定标准时，可以允许模型学习单元114再次学习。在这种情况下，评估数据可以是用于评估机器学习模型的预设数据。
60.例如，当在用于评估数据的学习到的机器学习模型的结果中，识别结果不准确的评估数据的数量或比率超过预设阈值时，模型评估单元115可以评估为不满足预定标准。例如，当预定比率被定义为2％并且学习到的机器学习模型对于总共1000个评估数据中的超过20个评估数据输出了错误识别结果时，模型评估单元115可以评估出学习到的机器学习模型不适合。
61.同时，当存在多个学习到的机器学习模型时，模型评估单元115评估每个学习到的机器学习模型是否满足预定标准，并且可以将满足预定标准的模型确定为最终机器学习模型。在这种情况下，当存在多个满足预定标准的模型时，模型评估单元115可以按照最高评估分数的顺序将任何预设的一个或预定数量的模型确定为最终的机器学习模型。
62.同时，数据学习单元110中的数据获取单元111、预处理单元112、学习数据选择单元113、模型学习单元114和模型评估单元115中的至少一个可以以至少一个硬件芯片的形式制造并安装在电子设备中。例如，数据获取单元111、预处理单元112、学习数据选择单元113、模型学习单元114和模型评估单元115中的至少一个可以以用于人工智能(ai)的专用硬件芯片的形式制造，或者可以制造为现有通用处理器(例如，cpu或应用处理器)或专用图形处理器(例如，gpu)的一部分，并安装在上述各种电子设备中。
63.此外，数据获取单元111、预处理单元112、学习数据选择单元113、模型学习单元114和模型评估单元115可以安装在一个电子设备中，或者分别安装在不同的电子设备中。例如，数据获取单元111、预处理单元112、学习数据选择单元113、模型学习单元114和模型评估单元115的一部分可以包括在电子设备中，而另一部分可以包括在服务器中。
64.此外，数据获取单元111、预处理单元112、学习数据选择单元113、模型学习单元114和模型评估单元115中的至少一个可以被实现为软件模块。当数据获取单元111、预处理单元112、学习数据选择单元113、模型学习单元114和模型评估单元115中的至少一个被实现为软件模块(或包括指令的程序模块)时，软件模块可以被存储在非暂时性计算机可读介
质中。在这种情况下，至少一个软件模块可以由os(操作系统)提供，或者由预定的应用程序提供。或者，至少一个软件模块的一部分可以由os(操作系统)设置，而另一部分可以由预定的应用程序设置。
65.根据本公开的实施例的数据识别单元120可以包括数据获取单元121、预处理单元122、识别数据选择单元123、识别结果提供单元124和模型更新单元125。
66.数据获取单元121可以接收输入数据。预处理单元122可以对获取的输入数据进行预处理，以便在识别数据选择单元123或识别结果提供单元124中使用获取的输入数据。
67.识别数据选择单元123可以从预处理的数据中选择必要的数据。可以将选择的数据提供给识别结果提供单元124。识别数据选择单元123可以根据预设标准选择部分或全部预处理的数据。此外，识别数据选择单元123可以通过模型学习单元114的学习，根据预设标准来选择数据。
68.识别结果提供单元124可以通过将选择的数据应用于机器学习模型来获取结果数据。机器学习模型可以是由模型学习单元114生成的机器学习模型。识别结果提供单元124可以输出结果数据。
69.模型更新单元125可以基于由识别结果提供单元124提供的对识别结果的评估来更新机器学习模型。例如，模型更新单元125可以将由识别结果提供单元124提供的识别结果提供到模型学习单元114，以使模型学习单元114更新机器学习模型。
70.同时，数据识别单元120中的数据获取单元121、预处理单元122、识别数据选择单元123、识别结果提供单元124和模型更新单元125中的至少一个可以以至少一个硬件芯片的形式制造并安装在电子设备中。例如，数据获取单元121、预处理单元122、识别数据选择单元123、识别结果提供单元124和模型更新单元125中的至少一个可以以用于人工智能(ai)的专用硬件芯片的形式制造，或者可以制造为现有通用处理器(例如，cpu或应用处理器)或专用图形处理器(例如，gpu)的一部分，并安装在上述各种电子设备中。
71.此外，数据获取单元121、预处理单元122、识别数据选择单元123、识别结果提供单元124和模型更新单元125可以安装在一个电子设备中，或者分别安装在不同的电子设备中。例如，数据获取单元121、预处理单元122、识别数据选择单元123、识别结果提供单元124和模型更新单元125的一部分可以包括在电子设备中，而另一部分可以包括在服务器中。
72.此外，数据获取单元121、预处理单元122、识别数据选择单元123、识别结果提供单元124和模型更新单元125中的至少一个可以被实现为软件模块。当数据获取单元121、预处理单元122、识别数据选择单元123、识别结果提供单元124和模型更新单元125中的至少一个被实现为软件模块(或包括指令的程序模块)时，软件模块可以被存储在非暂时性计算机可读介质中。在这种情况下，至少一个软件模块可以由os(操作系统)设置，或者由预定的应用程序设置。或者，至少一个软件模块的一部分可以由os(操作系统)设置，而另一部分可以由预定的应用程序设置。
73.在下文中，将更详细地描述数据学习单元110的数据获取单元111、预处理单元112和学习数据选择单元113接收和处理学习数据的方法和装置。
74.图2是示出根据本公开的实施例的学习数据获取装置的示图。
75.学习数据获取装置100可以包括处理器210和存储器220。处理器210可以执行存储在存储器220中的命令。
76.如上所述，学习数据获取装置100可以包括数据学习单元110。数据学习单元110的数据获取单元111、预处理单元112或学习数据选择单元113可以由处理器210和存储器220实现。
77.在下文中，将参照图3和图4详细描述学习数据获取装置。
78.图3是示出根据本公开的实施例的学习数据获取装置的操作的流程图。此外，图4是示出根据本公开的实施例的学习数据获取装置的操作的示图。
79.学习数据获取装置100可以获取用于生成检测诈骗账户的机器学习模型的学习数据。学习数据获取装置100可以包括数据获取单元111、预处理单元112或学习数据选择单元113。
80.学习数据获取装置100可以执行步骤310，即，从具有关于存储于其中的报告的诈骗地址的信息的第一数据库接收与诈骗地址相关的报告。
81.学习数据获取装置100可以进一步包括用于从第一数据库430接收数据的接收单元410。接收单元410可以通过有线或无线方式接收数据。
82.第一数据库430可以是基于提供与加密货币的诈骗地址相关的报告的服务而构建的数据库。此外，第一数据库430可以是基于比特币诈骗黑名单服务而构建的数据库。例如，提供与诈骗地址相关的报告的服务可以是诸如bitcoinwhoswho或bitcoinabuse的服务。第一数据库430为每个加密货币地址存储报告。学习数据获取装置100可以接收该报告。学习数据获取装置100可以基于该报告确定加密货币地址是否是诈骗地址。
83.学习数据获取装置100可以执行步骤320，即，从报告中获取第一诈骗地址和与第一诈骗地址相关的第一描述。
84.学习数据获取装置100可以进一步包括第一分析单元420，用于获取和处理第一诈骗地址和与第一诈骗地址相关的第一描述。第一分析单元可以分析从第一数据库接收的数据。第一分析单元420可以被实现为软件或硬件。第一分析单元420处理与第二分析单元或第三分析单元的数据不同的数据，但可以由相同的硬件实现。
85.第一诈骗地址可以是发送和接收加密货币的地址。第一诈骗地址可以是被包括第一数据库430的服务确定为已经用于诈骗的加密货币地址的地址。第一描述可以用文字描述为什么第一诈骗地址被确定为诈骗地址。
86.学习数据获取装置100可以仅使用以特定语言编写的第一描述。由于第一描述是用自然语言编写的，因此如果学习数据获取装置100没有正确地分析语言，则对诈骗地址的分析的准确性可能会下降。因此，学习数据获取装置100仅可以使用以可分析的语言编写的第一描述。然而，本发明不限于此。
87.学习数据获取装置100可以执行步骤330，即，使用自然语言处理从第一描述中提取与第一诈骗地址相关的多个第一关键字。包括第一数据库的比特币诈骗黑名单服务可以是与识别诈骗地址相关的具有高可靠性的服务。因此，学习数据获取装置100可以从第一描述的文本中导出第一关键字，并且分析与从另一数据库获取的加密货币地址相关的信息。
88.学习数据获取装置100可以从第一描述中删除分析所不必要的字符，例如特殊字符、url和停用字。此外，当从第一描述中删除不必要的字符之后剩余的字的数量小于预定数量时，学习数据获取装置100可以不使用对应的第一描述。预定数量例如可以是15个。当剩余的字的数量小于预定数量时，字的数量可能太少而不适合将这些字用作确定诈骗地址
的关键字。学习数据获取装置100可以通过在删除不必要的字符之后使用预定数量或更多的第一描述来增加学习数据装置100的可靠性。此外，可以增加基于由学习数据获取装置100获取的数据的机器学习模型的可靠性。
89.学习数据获取装置100可以执行步骤340，即将第一诈骗地址存储在第二数据库440中。第二数据库440可以包括在学习数据获取装置100中。第二数据库440可以存储用于生成机器学习模型的数据。此外，第二数据库440可以存储用于识别另一诈骗地址和分析关于该诈骗地址的描述的数据。
90.在下文中，将描述用于从比特币诈骗黑名单服务以外的来源获取的数据中获取诈骗地址和与诈骗地址相关的信息的方法和装置。
91.图5是示出根据本公开的实施例的学习数据获取装置的操作的流程图。此外，图6是示出根据本公开的实施例的学习数据获取装置的操作的示图。
92.学习数据获取装置100可以执行步骤510，即，从公开访问的网站接收文本信息。学习数据获取装置100可以使用接收单元410从网站接收文本信息。
93.公开访问的网站610可以包括个人或技术博客。此外，它可以是网络安全公司的诈骗分析报告。与加密货币地址相关的各种信息可以描述在网站610上。例如，网站610可以包含：特定加密货币的地址被用于诈骗，与特定加密货币地址的交易是符合要求的，或者简单地与特定的加密货币地址进行了交易。学习数据获取装置100可以执行以下步骤来提取其中的一个特定的加密货币地址被用于诈骗的内容。
94.不同于第一数据库430，网站610可以不具有常规形式。另外，网站610可以包括除了与诈骗地址有关的信息之外的各种信息。
95.学习数据获取装置100可以爬取预定的网站610。然而，本发明不限于此，并且学习数据获取装置100可以通过爬取任意网站610来自动提取必要的数据。
96.网站610的源代码可以由html文档组成。html文档不仅可以包括要在网站610上显示的内容，还可以包括与用于显示内容的格式相关的代码。学习数据获取装置100可以从网站610提取html主体作为文本信息。
97.学习数据获取装置100可以执行步骤520，即，从文本信息中提取包括加密货币地址的主要文本信息。
98.学习数据获取装置100可以进一步包括第二分析单元620。第二分析单元620可以分析从网站610接收到的文本信息。第二分析单元620可以被实现为软件或硬件。学习数据获取装置100可以使用第二分析单元620来提取主要文本信息。
99.学习数据获取装置100可以仅使用包括网站610的文本信息的加密货币地址的页面。加密货币地址可以具有特定格式。因此，学习数据获取装置100可以基于网站610的页面的内容来确定该页面上是否描述了加密货币的地址。学习数据获取装置100可以从包括加密货币地址的页面的文本信息中去除不必要的信息。例如，学习数据获取装置100可以删除横幅和html标签。为此，学习数据获取装置100可以使用boilerpipe。
100.学习数据获取装置100的第二分析单元620可以执行步骤530，即使用自然语言处理从主要文本信息中提取多个第二关键字。例如，学习数据获取装置100可以从主要文本中删除分析所不必要的字符，例如特殊字符、url和停用字。
101.学习数据获取装置100的第二分析单元620可以执行步骤540，即获取诈骗信息检
测模型。诈骗信息检测模型可以是神经网络分类器。诈骗信息检测模型可以是通过机器学习得到的模型。诈骗信息检测模型可以是一种机器学习模型，用于根据与加密货币地址相关的关键字来确定加密货币地址是否被诈骗者使用。
102.学习数据获取装置100可以直接生成诈骗信息检测模型。学习数据获取装置100可以包括数据学习单元110以生成诈骗信息检测模型。此外，学习数据获取装置100可以从另一设备接收诈骗信息检测模型。将参照图7详细描述学习数据获取装置100生成诈骗信息检测模型的过程。
103.学习数据获取装置100的第二分析单元620可以执行步骤550，即，通过将多个第二关键字应用于诈骗信息检测模型来确定包括在主要文本中的加密货币地址是否是诈骗地址。更具体地，学习数据获取装置100可以导出多个第二关键字中的每一个在主要文本中出现的频率。学习数据获取装置100可以将多个第二关键字和频率应用于诈骗信息检测模型。学习数据获取装置100可以通过诈骗信息检测模型获取关于包括在主要文本中的加密货币地址是否是诈骗地址的信息。
104.学习数据获取装置100的第二分析单元620可以执行步骤560，即，当加密货币地址是诈骗地址时，获取该加密货币地址作为第二诈骗地址。更具体地，当关于包括在主要文本中的加密货币地址是否是诈骗地址的信息代表是诈骗地址时，学习数据获取装置100可以获取包括在主要文本中的加密货币地址作为第二诈骗地址。
105.学习数据获取装置100可以执行步骤570，即，将第二诈骗地址存储在第二数据库440中。当第二诈骗地址与第一诈骗地址重叠时，第二数据库440可以忽略第二诈骗地址和第一诈骗地址中的任意一个，或更新有关第二个诈骗地址和第一个诈骗地址中的任意一个的信息。
106.图7是示出根据本发明的实施例的用于获取诈骗信息检测模型的方法的流程图。
107.学习数据获取装置100可以执行步骤710，即，获取与从被确定为包括良性加密货币地址的网站获取的良性加密货币地址相关的字。良性加密货币地址可以代表它不是诈骗者拥有的加密货币地址。
108.被确定为包括良性加密货币地址的网站可以指提供加密货币地址的可靠性信息的网站。加密货币用户可以在交易加密货币后在网站上留下与加密货币交易相关的评论。用户可以通过分数或文本来表示评论。
109.用户可以确定包括良性加密货币地址的网站。或者，学习数据获取装置100可以自动确定包括良性加密货币地址的网站。此外，学习数据获取装置100可以从包括良性加密货币地址的网站或网页获取与良性加密货币地址相关的字。例如，学习数据获取装置100可以从网站或网页中去除不必要的字符。学习数据获取装置100可以在从网站或网页中去除不必要的字符之后获取与良性加密货币地址相关的字。与良性加密货币地址相关的字可能是解释良性加密货币地址的关键字。
110.学习数据获取装置100可以执行步骤720，即，获取与良性加密货币地址相关的字中的每一个出现在网站610上的第一频率。学习数据获取装置100可以基于第一个频率以及与良性加密货币地址相关的字来提高诈骗信息检测模型的准确性。
111.学习数据获取装置100可以执行步骤730，即，获取与良性加密货币地址相关的字和第一关键字中的每一个在第一描述中出现的第二频率。学习数据获取装置100可以从第
一数据库430中获取第一关键字。由于已经参照图3和图4描述了获取第一关键字的过程，所以省略了多余的描述。
112.学习数据获取装置100可以执行步骤740，即，通过机器学习与被标记为良性的良性加密货币地址相关的字、第一频率、第二频率和被标记为诈骗的多个第一关键字来获取诈骗信息检测模型。诈骗信息检测模型可以基于第一频率和与良性加密货币地址相关的字来学习与良性地址相关的信息，并且可以基于第二频率和多个第一关键字来学习与诈骗地址相关的信息。
113.学习数据获取装置100可以通过有线或无线方式将诈骗信息检测模型发送到另一学习数据获取装置100。学习数据获取装置100可以将诈骗信息检测模型存储在存储器220中。
114.学习数据获取装置100可以获取新的加密货币地址、与该新的加密货币地址相对应的第二关键字，以及第二关键字的频率。学习数据获取装置100可以通过应用第二关键字和第二关键字的频率来确定新的加密货币地址是否是诈骗。
115.已经描述了学习数据获取装置100使用诈骗信息检测模型从网站上描述的信息中辨别诈骗地址的配置，但本发明不限于此。学习数据获取装置100可以使用诈骗信息检测模型从网站上描述的信息中辨别出良性地址。
116.此外，学习数据获取装置100获取诈骗信息检测模型的方法不限于上述方法。在浏览网站之后，用户可以将具有诈骗地址的网页标记为“诈骗”并将该网页与诈骗地址一起存储，将具有良性地址的网页标记为“良性”并将该网页与良性地址一起存储。学习数据获取装置100可以通过对诈骗地址、被标记为“诈骗”的网页、被标记为“良性”的网页和良性地址进行机器学习来获取诈骗信息检测模型。学习数据获取装置100可以简单地通过将网页应用于诈骗信息检测模型来确定来自网页的地址是否与诈骗者有关。
117.图8是示出根据本公开的实施例的学习数据获取装置的操作的流程图。此外，图10是示出根据本公开的实施例的学习数据获取装置的操作的示图。
118.*学习数据获取装置100可以执行步骤810，即，从提供与加密货币地址相对应的标签的服务1010获取第二描述。学习数据获取装置100可以使用接收单元410来获取第二描述。
119.标签可以是附加到加密货币地址的元信息。提供与加密货币地址相对应的标签的服务可以是诸如“blockchain.info”、“bitcointalk community”或“bitcoin-otc.com”的网站。
120.标签可以包括提交的链接标签、签名的消息标签、bitcointalk个人资料标签或bitcoin-otc个人资料标签(比特币场外交易个人资料标签)。提交的链接标签提供了对其标签被指定的加密货币地址的简单描述。举报人有时会提供诈骗描述以及代表诈骗信息来源的页面链接。
121.签名的消息标签提供地址的所有者。然而，由于所有者选择了此标识符，因此诈骗者可以获得虚假所有权。
122.bitcointalk个人资料标签可能仅提供加密货币社区中的用户标识符。
123.bitcoin-otc个人资料标签提供bitcoin-otc网站中的用户标识符。与bitcoin talk不同，该网站为每个用户昵称提供信誉分数。该分数可以由对目标加密货币地址执行
金融交易的交易对方给予。此外，它还提供了对为什么交易对方将给定分数分配给给定的加密货币地址的简要说明。因此，使用bitcoin-otc个人资料标签有可能获得与诈骗地址和良性地址相关的所有信息。
124.第二描述可以从签名的消息标签或bitcoin-otc个人资料标签中获取。第二描述可以是与加密货币地址相关的信誉文本信息。
125.学习数据获取装置100可以执行步骤820，即基于多个第一关键字获取诈骗关键字集。
126.学习数据获取装置100可以进一步包括第三分析单元1020。第三分析单元1020可以分析从标签提供服务1010接收到的第二描述。第二分析单元1020可以被实现为软件或硬件。学习数据获取装置100可以使用第二分析单元1020从第一关键字中获取诈骗关键字集。
127.学习数据获取装置100可以从第一数据库430中获取第一关键字。由于已经参照图3和图4描述了获取第一关键字的过程，所以省略了多余的描述。
128.诈骗关键字集可以仅包括名字。此外，学习数据获取装置100可以去除第一关键字中的分析所不必要的字符。例如，学习数据获取装置100可以删除第一关键字中与和诈骗无关的twitter、tumblr和instagram相关的术语。
129.学习数据获取装置100可以执行获取多个第一关键字中的每一个在第一描述中出现的频率的步骤。学习数据获取装置100可以执行将多个第一关键字中的预定数量的高频字确定为诈骗关键字集的步骤。例如，学习数据获取装置100可以通过选择第一关键字中最高频率的11个字来获取诈骗关键字集。
130.学习数据获取装置100可以执行步骤830，即，当第二描述中描述了诈骗关键字集中包括的字时，将与第二描述相对应的加密货币地址确定为第三诈骗地址。由于包括在标签中的字的数量不多，因此学习数据获取装置100可以基于从第一关键字导出的诈骗关键字来确定标签是否代表诈骗。
131.学习数据获取装置100可以进一步使用诈骗关键字集中包括的字的第一描述上的频率。例如，即使第二描述包括诈骗关键字集的字，当该字不是在第二描述中频繁出现的字时，学习数据获取装置100也可以不将与第二描述相对应的加密货币地址确定为第三诈骗地址。此外，当第二描述包括诈骗关键字集的字并且该字是在第二描述中频繁出现的字时，学习数据获取装置100可以将与第二描述相对应的加密货币地址确定为第三诈骗地址。
132.学习数据获取装置100可以执行步骤840，即，将第三诈骗地址储存在第二数据库440中。当第三诈骗地址与第一诈骗地址或第二诈骗地址重叠时，第二数据库440可以忽略第三诈骗地址、第一诈骗地址或第二诈骗地址中的任意一个，或更新有关第三诈骗地址、第一诈骗地址或第二诈骗地址中的任意一个的信息。
133.图9是示出根据本公开的实施例的学习数据获取装置的操作的流程图。
134.在图8中，已经描述了学习数据获取装置100从提供标签的服务1010获取第二描述的情况。图9示出了获取加密货币地址的可靠性分数信息以及第二描述的情况。
135.学习数据获取装置100可以执行步骤910，即，从提供与加密货币地址相对应的标签的服务中获取代表地址可靠性的分数信息。代表地址可靠性的分数信息可以是与加密货币地址进行交易的交易对方留下的分数。此外，当多个交易对方留下分数时，该分数的平均值可以是代表地址可靠性的分数信息。
136.学习数据获取装置100可以执行步骤920，即，当分数信息代表良性并且第二描述不包括诈骗关键字集中包括的字时，将加密货币地址确定为良性地址。当分数信息等于或大于阈值时，学习数据获取装置100可以将地址确定为良性。然而，本发明不限于此，当分数信息等于或小于阈值时，学习数据获取装置100可以将其确定为良性。
137.学习数据获取装置100可以执行步骤930，即，当分数信息代表诈骗并且第二描述包括诈骗关键字集中包括的字时，将加密货币地址确定为第三诈骗地址。当分数信息等于或小于阈值时，学习数据获取装置100可以将其确定为诈骗。然而，本发明不限于此，当分数信息等于或大于阈值时，学习数据获取装置100可以将其确定为诈骗。
138.当分数信息代表诈骗但第二描述不包括诈骗关键字集中包括的字时，或者当分数信息代表良性但第二描述包括诈骗关键字集中包括的字时，学习数据获取装置100可以不对加密货币地址作出决定。由于学习数据获取装置100仅在情况确定时才将加密货币地址确定为良性地址或诈骗地址，因此之后可以基于可靠数据执行机器学习。
139.学习数据获取装置100可以执行步骤940，即，将良性地址和第三诈骗地址存储在第二数据库440中。当第三诈骗地址与第一诈骗地址或第二诈骗地址重叠时，第二数据库440可以忽略第三诈骗地址、第一诈骗地址或第二诈骗地址中的任意一个，或更新有关第三诈骗地址、第一诈骗地址或第二诈骗地址中的任意一个的信息。
140.图11是示出根据本公开的实施例的导出机器学习模型的配置的示图。
141.至此，已经描述了学习数据获取装置100导出第一诈骗地址、第二诈骗地址、第三诈骗地址和良性地址并将它们存储在第二数据库440中的方法。数据学习单元110可以基于存储在第二数据库440中的数据来执行机器学习并导出机器学习模型1130。
142.数据学习单元110不仅可以使用第一诈骗地址、第二诈骗地址、第三诈骗地址和良性地址，还可以使用与第一诈骗地址、第二诈骗地址、第三诈骗地址和良性地址相关的信息。与第一诈骗地址、第二诈骗地址、第三诈骗地址和良性地址相关的信息可以包括交易历史。交易历史可以包括交易日期和时间、交易对方地址或交易金额大小。
143.数据学习单元110可以通过分析与第一诈骗地址、第二诈骗地址、第三诈骗地址和良性地址相关的信息来获取地址的特征。数据学习单元110可以使用地址的特征执行机器学习并生成机器学习模型1130。
144.数据学习单元110可以将生成的机器学习模型1130存储在存储器中或将其发送到另一设备。数据识别单元120可以基于机器学习模型1130确定加密货币地址是否是诈骗地址。数据识别单元120可以通过接收新的加密货币地址并将该新的加密货币地址应用于机器学习模型1130来确定加密货币地址是否是诈骗地址。
145.至此，已经主要描述了各种实施例。本发明所属领域的普通技术人员将理解，本发明可以在不脱离本发明的基本特征的情况下以修改的形式实施。因此，所公开的实施例应被认为是说明性的而不是限制性的。本发明的范围由权利要求而不是上述说明书来指示，在与该范围等同的范围内的所有差异均应被视为包括在本发明中。
146.另一方面，本发明的上述实施例可以编写为可以在计算机上执行的程序，并且可以在使用计算机可读记录介质来操作该程序的通用数字计算机中实现。计算机可读记录介质包括诸如磁性存储介质(例如，rom、软盘、硬盘等)和光学可读介质(例如，cd-rom、dvd等)的存储介质。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：将变化日志表移动至与分区对准的制作方法

用于分析加密货币交易的数据获取方法和装置与流程

相关文献

最热文献