一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

时间序列数据处理方法、装置、可读介质及电子设备与流程

2021-12-04 13:07:00 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种时间序列数据处理方法、装置、可读介质及电子设备。


背景技术:

2.深度学习(dl,deep learning)是机器学习(ml,machine learning)领域中一个新的研究方向,其可以学习样本数据的内在规律和表示层次,从而挖掘数据相关问题,再解决数据相关问题。例如,深度学习可以有效改善时间序列的问题,比如时间序列分类、时间序列预测、时间序列异常检测。但是,利用深度学习解决前述问题时候,需要足够的数据样本,且对数据样本的质量也有一定的要求,如果数据样本不足,和/或者数据噪声较多,深度学习得到的相关模型将会不稳定,再者,由传感器采集大量的原始数据,多为无标签样本,该部分数据价值很难得到充分利用,此外,无标签样本可能分布与有标签样本不同,如果直接采用伪标签样本的方式,可能导致无法适合于相关应用场景。综上,相关技术中,如何获得足够、有效的数据样本是深度学习领域的难题之一,如果没有足够、有效的数据样本,训练除的模型泛化能力很难得到提升。


技术实现要素:

3.本发明提供一种时间序列数据处理方法、装置、可读介质及电子设备,可以使时序数据集多样化,使得训练的时序分类模型具有更强的泛化能力,提高时序分类模型的鲁棒性与分类准确性。
4.第一方面,本发明提供了一种时间序列数据处理方法,包括:
5.获取第一时间序列数据和第二时间序列数据,其中,所述第一时间序列数据包括预设标签信息,所述第二时间序列数据为无标签的时间序列数据;
6.对所述第二时间序列数据添加伪标签信息,以得到包括伪标签信息的第三时间序列数据;
7.基于所述第一时间序列数据和所述第三时间序列数据进行模型训练,以得到时间序列分类模型。
8.第二方面,本发明提供了一种时间序列数据处理装置,包括:
9.数据获取模块,用于获取第一时间序列数据和第二时间序列数据,其中,所述第一时间序列数据包括预设标签信息,所述第二时间序列数据为无标签的时间序列数据;
10.标签处理模块,用于对所述第二时间序列数据添加伪标签信息,以得到包括伪标签信息的第三时间序列数据;
11.第一训练模块,用于基于所述第一时间序列数据和所述第三时间序列数据进行模型训练,以得到时间序列分类模型。
12.第三方面,本发明提供了可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面所述的方法。
13.第四方面,本发明提供了电子设备,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述电子设备运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述处理器执行如第一方面所述的方法。
14.本发明提供了一种时间序列数据处理方法、装置、可读介质及电子设备,获取第一时间序列数据和第二时间序列数据,其中,所述第一时间序列数据包括预设标签信息,所述第二时间序列数据为无标签的时间序列数据;对所述第二时间序列数据添加伪标签信息,以得到包括伪标签信息的第三时间序列数据;基于所述第一时间序列数据和所述第三时间序列数据进行模型训练,以得到时间序列分类模型。综上,本发明将有标签信息的时间序列数据,为无标签信息的时间序列数据添加伪标签信息,进而将两者时间序列数据作为模型训练的样本数据,使时序数据集多样化,使得训练的时序分类模型具有更强的泛化能力,提高时序分类模型的鲁棒性与分类准确性。
附图说明
15.为了更清楚地说明本说明书实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
16.图1为本发明一实施例提供的一种时间序列数据处理方法的流程示意图;
17.图2为本发明一实施例提供的一种时间序列数据处理装置的结构示意图;
18.图3为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
19.为使本说明书的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本说明书的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
20.图1为本发明一实施例提供的一种时间序列数据处理方法的流程示意图。如图1所示,本发明实施例提供了一种时间序列数据处理方法,包括:
21.步骤101,获取第一时间序列数据和第二时间序列数据,其中,第一时间序列数据包括预设标签信息,第二时间序列数据为无标签的时间序列数据。
22.第一时间序列数据、第二时间序列数据可以是通过任一设备的传感器采集的时间序列,也可以是例如应用程序运行产生的日志数据。本步骤中,可以从传感器或者运行应用程序的电子设备实时获取第一时间序列数据和第二时间序列数据,也可以从云存储和/或本地存储服务器和/或数据库中获取。
23.其中,第一时间序列数据是包括预设标签信息的时间序列数据,预设标签信息可以是人工手动标记的,也可以是在数据采集时,由采集设备或者负责处理标签的电子设备根据数据特征自动标记的。例如,x
i
={(x1,0),(x2,1),(x3,1),(x4,0)
……
(x
n
,0)},x
i
表示第一时间序列数据,n表示第一时间序列数据中的数据元素个数,x1~x
n
表示第一时间序列
数据中的数据元素,0和1表示预设标签信息(例如,0为设备故障标签,1为设备健康标签)。第二时间序列数据为无标签的时间序列数据,例如,x
i
={(x1),(x2),(x3),(x4)
……
(x
n
)},x
i
表示第一时间序列数据,n表示第一时间序列数据中的数据元素个数,x1~x
n
表示第一时间序列数据中的数据元素。
24.步骤102,对第二时间序列数据添加伪标签信息,以得到包括伪标签信息的第三时间序列数据。
25.在本步骤中,针对第二时间序列数据中的每一个数据元素,添加伪标签信息。伪标签即根据有预测标签的数据为没有标签的数据给出近似的标签,示例性地,可以确定有标签数据的特征与无标签数据的特征相似度,针对两者特征相似度大于预设值的,则将有标签数据的标签作为对应无标签数据的近似标签。例如(假设相似度预设值为0.5):
[0026][0027]
在本技术另一些实施例中,还可以基于第一时间序列数据训练得到标签模型,标签模型用于对无标签时间序列数据添加伪标签信息,进而将第二时间序列数据输入所述标签模型,得到包括伪标签信息的第三时间序列数据。示例性地,采用半监督学习方式对有预设标签信息的时间序列数据训练标签模型:将有预设标签信息的时间序列数据作为半监督学习网络,从而得到标签模型,将无预设标签信息的第二时间序列数据输入标签模型,以通过标签模型隐藏层提取第二时间序列数据的特征,以这些特征来对无预设标签信息的第二时间序列数据进行分类,从而第二时间序列数据的伪标签信息。
[0028]
在一些实施例中,对于已添加伪标签信息的第二时间序列数据的伪标签信息进行评估,比如人工评估,给予评估分值,进而根据评估分值确定伪标签信息更为准确的第二时间序列数据作为第三时间序列数据;在另一些实施例中,标签模型可以输出第二时间序列数据的伪标签信息和伪标签信息的置信度,根据伪标签信息的置信度确定伪标签信息更为准确的第二时间序列数据作为第三时间序列数据。
[0029]
前述生成的标签模型,例如,可以表示为:
[0030]
l
t
=taskclassifier(u);t∈(1,
……
batchsize)
[0031]
其中,l
t
表示伪标签信息,u表示第二时间序列数据的任一元素。
[0032]
步骤103,基于第一时间序列数据和第三时间序列数据进行模型训练,以得到时间序列分类模型。
[0033]
在本发明实施例中,该步骤可以通过如下步骤实现:
[0034]
步骤a,将第一时间序列数据和第三时间序列数据的所有数据进行随机排序,以得到第四时间序列数据。
[0035]
示例性地,可以将第一时间序列数据和第三时间序列数据的所有数据输入随机排序函数,以得到随机排序的第四时间序列数据。例如,随机排序函数为shuffle函数,将第一时间序列数据和第三时间序列数据的元素数据分别输入shuffle函数中:x=shuffle(x),u=shuffle(u),其中,x为第一时间序列数据的任一元素数据,u为第三时间序列数据的任一元素数据。并将随机排序后的所有元素数据作为第四时间序列数据。
[0036]
步骤b,基于随机排序的第四时间序列数据进行模型训练,得到时间序列分类模型。
[0037]
在本步骤中,将步骤a中得到的第四时间序列数据作为训练样本,进行模型训练,例如,将第四时间序列数据输入神经网络中,以提取第四时间序列数据的数据特征,以进行模型训练。
[0038]
在另一些实施例中,本步骤还可以通过如下步骤实现:
[0039]
子步骤b1,对随机排序的第四时间序列数据的数据元素和标签元素进行加权处理,得到第五时间序列数据。
[0040]
其中,针对随机排序的第四时间序列数据,利用贝塔分布函数确定第四时间序列数据的权重参数,进而根据权重参数对第四时间序列数据的数据元素和标签元素进行加权处理,得到第五时间序列数据。加权处理过程,例如:
[0041][0042][0043]
其中,为加权后的数据元素,γ为权重参数,x
s
为未加权的有预设标签信息的数据元素,u
t
未加权的有伪标签信息的数据元素;为加权后的标签元素,γ为权重参数,l
s
为未加权的预设标签信息元素,l
t
未加权的伪标签信息元素。最终得到的第五时间序列数据例如可以表示为:
[0044][0045]
子步骤b2,基于第五时间序列数据进行模型训练,得到时间序列分类模型,其中,第五时间序列数据包括加权后的数据元素和加权后的标签元素。
[0046]
综上,本发明提供的时间序列数据处理方法,将有标签信息的时间序列数据,为无标签信息的时间序列数据添加伪标签信息,进而将两者时间序列数据作为模型训练的样本数据,使时序数据集多样化,使得训练的时序分类模型具有更强的泛化能力,提高时序分类模型的鲁棒性与分类准确性。
[0047]
基于与本发明方法实施例相同的构思,如图2所示,本发明实施例还提供了一种时间序列数据处理装置,包括:
[0048]
数据获取模块21,用于获取第一时间序列数据和第二时间序列数据,其中,所述第一时间序列数据包括预设标签信息,所述第二时间序列数据为无标签的时间序列数据。
[0049]
标签处理模块22,用于对所述第二时间序列数据添加伪标签信息,以得到包括伪标签信息的第三时间序列数据。
[0050]
第一训练模块23,用于基于所述第一时间序列数据和所述第三时间序列数据进行模型训练,以得到时间序列分类模型。
[0051]
在一些实施例中,本发明实施例提供的一种时间序列数据处理装置,还可以包括
第二训练模块(图中未示出),用于基于所述第一时间序列数据训练得到标签模型,所述标签模型用于对无标签时间序列数据添加伪标签信息,更进一步地,标签处理模块还可以包括输入单元,以用于将所述第二时间序列数据输入所述标签模型,以得到包括伪标签信息的第三时间序列数据。
[0052]
综上,本发明提供的时间序列数据处理装置,将有标签信息的时间序列数据,为无标签信息的时间序列数据添加伪标签信息,进而将两者时间序列数据作为模型训练的样本数据,使时序数据集多样化,使得训练的时序分类模型具有更强的泛化能力,提高时序分类模型的鲁棒性与分类准确性。
[0053]
图3是本说明书的一个实施例电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random

access memory,ram),也可能还包括非易失性存储器(non

volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
[0054]
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0055]
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
[0056]
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,也可从其它设备上获取相应的计算机程序,以在逻辑层面上形成时间序列数据处理装置。处理器,执行存储器所存放的程序,以通过执行的程序实现本发明任一实施例中提供的时间序列数据处理方法。
[0057]
上述实施例提供的时间序列数据处理装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0058]
结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0059]
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行本发明任一实施例中提供的时间序列数据处理方法,并具体用于执行如图1所示的方法。
[0060]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0061]
为了描述的方便,描述以上装置时以功能分为各种单元或模块分别描述。当然,在实施本说明书时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。
[0062]
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0063]
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0064]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0065]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0066]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0067]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0068]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动
态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0069]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0070]
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0071]
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0072]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0073]
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献