一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于FAST的脉冲星搜索数据预处理优化方法及系统与流程

2023-02-01 22:21:32 来源:中国专利 TAG:

基于fast的脉冲星搜索数据预处理优化方法及系统
技术领域
1.本发明属于数据处理技术领域,尤其涉及基于fast的脉冲星搜索数据预处理优化方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.2016年9月五百米口径球面射电望远镜(fast)已经建成,脉冲星巡天将是fast开展的重要科学项目之一,预计年巡天将产生p量级的数据;脉冲星,就是旋转的中子星,因不断地发出电磁脉冲信号而得名;寻找脉冲星主要是因为脉冲星的磁层包含极端相对论性带电粒子、超强的等离子体波和极强的磁场,具有在地面实验室无法实现的极端物理性质,是宇宙中天然的极端物理实验室,超强引力场为广义相对论和引力波的检验提供了独特场所;另外通过高精度的脉冲星计时研究,建立宇宙级“gps”,实现“脉冲星导航”。
4.目前关于脉冲星搜索是基于数据质量检测、频率切除、偏振合并、数据合并、指向修正、数组时间对齐等数据预处理完成之后进行的,所以数据预处理是脉冲星搜索的一个关键步骤,而这一过程目前存在的问题是:
5.(1)脉冲星年巡天数据可达p量级,待处理的数据量大。
6.(2)当前数据预处理的方法是串行方式,耗时偏大、性能较差。
7.(3)数据预处理过程繁琐,需要消耗人力成本。
8.因此,针对脉冲星搜索的数据量过大、数据预处理串行执行的速度过慢、数据预处理流程复杂的问题,脉冲星搜索数据预处理优化方案亟待研究。


技术实现要素:

9.为克服上述现有技术的不足,本发明提供了基于fast的脉冲星搜索数据预处理优化方法及系统,在数据预处理原始方法的基础上,改变现有串行执行的方式,采用并行执行,提高预处理的速度。
10.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
11.本发明第一方面提供了基于fast的脉冲星搜索数据预处理优化方法;
12.基于fast的脉冲星搜索数据预处理优化方法,包括:
13.将动态获取的fast巡天数据划分为多组数据;
14.通过多线程处理的方式,对多组数据进行并行质量检测,去除坏数据,构建局部连续的数据表;
15.自动获取频率切除参数,对数据表进行多线程多任务的频率切除,将得到的多路偏振进行偏振合并;
16.对数据对应的文件,进行文件合并、指向修正、数组时间对齐,得到预处理后的数据。
17.进一步的,通过质量检测对坏数据进行标记和剔除。
18.进一步的,所述坏数据,是被强干扰的数据。
19.进一步的,对原有的数据预处理方法进行热点测试,识别出数据质量检测和频率切除、偏振合并两个步骤是数据预处理的热点部分。
20.进一步的,对于数据质量检测进行并行,动态获取数据,构建数据列表,根据数据列表划分数据,得到多组数据,每组数据作为一个子任务。
21.进一步的,当子任务数量不大于线程数量时,设计方法使线程与任务一一对应;
22.当子任务数量大于线程数量时,设计方法使线程与任务实现一对多的对应关系。
23.进一步的,所述频率切除参数,是频率的起始值。
24.本发明第二方面提供了基于fast的脉冲星搜索数据预处理优化系统。
25.基于fast的脉冲星搜索数据预处理优化系统,包括数据划分模块、质量检测模块、频率切除模块和合并修正模块:
26.数据划分模块,被配置为:将动态获取的fast巡天数据划分为多组数据;
27.质量检测模块,被配置为:通过多线程处理的方式,对多组数据进行并行质量检测,去除坏数据,构建局部连续的数据表;
28.频率切除模块,被配置为:自动获取频率切除参数,对数据表进行多线程多任务的频率切除,将得到的多路偏振进行偏振合并;
29.合并修正模块,被配置为:对数据对应的文件,进行文件合并、指向修正、数组时间对齐,得到预处理后的数据。
30.本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于fast的脉冲星搜索数据预处理优化方法中的步骤。
31.本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于fast的脉冲星搜索数据预处理优化方法中的步骤。
32.以上一个或多个技术方案存在以下有益效果:
33.本发明在数据预处理原始方法的基础上,添加去除被强干扰的数据的功能,进一步缩短需要脉冲星搜索需要处理的数据;改变串行执行的方式,采用并行执行,提高运行速度;将多步骤逐步执行的方法进行改进为通用性强的自动化处理。
34.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
35.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
36.图1为第一个实施例的方法流程图。
37.图2为第一个实施例中数据预处理方法优化前后对比图。
38.图3为第二个实施例的系统结构图。
具体实施方式
39.下面结合附图与实施例对本发明作进一步说明。
40.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明;除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
41.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
42.脉冲星搜索数据预处理的方法目前存在技术问题,主要集中在需要进行脉冲星搜索的数据量过大、数据预处理串行执行的速度过慢、数据预处理流程复杂这几方面,通过这些问题,需要对数据预处理的方法进行改进:针对脉冲星待处理数据量过大的问题,目前已有的方法是对待处理的数据进行频率切除,大约可以减少1/5的数据,在现有方法的基础上继续进行改进,因为有些时候观测被强干扰,无法正确记录数据,所以某些数据文件是“坏数据”,故在减少1/5的数据量的基础上将坏数据彻底去除,进一步减少脉冲星上搜索过程中的数据量;
43.针对目前数据预处理的方法耗时偏大、性能较差的问题,目前数据预处理是基于cpu环境下单个节点单核进行的,根据数据预处理的流程和程序结构判断存在可并行的部分,故采用并行执行的方式对数据预处理加速;
44.针对数据预处理过程繁琐,需要消耗人力成本的问题,当前数据预处理流程复杂,需要逐步运行,耗时耗力,故在现有方法的基础上进一步改进,对程序进行设计,在保证通用性的基础上使数据预处理自动化执行。
45.实施例一
46.本实施例公开了基于fast的脉冲星搜索数据预处理优化方法;
47.如图1所示,基于fast的脉冲星搜索数据预处理优化方法,包括:
48.步骤s1:将动态获取的fast巡天数据划分为多组数据;
49.fast巡天数据是以fits文件格式进行保存的,根据计算环境中cpu的核心数量,将数据划分多组,按照多指令多数据流的模式实现抢占式并行。
50.多指令多数据流(multiple instruction stream multipledata stream,mimd),依赖多个异步和独立工作的处理器,在任何时钟周期内,不同的处理器在不同的数据片段上执行不同的指令,即同时执行多个指令流,而这些指令流分别对不同数据流进行操作。
51.步骤s2:通过多线程处理的方式,对多组数据进行并行质量检测,去除坏数据,构建局部连续的数据表。;
52.数据质量检测,缩短脉冲星搜索所需要的数据,确认是否存在饱和的数据(这里饱和是指基线本底不再平坦,大幅跳跃,无法正确记录数据),若是存在,则表明该数据已经没有处理的价值了,若是保留这种数据,那么脉冲星搜索的数据量会增大,降低脉冲星搜索的效率。
53.故对其进行改进,对坏数据进行标记,剔除坏数据后,将剩余数据构建局部连续的数据表,fast巡天数据同一个源中的数据时间积分存在连续性,坏数据剔除后虽然会减少
待处理的数据,但是也会破坏时间积分的连续性导致后续整个搜索流程失败,因此在剔除坏数据后,针对剩下的数据根据时间积分连续性构建局部连续的数据表,以确保数据搜索流程准确无误,这样既可以减少待处理数据的大小,又可以保证数据文件在时间上的连续性,减小了后面步骤计算色散延迟有误的问题。
54.为了进一步提高预处理的效率,将原有预处理流程中的串行执行改为并行执行,每一个线程负责一个子任务的独立计算,最后将每一个子任务合并到一起,通过多线程处理任务来提高该方法的运行速度。
55.原有预处理流程包括数据质量检测、频率切除、偏振合并、数据合并、指向修正、数组时间对齐,对原有的数据预处理方法进行热点测试,热点测试的数据如表1所示。
56.表1热点测试的数据
[0057][0058]
从表中可以看到,数据质量检测和频率切除、偏振合并两个步骤的耗时最多,是数据预处理的热点部分。
[0059]
对程序和运行流程进行分析,明确输入输出参数和数据走向,对于数据质量检测进行并行,动态获取数据,构建数据列表,根据数据列表划分数据,得到多组数据,每组数据作为一个子任务。
[0060]
当待处理数据与线程数量出现“供不应求”的情况时,设计方法使线程与任务一一对应;
[0061]
当待处理数据与线程数量出现“求不供应”的情况时,设计方法使线程与任务实现“一对多”,实现资源利用率最大的情况下,任务执行速率最大化。
[0062]
步骤s3:自动获取频率切除参数,对数据表进行多线程多任务的频率切除,将得到的多路偏振进行偏振合并;
[0063]
原始频率在5000赫兹,但数据首尾两端的频率是没有对应数据的,所以需要把两端的数据去除掉,即频率切除,这样,在保证信息含量的同时,减少搜索时的数据量。
[0064]
fast望远镜有多条观测线路,有八路偏振,也有两路偏振,最后将其合并成一路偏振去进行寻找脉冲星。
[0065]
对于频率切除、偏振合并进行并行,除了需要动态获取构造的数据表外,还需要设计方法自动获取和数据相关的参数信息,比如频率的起始值等,最终达到多线程多任务同时实现多路偏振合并为一路偏振,频率切除数据量减小的效果。
[0066]
步骤s4:对数据对应的文件,进行文件合并、指向修正、数组时间对齐,得到预处理后的数据。
[0067]
数据预处理流程复杂,每个步骤需要逐步进行,观察程序结构,各步骤之间相互关联,某一步骤的输入是其他步骤的输入,故对程序进行改写提取通用性参数,自动获取数据所关联的参数信息,实现“一键式”完成数据预处理。
[0068]
比较优化前与优化后的数据预处理方法的结果如表2所示:优化前数据预处理中的数据质量检测步骤耗时610s,优化后该步骤耗时缩短为27s,加速比为22.59倍;优化前数
据预处理中的频率切除、偏振合并耗时2451s,优化后该步骤缩短为111s,加速比为22.08倍;优化前整个数据预处理流程耗时3061s,优化后缩短为111s,比原始版本快了22倍左右,极大提高了脉冲星搜索的进度。
[0069]
表2数据预处理方法热点步骤优化前后耗时记录表
[0070]
程序优化前优化后加速比数据质量检测610s27s22.59x频率切除、偏振合并2451s111s22.08x热点总耗时3061s138s22.18x
[0071]
数据预处理方法优化前后对比如图2所示,可以看到数据质量检测和频率切除、偏振合并耗时占数据预处理总耗时98%以上,故对这两个步骤进行优化,使总耗时直接由3103s减少到180s,取得极大的成效。
[0072]
实施例二
[0073]
本实施例公开了基于fast的脉冲星搜索数据预处理优化系统;
[0074]
如图3所示,基于fast的脉冲星搜索数据预处理优化系统,包括数据划分模块、质量检测模块、频率切除模块和合并修正模块:
[0075]
数据划分模块,被配置为:将动态获取的fast巡天数据划分为多组数据;
[0076]
质量检测模块,被配置为:通过多线程处理的方式,对多组数据进行并行质量检测,去除坏数据,构建局部连续的数据表;
[0077]
频率切除模块,被配置为:自动获取频率切除参数,对数据表进行多线程多任务的频率切除,将得到的多路偏振进行偏振合并;
[0078]
合并修正模块,被配置为:对数据对应的文件,进行文件合并、指向修正、数组时间对齐,得到预处理后的数据。
[0079]
实施例三
[0080]
本实施例的目的是提供计算机可读存储介质。
[0081]
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例1所述的基于fast的脉冲星搜索数据预处理优化方法中的步骤。
[0082]
实施例四
[0083]
本实施例的目的是提供电子设备。
[0084]
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于fast的脉冲星搜索数据预处理优化方法中的步骤。
[0085]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献