一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种自媒体信息源并行追踪方法与流程

2022-06-05 20:07:52 来源:中国专利 TAG:


1.本发明涉及自媒体信息领域,尤其是指一种自媒体信息源并行追踪方法。


背景技术:

2.近年来,随着自媒体和移动互联网在世界范围内的迅速普及和蓬勃发展,实时的互联网络在人们的日常生活中越来越普遍。在这种实时快速更新的宏大自媒体信息流中,很多信息具有虚假性和盲目性,如何从大量的信息中找出信息的源头是很值得研究的。
3.目前,现有技术一般都是针对某个平台内的信息追踪,例如,一种在中国专利文献上公开的“微博信息追踪方法和微博信息追踪装置”,其公告号cn103984729a,其中微博信息追踪方法包括预设训练集合,其中,训练集合包括至少一个话题、前景语料和背景语料,前景语料为在话题发生的时间戳之后发布的信息,背景语料为在话题发生的时间戳之前发布的微博信息;获取话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于训练集合的特征集合;根据特征集合训练生成话题追踪模型;使用话题追踪模型对需进行追踪的微博信息进行追踪。该发明虽然能够从海量的实时微博信息流中过滤出与话题相关的微博信息,提高话题追踪的准确率。但仅限于微博平台内,且该发明只是过滤出相关的微博信息,并不能实现最终信息源的追踪。


技术实现要素:

4.本发明是为了克服现有技术的仅限于某个平台内的信息源追踪且只是过滤出相关的事件信息无法实现最终信息源追踪的问题,提供一种自媒体信息源并行追踪方法。
5.为了实现上述目的,本发明采用以下技术方案:一种自媒体信息源并行追踪方法,包括以下步骤:s1:获取要追踪的自媒体发布的信息;s2:提取关键信息,并合成信息集;s3:对自媒体发布的信息进行逐级追踪,并根据信息集确定若干信息源;s4:对若干信息源进行判定,得到最终唯一的信息源。本发明方法提取要追踪的事件信息的关键信息,并合成信息集,进行逐级跨平台追踪,锁定若干信息源,最终确定出唯一信息源,克服了现有技术的仅限于某个平台内的信息源追踪的问题。
6.作为本发明的优选方案,所述s1具体为:获取要追踪的自媒体发布的信息n条,其中n为正整数,将这获取的n条信息定义为本级信息,并获取每条本级信息的发布平台和发布账号。本发明对同一事件信息的多条发布信息进行并行追踪,由于每条发布信息其传播路径都不仅相同,在对每条发布信息进行反追踪时的途径也不尽相同,会出现多条发布信息追踪的结果都指向同一个信息源,虽然最终结果都是指向同一个信息源,但针对不同的传播路径,反追踪时所用的时间会有所不同,在对每条发布信息进行反追踪时就可以用最短的时间快速的确定指向的同一个信息源,缩短追踪时间,大大提高效率。
7.作为本发明的优选方案,所述n条信息为记载同一事件信息的不同表现形式,所述表现形式包括文字信息、图片信息、视频信息、文字图片混合信息、文字视频混合信息、图片视频混合信息和文字图片视频混合信息。人的思维是发散的,在对事件信息进行发布或转
载时,都会根据个人意向对发布信息进行修饰或整改,本发明针对时间信息的表现形式包括文字、图片、视频与其各种混合形式,选取的要追踪的自媒体发布的n条信息形式丰富多样,可以很大程度上保证信息源追踪的可靠性。
8.作为本发明的优选方案,所述s2具体为:提取n条本级信息的关键信息,根据关键信息合成信息集,所述关键信息包括:该本级信息的发布时间、关键字、视频时长和图片信息,所述图片信息可用图片信息提取器获取。因n条信息为记载同一事件信息的不同表现形式,有的可能是发布的视频信息,有的可能是发布的文字信息,有的可能是发布的图片信息,亦或者是混合信息,针对每条信息单独设置追踪所需的信息集显然不合适,因为在自媒体如此普及的时代,n条本级信息的量往往是很庞大的,因此将这n条本级信息的关键信息统一合成一个信息集,根据该信息集确定信息源,方便且效率更高。
9.作为本发明的优选方案,所述s3具体为:获取访问权限,查询每条本级信息的上一级发布源,并将本级信息的上一级发布源信息定义为上级信息,根据本级信息的信息集对上级信息进行相似判定,若判定结果为该本级信息与对应的上级信息为同一事件信息,则将本级信息重新定义为下级信息,将上级信息重新定义为本级信息,获取该本级信息的发布平台和发布账,号返回继续执行s3;若判定结果为该本级信息与对应的上级信息不是同一事件信息,则判定该本级信息为信息源之一,获取该本级信息的发布时间戳,完成全部本级信息的追踪和判定,共得到n条信息源,其中n≤n。本发明获取访问权限,指的是发布本级信息和上级信息的平台的访问权限,只有获得平台的访问权限,才能实现对自媒体发布的信息进行逐级追踪,得到若干信息源,由于会出现多条发布信息追踪的结果都指向同一个信息源,因此最终得到的n条信息源会是小于或等于最初要追踪的自媒体发布的信息的条数,在得到n条信息源后,根据这n条信息源的发布时间戳确定最终的惟一的信息源。
10.作为本发明的优选方案,所述s4具体为:根据n条信息源的发布时间戳,选择发布时间最早的信息源,该信息源即最终的信息源。信息源的源头一定是发布时间最早的,因此根据时间信息的发布时间来确定最终的信息源很合理。
11.因此,本发明具有以下有益效果:本发明方法提取要追踪的事件信息的关键信息,并合成信息集,进行逐级跨平台追踪,锁定若干信息源,最终确定出唯一信息源,克服了现有技术的仅限于某个平台内的信息源追踪的问题;本发明对同一事件信息的多条发布信息进行并行追踪,在对每条发布信息进行反追踪时就可以用最短的时间快速的确定指向的同一个信息源,缩短追踪时间,大大提高效率。
附图说明
12.图1是本发明的方法流程图;图2是本发明的s3的步骤流程图。
具体实施方式
13.下面结合附图与具体实施方式对本发明做进一步的描述。
14.如图1所示的一种自媒体信息源并行追踪方法,包括:s1:针对某一事件获取自媒体平台上发布的事件信息,可以是在同一平台上获取,也可以是在不同平台上获取,将这些信息定义为本级信息,获取这些本级信息所发布的平台名称和发布账号的信息。例如,针对“某奔驰车主醉酒驾驶拖行交警行驶500米致交警死亡”这一事件,从微博、今日头条、微信、抖音等多个平台上获取50条此事件相关的发布信息,并获取发布此事件相关信息的个人账户的公开信息,包括账号名称等,将这50条此事件相关的发布信息设定为本级信息。
15.s2:对本级信息进行关键信息提取,关键信息包括关键字、图片特征、发布时间、视频时长等,将这些关键信息合并成信息集。例如,对上面获取的50条本级信息的关键信息,关键字包括“奔驰车主、醉驾、酒驾、拖行交警、500米、致死”等,本级信息附有图片的,对图片实用图片信息提取器获取相关信息,本级信息附有视频的,记录视频的时长,如有多个时长不一的视频,则取时间最长和时间最短的作为时间区域范围,如15秒~90秒,记录发布时间,发布时间则是这50条本级信息在各个平台上各自的发布时间,取发布时间最近(最晚)的时间为准,将上述关键信息合并为信息集。
16.如图2所示,为s3的步骤流程图,首先,在不触犯中国任何法律法规的情况下获取本级信息各个平台的访问权限,查询每条本级信息的上一级来源,将上一级来源的信息定义为上级信息,对本级信息和上级信息进行相似程度或相似性判定,如果判定结果为该本级信息和上级信息不属于同一事件信息,那么将该本级信息直接判定为信息源之一,获取该信息源的发布时间戳;如果判定结果为该本级信息和上级信息属于同一事件信息,则将上级信息重新定义为本级信息,将原来的本级信息息重新定义为下级信息,获取新的本级信息所发布的平台和个人账户的公开信息,针对新的本级信息返回继续执行上述s3的步骤,直到判定结果为该本级信息和上级信息不属于同一事件信息,那么将该本级信息直接判定为信息源之一,获取该信息源的发布时间戳。例如,获取上面提到的50条本级信息的发布平台,微博、今日头条、微信、抖音等的访问权限,查询每条本级信息的上一级发布源,也就是这条本级信息是哪里来的,如果是该用户从别的平台转发,如张三从快手平台转发分享了李四所发布的信息到了微信平台,张三在微信平台所发布的消息就是50个本级信息之一,李四在快手平台所发布的消息就是上级信息,并且经过相似判定后确定该本级信息和上级信息为同一事件信息,那么原张三在微信平台所发布的本级信息转为下级信息,原李四在快手平台所发布的上级信息转为本级信息,将该本级信息重新执行s3继续进行逐级追踪;如果通过所在平台无法直接确定原张三在微信平台所发布的本级信息的来源,那么就通过微信的后台向张三发送一条询问信息,询问张三在微信平台上所发布的本级信息的来源,如果情况紧急,在法律润许的情况下也可以从微信平台官方获取张三的联系方式,直接打电话询问;经过相似判定后确定该本级信息和上级信息不是同一时间信息,那么说明该“上级信息”根本就不是真正的上级信息,逐级追踪就此中断,那么张三在微信平台所发布的事件信息就定位该本级信息为信息源之一,对所有50条本级信息同时并行处理进行逐级追踪,左后确定出n条信息源,由于可能存在着多条本级信息的上级信息相同,都是从益处上级信息所转发或获取的,因此n≤n=50。
17.本发明根据本级信息的信息集对上级信息进行相似判定的具体方式为:依照信息集的内容,对上级信息进行关键信息的提取,将提取的关键信息合并为对照信息集,将对照信息集与本级信息的信息集进行对比,得出对比相似度,若对比相似度大于a%,则判定结果为该本级信息与对应的上级信息为同一事件信息;若对比相似度小于等于a%,则判定结果为该本级信息与对应的上级信息不是同一事件信息。其中数据a根据本级信息的发布时间、关键字、视频时长和图片信息的合并体量,具体问题具体分析确定。如本级信息为文字视频
混合信息,信息集的关键字包括“奔驰车主、醉驾、酒驾、拖行交警、500米、致死”,视频时长60秒~90秒,对比信息集的关键字包括“奔驰车、驾驶、南京路、500米、致死”,视频时长75秒,由于信息集的关键信息较少,则另a=95,则相似度可计算为关键词相似度与视频相似度的均值,本例中关键词相似度为(6/18 1)/2=66%,其中6为对比信息集与信息集的关键词相似数,18为信息集的关键词总字数,1为视频时长符合度,除以2去均值,得到相似度为66%,小于95%,判定结果为该本级信息与对应的上级信息不是同一事件信息。
18.s4:根据逐级追踪的结果,获取了n条信息源,获取这n条信息源的发布时间,所有的发布时间进行对比,找出发布时间最远(最早)的那个信息源,该信息源作为本次信息追踪的最终信息源。
19.本发明方法提取要追踪的事件信息的关键信息,并合成信息集,进行逐级跨平台追踪,锁定若干信息源,最终确定出唯一信息源,克服了现有技术的仅限于某个平台内的信息源追踪的问题。
20.本发明对同一事件信息的多条发布信息进行并行追踪,由于每条发布信息其传播路径都不仅相同,在对每条发布信息进行反追踪时的途径也不尽相同,会出现多条发布信息追踪的结果都指向同一个信息源,虽然最终结果都是指向同一个信息源,但针对不同的传播路径,反追踪时所用的时间会有所不同,在对每条发布信息进行反追踪时就可以用最短的时间快速的确定指向的同一个信息源,缩短追踪时间,大大提高效率。
21.本发明针对时间信息的表现形式包括文字、图片、视频与其各种混合形式,选取的要追踪的自媒体发布的n条信息形式丰富多样,可以很大程度上保证信息源追踪的可靠性。
22.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献