一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文章原创度评价系统、方法、设备及介质与流程

2021-12-15 00:15:00 来源:中国专利 TAG:


1.本公开涉及数据处理技术领域,更为具体来说,本公开涉及一种文章原创度评价系统、方法、设备及介质。


背景技术:

2.人类所掌握数据规模的急剧扩大,伴随着大量相似数据的存在。在一些场景下,我们需要度量一篇文档的原创度,来决定对该文档的处理方式。比如说,学术期刊在经过“查重”初步确确认一篇来稿的原创性后,才会考虑是否接受投稿;在互联网中存在大量抄袭、转载等现象,需要基于原创度计算工具才能高效地发现。
3.目前的原创度计算工具,主要基于字符串匹配的方式来度量两篇文档之间的相似程度,对“洗稿”的处理能力较低。


技术实现要素:

4.为解决现有技术的文章原创度评价方法无法满足用户需求的技术问题。
5.为实现上述技术目的,本公开提供了一种文章原创度评价方法,其特征在于,包括:
6.对待入库文档进行预处理并入库存储;
7.对新入库的文档进行字义相似文档候选处理、字义相似文档候选处理和/或特征提取并存储;
8.召回所述文档库中的库存文档和待评估文档可能存在相似的文档;
9.基于待评估文档与库存文档的相似程度,计算待评估文档的原创度,其中,所述库存文档为内容为业务场景中具有较高原创度的,被认定需要进行知识产权保护的文档,所述库存文档存储于文档库中。
10.进一步,其特征在于,所述对待入库文档进行预处理具体包括:
11.对文档进行文档清洗以及特征提取;
12.计算得到待评估文档的词语特征和分布式表示,即待评估文档被切分为n个段落,得到的段落集合paras,
13.paras=(p1,p2,...,p
n
,...,p
n
),其中,p
n
,n=1,2
……
n表示切分后的文档段落,n为大于等于2的整数。
14.进一步,其特征在于,所述召回所述文档库中的库存文档和待评估文档可能存在相似的文档具体包括:
15.标记检索得到的段落pn的字义候选相似段落集合为cand_list
wordbag
=(c1,c2,...c
i
,...c
i
);其中,c
i
表示段落p
n
检索得到的字义相似段落,i=1,2,
……
i,i为大于等于2的整数;
16.标记检索得到的段落p
n
的语义候选相似段落集合为cand_list
distvec
=(d1,d2,...d
j
,...d
j
);其中,d
j
表示段落p
n
检索得到的语义相似段落,j=1,2,
……
j,j为大于等于2
的整数;
17.利用一个阈值,来决定字义候选相似段落集合cand_list
wordbag
和语义候选相似段落集合cand_list
distvec
是否召回,记召回的所有候选相似段落集合:
18.cand
list
=cand_list
wordbag
∪cand_list
distvec
=(s1,s2,...,s
k
,...,s
k
);
19.其中,k=1,2,
……
,k,k表示大于等于2的整数。
20.进一步,所述计算待评估文档的原创度具体包括:
21.利用如下公式计算文章原创度;
22.文章原创度式中score
n
为待评估文档的第n段文本的原创度;
23.其中,
24.score
n
=min(score_wordbagn,score_distvec
n
),
25.其中,score_wordbag
n
是第n段文章段落在词袋模型下的原创度得分,score_distvec
n
是第n段文章段落在分布式表示下的原创度得分。
26.进一步,所述词袋模型下的原创度得分具体通过下式计算得到:
[0027][0028]
其中,
[0029][0030]
式中,是段落pn内词语的集合,是段落pn内词语的集合,表示段落p
n
和s
k
包含的相同词语的个数;分母中表示两个段落长度的差距绝对值;系数β表示在计算文本相似度时,文档长度差异因素的权重,默认为0.5。
[0031]
进一步,所述分布式表示下的原创度得分具体通过下式计算得到:
[0032][0033]
其中,
[0034]
余弦距离式中为第n段文本的分布式表示。
[0035]
为实现上述技术目的,本公开还能够提供一种文章原创度评价方法,包括:
[0036]
利用所述文本数据预处理模块对待评估文档进行文档清洗以及特征提取,并计算得到待评估文档的词语特征和分布式表示;
[0037]
利用所述候选相似文档检索模块召回所述文档库中的库存文档和待评估文档可能存在相似的文档;
[0038]
利用所述原创度计算模块基于待评估文档与所述文档库中库存文档的相似程度,
计算待评估文档的原创度。
[0039]
进一步,还包括:
[0040]
利用所述文本数据预处理模块对待入库文档进行文档清洗以及特征提取;
[0041]
利用所述文档入库模块将预处理后的待入库文档数据分别存储进对应的数据库:字义相似文档候选子模块es、语义相似文档候选子模块milvus以及特征存储子模块mongo中。
[0042]
为实现上述技术目的,本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的文章原创度评价方法的步骤。
[0043]
为实现上述技术目的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的文章原创度评价方法的步骤。
[0044]
本公开的有益效果为:
[0045]
本公开的文章原创度评价系统主要的计算均为离线完成,推理速度很快,同时本公开的文章原创度评价系统可以支持实时计算。
[0046]
本公开的文章原创度评价系统兼顾字面和语义两个维度,可以有效处理“洗稿”情形。
附图说明
[0047]
图1示出了本公开的实施例1的系统的结构示意图;
[0048]
图2示出了本公开的实施例1的系统的文本数据预处理模块的结构示意图;
[0049]
图3示出了本公开的实施例2的方法的流程示意图;
[0050]
图4示出了本公开的实施例4的结构示意图。
具体实施方式
[0051]
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0052]
在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
[0053]
实施例一:
[0054]
如图1所示:
[0055]
本公开提供了一种文章原创度评价系统,包括:
[0056]
文本数据预处理模块,用于对文档进行预处理;
[0057]
库存文档管理子系统,包括文档入库模块,用于维护文档库,所述文档库中存储有库存文档,其中,所述库存文档为内容为业务场景中具有较高原创度的,被认定需要进行知识产权保护的文档;
[0058]
字义相似文档候选子模块es,用于提供字面上相似的候选相似文档;
[0059]
语义相似文档候选子模块milvus,用于提供语义上相似的候选相似文档;
[0060]
特征存储子模块mongo,用于存储文档的全部特征数据;
[0061]
所述文档入库模块用于将文档数据存储入所述字义相似文档候选子模块es、所述语义相似文档候选子模块milvus以及所述特征存储子模块mongo中;
[0062]
文章原创度计算子系统,用于计算评价文章的原创度;
[0063]
其中,所述文章原创度计算子系统具体由候选相似文档检索模块以及原创度计算模块组成;
[0064]
所述候选相似文档检索模块,用于召回所述文档库中的库存文档和待评估文档可能存在相似的文档;
[0065]
所述原创度计算模块,用于基于待评估文档与所述文档库中库存文档的相似程度,计算待评估文档的原创度;
[0066]
所述文本数据预处理模块介于所述文章原创度计算子系统和所述库存文档管理子系统之间;
[0067]
所述字义相似文档候选子模块es和所述语义相似文档候选子模块milvus介于所述文章原创度计算子系统和所述库存文档管理子系统之间,分别与所述文档入库模块以及所述候选相似文档检索模块相连接;
[0068]
所述特征存储子模块mongo介于所述文章原创度计算子系统和所述库存文档管理子系统之间,分别于所述文档入库模块以及所述原创度计算模块相连接。
[0069]
如图2所示,
[0070]
进一步,所述文本数据预处理模块具体用于:
[0071]
对文档进行文档清洗以及特征提取;
[0072]
即待评估文档被切分为n个段落,得到的段落集合paras,
[0073]
paras=(p1,p2,...,p
n
,...,p
n
),其中,p
n
,n=1,2
……
n表示切分后的文档段落,n为大于等于2的整数。
[0074]
计算得到待评估文档的词语特征和分布式表示:
[0075]
对分段后的文档进行分词处理和去停用词处理得到词语特征即词袋模型;
[0076]
对分段后的文档进行句向量计算得到分布式表示。
[0077]
进一步,所述候选相似文档检索模块具体用于:
[0078]
标记从所述字义相似文档候选子模块es中检索得到的段落p
n
的字义候选相似段落集合为cand_list
wordbag
=(c1,c2,...c
i
,...c
i
);其中,c
i
表示段落p
n
检索得到的字义相似段落,i=1,2,
……
i,i为大于等于2的整数;
[0079]
标记从所述语义相似文档候选子模块milvus中检索得到的段落p
n
的语义候选相似段落集合为cand_list
distvec
=(d1,d2,...d
j
,...d
j
);其中,d
j
表示段落p
n
检索得到的语义相似段落,j=1,2,
……
j,j为大于等于2的整数;
[0080]
利用一个阈值,来决定字义候选相似段落集合cand_list
wordbag
和语义候选相似段落集合cand_list
distvec
是否召回,记召回的所有候选相似段落集合:
[0081]
cand
list
=cand_list
wordbag
∪cand_list
distvec
=(s1,s2,...,s
k
,...,s
k
);
[0082]
其中,k=1,2,
……
,k,k表示大于等于2的整数。
[0083]
进一步,所述原创度计算模块具体用于:
[0084]
利用如下公式计算文章原创度;
[0085]
文章原创度式中score
n
为待评估文档的第n段文本的原创度;
[0086]
其中,
[0087]
score
n
=min(score_wordbagn,score_distvec
n
),
[0088]
其中,score_wordbag
n
是第n段文章段落在词袋模型下的原创度得分,score_distvec
n
是第n段文章段落在分布式表示下的原创度得分。
[0089]
进一步,所述词袋模型下的原创度得分具体通过下式计算得到:
[0090][0091]
其中,
[0092][0093]
式中,是段落p
n
内词语的集合,内词语的集合,表示段落p
n
和s
k
包含的相同词语的个数;分母中表示两个段落长度的差距绝对值;系数β表示在计算文本相似度时,文档长度差异因素的权重,默认为0.5。
[0094]
进一步,所述分布式表示下的原创度得分具体通过下式计算得到:
[0095][0096]
其中,
[0097]
余弦距离式中为第n段文本的分布式表示。
[0098]
本公开的文章原创度评价系统主要的计算均为离线完成,推理速度很快,同时本公开的文章原创度评价系统可以支持实时计算。
[0099]
本公开的文章原创度评价系统兼顾字面和语义两个维度,可以有效处理“洗稿”情形。
[0100]
实施例二:
[0101]
如图3所示,
[0102]
本公开还能够提供一种文章原创度评价方法,包括:
[0103]
s201:利用所述文本数据预处理模块对待评估文档进行文档清洗以及特征提取,并计算得到待评估文档的词语特征和分布式表示;
[0104]
具体地,
[0105]
标记从所述字义相似文档候选子模块es中检索得到的段落p
n
的字义候选相似段落集合为cand_list
wordbag
=(c1,c2,...c
i
,...c
i
);其中,c
i
表示段落p
n
检索得到的字义相似
段落,i=1,2,
……
i,i为大于等于2的整数;
[0106]
标记从所述语义相似文档候选子模块milvus中检索得到的段落p
n
的语义候选相似段落集合为cand_list
distvec
=(d1,d2,...d
j
,...d
j
);其中,d
j
表示段落p
n
检索得到的语义相似段落,j=1,2,
……
j,j为大于等于2的整数;
[0107]
s202:利用所述候选相似文档检索模块召回所述文档库中的库存文档和待评估文档可能存在相似的文档;
[0108]
具体地,
[0109]
利用一个阈值,来决定字义候选相似段落集合cand_list
wordbag
和语义候选相似段落集合cand_list
distvec
是否召回,记召回的所有候选相似段落集合:
[0110]
cand
list
=cand_list
wordbag
∪cand_list
distvec
=(s1,s2,...,s
k
,...,s
k
);
[0111]
其中,k=1,2,
……
,k,k表示大于等于2的整数;
[0112]
s203:利用所述原创度计算模块基于待评估文档与所述文档库中库存文档的相似程度,计算待评估文档的原创度。
[0113]
具体地,
[0114]
利用如下公式计算文章原创度;
[0115]
文章原创度式中score
n
为待评估文档的第n段文本的原创度;
[0116]
其中,
[0117]
score
n
=min(score_wordbag
n
,score_distvec
n
),
[0118]
其中,score_wordbag
n
是第n段文章段落在词袋模型下的原创度得分,score_distvec
n
是第n段文章段落在分布式表示下的原创度得分。
[0119]
进一步,所述词袋模型下的原创度得分具体通过下式计算得到:
[0120][0121]
其中,
[0122][0123]
式中,是段落p
n
内词语的集合,内词语的集合,表示段落p
n
和s
k
包含的相同词语的个数;分母中表示两个段落长度的差距绝对值;系数β表示在计算文本相似度时,文档长度差异因素的权重,默认为0.5。
[0124]
进一步,所述分布式表示下的原创度得分具体通过下式计算得到:
[0125][0126]
其中,
[0127]
余弦距离式中为第n段文本的分布式表示。
[0128]
进一步,还包括:
[0129]
利用所述文本数据预处理模块对待入库文档进行文档清洗以及特征提取;
[0130]
利用所述文档入库模块将预处理后的待入库文档数据分别存储进对应的数据库:字义相似文档候选子模块es、语义相似文档候选子模块milvus以及特征存储子模块mongo中。
[0131]
实施例三:
[0132]
本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的文章原创度评价系统的步骤。
[0133]
本公开的计算机存储介质可以采用半导体存储器、磁芯存储器、磁鼓存储器或磁盘存储器实现。
[0134]
半导体存储器,主要用于计算机的半导体存储元件主要有mos和双极型两种。mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。nmos和cmos问世后,使mos存储器在半导体存储器中开始占主要地位。nmos速度快,如英特尔公司的1k位静态随机存储器的存取时间为45ns。而cmos耗电省,4k位的cmos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(ram),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(rom)在工作过程中可随机读出但不能写入,它用来存放已固化好的程序和数据。rom又分为不可改写的熔断丝式只读存储器
──
prom和可改写的只读存储器eprom两种。
[0135]
磁芯存储器,具有成本低,可靠性高的特点,且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上,存取时间最快为300ns。国际上典型的磁芯存储器容量为4ms~8mb,存取周期为1.0~1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后,磁芯存储器仍然可以作为大容量扩充存储器而得到应用。
[0136]
磁鼓存储器,一种磁记录的外存储器。由于其信息存取速度快,工作稳定可靠,虽然其容量较小,正逐渐被磁盘存储器所取代,但仍被用作实时过程控制计算机和中、大型计算机的外存储器。为了适应小型和微型计算机的需要,出现了超小型磁鼓,其体积小、重量轻、可靠性高、使用方便。
[0137]
磁盘存储器,一种磁记录的外存储器。它兼有磁鼓和磁带存储器的优点,即其存储容量较磁鼓容量大,而存取速度则较磁带存储器快,又可脱机贮存,因此在各种计算机系统中磁盘被广泛用作大容量的外存储器。磁盘一般分为硬磁盘和软磁盘存储器两大类。
[0138]
硬磁盘存储器的品种很多。从结构上,分可换式和固定式两种。可换式磁盘盘片可调换,固定式磁盘盘片是固定的。可换式和固定式磁盘都有多片组合和单片结构两种,又都可分为固定磁头型和活动磁头型。固定磁头型磁盘的容量较小,记录密度低存取速度高,但造价高。活动磁头型磁盘记录密度高(可达1000~6250位/英寸),因而容量大,但存取速度相对固定磁头磁盘低。磁盘产品的存储容量可达几百兆字节,位密度为每英寸6 250位,道密度为每英寸475道。其中多片可换磁盘存储器由于盘组可以更换,具有很大的脱体容量,
而且容量大,速度高,可存储大容量情报资料,在联机情报检索系统、数据库管理系统中得到广泛应用。
[0139]
实施例四:
[0140]
本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的文章原创度评价系统的步骤。
[0141]
图4为一个实施例中电子设备的内部结构示意图。如图4所示,该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中,该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种文章原创度评价系统。该电设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种文章原创度评价系统。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0142]
该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。
[0143]
所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。
[0144]
所述总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。
[0145]
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0146]
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi

fi模块等,在此不再赘述。
[0147]
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有
线接口和/或无线接口(如wi

fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
[0148]
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light

emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0149]
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0150]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0151]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0152]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0153]
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献