一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本检测方法、装置和电子设备与流程

2022-03-23 04:37:00 来源:中国专利 TAG:


1.本公开涉及数据处理技术领域,尤其涉及自然语言处理、知识图谱、深度学习等人工智能技术领域,具体涉及一种文本检测方法、装置和电子设备。


背景技术:

2.随着自然语言处理技术的发展,在较多的场景,例如医疗场景下,检测两个文本的语义关系,对于实现医疗辅助诊断是至关重要的。其中,语义关系可以为语义相同或语义不同。
3.因此,如何准确地检测两个文本的语义关系,是本领域技术人员亟待解决的问题。


技术实现要素:

4.本公开提供了一种文本检测方法、装置和电子设备,提高了语义检测结果的准确度。
5.根据本公开的第一方面,提供了一种文本检测方法,该文本检测方法可以包括:
6.根据第一文本和第二文本,获取目标文本;其中,所述目标文本中包括待预测信息。
7.确定所述待预测信息为预设信息的概率,所述预设信息用于表征所述第一文本和所述第二文本的语义是否相同。
8.根据所述待预测信息为预设信息的概率,确定所述第一文本和所述第二文本的检测结果,所述检测结果用于指示所述第一文本和所述第二文本的语义关系。
9.根据本公开的第二方面,提供了一种文本检测装置,该文本检测装置可以包括:
10.获取单元,用于根据第一文本和第二文本,获取目标文本;其中,所述目标文本中包括待预测信息。
11.处理单元,用于确定所述待预测信息为预设信息的概率,所述预设信息用于表征所述第一文本和所述第二文本的语义是否相同。
12.确定单元,用于根据所述待预测信息为预设信息的概率,确定所述第一文本和所述第二文本的检测结果,所述检测结果用于指示所述第一文本和所述第二文本的语义关系。
13.根据本公开的第三方面,提供了一种电子设备,该电子设备可以包括:
14.至少一个处理器;以及
15.与所述至少一个处理器通信连接的存储器;其中,
16.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的文本检测方法。
17.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述第一方面所述的文本检测方法。
18.根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:
计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行上述第一方面所述的文本检测方法。
19.根据本公开的技术方案,提高了语义检测结果的准确度。
20.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
21.附图用于更好地理解本方案,不构成对本公开的限定。其中:
22.图1是根据本公开第一实施例提供的文本检测方法的流程示意图;
23.图2是根据本公开第二实施例提供的获取目标文本的方法的流程示意图;
24.图3是根据本公开第三实施例提供的确定第一文本和第二文本的检测结果的方法的流程示意图;
25.图4是本公开实施例提供的一种对目标文本“先天性颈椎椎体畸形与先天性颈椎畸形是[mask]的病”进行预测处理的示意图;
[0026]
图5是根据本公开第四实施例提供的文本检测装置的结构示意图;
[0027]
图6是本公开实施例的一种电子设备的示意性框图。
具体实施方式
[0028]
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0029]
在本公开的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的访问关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,其中a,b可以是单数或者复数。在本公开的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。此外,在本公开实施例中,“第一”、“第二”、“第三”、“第四”、“第五”以及“第六”只是为了区分不同对象的内容而已,并无其它特殊含义。
[0030]
本公开实施例提供的技术方案可以应用于文本语义检测场景,以医疗场景为例,检测两个文本的语义是否相同,对于实现医疗辅助诊断是至关重要的。现有技术中,在检测两个文本的语义是否相同时,是先确定两个文本各自对应的向量表示,并计算两个向量表示的欧氏距离或者余弦相似度,基于计算结果检测两个文本的语义关系。其中,语义关系可以为语义相同或语义不同。
[0031]
假设两个文本分别为“高前β脂蛋白血症”和“高β脂蛋白血症伴前β脂蛋白血症”,在检测这两个文本的语义是否相同时,先分别确定“高前β脂蛋白血症”和“高β脂蛋白血症伴前β脂蛋白血症”各自对应的向量表示;再计算两个向量表示的欧氏距离或者余弦相似度,基于计算结果确定“高前β脂蛋白血症”和“高β脂蛋白血症伴前β脂蛋白血症”的语义是否相同,从而得到检测结果。
[0032]
但是,采用上述方式,会存在语义鸿沟的问题,即对于两个语义相似,但是表达方式不同的文本,是无法判断两个语义是相同的。例如,无法判断文本“优秀”和“良好”的语义相似度高于文本“优秀”和“汽车”的语义相似度,因此,采用上述方式检测两个文本的语义是否相同时,会导致语义检测结果的准确度较低。
[0033]
为了提高语义检测结果的准确度,可以考虑将需要检测的两个文本映射为一个目标文本,该目标文本中不仅包括待检测的两个文本,也包括待预测信息,这样该目标文本可以有效地兼顾两个文本的语义信息;再获取目标文本中待预测信息为用于表征第一文本和第二文本的语义是否相同的预设信息的概率,并根据概率,确定第一文本和第二文本的语义是否相同,从而提高了语义检测结果的准确度。
[0034]
基于上述技术构思,本公开实施例提供了一种文本检测方法,下面,将通过具体的实施例对本公开提供的文本检测方法进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0035]
实施例一
[0036]
图1是根据本公开第一实施例提供的文本检测方法的流程示意图,该文本检测方法可以由软件和/或硬件装置执行,例如,该硬件装置可以为终端或者服务器。示例的,请参见图1所示,该文本检测方法可以包括:
[0037]
s101、根据第一文本和第二文本,获取目标文本;其中,目标文本中包括待预测信息。
[0038]
示例的,待预测信息可以用[mask]表示,若待预测信息最终的预测结果为相同或者不同,则该待预测信息可以用两个[mask]表示,即[mask][mask]。其中,待预测信息中包括的[mask]的数量,与待预测信息最终的预测结果中包括的字符数量相等。
[0039]
以医疗场景为例,假设第一文本和第二文本均为疾病类型的文本,则根据第一文本和第二文本,确定的目标文本可以为:
[0040]
p
疾病
(text1,text2)=text1与text2是[mask]的病
[0041]
其中,p
疾病
(text1,text2)表示text1和text2为疾病类型的文本,text1表示第一文本,text2表示第二文本,text1与text2是[mask]的病表示目标文本,[mask]表示表示目标文本中的待预测部分,即待预测信息,示例的,待预测信息的预测内容可以为“相同”或者“不同”;也可以为“同一”或者“不同”,具体可以根据实际需要进行设置,只要可以表示不同的语义检测结果即可。
[0042]
假设第一文本为“先天性颈椎椎体畸形”,第二文本为“先天性颈椎畸形”,则根据该第一文本和第二文本确定的目标文本为:先天性颈椎椎体畸形与先天性颈椎畸形是[mask]的病。其中,[mask]为表示目标文本中的待预测信息,待预测信息的预测内容可以为“相同”或者“不同”。其中,预测内容为“相同”,表示“先天性颈椎椎体畸形”和“先天性颈椎畸形”两个的语义相同;预测内容为“不同”,表示“先天性颈椎椎体畸形”和“先天性颈椎畸形”两个的语义不同。
[0043]
在根据第一文本和第二文本,确定包括待预测信息的目标文本后,鉴于该待预测信息对于检测第一文本和第二文本的语义是否相同,起着关键性的作用,因此,需要确定该预测信息为预设信息的概率,即执行下述s102。可以理解的是,预设信息可以为上述提到的预测内容。
[0044]
s102、确定待预测信息为预设信息的概率,预设信息用于表征第一文本和第二文本的语义是否相同。
[0045]
示例的,预设信息“相同”或者“不同”;也可以为“同一”或者“不同”,具体可以根据实际需要进行设置,只要可以表示不同的语义检测结果即可。
[0046]
通过确定待预测信息为预设信息的概率,就可以根据待预测信息为预设信息的概率,确定第一文本和第二文本的语义是否相同,即执行下述s103,实现了对第一文本和第二文本的语义检测。
[0047]
s103、根据待预测信息为预设信息的概率,确定第一文本和第二文本的检测结果。
[0048]
其中,检测结果用于指示第一文本和第二文本的语义关系,语义关系可以为语义相同或语义不同。
[0049]
假设第一文本为“先天性颈椎椎体畸形”,第二文本为“先天性颈椎畸形”,则可以确定“先天性颈椎椎体畸形”和“先天性颈椎畸形”检测结果为:语义相同。
[0050]
可以看出,本公开实施例中,在检测两个文本的语义是否相同时,可以先根据需要检测的第一文本和第二文本确定包括待预测信息的目标文本,使得目标文本可以有效地兼顾两个文本的语义信息;再获取目标文本中待预测信息为用于表征第一文本和第二文本的语义是否相同的预设信息的概率,并根据概率确定第一文本和第二文本的语义关系,从而提高了语义检测结果的准确度。
[0051]
基于上述图1所示的实施例,在采用本公开实施例提供的文本检测方法,检测第一文本和第二文本的语义是否相同时,考虑到若第一文本的文本类型和第二文本的文本类型不同,则第一文本和第二文本的语义必然不同,例如,第一文本的类型为医疗领域内的文本,第二文本的类型为通信领域内的文本,则第一文本和第二文本的语义必然不同,在该种情况下,采用本公开实施例提供的文本检测方法进行语义检测的意义不大,只有在第一文本的文本类型和第二文本的文本类型相同的情况下,采用本公开实施例提供的文本检测方法进行语义检测,才能更好地利用语义检测资源,节省了因无效语义检测浪费的语义检测资源,从而提高了语义检测资源的利用率。
[0052]
可以理解的是,若不考虑降低文本检测量,在第一文本的文本类型和第二文本的文本类型不同时,也可以采用本公开实施例提供的文本检测方法进行语义检测,在本公开实施例中,只是以在第一文本的文本类型和第二文本的文本类型相同的情况下,采用本公开实施例提供的文本检测方法进行语义检测为例进行说明,但并不代表本公开实施例仅局限于此。
[0053]
基于上述图1所示的实施例,为了便于理解在上述s101中,如何根据第一文本和第二文本,获取目标文本,下面,将通过下述图2所示的实施例进行详细描述。
[0054]
实施例二
[0055]
图2是根据本公开第二实施例提供的获取目标文本的方法的流程示意图,该获取目标文本的方法同样可以由软件和/或硬件装置执行,例如,该硬件装置可以为终端或者服务器。示例的,请参见图2所示,该获取目标文本的方法可以包括:
[0056]
s201、基于第一文本和第二文本的文本类型,获取预设模板。
[0057]
示例的,预设模板可以为基于prompt tuning技术得到的一种模板,prompt tuning技术采用了基于字符上下文的分布式表示方法,该方法不仅可以有效编码第一文本
和第二文本中的语义信息,而且可以处理一词多义的现象,有效地解决了语义鸿沟的问题。
[0058]
以预设模板为基于prompt tuning技术得到的模板为例,预设模板可以记为prompt。假设第一文本和第二文本的文本类型均为医疗领域中的疾病类型,则第一文本和第二文本对应的预设模板为一个与疾病类型术语相关的模板,该预设模板可以为:
[0059]
p
疾病
(text1,text2)=text1与text2是[mask]的病
[0060]
其中,text1表示第一文本,text2表示第二文本,text1与text2是[mask]的病表示目标文本,[mask]表示表示待预测信息,示例的,[mask]∈{相同,不同}。
[0061]
假设第一文本和第二文本的文本类型均为医疗领域中的症状类型,则第一文本和第二文本对应的预设模板为一个与症状类型术语相关的模板,该预设模板可以为:
[0062]
p
症状
(text1,text2)=text1与text2是[mask]种症状
[0063]
其中,text1表示第一文本,text2表示第二文本,text1与text2是[mask]种症状表示目标文本,[mask]表示表示待预测信息,示例的,[mask]∈{同一,不同}。
[0064]
假设第一文本和第二文本的文本类型均为医疗领域中的手术类型,则第一文本和第二文本对应的预设模板为一个与手术类型术语相关的模板,该预设模板可以为:
[0065]
p
手术
(text1,text2)=text1与text2是[mask]种手术
[0066]
其中,text1表示第一文本,text2表示第二文本,text1与text2是[mask]种手术表示目标文本,[mask]表示表示待预测信息,示例的,[mask]∈{同一,不同}。
[0067]
可以理解的是,上述在描述预设模板时,只是以第一文本和第二文本的文本类型均为医疗领域中的相关类型为例进行说明,具体可以根据实际需要进行设置。
[0068]
在基于第一文本和第二文本的文本类型,获取预设模板后,就可以将第一文本和第二文本映射到预设模板中,得到目标文本,即执行下述s202:
[0069]
s202、将第一文本和第二文本映射到预设模板中,得到目标文本。
[0070]
假设第一文本为“先天性颈椎椎体畸形”,第二文本为“先天性颈椎畸形”,则根据该第一文本和第二文本的文本类型,可以确定预设模板为:
[0071]
p
疾病
(text1,text2)=text1与text2是[mask]的病
[0072]
将“先天性颈椎椎体畸形”和“先天性颈椎畸形”映射到预设模板中,得到的目标文本为:“先天性颈椎椎体畸形与先天性颈椎畸形是[mask]的病”从而得到目标文本。
[0073]
可以看出,本公开实施例中,在获取目标文本时,可以先基于第一文本和第二文本的文本类型,获取预设模板;并将第一文本和第二文本映射到预设模板中,这样确定出的包括第一文本和第二文本的目标文本,可以有效地兼顾两个文本的语义信息,更有助于后续的语义检测操作,为提高语义检测结果的准确度提供了一定依据。
[0074]
基于上述任一实施例,在获取到包括待预测信息的目标文本后,就可以确定待预测信息为预设信息的概率,并根据该概率确定第一文本和第二文本的检测结果。下面,将通过下述图3所示的实施例三,详细描述如何确定待预测信息为预设信息的概率,并根据该概率确定第一文本和第二文本的检测结果。
[0075]
实施例三
[0076]
图3是根据本公开第三实施例提供的确定第一文本和第二文本的检测结果的方法的流程示意图,该方法同样可以由软件和/或硬件装置执行,例如,该硬件装置可以为终端或者服务器。示例的,请参见图3所示,该确定第一文本和第二文本的检测结果的方法可以
包括:
[0077]
s301、将目标文本输入预训练语言模型中,得到待预测信息为预设信息包括的字符的概率。
[0078]
示例的,预训练语言模型可以为自编码语言模型,例如基于变换器的双向编码器表示技术(bidirectional encoder representations from transformers,bert)语言模型、知识增强的语义表示(enhanced representation through knowledge integration,ernie)模型等;此外,在训练预训练语言模型时,可以采用掩码语言模型(masked language model,mlm)的方式进行训练。
[0079]
需要说明的是,在本公开实施例中,之所以采用预训练语言模型,且采用mlm的方式进行训练,原因在于:预训练语言模型的选择与训练方法与prompt tuning技术紧密相关,基于prompt tuning技术可以更高效地利用大规模语料上的信息,将语义判定问题转换为一个类似于mlm的问题,这样可以将prompt tuning技术与预训练语言模型结合起来,使得预训练语言模型可以更好地对基于prompt tuning技术得到的目标文本进行处理,从而提高了处理结果的准确度。
[0080]
示例的,假设第一文本和第二文本均为医疗领域内的相关类型文本,预训练语言模型可以为基于医疗领域的无监督语料,例如医疗书籍、电子病历、医学网站等,训练得到的一个面向医疗领域的预训练语言模型,该种方式无需依赖任何的标注样本,而是单纯借助于预训练语言模型中存在的隐式知识进行等价性判定,可以用于系统的冷启动阶段,以在缺乏标注样本的条件下,达到一个相对较好的基线效果。
[0081]
为了进一步提高预训练语言模型的准确度,还可以标注少量的样本数据,并将该少量的样本数据以上述基于prompt tuning技术得到的目标文本的方式作为输入,对上述基于医疗领域的无监督语料训练得到的预训练语言模型的模型参数进行微调,从而得到的一个面向医疗领域的预训练语言模型,这样可以进一步提高训练得到的预训练语言模型的准确度。
[0082]
在将目标文本输入预训练语言模型中,通过预训练语言模型可以获取到目标文本中每一个字符对应的向量表示;并将待预测信息[mask]对应的向量表示输入至预训练语言模型中的前馈神经网络中,得到待预测信息[mask]为前馈神经网络中的预设词表中每个词的预测概率。需要注意,这里得到的是[mask]为前馈神经网络中的预设词表中每个词的预测概率,但是,本任务仅考虑待预测信息[mask]为预设信息中包括的字符的概率。
[0083]
结合前面的描述,继续以第一文本为“先天性颈椎椎体畸形”,第二文本为“先天性颈椎畸形”为例,对应的目标文本为“先天性颈椎椎体畸形与先天性颈椎畸形是[mask]的病”,可以先将目标文本“先天性颈椎椎体畸形与先天性颈椎畸形是[mask]的病”输入至预训练语言模型中,示例的,可参见图4所示,图4是本公开实施例提供的一种对目标文本“先天性颈椎椎体畸形与先天性颈椎畸形是[mask]的病”进行预测处理的示意图,可以得到目标文本中每一个字符对应的向量表示,例如字符“先”对应的向量表示为e1,字符“天”对应的向量表示为e2,字符“性”对应的向量表示为e3,......,字符“是”对应的向量表示为e18,字符“[mask]”对应的向量表示为e19,字符“[mask]”对应的向量表示为e20,字符“的”对应的向量表示为e21,字符“病”对应的向量表示为e22,考虑到需要通过两个“[mask]”字符为预设信息中包括的字符的概率,判断第一文本和第二文本的语义是否相同,因此,会将两个“[mask]”字符对应的向量表示输入至预训练语言模型中的前馈神经网络中,得到两个“[mask]”字符为前馈神经网络中的预设词表中每个词的预测概率,但是,本任务仅考虑两个“[mask]”字符为预设信息中包括的字符的概率,假设预设信息为“相同”或者“不同”,则需要确定第一个“[mask]”字符分别为“相”的概率,以及“不”的概率;第二个“[mask]”字符为“同”的概率。
[0084]
在获取到待预测信息为预设信息包括的字符的概率后,就可以根据待预测信息为预设信息包括的字符的概率,确定待预测信息为预设信息的概率,即执行下述s302:
[0085]
s302、根据待预测信息为预设信息包括的字符的概率,确定待预测信息为预设信息的概率。
[0086]
示例的,根据待预测信息为预设信息包括的字符的概率,确定待预测信息为预设信息的概率时,预设信息包括至少两个字符,则根据待预测信息为至少两个字符中各字符的概率,确定概率平均值;可以直接将概率平均值确定为待预测信息为预设信息的概率;也可以对概率平均值做一定的处理,例如四舍五入处理或者取整处理等,并将处理结果作为确定为待预测信息为预设信息的概率,具体可以根据实际需要进行设置,在此,本公开实施例只是以将概率平均值确定为待预测信息为预设信息的概率为例进行说明,但并不代表本公开实施例仅局限于此。
[0087]
结合上述s302中的描述,假设第一个“[mask]”字符为“相”的概率为a,为“不”的概率为b;第二个“[mask]”字符为“同”的概率为c,则可以确定出两个“[mask]”字符为预设信息“相同”的概率为(a c)/2,两个“[mask]”字符为预设信息“不同”的概率为(b c)/2,从而确定出待预测信息为预设信息的概率。
[0088]
s303、根据待预测信息为预设信息的概率,确定第一文本和第二文本的检测结果。
[0089]
其中,检测结果用于指示第一文本和第二文本的语义关系,语义关系可以为语义相同或语义不同。
[0090]
示例的,通常情况下,预设信息包括指示两种不同检测结果的第一信息和第二信息,其中,第一信息用于表征第一文本和第二文本的语义相同,第二信息用于表征第一文本和第二文本的语义不同。示例的,第一信息可以为“相同”,也可以为“同一”等,第二信息可以为“不同”等。
[0091]
示例的,根据待预测信息为预设信息的概率,确定第一文本和第二文本的检测结果时,若待预测信息为第一信息的概率,大于或等于待预测信息为第二信息的概率,则确定第一文本和第二文本的语义相同;若待预测信息为第一信息的概率,小于待预测信息为第二信息的概率,则确定第一文本和第二文本的语义不同,从而实现对第一文本和第二文本的语义检测。
[0092]
结合上述s302中的描述,经过比较得到:两个“[mask]”字符为第一信息“相同”的概率为(a c)/2,大于“[mask]”字符为第二信息“不同”的概率为(b c)/2,因此,可以确定第一文本“先天性颈椎椎体畸形”和第二文本“先天性颈椎畸形”的语义相同,从而实现对第一文本“先天性颈椎椎体畸形”和第二文本“先天性颈椎畸形”的语义检测。
[0093]
可以看出,本公开实施例中,在检测两个文本的语义是否相同时,可以将第一文本和第二文本对应的目标文本输入至预训练语言模型中,得到待预测信息为预设信息包括的字符的概率;并根据待预测信息为预设信息包括的字符的概率,确定待预测信息为预设信
息的概率;再根据概率确定第一文本和第二文本的语义关系。鉴于获取目标文本时采用的预设模板的获取方法与预训练语言模型的训练过程类似,这样可以更好地利用预训练语言模型训练时所采用的语料信息,使得在检测两个文本的语义是否相同时,可以有效地提高语义检测结果的准确度。
[0094]
可以理解的是,本公开实施例提供的文本检测方法并不局限于医疗领域,也可以应用于其他领域,只要获取其他领域内的预训练语言模型,且采用其他领域内的预设模板即可,其检测两个文本的语义是否相同的实现方法与上述医疗领域内,两个文本的语义是否相同的实现方法类似,在此,本公开实施例不再进行赘述。
[0095]
实施例四
[0096]
图5是根据本公开第四实施例提供的文本检测装置50的结构示意图,示例的,请参见图5所示,该文本检测装置50可以包括:
[0097]
获取单元501,用于根据第一文本和第二文本,获取目标文本;其中,目标文本中包括待预测信息。
[0098]
处理单元502,用于确定待预测信息为预设信息的概率,预设信息用于表征第一文本和第二文本的语义是否相同。
[0099]
确定单元503,用于根据待预测信息为预设信息的概率,确定第一文本和第二文本的检测结果,检测结果用于指示第一文本和第二文本的语义关系。
[0100]
可选的,处理单元502包括第一处理模块和第二处理模块。
[0101]
第一处理模块,用于将目标文本输入预训练语言模型中,得到待预测信息为预设信息包括的字符的概率。
[0102]
第二处理模块,用于根据待预测信息为预设信息包括的字符的概率,确定待预测信息为预设信息的概率。
[0103]
可选的,预设信息包括至少两个字符,第二处理模块包括第一处理子模块和第二处理子模块。
[0104]
第一处理子模块,用于根据待预测信息为至少两个字符中各字符的概率,确定概率平均值。
[0105]
第二处理子模块,用于将概率平均值确定为待预测信息为预设信息的概率。
[0106]
可选的,预设信息包括第一信息和第二信息,第一信息用于表征第一文本和第二文本的语义相同,第二信息用于表征第一文本和第二文本的语义不同;确定单元503包括第一确定模块和第二确定模块。
[0107]
第一确定模块,用于若待预测信息为第一信息的概率,大于或等于待预测信息为第二信息的概率,则确定第一文本和第二文本的语义相同。
[0108]
第二确定模块,用于若待预测信息为第一信息的概率,小于待预测信息为第二信息的概率,则确定第一文本和第二文本的语义不同。
[0109]
可选的,获取单元501包括第一获取模块和第二获取模块。
[0110]
第一获取模块,用于基于第一文本和第二文本的文本类型,获取预设模板。
[0111]
第二获取模块,用于将第一文本和第二文本映射到预设模板中,得到目标文本。
[0112]
可选的,第一文本的文本类型和第二文本的文本类型相同。
[0113]
本公开实施例提供的文本检测装置50,可以执行上述任一实施例所示的文本检测
方法的技术方案,其实现原理以及有益效果与文本检测方法的实现原理及有益效果类似,可参见文本检测方法的实现原理及有益效果,此处不再进行赘述。
[0114]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0115]
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
[0116]
图6是本公开实施例的一种电子设备60的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0117]
如图6所示,设备60包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram 603中,还可存储设备60操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0118]
设备60中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备60通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0119]
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文本检测方法。例如,在一些实施例中,文本检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备60上。当计算机程序加载到ram 603并由计算单元601执行时,可以执行上文描述的文本检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本检测方法。
[0120]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出
装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0121]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0122]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0123]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0124]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0125]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(

virtual private server

,或简称

vps

)中,保留的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0126]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0127]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开
的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献