一种文本标注方法及软件产品与流程

2022-02-24 16:27:14 来源：中国专利 TAG：

1.本技术涉及数据标注领域，特别涉及一种文本标注方法及软件产品。

背景技术：

2.目前，对于使用算法模型进行文本分类的任务，一般都需要大量的训练数据进行训练，而训练数据由一段文本及其标签组成，给文本打上标签的过程称为数据标注。
3.现有技术的数据标注主要由人工完成，耗时费力，而且人工大量重复工作的情况下，标注出错的概率也比较高。
4.因此，现有技术仍有待改进。

技术实现要素：

5.鉴于上述现有技术的不足之处，本技术的目的在于提供一种文本标注方法及软件产品，旨在提高数据标注的效率。
6.为了达到上述目的，本技术采取了以下技术方案：
7.第一方面，本技术提供了一种文本标注方法，应用于终端设备，所述方法包括：
8.获取多个待标注文本，将所述多个待标注文本转换为多个第一句嵌入，得到第一句嵌入组，其中，所述第一句嵌入为所述待标注文本的k维向量，k为正整数；
9.获取多个分类标签，一一对应获取每个所述分类标签的多个中心文本，所述中心文本为所述分类标签的预设标注文本；
10.从预设句嵌入组中一一对应搜索出所述多个中心文本的多个第二句嵌入，得到多个第二句嵌入组，其中，所述多个第二句嵌入组与所述多个分类标签一一对应，所述第二句嵌入为所述中心文本的k维向量，k为正整数；
11.分别计算出每个所述第二句嵌入组中多个第二句嵌入之间的第一平均向量，得到第一平均向量组，所述第一平均向量组包括多个第一平均向量，所述多个第一平均向量与所述多个第二句嵌入组一一对应；
12.计算所述每个第一句嵌入与所述多个第一平均向量之间的向量距离，得到多个第一向量距离组，所述多个第一向量距离组与所述多个第一句嵌入一一对应，每个第一向量距离组包括对应的第一句嵌入与所述多个第一平均向量之间的多个向量距离；
13.根据所述多个第一向量距离组将所述多个待标注文本重新排列组合到第一分组；
14.将所述第一分组中的所述多个待标注文本与所述分类标签按一一对应关系进行关联
15.可以看出，本实施例中，通过将分类标签与预设标注文本进行标注，再将待标注文本和预设标注文本分别转换成句嵌入，最后通过向量比较和重新排序自动将待标注文本与分类标签进行匹配，最终完成待标注文本的自动标注，对人工需求低，提高了文本标注的效率。
16.第二方面，本技术还提供了一种计算机程序产品，包括计算机程序/指令，其特征
在于，所述计算机程序/指令被处理器执行时实现第一方面所述方法的步骤。
17.第三方面，本技术还提供了一种终端设备，包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如第一方面所述的方法中的步骤。
18.第四方面，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如第一方面所述的方法中的步骤。
附图说明
19.图1为本技术提供的文本标注方法的一个可选的流程图；
20.图2为本技术提供的终端设备的结构原理图。
具体实施方式
21.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
22.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
23.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
24.本技术中的“至少一个”指的是一个或多个，多个指的是两个或两个以上。本技术中和/或，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b的情况，其中a、b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一(项)个”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a、b或c中的至少一项(个)，可以表示：a，b，c，a和b，a和c，b和c，或a、b和c，其中a、b、c中的每一个本身可以是元素，也可以是包含一个或多个元素的集合。
25.需要指出的是，本技术实施例中涉及的等于可以与大于连用，适用于大于时所采用的技术方案，也可以与小于连用，适用于与小于时所采用的技术方案，需要说明的是，当等于与大于连用时，不与小于连用；当等于与小于连用时，不与大于连用。本技术实施例中“的(of)”，“相应的(corresponding，relevant)”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。
26.首先，对本技术实施例中涉及的部分名词进行解释，以便于本领域技术人员理解。
27.1、句嵌入：(sentence embedding),是文本编码的一种，即把一段文本表示成一个固定维度的向量。这个向量可以称为这个文本的句嵌入。
28.目前，对于使用算法模型进行文本分类的任务，一般都需要大量的训练数据进行训练，而训练数据由一段文本及其标签组成，给文本打上标签的过程称为数据标注。
29.训练数据的标注目前最常用的方法主要分两种：1、人工一条一条的标注；2、使用一些常用的文本规则(如正则表达式)筛选文本进行统一标注，再人工审核。
30.现有的技术主要由人工完成，耗时费力，而且人工大量重复工作的情况下，标注出错的概率也比较高，如果用文本规则的方法，常常也要花费很多时间去设计规则，且这些规则只能关注非常有限的表达习惯和单词语法，不可能有很好的泛化性，而且有很大的错误率，不可能适应人类千变万化的语言习惯。并且，通常这些标注工作会外包给专门的标注人员来做，会产生不菲的标注费用。
31.针对上述问题，请参阅图1，本技术提供一种文本标注方法，应用于终端设备，所述方法包括：
32.步骤101、获取多个待标注文本，将所述多个待标注文本转换为多个第一句嵌入，得到第一句嵌入组。
33.其中，所述第一句嵌入为所述待标注文本的k维向量，k为正整数。
34.示例的，所述多个待标注文本可以是一组数组，或者表格中的一行或一列数据。
35.在一些实施例中，所述将所述待标注文本组中的多个待标注文本转换为多个第一句嵌入，得到第一句嵌入组，包括：将所述待标注文本组输入到预训练语言模型中，通过所述预训练语言模型将所述待标注文本组中的每个待标注文本转换为第一句嵌入，得到第一句嵌入组。
36.示例的，所述预训练语言模型包括bert(bidirectionalencoderrepresentations from transformer)、ernie(enhanced representation fromknowledgeintegration，知识增强语义表示模型)、fasttext、elmo(embeddings from language models)等。
37.具体实现中，首先获取到一组需要进行文本标注的n个待标注文本[text1,text2,
…
,textn],利用大规模中文文本预训练的语言模型bert和孪生(siamese)、三级(triplet)网络结构，把未标注文本[text1,text2,
…
,textn]转换成为相对应的第一句嵌入[g1,embedding2,
…
,embeddingn],其中的每一个句嵌入(embedding_n)都是k维向量(k为超参数)，代表了每一个未标注文本(text_n)的语义信息。
[0038]
可以看出，本实施例中，通过预训练语言模型实现了对待标注文本的向量转换。
[0039]
步骤102、获取多个分类标签，一一对应获取每个所述分类标签的多个中心文本，所述中心文本为所述分类标签的预设标注文本。
[0040]
在一些实施例中，所述将所述分类标签组中的多个分类标签与多个中心文本进行关联，包括：为所述多个分类标签中的每个分类标签均设置多个中心文本；将每个所述分类标签与对应的多个中心文本进行关联。
[0041]
具体实现中，获取m个分类标签[class1,class2,
…
,classm]最终需要根据所述分类标签对所述待标注文本进行标注。对于每一个分类标签[class]都根据所述分类标签所述的类别，预设相应的类型x个中心文本，(x为超参数，可以依据最终效果自由设置，且每个类别的x可以不相同。一般而言，x值比较
小，可以是10以上50以内的值，x值越大最终效果越好，但人工花费越高)。
[0042]
可以看出，本实施例中，实现了为分类标签设置预设标注文本。
[0043]
步骤103、从预设句嵌入组中一一对应搜索出所述多个中心文本的多个第二句嵌入，得到多个第二句嵌入组。
[0044]
其中，所述多个第二句嵌入组与所述多个分类标签一一对应，所述第二句嵌入为所述中心文本的k维向量，k为正整数。
[0045]
具体实现中，设置预设句嵌入组，所述预设句嵌入组中包括多个句嵌入。对于所述多个分类标签[class1,class2,
…
,classm]中的每个分类标签[class]，从所述预设句嵌入组中搜索出其对应中心文本的句嵌入，整理为句嵌入，整理为得到多个第二嵌入组。
[0046]
可以看出，本实施例中，实现了对中心文本的句嵌入的获取。
[0047]
步骤104、分别计算出每个所述第二句嵌入组中多个第二句嵌入之间的第一平均向量，得到第一平均向量组。
[0048]
其中，所述第一平均向量组包括多个第一平均向量，所述多个第一平均向量与所述多个第二句嵌入组一一对应。
[0049]
具体实现中，在得到所述多个第二句嵌入组后，用向量平均值的方法计算每个分类标签对应的平均向量[vector1,vector2,
…
vectorm]，这组向量可以定义为分类标签[class1,class2,
…
,classm]的中心向量。中心向量的具体计算方法可以为：其中i为句嵌入的序号。
[0050]
步骤105、计算所述每个第一句嵌入与所述多个第一平均向量之间的向量距离，得到多个第一向量距离组。
[0051]
其中，所述多个第一向量距离组与所述多个第一句嵌入一一对应，每个第一向量距离组包括对应的第一句嵌入与所述多个第一平均向量之间的多个向量距离。
[0052]
在一些实施例中，所述计算出所述多个第一句嵌入分别与所述第一平均向量组中所有所述第一平均向量之间的向量距离之前，所述方法还包括：创建多个空列表，得到第一文本组；设置迭代次数，其中，所述迭代次数用于指示所述重新排列组合的次数。
[0053]
示例的，所述迭代次数为超参数，一般设置为0《＝i《3。
[0054]
具体实现中，创建m个空列表[group1,group2,
…
,groupm]为组，设置迭代次数，根据所述迭代次数进行相应次数的重新排列组合，以确保最终自动标注结果更加可靠。
[0055]
可以看出，本实施例中，实现了对自动标注的前置预备。
[0056]
步骤106、根据所述多个第一向量距离组将所述多个待标注文本重新排列组合到第一分组。
[0057]
在一些实施例中，所述根据所述多个第一向量距离将所述待标注文本组中的多个待标注文本重新排列组合到第一分组，包括：判断出多个第一向量距离组中的最小第一向量距离；将最小第一向量距离所在的第一向量距离组所对应的第一句嵌入加入所述第一文本组中；重复最小第一向量距离判断和将对应的第一句嵌入加入第一文本组的操作，直至将所有第一句嵌入均加入所述第一文本组中，得到第一文本标注组。
[0058]
具体实现中，对所有的句嵌入[embedding1,embedding2,
…
,embeddingn]中的每一个embeddingn，计算其与所有分类标签的中心向量[vector1,vector2,
…
vectorm]的向量距离[distance1,distance2,
…
,distancem](两个向量间的距离有多种计算方式，通常是：
[0059]
欧式距离：ai,bi分别表示向量embedding和vector中每个维度的值，k为维度，或者用余弦相似度计算)。最小第一向量距离所在的第一向量距离组，把此embeddingn加入组中(如：对某一个embedding5，计算出的向量距离最小的值为distance7，则把embedding5加入group7中)。遍历一遍所有的第一句嵌入之后，所有的第一句嵌入已经分类完毕。
[0060]
可以看出，本实施例中，实现了对待标注文本的初次分类。
[0061]
在一些实施例中，所述得到第一文本标注组之后，所述方法还包括：计算所述第一文本标注组中的每个第一句嵌入的平均向量，得到多个第二平均向量；用所述多个第二平均向量一一代替所述多个第一平均向量作为所述多个分类标签的平均向量；重复计算第一向量距离、最小第一向量距离判断和将对应的第一句嵌入加入第一文本组的操作，直至达到所述迭代次数，得到所述第一分组。
[0062]
具体实现中，对每个第一文本标注组[group1,group2,
…
,groupm]中所有的embedding计算第二平均向量，用新生成的第二平均向量代替原本计算的分类标签平均向量[vector1,vector2,
…
vectorm]。然后回到循环初始处，在循环上述步骤直到达到所述迭代次数后，得到最终的第一分组，完成所述多个待标注文本最终分类。
[0063]
可以看出，本实施例中，实现了对所述多个待标注文本的重新排列分类。
[0064]
步骤107、将所述第一分组中的所述多个待标注文本与所述分类标签按一一对应关系进行关联。
[0065]
具体实现中，循环完成后，所有的句嵌入都被分组完成，即对应的多个待标注文本[text1,text2,
…
,textn]被分到组[group1,group2,
…
,groupm]中，即多个待标注文本，可被标注为对应的标签[class1,class2,
…
,classm]，进而完成对待标注文本的自动标注。
[0066]
在一些实施例中，所述将所述第一分组与所述分类标签按一一对应关系进行关联，包括：将所述第一分组与所述分类标签按顺序一一对应进行关联。
[0067]
示例的，按照group1与class1关联，group2与class2关联的方式依次将所述第一分组和所述多个分类标签进行一一关联，完成对待标注文本的自动标注。
[0068]
可以看出，本实施例中，通过将分类标签与预设标注文本进行标注，再将待标注文本和预设标注文本分别转换成句嵌入，最后通过向量比较和重新排序自动将待标注文本与分类标签进行匹配，最终完成待标注文本的自动标注，对人工需求低，提高了文本标注的效率。
[0069]
在一些实施例中，本技术还提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现第一方面所述方法的步骤。
[0070]
示例的，所述计算机程序产品可以是软件安装包、应用程序、软件系统等，在此不做唯一性限定。
[0071]
综上所述，本技术提供的一种文本标注方法及软件产品，所述方法通过将分类标签与预设标注文本进行标注，再将待标注文本和预设标注文本分别转换成句嵌入，最后通过向量比较和重新排序自动将待标注文本与分类标签进行匹配，最终完成待标注文本的自动标注，对人工需求低，提高了文本标注的效率。
[0072]
本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述实施例所述的方法中的步骤。
[0073]
本发明还提供了一种终端设备25，如图2所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(communications interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。
[0074]
此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。
[0075]
存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。
[0076]
存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备25的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。
[0077]
此外，上述存储介质以及移动终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。
[0078]
最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种图像格式转换方法、装置及存储介质与流程

一种文本标注方法及软件产品与流程

相关文献

最热文献