一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种标注数据的方法及装置与流程

2021-10-23 02:05:00 来源:中国专利 TAG:数据 标注 装置 方法 分析


1.本发明涉及数据分析技术领域,尤其涉及一种标注数据的方法及装置。


背景技术:

2.信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。信息检索又指信息查询,是用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。随着人工智能的兴起与发展,该查找过程可以通过应用人工智能算法的查询模型实现为用户快速、准确地匹配出所需查找的信息,让用户通过更加简便的查询语句就可以匹配出所需信息。然而,查询模型能够实现准确匹配的前提是需要进行大量的模型训练,因此,就需要大量的带有标注的数据样本。
3.目前,对于数据样本的标注,包括对数据样本中查询语句的标注以及对匹配信息的标注,还主要依靠人工。而对于现有所能够采集到的用户查询语句的数据量,要实现将其转换为样本数据,所需要的人工成本将非常高。并且这些通过人工标注的样本数据,由于其具有较强的应用场景,其应用的成本也会非常高,即,当需要对一个新应用场景训练查询模型时,还需要人工生产针对该场景的样本数据,以确保查询模型在该场景中的查询准确性,可见,现有基于人工标注查询语句的方式存在成本高、效率低的问题。


技术实现要素:

4.鉴于上述问题,本发明提出了一种标注数据的方法及装置,主要目的在于对用户查询语句的自动化标注,提高样本数据的产出效率。
5.为达到上述目的,本发明主要提供如下技术方案:
6.一方面,本发明提供一种标注数据的方法,具体包括:
7.获取具有标注信息的查询目标数据,所述标注信息包括至少一个中心词;
8.利用文本生成模型处理所述查询目标数据,得到具有所述标注信息的新查询语句,所述文本生成模型是基于查询过程中的行为数据训练得到的。
9.优选的,所述方法还包括:
10.获取用户在查询过程中的行为数据,所述行为数据包括用户输入的查询语句以及用户选中的查询目标数据;
11.利用所述行为数据训练所述文本生成模型,其中,所述文本生成模型的输入为查询目标数据,输出为查询语句。
12.优选的,所述利用所述行为数据训练所述文本生成模型,包括:
13.获取所述行为数据包括所述查询语句与选中的查询目标数据构成的数据对,其中,所述查询目标数据中携带由所述标注信息;
14.利用所述数据对训练所述文本生成模型,所述文本生成模型为序列到序列模型。
15.优选的,所述方法还包括:
16.设置所述文本生成模型的配置参数,所述配置参数用于控制所述文本生成模型输
出具有标注信息的查询语句的数量。
17.优选的,所述方法还包括:
18.如果所述查询目标数据中的中心词为多个,且所述配置参数设置的数量为多个,所述文本生成模型得到的每个查询语句中至少含有所述中心词中的一个。
19.优选的,所述方法还包括:
20.利用所述新查询语句训练中心词模型,所述中心词模型用于对用户输入的查询语句标注中心词,输出所述查询语句的标注信息。
21.另一方面,本发明提供一种标注数据的装置,具体包括:
22.获取单元,用于获取具有标注信息的查询目标数据,所述标注信息包括至少一个中心词;
23.生成单元,用于利用文本生成模型处理所述获取单元得到的查询目标数据,得到具有所述标注信息的新查询语句,所述文本生成模型是基于查询过程中的行为数据训练得到的。
24.优选的,所述装置还包括:
25.采集单元,用于获取用户在查询过程中的行为数据,所述行为数据包括用户输入的查询语句以及用户选中的查询目标数据;
26.第一模型训练单元,用于利用所述采集单元得到的行为数据训练所述文本生成模型,其中,所述文本生成模型的输入为查询目标数据,输出为查询语句。
27.优选的,所述第一模型训练单元还用于,获取所述行为数据包括所述查询语句与查询目标数据构成的数据对,其中,所述查询目标数据中携带所述标注信息;利用所述数据对训练所述文本生成模型,所述文本生成模型为序列到序列模型。
28.优选的,所述装置还包括:
29.设置单元,用于设置所述文本生成模型的配置参数,所述配置参数用于控制所述文本生成模型输出具有标注信息的查询语句的数量。
30.优选的,所述生成单元还用于,如果所述查询目标数据中的中心词为多个,且所述配置参数设置的数量为多个,所述文本生成模型得到的每个查询语句中至少含有所述中心词中的一个。
31.优选的,所述装置还包括:
32.第二模型训练单元,用于利用所述新查询语句训练中心词模型,所述中心词模型用于对用户输入的查询语句标注中心词,输出所述查询语句的标注信息。
33.另一方面,本发明提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的标注数据的方法。
34.借由上述技术方案,本发明提供的一种标注数据的方法及装置,是利用基于查询用户的行为数据训练得到的文本生成模型处理带有标注信息的查询目标数据,从而得到新查询语句,并且在该新查询语句中含有查询目标数据所携带的标注信息。可见,本发明是根据行为数据中所体现的查询语句与查询目标数据之间的关联关系,训练一个用于生成新查询语句的文本生成模型,以生成带有标注信息的新查询语句,如此,就实现了基于用户的行为数据得到大量带有标注信息的新查询语句,使得新查询语句的数量可以达到查询目标数据的量级,实现了查询语句的自动化标注,大大降低了人工标注的成本。
35.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
36.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
37.图1示出了本发明实施例提出的一种标注数据的方法的流程图;
38.图2示出了本发明实施例提出的另一种标注数据的方法的流程图;
39.图3示出了本发明实施例提出的一种标注数据的装置的组成框图;
40.图4示出了本发明实施例提出的另一种标注数据的装置的组成框图。
具体实施方式
41.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
42.本发明实施例提供了一种标注数据的方法,本方法具体步骤如图1所示,该方法包括:
43.步骤101、获取具有标注信息的查询目标数据。
44.本步骤中的查询目标数据是指在查询过程中基于用户的查询需求而由用户选择的数据信息。例如,在电商领域的查询过程中,用户在输入所需的查询语句后,可以得到相匹配的查询内容,而用户最终所选中的查询内容即为查询目标数据。
45.在本步骤中,所获取的查询目标数据中携带由标注信息,其中,该标注信息中包括至少一个中心词,该中心词用于表示该查询目标数据的核心内容。一般地,标注信息中的中心词是由查询目标数据的数据提供方所设置的,或者是基于文本处理后的分词统计得到的。以电商领域为例,商户会为所提供的商品内容设置一个标题,以供用户查询、预览,该标题的内容及为查询目标数据,用户可以将该标题内容中的分词根据需要设置若干个为中心词,也可以基于该商品详细内容的文本进行分词统计,从而确定该标题所对应的中心词。
46.在本实施例中,查询目标数据是基于数据库维护的已有数据,因此,本步骤的执行是从数据库中提取具有标注信息的查询目标数据。
47.步骤102、利用文本生成模型处理查询目标数据,得到具有标注信息的新查询语句。
48.其中,文本生成模型是基于查询过程中的行为数据训练得到的模型,该文本生成模型的设计思想是由查询目标数据生成查询语句,为此,本实施例里采用序列到序列模型(seq2seq模型),输入序列为查询目标数据,输出序列为新查询语句。
49.在本实施例中,训练文本生成模型所使用的行为数据,是基于用户在查询过程中所产生的行为数据,该行为数据中包括用户的查询语句与用户所选中的查询目标数据,需
要说明的是,该查询语句不需要进行标注。通过该行为数据中查询语句与查询目标数据的对应关系训练文本生成模型,使得该模型能够基于上一步骤中所得到的查询目标数据,准确地预测出用户可能构建的查询语句。
50.通过本步骤的执行,可以得到文本生成模型所输出的新查询语句,并且,该新查询语句中携带有标注信息,该标注信息来源于查询目标数据的标注信息,即,将查询目标数据中的部分或全部标注信息作为新查询语句的标注信息。
51.通过上述实施例的说明,本发明提供的一种标注数据的方法,是利用查询过程中的行为数据训练一个文本生成模型,由该文本生成模型处理带有标注信息的查询目标数据,从而生成对应的新查询语句,并将标注信息应用于该新查询语句上,得到具有标注信息的查询语句。由于用户行为数据是可以大量采集的,因此,可以得到较为准确的文本生成模型,同时,由于查询目标数据也是由数据提供方生成的已有数据,通过序列到序列的文本生成模型就可以得到与查询目标数据同等数量级的且具有标注信息的查询语句,实现了查询语句的批量生成与自动化标注,从而提高了样本数据的产出效率。
52.进一步的,在执行图1所示的标注数据方法之前,还需要得到一个可用的文本生成模型,为此,需要对该文本生成模型先进行训练。本发明实施例中,用于训练文本生成模型的样本数据来源于用户的行为数据,根据文本生成模型的应用场景,需要获取不同类型的行为数据,例如,在查询场景中,需要获取用户在查询过程中的行为数据,而在判断用户喜好的场景中,则需要获取用户在浏览过程中的加关注或加购物车等行为数据。一般地,在获取行为数据时,需要预先设置所获取行为数据的类型,或者是将所获取的行为数据按照预设类型进行分类,从而用不同类型的行为数据训练出对应的文本生成模型。以查询过程中的行为数据为例,该行为数据中至少记录有用户输入的查询语句以及用户选中的查询目标数据,通过采集大量用户的行为数据,就可以得到用于训练该文本生成模型的样本,在本实施例中,该样本的具体形式可以表示为一组数据对,即查询语句与查询目标数据构成的数据对,即从一条行为数据中提取出用户的查询语句以及用户选中的查询目标数据构成数据对,得到一个样本。利用这些样本对文本生成模型进行训练,通过输入样本中的查询目标数据,使得输出的新查询语句与样本中的查询语句相同或近似。
53.本实施例中所采用的文本生成模型可以是机器翻译中用到的统计机器翻译模型,也可以是神经网络的机器翻译模型。优选的为通用的序列到序列的神经网络模型(tensor2tensor,t2t),tensor2tensor是google brain team在github上开源的一套基于tensorflow的深度学习系统。该系统使用attention方法来建模序列到序列(sequence-to-sequence,seq2seq)的问题,而随着系统的不断扩展,t2t支持的功能变得越来越多,目前可以建模的问题包括:图像分类,语言模型、情感分析、语音识别、文本摘要,机器翻译。针对该模型的具体训练与应用,本实施例中不做详细说明。
54.进一步的,在应用训练好的文本生成模型时,通过设置文本模型的配置参数,即模型的超参数,还可以控制所生成的查询语句的数量。即通过设置配置参数,文本生成模型可以通过输入一条查询目标数据,而得到多条对应的新查询语句。而输出的多条新查询语句是根据准确度确定最终输出的,即文本生成模型根据输入查询目标数据,能够匹配生成多个新查询语句,不同的新查询语句所匹配的准确度不同,当需要输出一个新查询语句时,则选择准确度最高的一条新查询语句作为输出,当需要输出多个新查询语句时,则根据准确
度排序选择多个新查询语句作为输出。
55.此外,在应用训练好的文本生成模型时,输入的查询目标数据中携带由标注信息,输出的新查询语句则是将查询目标数据中的标注信息用于标注自身。对此,当标注信息中只有一个中心词时,则该中心词也将是新查询语句的标注信息。而当标注信息中有多个中心词时,新查询语句的标注信息中则至少包括多个中心词的一个,并且,在需要输出多个新查询语句时,每个新查询语句中都至少含有多个中心词的一个。
56.进一步的,根据上述对实施例中各步骤的说明可知,本发明是利用文本生成模型生成大量的携带由标注信息的新查询语句,但是,这些新查询语句并不是用户在实际查询过程中所输入的查询语句,因此,为了对用户实际产生的查询语句进行标注,本发明还可以利用文本生成模型所得到的新查询语句作为训练样本,来训练中心词模型,该中心词模型的输出为查询语句,输出为具有中心词的标注信息。之后,使用该中心词模型处理用户在实际查询过程中所产生的查询语句,输出其对应的标注信息,实现对已有查询语句的自动化标注。
57.综合上述的实施例,本发明还提出了一种标注数据的方法,具体步骤如图2所示,包括:
58.步骤201、获取用户在查询过程中的行为数据,将该行为数据转化为由查询语句与查询目标数据构成的数据对。
59.步骤202、利用数据对训练文本生成模型。
60.步骤203、设置文本生成模型的配置参数。
61.步骤204、获取具有标注信息的查询目标数据。
62.需要说明的是,本步骤的执行与上述步骤201-203的执行不存在逻辑上的先后顺序关系。
63.步骤205、利用文本生成模型处理查询目标数据,得到具有标注信息的新查询语句。
64.步骤206、利用新查询语句训练中心词模型。
65.步骤207、利用中心词模型对用户输入的查询语句标注中心词,输出该查询语句的标注信息。
66.基于上述图2所示的执行步骤,以下针对电商领域中的用户查询场景为例说明对用户的查询语句进行标注的过程。
67.首先,基于电商平台可以得到大量的由商户提供的商品标题,这些商品标题用于显示在用户查询界面中,以供用户选择查看。该商品标题即为查询目标数据,在商品标题中,商户可以指定若干词为中心词,从而形成对该商品标题的标注信息。如此,在用户进行搜索的过程中,若用户输入一个查询语句,比如“夏季女士长裙”,在搜索界面中会匹配出多个符合的商品标题,并且,该用户进而点击了其中的一个商品标题“2020年新款夏季时装褶边休闲v领女式毛衣针织长裙”,此时,用户的该点击行为将被采集为一条行为数据,该行为数据中记录有用户的查询语句与所点击的商品标题,并将该行为数据构成一条训练样本,即生成由查询语句与该用户选中的查询目标数据构成的数据对,比如<夏季女士长裙,2020年新款夏季时装褶边休闲v领女式毛衣针织长裙>。其中,商品标题中所带有的标注信息为中心词(长裙),而查询语句没有标注信息。
68.之后,利用所采集生成的大量训练样本对文本生成模型进行训练,输入商品标题,输出一个新查询语句,使得该新查询语句与样本中的查询语句相同或相似。
69.在完成对文本生成模型的训练后,通过对模型超参数的调整设置,可以进一步确定输出新查询语句的数量,由于输出新查询语句的数量越多,虽然可以得到更多带有标注信息的查询语句,但这些查询语句与查询目标数据的关联性就越差,准确度也就越低,因此,在实际应用中设置该数量时,需要兼顾输出查询语句的准确性与数量,比如需要考虑查询目标数据的数量以及训练模型所需的样本数量等。
70.之后,利用文本生成模型处理电商平台中所提供的商品标题,即输入商品标题,得到新查询语句,比如输入“2020年新款夏季时装褶边休闲v领女式毛衣针织长裙”,输出的新查询语句为“夏季长裙”或“针织长裙”等,而由于商品标题的标注信息为中心词(长裙),该中心词将作为新查询语句的标注信息,即“夏季长裙”或“针织长裙”的标注信息中的中心词也为长裙。如此,利用大量的商品标题就可以生成同等数量级的新查询语句,并且这些新查询语句均带有标注信息。
71.此后,利用这些带有标注信息的新查询语句还可以对中心词模型进行训练,使得中心词模型可以更准确地对用户输入的查询语句进行中心标注,从而得到标注信息,以实现对人工标注的替代。
72.以上实例是在电商场景下应用本发明提出的标注数据方法的具体说明,同样的,本发明实施例提出的标注数据方法还可以应用于如搜索引擎等场景,在搜索场景中,同样可以基于用户查询界面来获取用户的查询语句,即用户的行为数据,将该行为数据与该查询语句所对应的查询结果构成数据对,该查询结果为用户选中的带有标注信息的语句,然而搜索引擎为用户匹配到的查询结果具有多个,之后,利用数据对训练文本生成模型,并利用训练后的文本生成模型处理搜索引擎匹配出的其他查询结果,从而得到具有标注信息的新查询语句,最后,利用新查询语句训练中心词模型,并由中心词模型对用户输入的查询语句标注中心词,输出该查询语句的标注信息,实现对查询语句的自动化标注。可见,本发明实施例所提出的标注数据方法同样适用于具有与用户交互行为的各种数据查询场景,能够为这些场景在缺少用户查询语句的情况下,通过已有数据生成更多的查询数据以训练模型,进而为用户提供更佳优质的数据查询体验。
73.进一步的,作为对上述图1与图2所示方法的实现,本发明实施例提供了一种标注数据的装置,该装置主要用于对用户查询语句的自动化标注,提高样本数据的产出效率。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示,具体包括:
74.获取单元31,用于获取具有标注信息的查询目标数据,所述标注信息包括至少一个中心词;
75.生成单元32,用于利用文本生成模型处理所述获取单元31得到的查询目标数据,得到具有所述标注信息的新查询语句,所述文本生成模型是基于查询过程中的行为数据训练得到的。
76.进一步的,如图4所示,所述装置还包括:
77.采集单元33,用于获取用户在查询过程中的行为数据,所述行为数据包括用户输
入的查询语句以及用户选中的查询目标数据;
78.第一模型训练单元34,用于利用所述采集单元33得到的行为数据训练所述文本生成模型,其中,所述文本生成模型的输入为查询目标数据,输出为查询语句。
79.进一步的,所述第一模型训练单元34还用于,获取所述行为数据包括所述查询语句与选中的查询目标数据构成的数据对,其中,所述查询目标数据中携带所述标注信息;利用所述数据对训练所述文本生成模型,所述文本生成模型为序列到序列模型。
80.进一步的,如图4所示,所述装置还包括:
81.设置单元35,用于设置所述文本生成模型的配置参数,所述配置参数用于控制所述文本生成模型输出具有标注信息的查询语句的数量。
82.进一步的,所述生成单元32还用于,如果所述查询目标数据中的中心词为多个,且所述配置参数设置的数量为多个,所述文本生成模型得到的每个查询语句中至少含有所述中心词中的一个。
83.进一步的,如图4所示,所述装置还包括:
84.第二模型训练单元36,用于利用所述生成单元32得到的新查询语句训练中心词模型;
85.标注单元37,用于利用所述第二模型训练单元36得到的中心词模型对用户输入的查询语句标注中心词,输出所述查询语句的标注信息。
86.另外,本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一个实施例提供的标注数据的方法。
87.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
88.可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
89.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
90.在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的较佳实施方式。
91.此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存
92.(flash ram),存储器包括至少一个存储芯片。
93.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
94.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程
图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
95.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
96.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
97.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
98.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
99.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
100.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
101.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
102.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜