一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法及装置与流程

2022-07-31 06:17:43 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别是涉及一种数据处理方法及装置。


背景技术:

2.当前,网络上出现了越来越多的数据服务平台,数据服务平台可以对广大客户提供数据服务,例如,购物平台对广大购物者提供购物服务,游戏平台为广大玩家提供游戏服务以及聊天平台为广大聊天者提供聊天服务等,为了更好地对客户提供数据服务以提高数据服务平台的竞争力,可以搜集客户的需求,以根据客户的需求针对性地为客户提供数据服务,以实现在为客户提供数据服务的情况下尽可能地满足客户的核心需求,以增加客户对数据服务平台的粘性。


技术实现要素:

3.本技术示出了一种数据处理方法及装置。
4.第一方面,本技术示出了一种数据处理方法,所述方法包括:
5.获取多个意图分类分别对应的意图标签,以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签;
6.对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括所述意图分类对应的意图标签的文本,根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇,预测与所述意图分类对应的意图标签的语义相关的第一词汇,根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词;
7.对于多个文本中的任意一个文本,对于所述文本中的任意一个词汇,根据包括所述文本中的除所述词汇以外的词汇,预测与所述词汇的语义相关的第二词汇,根据分别与所述文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取所述文本体现的意图分类。
8.在一个可选的实现方式中,所述获取多个意图分类分别对应的意图标签,包括:
9.获取多个意图分类涉及的目标场景相关的多个场景词汇;
10.对于多个意图分类中的任意一个意图分类,在标注所述意图分类的关键词为一个的情况下,在多个场景词汇中筛选与标注所述意图分类的一个关键词之间的语义相似度大于预设相似度的至少一个场景词汇;至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签;
11.或者,在标注所述意图分类的关键词为至少两个的情况下,在多个场景词汇中筛选与标注所述意图分类的至少两个关键词之间的平均语义相似度大于预设相似度的至少一个场景词汇,至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签。
12.在一个可选的实现方式中,与所述意图分类对应的意图标签的语义相关的第一词汇为至少两个;
13.所述根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图
分类对应的候选词,包括:
14.统计与所述意图分类对应的意图标签的语义相关的各个第一词汇分别在包括所述意图分类对应的意图标签的文本中的第一出现频次;
15.在与所述意图分类对应的意图标签的语义相关的各个第一词汇中,按照第一出现频次由高至低的顺序选择至少一个第一词汇;
16.根据选择的至少一个第一词汇获取所述意图分类对应的候选词。
17.在一个可选的实现方式中,所述根据选择的至少一个第一词汇获取所述意图分类对应的候选词,包括:
18.在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇;
19.根据选择的至少一个第一词汇中的剩余的第一词汇,获取所述意图分类对应的候选词。
20.在一个可选的实现方式中,所述在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇,包括:
21.对于选择的至少一个第一词汇中的任意一个第一词汇,获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性;
22.在所述显著性小于预设显著性的情况下,在选择的至少一个第一词汇中剔除所述第一词汇。
23.在一个可选的实现方式中,所述获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性,包括:
24.统计所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次;
25.根据第一出现频次以及第二出现频次计算所述显著性。
26.在一个可选的实现方式中,所述根据第一出现频次以及第二出现频次计算所述显著性,包括:
27.根据第一出现频次以及第二出现频次,计算所述第一词汇分别在包括每一个意图分类对应的意图标签的文本中的出现频次之间的期望,以及,计算所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次之间的方差;
28.根据所述期望、所述方差以及第一出现频次计算所述显著性。
29.在一个可选的实现方式中,所述根据所述期望、所述方差以及第一出现频次计算所述显著性,包括:
30.计算第一出现频次与所述期望之间的差值;
31.计算所述差值与所述方差之间的比值;
32.根据所述比值获取所述显著性。
33.在一个可选的实现方式中,所述根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇,预测与所述意图分类对应的意图标签的语义相关的第一词汇,包括:
34.确定所述意图分类所涉及的目标场景;
35.在适用于不同的场景的预测模型中,获取适用于目标场景的预测模型;
36.将包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇输入适用于目标场景的预测模型中,以使适用于目标场景的预测模型对包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇处理,得到与所述意图分类对应的意图标签的语义相关的第一词汇。
37.在一个可选的实现方式中,适用于目标场景的预测模型是根据在目标场景中生成的文本对初始的预测模型优化后得到的,初始的预测模型是根据在各个场景中生成的文本训练得到的。
38.在一个可选的实现方式中,所述根据分别与所述文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取所述文本体现的意图分类,包括:
39.确定各个意图分类分别对应的候选词分别与第二词汇之间的相同的词汇的数量;
40.根据对应的候选词与第二词汇之间的相同的词汇的数量大于预设数量的意图分类,获取所述文本体现的意图分类。
41.第二方面,本技术示出了一种数据处理装置的结构框图,所述装置包括:
42.第一获取模块,用于获取多个意图分类分别对应的意图标签,以及,第二获取模块,用于获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签;
43.筛选模块,用于对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括所述意图分类对应的意图标签的文本,第一预测模块,用于根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇,预测与所述意图分类对应的意图标签的语义相关的第一词汇,第三获取模块,用于根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词;
44.第二预测模块,用于对于多个文本中的任意一个文本,对于所述文本中的任意一个词汇,根据包括所述文本中的除所述词汇以外的词汇,预测与所述词汇的语义相关的第二词汇,第四获取模块,用于根据分别与所述文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取所述文本体现的意图分类。
45.在一个可选的实现方式中,所述第一获取模块包括:
46.第一获取子模块,用于获取多个意图分类涉及的目标场景相关的多个场景词汇;
47.第二获取子模块,用于对于多个意图分类中的任意一个意图分类,在标注所述意图分类的关键词为一个的情况下,在多个场景词汇中筛选与标注所述意图分类的一个关键词之间的语义相似度大于预设相似度的至少一个场景词汇;至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签;或者,在标注所述意图分类的关键词为至少两个的情况下,在多个场景词汇中筛选与标注所述意图分类的至少两个关键词之间的平均语义相似度大于预设相似度的至少一个场景词汇,至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签。
48.在一个可选的实现方式中,与所述意图分类对应的意图标签的语义相关的第一词汇为至少两个;
49.所述第三获取模块包括:
50.统计子模块,用于统计与所述意图分类对应的意图标签的语义相关的各个第一词
汇分别在包括所述意图分类对应的意图标签的文本中的第一出现频次;
51.选择子模块,用于在与所述意图分类对应的意图标签的语义相关的各个第一词汇中,按照第一出现频次由高至低的顺序选择至少一个第一词汇;
52.第三获取子模块,用于根据选择的至少一个第一词汇获取所述意图分类对应的候选词。
53.在一个可选的实现方式中,所述第三获取子模块包括:
54.剔除单元,用于在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇;
55.获取单元,用于根据选择的至少一个第一词汇中的剩余的第一词汇,获取所述意图分类对应的候选词。
56.在一个可选的实现方式中,所述剔除单元包括:
57.获取子单元,用于对于选择的至少一个第一词汇中的任意一个第一词汇,获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性;
58.剔除子单元,用于在所述显著性小于预设显著性的情况下,在选择的至少一个第一词汇中剔除所述第一词汇。
59.在一个可选的实现方式中,所述获取子单元具体用于:统计所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次;根据第一出现频次以及第二出现频次计算所述显著性。
60.在一个可选的实现方式中,所述获取子单元具体用于:根据第一出现频次以及第二出现频次,计算所述第一词汇分别在包括每一个意图分类对应的意图标签的文本中的出现频次之间的期望,以及,计算所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次之间的方差;
61.根据所述期望、所述方差以及第一出现频次计算所述显著性。
62.在一个可选的实现方式中,所述获取子单元具体用于:计算第一出现频次与所述期望之间的差值;计算所述差值与所述方差之间的比值;根据所述比值获取所述显著性。
63.在一个可选的实现方式中,所述第一预测模块包括:
64.第一确定子模块,用于确定所述意图分类所涉及的目标场景;
65.第四获取子模块,用于在适用于不同的场景的预测模型中,获取适用于目标场景的预测模型;
66.输入子模块,用于将包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇输入适用于目标场景的预测模型中,以使适用于目标场景的预测模型对包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇处理,得到与所述意图分类对应的意图标签的语义相关的第一词汇。
67.在一个可选的实现方式中,适用于目标场景的预测模型是根据在目标场景中生成的文本对初始的预测模型优化后得到的,初始的预测模型是根据在各个场景中生成的文本训练得到的。
68.在一个可选的实现方式中,所述第四获取模块包括:
69.第二确定子模块,用于确定各个意图分类分别对应的候选词分别与第二词汇之间的相同的词汇的数量;
70.第五获取子模块,用于根据对应的候选词与第二词汇之间的相同的词汇的数量大于预设数量的意图分类,获取所述文本体现的意图分类。
71.第三方面,本技术示出了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行如前述的任一方面所示的方法。
72.第四方面,本技术示出了一种非临时性计算机可读存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前述的任一方面所示的方法。
73.第五方面,本技术示出了一种计算机程序产品,当计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行如前述的任一方面所示的方法。
74.与现有技术相比,本技术包括以下优点:
75.在本技术中,获取多个意图分类分别对应的意图标签。以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签。对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括该意图分类对应的意图标签的文本,然后根据包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇,预测与该意图分类对应的意图标签的语义相关的第一词汇,并根据与该意图分类对应的意图标签的语义相关的第一词汇获取该意图分类对应的候选词。对于多个文本中的任意一个文本,对于该文本中的任意一个词汇,根据包括该文本中的除该词汇以外的词汇,预测与该词汇的语义相关的第二词汇。根据分别与该文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取该文本体现的意图分类。
76.在本技术中,根据包括该意图分类对应的意图标签的文本中的词汇之间的语义关系以及上下文关系,可以准确得到与该意图分类对应的意图标签的语义相关的第一词汇,进而准确得到该意图分类对应的候选词(可以为多个等),该意图分类对应的候选词可以体现该意图分类的主旨等。之后在需要得到一个文本的意图分类的情况下,就可以根据这一个文本中的词汇之间的语义关系或上下文关系以及各个意图分类分别对应的候选词获取这一个文本体现的意图分类。如此,通过本技术,可以自动化地得到文本体现的意图分类,可以没有人工参与,且由于借助的是文本中的词汇之间的语义关系或上下文关系以及统计的各个意图分类分别对应的候选词来得到文本体现的意图分类,如此可以提高得到的文本体现的意图分类的效率以及准确率等,以及,可以降低人工成本等。
77.例如,在训练模型之前需要对大量训练文本分别体现的意图分类标注的场景中,可以提高标注文本体现的意图分类的效率以及准确性以及降低人工成本。
附图说明
78.图1是本技术的一种数据处理方法的步骤流程图。
79.图2是本技术的一种数据处理装置的结构框图。
80.图3是本技术的一种装置的结构框图。
具体实施方式
81.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术作进一步详细的说明。
82.发明人发现,在很多情况下,客户在遇到问题时,会与数据服务平台的工作人员通
过语音或文本的形式进行沟通,以通过沟通来解决客户的问题(满足客户需求)。
83.如此,发明人搜集了广大客户分别与数据服务平台的工作人员之间的历史沟通记录,并对广大客户分别与数据服务平台的工作人员之间的历史沟通记录进行了大量的统计分析,并发现:客户与数据服务平台的工作人员之间的历史沟通记录的内容中往往蕴含着客户的需求。
84.鉴于此,为了得到客户的需求,发明人想到了可以根据客户与数据服务平台的工作人员之间的历史沟通记录来获取客户的需求。
85.为了能够根据客户与数据服务平台的工作人员之间的历史沟通记录来获取客户的需求,发明人又想到了,在一种方式中,可以使用模型来根据客户与数据服务平台的工作人员之间的历史沟通记录来获取客户的需求。
86.例如,在需要得到客户的需求的情况下,若客户与数据服务平台的工作人员之间的历史沟通记录为文本,可以将客户与数据服务平台的工作人员之间的历史沟通记录输入需求分类模型中,以使需求分类模型对客户与数据服务平台的工作人员之间的历史沟通记录处理,得到客户的需求,并输出客户的需求,从而实现得到客户的需求。
87.但是,在上述方式中,由于需要使用分需求分类模型,因此,需要事先训练需求分类模型。
88.在训练分类模型的场景中,可以使用有监督的训练方式来训练分类模型。鉴于此,在训练需求分类模型时,也往往会使用有监督的训练方式来训练需求分类模型。
89.其中,发明人发现,若需要使用有监督的训练方式来训练需求分类模型,则需要搜集大量的样本文本(包括广大客户分别与数据服务平台的工作人员之间的历史沟通记录等),还需要对样本文本标注,得到样本文本中的内容体现的客户的需求。然后使用大量的样本文本以及标注的每一个样本文本中的内容体现的客户的需求训练需求分类模型。
90.发明人发现,客户与数据服务平台的工作人员之间的历史沟通记录是在历史过程中客户与数据服务平台的工作人员进行沟通的过程中数据服务平台存储的,如此,从数据服务平台中可以直接获取到客户与数据服务平台的工作人员之间的历史沟通记录。
91.但是,对样本文本标注往往是人工执行的,在人工对样本文本标注的场景中,往往需要人工浏览样本文本中的全部内容,并对样本文本中的全部内容人工分析,从而得到样本文本中的内容体现的客户的需求,并根据得到的样本文本中的内容体现的客户的需求对样本文本标注。
92.然而,发明人对“对样本文本人工标注”情况的结果的现状进行了统计分析后发现,对样本文本标注的效率低以及准确率低且人工成本高。
93.如此,提出了在需要对样本文本标注的情况下提高对样本文本标注的效率和准确率以及降低人工成本的需求。
94.为了实现“在需要对样本文本标注的情况下提高对样本文本标注的效率和准确率以及降低人工成本”的目的,发明人对“对样本文本人工标注”情况的结果的现状的标注的效率低以及准确率低且人工成本高的原因进行了分析,并发现:
95.一方面,由于训练需求分类模型需要大量的样本文本,如此,需要标注的样本文本的数量往往是非常大的,在需要标注的样本文本的数量非常大的情况下,人工对大量的样本文本标注的工作量是非常大的,导致人工成本高。
96.另一方面,针对“对样本文本中的全部内容人工分析”,发明人对广大客户分别与数据服务平台的工作人员之间的历史沟通记录中的内容进行了统计分析后发现:在一个客户与数据服务平台的工作人员之间的历史沟通记录中,对话内容很多,例如文本很多,且通常对话内容涉及的范围/场景较广且较复杂(例如,在购物/销售/电商等情况下对话内容涉及的范围/场景较广且较复杂等)。导致对样本文本中的全部内容人工分析的难度大,间接地会导致对样本文本标注的准确率低。
97.又一方面,往往很多对话内容中仅仅只有极小部分对话内容体现了客户的需求,也即,客户与数据服务平台的工作人员之间的历史沟通记录中体现客户的需求的内容往往非常少,也即,客户与数据服务平台的工作人员之间的历史沟通记录中关于客户的意图的稀疏性很大,导致对样本文本中的全部内容人工分析后搜寻到客户的需求的难度大且搜寻耗费的时间较长,导致对样本文本标注的效率低。
98.鉴于上述原因的分析,发明人发现,对样本文本标注的人工成本高是因为人工参与了标注,若对样本文本标注时没有人工参与,则可以降低人工成本。但是,要求在对样本文本标注时没有人工参与的情况下提高标注的效率以及提高标注的准确性。
99.为了在对样本文本标注时没有人工参与的情况下提高标注的效率以及提高标注的准确性,在目前搜集到大量的样本文本(包括广大客户分别与数据服务平台的工作人员之间的历史沟通记录等)的情况下,可以借助如下方式标注等。
100.具体地,参见图1,示出了本技术的一种数据处理方法,该方法应用于电子设备(包括数据服务平台等,也可以包括广大客户手持的设备等)中,该方法包括:
101.在步骤s101中,获取多个意图分类分别对应的意图标签。以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签。
102.多个文本可以是电子设备中事先存储的,文本中的内容可以体现出客户的意图分类。
103.意图分类可以包括:运营相关的意图、库存相关的意图、定制相关的意图、询价相关的意图、开店相关的意图、投诉相关的意图以及退款相关的意图等,本技术对意图分类的种类的和数量不做限定,具体可以根据实际情况而定。
104.多个文本可以是电子设备事先存储的或者是云端事先存储的等,如此,电子设备可以直接获取事先在本地存储的多个文本或者获取事先在云端存储的多个文本等。
105.在一个例子中,多个文本可以是在历史过程中在实际发生的事件中出现的文本,例如,在历史过程中客户与数据服务平台的工作人员之间的历史沟通记录等。对于任意一个客户端,在历史过程中该客户与数据服务平台的工作人员之间的历史沟通记录中的至少部分内容可以作为一个文本等。对于其他每一个客户,同样如此。
106.意图标签可以以词汇体现等,一个意图分类对应的意图标签的主旨与该意图分类相关,例如,可以体现该意图分类。
107.例如,运营相关的意图对应的意图标签可以包括:“运营”、“营销”、“经营”以及“运作”等,意图标签“运营”、“营销”、“经营”以及“运作”能够体现运营相关的意图的主旨。
108.在本技术中,多个意图分类可以是事先设置的,例如,通过至少一个关键词来标注意图分类,以实现设置意图分类,标注意图分类的关键词可以是人工设置的等。
109.例如,运营相关的意图的关键词可以包括“运营”等,库存相关的意图的关键词可
以包括“库存”,定制相关的意图的关键词可以包括“定制”等,询价相关的意图的关键词可以包括“询价”等,开店相关的意图的关键词可以包括“开店”等,投诉相关的意图的关键词可以包括“投诉”等以及退款相关的意图的关键词可以包括“退款”等。
110.由于标注意图分类的关键词也是词汇,如此,对于任意一个意图分类,可以将标注该意图分类的关键词作为该意图分类的意图标签。
111.在步骤s102中,对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括该意图分类对应的意图标签的文本,然后根据包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇,预测与该意图分类对应的意图标签的语义相关的第一词汇,并根据与该意图分类对应的意图标签的语义相关的第一词汇获取该意图分类对应的候选词。
112.对于多个意图分类中的其他每一个意图分类,同样如此,从而得到各个意图分类分别对应的候选词。
113.在一个实施例中,在多个文本中筛选包括该意图分类对应的意图标签的文本时,对于多个文本中的任意一个文本,可以在该文本包括的词汇中确定是否存在该意图分类对应的意图标签,在该文本包括的词汇中存在该意图分类对应的意图标签的情况下,则筛选该文本,在该文本包括的词汇中不存在该意图分类对应的意图标签的情况下,则不筛选该文本。对于多个文本中的其他每一个文本,同样如此,从而实现在多个文本中筛选出包括该意图分类对应的意图标签的文本。
114.在另一个实施例中,在根据包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇,预测与该意图分类对应的意图标签的语义相关的第一词汇时,可以在筛选出的文本中删除该意图分类对应的意图标签,得到包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇(筛选出的文本中的除该意图分类对应的意图标签以外的词汇之间的相对位置顺序与筛选出的文本中的这些词汇之间的相对位置顺序相同),或者,在筛选出的文本中使用预设标识符替换该意图分类对应的意图标签,从而得到包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇。
115.其中,预设标识符可以包括“*”、“#”或“@”等,具体可以根据实际情况而定,本技术对此不加以限定。
116.然后,将包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇输入全场景(涉及多个不同的场景)的预测模型中,以使初始的预测模型对包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇处理,得到与该意图分类对应的意图标签的语义相关的第一词汇。
117.其中,初始的预测模型可以是事先训练出的预测模型,可以是事先自行训练出的预测模型,也可以是借助的第三方平台事先训练出的模型等。
118.初始的预测模型可以是根据大量的训练文本训练得到,大量的训练文本中包括涉及各个场景的训练文本,包括涉及各个场景的训练文本可以理解为:在历史过程中分别在各个场景中实际生成的文本等。
119.可以使用涉及各个场景的大量的训练文本对模型训练(本技术对具体的训练方式不做限定),得到初始的预测模型(全场景的预测模型)。对模型训练时的“模型”可以包括wo-bert模型等。
120.在一个例子中,对于涉及各个场景的大量的训练文本中的任意一个训练文本,可
以将该训练文本分词,得到该训练文本中的每一个词汇,对于该训练文本中的任意一个词汇,可以获取包括该训练文本中的除该词汇以外的词汇,并将包括该训练文本中的除该词汇以外的词汇以及该词汇组成训练数据,其中,该训练数据中,包括该训练文本中的除该词汇以外的词汇为训练样本,该词汇为标注数据。对于该训练文本中的每一个词汇,同样如此,从而得到该训练文本对应的多个训练数据。
121.对于涉及各个场景的大量的训练文本中的其他每一个训练文本,同样如此,从而每一个训练文本分别对应的多个训练数据。
122.如此,可以使用每一个训练文本分别对应的多个训练数据对模型训练,直至模型中的参数收敛,从而得到初始的预测模型。
123.例如,使得初始的预测模型可以学习到“训练文本中的其中一个词汇”与“训练文本中的除这一个词汇以外的词汇”之间的语义关系以及上下文关系等,从而使得初始的预测模型可以根据文本中的除一个词汇以外的词汇预测出文本中这一个词汇或者预测出文本中的与这一个词汇语义相关的词汇等。
124.其中,两个词汇之间语义相关可以理解为:两个词汇之间的语义相似度大于预设相似度,预设相似度可以根据实际情况而定,本技术对此不加以限定。
125.语义相似度通过词汇的向量之间的欧氏距离等方式确定,本技术对确定语义相似度的方式不做限定。
126.初始的预测模型的功能包括:对于一个文本,根据包括这一个文本中的除这一个文本中的其中一个词汇以外的词汇,预测与这一个词汇的语义相关的词汇(例如,在这一个文本中的这一词汇的位置中可能出现的词等)。
127.在一个例子中,场景可以包括销售场景、游戏场景、直播场景、教学场景以及体育场景等。
128.然而,由于初始的预测模型是根据涉及各个场景的大量的训练文本训练得到的,如此,预测模型针对涉及各个场景的文本均有预测效果,但是针对涉及某一个场景的文本的预测效果并不是很突出。
129.而在一个可能的情况下,对于电子设备涉及的数据服务平台而言,有时候其提供的数据服务并不是均涉及各个场景,而是仅仅涉及部分场景,在一个可能的例子中,仅仅涉及一个场景。
130.如此,针对特定的场景,使用初始的预测模型的预测效果不是很突出。
131.例如,根据包括涉及特定场景的文本中的除一个词汇以外的词汇,使用初始的预测模型预测的与这一个词汇的语义相关的词汇的准确率不是很突出。
132.如此,为了提高根据包括涉及特定场景的文本中的除一个词汇以外的词汇,预测与这一个词汇的语义相关的词汇的准确率,在本技术另一实施例中,事先可以训练适用于不同的意图分类所涉及的场景的预测模型。
133.例如,对于任意一个意图分类,可以根据在该意图分类所涉及的场景中生成的训练文本对初始的预测模型(全场景的预测模型)优化(优化方式可以参见上述训练初始的预测模型的方式,在此不做详述),从得到适用于该意图分类所涉及的场景的预测模型,初始的预测模型是根据在各个场景中生成的文本训练得到的。对于其他每一个意图分类,同样如此。
134.在该意图分类所涉及的场景中生成的文本包括:在历史过程中在该意图分类所涉及的场景中实际发生的事件中出现的文本等。
135.如此,在需要根据包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇,预测与该意图分类对应的意图标签的语义相关的第一词汇时,可以确定该意图分类所涉及的目标场景,然后在适用于不同的场景的预测模型中,获取适用于目标场景的预测模型,之后可以将包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇输入适用于目标场景的预测模型中,以使适用于目标场景的预测模型对包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇处理,得到与该意图分类对应的意图标签的语义相关的第一词汇。
136.其中,适用于目标场景的预测模型是根据在目标场景中生成的文本对初始的预测模型优化后得到的。初始的预测模型是根据在各个场景中生成的文本训练得到的。
137.在本技术另一个实施例中,包括该意图分类对应的意图标签的文本可以为一个,也可以为至少两个等。与该意图分类对应的意图标签的语义相关的第一词汇为至少两个。
138.如此,根据与该意图分类对应的意图标签的语义相关的第一词汇获取该意图分类对应的候选词,可以通过如下流程实现,包括:
139.1021、统计与该意图分类对应的意图标签的语义相关的各个第一词汇分别在包括该意图分类对应的意图标签的文本中的第一出现频次。
140.对于与该意图分类对应的意图标签的语义相关的任意一个第一词汇,可以统计该第一词汇在包括该意图分类对应的意图标签的文本中出现的总次数,并作为该第一词汇在包括该意图分类对应的意图标签的文本中的第一出现频次等。
141.或者,统计该第一词汇在包括该意图分类对应的意图标签的文本中出现的总次数,以及,在包括该意图分类对应的意图标签的文本中统计包括该第一词汇的文本的数量,计算该总次数与该数量之间的比值,并作为该第一词汇在包括该意图分类对应的意图标签的文本中的第一出现频次等。
142.或者,统计该第一词汇在包括该意图分类对应的意图标签的文本中出现的总次数,以及,统计包括该意图分类对应的意图标签的文本的数量,计算该总次数与该数量之间的比值,并作为该第一词汇在包括该意图分类对应的意图标签的文本中的第一出现频次等。
143.对于与该意图分类对应的意图标签的语义相关的其他图每一个第一词汇,同样如此。
144.1022、在与该意图分类对应的意图标签的语义相关的各个第一词汇中,按照第一出现频次由高至低的顺序选择至少一个第一词汇。
145.在一个例子中,事先可以设置一个特定的数量,如此,可以在与该意图分类对应的意图标签的语义相关的各个第一词汇中,按照第一出现频次由高至低的顺序选择特定的数量个第一词汇。
146.特定的数量可以包括10、20或50等,具体可以根据实际情况而定,在此不做详述。
147.1023、根据选择的至少一个第一词汇获取该意图分类对应的候选词。
148.在本技术一个实施例中,本步骤可以通过如下流程实现,包括:
149.11)、在选择的至少一个第一词汇中,剔除在多个意图分类中的除该意图分类以外
的意图分类对应的候选词中出现的第一词汇。
150.在本技术中,对于选择的至少一个第一词汇中的任意一个第一词汇,可以获取该第一词汇在包括该意图分类对应的意图标签的文本中的显著性。
151.在该第一词汇在包括该意图分类对应的意图标签的文本中的显著性大于或等于预设显著性的情况下,保留在第一词汇。
152.或者,在该第一词汇在包括该意图分类对应的意图标签的文本中的显著性小于预设显著性的情况下,在选择的至少一个第一词汇中剔除该第一词汇。
153.其中,预设显著性可以包括15、16或17等,具体可以根据实际情况而定,本技术对此不加以限定。
154.12)、根据选择的至少一个第一词汇中的剩余的第一词汇,获取该意图分类对应的候选词。
155.例如,可以将选择的至少一个第一词汇中的剩余的第一词汇作为该意图分类对应的候选词等。
156.在本技术另一实施例中,获取该第一词汇在包括该意图分类对应的意图标签的文本中的显著性,可以通过如下流程实现,包括:
157.21)、统计该第一词汇分别在包括多个意图分类中的除该意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次。
158.例如,在多个意图分类中去除该意图分类,对于剩余的意图分类中的任意一个意图分类,可以统计该第一词汇在该任意一个意图分类对应的意图标签的文本中的第二出现频次。对于剩余的意图分类中的其他每一个意图分类,同样如此。从而得到多个第二出现频次,每一个第二出现频次分别对应剩余的意图分类中的不同的意图分类。
159.例如,假设多个意图分类包括意图分类a、意图分类b、意图分类c以及意图分类d等,且假设该意图分类为意图分类a,则得到的是该第一词汇在包括意图分类a对应的意图标签的文本中的第一出现频次,该第一词汇在包括意图分类b对应的意图标签的文本中的第二出现频次,该第一词汇在包括意图分类c对应的意图标签的文本中的第二出现频次以及该第一词汇在包括意图分类d对应的意图标签的文本中的第二出现频次。
160.22)、根据第一出现频次以及第二出现频次计算该第一词汇在包括该意图分类对应的意图标签的文本中的显著性。
161.在本技术中,可以根据第一出现频次以及第二出现频次,计算该第一词汇分别在包括每一个意图分类对应的意图标签的文本中的出现频次之间的期望,例如,可以将计算第一出现频次与各个第二出现频次之间的和值,然后统计第一出现频次以及各个第二出现频次的总数量,再计算该和值与该总数量之间的比值,得到该第一词汇分别在包括每一个意图分类对应的意图标签的文本中的出现频次之间的期望。
162.例如,在上述例子中,可以计算“该第一词汇在包括意图分类a对应的意图标签的文本中的第一出现频次”、“该第一词汇在包括意图分类b对应的意图标签的文本中的第二出现频次”、“该第一词汇在包括意图分类c对应的意图标签的文本中的第二出现频次”以及“该第一词汇在包括意图分类d对应的意图标签的文本中的第二出现频次”之间的和值。
163.由于在“该第一词汇在包括意图分类a对应的意图标签的文本中的第一出现频次”、“该第一词汇在包括意图分类b对应的意图标签的文本中的第二出现频次”、“该第一词
汇在包括意图分类c对应的意图标签的文本中的第二出现频次”以及“该第一词汇在包括意图分类d对应的意图标签的文本中的第二出现频次”中具有1个第一出现频次以及3个第二出现频次,如此,共4个出现频率,如此,可以计算该和值与数值4之间的比值,作为该第一词汇分别在包括意图分类a、b、c以及d分别对应的意图标签的文本中的出现频次之间的期望。
164.以及,可以计算该第一词汇分别在包括多个意图分类中的除该意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次之间的方差。
165.例如,可以计算“该第一词汇在包括意图分类b对应的意图标签的文本中的第二出现频次”、“该第一词汇在包括意图分类c对应的意图标签的文本中的第二出现频次”以及“该第一词汇在包括意图分类d对应的意图标签的文本中的第二出现频次”之间的方差,从而得到该第一词汇分别在包括意图分类b、c以及d分别对应的意图标签的文本中的第二出现频次之间的方差。
166.其中,方差的计具体算方式可以参加当前已经存在的方式,在此不做详述。
167.然后,可以根据该期望、该方差以及第一出现频次计算该第一词汇在包括该意图分类对应的意图标签的文本中的显著性。
168.例如,可以计算第一出现频次与该期望之间的差值,再计算该差值与该方差之间的比值,再根据该比值获取该第一词汇在包括该意图分类对应的意图标签的文本中的显著性,例如,将该比值作为该第一词汇在包括该意图分类对应的意图标签的文本中的显著性等。
169.在步骤s103中,对于多个文本中的任意一个文本,对于该文本中的任意一个词汇,根据包括该文本中的除该词汇以外的词汇,预测与该词汇的语义相关的第二词汇。根据分别与该文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取该文本体现的意图分类。
170.在本步骤中,对于多个文本中的任意一个文本,对于该文本中的任意一个词汇,根据包括该文本中的除该词汇以外的词汇,预测与该词汇的语义相关的第二词汇,对于该文本中的其他每一个词汇,同样如此,从而预测到分别与该文本中的各个词汇的语义相关的第二词汇。然后,根据分别与该文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取该文本体现的意图分类。
171.另外,对于多个文本中的其他每一个文本,同样如此,从而得到多个文本中的各个文本分别体现的意图分类。
172.在一个实施例中,“根据包括该文本中的除该词汇以外的词汇,预测与该词汇的语义相关的第二词汇”的方式可以参见步骤s102中的“根据包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇,预测与该意图分类对应的意图标签的语义相关的第一词汇”的方式,在此不做详述。
173.在另一个实施例中,根据与该词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取该文本体现的意图分类,可以通过如下流程实现,包括:
174.1031)、确定各个意图分类分别对应的候选词分别与第二词汇之间的相同的词汇的数量。
175.在本技术一个实施例中,对于多个意图分类中的任意一个意图分类,该意图分类对应的候选词往往为至少两个,得到的第二词汇也往往为至少两个等。
176.如此,可以确定该意图分类对应的候选词与第二词汇中重合的词汇的数量,即得到该意图分类对应的候选词与第二词汇之间的相同的词汇的数量。
177.对于多个意图分类中的其他每一个意图分类,同样如此。
178.1032)、根据对应的候选词与第二词汇之间的相同的词汇的数量大于预设数量的意图分类,获取该文本体现的意图分类。
179.预设数量可以是事先设置的,例如,包括10、15或20等,具体可以根据实际情况额定,本技术对此不加以限定。
180.在本步骤中,在各个意图分类分别对应的候选词分别与第二词汇之间的相同的词汇的数量中,选择大于预设数量的数量,被选择的数量是一些意图分类对应的候选词与第二词汇之间的相同的词汇的数量,可以根据这一些意图分类获取该文本体现的意图分类,例如,将这一些意图分类作为该文本体现的意图分类等。
181.在本技术中,获取多个意图分类分别对应的意图标签。以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签。对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括该意图分类对应的意图标签的文本,然后根据包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇,预测与该意图分类对应的意图标签的语义相关的第一词汇,并根据与该意图分类对应的意图标签的语义相关的第一词汇获取该意图分类对应的候选词。对于多个文本中的任意一个文本,对于该文本中的任意一个词汇,根据包括该文本中的除该词汇以外的词汇,预测与该词汇的语义相关的第二词汇。根据分别与该文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取该文本体现的意图分类。
182.在本技术中,根据包括该意图分类对应的意图标签的文本中的词汇之间的语义关系以及上下文关系,可以准确得到与该意图分类对应的意图标签的语义相关的第一词汇,进而准确得到该意图分类对应的候选词(可以为多个等),该意图分类对应的候选词可以体现该意图分类的主旨等。之后在需要得到一个文本的意图分类的情况下,就可以根据这一个文本中的词汇之间的语义关系或上下文关系以及各个意图分类分别对应的候选词获取这一个文本体现的意图分类。如此,通过本技术,可以自动化地得到文本体现的意图分类,可以没有人工参与,且由于借助的是文本中的词汇之间的语义关系或上下文关系以及统计的各个意图分类分别对应的候选词来得到文本体现的意图分类,如此可以提高得到的文本体现的意图分类的效率以及准确率等,以及,可以降低人工成本等。
183.例如,在训练模型之前需要对大量训练文本分别体现的意图分类标注的场景中,可以提高标注文本体现的意图分类的效率以及准确性以及降低人工成本。
184.其中,在步骤s101中,由于标注意图分类的关键词也是词汇,如此,对于任意一个意图分类,可以将标注该意图分类的关键词作为该意图分类的意图标签。
185.有时候标注一个意图分类的关键词可能为一个,如此,通过这一个关键词来标注的这一个意图分类的意图标签也为一个,这样会使得这一个意图分类的意图标签较少,完整性不足,健壮性不足,最终会使得获取文本体现的意图分类的准确率并不突出。
186.如此,为了提高获取文本体现的意图分类的准确率,则可以使得这一个意图分类对应的意图标签为多个,这一个意图分类对应的多个意图标签的语义分别与这一个意图分类是相关的。
187.为了使得这一个意图分类对应的意图标签为多个,在本技术另一实施例中,在标注这一个意图分类的关键词的基础上,可以扩展更多与标注这一个意图分类的关键词语义相关的词汇,并作为这一个意图分类对应的意图标签。
188.例如,在一个方式中,可以通过在字典中查找标注这一个意图分类的关键词的多个近义词或者同义词等,将查找到的近义词或同义词以及标注这一个意图分类的关键词作为这一个意图分类对应的意图标签等。
189.再例如,在另一个方式中,可以借助人工来扩展标注这一个意图分类的关键词的多个近义词或者同义词等,将查找到的近义词或同义词以及标注这一个意图分类的关键词作为这一个意图分类对应的意图标签等。
190.在例如,在又一个方式中,在获取多个意图分类分别对应的意图标签时,可以获取多个意图分类涉及的目标场景相关的多个场景词汇。多个意图分类涉及的目标场景可以为同一个场景等,例如,销售场景或游戏场景等,目标场景相关的多个场景词汇可以包括人工事先搜集的经常在目标场景中出现的词汇等。
191.对于多个意图分类中的任意一个意图分类,在标注该意图分类的关键词为一个的情况下,在多个场景词汇中筛选与标注该意图分类的一个关键词之间的语义相似度大于预设相似度的至少一个场景词汇,至少根据筛选的至少一个场景词汇获取该意图分类对应的意图标签。或者,在标注该意图分类的关键词为至少两个的情况下,在多个场景词汇中筛选与标注该意图分类的至少两个关键词之间的平均语义相似度大于预设相似度的至少一个场景词汇,至少根据筛选的至少一个场景词汇获取该意图分类对应的意图标签。
192.其中,语义相似度可以是词汇的向量之间的欧氏距离等,词汇之间的欧氏距离越近,则说明词汇之间的语义相似度越大,词汇之间的欧氏距离越远,则说明词汇之间的语义相似度越小。
193.对于多个意图分类中的其他每一个意图分类,同样如此。
194.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本技术所必须的。
195.参照图2,示出了本技术的一种数据处理装置的结构框图,所述装置包括:
196.第一获取模块11,用于获取多个意图分类分别对应的意图标签,以及,第二获取模块12,用于获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签;
197.筛选模块13,用于对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括所述意图分类对应的意图标签的文本,第一预测模块14,用于根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇,预测与所述意图分类对应的意图标签的语义相关的第一词汇,第三获取模块15,用于根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类对应的候选词;
198.第二预测模块16,用于对于多个文本中的任意一个文本,对于所述文本中的任意一个词汇,根据包括所述文本中的除所述词汇以外的词汇,预测与所述词汇的语义相关的第二词汇,第四获取模块17,用于根据分别与所述文本中的各个词汇的语义相关的第二词
汇以及各个意图分类分别对应的候选词,获取所述文本体现的意图分类。
199.在一个可选的实现方式中,所述第一获取模块包括:
200.第一获取子模块,用于获取多个意图分类涉及的目标场景相关的多个场景词汇;
201.第二获取子模块,用于对于多个意图分类中的任意一个意图分类,在标注所述意图分类的关键词为一个的情况下,在多个场景词汇中筛选与标注所述意图分类的一个关键词之间的语义相似度大于预设相似度的至少一个场景词汇;至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签;或者,在标注所述意图分类的关键词为至少两个的情况下,在多个场景词汇中筛选与标注所述意图分类的至少两个关键词之间的平均语义相似度大于预设相似度的至少一个场景词汇,至少根据筛选的至少一个场景词汇获取所述意图分类对应的意图标签。
202.在一个可选的实现方式中,与所述意图分类对应的意图标签的语义相关的第一词汇为至少两个;
203.所述第三获取模块包括:
204.统计子模块,用于统计与所述意图分类对应的意图标签的语义相关的各个第一词汇分别在包括所述意图分类对应的意图标签的文本中的第一出现频次;
205.选择子模块,用于在与所述意图分类对应的意图标签的语义相关的各个第一词汇中,按照第一出现频次由高至低的顺序选择至少一个第一词汇;
206.第三获取子模块,用于根据选择的至少一个第一词汇获取所述意图分类对应的候选词。
207.在一个可选的实现方式中,所述第三获取子模块包括:
208.剔除单元,用于在选择的至少一个第一词汇中,剔除在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇;
209.获取单元,用于根据选择的至少一个第一词汇中的剩余的第一词汇,获取所述意图分类对应的候选词。
210.在一个可选的实现方式中,所述剔除单元包括:
211.获取子单元,用于对于选择的至少一个第一词汇中的任意一个第一词汇,获取所述第一词汇在包括所述意图分类对应的意图标签的文本中的显著性;
212.剔除子单元,用于在所述显著性小于预设显著性的情况下,在选择的至少一个第一词汇中剔除所述第一词汇。
213.在一个可选的实现方式中,所述获取子单元具体用于:统计所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次;根据第一出现频次以及第二出现频次计算所述显著性。
214.在一个可选的实现方式中,所述获取子单元具体用于:根据第一出现频次以及第二出现频次,计算所述第一词汇分别在包括每一个意图分类对应的意图标签的文本中的出现频次之间的期望,以及,计算所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本中的第二出现频次之间的方差;
215.根据所述期望、所述方差以及第一出现频次计算所述显著性。
216.在一个可选的实现方式中,所述获取子单元具体用于:计算第一出现频次与所述期望之间的差值;计算所述差值与所述方差之间的比值;根据所述比值获取所述显著性。
217.在一个可选的实现方式中,所述第一预测模块包括:
218.第一确定子模块,用于确定所述意图分类所涉及的目标场景;
219.第四获取子模块,用于在适用于不同的场景的预测模型中,获取适用于目标场景的预测模型;
220.输入子模块,用于将包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇输入适用于目标场景的预测模型中,以使适用于目标场景的预测模型对包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇处理,得到与所述意图分类对应的意图标签的语义相关的第一词汇。
221.在一个可选的实现方式中,适用于目标场景的预测模型是根据在目标场景中生成的文本对初始的预测模型优化后得到的,初始的预测模型是根据在各个场景中生成的文本训练得到的。
222.在一个可选的实现方式中,所述第四获取模块包括:
223.第二确定子模块,用于确定各个意图分类分别对应的候选词分别与第二词汇之间的相同的词汇的数量;
224.第五获取子模块,用于根据对应的候选词与第二词汇之间的相同的词汇的数量大于预设数量的意图分类,获取所述文本体现的意图分类。
225.在本技术中,获取多个意图分类分别对应的意图标签。以及,获取多个文本,文本中包括多个词汇,文本中包括的多个词汇中包括其中一个意图分类对应的意图标签。对于多个意图分类中的任意一个意图分类,在多个文本中筛选包括该意图分类对应的意图标签的文本,然后根据包括筛选出的文本中的除该意图分类对应的意图标签以外的词汇,预测与该意图分类对应的意图标签的语义相关的第一词汇,并根据与该意图分类对应的意图标签的语义相关的第一词汇获取该意图分类对应的候选词。对于多个文本中的任意一个文本,对于该文本中的任意一个词汇,根据包括该文本中的除该词汇以外的词汇,预测与该词汇的语义相关的第二词汇。根据分别与该文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词,获取该文本体现的意图分类。
226.在本技术中,根据包括该意图分类对应的意图标签的文本中的词汇之间的语义关系以及上下文关系,可以准确得到与该意图分类对应的意图标签的语义相关的第一词汇,进而准确得到该意图分类对应的候选词(可以为多个等),该意图分类对应的候选词可以体现该意图分类的主旨等。之后在需要得到一个文本的意图分类的情况下,就可以根据这一个文本中的词汇之间的语义关系或上下文关系以及各个意图分类分别对应的候选词获取这一个文本体现的意图分类。如此,通过本技术,可以自动化地得到文本体现的意图分类,可以没有人工参与,且由于借助的是文本中的词汇之间的语义关系或上下文关系以及统计的各个意图分类分别对应的候选词来得到文本体现的意图分类,如此可以提高得到的文本体现的意图分类的效率以及准确率等,以及,可以降低人工成本等。
227.例如,在训练模型之前需要对大量训练文本分别体现的意图分类标注的场景中,可以提高标注文本体现的意图分类的效率以及准确性以及降低人工成本。
228.本技术实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本技术实施例中各方法步骤的指令(instructions)。
229.本技术实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个的方法。本技术实施例中,电子设备包括服务器、网关、子设备等,子设备为物联网设备等设备。
230.本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集群)、终端设备如iot设备等电子设备。
231.图3示意性地示出了可被用于实现本技术中的各个实施例的示例性装置1300。
232.对于一个实施例,图3示出了示例性装置1300,该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(nvm)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310,和被耦合到控制模块1304的网络接口1312。
233.处理器1302可包括一个或多个单核或多核处理器,处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1300能够作为本技术实施例中网关等服务器设备。
234.在一些实施例中,装置1300可包括具有指令1314的一个或多个计算机可读介质(例如,存储器1306或nvm/存储设备1308)和与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中的动作的一个或多个处理器1302。
235.对于一个实施例,控制模块1304可包括任意适当的接口控制器,以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。
236.控制模块1304可包括存储器控制器模块,以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
237.存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例,存储器1306可包括任意适当的易失性存储器,例如,适当的dram。在一些实施例中,存储器1306可包括双倍数据速率四同步动态随机存取存储器(ddr4sdram)。
238.对于一个实施例,控制模块1304可包括一个或多个输入/输出控制器,以向nvm/存储设备1308及(一个或多个)输入/输出设备1310提供接口。
239.例如,nvm/存储设备1308可被用于存储数据和/或指令1314。nvm/存储设备1308可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
240.nvm/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,nvm/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。
241.(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信,输入/输出设备1310可以包括通信组件、拼音组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信,装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如wifi、2g、3g、4g、5g等,或它们的组合进行无线通信。
242.对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
243.在各个实施例中,装置1300可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1300可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1300包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
244.本技术实施例提供了一种电子设备,包括:一个或多个处理器;和,其上存储有指令的一个或多个机器可读介质,当由一个或多个处理器执行时,使得电子设备执行如本技术中一个或多个的方法。
245.对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
246.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
247.本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、和流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程信息处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
248.这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
249.这些计算机程序指令也可装载到计算机或其他可编程信息处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
250.尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例和落入本技术实施例范围的所有变更和修改。
251.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
252.以上对本技术所提供的数据处理方法及装置,进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献