一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

筛选目标文本的方法和装置与流程

2021-12-03 23:34:00 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种筛选目标文本的方法和装置。


背景技术:

2.在很多应用场景下,需要筛选出特定的文本,例如从评论中筛选出负面评论文本。在现有技术中,筛选目标文本的方法有两种:第一种是基于规则筛选出目标文本,比如使用正则规则匹配给定关键词来筛选出目标文本;第二种是基于训练好的神经网络模型筛选出目标文本。
3.在实现本发明过程中,发明人发现现有筛选目标文本的方法至少存在如下问题:第一、对于现有基于规则筛选目标文本的方法来说,由于规则仅能满足指定范围内的文本提取,例如正则规则只能提取出与之完全匹配的文本,稍有变通则无效,故其泛化能力差。第二、对于现有基于模型筛选目标文本的方法来说,由于通常构建的模型仅考虑了文本作为输入,因此若需要对模型施加明确的规则干预,则需要更新训练样本后重新训练模型,难以对模型进行“热插拔”更新。


技术实现要素:

4.有鉴于此,本发明提供一种筛选目标文本的方法和装置,能够在保持模型泛化能力的情况下,提高筛选目标文本的准确性和灵活性。
5.为实现上述目的,根据本发明的一个方面,提供了一种筛选目标文本的方法。
6.本发明的筛选目标文本的方法包括:根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器;将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目标文本。
7.可选地,所述根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器包括:对训练用筛选规则集合进行向量化处理,以得到规则特征向量,并将所述规则特征向量存储于记忆模块;对训练用文本进行向量化处理,以得到训练用文本特征向量;将所述规则特征向量和所述训练用文本特征向量输入文本类别预测函数,以得到预测概率值;根据所述预测概率值计算损失函数的梯度值,并根据所述损失函数的梯度值对所述记忆网络模型的参数进行更新;在满足训练停止条件时,将最终训练得到的记忆网络模型作为所述文本分类器。
8.可选地,所述将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目标文本包括:对待检测文本进行向量化处理,以得到待检测文本特征向量;将所待检测文本特征向量和所述记忆模块存储的规则特征向量输入文本类别预测函数,以得到预测概率值;根据所述预测概率值确定所述待检测文本是否为目标文本。
9.可选地,所述方法还包括:按照如下方式对所述训练用筛选规则集合进行预处理:对训练用筛选规则集合中的筛选规则进行格式转换,以将其转换成符合预设格式的字符串;和/或,对训练用筛选规则集合中的筛选规则进行两两比较,以判断一个规则是否包含
了另一个规则,以及,在判断结果为是的情况下,去除被包含的规则。
10.可选地,所述方法还包括:按照如下方式对所述训练用文本进行预处理:去除训练用文本中的停用词、以及无用符号,并对训练用文本进行分词处理。
11.可选地,所述方法还包括:对所述记忆模块存储的规则特征向量进行更新,以使文本分类器采用更新后的规则特征向量进行文本检测。
12.为实现上述目的,根据本发明的另一个方面,提供了一种筛选目标文本的装置。
13.本发明的筛选目标文本的装置包括:训练模块,用于根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器;检测模块,用于将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目标文本。
14.可选地,所述训练模块根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器包括:所述训练模块对训练用筛选规则集合进行向量化处理,以得到规则特征向量,并将所述规则特征向量存储于记忆模块;所述训练模块对训练用文本进行向量化处理,以得到训练用文本特征向量;所述训练模块将所述规则特征向量和所述训练用文本特征向量输入文本类别预测函数,以得到预测概率值;所述训练模块根据所述预测概率值计算损失函数的梯度值,并根据所述损失函数的梯度值对所述记忆网络模型的参数进行更新;所述训练模块在满足训练停止条件时,将最终训练得到的记忆网络模型作为所述文本分类器。
15.为实现上述目的,根据本发明的再一个方面,提供了一种电子设备。
16.本发明的电子设备,包括:一个或多个处理器;以及,存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的筛选目标文本的方法。
17.为实现上述目的,根据本发明的又一个方面,提供了一种计算机可读介质。
18.本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明的筛选目标文本的方法。
19.上述发明中的一个实施例具有如下优点或有益效果:通过根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器,将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目标文本这些步骤,能够在保持模型泛化能力的情况下,提高筛选目标文本的准确性和灵活性。
20.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
21.附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
22.图1是根据本发明第一实施例的筛选目标文本的方法的主要流程示意图;
23.图2是根据本发明第二实施例的筛选目标文本的方法的主要流程示意图;
24.图3是根据本发明第三实施例的筛选目标文本的方法的整体原理示意图;
25.图4是根据本发明第四实施例的筛选目标文本的装置的主要模块示意图;
26.图5是本发明实施例可以应用于其中的示例性系统架构图;
27.图6是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
28.以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
29.需要指出的是,在不影响本发明实施的情况下,本发明的各个实施例以及实施例中的各个技术特征可以相互组合。
30.图1是根据本发明第一实施例的筛选目标文本的方法的主要流程示意图。如图1所示,本发明实施例的筛选目标文本的方法包括:
31.步骤s101:根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器。
32.记忆网络模型,泛指包含记忆模块的各类神经网络模型,通过在模型中引入可变长的新的变量,来为模型引入额外先验知识。示例性地,记忆网络模型包括lstm(长短期记忆)模型、rnn(循环神经网络)模型、bert模型、或者xlnet模型等神经网络模型。
33.示例性地,训练用筛选规则集合可包括一条或多条文本筛选规则。具体实施时,可根据不同的业务场景,选取不同的语料作为训练用文本,以及设置不同的文本筛选规则。例如,在需要筛选出负面评论文本的场景中,可选取网站上的部分评论文本作为训练用文本,并设置多个用于筛选负面评论文本的正则规则。其中,所述正则规则可包括多个指定关键词,比如“假货”、“变质”等等。
34.在本发明实施例中,通过选用记忆网络模型作为文本分类模型,并将训练用筛选规则集合和训练用文本作为输入对文本分类模型进行训练,能够在保持文本分类模型泛化能力的情况下,提高筛选规则对模型的干预能力,提高文本分类器的分类准确性和灵活性等性能。
35.步骤s102:将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目标文本。
36.示例性地,所述待检测文本的分类结果可以为:该待检测文本是目标文本,或者该待检测文本不是目标文本。例如,在需要筛选出负面评论的场景中,所述待检测文本的分类结果为:该待检测文本是负面评论,或者该待检测文本不是负面评论。
37.在本发明实施例中,通过根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器,将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目标文本这些步骤,能够在保持模型泛化能力的情况下,提高筛选目标文本的准确性和灵活性。
38.图2是根据本发明第二实施例的筛选目标文本的方法的主要流程示意图。如图2所示,本发明实施例的筛选目标文本的方法包括:
39.步骤s201:对训练用筛选规则集合进行预处理。
40.在一个可选示例中,为了便于对筛选规则进行后续处理,可按照如下方式对训练用筛选规则集合进行预处理:对训练用筛选规则集合中的筛选规则进行格式转换,以将其转换成符合预设格式的字符串。例如,所述预设格式可以为正则表达式格式,或者其他格式。
41.在另一个可选示例中,考虑到筛选规则可能存在互相包含、重叠(所述重叠可看作一种特殊的包含关系)等情况,这可能会影响到文本分类模型的训练,比如模型在学习过程中对某一些规则产生倾向。因此,在该可选示例中,可按照如下方式对训练用筛选规则集合进行预处理:对训练用筛选规则集合中的筛选规则进行两两比较,以判断一个规则是否包含了另一个规则,以及,在判断结果为是的情况下,去除被包含的规则。
42.此外,在具体实施时,还可将以上两个可选示例中的筛选规则预处理方式相结合,以有助于提高文本分类模型的训练效率和训练效果。
43.步骤s202:对训练用文本进行预处理。
44.示例性地,可按照如下方式对训练用文本进行预处理:1)去除停用词,比如,对于“的”等无意义的词语可将其从文本中去除;2)去除无用符号,比如,对于空格等无意义的符号可将其从文本中去除;3)分词处理。另外,还可对文本进行剪裁等预处理,比如对于具有较为固定格式的文本,可以从中选取最重要的一部分,以降低其他无用文本对文本分类模型训练的干扰。
45.在本发明实施例中,通过对训练用文本进行预处理,能够减少文本中的冗余信息,降低模型训练的难度。
46.步骤s203:根据预处理后的训练用筛选规则集合和预处理后的训练用文本对记忆网络模型进行训练,以得到文本分类器。
47.记忆网络模型,泛指包含记忆模块的各类神经网络模型,通过在模型中引入可变长的新的变量,来为模型引入额外先验知识。示例性地,记忆网络模型包括lstm(长短期记忆)模型、rnn(循环神经网络)模型、bert模型、或者xlnet模型等神经网络模型。
48.示例性地,步骤s203具体包括:步骤a1至步骤a5。
49.步骤a1:对训练用筛选规则集合进行向量化处理,以得到规则特征向量,并将所述规则特征向量存储于记忆模块。
50.示例性地,当筛选规则为关键词形式的规则时,可通过word2vec模型(一种用来产生词向量的模型)等将关键词中的每个字映射为字向量,然后将各个字向量通过相加、或者取平均等运算方式聚合为一个固定长度的向量,并将其作为筛选规则的向量表达,即规则特征向量。示例性地,当筛选规则以图像的形式存在,可通过cnn模型(卷积神经网络模型)等将其转化为规则特征向量。
51.步骤a2:对训练用文本进行向量化处理,以得到训练用文本特征向量。
52.示例性地,可将文本中的最小独立单元(比如中文的一个字,英文中的一个单词)编码为一个整形数字,然后将整形数字映射为一个向量单元(字向量或者词向量),进而可得到由这些向量单元融合而成的文本的向量表达,即文本特征向量。
53.步骤a3:将所述规则特征向量和所述训练用文本特征向量输入文本类别预测函数,以得到预测概率值。
54.步骤a4:根据所述预测概率值计算损失函数的梯度值,并根据所述损失函数的梯度值对所述记忆网络模型的参数进行更新。
55.步骤a5:在满足训练停止条件时,将最终训练得到的记忆网络模型作为所述文本分类器。
56.步骤s204:将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目
标文本。
57.其中,所述待检测文本的分类结果可以为:该待检测文本是目标文本,或者该待检测文本不是目标文本。例如,在需要筛选出负面评论的场景中,所述待检测文本的分类结果为:该待检测文本是负面评论,或者该待检测文本不是负面评论。
58.示例性地,步骤s204具体包括:对待检测文本进行向量化处理,以得到待检测文本特征向量;将所待检测文本特征向量和所述记忆模块存储的规则特征向量输入文本类别预测函数,以得到预测概率值;根据所述预测概率值确定所述待检测文本是否为目标文本。
59.进一步,在步骤s204之前,本发明实施例的方法还可包括以下步骤:对待检测文本进行预处理。示例性地,可按照如下方式对待检测文本进行预处理:1)去除停用词,比如,对于“的”等无意义的词语可将其从文本中去除;2)去除无用符号,比如,对于空格等无意义的符号可将其从文本中去除;3)分词处理。另外,还可对文本进行剪裁等预处理,比如对于具有较为固定格式的文本,可以从中选取最重要的一部分。在本发明实施例中,通过对待检测文本进行预处理,能够减少文本中的冗余信息,降低模型预测时的难度。
60.进一步,本发明实施例的方法还可包括以下步骤:对所述记忆模块存储的规则特征向量进行更新,以使文本分类器采用更新后的规则特征向量进行文本检测。在本发明实施例中,在检测阶段输入的规则是通过预训练模型(比如word2vec模型)获得的向量。因此若发生规则的替换,通过预训练模型得到的新的规则特征向量也符合文本分类模型输入的分布,故无需重新训练文本分类模型。
61.在本发明实施例中,通过以上步骤至少能够带来如下有益效果:在保持模型泛化能力的情况下,提高了筛选规则对模型的干预能力;在不重新训练模型的前提下,仅通过更新筛选规则即可对模型的预测结果施加影响;通过引进筛选规则这一先验知识,提高了模型筛选目标文本的性能。
62.图3是根据本发明第三实施例的筛选目标文本的方法的整体原理示意图。如图3所示,本发明实施例的筛选目标文本的方法主要包括:训练阶段和预测阶段。
63.其中,训练阶段主要包括以下步骤:对训练用筛选规则集合和训练用文本进行预处理;然后,根据预处理后的训练用筛选规则集合和预处理后的训练用文本对记忆网络模型进行预处理,以得到文本分类器。
64.其中,预测阶段主要包括以下步骤:对待检测文本进行预处理;然后,将预处理后的待检测文本输入文本分类器,以生成预测结果,即所述待检测文本是否为目标文本。另外,在使用过程中可以通过对筛选规则的热更新来影响文本分类器,并最终对预处理后的待检测文本生成预测结果,作为筛选目标文本的根据。在本发明实施例中,由于记忆模块是通过预训练模型所获得的规则特征向量,因此若筛选规则发生热更新,新加入的规则特征向量也符合模型输入的分布,故无需重新训练记忆网络模型。另外,若模型的训练不会对规则之间的关系造成破坏,也可对预训练模型中与规则特征向量有关的参数进行同步更新。
65.在本发明实施例中,通过图3所示流程,能够在保持模型泛化能力的情况下,提高筛选目标文本的准确性和灵活性。
66.图4是根据本发明第四实施例的筛选目标文本的装置的主要模块示意图。如图4所示,本发明实施例的筛选目标文本的装置400包括:训练模块401和检测模块402。
67.训练模块401,用于根据训练用筛选规则集合和训练用文本对记忆网络模型进行
训练,以得到文本分类器。
68.记忆网络模型,泛指包含记忆模块的各类神经网络模型,通过在模型中引入可变长的新的变量,来为模型引入额外先验知识。示例性地,记忆网络模型包括lstm(长短期记忆)模型、rnn(循环神经网络)模型、bert模型、或者xlnet模型等神经网络模型。
69.示例性地,训练用筛选规则集合可包括一条或多条文本筛选规则。具体实施时,可根据不同的业务场景,选取不同的语料作为训练用文本,以及设置不同的文本筛选规则。例如,在需要筛选出负面评论文本的场景中,可选取网站上的部分评论文本作为训练用文本,并设置多个用于筛选负面评论文本的正则规则。其中,所述正则规则可包括多个指定关键词,比如“假货”、“变质”等等。
70.示例性地,训练模块401根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器包括:训练模块401对训练用筛选规则集合进行向量化处理,以得到规则特征向量,并将所述规则特征向量存储于记忆模块;训练模块401对训练用文本进行向量化处理,以得到训练用文本特征向量;训练模块401将所述规则特征向量和所述训练用文本特征向量输入文本类别预测函数,以得到预测概率值;训练模块401根据所述预测概率值计算损失函数的梯度值,并根据所述损失函数的梯度值对所述记忆网络模型的参数进行更新;训练模块401在满足训练停止条件时,将最终训练得到的记忆网络模型作为所述文本分类器。
71.在本发明实施例中,通过选用记忆网络模型作为文本分类模型,并将训练用筛选规则集合和训练用文本作为输入对文本分类模型进行训练,能够在保持文本分类模型泛化能力的情况下,提高筛选规则对模型的干预能力,提高文本分类器的分类准确性和灵活性等性能。
72.检测模块402,用于将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目标文本。
73.示例性地,所述待检测文本的分类结果可以为:该待检测文本是目标文本,或者该待检测文本不是目标文本。例如,在需要筛选出负面评论的场景中,所述待检测文本的分类结果为:该待检测文本是负面评论,或者该待检测文本不是负面评论。
74.在本发明实施例中,通过训练模块根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器,通过检测模块将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目标文本,能够在保持模型泛化能力的情况下,提高筛选目标文本的准确性和灵活性。
75.图5示出了可以应用本发明实施例的筛选目标文本的方法或筛选目标文本的装置的示例性系统架构500。
76.如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
77.用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
78.终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包
括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
79.服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类应用或网站提供支持的后台管理服务器。后台管理服务器可以对接收到的筛选目标文本的请求进行处理,并将处理结果(比如筛选结果)反馈给终端设备。
80.需要说明的是,本发明实施例所提供的筛选目标文本的方法可以由服务器505执行,相应地,筛选目标文本的装置设置于服务器505中。
81.应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
82.下面参考图6,其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
83.如图6所示,计算机系统600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中,还存储有系统600操作所需的各种程序和数据。cpu 601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
84.以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
85.特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本发明的系统中限定的上述功能。
86.需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可
读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
87.附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
88.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括训练模块和检测模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,检测模块还可以被描述为“对待检测文本进行检测的模块”。
89.作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:根据训练用筛选规则集合和训练用文本对记忆网络模型进行训练,以得到文本分类器;将待检测文本输入所述文本分类器,以确定所述待检测文本是否为目标文本。
90.根据本发明实施例的技术方案,能够在保持模型泛化能力的情况下,提高筛选目标文本的准确性和灵活性。
91.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献