一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于对话数据识别有效文本的方法、系统、装置和介质与流程

2022-05-27 02:34:22 来源:中国专利 TAG:


1.本技术涉及自然语言处理技术领域,特别是涉及基于对话数据识别有效文本的方法、系统、装置和介质。


背景技术:

2.现如今,随着电商产业的不断发现,越来越多的人在电商平台进行购物,在私域电商场景下,如果某商家平台内出现大批量客户对商品进行询问时,此时,可能会出现商家无法快速回答每一个客户的问题,造成消息遗漏的情况,还可能会出现由于对话数据太多,导致商家很难及时确认是否已回复每个客户问题的情况。这就会导致商家丢失潜在客户。此外,面对大批量的对话数据,商家也很难从中快速准确的辨别筛选出有效文本。
3.目前针对相关技术中如何从大批量的对话数据中快速准确的识别出有效文本的问题,尚未提出有效的解决方案。


技术实现要素:

4.本技术实施例提供了一种基于对话数据识别有效文本的方法、系统、装置和介质,以至少解决相关技术中如何从大批量的对话数据中快速准确的识别出有效文本的问题。
5.第一方面,本技术实施例提供了一种基于对话数据识别有效文本的方法,所述方法包括:
6.获取大批量的对话数据,通过所述对话数据训练商机识别模型,得到训练好的商机识别模型;
7.获取当前对话数据,通过所述训练好的商机识别模型对所述当前对话数据进行有效文本识别,并将识别结果返回到所述商机识别模型中;
8.对所述识别结果进行复核优化,得到新的训练语料,并通过所述新的训练语料对所述商机识别模型进行训练,得到优化后的商机识别模型。
9.在其中一些实施例中,通过所述训练好的商机识别模型对所述当前对话数据进行有效文本识别包括:
10.对识别出的有效文本进行高亮打标,将打标结果发送到所述商机识别模型中。
11.在其中一些实施例中,在得到优化后的商机识别模型之后,所述方法包括:
12.获取新的对话数据,通过所述新的对话数据,定时对所述优化后的商机识别模型进行训练。
13.在其中一些实施例中,所述商机识别模型包括bert文本二分类模型。
14.第二方面,本技术实施例提供了一种基于对话数据识别有效文本的系统,所述系统包括:
15.训练模块,用于获取大批量的对话数据,通过所述对话数据训练商机识别模型,得到训练好的商机识别模型;
16.识别模块,用于获取当前对话数据,通过所述训练好的商机识别模型对所述当前
对话数据进行有效文本识别,并将识别结果返回到所述商机识别模型中;
17.优化模块,用于对所述识别结果进行复核优化,得到新的训练语料,并通过所述新的训练语料对所述商机识别模型进行训练,得到优化后的商机识别模型。
18.在其中一些实施例中,所述识别模块,还用于对识别出的有效文本进行高亮打标,将打标结果发送到所述商机识别模型中。
19.在其中一些实施例中,所述系统还包括定时训练模块,在得到优化后的商机识别模型之后,
20.所述定时训练模块,用于获取新的对话数据,通过所述新的对话数据,定时对所述优化后的商机识别模型进行训练。
21.在其中一些实施例中,所述商机识别模型包括bert文本二分类模型。
22.第三方面,本技术实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于对话数据识别有效文本的方法。
23.第四方面,本技术实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于对话数据识别有效文本的方法。
24.相比于相关技术,本技术实施例提供的基于对话数据识别有效文本的方法,获取大批量的对话数据,通过对话数据训练商机识别模型,得到训练好的商机识别模型;接着,获取当前对话数据,通过训练好的商机识别模型对当前对话数据进行有效文本识别,并将识别结果返回到商机识别模型中;最后,对识别结果进行复核优化,得到新的训练语料,并通过新的训练语料对商机识别模型进行训练,得到优化后的商机识别模型。
25.本技术首先对商机识别模型进行训练,提高识别准备率,然后基于训练好的商机识别模型对每一个语料问题进行识别,快速识别出该语料是否为商机,并将语料以及结果进行保存,最后对识别结果进行复核优化,通过优化后的语料对商机识别模型进行训练,得到优化完全的商机识别模型,帮助商家从大批量对话数据中筛选出带有商机的有效文本,提高商家回复用户问题的效率,解决了如何从大批量的对话数据中快速准确的识别出有效文本的问题,提高了识别准确度和识别效率。
附图说明
26.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
27.图1是根据本技术实施例的基于对话数据识别有效文本的方法的应用环境示意图;
28.图2是根据本技术实施例的基于对话数据识别有效文本的方法的流程图;
29.图3是根据本技术实施例的基于对话数据识别有效文本的系统的结构框图;
30.图4是根据本技术实施例的另一种基于对话数据识别有效文本的系统的结构框图;
31.图5是根据本技术实施例的电子设备的内部结构示意图。
等,作为模型的训练语料,训练商机识别模型,模型训练具体步骤如下:
39.1、环境准备,安装bert,构建预设商机识别模型;
40.2、准备对话数据集,其中,该数据集包含文本列(text)和分类列(class);
41.3、通过sklearn.model_selection的train_test_split将对话数据集分为训练集和测试集;
42.4、通过训练集数据训练商机识别模型,具体过程包括:
43.a.引入dataprocessor基类,为模型提供获取训练集、验证集、测试集和标签的方法;
44.b.继承dataprocessor,自定义任务类mytaskprocessor,并配置训练参数;
45.c.通过主程序对模型先进行三次预训练,之后扩大三倍预训练次数训练模型。
46.5、使用训练好的模型进行预测,其中,需要将测试集命名为test.csv,输出的结果中每一行代表一个测试样本对应的预测输出,每一列代表对应于不同类别的结果;
47.6、发布部署训练好的商机识别模型。
48.优选的,本实施例中选用bert文本二分类模型(bert binary classification),作为商机识别模型。
49.需要说明的是,bert文本二分类模型对二类别任务进行分类识别,具体分类过程如下:
50.s1、提取特定对象的特征值,并对该特征值进行打分;
51.s2、对提取到的特征值进行排序;
52.s3、通过roc curve获取合适的阈值,使得特征值在该阈值下,通过相对较低的代价进行分类识别。
53.本实施例首先对商机识别模型进行初步训练,有效优化提高了模型的识别准确率;
54.步骤s202,获取当前对话数据,通过训练好的商机识别模型对当前对话数据进行有效文本识别,并将识别结果返回到商机识别模型中;
55.本实施例中,将步骤s201中训练好的商机识别模型与商家的电商平台中的对话窗口进行对接,获取对话窗口中的当前对话数据,通过训练好的商机识别模型对当前对话数据进行有效文本识别,对文本中识别出的有效文本,即商机,进行高亮打标,并将识别打标结果返回到商机识别模型中。
56.需要说明的是,当识别到对话数据中的有效文本,即商机时,如果商家不在当前页面,页面会弹出消息推送框,提醒商家对话数据中出现的有效文本。
57.本实施例能实现有效文本的即时反馈;
58.步骤s203,对识别结果进行复核优化,得到新的训练语料,并通过新的训练语料对商机识别模型进行训练,得到优化后的商机识别模型。
59.本实施例对步骤s202中得到的识别结果进行复核优化,并对识别结果中的有效文本查看是否已经打标,如果已经打标则确认数据的有效性,如果数据是有效的那么对识别结果进行优化更改,反之,如果数据是无效的,那么保留原有的识别结果;
60.进一步地,将上述优化后的识别结果作为新的训练语料,对商机识别模型再次进行训练,得到优化后的商机识别模型。通过再次训练优化模型,可有效提高模型的识别准确
率。
61.在其中一些实施例中,在得到优化后的成熟商机识别模型之后,将商机识别模型应用到更多的业务领域中,获取更多的新的对话数据,通过新的对话数据,定时对优化后的商机识别模型进行训练,从而对模型不断的优化,形成一个良好的闭环,提高模型的识别准确率,帮助商家更好的维护平台上的私域用户。
62.通过上述步骤s201至步骤s203,本实施例首先对商机识别模型进行训练,提高识别准备率,然后基于训练好的商机识别模型对每一个语料问题进行识别,快速识别出该语料是否为商机,并将语料以及结果进行保存,最后对识别结果进行复核优化,通过优化后的语料对商机识别模型进行训练,得到优化完全的商机识别模型,帮助商家从大批量对话数据中筛选出带有商机的有效文本,提高商家回复用户问题的效率,解决了如何从大批量的对话数据中快速准确的识别出有效文本的问题,提高了识别准确度和识别效率。
63.需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
64.本实施例还提供了一种基于对话数据识别有效文本的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
65.图3是根据本技术实施例的基于对话数据识别有效文本的系统的结构框图,如图3所示,该系统包括训练模块31、识别模块32和优化模块33:
66.训练模块31,用于获取大批量的对话数据,通过对话数据训练商机识别模型,得到训练好的商机识别模型;识别模块32,用于获取当前对话数据,通过训练好的商机识别模型对当前对话数据进行有效文本识别,并将识别结果返回到商机识别模型中;优化模块33,用于对识别结果进行复核优化,得到新的训练语料,并通过新的训练语料对商机识别模型进行训练,得到优化后的商机识别模型。
67.通过上述系统,本实施例首先对商机识别模型进行训练,提高识别准备率,然后基于训练好的商机识别模型对每一个语料问题进行识别,快速识别出该语料是否为商机,并将语料以及结果进行保存,最后对识别结果进行复核优化,通过优化后的语料对商机识别模型进行训练,得到优化完全的商机识别模型,帮助商家从大批量对话数据中筛选出带有商机的有效文本,提高商家回复用户问题的效率,解决了如何从大批量的对话数据中快速准确的识别出有效文本的问题,提高了识别准确度和识别效率。
68.在其中一些实施例中,系统还包括定时训练模块,图4是根据本技术实施例的另一种基于对话数据识别有效文本的系统的结构框图,如图4所示,该系统包括训练模块31、识别模块32、优化模块33和定时训练模块41。在得到优化后的成熟商机识别模型之后,将商机识别模型应用到更多的业务领域中,定时训练模块41,用于获取更多的新的对话数据,通过新的对话数据,定时对优化后的商机识别模型进行训练,从而对模型不断的优化,形成一个良好的闭环,提高模型的识别准确率,帮助商家更好的维护平台上的私域用户。
69.需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
70.此外,需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
71.本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
72.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
73.另外,结合上述实施例中的基于对话数据识别有效文本的方法,本技术实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于对话数据识别有效文本的方法。
74.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于对话数据识别有效文本的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
75.在一个实施例中,图5是根据本技术实施例的电子设备的内部结构示意图,如图5所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图5所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于对话数据识别有效文本的方法,数据库用于存储数据。
76.本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
77.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram
(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
78.本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
79.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献