1.本发明属于界定上下文窗口文本范围领域,具体涉及一种界定上下文窗口文本范围的方法、系统、介质及电子设备。
背景技术:
2.在服务领域场景中,需要对文本内容进行语义结构化分析来实现数据抽象。对于单一句子进行分词、匹配得到的结果并不能推断出真实的语义。大量语义是需要针对连续的对话内容进行上下文理解。
3.服务领域的对话文本,由于其场景不确定性,现有的文本处理程序很难找到上下文的准确边界。因此我们需要一种具备具通用性、易用性、易扩展性、可训练提高的窗口规则来描述上下文语义,从而对对话文本进行结构化处理。
4.人工成本高,无法有效的进行分工和协作是在现有技术中的比较大的缺点。在目前的技术中,对文本进行结构化处理的准确率及稳定性都得不到保证,无法形成方法论持续复用;因此,无法科学的训练模型来提高语音识别和语义理解的准确率,本发明是用来解决现有技术中的技术问题。
技术实现要素:
5.本技术实施例提供了一种界定上下文窗口文本范围的方法、系统、介质及电子设备,以至少解决现有的界定上下文窗口文本范围的方法无法科学的训练模型来提高文本语义分析准确率的问题。
6.本发明提供了一种界定上下文窗口文本范围的方法,其中,包括:
7.确定中心句步骤:遍历对话文本中每一个语句,根据中心句判定规则确定第一中心句;
8.确定命中句步骤:在所述第一中心句的预设文本查找范围中,基于命中句判定规则搜索并确定所述第一中心句对应的所述第一命中句;
9.标签标注步骤:根据所述第一中心句及所述第一命中句的位置界定第一语义窗口的文本范围,进而对位于所述第一语义窗口范围内的文本整体添加第一语义标签。
10.上述方法,其中,所述中心句判定规则及所述命中句规则包括:
11.在所述对话文本中,任一对话角色的对话文本句中出现中心句标签提及词,且所述对话文本句中按照预设规则出现或不出现中心句标签关键词,则判定所述对话文本句为中心句;在所述对话文本中,任一对话角色的所述对话文本句中出现命中句标签提及词,且所述对话文本句中按照预设规则出现或不出现命中句标签关键词,则判定所述对话文本句为命中句。
12.上述方法,其中,所述文本查找范围包括:查找方向和查找句数。
13.上述方法,其中,当所述命中句判定规则搜索到所述命中句时,则窗口边界完成;若所述中心句和所述命中句为同一语句,则所述窗口为所述中心句。
14.本发明还提供了一种界定上下文窗口文本范围的系统,其中,包括:
15.确定中心句模块,所述确定中心句模块遍历对话文本中每一个语句,根据中心句判定规则确定第一中心句;
16.确定命中句模块,所述确定命中句模块在所述第一中心句的预设文本查找范围中,基于命中句判定规则搜索并确定所述第一中心句对应的所述第一命中句;
17.标签标注模块,所述标签标注模块根据所述第一中心句及所述第一命中句的位置界定第一语义窗口的文本范围,进而对位于所述第一语义窗口范围内的文本整体添加第一语义标签。
18.上述系统,其中,所述中心句判定规则及所述命中句规则包括:
19.在所述对话文本中,任一对话角色的对话文本句中出现中心句标签提及词,且所述对话文本句中按照预设规则出现或不出现中心句标签关键词,则判定所述对话文本句为中心句;在所述对话文本中,任一对话角色的所述对话文本句中出现命中句标签提及词,且所述对话文本句中按照预设规则出现或不出现命中句标签关键词,则判定所述对话文本句为命中句。
20.上述系统,其中,所述文本查找范围包括:查找方向和查找句数。
21.上述系统,其中,当所述命中句判定规则搜索到所述命中句时,则窗口边界完成;若所述中心句和所述命中句为同一语句,则所述窗口为所述中心句。
22.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上述任一所述的方法。
23.一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述任一所述的方法。
24.本发明的有益效果在于:
25.本发明属于智能设备技术中的人工智能领域。本发明提供了一种具备通用性、易用性、易扩展性、可训练提高的窗口规则来实现界定上下文窗口文本范围的方法。
附图说明
26.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。
27.在附图中:
28.图1是本发明的对界定上下文窗口文本范围的方法的流程图;
29.图2是本发明的判定规则展示展示图;
30.图3是本发明的对界定上下文窗口文本范围的系统的结构示意图;
31.图4是根据本发明实施例的电子设备的框架图。
具体实施方式
32.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的
前提下所获得的所有其他实施例,都属于本技术保护的范围。
33.显而易见地,下面描述中的附图仅仅是本技术的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本技术应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
34.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本技术所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
35.除非另作定义,本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
36.下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
37.在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
38.实施例一:
39.请参照图1,图1是界定上下文窗口文本范围的方法的流程图。如图1所示,本发明的界定上下文窗口文本范围的方法包括:
40.确定中心句步骤s1:遍历对话文本中每一个语句,根据中心句判定规则确定第一中心句;
41.确定命中句步骤s2:在所述第一中心句的预设文本查找范围中,基于命中句判定规则搜索并确定所述第一中心句对应的所述第一命中句;
42.标签标注步骤s3:根据所述第一中心句及所述第一命中句的位置界定第一语义窗口的文本范围,进而对位于所述第一语义窗口范围内的文本整体添加第一语义标签。
43.其中,所述中心句判定规则及所述命中句规则包括:
44.在所述对话文本中,任一对话角色的对话文本句中出现中心句标签提及词,且所述对话文本句中按照预设规则出现或不出现中心句标签关键词,则判定所述对话文本句为中心句;在所述对话文本中,任一对话角色的所述对话文本句中出现命中句标签提及词,且所述对话文本句中按照预设规则出现或不出现命中句标签关键词,则判定所述对话文本句为命中句。
45.其中,所述文本查找范围包括:查找方向和查找句数。
46.进一步,查找范围表示上下文搜索的范围,查找范围不是计算得来的,而是基于大数据预先设定的;查找方向:是根据对话顺序,以中心句为开始,往上方找或者往下方找寻命中句;查找句数:对对话文本中表达一个完整语义文本范围中的句数进行统计,进而计算句数的平均值或者中位数,从而确定查找句数。
47.再进一步,本方案的查找句数,是按照说话人进行区分的,例如下面这个对话文本的句数是3句:
48.服务员:您好,请问需要点什么;
49.顾客:想买个西瓜霜的润喉片,有吗;
50.服务员:有的,这个,您看看。
51.再进一步,当所述命中句判定规则搜索到所述命中句时,则窗口边界完成;若所述中心句和所述命中句为同一语句,则所述窗口为所述中心句。
52.具体地说,根据图2所示,本发明的具体步骤如下:
53.本发明根据中心句判定规则、命中句判定规则及查找范围来确定窗口的文本范围。
54.进一步,设定中心句判定规则和命中句判定规则包括:
55.中心句判定规则:在对话角色的对话文本句中出现中心句标签提及词且对话文本句中按照预设规则出现或不出现中心句标签关键词,则判定所述对话文本句为中心句;
56.命中句判定规则:在对话文本中,任一对话角色的对话文本句中出现命中句标签提及词,且所述对话文本句中按照预设规则出现或不出现命中句标签关键词,则判定对话文本句为命中句。
57.整个上下文从中心句开始到命中句结束,由此来界定窗口的范围并且方便扩展和训练。
58.采用本方案进行界定上下文窗口文本范围时:
59.首先遍历对话文本中的每一个语句,带入中心句的判定规则中,如果满足中心句的判定规则条件,则确定中心句,并根据预设的查找范围对该中心句进行命中句查找,在预设的查找范围内,根据命中句的判定规则发现命中句即停止查找,记录中心句和命中句的位置,即确定上下文窗口范围,再对整个窗口范围进行结构化处理添加相应的语义标签。
60.一个语句可能处于多个窗口范围内,也就是存在窗口范围的嵌套和覆盖。
61.根据规则找中心句,然后根据向上和/或向下的查找方向在预设的查找范围内去按照命中句判定规则搜索命中句,找到命中句就相当于确定一个窗口范围的边界,如果中心句和命中句是同一个语句,那该窗口范围内就一个语句。
62.在本专利中中心句是依靠中心句判定规则来确定,具体地说,一个语句中若是包含多组角色或者这个语句提及中心句关键词,那么这个语句就会被中心句判定规则判定为
memory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(static random
‑
access memory,简称为sram)或动态随机存取存储器(dynamic random access memory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器(fast page mode dynamic random access memory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extended date out dynamic random access memory,简称为edodram)、同步动态随机存取内存(synchronous dynamic random
‑
access memory,简称sdram)等。
76.存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
77.处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种界定上下文窗口文本范围的方法。
78.在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图4所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
79.通信接口83用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
80.总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(data bus)、地址总线(address bus)、控制总线(control bus)、扩展总线(expansion bus)、局部总线(local bus)。举例来说而非限制,总线80可包括图形加速接口(accelerated graphics port,简称为agp)或其他图形总线、增强工业标准架构(extended industry standard architecture,简称为eisa)总线、前端总线(front side bus,简称为fsb)、超传输(hyper transport,简称为ht)互连、工业标准架构(industry standard architecture,简称为isa)总线、无线带宽(infiniband)互连、低引脚数(low pin count,简称为lpc)总线、存储器总线、微信道架构(micro channel architecture,简称为mca)总线、外围组件互连(peripheral component interconnect,简称为pci)总线、pci
‑
express(pci
‑
x)总线、串行高级技术附件(serial advanced technology attachment,简称为sata)总线、视频电子标准协会局部(video electronics standards association local bus,简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
81.该电子设备可以基于对界定上下文窗口文本范围,从而实现结合图1描述的界定上下文窗口文本范围的方法。
82.另外,结合上述实施例中界定上下文窗口文本范围的方法,本技术实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种界定上下文窗口文本范围的方法。
83.以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
84.综上所述,基于本发明的有益效果在于,本发明提供了一种具备通用性、易用性、易扩展性、可训练提高的窗口规则来实现界定上下文窗口文本范围的方法。
85.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本发明的保护范围应以所附权利要求的保护范围为准。
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。