一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种词汇扩展方法和系统与流程

2021-10-30 02:16:00 来源:中国专利 TAG:说明书 词汇 扩展 文本 特别


1.本说明书涉及文本处理技术领域,特别涉及一种词汇扩展方法和系统。


背景技术:

2.对于一些关于词汇的文本查找、产品查找等场景,仅仅基于用户输入的目标词或获取的目标词进行查找并不能覆盖大部分相关的文本、产品等所需内容,所以需要对目标词进行词汇扩展,以得到更多的目标词的扩展词,以实现基于词汇进行查找时可以覆盖更多和更准确的相关文本、产品等所需内容。
3.因此,亟需提供一种词汇扩展的方法和系统,来实现目标词的词汇扩展。


技术实现要素:

4.本说明书实施例之一提供一种词汇扩展方法。所述词汇扩展方法包括:获取目标词,目标词包括单个单词或两个以上单词构成的词组;获取与所述目标词关联的至少一个候选文本;从至少一个候选文本中确定多个候选词,多个候选词包括至少一个候选文本中的单词和连续的至少两个单词构成的词组;从多个候选词中确定目标词的至少一个扩展词。
5.本说明书实施例之一提供一种词汇扩展系统,包括:获取模块、候选文本确定模块、候选词确定模块和扩展词确定模块;获取模块用于获取目标词,目标词包括单个单词或两个以上单词构成的词组;候选文本确定模块用于获取与所述目标词关联的至少一个候选文本;候选词确定模块用于从至少一个候选文本中确定多个候选词,多个候选词包括至少一个候选文本中的单词和连续的至少两个单词构成的词组;扩展词确定模块用于从多个候选词中确定目标词的至少一个扩展词。
6.本说明书实施例之一提供一种词汇扩展装置,包括至少一个存储介质和至少一个处理器,至少一个存储介质用于存储计算机指令;至少一个处理器用于执行计算机指令以实现词汇扩展的方法。
附图说明
7.本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
8.图1是根据本说明书一些实施例所示的词汇扩展系统的应用场景示意图;
9.图2是根据本说明书一些实施例所示的词汇扩展系统的模块图;
10.图3是根据本说明书一些实施例所示的词汇扩展方法的示例性流程图;
11.图4是根据本说明书另一些实施例所示的词汇扩展方法的示例性流程图;
12.图5是根据本说明一些实施例所示的目标词、多个候选词和目标词的扩展词的示例性示意图。
具体实施方式
13.为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
14.应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
15.如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
16.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
17.图1是根据本说明书的一个或多个实施例所示的词汇扩展系统的应用场景示意图。
18.应用场景100可以涉及各种可以进行词汇扩展的场景,例如,对用户输入的检索词进行词汇扩展以查找关联文本、对术语进行词汇扩展以查找相关产品等场景。
19.对于词进行词汇扩展,可以得到更多的扩展词,以实现基于词汇进行查找时可以覆盖更多和更准确的相关文本、产品等所需内容。在一些实施例中,进行词汇扩展的目标词可以是单词,也可以是由至少两个单词构成的词组。对于目标词的词汇扩展,希望不仅能对单词进行词汇扩展得到扩展的单词,还希望能得到扩展的词组,以覆盖更多和更广的相关扩展词汇。以及对于由至少两个单词构成的词组,也希望可以进行准确的词汇扩展,得到词组的扩展词汇(如单词和/或由至少两个单词构成的词组)。
20.鉴于上述情况,本说明一些实施例提供了词汇扩展的方法和系统,通过获取与目标词关联的至少一个候选文本,将候选文本中的单词、位置连续的至少两个单词构成的词组作为候选词,以得到多个候选词,可以实现得到除了单词外还包括词组的更加完善、词汇更丰富的候选词集合,进而可以从候选词中确定更加准确和覆盖范围更广的扩展词(包括扩展的单词和词组),以及可实现对单词和词组都能够进行准确和覆盖范围广的词汇扩展。
21.如图1所示,词汇扩展系统的应用场景100可以包括服务器110、处理设备112、存储设备120、网络130以及用户终端140。
22.服务器110可以用于管理资源以及处理来自本系统至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。服务器110可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本技术中描述的功能。在一些实施例中,服务器110可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如,服务器110可以是分布式系统),可以是专用的也可以由其他设备或系统同时提供服务。在一些实施例中,服
务器110可以是区域的或者远程的。在一些实施例中,服务器110可以在云平台上实施,或者以虚拟方式提供。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
23.处理设备112可以处理从其他设备或系统组成部分中获得的数据和/或信息。处理器可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本技术中描述的功能。在一些实施例中,处理设备112可以包含一个或多个子处理设备(例如,单核处理设备或多核多芯处理设备)。仅作为示例,处理设备112可以包括中央处理器(cpu)、专用集成电路(asic)、专用指令处理器(asip)、图形处理器(gpu)、物理处理器(ppu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编辑逻辑电路(pld)、控制器、微控制器单元、精简指令集电脑(risc)、微处理器等或以上任意组合。
24.存储设备120可以用于存储数据和/或指令。存储设备120可以包括一个或多个存储组件,每个存储组件可以是一个独立的设备,也可以是其他设备的一部分。在一些实施例中,存储设备120可包括随机存取存储器(ram)、只读存储器(rom)、大容量存储器、可移动存储器、易失性读写存储器等或其任意组合。示例性的,大容量储存器可以包括磁盘、光盘、固态磁盘等。在一些实施例中,所述存储设备120可在云平台上实现。
25.数据指对信息的数字化表示,可以包括各种类型,比如二进制数据、文本数据、图像数据、视频数据等。指令指可控制设备或器件执行特定功能的程序。
26.用户终端140指用户所使用的一个或多个终端设备或软件。在一些实施例中,使用用户终端140的可以是任意用户,例如个人、企业等。在一些实施例中,用户终端140可以是移动装置140

1、平板计算机140

2、膝上型计算机140

3、台式计算机140

4等其他具有输入和/或输出功能的设备中的一种或其任意组合。上述示例仅用于说明所述用户终端140设备范围的广泛性而非对其范围的限制。
27.在一些实施例中,服务器110、用户终端140以及其他可能的系统组成部分中可以包括存储设备120。
28.在一些实施例中,服务器110、用户终端140以及其他可能的系统组成部分中可以包括处理设备112。
29.网络130可以连接系统的各组成部分和/或连接系统与外部资源部分。网络130使得各组成部分之间,以及与系统之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络130可以是有线网络或无线网络中的任意一种或多种。例如,网络130可以包括电缆网络、光纤网络、电信网络、互联网、局域网络(lan)、广域网络(wan)、无线局域网络(wlan)、城域网(man)、公共交换电话网络(pstn)、蓝牙网络、紫蜂网络(zigbee)、近场通信(nfc)、设备内总线、设备内线路、线缆连接等或其任意组合。各部分之间的网络连接可以是采用上述一种方式,也可以是采取多种方式。在一些实施例中,网络可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中,网络130可以包括一个或以上网络接入点。例如,网络130可以包括有线或无线网络接入点,例如基站和/或网络交换点130

1、130

2、

,通过这些进出点系统200的一个或多个组件可连接到网络130上以交换数据和/或信息。
30.服务器110可以通过网络130与处理设备112、存储设备120、用户终端140通信以获取数据和/或信息,例如通过网络130从用户终端140获取目标词、通过网络130从存储设备
120获取文本库以得到候选文本等。服务器110可以基于获取的数据、信息和/或处理结果执行程序指令,以实现对目标词的词汇扩展。例如,服务器110可以基于获取的目标词、文本库,获取与目标词关联的一个或多个候选文本,以及从一个或多个候选文本中确定多个候选词,以及从多个候选词中确定目标词的至少一个扩展词。存储设备120可以存储文本库和词汇扩展方法步骤中的各种数据和/或信息,例如文本库、候选文本、扩展词等。用户终端140可以提供目标词,例如通过用户输入得到目标词。以上各设备之间的信息传递关系仅作为示例,本技术并不局限于此。
31.图2是根据本说明书一些实施例所示的一种词汇扩展系统的框图。
32.在一些实施例中,词汇扩展系统200可以实现于处理设备112上。其可以包括获取模块210、候选文本确定模块220、候选词确定模块230和扩展词确定模块240。在一些实施例中,词汇扩展系统200还可以包括展示模块250。
33.在一些实施例中,获取模块210可以用于获取目标词,目标词可以包括单个单词或两个以上单词构成的词组。在一些实施例中,获取模块210可以用于获取基础词作为目标词。在一些实施例中,扩展词确定模块240还可以用于获取基础词的翻译结果,并将翻译结果作为目标词,其中,基础词可以包括单个单词或两个以上单词构成的词组。
34.在一些实施例中,候选文本确定模块220可以用于获取与所述目标词关联的至少一个候选文本。在一些实施例中,候选文本确定模块220可以用于确定文本检索条件,基于文本检索条件和目标词在文本库中检索,得到满足文本检索条件且与目标词关联的一个或多个候选文本。
35.在一些实施例中,候选词确定模块230可以用于从一个或多个候选文本中确定多个候选词,候选词可以包括一个或多个候选文本中的单词和连续的至少两个单词构成的词组。
36.在一些实施例中,扩展词确定模块240可以用于从多个候选词中确定目标词的一个或多个扩展词。
37.在一些实施例中,扩展词确定模块240还可以用于确定所述目标词与所述多个候选词的相似度,将相似度满足预设条件的所述候选词作为所述扩展词。
38.在一些实施例中,扩展词确定模块240还可以用于获取包括目标词的第一语句,以及还可以获取第一语句的第一词向量表示;将第一语句中的目标词分别替换为多个候选词得到多个第二语句,以及还可以获取多个第二语句对应的多个第二语句向量表示;可以基于多个第二语句向量表示和第一语句向量表示,确定多个第二语句与第一语句的相似度;进而确定相似度满足预设条件的第二语句中的候选词为扩展词。
39.在一些实施例中,扩展词确定模块240还可以用于确定扩展词的近义词或扩展词中所包括单词的单元近义词;将近义词或不同单词的单元近义词的组合词组确定为目标词的扩展词。
40.在一些实施例中,扩展词确定模块240还可以用于获取一个或多个扩展词的一种或多种翻译结果,并将一种或多种翻译结果确定为目标词的扩展词。
41.在一些实施例中,展示模块250可以用于展示一个或多个扩展词及其来源的候选文本的信息。
42.应当理解,所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例
中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd

rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
43.需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。
44.图3是根据本说明书一些实施例所示的词汇扩展方法的示例性流程图。
45.在一些实施例中,方法300可以由处理设备112执行。在一些实施例中,方法300可以由部署于处理器设备112上的词汇扩展系统200实现。
46.如图3所示,该方法300可以包括:
47.步骤310,获取目标词。
48.在一些实施例中,该步骤310可以由获取模块210执行。
49.目标词是指待进行词汇扩展的词。
50.在一些实施例中,目标词可以包括单个单词。其中,单词可以是各种语言类别的单词,如中文、英文等的单词。例如,目标词可以包括单词“点胶”、“点胶机”、“dispensing”等。
51.在一些实施例中,目标词可以包括两个以上单词构成的词组。例如,目标词可以包括词组“点胶装置”、“点胶设备”、“dispensing equipment”等,其中“点胶装置”是由单词“点胶”和“装置”构成的词组,“点胶设备”是由“点胶”和“设备”构成的词组,“dispensing equipment”是由“dispensing”和“equipment”构成的词组。
52.在一些实施例中,获取模块210可以通过用户输入、文本内容提取、文字识别等各种方式获取词(如单词或词组),以得到目标词。
53.在一些实施例中,获取模块210获取的词可以称为基础词。
54.在一些实施例中,可以将获取的基础词作为目标词,例如用户输入词组“点胶装置”,即基础词,直接将“点胶装置”作为目标词。
55.在一些实施例中,获取模块210可以获取基础词对应在各种语言类别中的翻译结果,将基础词的翻译结果作为目标词。例如,用户输入单词“点胶机”,即基础词,“点胶机”对应在英文中的翻译结果为“dispenser”,则可以将“dispenser”作为目标词,又例如,用户输入词组“点胶装置”,即基础词,“点胶机”对应在英文中的翻译结果为“dispensing device”,则可以将“dispensing device”作为目标词。
56.在一些实施例中,获取模块210可以通过调用翻译程序、查询翻译词表等方式获取目标词的翻译结果。
57.在一些实施例中,可以由用户确认目标词的翻译结果,若确认翻译结果不准确或
不符合需要,用户可以修正以得到准确或符合需要的翻译结果。
58.在一些实施例中,通过将基础词的翻译结果作为目标词,可以对基础词进行更多语言类别的词汇扩展,令词汇扩展覆盖的语言类别更广,进而应用范围更广。
59.步骤320,获取与所述目标词关联的至少一个候选文本。
60.在一些实施例中,该步骤320可以由候选文本确定模块220执行。
61.在本说明书中,与目标词关联的文本可以称为候选文本。
62.在一些实施例中,候选文本确定模块220可以基于目标词,在文本库中检索,得到与目标词相关联的一个或多个文本,并将其作为候选文本。其中,与目标词关联可以例如是包括目标词,或与目标词的主题相同或相近。例如,目标词为“点胶机”,基于“点胶机”在文本库中检索,得到文本中包括单词“点胶机”的候选文本1和候选文本2,或者得到文本主题为“点胶机”的候选文本3和候选文本4。需要说明的是,以上举例仅为示例,而非限制。
63.在一些实施例中,目标词可以包括基础词和基础词的翻译结果,确定的多个候选文本可以包括与基础词关联的一个或多个文本,以及还可以包括与基础词的翻译结果关联的一个或多个文本。
64.在一些实施例中,可以确定文本检索条件,以基于文本检索条件和目标词在文本库中检索,得到一个或多个候选文本。
65.文本检索条件是指文本检索时,文本、检索过程需满足的条件,如文本的类别、文本的相关时间、文本的领域、检索的文本内容范围等。作为示例,在专利文本库中检索专利文本时,检索条件可以包括专利的分类号、专利的相关期限、专利权人、在专利文本中检索的范围等,其中,检索的范围可以包括专利文本的权要、摘要等。
66.在一些实施例中,文本检索条件可以根据实际需求设置或根据经验设置,本实施例在此不做限制。
67.在一些实施例中,候选文本确定模块220可以基于文本检索条件和目标词,在文本库中检索,得到满足文本检索条件且与目标词关联的一个或多个文本,并将检索得到的一个或多个文本作为候选文本。例如,在专利文本库中检索专利文本时,文本检索条件为在专利文本检索的范围是权要和说明书,目标词为“点胶机”,基于确定的文本检索条件和目标词“点胶机”在专利文本库中检索,得到权要中包含“点胶机”的候选文本3、候选文本4。
68.在一些实施例中,目标词可以包括基础词和基础词在各种语言类别的翻译结果,确定的多个候选文本可以包括满足文本检索条件且与基础词关联的一个或多个文本,以及还可以包括满足文本检索条件且与基础词在各种语言类别的翻译结果关联的一个或多个文本。
69.可以理解,在一些实施例中,确定的多个候选文本中可以包括多种语言类别的文本。在一些实施例中,多个候选文本中,不同语言类别(例如中文、英文)的候选文本数量的比例满足预设条件。其中,预设条件可以是根据实际需求或经验设置,例如预设条件为中文候选文本数量与英文候选文本数量的比值大于1.5。
70.在一些实施例中,候选文本确定模块220可以基于检索得到的一个或多个候选文本,得到与已检索得到的候选文本相关的其它更多文本,并将得到的其它更多文本也作为候选文本。其中,与候选文本相关可以是指以下中的一种或多种:与候选文本的主题相同或相近、是候选文本所提及或引用的文本等。需要说明的是,以上举例说明仅为示例,而非限
制。通过本实施例,可以得到可包含目标词对应的扩展词的更多候选文本,令候选文本的覆盖范围更广和更完善。
71.步骤330,从所述至少一个候选文本中确定多个候选词。
72.在一些实施例中,该步骤330可以由候选词确定模块230执行。
73.在一些实施例中,候选词是指作为目标词的扩展词的候选的词。
74.在一些实施例中,候选词确定模块230可以从一个或多个候选文本中确定多个候选词,例如20个、30个等。
75.在一些实施例中,候选词确定模块230可以对获取的候选文本进行分词得到候选文本包括的单词,基于候选文本包括的单词,确定得到多个候选词。
76.在一些实施例中,候选词确定模块230可以将候选文本中所包括的单词作为候选词。例如,对候选文本分词得到单词“点胶”、“设备”、“滴胶机”、“涂胶机”“点胶部”,则可以将“点胶”、“设备”、“滴胶机”、“涂胶机”“点胶部”作为候选词。
77.在一些实施例中,候选词确定模块230还可以将候选文本中位置连续的至少两个单词构成的词组作为候选词。其中,位置连续的至少两个单词可以是位置连续的两个单词、三个单词等。例如,对候选文本分词得到单词序列{“线材”、“点胶”、“装置”},则可以将词组“线材点胶”、“点胶装置”、“线材点胶装置”作为候选词。需要说明的是,以上举例说明仅为示例,而非限制。
78.在一些实施例中,通过遍历候选文本中的单词,将候选文本中的所有单词、位置连续的至少两个单词构成的多个词组作为候选词,以得到多个候选词,可以将候选文本中的单词和词组都作为扩展词的候选,以实现得到更加完善、词汇更丰富的候选词集合。另外,将候选文本中的词和词组确定为扩展词的候选,令候选词可以包括在词典中不一定存在或普遍应用的词和词组,候选词可以包括候选文本中人为编造出来的、在少量文献中使用的、在特定领域中的不常用的术语词和词组,令候选词的覆盖范围更广。
79.步骤340,从所述多个候选词中确定所述目标词的至少一个扩展词。
80.在一些实施例中,该步骤340可以由扩展词确定模块240执行。
81.扩展词是指基于目标词进行词汇扩展所得到的词。
82.在一些实施例中,扩展词确定模块240可以从多个候选词中确定与目标词的语义相似或匹配的一个或多个候选词,并将其作为目标词的一个或多个扩展词。
83.在一些实施例中,扩展词确定模块240可以确定目标词与多个候选词的相似度,将相似度满足预设条件的候选词作为目标词的扩展词。
84.预设条件可以是候选词与目标词的相似度需要满足的各种条件。例如,预设条件可以为相似度大于阈值如80%。又例如,预设条件可以为相似度排名为topn,n为正整数,如4、5等。需要说明的是,以上举例仅为示例,而非限制。
85.在一些实施例中,扩展词确定模块240可以获取目标词的向量表示和多个候选词对应的多个向量表示。在本说明书中,目标词的向量表示可以称为第一词向量表示,候选词的向量表示可以称为第二词向量表示。
86.在一些实施例中,可以基于文本编码方法例如one

hot编码方法、n

gram编码方法、基于tf

idf的编码方法、word2vecto算法等获取目标词的第一词向量表示和候选词的第二词向量表示。
87.在一些实施例中,可以基于自然语言处理模型获取目标词的第一词向量表示和候选词的第二词向量表示。在一些实施例中,自然语言处理模型可以包括bert、rnn、nnlm、cnn、rcnn模型等。以bert模型为例,可以将目标词输入bert模型,bert模型通过表示学习,输出得到目标词对应的第一词向量表示,以及可以将多个候选词分别输入bert模型,bert模型通过表示学习,输出得到多个候选词对应的多个第二词向量表示。
88.在一些实施例中,扩展词确定模块240可以基于多个第二词向量表示和第一词向量表示,确定多个候选词与目标词的相似度。
89.在一些实施例中,可以计算多个第二词向量表示和第一词向量表示的向量距离,基于向量距离确定候选词与目标词的相似度。其中,向量距离可以包括余弦距离、欧式距离、或汉明距离等。
90.通过基于目标词与多个候选词的相似度,将相似度满足预设条件的候选词作为目标词的扩展词,可以将与目标词语义相同或相近的候选词作为扩展词,以得到准确的词汇扩展结果。
91.在一些实施例中,扩展词确定模块240可以获取包括目标词的语句。在本说明书中,包括目标词的语句可以称为第一语句。例如,目标词为“点胶机”,可以获取包括“点胶机”的语句“点胶机主要用于将胶水等精确点、注、涂到每个产品的精确位置”作为第一语句。
92.在一些实施例中,可以通过用户输入、文本内容提取、文字识别等方式获取第一语句,本实施例在此不做限制。
93.在一些实施例中,扩展词确定模块240可以将第一语句中的目标词分别替换为多个候选词,以得到多个第二语句。其中,第二语句是指将第一语句中的目标词替换为候选词后得到的语句。作为示例,继续以前述第一语句为例,候选词包括“滴胶机”、“涂胶机”“点胶部”等,将第一语句“点胶机主要用于将胶水等精确点、注、涂到每个产品的精确位置”中的“点胶机“替换为“滴胶机”,可以得到第二语句“滴胶机主要用于将胶水等精确点、注、涂到每个产品的精确位置”,类似的,对于其他候选词也可以按照该方法得到对应的第二语句。
94.在一些实施例中,可以确定多个第二语句与第一语句的相似度,将相似度满足预设条件的第二语句中的候选词作为扩展词。
95.在一些实施例中,扩展词确定模块240可以获取第一语句的向量表示和多个第二语句对应的多个向量表示。在本说明书中,第一语句的向量表示可以称为第一语句向量表示,第二语句的向量表示可以称为第二语句向量表示。
96.在一些实施例中,可以基于文本编码方法例如one

hot编码方法、n

gram编码方法、基于tf

idf的编码方法、word2vector算法等获取第一语句的第一语句向量表示和第二语句的第二语句向量表示。
97.在一些实施例中,扩展词确定模块240可以基于自然语言处理模型获取第一语句的第一语句向量表示和第二语句的第二语句向量表示。在一些实施例中,自然语言处理模型可以包括bert、rnn、nnlm、cnn、rcnn模型等。关于基于自然语言处理模型获取第一语句的第一语句向量表示和第二语句的第二语句向量表示可以采用与基于自然语言处理模型获取目标词的第一词向量表示和候选词的第二词向量表示类似的方法,更多具体内容可以参见图3步骤340及其相关描述。
98.在一些实施例中,扩展词确定模块240可以基于多个第二语句向量表示和第一语句向量表示,确定多个第二语句与第一语句的相似度。关于确定多个第二语句与第一语句的相似度可以采用与确定目标词与多个候选词的相似度类似的方法,更多具体内容可以参见图3步骤340及其相关描述。
99.在一些实施例中,扩展词确定模块240可以基于多个第二语句与第一语句的相似度,将相似度满足预设条件的第二语句中的候选词作为目标词的扩展词。预设条件可以是候选词与目标词的相似度需要满足的各种条件。例如,预设条件可以为相似度大于阈值如80%。又例如,预设条件可以为相似度排名为topn,n为正整数,如4、5等。需要说明的是,以上举例仅为示例,而非限制。
100.通过基于多个第二语句与第一语句的相似度,将相似度满足预设条件的第二语句中的候选词作为目标词的扩展词,可以考虑候选词与目标词在同一语句中,结合了语句上下文的语义,令确定的扩展词与目标词分别在同一语句中,得到的句子语义相同或相近,避免了只考虑词本身语义相同或相近,而在语句中两个词结合上下文的语义可能偏差较大,进一步保证了确定的扩展词的准确性。
101.在一些实施例中,候选词与目标词的相似度满足的预设条件,以及第二语句与第一语句需要满足的预设条件可以基于确定的候选文本的数量来确定。在一些实施例中,若确定得到数量较多的候选文本,则预设条件如相似度阈值可以较大,若确定得到数量较少的候选文本,则预设条件如相似度阈值可以比候选文本数量较多时更小。
102.图5是根据本说明一些实施例所示的目标词、多个候选词和目标词的扩展词的示例性示意图。如图5所示,获取模块210获取了目标词510“点胶机”;候选文本确定模块220基于关于目标词“点胶机”的检索,得到多个候选文本520;候选词确定模块230从多个候选文本中确定多个候选词530,多个候选词530包括:“滴胶机”、“涂胶机”、“点胶平台”、“点胶设备”、“点胶作业”、“点胶固定”、“点胶液相”、“点胶针筒”、“dispenser”、“dispensing application”、“liquid dispensed”等;扩展词确定模块240从多个候选词中确定目标词“点胶机”的多个扩展词540,扩展词540可以包括:“涂胶机”、“点胶设备”、“dispenser”、“dispensing application”等。
103.在一些实施例中,还可以基于确定的扩展词进一步进行词汇扩展,以得到更多的扩展词。关于更多词汇扩展的方法,可以参见图4及其相关说明。
104.在一些实施例中,扩展词确定模块240可以获取一个或多个扩展词的一种或多种翻译结果,将一种或多种翻译结果确定为目标词的扩展词。例如,目标词“点胶机”的扩展词“点胶设备”对应在英文中的翻译结果为“dispensing equipment”,则“dispensing equipment”可以作为“点胶机”的扩展词。通过本实施例,可以得到覆盖了更多语言类别的扩展词,令词汇扩展覆盖的语言类别更广,进而应用范围更广。
105.在一些实施例中,扩展词确定模块240可以通过调用翻译程序、查询翻译词表等方式获取扩展词的翻译结果。
106.在一些实施例中,可以由用户确认扩展词的翻译结果,若确认翻译结果不准确或不符合需要,用户可以修正以得到准确或符合需要的翻译结果。
107.在一些实施例中,展示模块250可以展示确定的一个或多个扩展词和扩展词的来源,其中,扩展词的来源可以包括候选文本的信息,如候选文本的文本题目、文本编号等。
108.在一些实施例中,展示模块250可以结合web页面展示扩展词的来源。例如,通过web页面可以查看扩展词的出处即候选文本、包括扩展词的语句、扩展词所在候选文本对应的专利号等。
109.通过展示扩展词及其来源,用户可以更直观地了解扩展词及其来源,用户可以更加有针对性地选择所需的和更加合适的扩展词,帮助提高用户体验和扩展词的应用效果。
110.图4是根据本说明书另一些实施例所示的词汇扩展方法的示例性流程图。
111.在一些实施例中,方法400可以由处理设备112执行。在一些实施例中,方法400可以由部署于处理器设备112上的词汇扩展系统200实现。
112.如图4所示,该方法400可以包括:
113.步骤410,确定扩展词的近义词或扩展词中所包括单词的单元近义词。
114.在一些实施例中,该步骤410可以由扩展词确定模块240执行。
115.近义词是指与一个词的语义相同或相近的词。扩展词的近义词是指与扩展词意思相同或相近的词。例如,目标词“点胶机“的一个扩展词为“涂胶机”,“涂胶机”的近义词可以包括“滴胶机”、“打胶机”等。又例如,目标词“点胶机“的一个扩展词为“spray dispensing device”,“spray dispensing device”的近义词可以包括“aerosol dispensing device”、“spray dispensing arrangement”等。
116.在一些实施例中,扩展词为两个或以上单词构成的词组,词组中包括的单词的近义词,可以称为单元近义词。例如,目标词“点胶机“的一个扩展词为“点胶设备”,包括的单词为“点胶”和“设备”,扩展词中所包括单词“点胶”的单元近义词可以包括“涂胶”、“滴胶”;扩展词中所包括单词“设备”的单元近义词可以包括“装置”、“装备”。
117.在一些实施例中,扩展词确定模块240可以通过在词表中查找语义相同或相近的词作为近义词、通过自然语言模型(例如bert、lstm等模型)生成词或单词的近义词等方法确定近义词。其中,通过自然语言模型生成词或单词的近义词,可以通过基于词样本训练自然语言模型来实现,训练后的自然语言模型可以基于词或单词,得到对应的近义词。
118.步骤420,将近义词或不同单词的单元近义词的组合词组确定为所述目标词的扩展词。
119.在一些实施例中,该步骤420可以由扩展词确定模块240执行。
120.在一些实施例中,扩展词确定模块240可以将扩展词的近义词也确定为目标词的扩展词。例如,扩展词“涂胶机”的近义词“滴胶机”、“打胶机”也确定为目标词“点胶机”的扩展词。
121.在一些实施例中,对于为两个或以上单词构成的词组的扩展词,扩展词确定模块240可以将扩展词中不同单词的单元近义词的组合词组也确定为目标词的扩展词。其中,扩展词中不同单词的单元近义词的组合词组可以是不同单词的单元近义词的任意组合。例如,扩展词“点胶设备”包括两个单词“点胶”、“设备”,“点胶”的单元近义词包括两个为“涂胶”和“滴胶”,“设备”单元近义词包括两个为“装置”和“装备”,则可以将两个单元近义词“涂胶”、“滴胶”和两个单元近义词“装置”、“装备”进行两两任意组合,可以得到4种组合词“涂胶装置”、“涂胶装备”、“滴胶装置”、“滴胶装备”,并可以将该4种组合词确定为目标词“点胶机”的扩展词。类似的,若扩展词包括3个单词,每个单词包括2个单元近义词,则可以将3个单词的单元近义词进行任意组合,得到由3个单元近义词构成的组合词组,其中3个单
元近义词分别来自3个单词的单元近义词。以此类推,对包括多个单词(如4个等)的扩展词,可以按照类似的方法用单词的单元近义词构成组合词组,将组合词组也确定为目标词的扩展词。需要说明的是,以上举例仅为示例,而非限制。
122.通过将词的近义词也确定为目标词的扩展词,以及还可以将扩展词中不同单词的单元近义词的组合词组也确定为目标词的扩展词,可以对扩展词进行进一步的扩展,得到更丰富且语义相近的扩展词,进一步增大了扩展词的覆盖范围。另外,对于从候选文本的多个候选词中未确定得到丰富和准确的扩展词时,可以通过对少量扩展词的进一步扩展以得到更多准确的扩展词,避免从候选文本的多个候选词中不能得到准确或所需扩展词的情况。
123.应当注意的是,上述有关流程300及流程400的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程300及流程400进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,在流程300中,获取目标词的同时,可以将目标词确定为候选词。又例如,在流程400中,先确定扩展词的近义词,将近义词确定为目标词的扩展词,然后确定扩展词所包括单词的单元近义词,将不同单词的单元近义词的组合确定为目标词的扩展词。
124.本说明书实施例还提供一种词汇扩展装置,包括至少一个存储介质和至少一个处理器,至少一个存储介质用于存储计算机指令;至少一个处理器用于执行计算机指令以实现词汇扩展方法。方法可以包括:获取目标词,所述目标词包括单个单词或两个以上单词构成的词组;获取与所述目标词关联的至少一个候选文本;从所述至少一个候选文本中确定多个候选词,所述多个候选词包括所述至少一个候选文本中的单词和位置连续的至少两个单词构成的词组;从所述多个候选词中确定所述目标词的至少一个扩展词。
125.本说明书实施例可能带来的有益效果包括但不限于:(1)通过获取与目标词关联的至少一个候选文本,将候选文本中的单词、位置连续的至少两个单词构成的词组作为候选词,以得到多个候选词,可以实现得到除了单词外还包括词组的更加完善、词汇更丰富的候选词集合,以及可实现对单词和词组都能够进行准确和覆盖范围广的词汇扩展,另外也可以令候选词可包括在词典中不一定存在或普遍应用的词和词组,如候选文本中人为编造出来的、在少量文献中使用的、在特定领域中的不常用的术语词和词组,令候选词的覆盖范围更广,进而可以从候选词中确定更加准确和覆盖范围更广的扩展词;(2)通过基于目标词与多个候选词的相似度,将相似度满足预设条件的候选词作为目标词的扩展词,可以将与目标词语义相同或相近的候选词作为扩展词,以得到准确的词汇扩展结果;(3)获取基础词的翻译结果,并将翻译结果作为目标词以及获取扩展词的翻译结果,并将翻译结果作为目标词的扩展词,可以根据用户的不同需求,获取目标词的多种语言类别的扩展词如中文、英文、日文等,适应范围更广。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
126.上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
127.同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
128.此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
129.计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、rf、或类似介质,或任何上述介质的组合。
130.本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如java、scala、smalltalk、eiffel、jade、emerald、c 、c#、vb.net、python等,常规程序化编程语言如c语言、visual basic、fortran2003、perl、cobol2002、php、abap,动态编程语言如python、ruby和groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(lan)或广域网(wan),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(saas)。
131.此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
132.同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
133.一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例
描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有
±
20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
134.针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
135.最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜