一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语料库的构建方法及装置、电子设备和介质与流程

2022-11-30 10:27:58 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,尤其涉及问答系统技术领域,具体涉及一种语料库的构建方法、装置、电子设备、非瞬时计算机可读存储介质和计算机程序产品。


背景技术:

2.在计算机技术领域中,用户可以通过问答系统咨询信息,问答系统可以基于用户输入的问题,返回相应的回答。问答系统包括存储有语料的语料库(或语言数据库),语料库的质量对问答系统的性能至关重要。
3.在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。


技术实现要素:

4.本公开提供了一种语料库的构建方法、装置、电子设备、非瞬时计算机可读存储介质和计算机程序产品。
5.根据本公开的一方面,提供了一种语料库的构建方法。该方法包括:获取第一文本集合,第一文本集合包括多个文本;根据第一文本集合中的多个文本的语义信息,对多个文本进行聚类,以得到多个第一文本子集;针对多个第一文本子集中的至少一部分第一文本子集,获取该至少一部分第一文本子集的至少一个第一关键词;基于第一关键词,获取近义关键词集合,近义关键词集合包括与第一关键词词义相近的多个近义关键词;以及获取第一文本集合中与该近义关键词集合相匹配的文本,以作为语料库中的语料子集。
6.根据本公开的另一方面,提供了一种语料库的构建装置。该装置包括:文本集合获取单元,被配置为获取第一文本集合,第一文本集合包括多个文本;聚类单元,被配置为根据第一文本集合中的多个文本的语义信息,对多个文本进行聚类,以得到多个第一文本子集;关键词获取单元,被配置为针对多个第一文本子集中的至少一部分第一文本子集,获取该至少一部分第一文本子集的至少一个第一关键词;关键词集合获取单元,被配置为基于第一关键词,获取近义关键词集合,近义关键词集合包括与第一关键词词义相近的多个近义关键词;以及文本匹配单元,被配置为获取第一文本集合中与该近义关键词集合相匹配的文本,以作为语料库中的语料子集。
7.根据本公开的另一方面,提供了一种电子设备,其特征在于,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的方法。
8.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,计算机指令用于使计算机执行上述的方法。
9.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其特征在于,计算机程序在被处理器执行时实现上述的方法。
10.根据本公开的一个或多个实施例,能够提升构建语料库的质量。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
13.图1示出了根据本公开实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
14.图2示出了根据本公开实施例的语料库的构建方法的流程图;
15.图3示出了根据本公开实施例的语料库的构建方法的部分过程的流程图;
16.图4示出了根据本公开实施例的语料库的构建方法的另一流程图;
17.图5示出了根据本公开实施例的语料库的构建方法的另一流程图;
18.图6示出了根据本公开实施例的语料库的构建装置的结构框图;以及
19.图7示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
20.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
21.在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
22.在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
23.问答系统的语料库可以包括由人工筛选或设定的文本,例如由人工筛选的标准问句和与标准问句含义相似的相似问句。在一些相关技术中,技术专家可以通过人工标注的方式来设定标准问句和相似问句,这种方式成本较高、构建语料库的效率较低,并且过于依赖于技术专家的专业能力。在一些相关技术中,由计算机根据已有的样本筛选得到的语料库中还可能包含较多的不期望的内容,使得构建语料库的质量较低。
24.基于此,本公开提供了一种语料库的构建方法,通过对文本集合进行聚类,在聚类的每个子集中确定第一关键词,并基于关键词获取近义关键词集合。由于近义关键词集合中所包括的关键词与相应的第一关键词词义相近,通过获取文本集合中与该近义关键词集合相匹配的文本作为语料库中的语料子集,可以使得语料子集中的文本与第一关键词相关
性更高,从而提升语料库的质量。
25.以下将结合附图,详细描述本公开的实施例。
26.图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。
27.参考图1,该系统100包括客户端设备110、服务器120、以及将客户端设备110与服务器120通信地耦合的网络130。
28.客户端设备110包括显示器114和可经由显示器114显示的客户端应用(app)112。客户端应用112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序(lite app)。在客户端应用112为运行前需要下载和安装的应用程序的情况下,客户端应用112可以被预先安装在客户端设备110上并被激活。在客户端应用112为小程序的情况下,用户102可以通过在宿主应用中搜索客户端应用112(例如,通过客户端应用112的名称等)或扫描客户端应用112的图形码(例如,条形码、二维码等)等方式,在客户端设备110上直接运行客户端应用112,而无需安装客户端应用112。在一些实施例中,客户端设备110可以是任何类型的移动计算机设备,包括移动计算机、移动电话、可穿戴式计算机设备(例如智能手表、智能眼镜等头戴式设备)或其他类型的移动设备。在一些实施例中,客户端设备110可以替换地是固定式计算机设备,例如台式机、服务器计算机或其他类型的固定式计算机设备。
29.服务器120典型地为由互联网服务提供商(isp)或互联网内容提供商(icp)部署的服务器。服务器120可以代表单台服务器、多台服务器的集群、分布式系统、或者提供基础云服务(诸如云数据库、云计算、云存储、云通信)的云服务器。将理解的是,虽然图1中示出服务器120与仅一个客户端设备110通信,但是服务器120可以同时为多个客户端设备提供后台服务。
30.网络130的示例包括局域网(lan)、广域网(wan)、个域网(pan)、和/或诸如互联网之类的通信网络的组合。网络130可以是有线或无线网络。在一些实施例中,使用包括超文本标记语言(html)、可扩展标记语言(xml)等的技术和/或格式来处理通过网络130交换的数据。此外,还可以使用诸如安全套接字层(ssl)、传输层安全(tls)、虚拟专用网络(vpn)、网际协议安全(ipsec)等加密技术来加密所有或者一些链路。在一些实施例中,还可以使用定制和/或专用数据通信技术来取代或者补充上述数据通信技术。
31.为了本公开实施例的目的,在图1的示例中,客户端应用112可以是问答系统中的智能应答应用程序,该智能应答应用程序可以提供基于智能应答的各种功能,例如,获取用户的查询问题、提供应答信息等等。与此相应,服务器120可以是与问答系统中的智能应答应用程序一起使用的服务器。该服务器120可以基于路网数据向客户端设备110中运行的客户端应用112提供在线问答服务。替换地,服务器120也可以将路网数据提供给客户端设备110,由客户端设备110中运行的客户端应用112提供本地问答服务。
32.图2示出了根据本公开实施例的语料库的构建方法200的流程图。如图2所示,方法200包括:
33.步骤s210、获取第一文本集合,第一文本集合包括多个文本;
34.步骤s220、根据第一文本集合中的多个文本的语义信息,对多个文本进行聚类,以得到多个第一文本子集;
35.步骤s230、针对多个第一文本子集中的至少一部分第一文本子集,获取该至少一部分第一文本子集的至少一个第一关键词;
36.步骤s240、基于第一关键词,获取近义关键词集合,近义关键词集合包括与第一关键词词义相近的多个近义关键词;以及
37.步骤s250、获取第一文本集合中与该近义关键词集合相匹配的文本,以作为语料库中的语料子集。
38.由于近义关键词集合中所包括的关键词与相应的第一关键词词义相近,通过获取第一文本集合中与该近义关键词集合相匹配的文本来作为语料库中的语料子集,可以使得语料子集中的文本与第一关键词相关性更高,从而提升语料库的质量。
39.根据一些实施例,方法200可以包括以下步骤:
40.获取第一文本集合,第一文本集合包括多个文本;
41.根据第一文本集合中的多个文本的语义信息,对多个文本进行聚类,以得到多个第一文本子集;
42.针对多个第一文本子集中的至少一部分第一文本子集中的每个第一文本子集,获取该第一文本子集的至少一个第一关键词;
43.至少基于至少一部分第一文本子集的至少一个第一关键词,获取多个近义关键词集合,多个近义关键词集合中的每一个包括与其中一个第一关键词词义相近的多个近义关键词;以及
44.针对多个近义关键词集合中的每个近义关键词集合,获取第一文本集合中与该近义关键词集合相匹配的文本,以作为语料库中的语料子集。
45.以下详细描述方法200的各个步骤。
46.在步骤s210中,可以接收用户通过(多个)终端设备输入的第一文本集合。第一文本集合可以是利用自动语音识别技术(automatic speech recognition,asr)对音频文件进行识别得到的文本集合。例如,终端设备可以具有录音功能以及自动语音识别功能。
47.根据一些实施例,步骤s220可以包括:
48.从第一文本集合中提取第一文本子集,并对第一文本集合进行更新,在该第一文本子集中,不同文本之间的语义相似度大于第一阈值;
49.迭代地执行以下操作,直到更新后的第一文本集合中的文本之间的语义相似度不大于所述第一阈值:
50.从经更新的第一文本集合中提取下个第一文本子集,并再次对第一文本集合进行更新,在该下个第一文本子集中,不同文本之间的语义相似度大于所述第一阈值。
51.由此,根据每个文本之间的语义相似度,对第一文本集合中的文本进行聚类,可以将语义相似度大于第一阈值的文本作为同一个类别的文本聚类到相同的第一文本子集中。不同类别内的文本可以具有不同的语义。采用这种划分方式能够高效率地将词义相近且数量较多的文本聚类至同一个第一文本子集中,从而使得后续针对该第一文本子集获取到的第一关键词与该第一文本子集中的每个文本中包含关键信息词汇的词义相关性更高,以进一步提升语料库的质量。
52.例如,在步骤s210中获得的第一文本集合可以是集合a,集合a包含数量庞大的文本,这些数量庞大的文本可以是针对不同话题、具有不同语义的文本。可以首先从第一文本
集合a中提取一个第一文本子集c1,并对第一文本集合a进行更新,更新后的第一文本集合是(a-c1)。在第一文本子集c1中,每个文本之间的语义相似度大于第一阈值。在一个示例中,可以使用文本语义向量之间距离来指示文本之间的语义相似度,并且第一阈值可以是距离的阈值,语义相似度越高,文本语义向量之间距离越小。
53.随后,可以从经更新的第一文本集合(a-c1)中提取下一个第一文本子集c2,并再次对第一文本集合进行更新,更新后的第一文本集合是(a-c
1-c2)。在第一文本子集c2中,每个文本之间的语义相似度也大于上述第一阈值。接着,可以从经更新的第一文本集合(a-c
1-c2)中提取下一个第一文本子集c3,并再次对第一文本集合进行更新,更新后的第一文本集合是(a-c
1-c
2-c3)。在第一文本子集c3中,每个文本之间的语义相似度也大于上述第一阈值。
54.类似地,可以迭代地执行上述操作,提取出多个第一文本子集c4…cn
,n为大于4的整数。直到更新后的第一文本集合中的文本之间的语义相似度不大于上述第一阈值。对于更新后的第一文本集合(a-c
1-c
2-c3‑…cn
)中剩余的这些文本,由于它们之间的语义相似度不高,可以分别作为单独一个类别。
55.可以理解的,对第一文本集合进行聚类的方法并不局限于上述一种,例如,也可以从所述第一文本集合中采样得到第二文本集合,根据所述第二文本集合中的所述多个文本的语义信息,对所述第二文本集合中的所述多个文本进行聚类,以得到多个第一文本子集;以及针对所述多个第一文本子集中的每个第一文本子集,获取该第一文本子集的至少一个第一关键词。也可以利用聚类算法(例如kmeans)对第一文本集合进行聚类。
56.根据一些实施例,方法200还可以包括:根据预设规则从多个第一文本子集中获取所述至少一部分第一文本子集。
57.例如,可以根据预设规则,从多个第一文本子集(c1、c2、c3、
…cn
)中获取所述至少一部分第一文本子集(例如,c1、c2、c3)。预设规则例如可以是每个文本之间的语义相似度也大于预设的阈值(该预设的阈值与第一阈值取值不同)。
58.由此,从多个第一文本子集中筛选出至少一部分第一文本子集,利用筛选出的这部分第一文本子集来获得相应的第一关键词,而不考虑剩余的第一文本子集(剩余的第一文本子集中的文本可能包含更多的不期望的语义,不符合用户的需求),可以进一步提升方法200构建语料库的效率。
59.根据一些实施例,上述的预设规则可以包括:第一文本子集所包括的文本数量大于第二阈值。
60.例如,所述至少一部分第一文本子集(例如,c1、c2、c3)中的每个第一文本子集所包括的文本数量均大于第二阈值(例如100),而剩余的第一文本子集(例如,c4…cn
)中的每个第一文本子集所包括的文本数量均小于或等于第二阈值(例如100)。
61.由此,将所包括文本数量较多的第一文本子集从众多第一文本子集中筛选出来,由于它们包括的文本数量较多,且文本之间的语义相似度也较高,针对这部分第一文本子集(例如,c1、c2、c3)获取到的第一关键词质量更高(更加能反映第一文本集合中文本的语义主题),从而可以进一步提升构建语料库的效率和质量。
62.图3示出了根据本公开实施例的语料库的构建方法200的部分过程的流程图。根据一些实施例,如图3所示,步骤s230可以包括:
63.步骤s331、从所述至少一部分第一文本子集中获取第一标准文本;
64.步骤s332、将第一标准文本输入语义相似度模型,获取语义相似度模型所输出的与第一标准文本语义相似的至少一个第一相似文本;以及
65.步骤s333、基于该至少一部分第一文本子集中的至少一个文本和至少一个第一相似文本,获取至少一个第一关键词。
66.语义相似度模型可以是预先训练得到的,利用语义相似度模型生成的第一相似文本的语义与第一标准文本的语义相近,由此可以获得更多语义相似的文本(包括第一标准文本和第一相似文本),从而基于更多语义相似的文本来获取第一关键词。
67.在步骤s331中,第一标准文本可以是由用户选择的,也可以是利用模型从第一文本子集中筛选的。在一个示例中,第一标准文本的内容例如可以是“年假有几天”。
68.在步骤s332中,语义相似度模型所输出的与第一标准文本(“年假有几天”)语义相似的至少一个第一相似文本(例如“假期有多少天”、“年假是怎样的”、“假期是如何安排的”等等)。
69.根据一些实施例,上述步骤s333可以包括:从至少一个文本和至少一个第一相似文本中去除预设词汇,以获取中间文本集合;以及基于中间文本集合,获取至少一个第一关键词。
70.预设词汇例如可以是用户预先设定的不期望的主题词汇,例如,“你好”、“再见”等问候和寒暄类的词汇。去除了预设词汇后,可以获取中间文本集合,该中间文本集合中包含期望的主题词汇的概率将大大提升。
71.根据一些实施例,基于中间文本集合,获取至少一个第一关键词的步骤可以包括:基于中间文本集合中各个词的词频,获取至少一个第一关键词。
72.例如,可以在中间文本集合中,基于剩余文本的词频来获取至少一个第一关键词。例如,可以提取词频最高的前3个词汇作为3个第一关键词。在一个示例中,词频最高的前3个词汇可以是“假期”、“实习”、“薪金”。
73.根据一些实施例,上述步骤s333可以包括:通过词频-逆文本频率指数(tf-idf)方法,从该至少一部分第一文本子集中的至少一个文本和至少一个第一相似文本中获取至少一个第一关键词。
74.词频-逆文本频率指数(tf-idf)方法可以用于评估词汇对于文本集合的重要程度。tf-idf的主要思想是:如果某个词汇在一个文本中出现的频率tf高,并且在其他文本中出现频率较低,则认为该词汇具有很好的类别区分能力,适合用来聚类。在一个示例中,可以利用tf-idf方法,从该第一文本子集中的至少一个文本和至少一个第一相似文本中提取频率最高的3个第一关键词(例如“假期”、“实习”、“薪金”)。
75.根据一些实施例,在步骤s240中,可以基于至少一部分第一文本子集的至少一个第一关键词,对至少一个第一关键词进行同义词归纳,得到相应的近义关键词集合。例如,可以得到多个近义关键词集合m1、m2、m3,关键词集合m1可以包括“年假”、“假期”的关键词;关键词集合m2可以包括“社保”、“五险一金”的关键词;关键词集合m3可以包括“实习期”、“试用期”的关键词。在一些示例中,可以根据关键词的语义相似度进行上述同义词归纳;在一些示例中,可以由用户来进行上述同义词归纳。
76.根据一些实施例,步骤s250可以包括:
77.以正则表达式的方式从第一文本集合中获取其中包括该近义关键词集合中任意近义关键词的文本,并将所获取的文本作为语料子集。
78.正则表达式又称规则表达式,是一种文本模式。正则表达式可以使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,可以被用来检索符合某个模式(规则)的文本。由此,例如可以利用关键词集合m1中的关键词“年假”、“假期”构造正则表达式的字符串,从而利用该字符串从第一文本集合a中获取其中包括关键词“年假”或“假期”的文本。这些文本均包括了关键词集合m1中的一个或多个期望的关键词,从而使得构造的语料库质量更高。
79.图4示出了根据本公开实施例的语料库的构建方法400的流程图。如图4所示,方法400中的步骤s410至步骤s450与上文关于图2描述的方法200中的步骤s210至步骤s250类似,在此不再赘述。
80.根据一些实施例,方法400还可以包括:
81.步骤s460、从第一文本集合中采样得到第二文本集合;
82.步骤s470、根据第二文本集合中的多个文本的语义信息,对第二文本集合中的多个文本进行聚类,以得到多个第二文本子集;以及
83.步骤s480、针对多个第二文本子集,获取至少一个第二关键词。
84.并且上述步骤s440,基于所述第一关键词,获取近义关键词集合可以包括:基于第一关键词以及至少一个第二关键词,获取近义关键词集合。
85.在上述步骤s460中,可以对第一文本集合a进行随机采样,获取第二文本集合b(即第一文本集合a的子集)。
86.在上述步骤s470中,可以采用与步骤s420中类似的方式,对第二文本集合中的多个文本进行聚类;此外,由于第二文本集合b中的文本数量相对于第一文本集合a少,因此,还可以采用k均值聚类算法(k-means clustering algorithm)对第二文本集合中的多个文本进行聚类。
87.由此,通过从第一文本集合a中采样得到第二文本集合b,对集合a和集合b分别进行聚类和确定相应的关键词,再基于确定的关键词获取近义关键词集合。在对集合a进行聚类时,可以进行较为粗粒度的聚类;在对集合b进行聚类时,可以进行相对细粒度的聚类,从而更加平衡聚类的效果和速度,以进一步提升语料库的构建效率。
88.根据一些实施例,方法400可以包括:
89.从第一文本集合中采样得到第二文本集合;
90.根据第二文本集合中的多个文本的语义信息,对第二文本集合中的多个文本进行聚类,以得到多个第二文本子集;以及
91.针对多个第二文本子集中的每个第二文本子集,获取该第二文本子集的至少一个第二关键词。
92.并且上述步骤s440,基于所述至少一部分第一文本子集的至少一个第一关键词,获取多个近义关键词集合可以包括:基于至少一个第一关键词以及至少一个第二关键词,获取多个近义关键词集合。
93.根据一些实施例,上述步骤s480可以包括:
94.从该多个第二文本子集中获取第二标准文本;
95.将第二标准文本输入语义相似度模型,获取语义相似度模型所输出的与第二标准文本语义相似的至少一个第二相似文本;以及
96.基于该多个第二文本子集中的至少一个文本和至少一个第二相似文本,获取至少一个第二关键词。
97.语义相似度模型可以是与上文描述的步骤s332中所使用的语义相似度模型相同的模型。由此可以获得更多语义相似的文本(包括第二标准文本和第二相似文本),从而基于更多语义相似的文本来获取第二关键词。
98.将理解的是,第二标准文本可以是由用户选择的,也可以是利用模型从第二文本子集中筛选的。
99.利用上述方法200或方法400构建语料库后,可以在语料库中的每个语料子集中选择标准语料作为问答库中的标准问句,该语料子集中的其余语料可以作为与标准语料相似的相似语料,相似语料可以作为问答库中的相似问句。标准语料和相似语料可以用于训练各种模型。
100.图5示出了根据本公开实施例的语料库的构建方法500的流程图。如图5所示,方法500所包括的步骤s510至步骤s550与上文关于图2描述的方法200中的步骤s210至步骤s250类似,在此不再赘述。
101.根据一些实施例,方法500还可以包括:
102.步骤s560、从语料子集中获取至少一个标准语料;
103.步骤s570、从语料子集中匹配得到与至少一个标准语料对应的多个相似语料;以及
104.步骤s580、利用至少一个标准语料和多个相似语料训练模型。
105.其中,标准语料可以是一个,也可以是多个。并且在步骤s470中,可以基于语料子集中其它语料与标准语料的相似度,匹配得到与至少一个标准语料中的每个标准语料(标准问句)分别对应的(即,相似度符合预设阈值的)多个相似语料(相似问句)。
106.在步骤s570中,可以从语料子集中匹配得到与至少一个标准语料中的每个标准语料分别对应的多个相似语料。
107.此外,在步骤s580中,可以将在步骤s560和步骤s570中得到的标准问句和相似问句作为样本数据,训练分类模型。例如,每个标准问句可以作为一个类别的样本,每个相似问句可以和对应的标准问句属于相同类别。由此,可以训练分类模型以用于预测输入该模型的语句的意图。该分类模型可以用于知识库中,用于基于用户提出的疑问提供相应的答案。
108.在步骤s580中,还可以将在步骤s560和步骤s570中得到的标准问句和相似问句作为样本数据,训练域外(out of domain)数据模型。例如,可将标准问句和相似问句标注为1;将语料子集中不是标准问句和相似问句的文本标注为0,由此来构造训练样本集。训练得到的域外数据模型可以预测输入的文本是否属于域内数据。
109.此外,还可以利用在步骤s560和步骤s570中得到的标准问句和相似问句作为样本数据训练语义匹配模型,在此不在赘述。
110.根据本公开的另一方面,还提供了一种语料库的构建装置。图6示出了根据本公开实施例的语料库的构建装置600的结构框图。如图6所示,语料库的构建装置600包括:
111.文本集合获取单元610,被配置为获取第一文本集合,第一文本集合包括多个文本;
112.聚类单元620,被配置为根据第一文本集合中的多个文本的语义信息,对多个文本进行聚类,以得到多个第一文本子集;
113.关键词获取单元630,被配置为针对多个第一文本子集中的至少一部分第一文本子集,获取该至少一部分第一文本子集的至少一个第一关键词;
114.关键词集合获取单元640,被配置为基于第一关键词,获取近义关键词集合,近义关键词集合包括与第一关键词词义相近的多个近义关键词;以及
115.文本匹配单元650,被配置为获取第一文本集合中与该近义关键词集合相匹配的文本,以作为语料库中的语料子集。
116.应当理解,图6中所示装置600的各个单元可以与参考图2描述的方法200中的各个步骤相对应。由此,上面针对方法200描述的操作、特征和优点同样适用于装置600及其包括的单元。为了简洁起见,某些操作、特征和优点在此不再赘述。
117.还应当理解,本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图6描述的各个单元可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些单元可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些单元可以被实现为硬件逻辑/电路。例如,在一些实施例中,单元610至单元650中的一个或多个可以一起被实现在片上系统(system on chip,soc)中。soc可以包括集成电路芯片(其包括处理器(例如,中央处理单元(central processing unit,cpu)、微控制器、微处理器、数字信号处理器(digital signal processor,dsp)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件),并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。
118.根据本公开的另一方面,还提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的语料库的构建方法。
119.根据本公开的另一方面,还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的语料库的构建方法。
120.根据本公开的另一方面,还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序再被处理器执行时实现上述的语料库的构建方法。
121.参见图7,现将描述可以作为本公开的电子设备700的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备可以是不同类型的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
122.图7示出了根据本公开实施例的电子设备的框图。如图7所示,电子设备700可以包括能够通过系统总线703彼此通信的至少一个处理器701、工作存储器702、i/o设备704、显
示设备705、存储装置706和通信接口707。
123.处理器701可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器701可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。处理器701可以被配置成获取并且执行存储在工作存储器702、存储装置706或者其他计算机可读介质中的计算机可读指令,诸如操作系统702a的程序代码、应用程序702b的程序代码等。
124.工作存储器702和存储装置706是用于存储指令的计算机可读存储介质的示例,指令由处理器701执行来实施前面所描述的各种功能。工作存储器702可以包括易失性存储器和非易失性存储器二者(例如ram、rom等等)。此外,存储装置706可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如cd、dvd)、存储阵列、网络附属存储、存储区域网等等。工作存储器702和存储装置706在本文中都可以被统称为存储器或计算机可读存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质,计算机程序代码可以由处理器701作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
125.i/o设备704可以包括输入设备和/或输出设备,输入设备可以是能向电子设备700输入信息的任何类型的设备,可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出设备可以是能呈现信息的任何类型的设备,并且可以包括但不限于包括视频/音频输出终端、振动器和/或打印机。
126.通信接口707允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙
tm
设备、802.11设备、wi-fi设备、wimax设备、蜂窝通信设备和/或类似物。
127.工作寄存器702中的应用程序702b可以被加载执行上文所描述的各个方法和处理。在一些实施例中,计算机程序的部分或者全部可以经由存储装置706和/或通信接口707而被载入和/或安装到电子设备700上。当计算机程序被加载并由处理器701执行时,可以执行上文描述的语料库的构建方法的一个或多个步骤。
128.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
129.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程任务调度装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
130.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
131.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示设备(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
132.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
133.计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
134.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
135.虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献