1.本技术涉及人工智能技术领域,特别涉及一种自然语言处理方法及其模型的获取方法、装置、存储介质。
背景技术:
2.自然语言处理(nature language processing,nlp)是人工智能(artificial intelligence,ai)技术领域中的一个重要研究方向,自然语言是指包括实体的科学语言,自然语言处理可以包括识别实体和抽取两个实体之间的关系等。
3.目前,一般采用如基于变换器的双向编码表征(bidirectional encoder repre sentation from transformers,bert)处理模型对自然语言进行处理。但是,目前的处理模型在进行自然语言处理时仅关注实体本身,而忽略了一个文档中各个实体之间的复杂交互,如此导致处理准确率较低,可靠性较差。
技术实现要素:
4.本技术实施例提供了一种自然语言处理方法及其模型的获取方法、装置、存储介质,可以解决相关技术中自然语言处理准确率较低,可靠性较差的问题。
5.所述技术方案如下:
6.一方面,提供了一种自然语言处理方法,所述方法包括:
7.获取目标文本,所述目标文本包括至少一个实体;
8.获取目标自然语言处理模型,所述目标自然语言处理模型为基于基础处理模型的实体预测损失值和实体关系预测损失值对所述基础处理模型进行更新得到的模型,所述实体预测损失值基于所述基础处理模型预测的各个实体的相似度确定,所述实体关系预测损失值基于所述基础处理模型预测的各个实体对的关系相似度确定,其中,每个所述实体对包括两个实体;
9.将所述目标文本输入所述目标自然语言处理模型,得到所述目标自然语言处理模型输出的处理结果。
10.另一方面,提供了一种自然语言处理模型的获取方法,所述方法包括:
11.获取多个第一训练样本和多个第二训练样本,每个所述第一训练样本包括一个实体对,每个所述第二训练样本包括两个实体对,所述实体对包括两个实体;
12.将所述多个第一训练样本输入至基础处理模型,得到所述基础处理模型的实体预测损失值,所述实体预测损失值基于所述基础处理模型预测的各个所述第一训练样本中两个实体的相似度确定;
13.将所述多个第二训练样本输入至所述基础处理模型,得到所述基础处理模型的实体关系预测损失值,所述实体关系预测损失值基于所述基础处理模型预测的各个所述第二训练样本中两个实体对的关系相似度确定;
14.基于所述实体预测损失值和所述实体关系预测损失值,更新所述基础处理模型的
参数,得到目标自然语言处理模型。
15.又一方面,提供了一种自然语言处理装置,所述装置包括:
16.文本获取模块,用于获取目标文本,所述目标文本包括至少一个实体;
17.模型获取模块,用于获取目标自然语言处理模型,所述目标自然语言处理模型为基于基础处理模型的实体预测损失值和实体关系预测损失值对所述基础处理模型进行更新得到的模型,所述实体预测损失值基于所述基础处理模型预测的各个实体的相似度确定,所述实体关系预测损失值基于所述基础处理模型预测的各个实体对的关系相似度确定,其中,每个所述实体对包括两个实体;
18.处理模型,用于将所述目标文本输入所述目标自然语言处理模型,得到所述目标自然语言处理模型输出的处理结果。
19.再一方面,提供了一种自然语言处理模型的获取装置,所述装置包括:
20.样本获取模块,用于获取多个第一训练样本和多个第二训练样本,每个所述第一训练样本包括一个实体对,每个所述第二训练样本包括两个实体对,所述实体对包括两个实体;
21.第一输入模型,用于将所述多个第一训练样本输入至基础处理模型,得到所述基础处理模型的实体预测损失值,所述实体预测损失值基于所述基础处理模型预测的各个所述第一训练样本中两个实体的相似度确定;
22.第二输入模型,用于将所述多个第二训练样本输入至所述基础处理模型,得到所述基础处理模型的实体关系预测损失值,所述实体关系预测损失值基于所述基础处理模型预测的各个所述第二训练样本中两个实体对的关系相似度确定;
23.更新模块,用于基于所述实体预测损失值和所述实体关系预测损失值,更新所述基础处理模型的参数,得到目标自然语言处理模型。
24.可选的,所述多个第一训练样本包括:从第一文档集合包括的多个第一文档中获取到的m个第一正训练样本,以及与每个所述第一正训练样本对应的多个第一负训练样本;其中,每个所述第一正训练样本包括:一个所述第一文档中的一个头实体,以及所述头实体的尾实体,每个所述第一负训练样本包括:所述第一负训练样本所对应的第一正训练样本中的头实体,以及所述头实体所属的第一文档中的参考实体,所述参考实体为所述第一文档中除所述尾实体之外的实体,m为大于1的整数;
25.所述多个第二训练样本包括:从第二文档集合包括的多个第二文档中获取到的n个第二正训练样本,以及与每个所述第二正训练样本对应的多个第二负训练样本;其中,每个所述第二正训练样本包括:从至少一个所述第二文档中获取到的具有相同关系的两个实体对,每个所述第二负训练样本包括:从至少一个所述第二文档中获取到的具有不同关系的两个实体对,以及无关系的两个实体对,且每个所述第二负训练样本中的一个实体对与所述第二负训练样本对应的一个第二正训练样本中的一个实体对相同,n为大于1的整数。
26.可选的,所述第一输入模块,用于将每个所述第一正训练样本和对应的多个所述第一负训练样本输入至基础处理模型,得到所述基础处理模型的实体预测损失值;
27.所述第二输入模块,用于将每个所述第二正训练样本和对应的多个所述第二负训练样本输入至所述基础处理模型,得到所述基础处理模型的实体关系预测损失值。
28.可选的,基于第m个第一正训练样本和对应的多个第一负训练样本得到的基础处
理模型的实体预测损失值lep满足:
[0029][0030]
其中,是指第m个第一正训练样本中头实体和尾实体的相似度,是指与所述第m个第一正训练样本对应的多个第一负训练样本中,第j个第一负训练样本所包括的头实体和参考实体的相似度,i是指所述多个第一负训练样本的数量,且m为小于等于m的整数,j为小于等于i的整数;
[0031]
基于第n个第二正训练样本和对应的多个第二负训练样本得到的基础处理模型的实体关系预测损失值lrp满足:
[0032][0033]
其中,是指第n个第二正训练样本中两个实体对的关系相似度,是指与所述第n个第二正训练样本对应的多个第二负训练样本中,第k个第二负训练样本所包括的两个实体对的关系相似度,nneg是指所述多个第二负训练样本的数量,且n为小于等于n的整数,k为小于等于nneg的整数。
[0034]
可选的,所述更新模块,用于:
[0035]
基于目标损失值、所述实体预测损失值和所述实体关系预测损失值之和,更新所述基础处理模型,直至满足更新终止条件为止;
[0036]
将满足更新终止条件时的基础处理模型确定为目标自然语言处理模型;
[0037]
其中,所述目标损失值用于指示所述基础处理模型自身的计算损失度。
[0038]
再一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如上述方面所述的自然语言处理方法,或者实现如上述方面所述的自然语言处理模型的获取方法。
[0039]
再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如上述方面所述的自然语言处理方法,或者实现如上述方面所述的自然语言处理模型的获取方法。
[0040]
本技术实施例提供的技术方案带来的有益效果至少可以包括:
[0041]
本技术实施例提供了一种自然语言处理方法及其模型的获取方法、装置、存储介质。其中,该方法可以将获取到的目标文本输入至目标自然语言处理模型,以得到自然语言的处理结果。由于该目标自然语言处理模型是基于基础处理模型的实体预测损失值及实体关系预测损失值对基础处理模型优化得到的,因此该目标自然语言处理模型不仅能够较好的了解实体本身,而且能够较好的了解不同实体之间的复杂交互关系,进而采用该目标自然语言处理模型对自然语言处理的结果准确率更高,可靠性更好。
附图说明
[0042]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]
图1是本技术各个实施例所涉及的实施环境示意图;
[0044]
图2是本技术实施例提供的一种自然语言处理方法的流程图;
[0045]
图3是本技术实施例提供的一种自然语言处理模型的获取方法流程图;
[0046]
图4是本技术实施例提供的另一种自然语言处理模型的获取方法流程图;
[0047]
图5是本技术实施例提供的一种实体预测训练示意图;
[0048]
图6是本技术实施例提供的一种实体关系预测训练示意图;
[0049]
图7是本技术实施例提供的一种自然语言处理装置的结构框图;
[0050]
图8是本技术实施例提供的一种自然语言处理模型的获取装置的结构框图;
[0051]
图9是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0052]
为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
[0053]
首先,对本技术实施例涉及到的一些专有名词做以如下解释:
[0054]
人工智能(artificial intelligence,ai):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。ai基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统和机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本技术下述实施例提供的方案涉及人工智能的自然语言处理技术,以及机器学习技术。
[0055]
其中,机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习和式教学习等技术。
[0056]
自然语言处理(nature language processing,nlp):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。nlp技术通常包括文本处理、语义理解、机器翻译、机器人问答和知识图谱等技术。
[0057]
图1是本技术下述各个实施例所涉及的实施环境示意图。如图1所示,该实施环境可以包括:终端01和服务器02,该终端01和服务器02可以通过有线或者无线网络建立通信
连接。以下实施例记载的各方法可以应用于终端01中,也可以应用于服务器02中,或者也可以同时应用于终端01和服务器02中。
[0058]
例如,下述实施例记载的自然语言处理方法可以应用于终端01,自然语言处理模型的获取方法可以应用于服务器02。即可以先由服务器02采用下述实施例记载的自然语言处理模型获取方法获取目标自然语言处理模型,并将获取到的目标自然语言处理模型发送至终端01,再由终端01使用该目标自然语言处理模型进行自然语言处理。
[0059]
可选的,终端01可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等方式进行人机交互的电子产品。如,图1所示的台式电脑、个人计算机(personal computer,pc)、手机、可穿戴设备或平板电脑等。服务器02可以是图1所示的一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。此外,本领域技术人员应能理解上述终端01和服务器02仅为举例,其他现有的或今后可能出现的终端或服务器如可适用本技术,也应包含在本中请保护范围以内。
[0060]
图2是本技术实施例提供的一种自然语言处理方法的流程图,该方法可以应用于图1所示的终端01中。如图2所示,该方法可以包括:
[0061]
步骤201、获取目标文本。
[0062]
可选的,终端可以接收用户输入的目标文本,或者也可以响应于接收到的处理指令主动调用目标文本进行处理。并且,终端获取到的目标文本可以为一句话,或者可以为包括多条句子的一个段落,或者也可以为包括较多句子的一篇文档。除此之外,本技术实施例中,终端获取到的目标文本可以包括至少一个实体。
[0063]
实体,也可以称为命名实体。实体可以是指:文本中具有特定含义的单词或是短语,且实体一般可以分为三大类(实体类、时间类和数字类)和七小类(人名、地名、组织机构名、时间、日期、货币和百分比)。
[0064]
此外,两个实体可以组成一个实体对。两个不同的实体在某种性质上可以存在一种关系,且具有关系的两个实体中一个实体可以称为头实体,另一个实体可以称为尾实体。可以构建三元组来表示两个实体以及该两个实体的关系,即三元组中可以包括:(头实体,关系,尾实体)。例如,对于目标文本“北京是中国的首都”而言,该文本中包括一个三元组(中国,首都,北京)。再结合上述对实体的介绍可以确定,该目标文本中包括两个实体,一个为头实体“中国”,另一个为尾实体“北京”,“首都”为该两个实体的关系。
[0065]
由以上实施例还可以确定,准确的识别一个文本中的实体对捕获该文本的事实至关重要,尤其在文本为包括多条句子的文档的应用场景下。若能够可靠的捕获到文本的事实,则自然语言处理的结果也相应的能够较为准确。
[0066]
步骤202、获取目标自然语言处理模型。
[0067]
在本技术实施中,该目标自然语言处理模型可以为基于基础处理模型的实体预测损失值和实体关系预测损失值对基础处理模型进行更新得到的模型。
[0068]
其中,该实体预测损失值可以基于该基础处理模型预测的各个实体的相似度确定,该实体关系预测损失值可以基于该基础处理模型预测的各个实体对的关系相似度确定,每个实体对可以包括两个实体,如可以包括头实体和尾实体。
[0069]
可选的,该基础处理模型可以为任一种具备自然语言处理功能的模型。如,bert模型或基于共指(coreferential)消解的bert模型,即corefbert模型。
[0070]
但是,现有的以上基础处理模型在进行自然语言处理时,均忽略了实体之间的复杂交互,导致处理结果的准确率较差。而本技术实施例在基于该基础处理模型的实体预测损失值和实体关系预测损失值,对该基础处理模型进行更新(也可以理解为优化)后,使得更新后的基础处理模型,即本技术实施例记载的目标自然语言处理模型能够较好的了解实体本身,以及不同实体之间的关系。
[0071]
步骤203、将目标文本输入目标自然语言处理模型,得到目标自然语言处理模型输出的处理结果。
[0072]
在本技术实施例中,终端在获取到目标文本和目标自然语言处理模型后,可以直接将目标文本输入至目标自然语言处理模型,以得到处理结果,完成自然语言处理任务。并且,基于上述步骤202的记载可知,因本技术实施例中,终端获取到的目标自然语言处理模型对实体以及实体关系的了解均较为准确,故本技术实施例最终得到的处理结果准确率较好,可靠性较高。
[0073]
可选的,结合上述对自然语言处理的名词解释可知,自然语言处理的处理结果可以包括下述结果中的至少一种:目标文本中至少一个实体的所属类别,目标文本中至少一个实体对的关系,目标文本的问答结果,以及目标文本的翻译结果。
[0074]
其中,类别可以是指实体所属分类,如对于上述提到的实体“北京”而言,其类别可以为城市名。实体对的关系可以是指实体对包括的两个实体的所属关系。如,对于上述提到的实体“北京”和“中国”而言,其两者的关系可以为“首都”。问答结果可以是指对目标文本的回复,相应的,目标文本需要包括至少一个问题。翻译结果可以是指对目标文本的一个解释翻译,如将目标文本由中文翻译为英文。当然,处理结果也不限于以上示例,如还可以包括目标文本的语音识别结果,相应的,上述步骤201终端获取到的目标文本可以为语音形式。
[0075]
综上所述,本技术实施例提供了一种自然语言处理方法,该方法可以将获取到的目标文本输入至目标自然语言处理模型,以得到自然语言的处理结果。由于该目标自然语言处理模型是基于基础处理模型的实体预测损失值及实体关系预测损失值对基础处理模型优化得到的,因此该目标自然语言处理模型不仅能够较好的了解实体本身,而且能够较好的了解不同实体之间的复杂交互关系,进而采用该目标自然语言处理模型对自然语言处理的结果准确率更高,可靠性更好。
[0076]
基于上述实施例记载可知,为获取到目标自然语言处理模型,首先需要调用一基础处理模型,且该基础处理模型可以为自然语言处理模型。
[0077]
例如,基础处理模型可以为bert模型,或者改进后的bert模型,简称roberta模型,或者corefbert模型,或者卷积神经网络(convolutional neural network,cnn)模型,或者深度神经网络(deep neural network,dnn)模型。若为bert模型,则可以使用bert模型中的基础(base)模型,即bert_base模型,该bert_base模型一般包括12层转换器(transformer),总存储约110兆(m)。当然,以上模型仅是示意性说明,任何可以进行机器学习的语言处理模型均可以用作基础处理模型。
[0078]
以下对获取上述实施例记载的目标自然语言处理模型的方法进行介绍:
[0079]
图3是本技术实施例提供的一种自然语言处理模型的获取方法流程图,该方法可以应用于图1所示的服务器02中。如图3所示,该方法可以包括:
[0080]
步骤301、获取多个第一训练样本和多个第二训练样本。
[0081]
可选的,在本技术实施例中,服务器可以先获取大量的文档,然后再从该大量的文档中提取出多个第一训练样本和多个第二训练样本,以完成下述训练。
[0082]
其中,第一训练样本可以是用于训练基础处理模型对实体预测的样本,相应的,每个第一训练样本可以包括一个实体对。第二训练样本可以是用于训练基础处理模型对实体关系预测的样本,相应的,每个第二训练样本可以包括两个实体对。且如上述实施例记载,一个实体对可以包括两个实体。
[0083]
步骤302、将多个第一训练样本输入至基础处理模型,得到基础处理模型的实体预测损失值。
[0084]
在获取到多个第一训练样本后,服务器可以将该多个第一训练样本分批次的依次输入至基础处理模型,以确定基础处理模型每次处理接收到的第一训练样本的实体预测损失值。并且,该实体预测损失值可以为服务器基于基础处理模型预测的各个第一训练样本中两个实体的相似度确定的。
[0085]
步骤303、将多个第二训练样本输入至基础处理模型,得到基础处理模型的实体关系预测损失值。
[0086]
在获取到多个第二训练样本后,服务器可以将该多个第二训练样本分批次的依次输入至基础处理模型,以确定基础处理模型每次处理接收到的第二训练样本的实体关系预测损失值。并且,该实体关系预测损失值可以为服务器基于基础处理模型预测的各个第二训练样本中两个实体对的关系相似度确定的。
[0087]
步骤304、基于实体预测损失值和实体关系预测损失值,更新基础处理模型的参数,得到目标自然语言处理模型。
[0088]
可选的,服务器可以在每次输入训练样本得到基础处理模型的实体预测损失值和实体关系预测损失值后,均对基础处理模型进行一次参数上的更新优化,以降低基础处理模型的预测损失,即提升基础处理模型的处理性能。并且,服务器可以响应于预先设置的更新终止条件,停止更新基础处理模型,并将最终更新得到的基础处理模型的参数确定为目标自然语言处理模型。该目标自然语言处理模型即可以用于执行上述图2所示实施例记载的自然语言处理方法。
[0089]
综上所述,本技术实施例提供了一种自然语言处理模型的获取方法。该方法可以基于获取到的训练样本确定基础处理模型的实体预测损失值及实体关系预测损失值,且可以基于该两个损失值对基础处理模型进行更新优化以得到目标自然语言处理模型。如此,即使得最终得到的目标自然语言处理模型不仅能够较好的了解实体本身,而且能够较好的了解不同实体之间的复杂交互关系,即本技术实施例获取到的目标自然语言处理模型的性能较好。
[0090]
图4是本技术实施例提供的另一种自然语言处理模型的获取方法流程图,该方法可以应用于图1所示的服务器02中。如图4所示,该方法可以包括:
[0091]
步骤401、获取多个第一训练样本。
[0092]
获取训练样本是进行模型更新优化的基础,在本技术实施例中,服务器可以采用下述方式逐步获取得到多个用于训练基础处理模型对实体预测的第一训练样本,且获取到的每个第一训练样本可以包括一个实体对。
[0093]
首先,服务器可以先采用网络爬虫工具在一个含有大量语料(即,语言材料)的知识库中获取多个文档,且为确定后续训练的可靠性,获取到的多个文档可以包括大量的实体,以及具有不同关系的大量实体对。并且,服务器在获取文档的过程中,可以直接将各个文档包括的实体,以及实体对的关系标注于文档中,即可以直接标识出每个文档中所包括的各个三元组。其次,服务器可以从获取到的多个文档中抽取一部分文档(也称第一文档)作为第一文档集合,并在该第一文档集合包括的各个第一文档中抽取得到多个第一训练样本。
[0094]
例如,以知识库为aa为例。首先,服务器可以采用网络爬虫工具在aa中爬取大量的文档,且可以采用实体识别工具(如,spacy工具,spacy为工具的标识)识别出每个文档中的实体。然后,服务器可以将识别出的实体和aa提供的超链接连接至aa数据中,并获得相应知识库(knowledge base,kb)的标识(identification id),即kb id。最后,服务器即可以进一步通过查询aa数据确定出不同实体之间的关系。如此,即可以实现对多个文档中实体对和关系的标识。此外,服务器还可以采用远程监督技术确定两个实体之间的关系。
[0095]
示例的,以共获取了100万个文档,该100万个文档中共标注有4000多个关系,且每个文档中平均包括186.9个单词,7.2个关系和12.9个实体,每个实体在文档中的平均出现次数为1.3次为例对本技术实施例记载的方案进行说明。在该文档数量基础上,服务器即可以从该100万个文档中抽取一部分(如,50万个)文档作为第一文档集合,并进一步从该集合中抽取得到多个第一训练样本。
[0096]
可选的,在本技术实施例中,服务器获取到的多个第一训练样本可以包括:从第一文档集合包括的多个第一文档中获取到的m个第一正训练样本(positive sample),以及与每个第一正训练样本对应的多个第一负训练样本(negative sample),m可以为大于1的正整数。
[0097]
其中,每个第一正训练样本可以包括:一个第一文档中的一个头实体(head entity),以及头实体的尾实体(tail entity)。每个第一负训练样本可以包括:第一负训练样本所对应的第一正训练样本中的头实体,以及头实体所属的第一文档中的参考实体,该参考实体可以为第一文档中除尾实体之外的实体。
[0098]
示例的,参考图5,其示出了获取到的一个第一文档的示意图,其中,该第一文档的内容为:“culiac
á
n is a city in northwestern mexico.culiac
á
n is the capital of the state of sinaloa.culiac
á
n is also the seat of culiac
á
n municipality culiac
á
n is in the center of sinaloa,at about the same distance to the two other urban centers of sinaloa:los mochis to the north and mazatl
á
n tothenorth”,其中文译文为“(译文:库利亚坎是西北部的一个城市墨西哥。库利亚坎是该州的首府锡那罗亚。库利亚克库利亚坎也是库利亚坎市的所在地
……
库利亚坎位于锡那罗亚的中心,与锡那罗亚另外两个城市中心的距离差不多:北部是洛斯莫奇斯,北部是马扎坦)”。且,该第一文档中标注了尾实体为“mexico”,头实体为“sinaloa”,“culiac
á
n、los mochis、mazatl
á
n和municipality”均为参考实体。则服务器从该第一文档中抽取到的一个第一正训练样本可以为“mexico”和“sinaloa”。与该第一正训练样本对应有四个第一负训练样本,分别为:“sinaloa”和culiac
á
n”、“sinaloa”和los mochis”、“sinaloa”和mazatl
á
n”以及“sinaloa”和municipality”。图5中,加粗、下划线且斜体标识代表尾实体,加粗且下
划线标识代表关系,斜体且下划线标识代表头实体,仅加粗标识代表参考实体。
[0099]
需要说明的是,服务器可以是将第一文档输入至基础处理模型后,再进行第一训练样本的提取,或者,服务器也可以是先提取到多个第一训练样本,再将第一训练样本输入至基础处理模型,即再执行下述步骤403的操作。
[0100]
步骤402、获取多个第二训练样本。
[0101]
获取第二训练样本的方式可以参考步骤401的介绍。区别在于:服务器可以将获取到的多个文档中除第一文档外的其他文档(也可以称为第二文档)作为第二文档集合,并从该第二文档集合包括的多个第二文档中抽取得到多个第二训练样本。例如,依然假设共获取到100万个文档,服务器抽取了50份文档作为第一文档集合,则服务器可以将剩余的50万份文档直接作为第二文档集合。
[0102]
可选的,服务器获取到的多个第二训练样本可以包括:从第二文档集合包括的多个第二文档中获取到的n个第二正训练样本,以及与每个第二正训练样本对应的多个第二负训练样本,n可以为大于1的整数。
[0103]
其中,每个第二正训练样本可以包括:从至少一个第二文档(即,一个或多个第二文档)中获取到的具有相同关系的两个实体对。每个第二负训练样本可以包括:从至少一个第二文档中获取到的具有不同关系的两个实体对,以及无关系(即,无关系标注)的两个实体对,且每个第二负训练样本中的一个实体对与第二负训练样本对应的一个第二正训练样本中的一个实体对可以相同。通过增加无关系的实体对作为第二负训练样本,可以增强学习的多样性,有效提高负例样本的利用率,进而优化对基础处理模型的更新效果。
[0104]
示例的,参考图6,其示出了获取的三个文档d1、d2和d3的示意图。其中,第二文档d1包括
“…
since 1773,when the royal swedish opera was founded by gustav iii of sweden
…”
,其中文译文为
“…
自1773年瑞典的古斯塔夫三世创立瑞典皇家歌剧院以来
…”
;第二文档d2包括
“…
gates is an american business magnate,software developer,and philanthropist
…
he left his board positions at microsoft
…”
,其中文译文为
“…
盖茨是美国商业巨头、软件开发商和慈善家
…
他离开了微软的董事会
…”
;第二文档d3包括
“…
samarind a is the capital ofeast kalimantan,indonesia,on the island of borneo
…
samarinda is known for its traditional food amplang,as well as the cloth sarung samarinda
…”
,其中文译文为
“…
萨马林达是印度尼西亚东加里曼丹省的首府,位于婆罗洲岛上
……
萨马林达以其传统食物安普朗和布莎朗萨马林达而闻名
…”
。且,第二文档d1中实体对所包括的头实体为“oyal swedish opera”,尾实体为“gustav iii of sweden”,两者之间的关系为“founded by”。第二文档d2中实体对所包括的头实体为“microsoft”,尾实体为“gates”,两者之间的关系为“founded by”。第二文档d3中一个实体对所包括的头实体为“east kalimantan”,尾实体为“samarinda”,两者之间的关系为“capital of”,另一个实体对所包括的头实体为“indonesia”,尾实体为“sarung samarinda”,两者之间的关系为“country of”。图6中,加粗、下划线且斜体标识代表尾实体,加粗和/或下划线标识代表关系,斜体且下划线标识代表头实体。
[0105]
由此,服务器从该三个第二文档中抽取到的第二正训练样本可以为:具有相同关系“founded by”的实体对(oyal swedish opera,gustav iii of sweden)和实体对(microsoft,gates)。且,服务器可以获取到与该第二正训练样本对应的两个第二负训练样
和los mochis”、“sinaloa”和mazatl
á
n”以及“sinaloa”和municipality”输入至了基础处理模型00。由此,经基础处理模型00基于上述公式(1)和(2)计算处理,可以得到一实体预测损失值。
[0118]
此外,结合图5以及上述实施例记载可知,该实体预测损失值的确定原理其实为:使得基础处理模型能够将一个第一文档中已知的具有关系的头实体和尾实体中,头实体和关系拼接于所属第一文档之前,以使得基础处理模型通过对比学习,能够将头实体和对应的尾实体学习的更近,即更为相似。并且,将头实体与第一文档中除尾实体之外的其他实体(即参考实体)学习的更远。换言之,使得基础处理模型可以更好的了解实体。其中,参考图5,执行拼接操作所涉及到的代码为“[cls] 关系 头实体 [sep] 第一文档 [sep]”。
[0119]
步骤404、将每个第二正训练样本和对应的多个第二负训练样本输入至基础处理模型,得到基础处理模型的实体关系预测损失值。
[0120]
本技术实施例中,服务器可以将获取到的多个第二训练样本,即每个第二正训练样本和对应的多个第二负训练样本依次输入至基础处理模型。并且,每次输入均可以得到基础处理模型的一个实体关系预测损失值。
[0121]
其中,实体关系预测损失值可以用于指示基础处理模型对实体关系进行预测的一个损失,可以用来衡量基础处理模型对实体关系进行预测的性能。一般而言,损失值越小,基础处理模型的实体关系预测性能越好,即预测准确率越高。
[0122]
可选的,在本技术实施例中,服务器基于获取到的n个第二训练样本中,第n个第二正训练样本和对应的多个第二负训练样本得到的基础处理模型的实体关系预测损失值lrp可以满足:
[0123][0124]
其中,可以是指第n个第二正训练样本中两个实体对的关系相似度,可以是指与第n个第二正训练样本对应的多个第二负训练样本中,第k个第二负训练样本所包括的两个实体对的关系相似度,nneg可以是指多个第二负训练样本的数量,且n可以为小于等于n的整数,k可以为小于等于nneg的整数。nneg也可以称为超参数。因公式(3)是用于计算损失值,故公式(3)也可以称为实体关系预测的损失函数。
[0125]
可选的,若关系相似度依然余弦值来表示,则上述可以满足:
[0126][0127]
其中,rn1可以是指第n个第二正训练样本中一个实体对n1的关系向量表示,rn2可以是指第n个第二正训练样本中另一个实体对n2的关系向量表示。的计算可以参考上述公式(4),在此不再赘述。
[0128]
可选的,每个实体对的关系向量表示可以为:该实体对包括的两个实体的表示向量拼接,即为该两个实体的表示向量之和。
[0129]
例如,参考图6可以看出,服务器将该三个文档中具有相同关系的实体对(oyal swedish opera,gustav iii of sweden)和(microsoft,gates)作为第二正训练样本输入至了基础处理模型00。且,将具有不同关系的两个实体对作为对应的两个第一负训练样本:
(oyal swedish opera,gustav iii of sweden)和(east kalimantan,samarinda),(oyal swedish opera,gustav iii of sweden)和(indonesia,sarung samarinda)输入至了基础处理模型00。由此,经基础处理模型00基于上述公式(3)和(4)计算处理,可以得到一实体关系预测损失值。
[0130]
同上述步骤403,该实体关系预测损失值的确定原理其实为:使得基础处理模型能够将至少一个第二文档中已知的具有相同关系的两个实体对学习的更近,即更为相似。并且,将该至少一个第二文档中具有不同关系的两个实体对学习的更远。换言之,使得基础处理模型能够较好的了解实体对之间的关系。
[0131]
需要说明的是,服务器可以同时执行步骤403和步骤404,即同时确定基础处理模型的实体预测损失值,以及基础处理模型的实体关系预测损失值。
[0132]
步骤405、基于目标损失值、实体预测损失值和实体关系预测损失值之和,更新基础处理模型,直至满足更新终止条件为止。
[0133]
可选的,在本技术实施例中,服务器除了获取基础处理模型的实体预测损失值和实体关系预测损失值,还可以基于目标损失模型确定自身处理语言时的损失。如,该目标损失模型可以为屏蔽式语言模型(masked language model,mlm)。如此,可以防止自身遗忘信息,确保处理可靠性。
[0134]
此外,结合上述步骤403和步骤404的记载,因服务器获取了大量的第一训练样本和大量的第二训练样本,故服务器可以在基于每个第一训练样本得到基础处理模型的实体预测损失值,以及基于每个第二训练样本得到基础处理模型的实体关系预测损失值后,均对基础处理模型进行一次参数上的更新调整,以优化基础处理模型的预测能力,即降低优化后的基础处理模型的实体预测损失值和实体关系预测损失值,提升基础处理模型的预测能力。
[0135]
可选的,在每得到一个实体预测损失值和实体关系预测损失值后,服务器可以将目标损失值以及得到的该两个预测损失值相加,并基于相加结果(即总损失值)对基础处理模型进行参数更新调整,直至满足更新终止条件为止,停止继续更新,即停止向基础处理模型输入训练样本(包括第一训练样本和第二训练样本)。
[0136]
例如,假设目标损失值用lmlm表示,则基础处理模型的总损失值l可以满足:l=lmlm lep lrp,l也可以称为总损失函数。
[0137]
可选的,该更新终止条件可以预置于服务器中,且满足更新终止条件包括但不限于以下三种情况:(1)更新次数(即迭代训练)达到次数阈值。(2)总损失值小于损失阈值。(3)总损失值l收敛。其中,次数阈值和损失阈值均可根据经验设置,或者可以根据应用场景灵活调整,本技术实施例对此不作限定。收敛可以理解为:随迭代训练次数的增加,在目标次数的训练结果中,总损失函数的波动范围位于目标范围内。
[0138]
结合上述实施例记载可知,因在对基础处理模型进行更新时,不仅考虑个基础处理模型的自身处理损失值,还考虑了基础处理模型预测实体的损失值,以及预测实体关系的损失值,故使得更新后的基础处理模型能够在自身处理方面、实体预测方面以及实体关系预测方面均具备良好的性能。
[0139]
步骤406、将满足更新终止条件时的基础处理模型确定为目标自然语言处理模型。
[0140]
可选的,当服务器检测到满足更新终止条件时,可以结束更新基础处理模型的操
作,并将当前更新得到的基础处理模型确定为目标自然语言处理模型,以执行上述图2实施例记载的自然语言处理方法。
[0141]
为体现服务器获取到的目标自然语言处理模型的处理准确率,采样了不同数量的训练样本,并在文档级关系抽取任务、文档级阅读理解任务以及实体类别确定任务上进行了效果验证。验证结果可分别可参考下述表1至表3。
[0142]
表1中,10%、50%和100%分别指输入的样本数量,如,10%是指从获取到的所有样本中随机抽取了10%比例的样本,假设共获取到100个样本,则10%的样本即是指从该100个样本中随机抽取的10个样本。dev是指训练用样本,test是指测试用样本,f1是用于衡量处理结果的一种表示,lgf1是用于衡量处理结果的另一种表示。并且,表1示出了传统模型(traditional models):cnn模型和双向长短期记忆(bi
‑
directional long short
‑
term memory,bilstm)模型的处理结果,基于(based)bert的各个模型:标识为hinbert的模型、corefbert、基于分词(span)的模型spanbert、标识为mtb的模型、标识为cp的模型及本技术实施例获取到的目标自然语言处理模型,即信任(trust)
‑
bert的处理结果,以及基于roberta模型的各个模型:roberta和本技术实施例获取到的目标自然语言处理模型,即trust
‑
roberta的处理结果。
[0143]
表2中,1%、10%、50%和100%分别指输入的样本数量。屏蔽(masked)是指经屏蔽处理后的文本,标准(standard)是指未经任何处理的标准文本。并且,表2示出了传统模型:标识为fast qa的模型和利用双向注意流进行机器理解(bi
‑
directional attention flow for machine comprehension,bidaf)模型的处理结果,基于bert的各个模型:hinbert、corefbert、spanbert、mtb、cp以及本技术实施例获取到的目标自然语言处理模型,即trust
‑
bert的处理结果,以及基于roberta模型的各个模型:roberta和本技术实施例获取到的目标自然语言处理模型,即trust
‑
roberta的处理结果。
[0144]
表3中,macro和micro是两种不同的类别。并且,表3示出了基于bert的各个模型:bert、mtb、cp、通过知识整合增强表现力(enhanced represe ntation through knowledge integration,ernie)模型以及本技术实施例获取到的目标自然语言处理模型,即trust
‑
bert的处理结果,以及基于roberta模型的各个模型:roberta和本技术实施例获取到的目标自然语言处理模型,即trust
‑
roberta的处理结果。
[0145]
表1
[0146][0147][0148]
表2
[0149][0150]
表3
[0151][0152]
参考表1至表3可以看出,采用本技术实施例记载的目标自然语言处理模型在以上三种不同的自然语言处理任务中,均具有较好的表现,即准确率均较高。
[0153]
需要说明的是,本技术实施例记载的整个模型获取方法也可以称为训练框架,该框架可以适用于多种基础处理模型,即该框架的普适度较好。并且,在数据量不充足(如10%)的前提下,该目标自然语言处理模型依然能可靠完成处理,如此可知本技术实施例获取到的目标自然语言处理模型即便在资源不充足的情况下效果也较好,这对于很多数据标
注能力低下的场景是十分有意义的。
[0154]
还需要说明的是,本发明实施例提供的自然语言处理模型的获取方法步骤的先后顺序可以进行适当调整,例如,上述步骤401和步骤402可以同时执行。任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本技术的保护范围之内,因此不再赘述。
[0155]
综上所述,本技术实施例提供了一种自然语言处理模型的获取方法。该方法可以基于获取到的训练样本确定基础处理模型的实体预测损失值及实体关系预测损失值,且可以基于该两个损失值对基础处理模型进行更新优化以得到目标自然语言处理模型。如此,即使得最终得到的目标自然语言处理模型不仅能够较好的了解实体本身,而且能够较好的了解不同实体之间的复杂交互关系,即本技术实施例获取到的目标自然语言处理模型的性能较好。
[0156]
图7是本技术实施例提供的一种自然语言处理装置的结构框图。如图7所示,该装置可以包括:
[0157]
文本获取模块701,可以用于获取目标文本。
[0158]
其中,该目标文本可以包括至少一个实体。
[0159]
模型获取模块702,可以用于获取目标自然语言处理模型。
[0160]
其中,该目标自然语言处理模型为基于基础处理模型的实体预测损失值和实体关系预测损失值对基础处理模型进行更新得到的模型,实体预测损失值基于基础处理模型预测的各个实体的相似度确定,实体关系预测损失值基于基础处理模型预测的各个实体对的关系相似度确定,每个实体对包括两个实体。
[0161]
处理模型703,可以用于将目标文本输入目标自然语言处理模型,得到目标自然语言处理模型输出的处理结果。
[0162]
综上所述,本技术实施例提供了一种自然语言处理装置,该装置可以将获取到的目标文本输入至目标自然语言处理模型,以得到自然语言的处理结果。由于该目标自然语言处理模型是基于基础处理模型的实体预测损失值及实体关系预测损失值对基础处理模型优化得到的,因此该目标自然语言处理模型不仅能够较好的了解实体本身,而且能够较好的了解不同实体之间的复杂交互关系,进而采用该目标自然语言处理模型对自然语言处理的结果准确率更高,可靠性更好。
[0163]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0164]
图8是本技术实施例提供的一种自然语言处理模型的获取装置的结构框图。如图8所示,该装置可以包括:
[0165]
样本获取模块801,可以用于获取多个第一训练样本和多个第二训练样本。
[0166]
其中,每个第一训练样本可以包括一个实体对,每个第二训练样本可以包括两个实体对,一个实体对可以包括两个实体。
[0167]
第一输入模块802,可以用于将多个第一训练样本输入至基础处理模型,得到基础处理模型的实体预测损失值,实体预测损失值基于基础处理模型预测的各个第一训练样本中两个实体的相似度确定。
[0168]
第二输入模块803,可以用于将多个第二训练样本输入至基础处理模型,得到基础
处理模型的实体关系预测损失值,实体关系预测损失值基于基础处理模型预测的各个第二训练样本中两个实体对的关系相似度确定。
[0169]
更新模块804,可以用于基于实体预测损失值和实体关系预测损失值,更新基础处理模型的参数,得到目标自然语言处理模型。
[0170]
可选的,多个第一训练样本可以包括:从第一文档集合包括的多个第一文档中获取到的m个第一正训练样本,以及与每个第一正训练样本对应的多个第一负训练样本。其中,每个第一正训练样本包括:一个第一文档中的一个头实体,以及头实体的尾实体,每个第一负训练样本包括:第一负训练样本所对应的第一正训练样本中的头实体,以及头实体所属的第一文档中的参考实体,参考实体为第一文档中除尾实体之外的实体,m为大于1的整数。
[0171]
多个第二训练样本可以包括:从第二文档集合包括的多个第二文档中获取到的n个第二正训练样本,以及与每个第二正训练样本对应的多个第二负训练样本。其中,每个第二正训练样本包括:从至少一个第二文档中获取到的具有相同关系的两个实体对,每个第二负训练样本包括:从至少一个第二文档中获取到的具有不同关系的两个实体对,以及无关系的两个实体对,且每个第二负训练样本中的一个实体对与第二负训练样本对应的一个第二正训练样本中的一个实体对相同,n为大于1的整数。
[0172]
可选的,第一输入模块802可以用于:将每个第一正训练样本和对应的多个第一负训练样本输入至基础处理模型,得到基础处理模型的实体预测损失值。
[0173]
可选的,第二输入模块803可以用于:将每个第二正训练样本和对应的多个第二负训练样本输入至基础处理模型,得到基础处理模型的实体关系预测损失值。
[0174]
可选的,基于第m个第一正训练样本和对应的多个第一负训练样本得到的基础处理模型的实体预测损失值lep可以满足:
[0175][0176]
其中,是指第m个第一正训练样本中头实体和尾实体的相似度,是指与第m个第一正训练样本对应的多个第一负训练样本中,第j个第一负训练样本所包括的头实体和参考实体的相似度,i是指多个第一负训练样本的数量,且m为小于等于m的整数,j为小于等于i的整数。
[0177]
基于第n个第二正训练样本和对应的多个第二负训练样本得到的基础处理模型的实体关系预测损失值lrp满足:
[0178][0179]
其中,是指第n个第二正训练样本中两个实体对的关系相似度,是指与第n个第二正训练样本对应的多个第二负训练样本中,第k个第二负训练样本所包括的两个实体对的关系相似度,nneg是指多个第二负训练样本的数量,且n为小于等于n的整数,k为小于等于nneg的整数。
[0180]
可选的,更新模块804可以用于:基于目标损失值、实体预测损失值和实体关系预测损失值之和,更新基础处理模型,直至满足更新终止条件为止。
[0181]
将满足更新终止条件时的基础处理模型确定为目标自然语言处理模型。
[0182]
其中,目标损失值用于指示基础处理模型自身的计算损失度。
[0183]
综上所述,本技术实施例提供了一种自然语言处理模型的获取装置。该装置可以基于获取到的训练样本确定基础处理模型的实体预测损失值及实体关系预测损失值,且可以基于该两个损失值对基础处理模型进行更新优化以得到目标自然语言处理模型。如此,即使得最终得到的目标自然语言处理模型不仅能够较好的了解实体本身,而且能够较好的了解不同实体之间的复杂交互关系,即本技术实施例获取到的目标自然语言处理模型的性能较好。
[0184]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0185]
可选的,本技术实施例提供了一种计算机设备,该计算机设备可以包括处理器和存储器,存储器中可以存储有至少一条程序代码,至少一条程序代码可以由处理器加载并执行,以实现如图2所示的自然语言处理方法,或者实现如图3或图4所示的自然语言处理模型的获取方法。
[0186]
可选的,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,至少一条程序代码由处理器加载并执行,以实现如图2所示的自然语言处理方法,或者实现如图3或图4所示的自然语言处理模型的获取方法。
[0187]
图9是本技术实施例提供的一种计算机设备900的结构框图,该计算机设备可以为图1所示的台式电脑。通常,计算机设备900可以包括有:处理器901和存储器902。
[0188]
处理器901可以包括一个或多个处理核心,比如4核心处理器、9核心处理器等。处理器901可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(central processing unit,cpu);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以集成有图像处理器(graphics processing unit,gpu),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括人工智能(artificial intelligence,ai)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0189]
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器901所执行以实现本技术上述记载的各方法实施例。
[0190]
在一些实施例中,装置900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。
[0191]
外围设备接口903可被用于将输入/输出(input/output,i/o)相关的至少一个外
围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本技术实施例对此不加以限定。
[0192]
射频电路904用于接收和发射射频(radio frequency,rf)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或无线保真(wireless fidelity,wifi)网络。在一些实施例中,射频电路904还可以包括近距离无线通信(near field communication,nfc)有关的电路,本技术对此不加以限定。
[0193]
显示屏905用于显示用户界面(user interface,ui)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置在装置900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在装置900的不同表面或呈折叠设计;在另一些实施例中,显示屏905可以是柔性显示屏,设置在装置900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用液晶显示屏、有机发光二极管等材质制备。
[0194]
摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(virtual reality,vr)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0195]
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在装置900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
[0196]
定位组件908用于定位装置900的当前地理位置,以实现导航或基于位置的服务
(location based service,lbs)。定位组件908可以是基于美国的全球定位系统(global positioning system,gps)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
[0197]
电源909用于为装置900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0198]
本领域技术人员可以理解,图9中示出的结构并不构成对计算机设备900的限定,可以包括比图示更多或更少的组件,或组合某些组件,或者采用不同的组件布置。
[0199]
本技术实施例中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
[0200]
本技术实施例中术语“至少一个”的含义指一个或多个,本技术中术语“多个”的含义是指两个或两个以上。
[0201]
本技术实施例中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”,是一种描述关联对象的关联关系,表示能够存在三种关系,例如,a和/或b,能够表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本技术中的字符“/”,一般表示前后关联对象是一种“或”的关系。
[0202]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。