语言交互处理方法、装置及电子设备与流程

2022-03-09 05:40:38 来源：中国专利 TAG：

1.本技术涉及语言处理技术领域，尤其是涉及一种语言交互处理方法、装置及电子设备。

背景技术：

2.随着人工智能的不断发展，相应产生了各种智能化的语言学习方法。
3.现有的智能语言学习方法，大部分限于既定的课件让学生自主地完成学习任务，有些智能语言学习方法及装置，通过人工智能代替传统的老师实现与学生的互动，但本质仍然是基于固定的课程进行的提问和知识讲解。
4.基于固定课程进行的智能语言学习，学习内容与生活脱离，容易导致学生的学习兴趣下降，学习效率较低。

技术实现要素：

5.有鉴于此，本技术的目的在于提供一种语言交互处理方法、装置及电子设备，以第一视角下进行沉浸式语言学习，从而有效提高用户的学习兴趣和学习效率。
6.第一方面，本技术提供一种语言交互处理方法，该方法应用于可移动终端，可移动终端中配置拍摄装置、语音检测装置以及信息输出装置，该方法包括：通过拍摄装置获取用户所在的场景信息；其中，场景信息为用户的第一视角下获得的场景；根据场景信息，从预设场景库中确定与该场景信息匹配的目标场景；根据目标场景确定第一语句信息，并通过信息输出装置输出第一语句信息；通过语音检测装置对用户进行语音检测，并根据检测结果通过信息输出装置继续向用户输出语言交互信息。
7.进一步地，上述根据场景信息，从预设场景中确定与该场景信息匹配的目标场景的步骤，包括：从场景信息中提取目标对象的目标对象信息；其中，目标对象为场景中包括的标识物；从预设场景库中选取与目标对象信息匹配的预设场景作为目标场景。
8.进一步地，上述目标对象信息包括目标对象的类型和目标对象的个数；上述从预设场景库中选取与目标对象信息匹配的预设场景作为目标场景的步骤，包括：将预设场景库中的每个预设场景中包含的对象与目标对象信息进行匹配，得到该预设场景对应的相似度得分；将相似度得分高于相似度阈值的预设场景确定为目标场景。
9.进一步地，上述从预设场景库中选取与目标对象信息匹配的预设场景作为目标场景的步骤，包括：通过确定场景匹配程度的神经网络模型确定与目标对象信息匹配的目标场景。
10.进一步地，上述根据目标场景确定第一语句信息的步骤，包括：根据目标场景确定目标关键词；根据目标关键词确定第一语句信息。
11.进一步地，上述目标关键词为多个；根据目标关键词确定第一语句信息的步骤，包括：将目标关键词进行组合，生成与目标关键词对应的第一语句信息。
12.进一步地，上述根据目标关键词确定第一语句信息的步骤，包括：通过语义识别神
经网络从预设语义库中确定与目标关键词匹配的第一语句；其中，预设语义库存储于移动终端或者通过移动终端获取。
13.进一步地，上述根据检测结果通过信息输出装置继续向用户输出语言交互信息的步骤，包括：判断检测结果是否表征第一语句信息难度过高；如果是，根据目标场景确定第二语句信息，并通过信息输出装置输出第二语句信息；其中，第二语句信息对应的难度低于第一语句信息对应的难度。
14.进一步地，当满足以下任意一种情况时，确定检测结果表征第一语句信息难度过高：检测结果为未检测到用户输出语音信息；检测结果中包含的用户输出的语音信息表征用户未听懂；检测结果中包含的用户输出的语音信息对应的语义与第一语句中包含的第一语义的相关度低于相关度阈值。
15.进一步地，满足以下任意一种情况时，确定第二语句信息对应的难度低于第一语句信息对应的难度：第二语句信息的语速低于第一语句信息的语速；第二语句信息包含的词汇量小于第一语句信息包含的词汇量；第二语句包含的生僻词个数小于第一语句包含的生僻词个数。
16.进一步地，上述方法还包括：当第二语句信息对应的难度低于预设难度阈值时，从预设语义库中确定与目标场景对应的场景介绍信息，并语音和/或文本输出场景介绍信息；其中，预设语义库存储于移动终端或者通过移动终端获取。
17.进一步地，上述方法还包括：根据目标场景，从预定课程库中确定与目标场景匹配的目标预定课程；其中，预定课程库存储于移动终端或者通过移动终端获取；向用户提供启动目标预定课程的接口，以使用户根据该目标预定课程开始语言学习。
18.进一步地，上述方法还包括：向用户提供学习平台选择接口，以使用户对不同平台的学习资料进行选择；响应于用户对学习平台中第一学习平台的选择操作，向用户提供第一学习平台对应的学习资料。
19.第二方面，本技术还提供一种语言交互处理装置，该装置中配置拍摄模块和语音检测模块，该装置包括：信息获取模块，用于通过拍摄模块获取用户所在的场景信息；其中，场景信息为用户的第一视角下获得的场景；目标场景确定模块，用于根据场景信息，从预设场景库中确定与该场景信息匹配的目标场景；第一语句信息确定模块，用于根据目标场景确定第一语句信息，并通过信息输出装置输出第一语句信息；输出模块，用于通过语音检测装置对用户进行语音检测，并根据检测结果通过信息输出装置继续向用户输出语言交互信息。
20.第三方面，本技术还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述第一方面的语言交互处理方法。
21.第四方面，本技术还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述第一方面的语言交互处理方法。
22.与现有技术相比，本技术具有以下有益效果：本技术提供的上述语言交互处理方法、装置及电子设备，首先获取用户所在的场景信息，并根据该场景信息确定目标场景，然后根据目标场景确定第一语句信息，并将第一
语句信息输出给用户，检测用户输出的语音信息，并根据检测结果进一步与用户进行语言交互。本技术中，根据用户所在场景自动开启语言学习，学习的内容随着用户所在场景的变换而变换，不再单纯使用既定教学模板进行语句信息的输出，使得用户在学习过程中身临其境，同时，本技术中的技术主动进行会话开启，并根据用户的反馈内容灵活调整学习进度和内容，有效提高了学习效率和学习效果。
23.本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。
24.为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
25.为了更清楚地说明本技术具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
26.图1为本技术实施例提供的一种电子系统的结构示意图；图2为本技术实施例提供的一种语言交互处理方法的流程示意图；图3为本技术实施例提供的另一种语言交互处理方法的流程示意图；图4为本技术实施例提供的另一种语言交互处理方法的流程示意图；图5为本技术实施例提供的一种语言交互处理装置的结构示意图；图6为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
27.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合附图对本技术的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
28.目前智能语音识别技术兴起，用于以第一视角下进行沉浸式语言学习中的智能互动技术比较少，大部分设备仅限于固定课程习，及语音、视频课件式的教学，无法给用户一种良好的语言环境。基于此，本技术实施例提供一种语言交互处理方法、装置及电子设备，以第一视角下进行沉浸式语言学习，从而有效提高用户的学习兴趣和学习效率。
29.参照图1所示的电子系统100的结构示意图。该电子系统可以用于实现本技术实施例的语言交互处理方法和装置。
30.如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104。可选地，电子系统100还可以包括输入装置106、输出装置108以及一个或多个语音采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统可以具有图1中的部分组件，也可以具有其他组件和结构。
31.处理设备102可以为服务器、智能终端，或者是包含中央处理单元(cpu)或者具有
数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行语言交互处理功能。
32.存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本技术实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。
33.输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、功能按键、手势识别装置、语音识别装置、麦克风和触摸屏等中的一个或多个。
34.输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。
35.语音采集设备110可以获取用户发出的语音信息，并且将该语音信息存储在存储装置104中以供其它组件使用。
36.示例性地，用于实现根据本技术实施例的语言交互处理方法、装置及电子设备中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将语音采集设备110设置于可以采集到语音的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
37.图2为本技术实施例提供的一种语言交互处理方法，该方法应用于可移动终端，可移动终端中配置拍摄装置、语音检测装置以及信息输出装置，例如智能手机，智能平板，或者专门用于语音学习的带有摄像头的语音检测模块的语言学习机。其中的拍摄装置可以是电子设备中配置的，也可以通过电子设备连接外部拍摄装置，语音检测装置可以是电子设备配置的，也可以电子设备连接外部语音检测装置，例如zigbee、蓝牙、wi-fi等无线技术实现的耳机等，信息输出装置为语音和/或文本输出装置。具体地，该方法包括以下步骤：s202：通过拍摄装置获取用户所在的场景信息；其中，场景信息为用户的第一视角下获得的场景；场景信息为用户所在的场景信息，即以用户为第一视角的沉浸式场景信息，例如一个用户，对面是一个大厦，那么从用户的角度进行拍摄，得到的场景图像是只包含大厦的，如果从第三视角进行拍摄，得到的是包含用户的图像，本技术实施例中的场景信息为只包含用户所见（不包括用户自己）的场景信息。
38.s204：根据场景信息，从预设场景库中确定与该场景信息匹配的目标场景；具体地，电子设备中预存预设场景库，场景库中可以根据各个场景中包含的实物进行区分，例如，包含埃菲尔铁塔的自然环境，包含黑板桌椅的场景的教室，包含餐桌餐具实物的场景的餐厅等等。在具体实施时，可根据场景信息，从预设场景库中确定匹配的目标场景，例如，可以根据场景信息和预设场景库的图片的匹配程度，确定目标场景，也可以根据场景信息中包含的实物与各个预设场景中包含的实物的匹配程度确定目标场景，还可以
将场景信息进行特征提取，然后通过神经网络模型确定目标场景。
39.s206：根据目标场景确定第一语句信息，并通过信息输出装置输出第一语句信息；针对每个场景，都会有对应的一个或者多个预设的语句信息，例如，针对自然场景，可以包括“这是什么建筑”，“这是什么国家的建筑”，“这个建筑始建于哪年”等疑问句，也可以包括“这个建筑好漂亮”等陈述句，以开启移动终端和用户之间的会话。
40.在确定了目标场景之后，可以随机的从目标场景对应的多个语句信息确定第一语句信息，也可以根据用户之前的会话特点、会话习惯从多个语句中确定最匹配的第一语句信息。第一语句信息包括第一语种和第一语义。
41.s208：通过语音检测装置对用户进行语音检测，并根据检测结果通过信息输出装置继续向用户输出语言交互信息。
42.用户接收到第一语句后，会输出相应的语音信息，移动终端通过语音检测装置检测用户输出的语音信息，再基于语音信息进行后续语句的确定。需要注意的是，用户也可能因为特殊原因不输出语音信息，例如听不懂，或者没听清，这时，检测结果为用户没有输出，那么根据该检测结果，可以采用相应的措施，例如降低第一语句难度，选择其他语句作为第一语句，或者重复第一语句，来实现激发用户进行语言交互的效果。
43.本技术实施例提供的上述语言交互处理方法，首先获取用户所在的场景信息，并根据该场景信息确定目标场景，然后根据目标场景确定第一语句信息，并将第一语句信息输出给用户，检测用户输出的语音信息，并根据检测结果进一步与用户进行语言交互。本技术中，根据用户所在场景自动开启语言学习，学习的内容随着用户所在场景的变换而变换，不再单纯使用既定教学模板进行语句信息的输出，使得用户在学习过程中身临其境，同时，本技术中的技术主动进行会话开启，并根据用户的反馈内容灵活调整学习进度和内容，有效提高了学习效率和学习效果。
44.为了使得用户在学习过程中，能够将学习内容与用户所在的环境深度结合，提高用户的学习感受，在图2所示的实施例的基础上，本技术实施例还提供了另一种语言交互处理方法，该方法侧重于描述如何根据用户所在场景确定目标场景的过程，如图3所示，该方法具体包括以下步骤：s302：通过拍摄装置获取用户所在的场景信息；s304：从场景信息中提取目标对象的目标对象信息；其中，目标对象信息包括目标对象的类型和目标对象的个数，例如，一个场景是教室的场景，该教室中有20个书桌，1个黑板，20名小学生，那么该场景对应的目标对象信息包括：第一目标对象为书桌，个数为20个，第二目标对象为黑板，个数为1个，第三目标对象为小学生，个数为20个，上述第一目标对象、第二目标对象和第三目标对象及其个数构成的集合，为目标对象信息。
45.s306：从预设场景库中选取与目标对象信息匹配的预设场景作为目标场景；目标场景的选取，可以将备选的多个预设场景中包含的对象与目标对象进行比对确定，也可以将备选的预设场景与用户所在的场景信息作为整体进行比对而确定。因此，在一些示例中，可以通过以下步骤l31-l32确定目标场景：l31：将预设场景库中的每个预设场景中包含的对象与目标对象信息进行匹配，得到该预设场景对应的相似度得分；
l32：将相似度得分高于相似度阈值的预设场景确定为目标场景。
46.例如，用户所在的场景信息，经过特征识别，确定包含对象1（多个餐桌）、对象2（服务生）、对象3（舞台），那么在预设场景库中，包括多个预设场景，例如包括场景1（校园，包括教学楼，宿舍，操场）、场景2（餐厅，包括餐桌、服务生、多个用餐客人）、场景3（音乐厅，包括舞台、多排座椅、演员），那么经过对象的比对，最终确定用户所在的场景信息中包括的对象与场景2（餐厅）包括的对象匹配程度最高，因此可以确定用户所在的场景为餐厅。
47.实际应用时，对于每个预设场景对应的相似度得分，可以是将用户所在场景和预设场景中的对象进行相似度确定，最终该预设场景的相似度得分为其包含的每个对象的相似度得分的和值。还可以将识别出的用户所在场景的对象，以及各个预设场景中包含的对象输入预先训练的神经网络，直接得出各个预设场景的相似度得分。本技术实施例对于对象的识别和预设场景相似度得分的确定方法并不进行具体限定。
48.在另一些示例中，还可以通过确定场景匹配程度的神经网络模型确定与目标对象信息匹配的目标场景。
49.本技术上述实施例提供的方法，可以准确识别出用户所在的场景，并结合场景提供更加有针对性的学习内容和对话内容，使用户的学习过程不再枯燥，提升了学习的趣味性，为用户提供了更加真实的语言学习环境，提升语言学习的效果。
50.在获取到目标场景后，需要根据目标场景主动输出第一语句信息，因此，在上述实施例的基础上，本技术实施例还提供了另一种语言交互处理方法，该方法侧重于描述如何根据目标场景确定第一语句信息，如图4所示，该方法包括：s402：通过拍摄装置获取用户所在的场景信息；s404：根据场景信息，从预设场景库中确定与该场景信息匹配的目标场景；s406：根据目标场景确定目标关键词；一个场景中包含的信息往往不止一个，因此，相应地，目标场景对应的目标关键词为多个。
51.s408：根据目标关键词确定第一语句信息；根据多个目标关键词，可以简单的将目标关键词重新排列，组合，得到一个语句信息，基于此，可以将目标关键词进行组合，生成与目标关键词对应的第一语句信息。具体通过多个词语组成一个句子的方式，可以参考相关技术中的语句生成方法，本技术对此不进行限定。
52.在另一些可能的实施方式中，还可以通过语义识别神经网络从预设语义库中确定与目标关键词匹配的第一语句。其中，预设语义库存储于移动终端，或者，通过移动终端获取，例如通过移动终端从服务器获取一个或者多个语义库。
53.s410：通过语音检测装置对用户进行语音检测，并根据检测结果通过信息输出装置继续向用户输出语言交互信息。
54.本技术实施例提供的上述方法，可以根据目标场景有针对性的主动生成第一语句，以便有效开展与用户之间的语言交互，避免用户输入的信息与学习内容不相关而导致的学习方向偏差较大的问题。
55.在向用户输出第一语句后，在一些可能的实施方式中，用户根据第一语句，输出对应的语言信息，对于用户输出的语言信息，还可以进一步根据语言信息判断和确定后续交
互内容，下述l41-l45为具体确定方法：l41：确定第一语句信息表征的语句类型；其中，语句类型包括：疑问句和陈述句；进一步地，可以从目标场景对应的语义库中查找第一语句信息的语句类型对应的第一反馈语句信息；其中，语义库存储在移动终端或者通过移动终端从服务器获取。
56.l42：判断语义类型是否为疑问句，如果是，执行l43-l44，否则，执行步骤l45-l47。
57.l43：从语义库中确定出与第一语句信息对应的回答语句；l44：根据回答语句确定第一反馈语句信息。
58.在一些示例中，可以具体是通过语义识别神经网络从语义库中确定出与第一语句信息对应的回答语句。
59.l45：识别出第一语句信息中的关键词；l46：从语义库中确定与关键词对应的辅助知识信息；l47：根据辅助知识信息生成与第一语句信息的第一语义对应的第一反馈语句信息。
60.下面结合实际应用场景举例说明如何确定与第一语句信息对应的第一反馈语句信息。
61.用户在埃菲尔铁塔下，想要开始语言学习，开启了设置有本技术实施例上述任一方法的电子设备，电子设备通过用户视角拍摄的图像中识别出用户所在场景为著名建筑物埃菲尔铁塔，进一步地，电子设备还通过语音检测装置还检测到用户用英语说出：“what is it”，电子设备首先判断用户想要进行的语言学习为英语，并识别出该句话的语义为：这是什么。电子设备通过语言识别方法确定针对这个疑问句，需要解释埃菲尔铁塔是什么，进而从电子设备本身预存的知识库或者通过网络从服务器获取到埃菲尔铁塔的简介，并用英语输出给用户。
62.在另外一些场景下，检测装置检测到用户输出的语句为：“it is beatuiful”，电子设备首先判断用户输出的语句类别为陈述句，并识别出该句话的语义为：太美了。进一步地，根据关键词“埃菲尔铁塔”、“美丽”，在知识库中或通过网络从服务器确定埃菲尔铁塔的建筑历史，关于描绘埃菲尔铁塔的一些诗词等，输出给用户。
63.通过本技术上述实施例提供的方法，用户可以沉浸式地体验学习过程，由于学习过程中的对话内容充分融合了目标场景以及目标场景中的对象信息，可以是用户对该目标场景的学习内容印象更加深刻，更加高效地掌握学习内容，提升学校效率。
64.在一些可能的实施方式中，如果用户长时间未回复，或者回复的语句表示没有听懂第一语句，那么上述根据检测结果通过信息输出装置继续向所述用户输出语言交互信息的步骤，可以具体包括：l51：判断检测结果是否表征第一语句信息难度过高；l52：如果是，根据目标场景确定第二语句信息，并通过信息输出装置输出第二语句信息；其中，第二语句信息对应的难度低于第一语句信息对应的难度。
65.具体地，当满足以下任意一种情况时，确定检测结果表征第一语句信息难度过高：检测结果为未检测到用户输出语音信息；检测结果中包含的用户输出的语音信息表征用户未听懂；检测结果中包含的用户输出的语音信息对应的语义与第一语句中包含的第一语义
的相关度低于相关度阈值。
66.在一些示例中，满足以下任意一种情况时，确定第二语句信息对应的难度低于第一语句信息对应的难度：第二语句信息的语速低于第一语句信息的语速；第二语句信息包含的词汇量小于第一语句信息包含的词汇量；第二语句包含的生僻词个数小于第一语句包含的生僻词个数。
67.在一些可能的实施方式中，如果连续降低输出语句的难度，用户还是无法听懂，那么可以将交互式学习改为场景介绍式学习，具体地，当第二语句信息对应的难度低于预设难度阈值时，从预设语义库中确定与目标场景对应的场景介绍信息，并语音和/或文本输出场景介绍信息；其中，预设语义库存储于移动终端或者通过移动终端获取。
68.在一些场景中，用户可以能长时间未输出语句，例如用户忘记说话，或者用户希望被动的学习，基于此，本技术实施例中的语言交互处理方法还可以自动从语义库中查找与目标场景相关的语句输出给用户，具体地，可以包括以下方法：（1）在预设时间内未检测到第一语句信息；（2）根据目标场景，从语义库中确定出与目标场景对应的第三语句信息；其中，语义库存储在移动终端或者通过移动终端从服务器获取；第三语句信息可以是针对目标场景中的对象发出的疑问，或者基于目标场景进行的相关知识介绍等。
69.（3）语音和/或文字输出第三语句信息。
70.例如，可以预设一个时间为3分钟，当用户开启电子设备中的语言交互处理功能后的3分钟内，没有输出任何语音信息，那么本技术实施例提供的方法可以自动检测目标对象包括的埃菲尔铁塔，基于对象信息向用户发出疑问：“what is it”，或者向用户输出关于埃菲尔铁塔的英文简介。可以理解的是，第三语句信息的输出可以是语音，也可以是文字形式，还可以是输出语音的同时在屏幕上同步输出文字信息，以及针对英文的文字信息的中文翻译，以进一步加深用户的学习印象，提高学习的效果。
71.为了进一步提高用户的学习效果，可以针对目标场景向用户输出特定的教学内容，例如单词背诵，语法讲解等，以加深用户的印象，提高学习效率。因此，上述方法还可以包括：（1）根据目标场景，从预定课程库中确定与目标场景匹配的目标预定课程；其中，预定课程库存储于移动终端或者通过移动终端获取；（2）向用户提供启动目标预定课程的接口，以使用户根据该目标预定课程开始语言学习。
72.具体应用时，可以在电子设备中预存各个预设场景对应的辅助课程，针对每个预设场景，还可以设置不同级别的辅助课程，例如，可以根据用户的词汇量，设置级别的高低，在确定目标场景后，可以结合目标场景中包含的对象进行辅助课程的推送，目标课程的选择可以采用深度神经网络等方法。
73.进一步地，还可以记录用户在该目标场景中学习到的词汇，语法等学习内容，并将学习内容保存在电子设备中，或者通过电子设备发送到服务器端进行存储，以便生成易错词库，新词库，新语法等学习跟踪内容。通过对不用的目标场景的持续跟踪，可以为用户提供更加系统的学习体验，提升用户的学习效果。
74.本技术实施例提供的方法，应用于移动终端，移动终端中可以存储多个学习平台接口，每个接口对应一个学习平台提供方，具体地，上述方法还可以包括：（1）向所述用户提供学习平台选择接口，以使所述用户对不同平台的学习资料进行选择；（2）响应于所述用户对所述学习平台中第一学习平台的选择操作，向所述用户提供所述第一学习平台对应的学习资料。
75.例如，某培训学校提供一个接口a，某辅导机构提供一个接口b，某外语学习电台提供一个接口c，用户打开移动终端后，可以在界面中浏览到a、b和c，那么可以选择其中一个平台进行学习。
76.为了便于理解，下面结合实际应用场景，介绍本技术实施例提供的另一种语言交互处理方法：步骤1：获取用户所在环境信息；通过对主题事物影像进行视频处理分析（包括通过预处理技术、边缘检测技术、图像分割技术等技术），记录下该主题事物影像的类别、颜色、形状、名称等特征属性，并通过影像转化管理系统（包括使用运动目标检测方法等技术手段）识别出所记录的主题事物的特征属性，并将其转化成计算机语言，并上传至应用场景库，步骤2：将环境信息转化成环境特征；从应用场景库中识别出相吻合的应用场景（包括通过深度学习系统而智能生成的应用场景）步骤3：选择出应用场景；将环境特征输出至自然语言生成系统，通过自然语言生成系统及语音转化系统将由影像产生的场景用不同语言输出至用户端。即输出第一语句。
77.步骤4：采集用户输出语言，并确定智能场景；并通过语音采集设备采集用户输出的语言，通过语言理解及对话管理系统对采集到的语言进行理解分析及对话管理，并通过应用场景库进行智能场景生成。
78.步骤5：完成与用户的语音互动；进一步地，通过语音转化系统完成对用户的互动，其中包括若用户无法回复语音系统的智能场景，系统将自动生成相关的辅助知识讲解，辅助用户完成语言系统的整体学习。
79.步骤6：提供辅助教学系统；该系统还包括在识别环境主题事物后，结合主题事物相关内容的辅助教学系统，包括相关语言词汇、语法、等针对性的辅助课程对话，应用场景库中不仅存储大量语言学习的应用场景，还存储大量语言课程的教学内容，通过深度学习及智能检测匹配等技术，将相关课程反馈给用户，并记录好用户的学习内容，自动生成易错词库、新进词库、新进语法库等，将这些内容融汇到日常交流中，对其进行日常加强训练，同时利用大数据技术生成用户的语言词汇族谱，完成各阶段的学习总结反馈给用户，使用户学习更加系统。
80.基于上述方法实施例，本技术实施例还提供一种语言交互处理装置，参见图5所示，该装置中配置拍摄模块和语音检测模块，该装置包括：信息获取模块502，用于通过拍摄模块获取用户所在的场景信息；其中，场景信息
为用户的第一视角下获得的场景；目标场景确定模块504，用于根据场景信息，从预设场景库中确定与该场景信息匹配的目标场景；第一语句信息确定模块506，用于根据目标场景确定第一语句信息，并通过信息输出装置输出第一语句信息；输出模块508，用于通过语音检测装置对用户进行语音检测，并根据检测结果通过信息输出装置继续向用户输出语言交互信息。
81.本技术实施例提供的上述语言交互处理装置，首先获取用户所在的场景信息，并根据该场景信息确定目标场景，然后根据目标场景确定第一语句信息，并将第一语句信息输出给用户，检测用户输出的语音信息，并根据检测结果进一步与用户进行语言交互。本技术中，根据用户所在场景自动开启语言学习，学习的内容随着用户所在场景的变换而变换，不再单纯使用既定教学模板进行语句信息的输出，使得用户在学习过程中身临其境，同时，本技术中的技术主动进行会话开启，并根据用户的反馈内容灵活调整学习进度和内容，有效提高了学习效率和学习效果。
82.上述根据场景信息，从预设场景中确定与该场景信息匹配的目标场景的过程，包括：从场景信息中提取目标对象的目标对象信息；其中，目标对象为场景中包括的标识物；从预设场景库中选取与目标对象信息匹配的预设场景作为目标场景。
83.上述目标对象信息包括目标对象的类型和目标对象的个数；上述从预设场景库中选取与目标对象信息匹配的预设场景作为目标场景的过程，包括：将预设场景库中的每个预设场景中包含的对象与目标对象信息进行匹配，得到该预设场景对应的相似度得分；将相似度得分高于相似度阈值的预设场景确定为目标场景。
84.上述从预设场景库中选取与目标对象信息匹配的预设场景作为目标场景的过程，包括：通过确定场景匹配程度的神经网络模型确定与目标对象信息匹配的目标场景。
85.上述根据目标场景确定第一语句信息的过程，包括：根据目标场景确定目标关键词；根据目标关键词确定第一语句信息。
86.上述目标关键词为多个；根据目标关键词确定第一语句信息的过程，包括：将目标关键词进行组合，生成与目标关键词对应的第一语句信息。
87.上述根据目标关键词确定第一语句信息的过程，包括：通过语义识别神经网络从预设语义库中确定与目标关键词匹配的第一语句；其中，预设语义库存储于移动终端或者通过移动终端获取。
88.上述根据检测结果通过信息输出装置继续向用户输出语言交互信息的过程，包括：判断检测结果是否表征第一语句信息难度过高；如果是，根据目标场景确定第二语句信息，并通过信息输出装置输出第二语句信息；其中，第二语句信息对应的难度低于第一语句信息对应的难度。
89.当满足以下任意一种情况时，确定检测结果表征第一语句信息难度过高：检测结果为未检测到用户输出语音信息；检测结果中包含的用户输出的语音信息表征用户未听懂；检测结果中包含的用户输出的语音信息对应的语义与第一语句中包含的第一语义的相关度低于相关度阈值。
90.满足以下任意一种情况时，确定第二语句信息对应的难度低于第一语句信息对应
的难度：第二语句信息的语速低于第一语句信息的语速；第二语句信息包含的词汇量小于第一语句信息包含的词汇量；第二语句包含的生僻词个数小于第一语句包含的生僻词个数。
91.上述装置还包括：场景介绍信息确定模块，用于当第二语句信息对应的难度低于预设难度阈值时，从预设语义库中确定与目标场景对应的场景介绍信息，并语音和/或文本输出场景介绍信息；其中，预设语义库存储于移动终端或者通过移动终端获取。
92.上述装置还包括：预定课程确定模块，用于根据目标场景，从预定课程库中确定与目标场景匹配的目标预定课程；其中，预定课程库存储于移动终端或者通过移动终端获取；预定课程接口提供模块，用于向用户提供启动目标预定课程的接口，以使用户根据该目标预定课程开始语言学习。
93.上述装置还包括：选择接口提供模块，用于向用户提供学习平台选择接口，以使用户对不同平台的学习资料进行选择；学习资料提供模块，用于响应于用户对学习平台中第一学习平台的选择操作，向用户提供第一学习平台对应的学习资料。
94.本技术实施例提供的语言交互处理装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，上述装置的实施例部分未提及之处，可参考前述语言交互处理方法实施例中的相应内容。
95.本技术实施例还提供了一种电子设备，如图6所示，为该电子设备的结构示意图，其中，该电子设备包括处理器1501和存储器1502，该存储器1502存储有能够被该处理器1501执行的计算机可执行指令，该处理器1501执行该计算机可执行指令以实现上述语言交互处理方法。
96.在图6示出的实施方式中，该电子设备还包括总线1503和通信接口1504，其中，处理器1501、通信接口1504和存储器1502通过总线1503连接。
97.其中，存储器1502可能包含高速随机存取存储器（ram，random access memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口1504（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线1503可以是isa（industry standard architecture，工业标准体系结构）总线、pci（peripheral component interconnect，外设部件互连标准）总线或eisa（extended industry standard architecture，扩展工业标准结构）总线等。所述总线1503可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。
98.处理器1501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1501可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步
骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器1501读取存储器中的信息，结合其硬件完成前述实施例的语言交互处理方法的步骤。
99.本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述语言交互处理方法，具体实现可参见前述方法实施例，在此不再赘述。
100.本技术实施例所提供的语言交互处理方法、装置及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。
101.除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本技术的范围。
102.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。
103.在本技术的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。
104.最后应说明的是：以上所述实施例，仅为本技术的具体实施方式，用以说明本技术的技术方案，而非对其限制，本技术的保护范围并不局限于此，尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：冰激凌图像训练方法、检测方法及处理设备与流程

语言交互处理方法、装置及电子设备与流程

相关文献

最热文献