显示设备和语音识别方法与流程

2023-01-15 05:53:52 来源：中国专利 TAG：

1.本技术涉及显示设备
技术领域：
：，尤其涉及一种显示设备和语音识别方法。
背景技术：
：：2.显示设备是指能够输出具体显示画面的终端设备，随着显示设备的快速发展，显示设备的功能将越来越丰富，性能也越来越强大，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体，用于满足用户多样化和个性化需求。用户还可以利用显示设备的语音识别功能，实现语音控制显示设备。3.用户在利用语音控制显示设备时，显示设备需要识别用户的语音，以确定用户的控制指令。一般来说，显示设备中可能存储有当地语言对应的一些语料信息，例如一些语句模板和词语实体。根据这些语料信息可以识别当地语言对应的一些语音。然而，用户可能具有使用其他语言控制显示设备的需求。对此，显示设备可以将存储的语料信息翻译成用户当前使用的语言，并利用翻译后的语料信息识别用户的语音。4.然而，显示设备在对预料信息进行翻译的过程中，通常会使用直译的方式进行翻译，这种翻译方式得到的结果可能脱离了当前预料信息的原本含义，导致翻译结果并不准确，从而无法准确识别用户的语音，严重影响用户的使用体验。技术实现要素：5.本技术一些实施例提供了一种显示设备和语音识别方法。以解决相关技术中，使用直译的方式对语料信息进行翻译，导致翻译结果并不准确，从而无法准确识别用户的语音，严重影响用户使用体验的问题。6.第一方面，本技术一些实施例提供一种显示设备，包括显示器、声音采集器和控制器。其中，声音采集器被配置为采集用户输入的语音；控制器被配置为执行以下步骤：7.基于待翻译实体和显示设备中预先存储的语句模板获取待翻译语句；8.将所述待翻译语句翻译成预设语言的目标语句；9.基于所述目标语句获取所述待翻译实体对应的目标实体；10.基于所述目标实体和所述预先存储的语句模板生成语音识别模型；11.响应于所述声音采集器采集的用户语音，基于所述语音识别模型对所述用户语音进行识别，得到所述用户语音对应的控制指令并执行所述控制指令。12.第二方面，本技术一些实施例提供一种语音识别方法，应用于显示设备，包括：13.基于待翻译实体和显示设备中预先存储的语句模板获取待翻译语句；14.将所述待翻译语句翻译成预设语言的目标语句；15.基于所述目标语句获取所述待翻译实体对应的目标实体；16.基于所述目标实体和所述预先存储的语句模板生成语音识别模型；17.响应于所述声音采集器采集的用户语音，基于所述语音识别模型对所述用户语音进行识别，得到所述用户语音对应的控制指令并执行所述控制指令。18.由以上技术方案可以看出，本技术一些实施例提供了一种显示设备和语音识别方法。显示设备基于待翻译实体和预先存储的语句模板获取待翻译语句，并将待翻译语句翻译成预设语言的目标语句。显示设备基于目标语句获取待翻译实体对应的目标实体，并根据目标实体和语句模板生成语音识别模型。对于采集到的用户语音，显示设备基于语音识别模型对用户语音进行识别，得到用户语音对应的控制指令并执行。对于不同语言的用户语音，显示设备能够自行识别，而不是采用直译的方式，因此能够准确识别用户的语音，提高用户的使用体验。附图说明19.为了更清楚地说明本技术的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。20.图1示出了根据一些实施例的显示设备的使用场景；21.图2示出了根据一些实施例的控制装置的硬件配置框图；22.图3示出了根据一些实施例的显示设备的硬件配置框图；23.图4示出了根据一些实施例的显示设备中软件配置图；24.图5示出了一些实施例中应用面板的示意图；25.图6示出了一些实施例中显示设备的语音交互网络架构示意图；26.图7示出了一些实施例中系统设置ui界面的示意图；27.图8示出了一些实施例中显示器中显示语音识别模式确认信息的示意图；28.图9示出了一些实施例中显示设备各部件的交互流程图；29.图10示出了一些实施例中语言选择界面的示意图；30.图11示出了一些实施例中用户和显示设备进行语音交互的场景示意图；31.图12示出了一些实施例中显示设备显示搜索界面的示意图；32.图13示出了一些实施例中提示信息的示意图；33.图14示出了一些实施例中语音识别方法的流程图。具体实施方式34.为使本技术的目的和实施方式更加清楚，下面将结合本技术示例性实施例中的附图，对本技术示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本技术一部分实施例，而不是全部的实施例。35.需要说明的是，本技术中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本技术的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。36.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。37.术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。38.本技术实施方式提供的显示设备可以具有多种实施形式，例如，可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronicbulletinboard)、电子桌面(electronictable)等。图1和图2为本技术的显示设备的一种具体实施方式。39.图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。40.在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。41.在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。42.在一些实施例中，显示设备可以不使用上述的智能设备或控制设备接收指令，而是通过触摸或者手势等接收用户的控制。43.在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。44.在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。45.图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。46.如图3，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。47.在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，ram，rom，用于输入/输出的第一接口至第n接口。48.显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控ui界面。49.显示器260可为液晶显示器、oled显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。50.通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。51.用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。52.检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。53.外部装置接口240可以包括但不限于如下：高清多媒体接口接口(hdmi)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(cvbs)、usb输入接口(usb)、rgb端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。54.调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及epg数据信号。55.在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。56.控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示ui对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。57.在一些实施例中控制器包括中央处理器(centralprocessingunit，cpu)，视频处理器，音频处理器，图形处理器(graphicsprocessingunit，gpu)，ramrandomaccessmemory，ram)，rom(read-onlymemory,rom)，用于输入/输出的第一接口至第n接口，通信总线(bus)等中的至少一种。58.用户可在显示器260上显示的图形用户界面(gui)输入用户命令，则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。[0059]“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphicuserinterface，gui)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素。[0060]如图4所示，将显示设备的系统分为三层，从上至下分别为应用层、中间件层和硬件层。[0061]应用层主要包含电视上的常用应用，以及应用框架(applicationframework)，其中，常用应用主要是基于浏览器browser开发的应用，例如：html5apps；以及原生应用(nativeapps)；[0062]应用框架(applicationframework)是一个完整的程序模型，具备标准应用软件所需的一切基本功能，例如：文件存取、资料交换...，以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。[0063]原生应用(nativeapps)可以支持在线或离线，消息推送或本地资源访问。[0064]中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能)，衔接网络上应用系统的各个部分或不同的应用，能够达到资源共享、功能共享的目的。[0065]硬件层主要包括hal接口、硬件以及驱动，其中，hal接口为所有电视芯片对接的统一接口，具体逻辑由各个芯片来实现。驱动主要包含：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。[0066]本技术一些实施例中，显示器260中可以显示用户界面。用户界面中可以是具体的目标图像，例如从网络信号源中获取到的各种媒资，包括视频、图片等内容。用户界面也可以是显示设备的一些ui界面，例如系统推荐页等。[0067]显示设备可以具有多种功能，例如播放媒资、娱乐游戏、视频聊天等功能，从而向用户提供多种多样的服务。[0068]在一些实施例中，当用户控制显示设备开机后，控制器250可以控制显示器260显示用户界面。用户界面中可以包括“我的应用”控件。用户可以通过点击“我的应用”控件，以输入针对应用面板页面的显示指令，来触发进入对应的应用面板。需要说明的是，用户也可以通过其他方式来输入对功能控件的选中操作，以触发进入应用面板。例如，利用语音控制功能或者搜索功能等，控制进入到应用面板页面。[0069]用户可以通过应用面板查看到显示设备已经安装的应用程序，即显示设备所支持的功能。用户可以选择其中一个应用程序并进行打开，以实现该应用的功能。需要说明的是，显示设备安装的应用可以是系统应用，也可以是第三方应用。用户通过开启某个应用程序，从而控制显示设备实现该应用程序相应的功能。图5示出了一些实施例中应用面板的示意图。如图5所示，应用面板中包括“播放器”、“有线电视”以及“视频聊天”三个控件。其中，用户可以通过点击“播放器”控件，从而控制显示设备打开播放器应用。用户可以在播放器中进行相应操作，例如搜索媒资等。用户可以点击“有线电视”控件，从而利用显示设备观看一些媒资频道，包括由有线电视供应商提供的各种媒资节目。用户可以点击“视频聊天”控件，从而利用显示设备进行视频聊天。[0070]用户可以使用控制装置，例如遥控器、移动终端等，向显示设备输入指令，以控制显示设备实现各种功能。用户可以利用控制装置控制显示器中的焦点进行移动，以选中不同的控件，从而打开控件。用户也可以利用控制装置向显示设备输入一些文本，例如搜索媒资时可以输入媒资名称等。[0071]在一些实施例中，考虑到用户的使用体验，显示设备具有语音识别功能，以使用户可以利用语音输入的方式向显示设备输入控制指令，实现语音交互。[0072]图6示出了一些实施例中显示设备的语音交互网络架构示意图。如图6所示，显示设备200用于接收输入的信息如声音，以及输出对该信息的处理结果。语音识别模块部署有语音识别服务(automaticspeechrecognition，asr)，用于将音频识别为文本；语义理解模块部署有语义理解服务(naturallanguageunderstanding,nlu)，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务如对话管理(dialogmanagement，dm)，用于提供业务指令；语言生成模块部署有语言生成服务(naturallanguageunderstanding，nlg)，用于将指示显示设备执行的指令转化为文本语言；语音合成模块部署有语音合成(texttospeech，tts)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。语音交互网络架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。[0073]一些实施例中，下面对基于图6所示架构处理输入显示设备200的信息的过程进行举例描述，以输入显示设备200的信息为通过语音输入的查询语句为例：[0074]语音识别：显示设备200可在接收到通过语音输入的查询语句后，显示设备200可对查询语句的音频进行降噪处理和特征提取，这里的去噪处理可包括去除回声和环境噪声等步骤。[0075]语义理解：对识别出的候选文本和相关联的上下文信息进行自然语言理解。将文本解析为结构化的、机器可读的信息、业务领域、意图、词槽等信息以表达语义等，得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图。[0076]业务管理：语义理解模块根据对查询语句的文本的语义解析结果，向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果，以及执行“完成”用户最终请求所需的动作，并将查询结果对应的设备执行指令进行反馈。[0077]语言生成：被配置为将信息或者指令生成语言文本。具体可分为闲聊型、任务型、知识问答型和推荐型。其中，闲聊型对话中的nlg就是根据上下文进行意图识别、情感分析等，然后生成开放性回复；任务型对话中需根据学习到的策略来生成对话回复，一般回复包括澄清需求、引导用户、询问、确认、对话结束语等；知识问答型对话中根据问句类型识别与分类、信息检索或文本匹配而生成用户需要的知识(知识、实体、片段等)；推荐型对话系统中根据用户的爱好来进行兴趣匹配以及候选推荐内容排序，然后生成给用户推荐的内容。[0078]语音合成：被配置为呈现给用户的语音输出。语音合成处理模块基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应是文本串的形式。语音合成模块将文本串转换成可听语音输出。[0079]需要说明的是，图6所示架构只是一种示例，并非对本技术保护范围的限定。本技术实施例中，也可采用其他架构来实现类似功能，例如：上述过程全部或部分可以由显示设备200来完成，在此不做赘述。[0080]在一些实施例中，语音识别功能可由显示设备上设置的声音采集器和控制器250配合实现，语义功能可由显示设备的控制器250实现。[0081]用户可以使用控制装置，例如遥控器，对显示设备200进行控制，例如对于智能电视，用户可以使用遥控器控制电视播放媒资或调节音量，从而控制智能电视。[0082]在一些实施例中，显示设备200具有语音识别功能。当显示设备200开启语音识别功能时，用户在使用显示设备200时，可以利用语音输入的方式，向显示设备200发送语音指令，从而令显示设备200实现相应的功能。为此，显示设备200可以设置有语音识别模式。[0083]在一些实施例中，用户可以通过操作遥控器的指定按键，向显示设备发送语音识别模式指令。在实际应用的过程中预先绑定语音识别模式指令与遥控器按键之间的对应关系。例如，在遥控器上设置一个语音识别模式按键，当用户触控该按键时，遥控器发送语音识别模式指令至控制器250，此时控制器250控制显示设备进入语音识别模式。当用户再次触控该按键时，控制器250可以控制显示设备退出语音识别模式。[0084]在一些实施例中，当用户使用智能设备控制显示设备时，例如使用手机时，也可以向显示设备发送语音识别模式指令。在实际应用的过程中可以在手机中设置一个控件，可以通过该控件选择是否进入语音识别模式，从而发送语音识别模式指令至控制器250，此时控制器250可以控制显示设备进入语音识别模式。[0085]在一些实施例中，当用户使用手机控制显示设备时，可以对手机发出连续点击指令。连续点击指令指的是：在预设的周期内，用户对手机触摸屏的同一区域进行点击的次数超过预设阈值。例如：当用户在1s内对手机触摸屏的某个区域连续点击3次，则视为一次连续点击指令。手机接收到连续点击指令后，可以向显示设备发送语音识别模式指令，以使控制器250控制显示设备进入语音识别模式。[0086]在一些实施例中，当用户使用手机控制显示设备时，也可以设置为：当检测到用户对手机触摸屏的某一区域的触控压力值超过预设的压力阈值时，手机可以向显示设备发送语音识别模式指令。[0087]还可以在显示设备的ui界面中设置语音识别模式选项，当用户点击该选项时，可以控制显示设备进入或退出语音识别模式。图7示出了一些实施例中系统设置ui界面的示意图。如图7所示，系统设置中包含画面设置、声音设置、语音识别设置、网络设置和恢复出厂设置。用户可以点击语音识别控件，从而控制显示设备200进入或退出语音识别模式。[0088]在一些实施例中，为防止用户误触发语音识别模式，当控制器250接收到语音识别模式指令时，可以控制显示器260显示语音识别模式确认信息，从而使得用户进行二次确认，是否要控制显示设备进入语音识别模式。图8示出了一些实施例中显示器中显示语音识别模式确认信息的示意图。[0089]在一些实施例中，在显示设备200进入语音识别模式后，用户可以用语音输入的方式，直接向显示设备200发送指令。显示设备200在接收到用户输入的语音后，可以对用户语音进行识别，确定用户的控制指令，并执行相应的操作，以实现用户需要的功能。[0090]在一些实施例中，控制器250可以控制声音采集器采集用户输入的语音信号，声音采集器可以是麦克风。声音采集器采集到用户语音后，控制器250可以对用户语音进行解析，以得到用户语音对应的语音文本。控制器可以对语音文本进行语义分析，以确定用户的控制指令。[0091]在一些实施例中，显示设备200还可以包括第三方语音识别接口。当接收到用户输入的语音后，控制器250可以将语音数据发送至第三方语音识别接口，利用第三方语音识别装置等将用户的语音转换为语音文本。在获取到语音文本后，控制器250可以对语音文本进行解析，执行该语音指令。[0092]在一些实施例中，控制器250也可以将语音指令发送至服务器。服务器可以根据语音指令生成语音文本，并将语音文本反馈至显示设备。[0093]显示设备在对用户语音进行识别时，具体对用户语音对应的语音文本进行语义分析时，可以利用显示设备中存储的一些预料信息进行分析。显示设备中可以存储有一些高质量的语句模板和词语实体，能够反映出用户较为频繁输入的语音情况。这些预料信息可以作为训练数据构建语音识别模型，从而利用语音识别模型对用户语音进行识别。[0094]需要说明的是，由于显示设备通常被固定在某个区域进行使用，因此显示设备中存储的预料信息可能只是当地语言或者显示设备生产地对应语言的一些预料信息。然而，用户可能会使用不同的语言，因此会具有使用其他语言控制显示设备的需求。用户语音对应的语言和显示设备存储的预料信息对应的语音可能不同，仅靠显示设备中存储的预料信息无法识别用户语音。对此，显示设备可以将存储的语料信息翻译成用户当前使用的语言，从而利用翻译后的语料信息识别用户的语音。[0095]显示设备在对预料信息进行翻译的过程中，可以使用现有的翻译软件进行翻译。然而，这些翻译软件可能会利用直译的方式进行翻译。这种翻译方式得到的结果会脱离当前预料信息的原本含义，导致翻译结果并不准确。例如，对于语句“十二点叫醒我”，其中的词语实体“十二点”，明显表示的是时间含义。如果仅仅对实体“十二点”进行直译，可能会得到“twelvepoints”，表示为十二个点，并不是时间含义。使用这种翻译后的结果，无法准确识别用户的语音，严重影响用户的使用体验。[0096]为此，本技术实施例提供的显示设备可以准确地对预料信息，例如各种实体进行翻译，从而准确识别用户语音。[0097]在一些实施例中，显示设备可以在用户使用显示设备的语音识别功能之前，预先将存储的预料信息，例如各种词语实体，翻译成各种不同的语言。也可以是由用户指定一种或多种语言，显示设备再将预料信息翻译成相应语言。[0098]显示设备根据翻译后的预料信息可以生成语音识别模型，并利用语音识别模型对用户语音进行识别，以响应用户的控制指令。[0099]图9示出了一些实施例中显示设备各部件的交互流程图。如图9所示，包括以下步骤：[0100]s101、控制器250基于待翻译实体和显示设备中预先存储的语句模板获取待翻译语句。[0101]s102、控制器250将待翻译语句翻译成预设语言的目标语句。[0102]s103、控制器250基于目标语句获取待翻译实体对应的目标实体。[0103]s104、控制器250基于目标实体和预先存储的语句模板生成语音识别模型。[0104]s105、响应于声音采集器采集的用户语音，控制器250基于语音识别模型对用户语音进行识别，得到用户语音对应的控制指令并执行控制指令。[0105]在一些实施例中，显示设备中可以预先存储有预料信息，预料信息包括语句模板和词语实体等信息。[0106]可以采用人工获取的方法，先获取一些高频且高质量的语句模板和实体。例如，可以先统计不同用户在使用语音控制显示设备时，较为频繁输入的语音所对应的文本，并根据这些文本先确定一些语句模板和实体。以显示设备所处地区对应的语言是中文为例，用户使用语音控制显示设备时，可能是搜索媒资、播放媒资或者设置闹钟等功能。本技术实施例中以闹钟功能为例，对翻译预料信息的过程进行介绍。[0107]用户可以利用语音控制显示设备设置闹钟功能，根据用户的使用情况，可以先总结出一些语句模板，这些语句模板对应的语言为中文。语句模板可以包含固定实体和待填充槽位。固定实体指的是用户在控制显示设备实现相应功能时的一些指示文本，例如在控制显示设备实现闹钟功能时，固定实体可以是“把我叫醒”或者“叫醒我”。待填充槽位则是语句模板中等待填充功能参数的槽位，不同的待填充槽位中可以填充不同类型的实体，例如时间类型的实体或日期类型的实体等。[0108]本技术实施例中将中文语言对应的语句模板中的固定实体称为第一固定实体。下面对语句模板进行具体介绍：[0109]语句模板a：'@{startdate}@{starttime}把我叫醒'。其中，“把我叫醒”为第一固定实体，“@{startdate}”为一个待填充槽位，用于填充日期类型的实体，“@{starttime}”为另一个待填充槽位，用于填充时间类型的实体。[0110]语句模板b：'定个@{startdate}@{starttime}的闹钟'。其中，“定个...的闹钟”为第一固定实体，“@{startdate}”和“@{starttime}”分别为填充日期类型实体的待填充槽位和填充时间类型实体的待填充槽位。[0111]语句模板c：'@{startdate}@{starttime}请用@{song}叫醒我'。其中，“请用、叫醒我”为第一固定实体，“@{startdate}”和“@{starttime}”分别为填充日期类型实体的待填充槽位和填充时间类型实体的待填充槽位，“@{song}”为用于填充歌曲类型实体的待填充槽位。[0112]语句模板d：'@{startdate}@{starttime}用@{singer}的@{song}设个闹钟'。其中，“用、的、设个闹钟”为第一固定实体，“@{startdate}”和“@{starttime}”分别为填充日期类型实体的待填充槽位和填充时间类型实体的待填充槽位，“@{singer}”为用于填充歌手类型实体的待填充槽位，“@{song}”为用于填充歌曲类型实体的待填充槽位。[0113]当用户向显示设备输入上述四种语句模板对应的语音时，显示设备可以确定用户语音对应的语句模板以及待填充槽位中的实体。例如，当用户语音为“明天四点把我叫醒”，则可以确定用户语音对应语句模板a，并且“@{startdate}”中的实体信息为“明天”，“@{starttime}”中的实体信息为“四点”，从而确定用户需要在明天四点令显示设备实现闹钟功能。[0114]本技术实施例中，上述语句模板也称为种子模板，可以是人工获取的高质量模板，能够反映出用户较为频繁使用的语音模板。[0115]在一些实施例中，针对上述语句模板中存在的待填充槽位，也可以预先确定每种待填充槽位对应的一些实体。可以是利用人工获取的方式，确定一些高频且高质量的实体。需要说明的是，每种待填充槽位可以匹配一种实体类型，例如“@{startdate}”和“@{starttime}”分别为匹配日期类型和时间类型。对于每种待填充槽位，均可以预先获取一些实体，本技术实施例中称之为种子实体。例如：“@{startdate}”对应的种子实体可以是“明天”，“@{starttime}”对应的种子实体可以是“早上”，“@{singer}”对应的种子实体可以是“老鹰乐队”，“@{song}”对应的种子实体可以是“旅馆”。[0116]在一些实施例中，考虑到用户具有使用其他语言控制显示设备的需求，因此显示设备需要能够识别其他语言的用户语音。因此，对于上述种子模板和种子实体，可以预先翻译成其他语言。本技术实施例中以将中文语言翻译为英文语言为例进行介绍。[0117]对于种子模板，翻译成英语后，可以得到英语对应的种子模板，包括：[0118]语句模板a：'wakemeupat@{starttime}@{startdate}'。[0119]语句模板b：'setanalarmfor@{starttime}@{startdate}'。[0120]语句模板c：'wakemeupwith@{song}at@{starttime}@{startdate}'。[0121]语句模板d：'setanalarmclockfor@{starttime}@{startdate}with@{singer}'s@{song}'。[0122]需要说明的是，在对种子模板进行进行翻译时，可以使用人工翻译的方式。翻译后，待填充槽位不会变化，但固定实体会翻译成英语。对于种子模板和种子实体，均可以进行翻译。[0123]在一些实施例中，为了构建语音识别模型，可能需要大量的实体信息作为训练数据。考虑到对大量的实体全部进行人工翻译的话，工作量较大。因此可以人工筛选出若干个实体作为种子实体进行翻译，对于剩下的实体作为训练数据，可以由显示设备自行翻译成其他语言。为了避免使用现有的翻译软件采用直译方式对实体进行翻译会造成翻译结果步骤前的问题，本技术实施例中显示设备可以自行对待翻译的实体进行翻译。本技术实施例中以将中文实体翻译为英文实体为例，介绍实体翻译过程。[0124]显示设备的控制器250可以先基于待翻译实体和显示设备中预先存储的语句模板获取待翻译语句。[0125]具体的，显示设备中可以预先设置一个数据库，用于存储特定的数据。当获取到种子模板、种子实体，以及翻译后的种子模板、种子实体后，可以将这些语料信息存储到预设的数据库中，以便后续应用。[0126]控制器250可以获取待翻译实体的目标实体类型。例如，对于实体“十二点”来说，由于是用户在控制显示设备的过程中对应的实体信息，因此实体“十二点”的实体类型为时间类型，即目标实体类型为时间。[0127]在确定了目标实体类型后，控制器250可以获取目标实体类型对应的种子模板。[0128]在数据库中，预先存储有若干个语句模板，即种子模板。控制器250可以在数据库中，基于目标实体类型对语句模板进行筛选，获取到目标实体类型对应的语句模板，本技术实施例中称之为目标语句模板。需要说明的是，在此筛选过程中，需要先确定出待翻译实体对应的初始语言，例如中文语言，对应的所有种子模板。再在这些中文的种子模板中进行筛选，得到目标实体类型对应的目标语句模板。[0129]在一些实施例中，在对语句模板进行筛选时，控制器250可以基于预设的筛选条件对数据库中的语句模板进行筛选。[0130]由于要获取目标实体类型对应的种子模板，因此种子模板中需要包含目标实体类型对应的待填充槽位。[0131]对于初始语言对应的语句模板中，这些语句模板包括第一固定实体和若干个待填充槽位。待填充槽位和实体类型之间存在匹配关系，即目标实体类型对应的待填充槽位和目标实体类型相匹配。例如时间类型和“@{starttime}”槽位相匹配，日期类型和“@{startdate}”槽位相匹配。[0132]因此，预设的筛选条件可以设置为：如果某个语句模板中存在至少一个待填充槽位和目标实体类型相匹配，则可以确定为该语句模板为一个目标语句模板。即控制器250可以在数据库中初始语言对应的语句模板中，获取包含目标实体类型所匹配的待填充槽位的所有语句模板，并作为目标语句模板。[0133]在一些实施例中，在获取到目标语句模板后，控制器250可以基于待翻译实体和目标语句模板，获取待翻译语句。每个目标语句模板都会对应一个待翻译语句。[0134]控制器250可以对目标语句模板中的待填充槽位进行填充，以得到一个完整的语句。因此控制器250可以先对每个目标语句模板中的待填充槽位进行分析，以确定待翻译实体对应的槽位和其他槽位。[0135]控制器250可以确定目标语句模板中待翻译实体对应的槽位，本技术实施例中称为目标待填充槽位。控制器250还可以确定目标待填充槽位之外的槽位，本技术实施例中称为剩余待填充槽位。控制器250可以对目标待填充槽位和剩余待填充槽位进行填充，得到完整语句。[0136]在对待填充槽位进行填充时，需要将待翻译实体填充到相应的目标待填充槽位中，并将其他相关的实体分别填充到剩余待填充槽位中，因此控制器250需要获取剩余待填充槽位对应的种子实体。[0137]在一些实施例中，控制器250可以在数据库中，获取剩余待填充槽位对应的种子实体对。种子实体对指的是同一个种子实体在两种语言下的不同表示。种子实体对可以包括待翻译实体对应的初始语言下的第一种子实体，以及预设语言下的第二种子实体。其中，初始语言即为待翻译实体本身对应的语言，预设语言即为需要将待翻译实体翻译成为的目标语言。以将某个中文的待翻译实体翻译成英文为例，初始语言即为中文语言，预设语言即为目标语言。[0138]控制器250可以确定目标语句模板中所有剩余待填充槽位对应的实体类型，并在数据库中获取相应实体类型的种子实体，可以获取种子实体在初始语言和预设语言下的两种表示，即获取第一种子实体和第二种子实体，得到每个待填充槽位对应的种子实体对。[0139]控制器250可以将待翻译实体填充到目标待填充槽位中，同时将第一种子实体填充到剩余待填充槽位中，得到完整语句，本技术实施例中称之为待翻译语句。[0140]对于每个目标语句模板，均可获取到相应的待翻译语句。以语句模板a为例，填充槽位后得到的待翻译语句为：明天十二点把我叫醒。[0141]在一些实施例中，在获取到待翻译语句后，控制器250可以将所有的待翻译语句翻译成预设语言的目标语句。[0142]以待翻译语句“明天十二点把我叫醒”为例，翻译后得到的目标语句可以是“wakemeupattwelveo’clocktomorrow”。[0143]对于语句模板b来说，其对应的待翻译语句为“定一个明天十二点的闹钟”。在翻译过程中，对于不同的语句中的相同实体，例如待翻译实体“十二点”，可能得到的翻译结果是不同的。因此，待翻译语句“定一个明天十二点的闹钟”，翻译后得到的目标语句可能是“setanalarmfor12o’clocktomorrow”。即待翻译实体“十二点”在不同的语句中进行翻译后，可以翻译成“twelveo’clock”，可能翻译成“12o’clock”，甚至可能翻译成纯数字的表示形式“12”。[0144]控制器250可以根据目标语句获取待翻译实体对应的目标实体，目标实体即为待翻译实体在预设语言下的表示。[0145]在一些实施例中，控制器250可以先对目标语句进行分词处理，得到分词结果。其中，每个目标语句都会具有一个分词结果。[0146]以目标语句是“wakemeupattwelveo’clocktomorrow”为例，其对应的分词结果为：wake，me，up，at，twelve，o’clock，tomorrow。[0147]控制器250可以基于分词结果获取每个目标语句对应的候选实体。每一个目标语句中都会包含一个候选实体，候选实体即为待翻译实体在目标语句中的表示。[0148]在一些实施例中，在获取候选实体时，控制器250可以对分词结果进行筛选，以确定待翻译实体对应的候选实体。[0149]控制器250可以在先数据库中，获取待翻译实体对应的目标语句模板在预设语言下的表示形式，本技术实施例中称为匹配语句模板。即目标语句模板和匹配语句模板分别是初始语言和预设语言下的两种表示形式。[0150]对于语句模板a来说，其中文形式为'@{startdate}@{starttime}把我叫醒'，英文形式为'wakemeupat@{starttime}@{startdate}'。上述两个模板即为目标语句模板和匹配语句模板的对应情况。[0151]在匹配语句模板中，同时包含固定实体和若干个待填充槽位，只是匹配语句模板中的固定实体为预设语言，而目标语句模板中的固定实体为初始语言。本技术实施例中将匹配语句模板中的固定实体称为第二固定实体，第二固定实体即为第一固定实体在预设语言下对应的实体。[0152]控制器250可以对分词结果进行筛选。通过在分词结果中，获取除了第二固定实体和第二种子实体以外的剩余分词，从而将剩余分词确定为每个目标语句对应的候选实体。例如，对于分词结果“wake，me，up，at，twelve，o’clock，tomorrow”，其中“wake，me，up，at”为第二固定实体，“tomorrow”为第二种子实体，则“twelveo’clock”即为候选实体。[0153]在一些实施例中，控制器250可以基于奖惩机制抽取待翻译实体对应的候选实体。[0154]控制器250可以对分词结果中所有的实体赋予初始分数，初始分数可以是1。[0155]因此分词结果中所有实体的初始分数分别为：wake:1、me:1、up:1、at:1、twelve:1、o’clock:1、tomorrow:1。[0156]控制器250可以对固定实体，即匹配语句模板中的第二固定实体，进行惩罚，可以是分别减去1分。此时所有实体的分数情况为：wake:0、me:0、up:0、at:0、twelve:1、o’clock:1、tomorrow:1。[0157]控制器250可以继续对种子实体，即第二种子实体“tomorrow”进行惩罚，可以是减去1分。需要说明的是，最低分数可以设为1，当分数已经为0时，惩罚后的分数依旧是0。此时，所有实体的分数情况为：wake:0、me:0、up:0、at:0、twelve:1、o’clock:1、tomorrow:0。[0158]控制器250可以获取所有分数未发生改变(分数为1)的实体，并确定候选实体。因此，候选实体为twelveo’clock。[0159]在一些实施例中，通过对所有目标语句对应的分词结果进行筛选后，可以得到每个目标语句对应的候选实体。由于不同语句中的相同实体在翻译后，结果可能不同，因此不同目标语句对应的候选实体可能相同，也可能不同。控制器250可以整理所有目标语句对应的候选实体，形成候选实体集合。一些实施例的候选实体集合为['12'、'12o'clock'、'twelveo’clock'、'twelveo’clock']。其中可能包含多个相同的候选实体。[0160]控制器250可以对所有的候选实体进行筛选，以得到待翻译实体最接近的候选实体，作为最终的翻译结果。[0161]控制器250可以将所有的候选实体翻译为初始语言下对应的实体，本技术实施例中称为初始语言候选实体。即将每个候选实体翻译得到每个初始语言候选实体。[0162]控制器250可以分别获取每个初始语言候选实体和待翻译实体的编辑距离。编辑距离，也叫莱文斯坦距离(levenshtein)，是针对二个字符串(例如英文字符)的差异度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中，例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离，判断哪一个(或哪几个)是比较可能的字。[0163]同时，控制器250可以获取所有的候选实体中，每个候选实体的出现次数。[0164]控制器250可以基于编辑距离、出现次数和预设的权重系数，计算每个候选实体的翻译得分，并将翻译得分最高的候选实体确定为待翻译实体对应的目标实体。[0165]编辑距离和出现次数可能预先赋予权重系数，例如编辑距离的权重系数可以是0.3，出现次数的权重系数可以是0.7。[0166]控制器250可以按照公式(1)计算每个候选实体的翻译得分。[0167]f＝a*s b*g(1)[0168]其中，[0169]f表示翻译得分，s表示候选实体对应的初始语言候选实体和待翻译实体的编辑距离，g表示候选实体在候选实体集合出现次数。[0170]a表示编辑距离的权重系数，b表示出现次数的权重系数，a b＝1。[0171]再计算出每个候选实体的翻译得分后，可以将分数最高的候选实体确定为目标实体，即待翻译实体在预设语言下的实体。[0172]在一些实施例中，在获取到待翻译实体对应的目标实体后，可以将待翻译实体、目标实体和语句模板作为训练数据，并根据这些训练数据生成语音识别模型，以识别用户语音。[0173]在一些实施例中，每种语言可以对应生成一个语音识别模板。[0174]控制器250可以先确定待翻译实体的初始语言。[0175]控制器250可以在数据库中，获取初始语言对应的所有语句模板，本技术实施例中称为第一语句模板。还可以获取预设语言对应的所有语句模板，本技术实施例中称为第二语句模板。[0176]控制器250可以基于待翻译实体和第一语句模板生成第一语音识别模型，第一语音识别模型用于识别初始语言对应的用户语音。控制器250可以基于目标实体和第二语句模板生成第二语音识别模型，第二语音识别模型用于识别预设语言对应的用户语音。[0177]在一些实施例中，控制器250可以综合所有语言的训练数据生成一个总的语音识别模型，用以识别所有语言的用户语音。[0178]控制器250可以基于目标实体、待翻译实体和所有语句模板生成第三语音识别模型，第三语音识别模型用于识别预设语言和初始语言对应的用户语音。[0179]在一些实施例中，控制器250可以根据用户的需求确定预设语言。例如，用户控制显示设备调出语言选择界面，从而自行设定显示设备能够识别的语言，控制器250可以将用户设定的语言确定为预设语言。控制器250再将待翻译实体翻译为预设语言下的目标实体，从而生成语音识别模型。图10示出了一些实施例中语言选择界面的示意图。如图10所示，语言选择界面中可以具有若干个语言控件，每个语言控件用于表征一种显示设备支持识别的语言，包括英语、法语、德语、西班牙语和汉语等。当用户选择一种语言后，控制器250可以将待翻译实体翻译成该语言对应的目标实体，从而得到训练数据并构建语音识别模型。用户输入该语言的语音后，控制器250可以识别用户语音。[0180]在一些实施例中，控制器250可以根据语音识别模型识别用户语音。[0181]控制器250可以控制声音采集器采集用户输入的语音，当用户向显示设备输入语音后，控制器250可以基于语音识别模型对用户语音进行识别，得到用户语音对应的控制指令并执行控制指令，以实现相应功能。[0182]控制器250可以先调用第三方语音识别接口，将用户语音转换为语音文本，再利用语音识别模型确定语音文本的含义，以生成控制指令并执行。[0183]在一些实施例中，控制器250在执行控制指令后，还可以提示用户。图11示出了一些实施例中用户和显示设备进行语音交互的场景示意图。如图11所示，用户输入语音指令“明天十二点把我叫醒”，控制器250可以识别用户语音并执行。控制器250可以设定一个明天十二点的闹钟，并通过语音提示用户“已为您设置明天十二点的闹钟”。[0184]在一些实施例中，用户可能利用语音控制显示设备搜索媒资。例如，用户输入语音指令“搜索xxx电影第三季”。对于用户想要搜索的媒资，控制器250在搜索相关媒资后，可以展示搜索界面，同时通过语音提示用户“已为您推荐关于xxx的视频”。图12示出了一些实施例中显示设备显示搜索界面的示意图。当用户选择某个目标媒资后，控制器250可以控制显示器260显示目标媒资的媒资详情页，以使用户播放媒资进行观看。[0185]如果控制器250未搜索到相关媒资，也可以显示预设的提示信息，提示信息用于提示用户未搜索到相关媒资，并通过语音提示用户。图13示出了一些实施例中提示信息的示意图。[0186]本技术实施例还提供了一种语音识别方法，如图14所示，该方法包括：[0187]步骤1401、基于待翻译实体和显示设备中预先存储的语句模板获取待翻译语句。[0188]步骤1402、将待翻译语句翻译成预设语言的目标语句。[0189]步骤1403、基于目标语句获取待翻译实体对应的目标实体。[0190]步骤1404、基于目标实体和预先存储的语句模板生成语音识别模型。[0191]步骤1405、响应于声音采集器采集的用户语音，基于语音识别模型对用户语音进行识别，得到用户语音对应的控制指令并执行控制指令。[0192]在一些实施例中，基于待翻译实体和显示设备中预先存储的语句模板获取待翻译语句，还包括：[0193]获取待翻译实体的目标实体类型；[0194]在预设的数据库中，基于目标实体类型对语句模板进行筛选，得到目标实体类型对应的目标语句模板；数据库中预先存储有若干个语句模板；[0195]基于待翻译实体和目标语句模板，获取待翻译语句。[0196]在一些实施例中，语句模板中包括第一固定实体和若干个待填充槽位，待填充槽位和实体类型之间存在匹配关系。基于目标实体类型对语句模板进行筛选，还包括：[0197]基于预设的筛选条件对数据库中的语句模板进行筛选；预设的筛选条件为：如果语句模板中存在至少一个待填充槽位和目标实体类型相匹配，则确定语句模板为目标语句模板。[0198]在一些实施例中，基于待翻译实体和目标语句模板，获取待翻译语句，还包括：[0199]确定目标语句模板中待翻译实体对应的目标待填充槽位，以及目标待填充槽位之外的剩余待填充槽位；在数据库中，获取剩余待填充槽位对应的种子实体对，种子实体对包括待翻译实体对应的初始语言的第一种子实体和预设语言的第二种子实体；将待翻译实体填充到目标待填充槽位中，以及将第一种子实体填充到剩余待填充槽位中，得到待翻译语句。[0200]在一些实施例中，基于目标语句获取待翻译实体对应的目标实体，还包括：[0201]对目标语句进行分词处理，得到分词结果；每个目标语句对应一个分词结果；基于分词结果获取每个目标语句对应的候选实体；对候选实体进行筛选，得到待翻译实体对应的目标实体。[0202]在一些实施例中，基于分词结果获取每个目标语句对应的候选实体，还包括：[0203]在数据库中，获取目标语句模板对应的匹配语句模板，匹配语句模板中包括第二固定实体和若干个待填充槽位，第二固定实体为第一固定实体在预设语言下对应的实体；在分词结果中，获取除第二固定实体和第二种子实体外的剩余分词，并将剩余分词确定为每个目标语句对应的候选实体。[0204]在一些实施例中，对候选实体进行筛选，得到待翻译实体对应的目标实体，还包括：[0205]将候选实体翻译为初始语言下对应的初始语言候选实体；获取初始语言候选实体和待翻译实体的编辑距离；以及，获取所有的候选实体中，每个候选实体的出现次数；基于编辑距离、出现次数和预设的权重系数，计算候选实体的翻译得分，并将翻译得分最高的候选实体确定为待翻译实体对应的目标实体。[0206]在一些实施例中，基于目标实体和预先存储的语句模板生成语音识别模型，还包括：[0207]确定待翻译实体的初始语言；获取初始语言对应的第一语句模板以及预设语言对应的第二语句模板；基于待翻译实体和第一语句模板生成第一语音识别模型，基于目标实体和第二语句模板生成第二语音识别模型；第一语音识别模型用于识别初始语言对应的用户语音，第二语音识别模型用于识别预设语言对应的用户语音。[0208]在一些实施例中，基于目标实体和预先存储的语句模板生成语音识别模型，还包括：[0209]基于目标实体、待翻译实体和预先存储的语句模板生成第三语音识别模型，第三语音识别模型用于识别预设语言和初始语言对应的用户语音。[0210]本说明书中各个实施例之间相同相似的部分互相参照即可，在此不再赘述。[0211]本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分的方法。[0212]最后应说明的是：以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。[0213]为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：音频识别方法、装置、存储介质和计算设备与流程

显示设备和语音识别方法与流程

相关文献

最热文献