电子设备及其控制方法与流程

2021-07-09 15:10:00 来源：中国专利 TAG：电子设备韩国专利申请控制方法

电子设备及其控制方法
1.本申请基于并要求于2019年12月23日在韩国知识产权局提交的第10
‑
2019
‑
0172725号韩国专利申请的优先权，其中，该韩国专利申请的公开通过引用全部合并在本申请中。
技术领域
2.本公开涉及一种电子设备及其控制方法，并且更具体地涉及一种根据用户的话语编辑字符串的电子设备以及控制该电子设备的方法。

背景技术：

3.用户可基于语音识别功能控制电子设备的各种功能。例如，在电视(tv)的情况下，当用户说出想要观看的频道的频道号时，tv识别频道号并显示与识别出的频道号相应的图像。此外，用户可基于语音识别功能输入字符。例如，在用户帐户信息(例如，密码)被输入到tv的情况下，当用户以单个字母为单位说出包含在密码中的诸如字母、数字、符号等的字符时，tv识别以单个字母为单位说出的字符，并接收识别出的字符作为密码。
4.在通过语音识别功能输入字符时输入错误字符的情况下，当用户发出用于编辑错误字符的编辑命令时，tv识别该编辑命令并根据识别出的编辑命令编辑错误字符。然而，存在对可识别的编辑命令的种类和数量的限制，并且基于编辑命令的编辑功能也很简单。因此，编辑功能的利用率低，并且使用基于语音识别功能的字符输入的便利性也低。

技术实现要素：

5.本公开的一方面是提供一种电子设备及其控制方法，其中，可针对在使用语音识别功能进行字符输入期间输入的错误字符发出更多种类和更广泛的编辑命令，从而提高基于语音识别的编辑功能的利用率。
6.根据本公开的实施例，提供一种电子设备，包括：处理器，被配置为：从第一用户话语获得包括先前定义的字符的第一字符串；基于第一用户话语包括第一字符串之后的第一编辑命令，将基于第一编辑命令从第一字符串编辑得到的第二字符串识别为输入字符；并且基于第二用户话语包括第二编辑命令而没有第一编辑命令，基于第二编辑命令针对第二字符串执行编辑。
7.第一编辑命令包括被发出以删除包含在第一字符串中的字符的命令。
8.可识别为第二编辑命令的命令多于可识别为第一编辑命令的命令。
9.处理器被配置为：基于语音识别引擎识别第二编辑命令；并且基于语音识别引擎识别用于控制电子设备的命令。
10.处理器被配置为：针对在基于先前定义的事件激活的字符输入模式下接收到的第一用户话语来识别第一字符串和第一编辑命令。
11.处理器被配置为：在字符输入模式是被激活的期间，接收第二用户话语，并且在字符输入模式的激活被终止时，识别第二用户话语中是否包含第二编辑命令。
12.处理器被配置为：基于第一事件激活字符输入模式；并且基于第二事件终止字符输入模式的激活。
13.处理器被配置为：基于接收到的用户输入激活字符输入模式。
14.基于第二用户话语包括包含先前定义的字符的第三字符串，处理器被配置为：基于第二编辑命令针对第二字符串执行编辑，而不将第三字符串识别为输入字符。
15.处理器被配置为：控制显示器显示被识别为输入字符的第二字符串，但不显示未被识别为输入字符的第三字符串。
16.处理器被配置为：从第三用户话语获得包括先前定义的字符的第四字符串；并且基于第三用户话语不包括第四字符串之后的第一编辑命令，将第四字符串识别为输入字符。
17.处理器被配置为：基于第一用户话语包括第一编辑命令，不识别第二用户话语是否包括第二编辑命令。
18.根据本公开的另一实施例，提供一种控制电子设备的方法，所述方法包括：从第一用户话语获得包括先前定义的字符的第一字符串；基于第一用户话语包括第一字符串之后的第一编辑命令，将基于第一编辑命令从第一字符串编辑得到的第二字符串识别为输入字符；并且基于第二用户话语包括第二编辑命令而没有第一编辑命令，基于第二编辑命令针对第二字符串执行编辑。
19.第一编辑命令包括被发出以删除包含在第一字符串中的字符的命令。
20.可识别为第二编辑命令的命令多于可识别为第一编辑命令的命令。
21.执行编辑的步骤包括：基于语音识别引擎识别第二编辑命令；并且基于语音识别引擎识别用于控制电子设备的命令。
22.获得第一字符串的步骤包括：针对在基于先前定义的事件激活的字符输入模式下接收到的第一用户话语来识别第一字符串和第一编辑命令。
23.执行编辑的步骤包括：在字符输入模式是被激活的期间，接收第二用户话语，并且在字符输入模式的激活被终止时，识别第二用户话语中是否包含第二编辑命令。
24.所述方法还包括：基于第一事件激活字符输入模式；并且基于第二事件终止字符输入模式的激活。
25.根据本公开的另一实施例，提供一种存储有计算机程序的记录介质，其中，所述计算机程序包括用于执行电子设备的控制方法的代码作为计算机可读代码，所述控制方法包括：从第一用户话语获得包括先前定义的字符的第一字符串；基于第一用户话语包括第一字符串之后的第一编辑命令，将基于第一编辑命令从第一字符串编辑得到的第二字符串识别为输入字符；并且基于第二用户话语包括第二编辑命令而没有第一编辑命令，基于第二编辑命令针对第二字符串执行编辑。
附图说明
26.根据以下结合附图进行的实施例的描述，以上和/或其他方面将变得显而易见并且更容易理解，其中：
27.图1示出根据本公开的实施例的电子设备；
28.图2示出图1的电子设备的配置的示例；
29.图3示出图1的电子设备的控制方法的示例；
30.图4示出根据本公开的实施例的电子设备的配置；
31.图5示出图3和图4中所示的电子设备的控制方法的另一示例；
32.图6结合图5中的操作s51示出用于激活字符输入模式的用户输入的示例；
33.图7结合图5中的操作s52示出在字符输入模式的激活期间执行第一意图分析的示例；
34.图8结合图3中的操作s32和s33示出输入字符的控制方法的示例；
35.图9示出基于图8的控制方法编辑字符串的示例；
36.图10结合图3中的操作s32和s33示出输入字符的控制方法的示例；
37.图11示出基于图10的控制方法编辑字符串的示例；
38.图12结合图3中的操作s32和s33示出输入字符的控制方法的示例；
39.图13示出基于图12的控制方法编辑字符串的示例；
40.图14结合图3中的操作s32和s33示出输入字符的控制方法的示例；
41.图15示出基于图14的控制方法编辑字符串的示例；以及
42.图16结合图3中的操作s32和s33示出第一语音识别引擎和第二语音识别引擎的示例。
具体实施方式
43.下面，将参照附图详细描述本公开的实施例。在以下实施例的描述中，将参照附图中示出的元件，并且附图中阐述的相同标号或符号是指具有基本相同的操作的相同元件。在本公开中，多个元件中的至少一个元件不仅指多个元件全部，而且指不包括其他元件的多个元件中的每一个元件及其组合。
44.图1示出根据本公开的实施例的电子设备。如图1中所示，电子设备1不仅可包括诸如电视(tv)、平板计算机、便携式媒体播放器、可穿戴装置、视频墙、电子相框等的图像显示设备，而且可包括没有显示器的各种设备，例如，诸如机顶盒等的图像处理设备、诸如冰箱、洗衣机等的家用电器、以及诸如计算机等的信息处理设备。此外，电子设备1可由具有人工智能(ai)功能的ai扬声器、ai机器人等来实现。电子设备1的种类不限于这些示例，但为了便于描述，将假设电子设备1由tv实现。
45.电子设备1可包括麦克风17。电子设备1可通过麦克风17接收由用户4发出的用户话语5的语音信号。麦克风17可被设置在电子设备1的主体中，但不限于此。可选地，麦克风可被设置在与主体等分离的遥控器2、智能电话等中。在这种情况下，电子设备1可接收在遥控器、智能电话等的麦克风17中接收到的语音信号。
46.电子设备1可执行语音识别功能。当从用户4接收到用户话语5时，电子设备1可从用户话语5获得语音信号，对获得的语音信号应用语音识别处理，并执行与基于语音识别处理的识别结果相应的操作。语音识别处理包括用于将语音信号转换为文本数据的语音转文本(stt)处理、以及用于基于文本数据识别命令并执行由识别出的命令指定的操作的命令识别和后续处理。例如，当用户话语5是“增大音量”时，电子设备1基于用户话语5的语音信号获得文本数据，识别由获得的文本数据指定的命令，并基于识别出的命令调高电子设备1的音量。
47.可在电子设备1中实现语音识别处理的stt处理以及命令识别和后续处理两者。然而，这种情况使电子设备1承受相对高的系统负载和相对高的存储容量。因此，可由通过网络与电子设备1连接和通信的至少一个服务器3执行该处理的至少一部分。例如，至少一个服务器3可执行stt处理，并且电子设备1可执行命令识别和后续处理。
48.可选地，至少一个服务器3可执行stt处理以及命令识别和跟随处理两者，并且电子设备1可仅从至少一个服务器3接收结果。例如，电子设备1可接收由至少一个服务器3中的执行stt处理的第一服务器31转换的文本数据，将接收到的文本数据发送到执行命令识别和后续处理的第二服务器32或第三服务器33，并且从第二服务器32或第三服务器33接收结果。然而，为了便于描述，将在电子设备1执行stt处理以及命令识别和跟随处理两者的假设下进行描述。
49.电子设备1可包括至少一个语音识别模型以执行stt处理。语音识别模型是指在对基于用户话语5的语音信号的语音识别处理中使用的硬件/软件组件。语音识别模型可包括语音识别程序、语音识别引擎等，并且语音识别程序可以以应用的形式被提供。语音识别模型可包括例如隐马尔可夫模型(hmm)、通过将基于动态时间规整(dtw)等算法的统计建模应用于发出的语音而实现的声学模型、通过收集语料库(即，收集为了语言研究而以将被计算机操纵、处理和分析的形式给出的文本)而实现的语言模型等。然而，语音识别模型不限于该示例，而是可包括如二元语法和三元语法的概念的语言模型，其中，在所述语言模型中，在当前词语之后的n个词语用于分析话语意图，。
50.电子设备1可通过语音识别功能接收字符。例如，当密码输入屏幕被显示以接收用于登录到特定服务的密码并且用户4以单个字母为单位说出密码时，电子设备1识别以单个字母为单位说出的密码，并使识别出的密码被输入到密码输入屏幕。
51.电子设备1可编辑先前通过语音识别功能输入的字符。当错误密码被输入到密码输入屏幕并且用户4发出用于编辑先前输入的密码的声音时，电子设备1可基于用于编辑的话语来编辑先前输入的密码。
52.图2示出图1的电子设备的配置。如图2中所示，下面将参照图2详细描述电子设备1的配置。在该实施例中，将描述电子设备1是tv。然而，电子设备1可由各种设备实现，因此电子设备1不限于该实施例。电子设备1可不由tv等显示设备实现，并且在这种情况下，电子设备1可不包括用于显示图像的显示器14等元件。例如，当电子设备1由机顶盒实现时，电子设备1可通过接口11将图像信号输出到外部tv。
53.电子设备1可包括接口11。接口11可包括有线接口12。有线接口12可包括连接器或端口，其中，用于基于用于地面/卫星广播等的广播标准接收广播信号的天线被连接到所述连接器或端口，或者用于基于有线广播标准接收广播信号的电缆被连接到所述连接器或端口。可选地，电子设备1可包括接收广播信号的内置天线。有线接口12可包括高清晰度多媒体接口(hdmi)端口、显示端口、dvi端口等基于视频和/或音频传输标准(诸如雷电、复合视频、分量视频、超级视频、无线电接收机和电视制造商联盟(syndicat des constructeurs d'appareils radior
é
cepteurs et t
é
l
é
viseurs，scart)等)的连接器或端口。有线接口12可包括基于通用数据传输标准的连接器或端口(诸如通用串行总线(usb)端口)等。有线接口12可包括基于光传输标准的光缆被连接到的连接器或端口等。有线接口12可包括与外部麦克风或包括麦克风的外部音频装置连接并从音频装置接收音频信号的连接器或端口等。
有线接口12可包括与诸如头戴式耳麦、耳机、外部扬声器等的音频装置连接并将音频信号发送或输出到音频装置的连接器或端口等。有线接口12可包括基于以太网等网络传输标准的连接器或端口。例如，有线接口12可由通过导线连接到路由器或网关的局域网(lan)卡等实现。
54.有线接口12通过前述连接器或端口以1：1或1：n(其中，n是自然数)的方式通过导线被连接到机顶盒、光学媒体播放器等外部装置、扬声器、服务器等，从而从连接的外部装置接收视频/音频信号或将视频/音频信号发送到连接的外部装置。有线接口12可包括用于单独地传输视频/音频信号的连接器或端口。
55.此外，根据该实施例，有线接口12可被内置在电子设备1中，或者可被可拆卸地连接到电子设备1的以软件狗或模块的形式设置的连接器。
56.接口11可包括无线接口13。无线接口13可与电子设备1相应地以各种方式被实现。例如，无线接口13可使用诸如射频(rf)、zigbee、蓝牙、wi
‑
fi、超宽带(uwb)、近场通信(nfc)等的无线通信方式。无线接口13可由基于wi
‑
fi的无线通信模块、用于蓝牙等一对一直接无线通信的无线通信模块实现。无线接口13与网络上的服务器执行无线通信，从而与至少一个服务器3交换数据包。无线接口13可包括基于红外(ir)通信标准发送和/或接收ir信号的ir发射器和/或ir接收器。通过ir发射器和/或ir接收器，无线接口13可从遥控器2或另一外部装置接收或输入远程控制信号，或者将远程控制信号发送或输出到遥控器2或另一外部装置。可选地，电子设备1可通过诸如wi
‑
fi、蓝牙等的不同标准的无线接口13与遥控器2或其他外部装置交换远程控制信号。
57.当通过接口11接收到的视频/音频信号是广播信号时，电子设备1还可包括调谐器，以被调谐到针对接收的广播信号的频道。
58.电子设备1包括显示器14。显示器14包括能够在屏幕上显示图像的显示面板。显示面板被设置为具有诸如液晶类型的光接收结构或诸如有机发光二极管(oled)类型的自发光结构。显示器14可根据显示面板的结构包括附加元件。例如，当显示面板是液晶类型时，显示器14包括液晶显示面板、被配置为发光的背光单元、以及被配置为驱动液晶显示面板的液晶的面板驱动基板。然而，当电子设备1由机顶盒等实现时，可省略显示器14。
59.电子设备1包括用户输入单元15。用户输入单元15包括与被提供以由用户控制进行用户输入的各种输入接口相关的电路。用户输入单元15可根据电子设备1的种类被不同地配置，并且可包括例如电子设备1的机械按钮或电子按钮、触摸板、安装在显示器14中的触摸屏等。
60.电子设备1包括存储单元16。存储单元16被配置为存储数字化数据。存储单元16包括非易失性存储器和易失性存储器，其中，在非易失性存储器中，无论电源是接通还是断开都保留数据，在易失性存储器中，加载将由处理器2处理的数据并且仅在电源接通时才保留数据。存储器包括闪存、硬盘驱动器(hdd)、固态驱动器(ssd)、只读存储器(rom)等，并且存储器包括缓冲器、随机存取存储器(ram)等。当语音助手由应用等软件实现时，存储单元16可包括语音助手。
61.电子设备1包括麦克风17。麦克风17采集外部环境的噪声、声音等，诸如用户4的用户话语5。麦克风17将采集的语音信号发送到处理器6。麦克风17可被设置在电子设备1的主体中，或者被设置在与电子设备1的主体分离的遥控器2、智能电话等中。例如，通过设置在
遥控器2、智能电话等中的麦克风17采集的音频信号可在接口11中被数字化和被接收。
62.此外，智能电话等可被安装有远程控制应用。智能电话等可通过安装的应用用作遥控器，例如，控制电子设备1，针对通过设置在智能电话等中的麦克风17接收到的语音信号执行语音识别处理等。这样的远程控制应用可被安装在诸如ai扬声器、ai机器人等的各种外部设备中。
63.电子设备1包括扬声器18。扬声器18可基于音频信号输出各种声音。扬声器18可由至少一个扬声器实现。扬声器18可被设置在电子设备1中，或者可由设置在外部的外部扬声器实现。在这种情况下，电子设备1可通过有线或无线地将音频信号发送到外部扬声器。
64.电子设备1包括处理器6。处理器6包括被实现为被安装在印刷电路板上的中央处理器(cpu)、芯片组、缓冲器、电路等的一个或更多个硬件处理器，并且可被实现为片上系统(soc)。当电子设备1被实现为显示设备时，处理器6包括与各种处理相应的模块，诸如解复用器、解码器、缩放器、音频数字信号处理器(dsp)、放大器等。这里，这些模块中的一些模块或全部模块可被实现为soc。例如，解复用器、解码器、缩放器等视频处理模块可被实现为视频处理soc，并且音频dsp可被实现为与soc分离的芯片组。
65.具体地，处理器6从通过麦克风17接收到的第一用户话语获得包括先前定义的字符的第一字符串，当第一用户话语中涉及第一字符串之后的第一编辑命令时，将通过第一编辑命令从第一字符串编辑得到的第二字符串识别为输入字符，并且当不包括第一编辑命令的第二用户话语包括第二编辑命令时，基于第二编辑命令针对第二字符串执行编辑。
66.然而，电子设备1的配置不限于图2中所示的配置，而是可从前述元件中排除一些元件，或者可包括除了前述元件之外的其他元件。例如，电子设备1包括传感器单元。传感器单元可包括用于检测用户4的运动、位置等的至少一个传感器。例如，传感器单元包括检测用户4相对于电子设备1的运动、位置等的距离传感器。距离传感器可辐射例如红外线、超声波等，并且基于红外线、超声波等被辐射的时间与从用户4等反射的红外线、超声波等返回到距离传感器的时间之间的差来测量用户4的运动、位置等。然而，传感器单元不限于该示例，而是还可包括捕获或拍摄电子设备1的正面的图像获取器，并且基于通过图像获取器获得的图像来检测用户4的运动、位置等。图像获取器可由至少一个相机实现。
67.此外，电子设备1的处理器6可使用机器学习、神经网络或深度学习算法中的至少一个作为规则库或人工智能(ai)算法来针对以下前述操作执行数据分析、处理或结果信息生成中的至少一个：从第一用户话语获得包括先前定义的字符的第一字符串，当第一用户话语中涉及第一字符串之后的第一编辑命令时，将通过第一编辑命令从第一字符串编辑得到的第二字符串识别为输入字符，并且当不包括第一编辑命令的第二用户话语包括第二编辑命令时，基于第二编辑命令针对第二字符串执行编辑。例如，处理器6可用作学习器和识别器两者。学习器可执行生成经过学习的神经网络的功能，并且识别器可执行基于经过学习的神经网络识别(或推断、预测、估计和辨识)数据的功能。学习器可生成或更新神经网络。学习器可获得学习数据以生成神经网络。例如，学习器可从存储单元16或服务器存储单元或从外部获得学习数据。学习数据可以是用于学习神经网络的数据，并且经过前述操作的数据可用作学习数据来教导神经网络。
68.在基于学习数据教导神经网络之前，学习器可针对获得的学习数据执行预处理操作，或者在多条学习数据中选择将用于学习的数据。例如，学习器可将学习数据处理为具有
预设格式，对学习数据应用滤波，或者通过向学习数据添加噪声/从学习数据去除噪声来将学习数据处理成适合用于学习。学习器可使用经过预处理的学习数据来生成执行操作的神经网络集。
69.经过学习的神经网络可包括多个神经网络(或层)。多个神经网络的节点具有权重，并且多个神经网络可彼此连接，使得可将特定神经网络的输出值用作另一神经网络的输入值。作为神经网络的示例，存在卷积神经网络(cnn)、深度神经网络(dnn)、递归神经网络(rnn)、受限玻尔兹曼机(rbm)、深度信念网络(dbn)、双向递归深度神经网络(brdnn)和深度q网络。
70.此外，识别器可获得目标数据以执行前述操作。可从存储单元16或服务器存储单元或从外部获得目标数据。目标数据可以是神经网络的识别所针对的数据。在将目标数据应用于经过学习的神经网络之前，识别器可预处理获得的目标数据或者在多条目标数据中选择将用于识别的数据。例如，识别器可将目标数据处理为具有预设格式，对目标数据应用滤波，或者向目标数据添加噪声/从目标数据去除噪声，从而将目标数据处理成适合用于识别的数据。识别器将经过预处理的目标数据应用于神经网络，从而获得从神经网络输出的输出值。识别器可与输出值一起获得概率值或可靠性值。
71.图3示出图1的电子设备的控制方法。图3的操作可由电子设备1的处理器6执行。如图3中所示，处理器6可从第一用户话语获得包括先前定义的字符的第一字符串(s31)。这里，先前定义的字符可以以单个字母为单位被给出，并且包括诸如韩语字母的韩文、字母、日语字母的平假名等的地域性字符；诸如
‘1’
、2’、
‘3’
等的数字；以及诸如感叹号、问号等的符号。然而，先前定义的字符不限于这些，而是可包括货币、图形、表情符号等。
72.此外，当第一用户话语中包括第一字符串之后的第一编辑命令时，处理器6可将通过第一编辑命令从第一字符串编辑得到的第二字符串识别为输入字符(s32)。这里，第一编辑命令可包括“删除”等编辑命令。例如，“删除”可以是为删除第一字符串的字符而发出的编辑命令。然而，第一编辑命令的种类不限于该示例，而是可被设计为包括各种编辑命令。
73.此外，当不包括第一编辑命令的第二用户话语包括第二编辑命令时，处理器6基于第二编辑命令对第二字符串执行编辑(s33)。这里，第二编辑命令不包括第一编辑命令，但可包括作为第二用户话语的整体或一部分而可识别的编辑命令。例如，当第二用户话语是“向左移动光标”时，第二用户话语不包括第一编辑命令，但可包括作为整体的编辑命令，其中，该作为整体的编辑命令被发出以将光标从先前获得的字符串中的预定位置向左移动1步。在这种情况下，处理器6可基于例如被发出以使显示在屏幕上的光标的位置被向左移动1步的第二编辑命令来执行编辑。
74.通过根据本实施例的控制方法，处理器6基于用户话语是否包括第一编辑命令和第二编辑命令来执行编辑，使得更多种类和更广泛的编辑命令可被发出，从而提高基于语音识别的编辑功能的利用率。
75.图4示出根据本公开的实施例的电子设备的配置。如图4中所示，电子设备1可包括处理器6。下面，将详细描述根据该实施例的处理器6的元件和元件的操作。
76.处理器6可包括特征提取器41。特征提取器41可从接收到的用户话语提取特征向量。特征提取器41可使用各种算法来提取特征向量。
77.处理器6可包括语音识别器42。语音识别器42可根据由特征提取器41提取的用户
话语的特征向量识别字符串，并且生成或输出识别出的字符串。语音识别器42可识别包括在以间隔词为单位的字符串中的先前定义的字符。语音识别器42可输出包括与先前定义的字符相关的间隔的识别结果，并且输出包括符合针对词语的词语间隔规则的间隔的识别结果。例如，语音识别器42可针对用户话语“a b c”输出字符串“a b c”。
78.处理器6可包括第一意图分析器43。第一意图分析器43可执行第一意图分析，换句话说，可分析用户4针对由语音识别器42识别的字符串的意图。为了实时分析用户4针对在用户话语的中间输出的以间隔词为单位给出的字符串的意图，第一意图分析器43可例如识别第一编辑命令，诸如“删除”、“删除全部”、“取消”等。“删除”是指意图在于删除字符串的字符的编辑命令，并且“删除全部”是指意图在于删除全部字符串的编辑命令。此外，“取消”是指意图在于取消对先前输入字符的输入的编辑命令。
79.如上所述，第一意图分析器43可通过识别种类或数量和级别被限制的第一编辑命令来实时分析字符串的意图。此外，将第一编辑命令与将由将在稍后描述的第二意图分析器45识别的第二编辑命令进行对比，其中，第二编辑命令被识别为字符串的整体或一部分，因此在以更多种类或数量和更广泛的级别被识别方面与第一编辑命令不同。
80.为了分析用户4的意图，第一意图分析器43可忽略用户话语中除了先前定义的字符和第一编辑命令之外的字符串。例如，当用户话语是“a b c删除请”时，即使“a b c删除请”除了包括先前定义的字符的字符串“a b c”和第一编辑命令“删除”之外还包含预定字符串“请”，第一意图分析器43也忽略字符串“请”，从而基于用户话语分析出用户4从字符串“a b c”中删除“c”的意图。
81.处理器6可包括字符串编辑器44。字符串编辑器44可基于第一意图分析器43的第一意图分析(换句话说，由第一意图分析器43分析的用户4的意图)来编辑字符串。下面，将详细描述字符串编辑器44基于第一意图分析来编辑字符串，例如，当用户话语为“1 2 3删除4 5删除全部7 8”时。基于用户话语“1 2 3删除”，在字符输入屏幕上显示“123”，但从显示在字符输入屏幕上的“1 2 3”中删除“3”，从而使得仅“1 2”被显示。然后，用户话语“4 5”使“1 2 4 5”被显示在字符输入屏幕上，并且稍后的用户话语“删除全部”使显示在字符输入屏幕上的“1 2 4 5”被删除。因此，在字符输入屏幕上不显示任何字符。此外，用户话语“7 8”使“7 8”新被显示在字符输入屏幕上。换句话说，字符串编辑器44可基于包含在用户话语“1 2 3删除45删除全部7 8”中的用户4的意图来获得字符串“7 8”。
82.下面，将详细描述第二意图分析器45针对用户话语执行第二意图分析，换句话说，另外分析用户4的意图，并且基于分析的意图针对先前获得的字符串执行编辑。然而，当基于由第一意图分析器43识别的第一编辑命令编辑字符串时，可将第二意图分析器45的附加意图分析或编辑设计为不被执行。
83.处理器6还可包括第二意图分析器45。第二意图分析器45可识别用于控制电子设备1的一般功能的用户话语。例如，第二意图分析器45可识别通过特征提取器41和语音识别器42从用户话语获得的字符串是否包含tv中的诸如音量控制、频道切换等的功能控制命令，并且使电子设备1基于识别出的功能控制命令进行操作。换句话说，当用户话语被识别为一般功能控制命令时，第二意图分析器45可基于识别出的控制命令来控制电子设备1的功能，并且当用户话语被识别为包含稍后将详细描述的第二编辑命令时，第二意图分析器45可基于识别出的第二编辑命令执行编辑。
84.在用户话语完成之后，第二意图分析器45可将第二意图分析应用于由语音识别器42识别出的整个字符串和由字符串编辑器44基于第一意图分析初始编辑的字符串中的每个或全部。第二意图分析是指对每个字符串是否包含第二编辑命令的分析。例如，当用户话语是“向左移动光标3步”时，第二意图分析器45可识别由语音识别器42识别的字符串“向左移动光标3步”包含被发出以将显示在字符输入屏幕上的光标向左移动3步的第二编辑命令，并且基于识别出的第二编辑命令使显示在字符输入屏幕上的光标的位置被向左移动3步。
85.根据前述第一意图分析，在由语音识别器42识别的字符串“向左移动光标3步”中忽略除了先前定义的字符和第一编辑命令之外的字符串，因此基于第一意图分析初始编辑的字符串可以是“3”。另一方面，作为对字符串“3”应用第二意图分析的结果，第二意图分析器45可识别第二编辑命令未被包括在字符串“3”中，从而基于被识别为被包括在整个字符串“向左移动光标3步”中的第二编辑命令执行编辑，而忽略对字符串“3”的第二意图分析的结果。然而，编辑不限于由第二意图分析器45执行的编辑。根据需要，可由字符串编辑器44基于由第二意图分析器45识别的第二编辑命令执行编辑。
86.另一方面，当作为第二意图分析的结果，识别出第二编辑命令未被包括在整个字符串中时，第二意图分析器45可将初始编辑的字符串识别为输入字符。参照前述示例，当语音识别器42识别出的字符串是“1 2 3删除4 5删除全部7 8”，但字符串编辑器44编辑的字符串是“7 8”时，第二意图分析器45可识别出第二编辑命令未被包括在字符串“1 2 3删除4 5删除全部7 8”中，并将主要编辑的字符串“7 8”识别为输入字符。
87.这样，根据实施例的处理器6通过将第一意图分析和第二意图分析应用于用户话语来实现更适合于满足用户4的话语意图的字符输入，从而提高基于语音识别的字符输入的可靠性。
88.图5示出图3和图4中所示的电子设备的控制方法的另一示例。给出图5中所示的操作以更详细说明图3的操作，并且将集中于未参照图3描述的部分进行以下详细描述。如图5中所示，处理器6可从用户话语获得字符串(s51)。
89.此外，处理器6可执行第一意图分析，换句话说，识别获得的字符串是否包含第一编辑命令(s52)。
90.当获得的字符串包括第一编辑命令时，处理器6可基于第一编辑命令编辑字符串(s53)。
91.此外，处理器6可执行第二意图分析，换句话说，识别基于第一编辑命令编辑的字符串是否包括第二编辑命令(s54)。当在操作s52识别出获得的字符串中不包括第一编辑命令时，处理器6可将第二意图分析应用于获得的字符串，换句话说，识别获得的字符串中是否包括第二编辑命令。
92.当识别出编辑的字符串或获得的字符串包含第二编辑命令时，处理器6可基于识别出的第二编辑命令编辑字符串(s55)。
93.因此，通过根据实施例的控制方法，处理器6将两阶段意图分析应用于用户话语，并且因此实现更适合于满足用户4的话语意图的字符输入，从而提高基于语音识别的字符输入的可靠性。
94.图6结合图5中的操作s51示出用于激活字符输入模式的用户输入的示例。如图6中
所示，处理器6可激活字符输入模式以接收用于字符输入的用户话语。
95.处理器6可通过先前定义的用于开始字符输入模式的事件来激活字符输入模式。先前定义的用于开始字符输入模式的事件可包括用于开始字符输入模式的用户输入，例如，语音输入按钮的选择、开始触发的接收等。开始触发可包括“字符输入开始”等意味着字符输入模式的激活的预设语音命令。语音输入按钮可被设置在电子设备1的主体中，但不限于此。可选地，语音输入按钮可被设置在遥控器2、智能电话等中。此外，用于接收开始触发的麦克风17不仅可被设置在电子设备1的主体中，而且可被设置在遥控器2、智能电话等中。在这种情况下，处理器6可从遥控器2、智能电话等接收与开始触发相应的语音信号。然而，先前定义的用于开始字符输入模式的事件不限于前述描述，而是可被不同地设计。
96.此外，处理器6可基于先前定义的用于终止字符输入模式的事件来终止字符输入模式的激活，换句话说，停用字符输入模式。先前定义的用于终止字符输入模式的事件可包括对用于开始字符输入模式的语音输入按钮的选择解除、用于终止字符输入模式的终止触发的接收等。终止触发可包括“字符输入结束”等意味着字符输入模式的停用的预设语音命令。然而，先前定义的用于终止字符输入模式的事件不限于前述描述。可选地，处理器6可基于是否经过了预定时间段来终止字符输入模式的激活。例如，当在用于开始字符输入模式的用户输入(例如，语音输入按钮的选择、开始触发的接收等)之后经过了预定时间段时，或者当在字符输入模式的激活期间接收到第一用户话语之后经过了预定时间段时，处理器6可识别为先前定义的用于终止字符输入模式的事件。
97.因此，根据实施例的处理器6可基于各种定义的事件来激活或停用字符输入模式，从而提高基于语音识别的字符输入的便利性。
98.图7结合图5中的操作s52示出在字符输入模式的激活期间执行第一意图分析的示例。如图7中所示，处理器6可在字符输入模式是被激活的期间接收用户话语。
99.在字符输入模式是被激活的期间，处理器6可针对用户话语执行第一意图分析。换句话说，处理器6可在字符输入模式的激活期间识别在从用户话语获得的字符串之后的第一编辑命令，并且基于识别出的第一编辑命令编辑字符串。
100.当针对用户话语终止了字符输入模式的激活时，处理器6可执行第二意图分析。换句话说，当字符输入模式的激活被终止时，处理器6可识别不包括第一编辑命令的用户话语中是否包含第二编辑命令，并且基于识别出的第二编辑命令编辑字符串。
101.这样，根据实施例的处理器6在字符输入模式的激活被终止之后针对在字符输入模式的激活期间接收到的用户话语执行第二意图分析，因此实现更适合于满足用户4的话语意图的字符输入，从而提高基于语音识别的字符输入的可靠性。
102.图8结合图3中的操作s32和s33示出输入字符的控制方法的示例。下面，将参照图8和图9详细描述根据实施例的基于意图分析输入字符的方法。
103.处理器6可从用户话语识别文本(s81)。例如，如图9中所示，将假设显示字符输入屏幕(例如，密码输入屏幕92)，并且基于用户话语输入密码中的字符。在这种情况下，当从用户4接收到用户话语91“1245删除”时，处理器6可从用户话语91识别文本“1245删除”。
104.当识别出的文本包含先前定义的字符时，处理器6可获得包含先前定义的字符的第一字符串(s82)。例如，文本“1245删除”包含先前定义的字符“1245”，因此处理器6可获得包括先前定义的字符“1245”的第一字符串“1245”。
105.此外，当文本中包含第一字符串之后的第一编辑命令时，处理器6可基于第一编辑命令获得从第一字符串编辑得到的第二字符串(s83)。例如，处理器6可识别出文本“1245删除”包含在第一字符串“1245”之后的第一编辑命令“删除”，因此基于第一编辑命令“删除”获得从第一字符串“1245”编辑得到的第二字符串“124”。
106.此外，当文本不包括第二编辑命令时，处理器6可将第二字符串识别为输入字符(s84)。例如，第二编辑命令不被包含在文本“1245删除”中，因此处理器6将第二字符串“124”识别为输入字符，从而例如在密码输入屏幕92上显示密码“124”。
107.图10结合图3中的操作s32和s33示出输入字符的控制方法的示例。下面，将参照图10和图11详细描述根据实施例的基于意图分析输入字符的方法。
108.处理器6可从用户话语识别文本(s101)。例如，如图11中所示，将假设针对参照图9描述的第二字符串“124”接收到用户话语110“向左移动光标2步”。在这种情况下，处理器6可从用户话语110“向左移动光标2步”获得文本“向左移动光标2步”。
109.此外，当文本包含先前定义的字符但不包含在包括先前定义的字符的第一字符串之后的第一编辑命令时，处理器6可识别文本是否包含第二编辑命令(s102)。例如，当先前定义的字符“2”被包含在文本“向左移动光标2步”中时，处理器6可获得第三字符串“2”。然而，当在第三字符串“2”之后的第一编辑命令未被包含时，处理器6可识别文本“向左移动光标2步”中是否包含第二编辑命令。
110.此外，当识别出文本包含第二编辑命令时，处理器6可基于识别出的第二编辑命令针对第一字符串执行编辑(s103)。例如，当识别出文本“向左移动光标2步”包含第二编辑命令时，处理器6可基于第二编辑命令执行编辑，例如，将位于在密码输入屏幕92上作为密码输入的第二字符串“124”中的“4”后面的光标向左移动2步以位于“1”与“2”之间。
111.当文本不包含第二编辑命令时，处理器6可将先前获得的第三字符串“2”识别为输入字符。换句话说，当文本包含第二编辑命令时，即使它包含先前定义的字符，处理器6也可基于第二编辑命令优先执行编辑。
112.图12结合图3中的操作s32和s33示出输入字符的控制方法的示例。下面，将参照图12和图13详细描述根据实施例的基于意图分析输入字符的方法。
113.处理器6可从用户话语识别文本(s121)。例如，如图13中所示，可从用户话语130“向左移动光标”获得文本“向左移动光标”。
114.此外，当文本不包含先前定义的字符和第一编辑命令时，处理器6可识别文本是否包含第二编辑命令(s122)。例如，先前定义的字符和第一编辑命令都不被包含在文本“向左移动光标”中，因此处理器6可识别文本“向左移动光标”是否包含第二编辑命令。
115.此外，当识别出文本包含第二编辑命令时，处理器6可基于识别出的第二编辑命令针对先前获得的字符串执行编辑(s123)。例如，当识别出文本“向左移动光标”包含第二编辑命令时，处理器6可基于第二编辑命令执行编辑，例如，将位于在密码输入屏幕92上作为密码输入的第二字符串“124”中的“4”后面的光标向左移动1步以位于“2”与“4”之间。
116.图14结合图3中的操作s32和s33示出输入字符的控制方法的示例。下面，将参照图14和图15详细描述根据实施例的基于意图分析输入字符的方法。
117.处理器6可从用户话语识别文本(s141)。例如，如图15中所示，当在光标位于第二字符串“124”中的“2”与“4”之间的状态下接收到用户话语150“3”时，处理器6可从用户话语
150“3”识别文本“3”。
118.此外，当文本包含先前定义的字符时，处理器6可获得包含先前定义的字符的第一字符串(s142)。例如，处理器6可从文本“3”获得包含先前定义的字符“3”的第四字符串“3”。
119.此外，当文本不包含在第一字符串之后的第一编辑命令并且也不包含第二编辑命令时，处理器6可将第一字符串识别为输入字符(s143)。例如，处理器6可将第四字符串“3”识别为输入字符，这是因为文本“3”不包含在第四字符串“3”之后的第一编辑命令，并且文本“3”不包含第二编辑命令。处理器6可例如在密码输入屏幕上显示的第二字符串“124”的“2”与“4”之间显示“3”。
120.图16示出由图4的处理器使用的第一语音识别引擎和第二语音识别引擎的示例。如图16中所示，处理器6可基于语音识别引擎160执行语音识别。语音识别引擎160可包括用于第一意图分析的第一语音识别引擎161和用于第二意图分析的第二语音识别引擎162。
121.换句话说，当接收到用户话语以基于语音识别输入字符时，处理器6可基于第一语音识别引擎161针对用户话语执行第一意图分析。例如，处理器6可基于第一语音识别引擎161识别包含在用户话语中的第一编辑命令，例如“删除”、“删除全部”等。
122.此外，处理器6可基于第二语音识别引擎162识别用户话语包含第二编辑命令。这里，基于第二语音识别引擎162可识别为包括第二编辑命令的编辑命令的种类或数量可大于基于第一语音识别引擎161可识别为包括第一编辑命令的编辑命令的种类或数量。此外，第二编辑命令的编辑级别在质量上可高于基于第一语音识别引擎161的第一编辑命令的编辑级别。
123.此外，处理器6可基于第二语音识别引擎162识别用于控制电子设备1的一般功能的用户话语。例如，处理器6除了可基于第二语音识别引擎162识别用于tv的音量控制、频道切换等的用户话语之外，还可基于第二语音识别引擎162识别用于请求特定内容(例如，流行戏剧、棒球比赛的好场景等)的用户话语。
124.换句话说，当第二语音识别引擎162识别出用户话语包含第二编辑命令时，处理器6可基于识别出的第二编辑命令执行编辑，并且当用户话语被识别为一般功能控制命令时，处理器6还可基于识别出的控制命令控制电子设备1的功能。
125.因此，根据实施例的处理器6可使用单个语音识别引擎来执行对字符串的编辑或控制一般功能，从而有效地管理用于语音识别的资源。
126.本公开的各种实施例可通过包括存储在可由电子设备1等读取的存储介质中的一个或更多个命令的软件来实现。例如，电子设备1的处理器6可调用并运行来自存储介质的一个或更多个存储的命令中的至少一个命令。这使得电子设备1等设备能够基于调用的至少一个命令进行操作和执行至少一个功能。所述一个或更多个命令可包括由编译器产生的代码或可由解释器运行的代码。机器可读存储介质可以以非暂时性存储介质的形式被提供。这里，“非暂时性”仅意味着存储介质是有形装置并且不包括信号(例如，电磁波)，并且该术语不在被半永久地存储在存储介质中与被临时地存储在存储介质中的情况之间进行区分。例如，“非暂时性”存储介质可包括临时存储数据的缓冲器。
127.例如，根据本公开的各种实施例的方法可被提供为涉及计算机程序产品。根据本公开的计算机程序产品可包括将由如上所述的处理器执行的软件的指令。计算机程序产品可作为商品在销售者与购买者之间进行交易。计算机程序产品可以以机器可读存储介质
(例如，光盘只读存储器(cd
‑
rom))的形式被发布，或者可通过应用商店(例如，playstore tm)在两个用户设备(例如，智能电话)之间直接或在线发布(例如，下载或上传)。在在线发布的情况下，计算机程序产品(例如，可下载的app)的至少一部分可被暂时存储或被临时产生在机器可读存储介质(诸如制造商服务器、应用商店服务器或转发服务器的存储器)中。
128.根据本公开，提供一种电子设备及其控制方法，其中，可针对在使用语音识别功能的字符输入期间输入的错误字符发出更多种类和更广泛的编辑命令，从而提高基于语音识别的编辑功能的利用率。
129.尽管已经示出和描述了一些实施例，但本领域技术人员将理解，在不脱离在所附权利要求及其等同物中限定的本发明的原理和精神的情况下，可在这些实施例中进行改变。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

电子设备及其控制方法与流程

相关文章

最热文献