一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

由多模态用户输入驱动的内容捕获体验的制作方法

2022-06-16 13:21:33 来源:中国专利 TAG:


1.本公开的各方面涉及计算设备和软件应用领域,并且具体而言,涉及由多模式用户输入驱动的增强的内容捕获体验。


背景技术:

2.除了传统的基于触摸和键盘的输入模式之外,现代计算设备还支持多种用户输入模态,例如语音控制和空间姿势。虽然对过去的选择有很大的改进,但相同的通用框架仍然存在,在该框架中一次使用一种模态来控制事件。
3.作为示例,当今市场上的许多设备支持数字助理的语音调用。用户可以通过说出数字助理的名字,接着说出命令或请求,以对话的方式与数字助理交互。在另一个示例中,利用设备做出的空间姿势(例如,利用电话做出特定动作)可以用于解锁设备、控制视频游戏,等等。
4.新的输入模态的出现同样改善了内容捕获体验。用户可以使用许多应用和设备的语音到文本转录能力及其与数字墨水工具相结合的手写识别能力可靠地生成内容。
5.然而,单模态框架使用户降级到通过一种模态或另一种模态提供输入:用户要么正在对设备说话,要么使用触摸或空间姿势;在键盘上打字,或用触笔着墨。这样的框架限制了开发者继续提升用户体验的创造能力。
6.一些框架确实同时利用多种用户输入模式,但不控制事件。例如,消息传递应用包括这样一项功能,通过该功能,用户可以在说话的同时按下按钮,以便录制他们的语音,然后以文本消息的形式将其发送给接收者。此示例中的第一种模态是触摸,而第二种模态是语音,尽管控制事件的是触摸——录制的只是内容。


技术实现要素:

7.本文公开的技术涉及一种新的多模式用户输入框架,该框架在计算设备和应用的内容捕获能力方面增强用户体验。在一个实现方式中,组合的用户输入包括口语话语和与口语话语至少部分同时发生的空间姿势。组合的用户输入的发生触发相关联内容捕获体验的调用。这样的进步为用户提供了一个与他们的设备、应用和周围环境交互的新框架。
8.提供该概述以简化形式介绍一些概念,这些概念将在下面的技术公开中进一步描述。可以理解,本概述并非旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
9.参考以下附图可以更好地理解本公开的许多方面。附图中的组件不一定按比例绘制,而是将重点放在清楚地说明本公开的原理上。此外,附图中相同的附图标记在多个视图中表示对应的部分。尽管结合这些附图描述了若干实施例,但本公开不限于本文公开的实施例。相反,其目的是涵盖所有替代方案、修改和等同物。
10.图1图示了实现方式中的操作环境。
11.图2图示了实现方式中的调用过程。
12.图3图示了实现方式中的操作场景。
13.图4图示了实现方式中的操作场景。
14.图5图示了用于实现组合的输入的操作架构。
15.图6图示了适合于实现下文关于附图讨论的各种操作环境、架构、过程、场景和序列的计算系统。
具体实施方式
16.本文公开的技术涉及通过利用结合空间姿势和语音的用户输入来增强内容捕获体验的系统、方法和软件。组合的用户输入的概念(例如,用户利用手机做姿势、同时针对关于要用手机采取的行动的声明发声)允许用户例如在拍照、录制视频、或控制远程服务或设备时与他们的周围环境进行更流畅的交互。本文公开的技术可以使用计算硬件、软件或固件或其任意组合以及机器学习、人工神经网络和人工智能的其他方面来实现。
17.在各种实施方式中,计算设备的一个或多个组件识别组合的用户输入的发生,例如口语话语和至少部分地与口语话语同时发生的利用设备做出的空间姿势。一个或多个组件识别与组合的用户输入相关联的内容捕获体验并在设备上调用内容捕获体验。
18.可以基于由设备上检测空间姿势的一个或多个传感器产生的信息,以及由接收口语话语、语音信号、声音等的一个或多个音频输入设备产生的音频数据或信息,来检测或以其他方式识别组合的用户输入。设备的一个或多个组件可以从可能的组合的用户输入到可能的内容捕获体验的映射,确定哪个可能的内容捕获体验与组合的用户输入相对应。例如,每个可能的组合的用户输入可以包括一个或多个口语话语与一个或多个空间姿势组合的唯一组合,使得给定的组合的用户输入映射到特定的内容捕获体验。
19.在一些示例中,用于组合的用户输入的口语话语可以指示利用计算装置上的相机捕获图像的意图。空间姿势的示例包括计算设备的向上运动以将其集成相机指向场景。在这样的场景中,内容捕获体验可以包括控制相机的相机应用的用户接口。
20.在其他示例中,用于组合的用户输入的口语话语可以指示利用一个或多个音频输入设备创建音频记录的意图,而空间姿势包括计算装置的倾斜运动以将一个或多个音频输入设备定位在音频录制的源附近。由这样的组合的用户输入触发的内容捕获体验可以包括用于与音频记录交互的用户接口。
21.现在参考附图,图1中的操作环境100包括计算设备101,其采用调用过程200来提供捕获体验111和捕获体验121中的全部或部分。计算设备101包括麦克风103,通过该麦克风可以接收语音以及一个或多个能够检测设备的动态运动的传感器(未示出)。
22.用户可以利用计算设备101做出姿势,当与语音信号组合时,该姿势会导致可以由硬件、软件或固件或其任何组合解释的组合的用户输入,以驱动设备上的一个或多个捕获体验。计算设备101的示例包括但不限于移动电话、平板设备、膝上型计算机、游戏设备、手表和其他可穿戴设备,以及任何其他合适的计算设备、设备组合或其变体。计算设备101可以根据图6中的计算设备600的架构代表的任何合适的计算架构来实现。
23.计算设备101采用调用过程200来提供捕获体验111和捕获体验121中的一个或多
个。调用过程200可以在模块、组件或计算设备101的其他此类硬件、软件或固件元素中的任一者中的程序指令和/或电子电路的逻辑中实现。调用过程200引导底层物理(或虚拟)计算组件如下所述地操作,在括号中参考图2中的步骤。
24.在操作中,调用过程200识别组合的用户输入的发生(步骤201)。例如,调用过程200监视在至少片刻内彼此重叠或同时发生的要接收的两种或更多种不同类型的用户输入。可以基于用户偏好、经验结果或任何其他合适的度量,来配置用户输入必须重叠以被认为是组合的用户输入的时间量或持续时间。组合输入的示例包括与语音输入同时发生的设备的物理姿势。物理姿势的示例包括但不限于举起设备、旋转设备、使设备更接近用户的语音以及放下设备。
25.接下来,调用过程200识别与组合的输入用户相关联的内容捕获体验(步骤203)。不同的内容捕获体验可能与不同的输入组合相关联。例如,在说出一个话语的同时举起设备可能会导致相对于在说出不同话语的同时举起设备不同的内容捕获体验。同样,举起设备或说出一个话语可能会导致相对于在说出相同话语的同时旋转设备不同的内容捕获体验。用户输入的各种组合是可能的,各种内容捕获体验也是可能的。哪些组合输入导致哪些内容捕获体验因此可以是设计、用户偏好、学习的偏好等的问题。
26.在已经识别出适当的内容捕获体验时,调用过程200继续调用相关联的内容捕获体验(步骤205)。例如,这可能涉及启动特定应用、执行特定功能、调用特定组件或执行导致对应内容捕获体验的渲染或呈现的一些其他动作或动作组。例如,举起电话同时针对拍照的期望或意图进行发声可能会导致调用相机应用或功能。在另一个示例中,倾斜设备以使其麦克风更靠近用户语音或朝向用户语音的方向可能会导致将话语转录为评论、注释或讲话内容的其他此类记录。
27.回到图1,给出了关于操作环境100的两个简短示例。在第一示例中,用户利用计算设备101做出向上抬起的姿势104。同时,用户表达了由计算设备101通过麦克风103接收的有声话语105。采用调用过程200,计算设备101识别姿势和话语的组合输入,并识别其相关联的内容捕获体验。因此,通过计算设备101的用户接口渲染、呈现或以其他方式提供对应的内容捕获体验。
28.在第二示例中,用户利用计算设备101做出不同的姿势106。例如,用户可以旋转计算设备101,使得其麦克风103更靠近与运动同时发生的话语107的源。仍然采用调用过程200,计算设备101检测组合的用户输入并识别其对应的、捕获体验121所代表的内容捕获体验。因此,第二示例中所示的组合的用户输入不同于第一示例中的组合的用户输入。因此,内容捕获体验也不同,如它们不同的阴影所示。
29.图3图示了调用过程200的一个特定实现方式中的操作场景300。操作场景300涉及计算设备301和白板310,尽管任何场景都是可能的。计算设备301代表任何合适的计算设备,例如移动电话、平板电脑、膝上型电脑、游戏设备、嵌入式设备、可穿戴设备等。计算设备301包括至少一个麦克风和显示器304,在其上可以呈现内容捕获体验。最初显示的内容体验305可以代表锁定屏幕、特定应用的页面、主屏幕或任何其他内容体验。
30.持有计算设备301或以其他方式与计算设备301接合的用户利用计算设备301做出向上举起姿势311。同时,或至少在与姿势311的至少一部分重叠的时间段内,用户还产生通过麦克风303接收的语音信号313。计算设备301检测组合的用户输入的发生并且响应地启
动与组合的输入相对应的相机应用。因此,显示器304从显示内容体验305改变为显示内容体验307。内容体验307包括可通过相机镜头观看的场景的视图。在这个示例中,场景是白板310的,其中在白板上潦草地写着词语“hello world”。内容体验307还包括相机按钮309,当用户通过用户输入306触摸、按下或以其他方式调用该相机按钮时,导致捕获白板或镜头前的任何其他场景的图像。
31.从操作场景300和本公开一般可以理解一种或多种技术效果。例如,凭借向计算设备301提供用户输入的组合,用户能够自动触发从一种内容体验到另一种内容体验的转变,或者从空体验(例如,锁定屏幕)直接到内容体验的转变。在此特定场景中,内容体验包括从锁定屏幕自动转换到相机应用的用户接口屏幕。用户能够简单地通过向上举起设备的动作(如果用户要拍照的话)同时还说出与拍摄照片行为相关的单词、短语或其他此类话语,来调用相机应用。因此,语音信号313以自然编码的形式携带话语,其可以被解码并理解为指示捕获照片、视频或场景的其他此类表示的用户意图。
32.图4图示了另一个示例中的操作场景400。操作场景400包括计算设备401和白板410。计算设备401包括麦克风403和其上显示内容体验405的显示器。内容体验405最初与可通过计算设备401上的照片库应用查看的图像相关。内容体验405可以代表用户刚刚拍摄了照片(例如图3中描述的照片)遇到的内容体验。内容体验405包括用于与照片交互的各种控件,例如编辑控件、共享控件、删除控件等。
33.用户继续做出姿势411以改变计算设备401的倾斜或取向。旋转姿势继续进行,直到设备基本上水平地定位,其中麦克风更靠近说话者的嘴定位。大约在同一时间,用户针对在语音信号413中编码的话语进行发声。通过麦克风403捕获语音信号413。计算设备401检测到组合的用户输入(其是姿势411与语音信号413的组合)的发生并且通过将内容体验405转变为内容体验407来响应。除了包括提供在语音信号413中编码的话语的转录的转录气泡409之外,内容体验407与内容体验405基本相同。例如,用户可以说“我们的家庭作业是编写将此打印到屏幕上的程序。”34.图5图示了实现方式中的操作架构500。操作架构500包括语音转文本引擎501、运动引擎503和调用模块505。操作架构500的组件可以在硬件、软件和固件或其任何组合中实现。
35.语音转文本引擎501接收音频数据作为输入并将话语的转录提供给调用模块505。由语音转文本引擎501接收的音频数据可以包括由麦克风捕获的模拟语音信号的数字表示。语音转文本引擎501分析音频数据以将语音信号转换为形成话语的一组词。语音转文本引擎501可以直接从一个或多个组件开放音频子系统或从一些其他源接收音频数据。语音转文本引擎501在音频数据从其数字表示流式传输为由调用模块505理解的文本表示时将音频数据进行转换。
36.运动引擎503直接或通过操作系统组件或实用程序间接地从一个或多个传感器子系统接收传感器数据。传感器数据可以包括例如加速度信息、航位推算信息等。传感器数据的其他示例包括坐标信息、速度信息、分贝信息、角度信息或允许运动引擎503确定给定设备的运动的任何其他类型的传感器数据。
37.调用模块505接收来自语音转文本引擎501的话语和来自运动引擎503的运动信息,并确定输入是否一起形成或以其他方式表示合格的组合输入。也就是说,在任何给定时
间,可以接收组合输入,但并非所有组合输入都将有资格作为触发内容体验的组合输入。例如,用户可以在与同事说话的同时举起设备,而不管转变到新的内容体验的任何期望。
38.为了在合格的组合输入和非合格的组合输入之间进行区分,调用模块505分析话语以确定给定话语是否与合格话语相对应或指示合格话语。调用模块505可以基于多种因素做出这样的确定,多种因素例如话语中一个或多个关键字的存在、话语中的一个或多个关键短语、话语的周围上下文或任何其他因素。作为示例,用户可能会说出短语“我要给它拍张照片”。这样的话语包括关键字“照片”,其可以使话语有资格作为合格组合输入的一半。在另一个示例中,用户可以说出“让我给它拍个照”这样的短语,这同样可以是合格的话语。
39.调用模块505还分析由运动引擎503提供给它的运动描述以确定给定运动是否代表合格运动。作为示例,运动引擎503可以向调用模块505指示:用户已经举起电话。取决于调用模块505的配置,举起运动可能有资格作为组合输入的一半。在一个对比示例中,电话的侧向运动可能没有资格作为关于组合输入要考虑的输入。然而,在一些场景中,调用模块505可以被配置为使得侧向运动确实合格。调用模块505可以配置或以其他方式针对给定制造商的规范、用户偏好、应用开发者的偏好或出于任何其他合适的原因来定制。
40.调用模块505响应于合格组合输入的发生而输出一个或多个命令。合格输入的特定组合将与导致调用对应内容体验的一个或多个命令相对应。命令507代表可以响应于合格的组合输入而执行的一些动作。例如,一个组合输入可以触发设备切换到特定应用,例如相机应用。在另一个示例中,不同的组合输入可以触发设备从休眠模式唤醒。在又一示例中,设备可以由组合输入触发以持续将话语转录到文件、对象等。
41.给定设备也可以由组合输入触发,以调用由与主体设备分开和不同的一个或多个其他设备执行的远程功能。在简短的示例中,与口语话语中的特定短语同时发生的运动姿势的特定组合输入可以触发设备与家庭信息系统(例如,娱乐子系统、供暖和空调子系统,或任何其他家庭中实用程序)远程通信。例如,该设备可以能够指示娱乐系统播放音乐,或指示供暖和空调系统调节家中的温度。在另一个示例中,利用电话做出的特定姿势与特定关键短语的同时发声相组合可以使主体设备与远离该设备的安全系统、远离该设备的汽车系统或甚至远离设备的云服务进行通信。组合的用户输入也可以用于触发设备与应急响应机构进行远程通信。由合格的组合的用户输入触发的设备到设备通信也是可能的。
42.图6图示了计算设备601,其代表可以在其中实现本文公开的各种过程、程序、服务和场景的任何设备或设备集合。计算设备601的示例包括但不限于移动电话、平板电脑、膝上型电脑、台式机、手表和其他可穿戴设备,以及物联网(iot)设备。本文公开的各种过程、程序、服务和场景的一些或所有方面也可以在服务器计算机、云计算平台和数据中心设备以及任何其他类型的物理或虚拟服务器机器、容器及其任何变化或组合上实现。
43.计算设备601可以被实现为单个装置、系统或设备,或者可以以分布式方式被实现为多个装置、系统或设备。计算设备601包括但不限于处理系统608、存储系统603、软件605、通信接口系统607和用户接口系统609。处理系统608可操作地与存储系统603、通信接口系统607和用户接口系统609耦合。
44.处理系统608从存储系统603加载和执行软件605。软件605包括并实现调用过程606,其代表关于前面的图所讨论的调用过程。当由处理系统608执行以增强关于内容捕获
体验的用户体验时,软件605引导处理系统608至少针对前述实现方式中讨论的各种过程、操作场景和序列如本文所述地那样操作。计算设备601可以可选地包括为简洁起见未讨论的附加设备、特征或功能。
45.仍然参考图6,处理系统608可以包括微处理器和从存储系统603检索和执行软件605的其他电路。处理系统608可以在单个处理设备内实现,但也可以跨多个处理设备或协作执行程序指令的子系统分布。处理系统608的示例包括通用中央处理单元、图形处理单元、专用处理器和逻辑设备,以及任何其他类型的处理设备、它们的组合或变体。
46.存储系统603可以包括处理系统608可读并且能够存储软件605的任何计算机可读存储介质。存储系统603可以包括以用于存储信息(例如,计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储介质的示例包括随机存取存储器、只读存储器、磁盘、光盘、闪存、虚拟存储器和非虚拟存储器、磁带盒、磁带、磁盘存储装置或其他磁性存储设备,或任何其他合适的存储介质。在任何情况下,计算机可读存储介质都不是传播信号。
47.除了计算机可读存储介质之外,在一些实现方式中,存储系统603还可以包括计算机可读通信介质,至少一些软件605可以通过该计算机可读通信介质在内部或外部进行通信。存储系统603可以实现为单个存储设备,但也可以跨多个存储设备或相对于彼此共同定位或分布的子系统来实现。存储系统603可以包括能够与处理系统608或可能的其他系统通信的附加元件,例如控制器。
48.软件605(包括调用过程606)可以在程序指令中实现,并且当由处理系统608执行时,可以(除了其他功能之外)引导处理系统608如关于本文说明的各种操作场景、序列和过程所描述的那样进行操作。例如,软件605可以包括用于实现如本文所述的调用过程的程序指令。
49.特别地,程序指令可以包括协作或以其他方式交互以执行本文描述的各种过程和操作场景的各种组件或模块。各种组件或模块可以体现在编译的或解释的指令中,或者体现在一些其他变体或指令组合中。各种组件或模块可以以同步或异步方式、串行或并行、在单线程环境或多线程中、或根据任何其他合适的执行范例、变体或它们的组合来执行。软件605可以包括附加的过程、程序或组件,例如操作系统软件、虚拟化软件或其他应用软件。软件605还可以包括固件或可由处理系统608执行的某种其他形式的机器可读处理指令。
50.通常,软件605可以在加载到处理系统608中并被执行时,将合适的装置、系统或设备(计算设备601所代表的)从通用计算系统整体转换成为提供增强的内容捕获能力而定制的专用计算系统。实际上,将软件605编码在存储系统603上可以变换存储系统603的物理结构。物理结构的具体变换可以取决于本描述的不同实现方式中的各种因素。这样的因素的示例可以包括但不限于:用于实现存储系统603的存储介质的技术,以及计算机存储介质是否被表征为主要或辅助存储装置,以及其他因素。
51.例如,如果计算机可读存储介质被实现为基于半导体的存储器,则软件605可以在程序指令被编码在其中时变换半导体存储器的物理状态,例如通过变换晶体管、电容器、或构成半导体存储器的其他分立电路元件的状态。对于磁性或光学介质,可能会发生类似的变换。在不脱离本描述的范围的情况下,物理介质的其他变换是可能的,其中提供前述示例只是为了促进本讨论。
52.通信接口系统607可以包括允许通过通信网络(未示出)与其他计算系统(未示出)进行通信的通信连接和设备。一起允许系统间通信的连接和设备的示例可以包括网络接口卡、天线、功率放大器、rf电路、收发器和其他通信电路。连接和设备可以通过通信介质进行通信,以与其他计算系统或系统网络(例如,金属、玻璃、空气或任何其他合适的通信介质)交换通信。上述介质、连接和设备是众所周知的,并且无需在此详细讨论。
53.计算设备601和其他计算系统(未示出)之间的通信可以通过一个或多个通信网络并且根据各种通信协议、协议的组合或其变体发生。示例包括内联网、互联网、互联网、局域网、广域网、无线网络、有线网络、虚拟网络、软件定义网络、数据中心总线和背板,或任何其他类型的网络、网络组合或其变体。上述通信网络和协议是众所周知的,并且这里不需要详细讨论。
54.用户接口系统609可以包括键盘、鼠标、语音输入设备、用于从用户接收触摸姿势的触摸输入设备、用于检测非触摸姿势和用户的其他动作的动作输入设备,以及能够从用户接收用户输入的其他类似的输入设备和相关联的处理元件。诸如显示器、扬声器、触觉设备和其他类型的输出设备之类的输出设备也可以被包括在用户接口系统609中。在一些情况下,输入和输出设备可以组合在单个设备中,例如能够显示图像和接收触摸姿势的显示器。前述的用户输入和输出设备在本领域中是众所周知的,并且这里不需要详细讨论。
55.用户接口系统609还可以包括相关联的用户接口软件,该软件可由处理系统602执行以支持上面讨论的各种用户输入和输出设备。用户接口软件和用户接口设备可以(单独地或彼此结合或与其他硬件和软件元素结合)支持图形用户接口、自然用户接口、会话用户接口或任何其他类型的用户接口。
56.如本领域技术人员将理解的,本发明的各方面可以体现为系统、方法或计算机程序产品。因此,本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或结合软件和硬件方面的实施例的形式,它们在此都可以被统称为“电路”、“模块”或“系统”。此外,本发明的方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质具有体现在其上的计算机可读程序代码。
57.所包含的描述和附图描绘了特定实施例以教导本领域技术人员如何制作和使用最佳模式。为了教导发明原理,一些常规方面已被简化或省略。本领域技术人员将意识到落入本公开范围内的这些实施例的变化。本领域技术人员还将意识到,上述特征可以以各种方式组合以形成多个实施例。结果,本发明不限于上述特定实施例,而仅受权利要求及其等同物的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献