首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

信息处理装置、信息处理方法和程序与流程

2021-06-22 17:20:00 来源：中国专利 TAG：装置公开信息程序方法信息

本公开涉及信息处理装置、信息处理方法和程序。

背景技术：

提出了用于根据用户的操作状态来捕获用户的视野范围的图像的技术。此外，提出了用于获取由用户指向的指向方向上的图像并且通过图像识别检测由用户指向的对象的技术。

引用列表

专利文献

专利文献1：wo2017/221720

专利文献2：日本专利申请特许公开第2015-89060号

技术实现要素：

本发明要解决的问题

关于这一点，存在对用户说出的内容执行语音识别并预测用户想要执行字符输入的内容的技术，并且需要提高语音识别结果或字符输入预测的准确性。例如，对于语音识别，在用户进行发声时，由于环境噪声，用户发出的内容可能听不到。在这种情况下，由于不能根据从发声内容转换的声音波形辨识音素，所以通过将可听部分的音素与字典进行匹配来执行到字符串的转换。结果，可能无法获取用户想要的内容。此外，即使能够根据从发声内容转换的声音波形辨识音素，如果与用户的发声内容相对应的字符串尚未登记在字典中，则也无法获取用户想要的内容。即，上述传统技术没有提高语音识别结果的准确性。

因此，本公开提出了一种能够提高语音识别结果或字符输入预测的准确性的信息处理装置、信息处理方法和程序。

问题的解决方案

根据本公开的信息处理装置包括：识别单元，被配置成将用户的输入信息识别为字符串；以及补充单元，被配置成基于与当识别字符串时的用户的视野相对应的真实空间的图像分析结果，来补充所识别的字符串。

本发明的效果

本公开可以提高语音识别结果或字符输入预测的准确性。注意，这里描述的有利效果不一定是限制性的，并且可以应用本公开中描述的任何效果。

附图说明

图1是示意性地示出根据第一实施例的信息处理装置的功能配置的一个示例的框图。

图2是示出转换候选信息的一个示例的图。

图3是示出语音识别字典的一个示例的图。

图4是示意性地示出语音识别单元的功能配置的一个示例的框图。

图5是示出根据第一实施例的信息处理装置的一个示例的图。

图6是示出根据第一实施例的信息处理方法的过程的一个示例的流程图。

图7是示意性示出根据第一实施例的信息处理方法的一个示例的图。

图8是示出根据第一实施例的修改(2)的信息处理装置的功能配置的一个示例的框图。

图9是示意性地示出根据第二实施例的信息处理装置的功能配置的一个示例的框图。

图10是示出转换候选信息的一个示例的图。

图11是示出预测输入字典的一个示例的图。

图12是示意性地示出输入处理单元的功能配置的一个示例的框图。

图13是示出根据第二实施例的信息处理方法的过程的一个示例的流程图。

图14a是示意性地示出根据第二实施例的信息处理方法的一个示例的图(之一)。

图14b是示意性地示出根据第二实施例的信息处理方法的一个示例的图(之二)。

图14c是示意性地示出根据第二实施例的信息处理方法的一个示例的图(之三)。

图15是示出信息处理装置的硬件配置的一个示例的框图。

具体实施方式

下面将参照附图详细描述本公开的实施例。注意，在下列实施例的每个实施例中，相同的部分用相同的附图标记表示，因此将省略重复的描述。

(第一实施例)

[根据第一实施例的信息处理装置的配置]

图1是示意性地示出根据第一实施例的信息处理装置的功能配置的一个示例的框图。信息处理装置10包括：语音输入单元11、视线检测单元12、图像捕获单元13、图像分析单元14、转换候选存储单元15、语音识别字典存储单元16、语音识别单元17以及输出单元18。

语音输入单元11检测语音，该语音是来自信息处理装置10的用户的输入信息。所检测的语音被传递到语音识别单元17。语音输入单元11例如是麦克风。

视线检测单元12检测信息处理装置10的用户的视线位置。作为视线检测单元12，例如，可以使用下述装置：其通过使用红外线(ir)光发射来获取眼球的浦肯野图像(purkinjeimage)，并且直接获取视线方向。视线检测单元12检测当语音输入单元11输入用户发出的信息时的用户的视线位置。

图像捕获单元13捕获包括近距离观察区域的视野范围，该近距离观察区域是由视线检测单元12检测的用户在真实空间上的视线位置。该视野范围包括以用户的视线位置为中心的近距离观察区域的预定范围。例如，视野范围被定义为由图像捕获单元13捕获的范围，该图像捕获单元布置在与用户的眼部基本相同的高度处并且朝向与用户的面部的朝向相同的方向。该近距离观察区域存在于视野范围内。图像捕获单元13例如是摄像装置。

图像分析单元14分析由图像捕获单元13捕获的图像数据，并且提取文本数据。图像分析单元14对与由视线检测单元12检测的真实空间的近距离观察区域相对应的图像数据中的区域执行图像分析。此外，图像分析单元14根据所提取的文本数据获取音素串，并且将所提取的文本数据和音素串的对作为转换候选信息存储在转换候选存储单元15中。

图像数据包括标志牌等。标志牌通常包括字符信息，但是也包括除了字符信息之外的元信息，例如图片或标志牌颜色。对于字符信息，图像分析单元14通过光学字符识别(opticalcharacterrecognition，ocr)技术将字符信息转换为作为文本数据的字符串。此外，对于元信息，图像分析单元14搜索元信息并且获取作为搜索结果获得的文本信息作为字符串。例如，对于标志牌，如果包括在标志牌中的图片是马的图片，则元信息为“马”，并且如果标志牌颜色是红色和白色，则元信息为“红色”和“白色”。在执行对元信息的搜索的情况下，通过经由通信单元(未示出)连接至因特网来执行搜索。此外，云中的图像分析处理可以用于获取元信息。

此外，图像分析单元14可以使用图像数据中的一定范围的图像来执行图像搜索，并且获取作为搜索结果获得的文本信息作为字符串。例如，在图像数据包括图片的情况下，对该图片执行图像搜索，并且获取作为搜索结果获得的文本信息作为字符串。替选地，在图像数据中的视野范围内存在着色信息的情况下，对具有该着色信息的图像范围执行图像搜索，并且获取作为搜索结果获得的文本信息作为文本数据。

转换候选存储单元15暂时存储由图像分析单元14获取的转换候选信息。图2是示出转换候选信息的一个示例的图。转换候选信息是将字符串和音素串如上所述彼此相关联的信息。例如，当用户对语音输入单元11的语音输入完成时，删除转换候选存储单元15中的转换候选信息。在语音识别单元17进行语音识别期间使用转换候选信息。

语音识别字典存储单元16存储语音识别字典。图3是示出语音识别字典的一个示例的图。如图3所示，语音识别字典是将作为一般单词的字符串与其音素串相关联的信息。在语音识别单元17进行语音识别期间使用语音识别字典。语音识别字典存储单元16对应于字典信息存储单元。

语音识别单元17对从语音输入单元11输入的用户语音执行语音识别处理，并且输出通过对语音进行补充而获得的文本数据。语音识别单元17对应于识别单元和补充单元。图4是示意性地示出语音识别单元的功能配置的一个示例的框图。语音识别单元17包括：声音波形转换单元171、音素串生成单元172、匹配单元173、补充单元174以及文本输出单元175。

声音波形转换单元171将从语音输入单元11输入的用户语音转换成语音波形。音素串生成单元172辨识包括在转换的语音波形中的音素，并且生成作为音素序列的音素串。由音素串生成单元172生成的音素串对应于第一形式的字符串。注意，为了与语音识别字典进而转换候选信息中所登记的音素串进行区别，在下文中根据语音生成的音素串也称为输入音素串。优选地，所有音素都被音素串生成单元172辨识，但是有些音素可能无法辨识。在这种情况下，例如，将指示音素不能被辨识的符号放置在音素不能被辨识的部分。声音波形转换单元171和音素串生成单元172对应于识别单元。

匹配单元173将输入音素串与转换候选信息或语音识别字典中的音素串进行匹配，并且提取与具有等于或高于阈值的相似度的音素串中的、具有最高相似度的音素串相对应的字符串。这里，匹配单元173在执行匹配时优选地应用转换候选信息。然后，在转换候选信息中不存在匹配的情况下，应用语音识别字典执行匹配。通常，转换候选信息具有比语音识别字典更少数量的登记字符串(候选)。因此，通过在匹配处理期间优先于语音识别字典而应用转换候选信息，在转换候选信息中存在候选的情况下，能够在短时间内获得候选。此外，随着要匹配的字符串的数量减少，识别准确性提高。注意，相似度可以是例如与转换候选信息或语音识别字典中的音素串的音素一致的音素对于包括在输入音素串中的音素的比例。

匹配处理包括对所有音素都被辨识的输入音素串执行匹配处理的情况，以及对一些音素未被辨识的输入音素串执行匹配处理的情况。在对所有音素都被辨识的输入音素串执行匹配处理的情况下，匹配单元173首先通过使用转换候选信息中的音素串来对输入音素串的序列执行匹配处理。在匹配处理的结果是匹配失败的情况下，即，在仅存在具有小于阈值的相似度的音素串的情况下，匹配单元173通过使用语音识别字典中的音素串来对输入音素串的序列执行匹配处理。

在对一些音素未被辨识的输入音素串执行匹配处理的情况下，匹配单元173首先通过使用转换候选信息中的音素串来对输入音素串的序列的辨识部分执行匹配处理。在匹配处理的结果是匹配失败的情况下，即，在仅存在具有小于阈值的相似度的音素串的情况下，匹配单元173通过使用语音识别字典中的音素串来对输入音素串的序列的辨识部分执行匹配处理。

基于匹配单元173的匹配处理结果，补充单元174通过使用与转换候选信息或语音识别字典中具有最高相似度的音素串相对应的字符串，对输入音素串进行补充。由补充单元174补充的字符串对应于第二形式的字符串。在本说明书中，除了通过使用与转换候选信息或语音识别字典中的音素串相对应的字符串对输入音素串进行补充以外，补充还包括：用与转换候选信息或语音识别字典中具有最高相似度的音素串相对应的字符串来替换输入音素串的情况，或者通过使用与转换候选信息或语音识别字典中具有最高相似度的音素串相对应的字符串来校正输入音素串的情况。例如，在输入音素串不包括未辨识音素的情况下，可以通过使用转换候选信息或语音识别字典来替换输入音素串以获得用户想要的字符串。此外，甚至在输入音素串的一部分包括未辨识音素的情况下，也可以补充音素串中的未辨识音素以获得用户想要的字符串。此外，甚至在输入音素串的一部分被辨识为与用户发出的内容不同的音素的情况下，也可以校正音素串中的错误音素以获得用户想要的字符串。图像分析单元14、匹配单元173和补充单元174对应于补充单元。

文本输出单元175将由补充单元174补充的字符串输出到输出单元18。

输出单元18输出作为来自语音识别单元17的语音识别结果的字符串。

例如，输出单元18是显示装置，并且将作为语音识别结果的字符串作为文本数据显示在显示装置上显示的搜索屏幕的输入字段中。替选地，输出单元18是语音输出装置，并且将作为文本数据的作为语音识别结果的字符串通过语音反馈输出。

图5是示出根据第一实施例的信息处理装置的一个示例的图。图5示出了信息处理装置10包括智能电话300和可穿戴装置400的情况。在该示例中，可穿戴装置400是眼镜型头戴式显示器。此外，可穿戴装置400可以是帽子型头戴式显示器。头戴式显示器可以是视频透过型或光学透过型。智能电话300包括：语音输入单元11、图像分析单元14、转换候选存储单元15、语音识别单元17以及输出单元18。可穿戴装置400包括视线检测单元12和图像捕获单元13。可穿戴装置400与智能电话300例如通过诸如蓝牙(注册商标)的无线通信可通信地彼此连接。此外，包括语音输入单元11的可穿戴装置可以单独地设置成通过无线通信彼此可通信地连接到智能电话300。

图像捕获单元13优选地设置在可穿戴装置400上的下述位置处：该位置使得当用户穿戴可穿戴装置400时能够捕获用户的前方的图像。图像捕获单元13优选地设置在与用户的眼部位置基本上相同的位置处。例如，对于眼镜型头戴式显示器，优选地在框架451上设置图像捕获单元13。这使得可以捕获几乎类似于用户的视野范围的范围。视线检测单元12优选地设置在下述位置处：在该位置处，例如当用户穿戴可穿戴装置400时能够检测到用户的眼部位置。例如，对于眼镜型头戴式显示器，视线检测单元12优选地设置在边缘452的下侧附近。

[根据第一实施例的信息处理过程]

图6是示出根据第一实施例的信息处理方法的过程的一个示例的流程图。首先，语音输入单元11接收来自用户的语音输入(步骤s11)。然后，视线检测单元12检测当时的用户的视线，并且根据所检测的视线获取用户正在注视的近距离观察区域(步骤s12)。图像捕获单元13捕获包括所获取的近距离观察区域的视野范围的图像(步骤s13)。这里，“当时”可以是例如语音输入单元11接收语音输入时的时段。

图像分析单元14对与对应于用户的视野的真实空间的视野范围相对应的捕获图像数据执行图像分析，并且提取字符串(步骤s14)。图像分析单元14提取例如捕获数据中的字符部分，并且通过ocr技术将所提取的数据转换为字符串。替选地，图像分析单元14提取例如关于捕获数据中的图片的元信息，并且获取通过在所提取的元信息中执行搜索而获得的字符串。替选地，图像分析单元14提取例如捕获数据中的一定区域的图像，并且获取通过在所提取的图像中执行图像搜索而获得的字符串。然后，图像分析单元14获取所提取的字符串的音素串(步骤s15)。然后，图像分析单元14将字符串和音素串的对作为转换候选信息存储在转换候选存储单元15中(步骤s16)。

此后，语音识别单元17对来自语音输入单元11的用户语音输入执行语音识别处理。具体地，语音识别单元17将输入语音转换成声音波形(步骤s17)，从声音波形中辨识音素，并且生成作为第一形式的字符串的输入音素串(步骤s18)。此时，用指示辨识失败的符号来表示音素辨识失败的部分。这产生了作为包括音素的音素序列的输入音素串，并且在一些情况下产生了指示无法辨识音素的符号。

这里，语音识别单元17确定是否可以从声音波形中辨识音素(步骤s19)。在无法辨识音素的情况下(步骤s19中为否)，即，在输入音素串包括指示无法辨识音素的符号的情况下，语音识别单元17通过使用转换候选存储单元15的转换候选信息，对输入音素串中的辨识部分的音素序列执行匹配处理(步骤s20)。具体地，语音识别单元17将输入音素串的辨识部分的音素序列与转换候选信息的音素串进行匹配，并且计算相似度。

另一方面，在可以辨识音素的情况下(步骤s19中为是)，即，在输入音素串仅包括音素的情况下，通过使用转换候选存储单元15的转换候选信息，对输入音素串的音素序列执行匹配(步骤s21)。具体地，语音识别单元17将输入音素串的所有音素的序列与转换候选信息的音素串进行匹配，并且计算相似度。

在步骤s20或s21之后，语音识别单元17确定是否已经实现了匹配(步骤s22)。这里，在存在具有等于或高于预定阈值的相似度的音素串的情况下，选择具有最高相似度的音素串作为匹配候选。在已经实现匹配的情况下(步骤s22中为是)，语音识别单元17用与转换候选信息中的匹配音素串相对应的字符串补充输入音素串(步骤s23)。例如，具有未辨识音素的输入音素串变为相应部分被补充的字符串。替选地，用字符串补充不具有未辨识音素的输入音素串。然后，语音识别单元17将补充字符串输出到输出单元18(步骤s24)。例如，在输出单元18是显示装置的情况下，将字符串作为文本数据显示在显示屏幕上的文本框中。替选地，在输出单元18是扬声器的情况下，将字符串作为语音进行输出。如上所述完成处理。

在步骤s22中尚未实现匹配的情况下(步骤s22中为否)，语音识别单元17通过使用语音识别字典对输入音素串的音素序列进行匹配(步骤s25)。然后，语音识别单元17用与作为匹配结果的、语音识别字典中具有最高相似度的音素串相对应的字符串补充输入音素串的音素序列(步骤s26)。然后，语音识别单元17将补充字符串输出到输出单元18(步骤s27)。如上所述完成处理。

接下来，将描述根据第一实施例的信息处理方法的具体示例。图7是示意性示出根据第一实施例的信息处理方法的一个示例的图。这里，采用了用户注视城市中诊所的标志牌并且搜索到诊所的路线的示例。用户将视线指向例如紫色标志牌501“akasatana诊所”。在该标志牌上，描述了临床科(糖尿病、内科)、位置(b市、a县)以及电话号码(ooo-ooo-oooo)。假设用户在将视线指向该标志牌的同时从语音输入单元11进行语音输入，说“告诉我去akasatana诊所的路”(s41)。

当语音输入单元11接收到语音输入时，视线检测单元12检测在语音输入单元11接收语音输入时的用户的视线位置，并且辨识作为视线位置的近距离观察区域r1。这里，假设视线检测单元12辨识图7的近距离观察区域r1。此后，图像捕获单元13捕获包括近距离观察区域r1的视野区域r10的图像。

图像分析单元14从捕获图像数据中提取由视线检测单元12检测的近距离观察区域r1。此后，图像分析单元14通过ocr技术将近距离观察区域r1中的字符串转换为文本数据。这使得诊所名称“akasatana诊所”、临床科“糖尿病”、“内科”、位置“b市、a县”以及电话号码“ooo-ooo-oooo”中的每个均被转换为文本数据。此外，生成文本数据的音素串。然后，图像分析单元14将作为文本数据和音素串的对的转换候选信息存储在转换候选存储单元15中(s42)。

此外，图像分析单元14通过执行搜索来获取关于所提取的视野区域中的标志牌的着色信息的文本数据。在这种情况下，由于着色信息为“紫色”，所以使用因特网执行对“紫色标志牌”的搜索，并且获取作为搜索结果而获得的文本数据。此时，在执行对“紫色标志牌”的搜索的情况下，可使用诸如作为文本数据获取的位置的信息。此外，图像分析单元14可以使用标志牌的图像数据来执行图像搜索。此外，图像分析单元14也可以通过将作为文本数据获取的“糖尿病”、“内科”、“b市、a县”、以及“ooo-ooo-oooo”组合为关键词来执行检索，并且获取作为搜索结果而获得的文本数据。所获取的文本数据存储在转换候选存储单元15中。通过图像分析单元14的上述处理，诸如“akasatana”、“糖尿病”、“内科”以及“b市、a县”的文本数据与音素串一起存储在转换候选存储单元15中。

此后，语音识别单元17将来自语音输入单元11的语音转换成语音波形，从该语音波形中辨识音素，并且生成输入音素串。语音识别单元17将输入音素串与转换候选信息中的音素串进行匹配，并且计算相似度。语音识别单元17获取具有等于或高于阈值的相似度并且具有最高相似度的识别候选，并且使用该识别候选来补充经历语音识别的字符串。另一方面，在转换候选信息中不存在具有等于或高于阈值的相似度的识别候选的情况下，执行使用语音识别字典的语音识别。

这里，例如，考虑这样的情况：当用户发出“告诉我去akasatana诊所的路”时，由于城市中的噪音等，一些声音无法识别，如“告诉我去a？？tana诊所的路”。在这种情况下，对于“akasatana”，由语音识别单元17生成的输入音素串变为“a-？-？-？-？-t-a-n-a”。由于无法辨识该输入音素串中的缺陷部分“？”的音素，因此执行图6的步骤s20的匹配处理。即，将输入音素串中的音素串的辨识部分与转换候选信息中的音素串进行比较，并且获取具有等于或高于阈值的相似度并且具有最高相似度的音素串。在该示例中，假设可以像与转换候选信息中的“akasatana”相对应的“a-k-a-s-a-t-a-n-a”那样进行匹配。注意，这里，“缺陷部分”意指该位置处应当存在音素，但是无法辨识该音素。

利用该操作，输入音素串“a-？-？-？-？-t-a-n-a”(第一形式的字符串)被补充为对应于“a-k-a-s-a-t-a-n-a”的、第二形式的字符串“akasatana”。即“？”部分被补充。即，在用户发出“告诉我去akasatana诊所的路”、但是由于城市中的噪音等而导致一些语音的语音识别失败如“告诉我去a？？tana诊所的路”的情况下，可以补充未识别的部分以获得准确的字符串。结果，可以提高语音识别的准确性。

同时，在不使用第一实施例的信息处理装置10的情况下，不存在图6的步骤s12至步骤s16和步骤s19至步骤s24的处理。即，在生成输入音素串之后，将输入音素串与语音识别字典的音素串匹配。因此，如上所述，在无法辨识一些音素的情况下，即使与语音识别字典中的单词进行匹配，也无法对未识别的音素部分进行补充。结果，无法如在第一实施例中那样获取用户期望的字符串。

接下来，例如，考虑可以辨识用户的话语“告诉我去akasatana诊所的路”的所有音素的情况。在这种情况下，作为图6的步骤s21中的处理，关于“akasatana”的输入音素串的序列，相应的音素串存在于转换候选信息中并且被匹配。结果，用与转换候选信息中的匹配音素串相对应的字符串来补充输入音素串的序列。这样，通过使用从诸如用户的近距离观察区域r1中的标志牌的信息中提取的字符串作为转换候选信息，可以提高在用户的语音中包括了存在于一定区域中的专有名词的情况下的语音识别的准确性。

同时，在不使用第一实施例的信息处理装置10的情况下，如上所述，不存在图6的步骤s12至步骤s16和步骤s19至步骤s24的处理。因此，在专有名词没有登记在语音识别字典中的情况下，即使可以执行语音识别，原来用片假名符号的部分“akasata诊所”也将用平假名符号，并且不可能准确地再现用户所期望的单词。

此外，考虑这样的情况：例如，用户发出“告诉我去akasatana诊所的路”，并且由于城市中的噪音等而一些声音经历错误的语音识别，如“告诉我去asahatana诊所的路”。在这种情况下，如果“asahatana”的输入音素串与转换候选信息中的“akasatana”的音素串之间相似度较高，则可以将输入音素串中经历错误语音识别的信息校正为用户发出的正确内容的字符串。

此外，例如，当用户开始发出“akasa”时，如果“akasa”的音素串与转换候选信息中的“akasatana”的音素串之间相似度较高，则可以补充“akasa”之后未发出的部分，并且将带有被预测为用户将要说出的内容的字符串输出为“akasatana”。

将以这种方式执行的语音识别的结果显示在例如智能电话300的显示装置313上(s43)。

注意，上述描述示出了在信息处理装置10中设置图像捕获单元13的情况，但是图像捕获装置不一定必须设置在信息处理装置10中。例如，可以使用通过由外而内的方法设置在周围环境中的传感器(摄像装置)作为图像捕获单元13。

此外，在上述描述中，在用户的语音输入的时段期间，将通过图像分析处理获取的包括字符串和音素串的转换候选信息暂时存储在转换候选存储单元15中，并且在语音输入完成之后，删除转换候选信息。然而，在删除转换候选信息之前，可以将转换候选信息登记在语音识别字典存储单元16中的语音识别字典中。此外，可以将一些转换候选信息登记在语音识别字典中，而不是将存储在转换候选存储单元15中的所有转换候选信息都登记在语音识别字典中。作为一些转换候选信息，例如，可以示出具有作为专有名词的字符串的信息。由于没有将专有名词登记为字典数据的可能性很高，因此语音识别很困难。然而，通过将转换候选信息登记在语音识别字典中，甚至在用户发出了诸如专有名词的字符串的情况下，也能够提高后续的匹配处理中的语音识别率。

如上所述，在第一实施例中，当对用户发出的语音执行语音识别时，使用根据包括在用户的近距离观察区域中的信息而获取的字符串作为转换候选信息来执行语音识别。此时，通过使用转换候选信息，对在语音识别期间生成的用户语音的输入音素串执行匹配处理。因此，例如，在用户通过注视周围对象来执行搜索的情况下，可以提高关于包括在语音中的周围对象的字符串的语音识别准确性。

此外，通过使用转换候选信息的音素串，对输入音素串中音素可以辨识的所有音素执行匹配处理。通过该操作，甚至在输入音素串包括在语音识别期间没有辨识的音素的情况下，也可以输出补充了未辨识部分的字符串。

[第一实施例的修改(1)]

第一实施例已经示出了下述情况：通过使用捕获图像数据中的由视线检测单元12检测的用户近距离观察区域中包括的信息，提取字符串。然而，可以为转换信息中的每个字符串设置优先级。例如，在作为语音识别单元17的匹配处理的结果而存在具有相同相似度的字符串的情况下，可以将优先级用作用于确定要选择哪个的标准。

在这种情况下，优先级可以是用户的近距离观察时间的长度。即，从已被视线击中了较长时间的近距离观察区域的信息中获得的文本数据具有更高优先级。在这种情况下，在视线检测单元12中不仅记录了近距离观察区域，而且还记录了近距离观察区域被视线击中的时间。

例如，在图7中，假设近距离观察区域r1被视线击中的时间为t1秒，并且近距离观察区域r2被视线击中的时间为t2秒(t1＞t2)。此外，作为匹配处理的结果，假设从近距离观察区域r1中的标志牌501中获得的字符串“akasatana”和从近距离观察区域r2中的标志牌b中获得的字符串“akamaruta”具有相同的相似度。在这种情况下，由于近距离观察区域r1已被视线击中了较长时间，因此语音识别单元17选择“akasatana”。

这样，通过对变更信息中的每个字符串给与优先级，在变更信息中存在许多字符串的情况下，可以提高选择用户所期望的字符串的概率。特别地，通过基于用户的视线击中的时间来设置优先级，可以提高语音识别的准确性。

[第一实施例的修改(2)]

在第一实施例中，以视线检测单元12检测用户的视线的情况为例。然而，信息处理装置10不必包括视线检测单元12。

图8是示出根据第一实施例的修改(2)的信息处理装置的功能配置的一个示例的框图。在第一实施例的修改(2)中，省略了视线检测单元12。通常，人类视野的方向基本上与面部的朝向一致。因此，在用户穿戴头戴式显示器的情况下，头戴式显示器的朝向(面部的朝向)可以被视为视线(近距离观察点)的方向。

因此，图像捕获单元13可以使用以语音输入时的头戴式显示器的朝向为中心的区域作为近距离观察区域，并且捕获包括该近距离观察区域的视野范围。

在未设置视线检测单元12的情况下，用户的近距离观察区域是未知的。因此，通过假设用户的近距离观察区域在图像数据的中心附近，图像分析单元14可以从捕获图像数据的中心附近的区域提取字符串。替选地，图像分析单元14可以从捕获图像数据的整个区域提取字符串。例如，在图7的示例的情况下，不仅从“akasatana糖尿病内科诊所”的标志牌501中提取字符串，而且从其他标志牌502至标志牌508中提取字符串。

以此方式，头戴式显示器的朝向被设置为视线方向。用户的语音输入期间的头戴式显示器的朝向为中心的区域被捕获，并且使用捕获图像数据执行图像分析处理以提取字符串。该字符串用于补充经历了由语音识别单元17进行的语音识别的输入音素串。利用该配置，即使不设置用于检测用户的视线的视线检测单元12，也可以辨识用户的视线的大致方向。此外，即使用户的视线方向不同，用户的视线方向也很将可能存在于捕获图像数据中。因此，通过从图像数据的整个区域中提取字符串，可以提高语音识别的准确性。

[第一实施例的修改(3)]

第一实施例示出了语音识别字典存储单元16设置在信息处理装置10中的情况，但也可以存在于云上的服务器中。同样在这种情况下，存储在转换候选存储单元15中的转换候选信息也可以存储在云上的服务器中。此外，在转换候选信息被发送到云上的服务器的情况下，可以添加和发送使用状态信息，其用于指示用户的诸如当前位置和时区的使用状态。例如，可以获取具有接近用户的当前位置和时区的使用状态信息的转换候选信息，并将其作为元信息用于搜索。

(第二实施例)

[根据第二实施例的信息处理装置的配置]

图9是示意性地示出根据第二实施例的信息处理装置的功能配置的一个示例的框图。信息处理装置10a包括：输入检测单元20、字符输入单元21、视线检测单元12、图像捕获单元13、图像分析单元14、转换候选存储单元15、预测输入字典存储单元22、输入处理单元23以及输出单元18。下面将描述与第一实施例不同的部分。

输入检测单元20检测由用户进行的字符输入的开始操作。检测字符输入的开始操作可以是下述情况：例如在信息处理装置10a的操作中显示了诸如搜索屏幕的字符输入屏幕。此外，检测字符输入的开始操作可以是通过机器学习等来检测是否可能发生对信息处理装置10a的字符输入操作。例如，输入检测单元20是惯性测量单元(inertialmeasurementunit，在下文中称为imu)，并且通过在诸如将信息处理装置10a从口袋取出到dnn的操作期间应用imu输出，输入检测单元20可以检测用户的字符输入操作。

字符输入单元21是用户执行对信息处理装置10a的字符输入的接口。作为经由字符输入单元21输入的输入信息的输入字符串被传递给输入处理单元23。字符输入单元21例如是键盘、按钮、触摸面板等。输入字符串对应于第一形式的字符串。输入字符串是包括从平假名、数字和字母中选择的至少一种类型的字符的序列的字符串。

当输入检测单元20检测到用户的字符输入的开始操作时，图像捕获单元13捕获包括近距离观察区域的视野范围的图像，该近距离观察区域是执行字符输入的字符输入时间的用户的视线位置。字符输入时间优选地是紧接在用户执行字符输入之前的时间。这是因为，可以将存在于紧接在执行字符输入之前用户正在注视的区域中的字符串用作输入字符串。然而，难以检测紧接在用户执行字符输入之前的时间并捕获包括近距离观察区域的视野范围。此外，在用户正在从字符输入单元21执行字符输入的情况下，用户正在注视信息处理装置10a。因此，在第二实施例中，假设从检测到字符输入的开始操作到字符输入的结束的时段是执行字符输入的时间。例如，在用户通过注视在诸如标志牌的对象上所描述的信息来执行搜索的情况下，在注视在对象上所描述的信息之后，在利用信息处理装置10a执行字符输入的开始操作之后执行字符输入处理。在这种情况下，从紧接在信息处理装置10a准备搜索的时间之前的范围到字符输入处理结束的时间是执行字符输入的时间。

此时，在不能一次记住在对象上描述的信息的情况下，可以再次注视该信息以进行确认。因此，在由视线检测单元12检测的用户的视线位置从信息处理装置10a切换到对象的定时，可以捕获包括近距离观察区域的用户的视野范围。

图像分析单元14分析由图像捕获单元13捕获的图像数据，并且提取字符串。此外，图像分析单元14获取读取所提取的字符串的方式，并且将所提取的字符串和读取方式存储在转换候选存储单元15中作为转换候选信息。读取方式例如是包括从平假名、数字和字母中选择的至少一种类型的字符的序列的字符串。注意，图像分析单元14的细节与第一实施例类似，因此将省略其描述。

转换候选存储单元15暂时存储由图像分析单元14获取的转换候选信息。图10是示出转换候选信息的一个示例的图。转换候选信息是将如上所述字符串和读取方式彼此相关联的信息。这里，为了便于描述，使用平假名作为读取方式，但是也可以使用字母、数字等来代替平假名。在输入处理单元23的输入预测时使用转换候选信息。例如当用户的字符输入完成时，删除转换候选存储单元15中的转换候选信息。

预测输入字典存储单元22存储预测输入字典。图11是示出预测输入字典的一个示例的图。如图11所示，预测输入字典是将一般单词的字符串与读取方式彼此相关联的信息。再次，为了便于描述，使用平假名作为读取方式，但是也可以使用字母、数字等来代替平假名。预测输入字典用于输入处理单元23的预测输入。预测输入字典存储单元22对应于字典信息存储单元。

输入处理单元23基于用户从字符输入单元21输入的输入字符串，在输出单元18上显示预测输入候选的字符串。在用户从字符输入单元21选择了预测输入候选的情况下，用预测输入候选的字符串来补充输入字符串。预测输入候选的字符串是混合文本数据，其中输入字符串为包括平假名、片假名、汉字、数字、字母等的形式。输入处理单元23对应于识别单元和补充单元。

图12是示意性地示出输入处理单元的功能配置的一个示例的框图。输入处理单元23包括：输入字符串获取单元231、匹配单元232、补充单元233以及文本输出单元234。

输入字符串获取单元231获取由字符输入单元21输入的输入字符串。输入字符串获取单元231对应于识别单元。匹配单元232将所获取的输入字符串与在转换候选信息或预测输入字典中的读取方式进行匹配，并且获取与具有等于或高于阈值的相似度的读取方式中的、具有最高相似度的读取方式相对应的字符串。例如，匹配单元232还可以使用包括输入字符串的第一字符串的前半部分字符串来执行匹配处理，并且获取与具有最高相似度的字符串相对应的字符串。即，即使没有输入构成用户想要输入的单词的读取方式的所有字符串，也可以使用包括第一字符串的一定数量的字符串来执行匹配处理。这里，匹配单元232在执行匹配时优选地应用转换候选信息。然后，在转换候选信息中不存在匹配的情况下，应用预测输入字典来执行匹配。此外，相似度例如可以是与转换候选信息或语音识别字典中的读取方式相匹配的字符对于包括在所获取的输入字符串中的字符的比例。

补充单元233通过匹配用基于匹配处理的结果的、所提取的字符串来补充输入字符串。补充单元233用具有等于或高于阈值的相似度并且具有最高相似度的字符串来补充输入字符串。补充字符串对应于第二形式的字符串。图像分析单元14、匹配单元232和补充单元233对应于补充单元。

文本输出单元234将由补充单元233补充的字符串输出到输出单元18。例如，在输出单元18是显示装置的情况下，文本输出单元234将补充字符串作为转换候选输出到显示装置。

返回图9，输出单元18输出来自输入处理单元23的字符串。例如，输出单元18是显示装置，并且在显示装置上显示的搜索屏幕的输入字段或转换候选列表中显示作为补充字符串的字符串。替选地，输出单元18是语音输出装置，并且通过语音反馈输出补充字符串。

[根据第二实施例的信息处理过程]

图13是示出根据第二实施例的信息处理方法的过程的一个示例的流程图。首先，当输入检测单元20检测到可能要开始用户的字符输入的操作时(步骤s51)，视线检测单元12检测当时的用户的视线，并且根据检测的视线获取用户正在注视的近距离观察区域(步骤s52)。例如通过由信息处理装置10a显示搜索屏幕或者通过将显示屏幕设置于执行搜索的状态，而检测到可能要开始字符输入的操作。此外，可以在用户操纵信息处理装置10a时通过imu输出来检测是否可能要执行字符输入。此外，这里，“当时”被定义为例如从检测到可能要开始字符输入的操作到字符输入完成的范围。

然后，以与第一实施例的图6的步骤s13至步骤s14类似的方式，图像捕获单元13捕获包括所获取的近距离观察区域的视野范围，并且图像分析单元14对图像数据执行图像分析并且提取字符串(步骤s53至步骤s54)。然而，图像捕获单元13在用户正在注视信息处理装置10a的情况下不捕获图像，而是在用户注视所获取的近距离观察区域附近的部分的情况下捕获图像。此后，图像分析单元14获取所提取的字符串的读取方式(步骤s55)。然后，图像分析单元14将字符串和读取方式的对作为识别候选信息存储在转换候选存储单元15中(步骤s56)。

此后，确定用户的字符输入是否开始(步骤s57)。即，确定是否执行了来自字符输入单元21的字符输入。在字符输入没有开始的情况下(步骤s57中为否)，处理返回至步骤s51。

在字符输入开始的情况下(步骤s57中为是)，输入处理单元23获取由字符输入单元21输入的输入字符串(步骤s58)。然后，输入处理单元23通过使用转换候选存储单元15的转换候选信息中的读取方式，对所获取的输入字符串执行匹配处理(步骤s59)。此时，输入处理单元23计算已经执行了匹配的转换候选信息中的每种读取方式对于输入字符串的相似度。

此后，输入处理单元23确定是否已经实现匹配(步骤s60)。这里，在存在具有等于或高于预定阈值的相似度的读取方式的情况下，选择具有最高相似度的读取方式作为匹配候选。在已经实现匹配的情况下(步骤s60中为是)，输入处理单元23用与已经执行了匹配的转换候选信息中的读取方式相对应的字符串来补充输入字符串(步骤s61)。然后，输入处理单元23将补充字符串输出到输出单元18(步骤s62)。例如，在输出单元18是显示装置的情况下，将字符串显示为显示屏幕的文本框中的转换候选。

另一方面，在尚未实现匹配的情况下(步骤s60中为否)，输入处理单元23通过使用预测输入字典中的读取方式对输入字符串执行匹配处理(步骤s63)。此后，输入处理单元23用与作为匹配结果的、具有最高相似度的预测输入字典中的读取方式相对应的字符串来补充输入字符串(步骤s64)。然后，输入处理单元23将补充字符串输出到输出单元18(步骤s65)。

在步骤s62或s65之后，确定字符输入是否完成(步骤s66)。在字符输入没有完成的情况下(步骤s66中为否)，处理返回至步骤s58，并且重复执行上述处理。此时，在步骤s58中，获取从开始字符输入的时间开始的输入字符串。另一方面，在字符输入完成的情况下(步骤s66中为是)，处理完成。

以此方式，在第二实施例中，在开始字符输入之后，每次检测到输入了新字符时，重复执行步骤s58至步骤s65的处理。即，从与用户想要输入的字符串的第一读取方式相对应的字符开始按顺序执行匹配处理。然后，从与第一输入字符(读取方式)匹配的候选中，用下一输入字符(读取方式)进一步缩小转换候选。通过该操作，可以用与执行了匹配的转换候选信息中的读取方式相对应的字符串中的相应部分来补充用户想要输入的字符串的后半部分。

接下来，将描述根据第二实施例的信息处理方法的具体示例。图14a至图14c是示意性地示出根据第二实施例的信息处理方法的一个示例的图。再次，以与第一实施例的图7的情况类似的方式，采用用户注视城市中诊所的标志牌并搜索到诊所的路线的示例。用户将视线指向例如紫色标志牌501“akasatana诊所”。在该标志牌501上，描述了临床科(糖尿病、内科)、位置(b市、a县)以及电话号码(ooo-ooo-oooo)。

如图14a所示，用户取出信息处理装置10a，并且在将视线指向标志牌501的同时准备搜索输入。然后，输入检测单元20检测用户的字符输入的开始操作。当输入检测单元20检测到字符输入的开始操作时，视线检测单元12检测用户的视线，并且图像捕获单元13捕获包括由用户的视线指向的近距离观察区域r1的视野范围r10。此时，在视线检测单元12确定用户的视线位置在信息处理装置10a处的情况下，不执行图像捕获单元13的图像捕获。在视线检测单元12确定检测的用户的视线接近周围景物中的视线检测单元12检测到的位置附近的情况下，或者在用户的视线停留的时间长于预定时间的情况下，在预定定时捕获视野范围r10。例如，在准备由信息处理装置10a执行搜索输入之后，再次，视线可以在书写要输入的字符的位置处停止几秒钟，然后可以执行对信息处理装置10a的字符输入。替选地，在字符输入的中间，再次，视线可以在书写要输入的字符的位置处停止几秒钟，然后可以执行对信息处理装置10a的字符输入。在这种情况下，图像捕获单元13在视线再次停止在书写字符的位置的定时捕获用户的视野范围r10。注意，辨识近距离观察区域的方法与第一实施例的情况类似。

此后，通过使用捕获图像数据，执行图像分析单元14的图像分析，该图像分析与第一实施例中所述的图像分析类似。然而，图像分析单元14生成所获取的字符串的读取方式，并且将作为字符串和读取方式的对的转换候选信息存储在转换候选存储单元15中。

然后，如图14b所示，假设用户的字符输入从字符输入单元21开始，并且输入“akasatana”。输入处理单元23获取输入字符串“akasatana”，并且首先以转换候选信息中的读取方式对输入字符串执行匹配处理。结果，与“akasatana”的读取的相似度最高，因此输入处理单元23获取“akasatana”作为转换候选。然后，如图14c所示，在显示装置313上显示“akasatana”作为转换候选330。这样，通过将从包括在用户近距离观察区域中的信息获取的字符串登记在转换候选信息中，可以将其列为输入字符串的转换候选。结果，可以提高用户的字符转换的准确性。

同时，在不使用第二实施例的信息处理装置10a的情况下，不存在图13的步骤s51至步骤s56和步骤s59至步骤s62的处理。即，在获取输入字符串之后，通过使用预测输入字典中的读取方式，对输入字符串执行匹配处理。结果，在没有登记片假名符号中的“akasatana”的情况下，平假名符号中的“akasatana”将作为转换候选进行显示。在这种情况下，用户需要进一步执行将“akasatana”的输入字符串改变为片假名符号的操作。这样，不能如在第一实施例中那样获取用户所期望的单词。

以此方式，在第二实施例中，当检测到用户的字符输入的开始操作时，捕获当时的用户的近距离观察区域，并且从该图像数据中提取字符串。然后，通过使用所提取的字符串的读取方式对输入字符串执行匹配处理，并且将具有最高相似度的字符串作为转换候选进行显示。结果，可以将由在注视周围情况时思考搜索的用户输入的输入字符串转换为用户期望的形式的字符串。此外，可以提高字符转换的准确性。

此外，甚至在用户对输入字符串的输入未完成的状态下，在存在与到此时为止输入的输入字符串匹配的字符串的情况下，也将其作为转换候选进行显示。即，可以补充用户想要输入的内容，并且将该内容转换为具有用户期望的形式的字符串。这节省了用户的字符输入的劳动。特别地，很难为专有名词显示期望的转换候选，但是根据第二实施例，可以将包括在用户近距离观察区域中的专有名词作为转换候选进行显示。这在用户错误地输入输入字符串中的一些字符的情况下是类似的。即，错误输入的字符可以被转换成用户期望的字符串。

[第二实施例的修改(1)]

在第二实施例中，当检测到用户的字符输入的开始操作时，在注视由视线检测单元12检测的位置附近的部分的情况下，或者在近距离观察除了信息处理装置10a之外的地方预定时间或更久的情况下，捕获该地方。然而，本实施例不限于该示例。

例如，在视线检测单元12检测到在已经观看了相同区域一定时间的情况下，可以捕获包括该区域的视野范围，以准备发生用户输入的情况。

此外，例如，图像捕获单元13可以一直捕获用户的视野范围，并且通过fifo方法将图像数据存储在具有预定容量的缓冲器中。在这种情况下，当输入检测单元20检测到字符输入的开始操作时，图像分析单元14可以使用紧接在检测时间之前保存的图像数据来执行图像分析。

这样，在用户的视线位置注视相同区域一定时间的情况下，或者通过一直捕捉用户的视野范围，可以从紧接在执行对信息处理装置10a的字符输入之前用户正在注视的区域的图像中提取字符串。结果，能够将作为输入的输入字符串补充到用户期望的字符串中。

此外，在第一实施例的修改中描述的内容可以应用于第二实施例。

[硬件配置]

图15是示出信息处理装置的硬件配置的一个示例的框图。这里，如图5所示，示出了信息处理装置10包括智能电话300和可穿戴装置400的情况。

可穿戴装置400包括：中央处理单元(cpu)401、随机存取存储器(ram)402、只读存储器(rom)403以及输入输出接口404。可穿戴装置400的每个单元通过总线410连接。

cpu401基于存储在rom403或存储装置411中的程序进行操作，并且控制每个单元。例如，cpu401将存储在rom403或存储装置411中的程序开发到ram402中，并且执行与各种程序相对应的处理。

ram402存储要由cpu401执行的程序，或者暂时存储通过cpu401执行各种程序而获取的数据。

rom403存储当可穿戴装置400启动时由cpu401执行的诸如基本输入输出系统(bios)的引导程序以及依赖于可穿戴装置400的硬件的程序等。

输入输出接口404是用于连接输入输出装置和可穿戴装置400的接口。例如，cpu401经由输入输出接口404连接到存储装置411、显示装置412、图像捕获装置413、通信装置414和传感器415。

存储装置411是计算机可读记录介质，其非暂时地记录要由cpu401执行的程序、要由该程序使用的数据等。具体地，存储装置411是记录根据本公开的信息处理程序的记录介质，该信息处理程序是程序数据的一个示例。存储装置411例如是硬盘驱动器(hdd)或固态驱动器(ssd)。

显示装置412显示显示图像。显示装置412可以是透射显示器(透视显示器)。

图像捕获装置413例如是下述装置：该装置通过使用诸如电荷耦合装置(ccd)或互补金属氧化物半导体(cmos)的图像捕获元件以及用于控制在图像捕获元件上的被摄体图像的图像形成的诸如透镜的各种构件来捕获真实空间，以生成捕获图像。图像捕获装置413可以捕获静止图像，或者可以捕获移动图像。

通信装置414通过诸如通用串行总线(usb)、蓝牙(注册商标)和wi-fi(注册商标)的各种通信标准与智能电话300的通信装置315通信。

传感器415例如是检测用户的视线位置的视线检测传感器。

智能电话300包括：cpu301、ram302、rom303以及输入输出接口304。智能电话300的每个单元通过总线310连接。

cpu301基于存储在rom303或存储装置311中的程序进行操作，并且控制每个单元。例如，cpu301将存储在rom303或存储装置311中的程序开发到ram302中，并且执行与各种程序相对应的处理。

ram302存储要由cpu301执行的程序，或者暂时存储通过cpu301执行各种程序而获取的数据。ram302的一些区域被用作转换候选存储单元15。

rom303存储当智能电话300启动时由cpu301执行的诸如基本输入输出系统(bios)的引导程序以及依赖于智能电话300的硬件的程序等。

输入输出接口304是用于将输入输出装置连接至智能电话300的接口。例如，cpu301经由输入输出接口304连接到存储装置311、输入装置312、显示装置313、图像捕获装置314、通信装置315和传感器316。

存储装置311是计算机可读记录介质，其非暂时地记录要由cpu401执行的程序、要由该程序使用的数据等。具体地，存储装置311是记录根据本公开的信息处理程序的记录介质，该信息处理程序是程序数据的一个示例。存储装置311例如是hdd或ssd。

输入装置312例如是由用户操作的装置，例如触控面板。输入装置312可以包括按钮、开关、操纵杆等。此外，输入装置312包括检测用户的语音的麦克风。

显示装置313显示显示图像。显示装置313可以是诸如液晶显示器(lcd)或有机电致发光(el)显示器的显示装置、诸如扬声器和耳机的声音输出装置等。

图像捕获装置314例如是下述装置：该装置通过使用诸如ccd或cmos的图像捕获元件以及用于控制在图像捕获元件上的被摄体图像的图像形成的诸如的透镜的各种构件来捕获真实空间，以生成捕获图像。图像捕获装置314可以捕获静止图像，或者可以捕获移动图像。

通信装置315通过诸如usb、蓝牙(注册商标)和wi-fi(注册商标)的各种通信标准与可穿戴装置400的通信装置414通信。

传感器316例如是各种传感器，例如测距传感器、加速度传感器、陀螺仪传感器、地磁传感器、振动传感器、光学传感器和声音传感器。传感器316获取例如关于智能电话300自身的状态等(例如智能电话300外壳的姿势)的信息。

例如，智能电话300的cpu301通过执行装载在ram302上的信息处理程序来实现图像分析单元14和语音识别单元17的功能。

此外，存储装置311存储根据本公开的信息处理程序和语音识别字典存储单元16中的数据。注意，cpu301从存储装置读取程序数据并执行程序，但是作为另一示例，可以经由外部网络500从另一装置获取这些程序。

上述示例示出了信息处理装置10和信息处理装置10a包括智能电话300和可穿戴装置400的情况，但是实施例不限于这种情况。由于智能电话300通常设置有图像捕获装置314，因此图像捕获装置314可以捕获用户的视野。利用该配置，可以使用用户所处的地方特有的信息，因此可以提高语音识别或字符转换的准确性。

注意，本说明书中描述的效果仅是示例性的而非限制性的，并且可以产生其他效果。

注意，本技术还可以具有以下配置。

(1)

一种信息处理装置，包括：

识别单元，被配置成将用户的输入信息识别为字符串；以及

补充单元，被配置成基于与当识别所述字符串时的所述用户的视野相对应的真实空间的图像分析结果来补充所识别的字符串。

(2)

根据(1)所述的信息处理装置，其中，

所述识别单元将所述用户的输入信息识别为第一形式的字符串，以及

所述补充单元基于所述图像分析结果将所识别的所述第一形式的字符串补充为第二形式的字符串。

(3)

根据(2)所述的信息处理装置，其中，所述补充单元通过使用作为以所述第二形式表示的第一字符信息与以所述第一形式表示第一字符信息的第二字符信息的对的转换候选信息，对所识别的所述第一形式的字符串执行匹配处理，并且使用与具有最高相似度的第二字符信息相对应的第一字符信息作为所述第二形式的字符串，其中，以所述第二形式表示的第一字符信息提取自与所述用户的视野相对应的真实空间的图像。

(4)

根据(3)所述的信息处理装置，其中，在所述第一形式的字符串包括作为未辨识字符的缺陷部分的情况下，所述补充单元执行除了所述缺陷部分之外的所述匹配处理，并且通过使用与具有最高相似度的第二字符信息相对应的第一字符信息来补充所述第一形式的字符串的缺陷部分。

(5)

根据(3)所述的信息处理装置，其中，所述补充单元使用所述第一形式的字符串的、包括第一字符串的、前半部分的字符串来执行所述匹配处理，并且通过使用与具有最高相似度的第二字符信息相对应的第一字符信息，将所述第一形式的字符串的、除了所述前半部分的字符串之外的剩余字符串补充为所述第二形式的字符串。

(6)

根据(1)至(5)中任一项所述的信息处理装置，还包括图像分析单元，所述图像分析单元被配置成：获取包括在与所述用户的视野相对应的真实空间的图像中的字符信息，并且生成所述转换候选信息。

(7)

根据(4)所述的信息处理装置，其中，

所述输入信息是所述用户的语音，

所述第一形式的字符串是作为音素序列的音素串，

所述第二形式的字符串是以下字符串：该字符串包括从平假名、片假名、汉字、数字和字母中选择的至少一种类型的字符的序列，

所述识别单元从所述用户的语音中识别输入音素串，以及

所述补充单元使用与作为通过使用所述转换候选信息中的音素串对所述输入音素串执行所述匹配处理的结果而获得的音素串相对应的第一字符信息，作为所述第二形式的字符串。

(8)

根据(5)所述的信息处理装置，其中，

所述输入信息是通过所述用户的字符输入而获得的字符串，

所述第一形式的字符串是以下字符串：该字符串包括从平假名、数字和字母中选择的至少一种类型的字符的序列，

所述第二形式的字符串是以下字符串：该字符串包括从平假名、片假名、汉字、数字和字母中选择的至少一种类型的字符的序列，

所述识别单元识别包括通过所述用户的字符输入而获得的第一字符的输入字符串，以及

所述补充单元使用与作为通过使用所述转换候选信息中的字符串对所述输入字符串执行所述匹配处理的结果而获得的字符串相对应的第一字符信息，作为所述第二形式的字符串。

(9)

根据(3)至(8)中任一项所述的信息处理装置，还包括字典信息存储单元，所述字典信息存储单元被配置成存储字典信息，所述字典信息是以所述第二形式表示的第三字符信息与以所述第一形式表示第三字符信息的第四字符信息的对，

其中，所述补充单元在所述匹配处理期间优先于所述字典信息而使用所述转换候选信息。

(10)

根据(9)所述的信息处理装置，其中，所述补充单元将所述转换候选信息登记在所述字典信息中。

(11)

根据(10)所述的信息处理装置，其中，在所述转换候选信息中的第一字符信息是专有名词的情况下，所述补充单元将所述转换候选信息登记在所述字典信息中。

(12)

根据(7)所述的信息处理装置，还包括图像捕获单元，所述图像捕获单元被配置成捕获与所述用户的视野相对应的真实空间的图像，

其中，当输入所述用户的语音时，所述图像捕获单元捕获所述图像。

(13)

根据(8)所述的信息处理装置，还包括图像捕获单元，所述图像捕获单元被配置成捕获与所述用户的视野相对应的真实空间的图像，

其中，所述图像捕获单元在从检测到所述用户对所述信息处理装置的字符输入的操作到所述输入字符串完成的字符输入时间捕获所述图像。

(14)

根据(13)所述的信息处理装置，其中，所述图像捕获单元捕获紧接在执行对所述信息处理装置的所述字符输入之前的所述用户的视线位置。

(15)

根据(13)所述的信息处理装置，其中，在所述字符输入时间，当所述用户的视线再次指向紧接在执行对所述信息处理装置的所述字符输入之前的所述用户的视线位置时，所述图像捕获单元捕获所述用户的视线位置。

(16)

根据(12)至(15)中任一项所述的信息处理装置，还包括佩戴在所述用户的头部上的视频透过型或光学透过型头戴式显示器，

其中，所述图像捕获单元被设置在所述头戴式显示器上的、当所述头戴式显示器佩戴在所述用户的头部上时使得能够捕获所述用户的前方的图像的位置处。

(17)

根据(2)至(16)中任一项所述的信息处理装置，还包括输出单元，所述输出单元被配置成输出所述补充单元所补充的所述第二形式的字符串。

(18)

根据(17)所述的信息处理装置，其中，所述输出单元是用于显示所述第二形式的字符串的显示装置、或者用于对所述第二形式的字符串执行语音输出的语音输出装置。

(19)

一种信息处理方法，包括：

将用户的输入信息识别为字符串；以及

基于与当识别所述字符串时的所述用户的视野相对应的真实空间的图像分析结果来补充所识别的第一形式的字符串。

(20)

一种程序，用于使计算机执行以下步骤：

将用户的输入信息识别为字符串；以及

基于与当识别所述字符串时的所述用户的视野相对应的真实空间的图像分析结果来补充所识别的字符串。

附图标记列表

10、10a信息处理装置

11语音输入单元

12视线检测单元

13图像捕获单元

14图像分析单元

15转换候选存储单元

16语音识别字典存储单元

17语音识别单元

18输出单元

20输入检测单元

21字符输入单元

22预测输入字典存储单元

23输入处理单元

171声音波形转换单元

172音素串生成单元

173、232匹配单元

174、233补充单元

175、234文本输出单元

231输入字符串获取单元

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种支持领域定制语言模型的解码方法及装置与流程

信息处理装置、信息处理方法和程序与流程

相关文章

最热文献