一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于向车辆上的用户推荐内容的计算机实现的方法和系统与流程

2022-02-19 13:24:42 来源:中国专利 TAG:

用于向车辆上的用户推荐内容的计算机实现的方法和系统
1.本发明涉及推荐系统或引擎,更具体地涉及用于向车辆用户推荐内容的计算机实现方法和系统,特别是根据权利要求1的前序部分的用于推荐内容的计算机实现的方法和根据权利要求10的前序部分的向车辆用户推荐内容的系统。
2.推荐系统或推荐引擎是一种内容过滤软件,它创建特定于用户的自定义推荐,以帮助他/她做出选择。推荐系统是一种机器学习模型,它处理用户的偏好、与他/她相关的数据和上下文数据,以作为用户执行的活动的一部分或响应来自用户的特定请求提供内容建议。
3.今天,人工智能比以往任何时候都更加迅速地在各个技术领域发展,并支持许多应用。在汽车工业中,智能车载系统能够学习用户的行为和偏好,例如车辆的驾驶员或乘客,更一般地说是车辆的占用者,允许预测用户的行为和/或提供个性化推荐,从而简化广义上的车辆控制,即控制车辆行程或控制车载设备。这是通过应用于众多领域的推荐系统实现的。
4.松下公司的美国专利申请us 2013/0030645公开了一种车辆的信息和娱乐(infotainment)系统,用于根据占用者的特征向车辆占用者提供多媒体内容,其中内容推荐模型要求车辆占用者对提供的推荐提供反馈。
5.本发明的目的在于提供一种适用于汽车环境的推荐系统和方法。
6.根据本发明,该目的通过一种用于向车辆上的至少一个用户推荐内容的计算机实现的方法实现,该方法具有权利要求1中提到的特征。
7.特定实施例是从属权利要求的主题,其内容应被理解为本说明书的组成部分。
8.本发明的另一主题是一种用于向车辆上的至少一个用户推荐内容的系统,该系统具有权利要求10中提到的特征。
9.有利地,根据本发明的推荐系统和方法被设计为从车辆占用者或车辆多个占用者的行为和习惯中学习,以及从影响车辆的实际事件和车辆周围的环境中学习,以便为车辆上采取的动作提供建议,并为车辆占用者提供有用的内容。
10.根据本发明的推荐系统和方法可以方便地应用于车载信息娱乐系统,例如在用于管理多媒体内容、用于导航、用于人机界面的环境中。
11.有利地,根据本发明的推荐系统和方法允许提供可在多个车辆占用者之间单独共享的多媒体或导航推荐。
12.与us 2013/0030645的现有技术不同,本发明不提供车辆占用者对所提供推荐的反馈。通过强化学习,内容推荐系统能够根据系统本身的当前和先前状态独立地、顺序地评估要建议的操作。有利地,在一个实施例中,动作的质量与提供的与奖励值相关的输出的有效性密切相关,该奖励值不是由用户分配的,而是由系统基于用户对系统提议的动作的选择频率自动评估的。
13.有利的是,对于多媒体内容、导航和人机界面管理这三种情况,生成推荐时不需要用户交互。无论用户是否接受每个建议,都会记录下来并用于改进后续推荐。
14.本发明的进一步特征和优点将从以下对其实施例的详细描述中更清楚地显现出
来,这些描述是以非限制性示例的方式参照附图给出的,其中:
15.图1是根据本发明的推荐系统的第一实施例的框图,其中系统的决策算法驻留在云中;
16.图2是根据本发明的推荐系统的第二实施例的框图,其中系统的决策算法驻留在车辆上;
17.图3是根据本发明的混合型推荐系统的第三实施例的框图;
18.图4显示了用于处理自然语言的训练技术;以及
19.图5显示了一个示例性的神经网络结构,用于在音乐曲目推荐的情境中实现自动学习。
20.参考图1的实施例,与车辆10相关联的推荐系统一般用附图标记12表示。
21.车辆10,例如机动车辆,可以容纳n个乘客,即推荐系统的用户,在图中用u1、u2、u3、u4、...、u
n
表示。他们可以通过已知的输入设备16(例如触觉或语音识别设备)和已知的输出设备18(例如,一个或多个屏幕或车载音频系统),与人机界面14(例如控制台或与车辆座椅相关的分布式界面)进行交互。车辆的一组车载传感器通常用附图标记20表示,并包括适于检测占用者u1‑
u
n
的存在及其特征(例如,用于识别占用者的生物特征、占用者在车辆上的位置及其状态)的传感器,传感器适于检测车辆的至少一名占用者与人机界面14的交互,例如选择车载应用程序的内容,并且传感器适于检测车辆的状况、车辆的使用以及车辆外的环境背景。
22.包含代表车辆占用者的数据、代表在人机界面上的各个动作或内容选择的数据,以及代表车辆状况和车辆外部环境背景的数据的复合电源信号s1由车辆10传输到推荐系统12的通信模块22,更确切地说,传输到通信模块的数据收集模块24。
23.这样收集的数据被提供给基于预定机器学习模型的机器学习引擎26,例如包括深度学习引擎28和强化学习引擎30,其输出与推理引擎32共享,该推理引擎适合通过推荐信号s2向车辆10的人机界面14提供一个或多个推荐。
24.图2示出了图1的推荐系统的替代实施例,其中与图1中所示相同或功能等效的元件或组件已用相同的附图标记表示。
25.基本上,系统架构类似于上文参考图1所述的架构,其区别仅在于推荐系统12集成在车辆10上,从而信号s1和s2在车载通信线路上传输。
26.图3示出了图1或2的推荐系统的另一个替代实施例,其中与图1和2中所示相同或功能等效的元件或组件已用相同的附图标记表示。
27.基本上,系统架构类似于上文参考图1所述的架构,其区别仅在于推荐系统12的通信模块22(包括数据收集模块24和推理引擎32)集成在车辆10上,而包括深度学习引擎28和强化学习引擎30的机器学习引擎26位于云中,由此数据收集模块24被布置成通过信号s3向机器学习引擎26发送训练数据,推理引擎32被布置成通过信号s4从深度学习引擎28和强化学习引擎30接收更新的数据。
28.车载传感器20设计用于检测一系列输入信息变量,系统基于这些变量进行学习,这些变量包括与车辆占用者相关的数据、与车辆占用者选择内容相关的数据,以及车辆状况或车辆的使用。
29.更具体地说,车载传感器20被设计为通过非穷举示例获取以下数据中的至少一
个:
30.‑
车辆占用者选择内容的历史、使用情况以及此类内容元素的特征;
31.‑
对车辆占用者的识别,例如可通过生物识别系统(例如面部识别系统)或通过手动选择(例如在车辆访问步骤中通过特定学习模型执行)获得;
32.‑
可通过生物识别系统(例如面部识别系统)或初始设置获得的车辆占用者年龄分类,有助于更准确地操作推荐系统和触发初始推荐,对于不同年龄组(成人、儿童)的受试者,这可能有所不同;
33.‑
天气状况;
34.‑
时间戳,适于识别例如一天中的时间或一周中的某一天;
35.‑
行程持续时间;
36.‑
行程目的地;
37.‑
日历上的社交活动;
38.‑
车辆驾驶状况;
39.‑
车辆状况(状态);
40.‑
陪同驾驶员的任何乘客;
41.‑
车辆所在地附近的活动或社交关系。
42.下面详细描述车载传感器获取的信息或数据及其用于根据本发明的推荐系统和方法的用途。
43.内容选择历史
44.系统设计用于从车辆占用者先前执行的数据和动作以及元素的特征中学习,即与每种类型元素相关的特定数据(例如,对于音乐播放应用程序,元素的特征为:歌曲标题、艺术家、专辑、流派、年份等)。这是为了积极主动地为车辆占用者所需的应用程序生成内容,这些应用程序符合每个占用者的行为和习惯。
45.车辆占用者的识别
46.车辆占用者的识别,尤其是驾驶员的生物识别,例如面部识别,不仅允许在一组注册占用者中识别车辆占用者,同时,还应尽可能客观地获取车辆占用者的情绪信息,因此系统可推荐不同类型的多媒体内容、导航过程中的兴趣点或人机界面中的例行程序(或功能或应用程序)。
47.车辆占用者的年龄分类
48.根据车辆占用者的年龄,系统可能会推荐不同类型的多媒体内容、导航中的兴趣点或人机界面例行程序。在第一种情况下,该功能有助于更准确地预测和自动建议适合车辆占用者年龄的多媒体内容的初始偏好。在第二种情况下,该功能用于更准确地推荐与可能驾驶车辆的车辆占用者的年龄一致的兴趣点,例如,在车辆上识别到儿童的情况下推荐游戏区,如果识别到更多的占用者被归入同一年龄组,则推荐娱乐区,如电影院等,优选是在预定时间场景中。
49.天气
50.根据天气状况,系统可以推荐不同类型的多媒体内容,例如与车内人员的情绪有关的内容,以及与当前天气状况相适应的不同兴趣点。
51.时间戳
52.基于时间戳,系统能够在不同的时间间隔内学习车辆的使用习惯,因为例如,车辆用户可能根据一天中的时间和一周中的某一天有不同的习惯。例如,在多媒体内容的情况下,在周末期间,车辆用户可能收听不同类型的音乐,并且音乐类型也可能在从家到工作场所行程中的上午和从工作到家往返行程中的晚上之间变化。在导航的情况下,在周末期间,车辆用户可能会被不同类型的兴趣点吸引,兴趣点可能会根据一天的时间和行程类型而变化。类似地,在车载人机界面的情况下,系统可根据一天中的时间推荐特定例行程序,该例行程序包括一系列动作,例如,执行多媒体内容播放应用程序,选择其中的特定多媒体内容,然后运行导航应用程序并自动设置目的地和相关行程详细信息。
53.旅程持续时间
54.基于预定或估计的旅程持续时间,系统能够推荐其播放持续时间与行程持续时间兼容的多媒体内容,尤其是对于多媒体视频内容,例如其总使用持续时间不超过预定或估计的旅程持续时间的内容。在导航的情况下,根据旅程持续时间,系统可能会自动建议旅行休息的兴趣点,例如餐馆。在由车载人机界面显示的内容的情况下,例如,系统可以了解到,在长途旅程的情况下,车辆的特定驾驶员可能具有运行前台导航功能的偏好。
55.旅程目的地
56.基于预定的旅程目的地,系统设计用于推荐特定的多媒体内容、特定的兴趣点(如餐厅或住宿)、特定的人机界面例程,每个都取决于上述目的地。
57.日历事件
58.基于预设的日历事件,系统能够控制个性化的人机界面例行程序,例如主动运行导航应用程序、激活兴趣点推荐和自动设置行程目的地。
59.车辆运行状况
60.根据车辆当前的运行状况,系统被设计为推荐特定的多媒体内容,例如根据运动或舒适驾驶模式,以及提供更准确的兴趣点推荐或建议激活人机实用程序界面的特定例行程序,例如,用于显示驾驶参数。
61.车辆状况
62.根据实时评估的车辆状况或状态,系统可以推荐兴趣点,如加油站,或者在诊断车辆异常或计划维修的情况下,系统可以推荐车辆停在特定的车间或紧急停车区。通过这种方式,系统可以通过人机界面向驾驶员报告异常情况。
63.陪同驾驶员的乘客
64.根据对陪同驾驶员的乘客的识别,例如在一组先前登记的乘客中,系统可提供所有乘客共享的推荐。
65.车辆所在地附近的社交活动或关系
66.系统被设计为建议特定事件,如音乐会,或举行活动和表演的会议场所,例如通过车载通信系统访问的数据库或时事通讯,以及在车辆所在地附近自动设置与社交活动相关的行程目的地和日历事件。
67.在根据本发明的推荐系统应用于汽车环境的优选情况下,机器学习引擎和推理引擎的特征将分别针对多媒体推荐的情况(例如在车辆内部播放音乐和视频的推荐)、导航推荐的情况(例如兴趣点推荐)以及人机界面推荐的情况进行描述。
68.在用于建议多媒体内容的计算机实现的方法中,根据本发明的系统被设计为提供
关于音乐或视频内容的推荐。
69.多媒体内容推荐基于至少一个车辆用户的选择历史,并生成建议的音乐曲目播放列表。播放列表在预定数量的选择后自动更新,以确保内容利用和探索之间的平衡。
70.有利地,机器学习模型被设计为推荐用户所偏好的音乐内容,但也提出可被同一用户欣赏的新音乐内容。
71.如果车辆中只有驾驶员,则音乐推荐系统基于建立在上述用户基础上的推荐模型。然而,该系统还设计用于与多个车辆占用者一起操作,在这种情况下,推荐模型提供共享推荐,即同时为所有车辆占用者提供个性化推荐。
72.基于本发明推荐系统的数学模型基于自然语言神经处理网络和监督学习方法,用于构建基于音乐曲目和用户的描述符元素的“基于项目的”协同过滤模型。
73.神经网络以创新的方式建模和应用:音乐曲目和车辆用户使用(嵌入式)向量表示进行描述。类似的音乐曲目在向量空间中具有彼此非常接近的分布表示或嵌入,这种情况在技术上可描述为余弦相似性。
74.为了向用户推荐与所有已经播放过的曲目相似的音乐曲目,所有的音乐曲目被总结为一个单一的向量表示:该结果表示用户的嵌入,向量空间中是音乐曲目描述符元素的所有嵌入的质心。创建用户嵌入后,系统创建要播放的曲目列表的推荐,主曲目根据其嵌入和车辆上同时出现的用户嵌入之间的余弦相似性排序。
75.系统允许提供的共享推荐不是从每个用户的历史记录中提取的最喜爱的音乐曲目的融合,而是要复制的曲目的单一列表,适合在特定收听会话中同时在车上的所有用户的偏好。该结果是通过将音乐曲目的相似性的结果计算为两个余弦相似性之间的平均值来获得的,这两个余弦相似性是在音乐曲目的描述符元素的嵌入和用户的嵌入之间计算的。因此,相似性结果与流行度结果平均,类似于在单个推荐(针对单个用户)的情况下通常所做的。
76.根据本发明的推荐系统还能够通过系统本身的智能初始化来避免“冷启动”问题。
77.推荐系统有利地被开发为在第一步骤中被训练以查找模型的参数,并且在第二步骤中从一个或多个用户的动作中实时学习。所有用户操作都作为输入提供给模型,以实时培训和调整用户嵌入。
78.神经网络已建模为接受多个输入变量,因此可以根据车辆的初始要求和环境进行完全更新和定制。
79.更具体地说,与已知推荐系统的基本模型不同,这些基本模型使用涉及用户和音乐曲目的描述符元素(例如音频特征或元数据)的属性信息进行操作,也表示为基于内容的推荐系统,根据本发明的推荐系统基于协同过滤模型的创新应用。两者之间的区别在于,现有技术仅需要一组与用户或音乐曲目的描述符元素相关的特征,而本发明需要一组大的数据,通常由用户名称和描述符元素矩阵表示。该矩阵是一个表格,其中行由用户表示,列由音乐曲目的描述符元素表示,如下所示。
80.项目/用户项目1项目2

项目n用户1r11r12

r1n用户2r21r22

r2n
……………
用户mrm1rm2

rmn
81.表格位置(i,j)中的通用单元格包含第i个用户针对第j个描述符元素给出的分数。
82.通常,音乐曲目的描述符元素的得分由用户的评价来表示,但情况并非总是如此。例如,在音乐推荐系统中,用户不必评估音乐曲目,因此分数可能并不总是可用的。在这种情况下,可以根据音乐曲目的播放次数给出替代分数,并根据其流行度进行调整。
83.尽管由于汇总用户和音乐曲目描述符元素之间的交互的大量数据,协同过滤的要求更难满足,但其性能要优越得多。由于音乐曲目的用户和描述符元素矩阵是一个稀疏矩阵,即其单元格的大部分值是未知的,因此使用协同过滤来插入缺失的分数。这是可能的,因为观察到的评价通常在不同用户和音乐曲目的描述符元素之间高度相关。该相关性可用于推断缺失的单元格值。这样,对于尚未评估描述符元素的用户,可以预测相对分数,并在预测的评估较高时推荐它。
84.应用于根据本发明的推荐系统的协同过滤方法基于记忆方法,其中用户和音乐曲目的描述符元素之间的组合的评价是通过它们的邻居预测的。具体来说,它已经通过使用“基于项目”的协同过滤来使用,即基于音乐曲目的描述符元素,其中的思想是设置与目标描述符元素相似的音乐曲目的描述符元素。目标描述符元素的预测评估计算为相似描述符元素的加权平均值。例如,在推荐音乐曲目时,重要的是推荐与已播放的音乐曲目相似的音乐曲目。
85.下面更具体地描述用于协同过滤的推荐系统的实现。
86.将音乐曲目的每个描述符元素转换为描述符元素向量。以这种方式,推荐系统可以使用两个音乐曲目的向量之间的相关指数来计算两个音乐曲目之间的定量相似性。音乐曲目的描述符元素的向量是通过高级机器学习技术“项目嵌入”技术的个性化集成来计算的。这项技术最初诞生于自然语言处理领域,它能够用分散的数据和高维计算音乐曲目(“项目”)描述符元素的精确向量。类似的音乐曲目将在向量空间中具有非常接近的项目嵌入。
87.研究项目嵌入中引入的创新是通过创建一个沿序列移动的音乐曲目滑动窗口来实现的,正如在自然语言处理技术(fasttext)中实现的一样,如图4所示。
88.图4显示了一种处理自然语言的训练技术,摘自chris mccormick于2016年4月19日的“word2vec tutorial

the skip

gram model”。每当窗口滚动时,它都会包含不同的音乐曲目子序列。已经创建了一个神经网络,它接收来自窗口或目标的中央音乐曲目,并预测窗口或上下文的其他音乐曲目。
89.在图4左侧的表示中,描述了滑动窗口技术对单词序列的应用,而在本发明的推荐模型中,单词被音乐曲目替换。
90.为了馈送神经网络,数据被转换为特定格式:由滑动窗口创建的每个长度为n的子序列提供n

1条记录。每个记录包括一对描述符元素,第一元素是目标,而第二元素是其中一个上下文。图4右侧的图像显示了记录。每条记录向神经网络提供信息,神经网络接收第一元素作为输入,以便预测第二元素作为输出。
91.所使用的神经网络架构如图5所示,也摘自chris mccormick于2016年4月19日发表的“word2vec tutorial

the skip

gram model”。
92.输入层是输入描述符元素(记录的第一个元素)的“独热编码(one

hot encoding)”表示。因此,层的长度对应于属于数据集的不同音乐曲目的数量。每个单元格表示这些描述符元素中的一个,如果对应的元素与输入相同,则其值等于1,否则其值等于0。因此,“one

hot”编码是除值为1的单个单元之外的所有0的向量。
93.与输入层的大小(通常为300个神经元)相比,神经网络有一个较小的隐藏层。
94.输出层的大小与输入层相同,输入层的单元格是各个描述符元素的输出概率。损失函数使输出层尽可能接近输出描述符元素(记录的第二个元素)的“one

hot”编码表示。
95.为了获得最佳权重值,进行了训练步骤。所有信息都通过隐藏层。该层实际上是输入层的复杂表示,包含输入描述符元素的所有信息。因此,它是输入元素的正确向量表示,因此是表示项目嵌入的最佳候选。
96.输入值也被分解为特征。例如,假设接收单词<apple>作为输入,其中<and>是特殊的轮廓符号,则单词apple被划分为单词apple被分为<ap、app、ppl、ple、le>,技术上称为三元组(trigram)。一旦构建了神经网络的架构,三元组也被插入到输入层中,以获得它们中每一个的隐藏向量的表示。单词“apple”的最终嵌入及其三元组的向量表示的总和。
97.在本发明的情况下,可以将音乐曲目的描述符元素分解为多个特征,例如音乐曲目的标题、艺术家姓名、主要流派和音乐曲目的任何其他特征以及想要包含在预定初始需求集合中的外部环境。
98.通过这种方式,可以在神经网络中包含多个特征,以便计算音乐曲目的每个项目的嵌入。使用这种创新方法,可以考虑更多关于音乐曲目和周围环境的信息,获得更准确的项目嵌入。
99.例如,考虑到艺术家姓名的特征和音乐曲目的主要流派,两者都可以通过向量来表示。音乐曲目的最后一个嵌入项目是标题、艺术家和流派的三个向量表示的总和。
100.这种方法的优点是,即使某些特征不可用,它也允许计算音乐曲目的项目嵌入。例如,如果有一个新的音乐曲目,其艺术家和流派是已知的,则可以通过添加艺术家和流派的向量表示来计算相对项目嵌入。
101.通过使用采样评估算法,获得了稀有音乐曲目向量表示的高精度。通过使用所谓的负采样,可以在不损失精度的情况下提高训练速度。
102.一般来说,在基于项目的协同过滤中,推荐系统提出了音乐曲目的描述符元素,这些元素与之前已经以正面评价的描述符元素非常相似。在本发明的系统中,推荐系统提供类似于已经播放的音乐曲目的建议。此外,系统能够在单个用户被识别为存在于车辆中的情况下提供独特推荐,或者在车辆上的多个占用者的情况下提供共享推荐。
103.更详细地说,为了向单个用户提供推荐,本发明的系统使用其已经播放的音乐曲目的个人历史。如果两个音乐曲目的项目嵌入具有高余弦相似性(表示两个向量之间的相关指数),则这两个音乐曲目是相似的。其范围在1和

1之间。如果索引接近1,则两个向量非常相似,而如果索引接近

1,则两个向量在向量空间中相距很远。
104.公式如下:
105.(similarity:相似性)
106.其中a
i
和b
i
是向量a和b的分量。
107.为了跟踪与已播放的所有音乐曲目相似的推荐音乐曲目,使用了以下方法:所有音乐曲目在历史记录中以单个向量表示进行总结;这是通过计算历史记录中包含的音乐曲目的所有项目嵌入的加权平均值获得的。结果是用户的嵌入,在向量空间中它表示音乐曲目描述符元素的所有嵌入的质心(项目嵌入)。
108.音乐曲目的描述符元素在平均值中的权重不同。事实上,较新的音乐曲目权重较大,而以前的曲目权重较低。这是通过指数的、可参数化的权重衰减实现的。当0<α<1时,与时间t

1(播放的最后一首音乐)的音乐曲目相关联的权重为α,时间t

2的音乐曲目的权重为α2,依此类推。权重在过去呈指数下降。
109.获得用户嵌入后,推荐系统会创建要播放的歌曲列表和最有趣的音乐曲目的推荐,根据它们的项目嵌入和用户嵌入之间的余弦相似度进行排序。利用音乐曲目的相似性和音乐曲目的流行度,还可以在利用和探索的需求和待播放歌曲列表中令人满意的艺术家多样性之间取得良好的平衡。
110.更详细地说,为了提供共享推荐,本发明的推荐系统还针对在同一时间间隔内在车辆上的多个车辆占用者采用上述方法。首先,系统独立计算车辆上所有占用者的嵌入。这两个模型之间的主要区别在于,在这种情况下,会生成多个用户嵌入。
111.由于推荐的音乐曲目必须接近所有用户,因此音乐曲目的相似性计算为n余弦相似性的平均值,其中n是车辆占用者的数量,在项目嵌入和用户的n嵌入之间计算。然后,以与前一种情况相同的方式,将相似度得分与流行度得分进行平均。
112.计算项目嵌入所采用的程序是典型的“监督学习”技术。它基于大量初始数据,允许训练有监督的模型并估计其参数,在神经网络的情况下由权重表示。随后,执行推理步骤,其中在获得输入数据和估计参数之后,获得由项目嵌入表示的输出结果。
113.协作过滤技术通常存在的一个常见问题是所谓的“冷启动”问题。
114.由于在开始使用车辆时,没有用户先前选择或偏好的历史记录,因此推荐系统将随机工作。即使在最初的选择中,历史也很短,推荐系统会高估已经播放的音乐曲目。在这种情况下,检测用户的真实音乐偏好需要一些时间。
115.本发明的系统为避免该问题而采用的解决方案由在用户注册期间发生的系统的智能初始化来表示。当用户注册时,系统会推荐一些艺术家,用户必须选择一个预定的数字。这些选择立即丰富了用户的历史记录,并与高权重相关。通过这种方法,系统能够执行用户嵌入的智能初始化,并从第一次选择开始就提供适当的推荐。
116.最初提出的艺术家不是随机推荐的,而是通过例如流行标准和聚合技术来选择的。具体而言,使用混合高斯(gaussian)模型将艺术家分组到预定数量的集群中,并为每个集群提出一个艺术家。使用这种技术,一开始就可以提出预定数量的流行艺术家,这些艺术家彼此不同。选择其中一个后,聚合将再次应用于所选集群中包含的艺术家。通过这种方式,识别子聚合,并为每个子聚合提出预定数量的艺术家。该操作有利地重复预定次数。
117.艺术家的初始选择代表了音乐偏好的专业化,可在用户注册过程中获得。这样可以确保初始选择彼此不远,并且质心可以很好地表示它们。
118.视频片段的推荐遵循音乐曲目推荐所述的逻辑,唯一的区别在于视频片段的特征以及根据车辆占用者数量、车上占用者的位置以及可播放视频内容的屏幕数量播放视频片段的方式。
119.在推荐音乐曲目的情况下也是可能的,视频片段的推荐也可能与车辆上占用者的位置有关,例如在家庭场景中,两名成人受试者坐在前排座椅上,一名或多名儿童坐在后排座椅上。
120.在导航系统内的兴趣点的推荐的情况下,本发明的推荐系统使用用户先前选择提供的信息,提供与停车区、餐馆和住宿有关的建议。再次提出推荐,作为利用和探索要求之间的平衡。
121.兴趣点的推荐采用与前一种完全不同的方法,特别是通过强化学习技术的计算方法。该技术的特点是无需训练步骤即可工作,因此无需一组起始数据。这种算法开始直接从用户的行为中学习,通过发现哪些行为带来最大的回报。奖励是一种反馈,学习系统在提出选择动作时会获得这种反馈。
122.兴趣点是使用强化学习可获得的分类来建议的,系统通过与用户的选择相关的奖励来更新。
123.强化学习使用评估所采取的动作而不是给出的指示的训练信息。对反馈的评估表明一个动作有多好,但不表明它是最好的还是最差的。
124.本文提出的算法代表了一种被称为“k

armed bandit”的技术的新应用,其中用户被反复提供在k个不同的选项或动作中进行选择。每次选择后,用户都会收到一个数值形式的奖励,该数值是从固定概率分布中选择的,该分布取决于用户选择的动作。
125.系统在k个不同的动作之间进行选择,每个动作对应一个特定的状态。为了实现这一点,k

armed bandit算法将每个动作建立在平均奖励的基础上。
126.动作a的奖励q根据以下表达式计算:
[0127][0128]
(sum of rewards whenαis selected:当选择α时奖励的总和;number of timesαis selected:选择α的次数)
[0129]
通常,如果反馈为正,则新奖励可能等于1,如果反馈为负,则新奖励可能等于0。
[0130]
通常用于选择动作的最简单规则是将具有最高平均奖励的动作分段。探索(即从未执行过的操作)和利用(即已执行并获得正奖励的操作)之间的平衡是使用基于更高置信限的标准来执行的。其背后的想法是根据以下公式添加不确定性,作为探索和利用需求之间平衡的调整:
[0131]
q(a) c
×
uncertainty(uncertainty:不确定性)
[0132]
它遵循的标准是,从未执行过的动作具有高不确定性,平均奖励增加,而多次选择的动作具有低不确定性,平均奖励减少。这样,当一个新动作出现时,系统会尝试建议它接收第一个反馈或初始奖励。上式中的参数c作为一个协议参数:如果c的值高,就有可能将探索特性归于算法,否则就有可能实现利用特性。
[0133]
在本发明的系统中,当用户请求推荐关注点时,系统可以提供推荐关注点的列表。该模型根据指定的初始输入建议动作,包括预先确定的要求,如食品类别、价格、评级和与当前位置的距离,进行餐厅推荐。
[0134]
平均奖励与每个输入或类别相关,并由不确定性调节(如果之前从未选择过该类别,则该不确定性更大,如果该类别已选择多次,则该不确定性更小)。然后根据平均奖励对类别进行排序,可以获得推荐类别的分类。当发现一个新的类别时,它的平均奖励被初始化为0,并且具有高度的不确定性。
[0135]
推荐列表的数量与车辆占用者的数量有关。一旦获得了推荐列表,每个用户将执行选择其中一个关注点作为目标点的动作。所选关注点与关注点的一个或多个特征状态相关联,例如价格状态或食品类别状态。与这些状态相关的平均奖励将更新为正奖励。相反,在选定的兴趣点之前安排的所有兴趣点(但尚未选定)将受到惩罚,并更新为负奖励。
[0136]
多个车辆占用者的情况下,对建议列表之一执行的动作可以作为共同来提供共享建议。这种行为可以应用于例如家庭环境或不同的人一起使用同一车辆的所有场景中。
[0137]
正如在推荐多媒体内容的情况下,在这种情况下也存在没有适当初始化的“冷启动”问题。为了避免这个问题,系统提出了一些初始偏好的选择,这些偏好被认为是第一正奖励。
[0138]
最后,关于人机界面中的推荐,本发明的系统可以建议人机界面上的动作,例如它可以建议播放多媒体内容或设置特定导航目的地的动作。这些选择是从用户根据车辆的使用情境和车辆状况、车辆的驾驶状况和周围情境每天做出的动作中学习的。
[0139]
这样,系统可以根据用户的习惯,自动建议访问人机界面提供的应用程序的快捷方式。它自动预测将显示在人机界面屏幕上的应用程序的内容,例如,可以根据用户当前的情绪或车辆运行状况或外部环境条件或其组合,定制图形用户界面和车辆内部灯光的开启。同样,座椅的位置和乘客舱的温度可以定制。
[0140]
有利的是,共享推荐独立于车辆占用者之间的人际关系,但仅取决于与一个或多个占用者执行的动作的共同历史。本发明的推荐系统总是可用的,并且在外部事件的情况下不是专门初始化的。每个外部事件、车辆占用者执行的动作以及执行该动作的相关情境用于在运行时实现或细化一个或多个用户相对于时间戳的向量模型(嵌入)。
[0141]
同样有利的是,创建向量模型,并因此建议内容,并不严格需要对用户进行评测。该推荐系统的结构也为非注册用户提供内容,并在单个使用会话期间初始化和训练向量预测模型。在这种情况下,基于当前会话中用户对车辆的使用,在运行时执行分析。通过用户分析,建议更准确并允许多个使用会话。
[0142]
本发明的推荐系统的特征还在于将应用数学模型集成到系统中的创新方式。用户偏好的建模和随后在多维空间中创建向量是通过对先前训练的数据、动作和上下文的交叉分析进行的,而不管这些动作和上下文是否已经被系统知道。因此,系统能够处理新的动作和上下文(不一定出现在原始数据中),从而自学用户的个人历史并根据后者调整训练和建议。
[0143]
应当注意,在前面的讨论中提出的本发明的实施例具有本发明的纯粹说明性和非限制性的性质。本领域技术人员可以在不同的实施例中容易地实施本发明,然而这些实施例不背离这里概述的原理,因此包括在由所附权利要求限定的本发明的保护范围内。
[0144]
例如,在多媒体内容、导航、人机界面管理的上下文中描述的技术,或用于在导航或人机界面中的例行程序(或功能或应用程序)期间推荐多媒体内容、兴趣点的算法,每一种都是在特定示例上下文中描述的,实际上可以在此处描述的所有管理上下文中使用。因此,向量表示(嵌入)不仅可以应用于多媒体内容和车辆用户的描述,还可以应用于人机界面和车辆用户的兴趣点或功能的描述,以及新应用的算法被称为“k

armed bandit”的技术不仅可以用于为兴趣点或人机界面创建建议,还可以用于多媒体内容。以及被称为“k

armed bandit”技术的新应用算法不仅可以用于为兴趣点或人机界面,还可以为多媒体内容创建建议。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献