使用返回路径数据的媒体设备开/关检测的制作方法

2022-03-31 11:28:13 来源：中国专利 TAG：

使用返回路径数据的媒体设备开/关检测
1.相关申请
2.本专利源于2019年11月27日提交的标题为“media device on/off detection using return path data”的美国专利申请序列号16/698,167的延续申请，该专利申请要求2019年6月18日提交的标题为“media device on/off detection using return path data”的美国临时申请序列号62/863,131的权益。要求美国专利申请序列号16/698,167和美国临时申请序列号62/863,131的优先权。美国专利申请序列号16/698,167和美国临时申请序列号62/863,131在此通过引用将其各自的全部内容并入本文。
技术领域
3.本发明总体涉及媒体设备的开/关检测，更具体地，涉及使用返回路径数据的媒体设备开/关检测。

背景技术：

4.有线和卫星用户住宅中的机顶盒(stb)逐秒访问用户观看数据，包括用户的电视调谐数据。观看数据可以包括用户观看的节目，而调谐数据可以包括用户家庭的位置、频道的变化、访问节目的时间等。stb报告返回路径数据(rpd)，其包括返回给多频道视频节目分发提供者(例如，有线和卫星提供者)的此类电视调谐数据和观看数据。
附图说明
5.图1是示出根据本发明的教导的媒体设备开/关检测器使用返回路径数据来实现媒体设备开/关检测的示例操作环境的框图。
6.图2是图1的媒体设备开/关检测器的示例实现方式的框图。
7.图3是根据本发明的教导的表示可以被执行以实现图1的媒体设备开/关检测器从而使用返回路径数据来执行媒体设备开/关检测的示例计算机可读指令的流程图。
8.图4是表示可以由媒体设备开/关检测器执行以使用基于返回路径的训练数据来训练机器学习算法的示例计算机可读指令的流程图。
9.图5a-图5b包括示例验证度量，其指示根据本发明的教导的示例机器学习算法训练可以导致与参考普通住宅调谐方法相比具有提高的准确性。
10.图6a-图6b包括根据本发明的教导在使用基于普通住宅返回路径数据和小组计量器数据训练的示例机器学习算法时调谐分钟和剩余调谐分钟百分比的变化的示例。
11.图7是构造成执行图3和/或图4的示例计算机可读指令以实现图1和/或图2的媒体设备开/关检测器的示例处理器平台的框图。
12.这些附图不是按比例绘制的。通常，在整个附图和随附的书面描述中使用相同的附图标记，以指代相同或相似的部分、元件等。
13.当识别可单独提及的多个元件或组件时，本文使用描述符“第一”、“第二”、“第三”等。除非基于其使用上下文另有规定或理解，否则此类描述符不旨在在时间上赋予任何优
先级或顺序的含义，而仅仅是作为标签，用于分别指代多个元件或组件，以便于理解所公开的示例。在一些示例中，描述符“第一”可用于指代具体实施方式中的元件，而同一元件可在权利要求中用不同的描述符(例如“第二”或“第三”)来指代。在这种情况下，应当理解，使用这种描述符仅仅是为了便于引用多个元件或组件。
具体实施方式
14.公开了使用返回路径数据来执行媒体设备开/关检测的示例技术方案。这样的示例技术方案可以包括根据本发明的教导使用返回路径数据来执行媒体设备开/关检测的方法、装置、系统、制品(例如，物理存储介质)等中的一者或多者。
15.许多住宅娱乐系统包括机顶盒(stb)用于接收来自服务提供者的媒体并将媒体显示在诸如电视的媒体设备上。服务提供者的示例包括有线电视提供者、卫星电视提供者、顶级(otp)服务提供者、互联网服务提供者等。受众测量实体(ame)，例如尼尔森(美国)有限公司，监控由此类媒体设备呈现的媒体的观看。例如，ame可以从相对较小的小组住宅样本中推断出总电视观众的收视率度量和/或其他受众测量数据。小组住宅可能经过充分研究，并且通常被选择为代表整个受众领域。然而，用少量小组住宅样本准确地表示存在于总受众群体中的地理分布和人口多样性仍然是一个挑战。将关于媒体曝光的附加信息流纳入总受众群体可以填补任何统计样本固有的空白或偏差。
16.为了帮助补充小组数据，ame，例如尼尔森(美国)有限公司，可以与付费电视提供者公司达成协议，以获得从stb和/或其他设备/软件获得的电视调谐信息，这在本文中以及在行业中被称为返回路径数据。stb数据包括stb收集的所有数据。stb数据可以包括例如与调谐事件和/或stb接收的命令相关的调谐数据(例如，通电、断电、改变频道、改变输入源、记录媒体的呈现、音量增大/减小等)。stb数据还可以包括与用户访问的媒体内容的类型(例如，广告、电影等)和访问媒体内容的时间(例如，媒体呈现开始的时间/日期、媒体呈现完成的时间、媒体呈现何时暂停等)相关的观看数据。stb数据可以附加地或替选地包括由stb发送到内容提供者的命令(例如，切换输入源、记录媒体呈现、删除记录的媒体呈现等)、心跳信号等。stb数据可以附加地或替选地包括家庭标识(例如家庭id)和/或stb标识(例如stb id)。
17.返回路径数据包括通过从媒体消费者站点到服务提供者的返回路径在媒体服务提供者(例如，有线电视服务提供者、卫星电视服务提供者、流媒体服务提供者、内容提供者等)处可接收的任何数据。由此，返回路径数据包括stb数据的至少一部分。返回路径数据可以附加地或替选地包括来自具有网络访问能力(例如，通过蜂窝网络、互联网、其他公用或专用网络等)的任何其他消费者设备的数据。例如，返回路径数据可以包括来自stb的任何或所有线性实时数据、来自指南服务器的指南用户数据、点击流数据、与关键流数据相关联的调谐数据(例如，遥控器上的任何点击——音量、静音等)、与交互活动相关联的观看数据(例如视频点播)、和任何其他附加数据(例如，来自中介设备的数据)。rpd数据可以附加地或替选地来自网络(例如，通过交换数字软件)和/或来自云的任何基于云的数据(例如远程服务器dvr)。
18.rpd可以提供对与更大的受众群体相关联的媒体曝光度的洞察。然而，rpd可能不会直接提供关于连接到报告rpd的stb的(一个或多个)媒体设备的信息，例如连接到stb的
媒体设备的开/关操作状态。确定连接到stb的媒体设备的操作状态对于准确地判断与来自stb的媒体输出相关联的曝光度可能很重要。例如，连接到stb的媒体设备可能会被关闭，而stb会无意或有意地保持通电并输出媒体。例如，虽然电视机可能会关闭，但stb仍保持打开状态，只要是大约10％的stb从未关闭超过一个月(例如，大约30％的stb在任何给定的一天保持打开达24小时)。在这样的示例中，对媒体设备的操作状态的了解可以帮助ame准确地判断来自stb的媒体输出是否实际上是由媒体设备呈现的。
19.本文公开的示例技术方案根据由stb报告的rpd预测连接到stb的媒体设备的开/关操作状态。公开的示例技术方案利用普通住宅数据来训练一种或多种机器学习算法(例如随机森林、神经网络等)，以根据从stb报告的rpd中提取的特征来预测连接到那些stb的媒体设备的操作状态。普通住宅数据是指小组住宅，所述小组住宅(i)由ame使用一个或多个计量器监控并且(ii)还具有报告由ame接收的rpd(例如，直接或间接来自stb的服务提供者)的stb。ame为普通住宅获得的受众测量实体计量器数据产生一组真实的观看数据，该观看数据识别每个普通小组住宅中呈现的媒体，从而反映这些住宅中受监控的媒体设备和stb在一监控周期内的操作状态。然后将每个普通住宅的计量器数据链接到来自同一住宅的rpd，以产生具有匹配的小组计量器观看数据(这表明该普通住宅中的媒体设备已打开)、或者没有任何匹配的计量器观看数据(这表明该普通住宅中的媒体设备已关闭)(例如，因为stb正在报告rpd，但小组计量器未报告任何相应的观看数据)的训练rpd。训练rpd用于训练机器学习算法，以预测给定普通住宅的训练rpd是否具有匹配的计量器数据(对应于媒体设备打开状态)或不具有匹配的计量器数据(对应于媒体设备关闭状态)。所公开的示例技术方案然后采用经训练的机器学习算法来处理从stb报告的rpd，以预测连接到该stb的媒体设备是打开还是关闭。
20.图1是示出根据本发明的教导的媒体设备开/关检测器使用返回路径数据来实现媒体设备开/关检测的示例操作环境的框图。图1的示例操作环境100包括(一个或多个)示例用户101、与(一个或多个)用户101相关联的(一个或多个)示例媒体设备102和示例机顶盒(stb)103。在所示示例中，(一个或多个)用户101不是ame小组成员。图1的示例操作环境100还包括(一个或多个)示例小组成员104、与(一个或多个)小组成员104相关联的(一个或多个)示例媒体设备105和(一个或多个)示例机顶盒(stb)106。操作环境100还包括(一个或多个)示例计量器107，以从(一个或多个)媒体设备105和/或stb106、示例网络108、(一个或多个)示例媒体服务提供者110、和示例受众测量实体(ame)120收集数据。(一个或多个)示例媒体服务提供者110包括示例返回路径数据存储器112。示例受众测量实体(ame)包括示例计量器数据122和示例媒体设备开/关检测器124。
21.(一个或多个)用户101包括访问一个或多个媒体设备102上的媒体内容并且不与ame 120小组相关联和/或在ame 120小组中注册(例如，没有(一个或多个)基于ame的计量器107)的任何个人。(一个或多个)用户101包括订阅由(一个或多个)媒体服务提供者110提供的服务并通过他们的(一个或多个)媒体设备102使用这些服务的个人。
22.与(一个或多个)非小组成员用户101相关联的(一个或多个)媒体设备102可以是固定或便携式计算机、手持计算设备、智能电话、互联网设备、和/或能够呈现来自(一个或多个)媒体服务提供者110的媒体的任何其他类型的设备。在图1所示示例中，(一个或多个)媒体设备102可以包括例如电视、平板电脑(例如，ipad
tm
、motorola
tm
、xoom
tm
等)、
台式计算机、相机、互联网兼容电视、智能电视等。图1的(一个或多个)媒体设备102用于访问(例如，请求、接收、呈现和/或播出)例如由(一个或多个)媒体服务提供者110通过示例网络108提供的媒体。
23.与(一个或多个)媒体设备102相关联的stb 103可以包括例如与住宅娱乐系统相关联的stb。住宅娱乐系统可以从(一个或多个)媒体服务提供者110接收媒体并且在(一个或多个)媒体设备102(例如电视等)上显示媒体。stb数据包括给定stb 103收集的一些或全部数据，包括stb 103接收的调谐事件和/或命令(例如，通电、断电、改变频道、改变输入源、开始呈现媒体、暂停媒体的呈现、录制媒体的呈现、音量增大/减小等)。stb数据可以附加地或替选地包括由stb 103发送到(一个或多个)媒体服务提供者110的命令(例如，切换输入源、记录媒体呈现、删除记录的媒体呈现、开始媒体呈现的时间/日期、完成媒体呈现的时间等)、心跳信号等。stb数据可以包括家庭标识(例如家庭id)和/或stb 103的stb标识符(例如stb id)。
24.(一个或多个)小组成员104包括作为ame小组住宅的一部分的用户，使得用户对媒体的访问和/或曝光率产生媒体印象(例如，观看广告、电影等)。例如，(一个或多个)小组成员104可以包括在向示例ame 120注册时提供了他们的人口统计信息的用户。当(一个或多个)示例小组成员104利用示例媒体设备105通过示例网络108访问媒体时，ame 120(例如，ame服务器)通过一个或多个计量器107存储与小组成员的人口统计信息(例如，在小组住宅计量器数据122中)相关联的小组成员活动数据。
25.与(一个或多个)小组成员104相关联的(一个或多个)媒体设备105可以是固定或便携式计算机、手持计算设备、智能电话、互联网设备和/或能够呈现来自(一个或多个)媒体服务提供者110的媒体的任何其他类型的设备。在图1所示示例中，(一个或多个)媒体设备105可以包括例如电视、平板电脑(例如，ipad
tm
、motorola
tm
、xoom
tm
等)、台式计算机、相机、互联网兼容电视、智能电视等。图1的(一个或多个)媒体设备105用于访问(例如，请求、接收、呈现和/或播出)例如由(一个或多个)媒体服务提供者110通过示例网络108提供的媒体。(一个或多个)媒体设备105可以与(一个或多个)计量器107交互以向ame 120提供观看数据(例如，(一个或多个)小组成员使用(一个或多个)媒体设备105接触到的节目)。
26.与(一个或多个)媒体设备105相关联的(一个或多个)stb 106可以包括例如与住宅娱乐系统相关联的stb。住宅娱乐系统可以从(一个或多个)媒体服务提供者110接收媒体并且在(一个或多个)媒体设备105(例如电视等)上显示媒体。stb数据包括由给定stb 106收集的一些或全部数据，包括由stb106接收的调谐事件和/或命令(例如，通电、断电、改变频道、改变输入源、开始呈现媒体、暂停媒体的呈现、录制媒体的呈现、音量增大/减小等)。stb数据可以附加地或替选地包括由stb 106发送到(一个或多个)媒体服务提供者110的命令(例如，切换输入源、记录媒体呈现、删除记录的媒体呈现、开始媒体呈现的时间/日期，完成媒体呈现的时间等)。stb数据可以包括家庭标识(例如家庭id)和/或stb 106的stb标识符(例如stb id)。stb 106还可以与(一个或多个)计量器107交互以直接向(一个或多个)计量器107提供stb数据(例如、调谐数据和/或观看数据)。
27.(一个或多个)计量器107包括在与(一个或多个)媒体设备105相关联的(一个或多个)小组成员104同意被监控时或之后由ame 120提供的硬件和/或软件。在图1的示例中，
(一个或多个)计量器107收集监控信息，例如媒体设备-小组成员交互、媒体设备上访问的内容、媒体设备状态、用户选择、用户输入、位置信息、图像信息等。周期性地和/或非周期性地，(一个或多个)计量器107将监控信息传输到ame服务器(例如，ame 120)。(一个或多个)计量器107还可以从(一个或多个)stb 106收集可以包括调谐数据和/或观看数据的信息，以便将这样的数据传输到ame 120。在该上下文中，假设(一个或多个)计量器107可以(例如，使用(一个或多个)媒体设备105和(一个或多个)stb 106)提供基于媒体设备的数据和基于stb的数据两者，(一个或多个)小组成员104是本文称为公共住宅的小组住宅的一部分，指示小组住宅不仅由ame 120使用(一个或多个)计量器107监控，而且还包括报告随后由ame 120接收的返回路径数据的(一个或多个)stb 106。
28.网络108可以使用任何合适的(一个或多个)有线和/或无线网络来实现，包括例如一个或多个有线提供者网络、一个或多个卫星提供者网络、一个或多个局域网(lan)、一个或多个无线lan、一个或多个蜂窝网络、互联网等。如本文所使用的，短语“通信”(包括其变型)包含直接通信、和/或通过一个或多个中间组件的间接通信，并且不需要直接物理(例如，有线)通信和/或持续通信，而是另外包括以周期性间隔或非周期性间隔以及一次性事件进行的选择性通信。受众测量实体(ame)，例如尼尔森(美国)有限公司，监控由此类媒体设备呈现的媒体的观看。
29.(一个或多个)媒体服务提供者110可以包括有线电视服务提供者、卫星电视服务提供者、流媒体服务提供者、otp服务提供者、互联网服务提供者、内容提供者等。(一个或多个)媒体服务提供者110可以包括存储从stb 106接收的返回路径数据(例如返回路径数据112)的数据库。例如，返回路径数据112可以包括在(一个或多个)媒体服务提供者110处通过从媒体消费者站点到(一个或多个)媒体服务提供者110的返回路径110可接收的任何数据。例如，返回路径数据112可以包括来自(一个或多个)stb 103的stb数据和/或来自(一个或多个)stb 106的stb数据的至少一部分。返回路径数据112还可以包括来自具有网络访问能力(例如，通过蜂窝网络、互联网、其他公用或专用网络等)的任何其他消费者的数据。例如，返回路径数据112可以包括来自(一个或多个)stb 103和/或(一个或多个)stb 106的任何或所有线性实时数据、来自指南服务器的指南用户数据、点击流数据、键流数据(例如，遥控器上的任何点击——音量、静音等)、交互活动(例如视频点播)和任何其他数据(例如，来自中介设备的数据)。返回路径数据112可以通过网络108(例如，通过交换数字软件)从(一个或多个)stb 103和/或(一个或多个)stb 106接收和/或可以是从云服务(例如，通过收集、处理和分析基于云的数据的返回路径数据云服务)接收的基于云的(例如与远程服务器dvr相关联的)数据。
30.ame 120，例如尼尔森(美国)有限公司，作为独立方操作以测量和/或验证与用户访问的媒体相关的受众测量信息。ame 120可以与付费电视提供者公司(例如，(一个或多个)媒体服务提供者110)达成协议以获得从(一个或多个)stb 103和/或(一个或多个)stb 106和/或其他设备/软件得到的电视调谐信息(例如，返回路径数据112)。这允许ame 120用非小组成员数据(例如，从与(一个或多个)用户101相关联的(一个或多个)stb 106收集的调谐和/或观看数据)来扩充小组成员数据(例如，从(一个或多个)小组成员104收集的调谐和/或观看数据)。在一些示例中，ame 120利用公共住宅数据来实现返回路径数据112与计量器数据122的组合。公共住宅数据涉及小组住宅(例如，(一个或多个)小组成员104的住
宅)，小组住宅由ame(例如，ame 120)使用一个或多个计量器(例如，(一个或多个)计量器107)监控，并且还具有报告由ame 120(例如，直接或间接从(一个或多个)stb 106的(一个或多个)媒体服务提供者110)接收的返回路径数据(例如，返回路径数据112)的stb(例如，(一个或多个)stb 106)。
31.计量器数据122包括由ame 120获得的公共住宅(例如，具有(一个或多个)ame小组成员104并向(一个或多个)媒体服务提供者110提供返回路径数据112的住宅)的计量器数据、以及从包括基于ame的计量器但不包括stb的住宅获得的计量器数据。由此，计量器数据122是从各种计量器(例如，人员计量器等)收集的，这些计量器用作受众测量工具以测量例如电视和有线电视受众(例如，(一个或多个)小组成员104)的观看习惯。计量器数据可以包括例如媒体观看者(例如，(一个或多个)小组成员104)的人口统计信息和他们的观看状态(例如(一个或多个)小组成员104正在观看的媒体内容)。在图1的示例中，ame 120可以使用计量器数据122来产生观看数据的真值集，该真值集识别在公共小组住宅中呈现的媒体，以反映被监控的媒体设备(例如，(一个或多个)媒体设备105)和这些住宅中的stb(例如，(一个或多个)stb 106)在使用媒体设备开/关检测器124的监控周期内的操作状态。
32.媒体设备开/关检测器124将每个公共住宅(例如，具有通过(一个或多个)stb 106提供返回路径数据122的(一个或多个)小组成员104的住宅)的小组计量器数据122链接到来自同一住宅的返回路径数据112。媒体设备开/关检测器124使用链接信息来创建用于训练机器学习算法的返回路径数据集，如结合图2-图3详细描述的。例如，媒体开/关检测器创建训练返回路径数据集，该训练返回路径数据集包括(1)匹配的小组计量器观看数据122(例如，指示公共住宅中的(一个或多个)媒体设备105打开)，和/或(2)没有匹配的小组计量器观看数据122(例如，指示(一个或多个)媒体设备105关闭)，如结合图2所描述的。由媒体设备开/关检测器124生成的训练返回路径数据训练机器学习算法以预测返回路径数据112是否具有匹配的计量器数据122，从而媒体设备开/关检测器124使用该信息来确定连接到(一个或多个)stb 106的(一个或多个)媒体设备105是打开还是关闭。媒体设备开/关检测器124然后可以使用经训练的算法来评估来自未与公共住宅相关联的stb(例如，(一个或多个)stb103)接收的数据，从而可以确定(一个或多个)媒体设备102在特定观看事件(例如，观看特定频道)期间已经打开或关闭。这允许ame 120使用媒体设备开/关检测器124确定特定观看事件的数据是否实际上与媒体设备102被打开相关联，或者stb 103是否在媒体设备102关闭时被打开，在这种情况下，观看事件不是可用于获得受众测量数据的真实观看片段。由此，媒体设备开/关检测器124在使用公共住宅数据(例如，提供来自(一个或多个)计量器107的计量器数据和来自(一个或多个)stb 106的返回路径数据两者的(一个或多个)小组成员104的数据)进行训练之后将机器学习算法应用到不包括小组成员但确实具有与提供返回路径数据的(一个或多个)stb 103相关联的(一个或多个)用户101的住宅，该返回路径数据可以被识别为报告真实观看事件(例如，媒体设备102被确定为打开)或报告不是真正观看事件的观看事件(例如，媒体设备102被确定为在stb 103保持打开时关闭)。
33.图2是媒体设备开/关检测器124的示例实现方式的框图。媒体设备开/关检测器124包括示例数据存储器202、示例识别器204、示例分类器206、示例生成器208、示例训练器210、以及示例开/关确定器212。
34.数据存储器202存储返回路径数据112和(一个或多个)媒体设备105的计量器数据
122、以及与(一个或多个)媒体设备102相关联的返回路径数据。例如，数据存储器202存储从(一个或多个)媒体服务提供者110检索的数据(例如，返回路径数据112)和可用于ame 120的数据(例如，小组计量器数据122)。例如，从(一个或多个)媒体服务提供者110检索的数据可以包括stb103和/或stb 106数据、和/或来自具有网络访问能力(例如，通过蜂窝网络、互联网、其他公用或专用网络等)的任何其他消费者设备的数据的至少一部分。在一些示例中，该数据可以包括来自(一个或多个)stb 103和/或(一个或多个)stb 106的线性实时数据、来自指南服务器的指南用户数据、点击流数据、键流数据(例如，在遥控器上的任何点击——音量、静音等)、交互活动(例如视频点播)和任何其他数据(例如，来自中介设备的数据)。由数据存储器202存储的数据可以包括小组计量器数据122，例如媒体观看者(例如，(一个或多个)小组成员104)的人口统计信息和他们的观看状态(例如，(一个或多个)小组成员104正在观看的媒体内容)。在一些示例中，数据存储器202的数据包括针对公共住宅(例如，具有(一个或多个)小组成员104的住宅，该(一个或多个)小组成员104既是ame 120小组成员并且具有向(一个或多个)媒体服务提供者110提供返回路径数据112的stb 106)检索的数据。在一些示例中，这样的数据可以包括从设置计量器(sm)和代码阅读器(cr)计量器得到的小组计量器数据122、和/或来自国民计量器(npm)(例如，受众测量实体阅读器或受众测量实体计量器107)的数据。在这样的示例中，从公共住宅(例如，具有(一个或多个)媒体设备105的住宅)得到的返回路径数据112和小组计量器数据122可以用于使用小组计量器数据(例如，来自(一个或多个)计量器107的数据)来训练机器学习算法作为真值集，使得算法被训练以识别(一个或多个)媒体设备105是打开还是关闭。一旦算法被训练，就可以使用它来确定(一个或多个)媒体设备102是打开还是关闭(例如，使用来自与非小组住宅相关联的(一个或多个)stb 103的返回路径数据)，从而识别真实的观看事件和/或观看片段。由此，可以使用在公共住宅数据(例如，来自(一个或多个)stb 106和(一个或多个)计量器107)上训练的机器学习算法来推断与非小组住宅(例如，(一个或多个)用户101的住宅)相关联的媒体设备102的状态(例如，开/关)。
35.非小组住宅返回路径数据由此补充了现有小组计量器数据122以增加样本大小和每个市场的代表性小组基础(例如，增加可包括在基于受众测量的数据报告中的家庭(hh)的数量)。例如，添加返回路径数据(rpd)112可以减少基于ame 120的数据中的一刻钟零收视率(qh)的数量(例如，减少一天中没有基于小组成员的观看数据122的次数和网络)。数据存储器202可以由任何用于存储数据的存储设备和/或存储盘实现，例如闪存、磁介质、光介质等。此外，存储在数据存储器202中的数据可以是任何数据格式，例如二进制数据、逗号分隔的数据、制表符分隔的数据、结构化查询语言(sql)结构等。虽然在所示示例中，数据存储器202被示出为单个数据库，但数据存储器202可以由任意数量和/或(一种或多种)类型的数据库实现。
36.识别器204可以针对一组或多组公共住宅访问来自数据存储器202的公共住宅数据(例如，来自同样由(一个或多个)ame监控器107监控的(一个或多个)stb 106的返回路径数据112、以及来自(一个或多个)计量器107的小组计量器数据122)。在一些示例中，识别器204将公共住宅数据分组为观看段(例如，一刻钟段)。当(一个或多个)小组成员104观看由(一个或多个)媒体服务提供者110提供的媒体时，观看段可以对应于特定观看时间(例如，周一至周五，上午4点和上午5点之间)。在一些示例中，公共住宅组可以包括位于特定感兴
趣地理区域内的住宅(例如，由相同的邮政编码标识)。识别器204可以以任何方式对评估与改善市场覆盖率和个人受众估计相关的数据(例如，改善本地市场的呈现)感兴趣的共同住宅进行分组。在一些示例中，识别器204还识别可从小组计量器数据122获得的附加数据，例如调谐事件的观众数据、家庭特征和从家庭调谐(例如，通过stb 106)得到的组成数据、第三方(例如，(一个或多个)媒体服务提供者110)数据、和已知的小组信息(例如，计量器数据122)。在一些示例中，识别器204比较小组计量器数据122和针对每个公共住宅调谐的返回路径数据112。在一些示例中，这样的比较可以包括针对每个公共住宅的每组数据(例如，rpd 112和小组计量器数据122)调谐的分钟级比较。
37.分类器206基于针对各个观看段的rpd 112是否具有匹配的小组计量器数据122来对使用识别器204识别的观看段(例如，一刻钟段)进行分类以确定标记的观看段。例如，分类器206可以将观看段分类为“匹配的”或“另外的”以确定标记的观看段。在这样的示例中，如果观看段的rpd 112数据(例如，调谐数据)具有针对给定观看段的匹配的小组计量器数据122(例如，观看数据)，则该给定观看段可以被分类为“匹配的”。例如，当确定对于rpd 112和小组计量器数据122都发生了相同的调谐事件时(例如，来自stb 106的返回路径数据112指示特定频道总共被调谐了3小时，并且来自计量器107的小组计量器数据122确认该频道实际上是活跃的并且在整整3小时内在(一个或多个)小组成员104的站点处呈现媒体)，匹配可能发生。在一些示例中，如果观看段中的rpd 112调谐数据不具有来自小组计量器数据122的匹配的观看数据，则分类器206将观看段分类为“另外的”。在一些示例中，分类器206将一些观看段分类为部分“匹配的”或部分“另外的”。例如，返回路径数据112可以指示频道被调谐了3个小时，但是小组计量器数据122指示该频道是活动的并且在小组成员104的站点处呈现媒体长达由stb 106的返回路径数据122报告的3个小时中的1.5个小时，使得当小组计量器数据122对应于返回路径数据112时，一些观看段被分类为“匹配的”，而当小组计量器数据122不对应于返回路径数据112时，其他观看段被分类为“另外的”。在一些示例中，分类器206将部分“匹配的”且部分“另外的”观看段分类为“匹配的”观看段。例如，部分“匹配的”和/或部分“另外的”的观看段(例如，30分钟长的观看段)可以使用返回路径数据112和计量器数据122两者，在大部分观看段(例如，处于或超过第一阈值)是“匹配的”时(例如，30分钟长的观看段中的20分钟)，被分类为“匹配的”。在一些示例中，部分“另外的”和/或部分“匹配的”的观看段(例如,30分钟长的观看段)可以在大部分(例如,处于或低于第二阈值)观看段(例如,30分钟长的观看段中的20分钟)不包括在返回路径数据112和计量器数据122之间的匹配项时被分类为“另外的”。在一些示例中，分类器206将部分“匹配的”且部分“另外的”观看段分类为“另外的”观看段。
38.生成器208从标记的观看段(例如，“匹配的”和/或“另外的”观看段)生成特征。例如，生成器208可以从公共住宅数据的标记的观看段生成特征以创建训练数据，以用于使用训练数据训练机器学习算法。例如，生成器208使用标记的观看段生成的特征可以包括但不限于：月中的某天、观看段索引(例如，对应于观看段发生在事件的哪里的“观看段索引”)、对应于给定观看段的时间长度的观看段持续时间(例如，“观看段持续时间”)、对应于观看特定媒体内容的时间长度的事件持续时间、自事件开始以来的分钟数、周中的天、工作日/周末、stb型号类型、时区、事件类型(例如，实时观看、时移观看(tsv)等)、特定家庭在特定一天的平均事件持续时间、在一天中家庭的事件数量、在一天中家庭的观看段数量、特定设
备在特定一天的平均事件持续时间、在一天中设备的事件数量、在一天中设备的观看段数量、事件持续时间与一天的设备平均事件持续时间的比率等。在一些示例中，生成器208生成其他类型的特征，如由基于用户的配置或输入所指定的或如由基于训练数据的机器学习算法所指定的特征。
39.训练器210基于由生成器208生成的形成训练数据的特征来训练包括在开/关确定器212中的机器学习算法。例如，训练器210使用训练数据来反复地训练和调整机器学习算法，机器学习算法可以是例如神经网络。在一些示例中，机器学习算法可以是随机森林或随机决策森林学习方法(例如，监督分类算法)。例如，使用随机森林学习方法允许将具有目标和特征的训练数据集输入到决策树中，从而允许算法制定一组规则，这些规则又用于形成预测。同样，使用随机森林学习方法允许输入可能是缺少值的数据。在一些示例中，随机森林分类算法可以用作选择的机器学习算法，以便捕获训练数据的非线性行为，并且由于其能力而基于广泛的参数设置进行分类。例如，训练器210可以使用随机森林学习方法来估计观察结果落入给定类别的概率。在一些示例中，训练器210可以使用随机森林分类器来训练数据(例如，使用随机生长的树的集合，其最终预测是来自各个树的预测的聚合)。在一些示例中，一旦训练器210将分类随机森林拟合到训练数据，就可以通过计算“森林”中投票给某个类的“树”的比例来推断测试点的条件类概率。当一组中的两个分类器高度相关时，估计的概率会收敛到0或1。
40.在一些示例中，训练器210利用一个或多个阈值将从机器学习算法输出的概率值转换为“匹配的”或“另外的”分类，其中(一个或多个)阈值被调整以满足一个或多个性能目标。例如，选择概率阈值(例如，p值)将一个种类实际分类为“匹配的”或“另外的”是很重要的，并且可能并不总是默认为0.5的p值。在一些示例中，可以使用调整的概率阈值(例如，p值＝x)来将那些大于x的概率值重新分类为“匹配的”并且将小于x的概率值重新分类为“另外的”(例如，基于机器学习算法是否正确地将媒体设备识别为“另外的”或“匹配的”来调整的阈值)。例如，机器学习算法(例如随机森林)返回的0.995的概率值预测数据集很可能是“匹配的”(例如，观看段中的所有rpd 112数据(例如，调谐数据)都具有匹配的小组计量器数据122)。相反，0.004的概率值预测数据集很可能是“另外的”(例如，观看段中所有rpd 112数据(例如，调谐数据)都没有匹配的小组计量器数据122)。但是，0.6的预测值并没有明显地是“匹配的”还是“另外的”。因此，定义概率阈值来确定高于特定阈值x的概率值指示数据集是“匹配的”，而低于特定阈值x的概率值指示该数据集是“另外的”。这允许使用可能包括缺失值或缺少特征的数据集，因为最终概率值将与阈值概率值进行比较以确定给定数据集是“匹配的”还是“另外的”。在一些示例中，选择阈值以确保模型后rpd调谐可与国民计量器(npm)调谐相比拟。一旦模型被训练并选择了分类概率阈值，则该模型就可以应用于完整的rpd集(例如，rpd 112)。例如，完整的rpd集包括从(一个或多个)stb 103得到的rpd 112，这些stb 103与小组住宅无关(例如，(一个或多个)用户101不是ame小组成员)。通过训练机器学习算法来基于公共住宅数据(例如，(一个或多个)计量器107数据和(一个或多个)stb 106返回路径数据)识别媒体设备何时打开或关闭，该算法可以应用于rpd 112数据以基于提供的与(一个或多个)stb 103相关联的返回路径数据112来确定与不是小组成员的(一个或多个)用户101相关联的(一个或多个)媒体设备102是打开还是关闭。由此，观看段的数据评估例如可以使用完整的rpd集来执行，该rpd不仅包括与(一个或多个)stb 106相关联的
公共住宅数据，而且还包括与(一个或多个)stb 103相关联的非小组住宅数据。
41.开/关确定器212确定与报告的返回路径数据相关联的媒体设备是打开还是关闭。例如，一旦训练器210如上所述训练了机器学习算法，则报告的返回路径数据(例如，由ame 120与之合作的(一个或多个)媒体服务提供者110提供的新的返回路径数据)被应用于经训练的机器学习算法。该算法针对每个观看段和由报告的rpd表示的每个rpd住宅(例如，来自(一个或多个)非小组成员用户101住宅中的(一个或多个)stb 103的rpd 112)预测“匹配的”或“另外的”分类，这转换为预测每个非小组成员rpd住宅的每个观看段是否与打开或关闭的媒体设备(例如，一个或多个媒体设备102)相关联。例如，“匹配的”分类将指示媒体设备打开，而“另外的”分类将指示媒体设备关闭(例如，stb 103报告rpd 112，其指示在(一个或多个)媒体设备102上观看了媒体内容，但是使用经训练的算法，开/关确定器212可以确定媒体设备102在rpd112报告媒体内容被观看的时间长度期间被关闭，从而将该观看事件从真正的观看事件移除)。由此，训练器210优化该算法以预测匹配的rpd 112和小组数据122(例如，对应于媒体设备105打开)或另外的rpd 112数据(例如，对应于媒体设备105关闭)。例如，该算法可以接受rpd 112作为输入，并且一旦它已经被训练以识别对应于媒体设备开/关状态的rpd之间的差异，则可以输出基于rpd 112的预测。在一些示例中，输入到算法的公共住宅rpd 112导致输出，使得训练器210将由算法生成的预测与对应的公共住宅小组数据(例如，来自(一个或多个)计量器107)进行比较，使得训练器210可以训练算法以在预测媒体设备(例如，媒体设备105)是打开还是关闭时达到期望的准确度水平。因此，当开/关确定器212从非小组住宅接收rpd 112(例如，由(一个或多个)stb 103提供)时，开/关确定器输出“匹配的”或“另外的”预测，使得“匹配”对应于媒体设备102打开，“另外”对应于媒体设备102关闭。在一些示例中，开/关确定器基于特征来识别预测，经训练的算法被教导将这些特征识别为与匹配的小组数据相关联。假定rpd 112可以不直接提供关于连接到报告rpd112的stb 103的(一个或多个)媒体设备(例如(一个或多个)媒体设备102)的信息，这允许提高判断与来自stb的媒体输出相关联的曝光度(例如连接到stb 103的媒体设备的开/关操作状态)的准确性。例如，可以关闭连接到stb 103的(一个或多个)媒体设备102，而stb 103保持无意或有意地通电并通过(一个或多个)媒体设备102输出媒体。在一些示例中，一旦由算法基于rpd 112提供的rpd调谐训练数据集进行的分类与由国民计量器(npm)提供的调谐(例如，通过建立分类阈值，该分类阈值确保rpd调谐数据与使用npm获得的数据可比拟)相关，则开/关确定器212使用利用训练器210训练的机器学习算法。
42.虽然图1和图2中示出了实现媒体设备开/关检测器124的示例方式，但图1和图2所示的一个或多个元件、方法和/或设备可以以任何其他方式组合、划分、重新布置、省略、消除和/或实现。此外，图1-图2的示例数据存储器202、示例识别器204、示例分类器206、示例生成器208、示例训练器210、示例开/关确定器212、和/或更一般地，示例媒体设备开/关检测器124可以通过硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此，例如，图1-图2的示例数据存储器202、示例识别器204、示例分类器206、示例生成器208、示例训练器210、示例开/关确定器212、和/或更一般地，示例媒体设备开/关检测器124中的任一者可以由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)图形处理单元(gpu)、(一个或多个)数字信号处理器(dsp)、(一个或多个)专用集成电路(asic)、(一个或多个)可编程逻辑器件(pld)和/或(一
个或多个)现场可编程逻辑器件(fpld)实现。当阅读本专利的任何装置或系统权利要求以涵盖纯软件和/或固件实现时，示例数据存储器202、示例识别器204、示例分类器206、示例生成器208、示例训练器210、和/或示例开/关确定器212中的至少一者，在此明确定义为包括非暂时性计算机可读存储设备或存储盘，例如包括软件和/或固件的存储器、数字多功能盘(dvd)、光盘(cd)、蓝光光盘等。此外，示例媒体设备开/关检测器124可以包括一个或多个元件、方法和/或设备(除了或代替图1和图2所示的元件、方法和/或设备)，和/或可以包括所示元件、方法和设备的任一者的多于一个或所有。如本文所使用的，短语“通信”(包括其变型)包含直接通信、和/或通过一个或多个中间组件的间接通信，并且不需要直接物理(例如，有线)通信和/或持续通信，而是另外包括以周期性间隔、预先安排的间隔、非周期性间隔和/或一次性事件进行的选择性通信。
43.图3-图4中示出了表示用于实现本文公开的示例技术方案的示例硬件逻辑、机器可读指令、硬件实现的状态机和/或其任何组合的流程图。在该示例中，机器可读指令可以是一个或多个可执行程序或可执行程序的(一个或多个)部分，该一个或多个可执行程序或可执行程序的(一个或多个)部分用于由计算机处理器(例如下面结合图7讨论的示例处理器平台700中所示的处理器712)执行。该一个或多个程序或其(一个或多个)部分可以实施在存储在非暂时性计算机可读存储介质(例如cd-rom、软盘、硬盘驱动器、dvd、蓝光光盘
tm
或与处理器712相关联的存储器)上的软件中，但是整个的(一个或多个)程序和/或其部分可替选地由处理器712以外的设备执行和/或以固件或专用硬件实施。此外，尽管参考图3-图4所示的流程图来描述(一个或多个)示例程序，但可替选地，可以使用实现本文公开的示例技术方案的许多其他方法。例如，参考图3-图4所示的流程图，可以改变框的执行顺序，和/或可以改变、消除或组合所描述的一些框和/或将一些框细分成多个框。附加地或替选地，任何或所有框可由构造成在不运行软件或固件的情况下执行相应操作的一个或多个硬件电路(例如，离散电路、和/或集成模拟和/或数字电路、fpga、asic、比较器、运算放大器(op-amp)、逻辑电路等)来实现。
44.本文所述的机器可读指令可以压缩格式、加密格式、分散格式、打包格式等中的一种或多种存储。如本文所述的机器可读指令可存储为可用于创建、制造和/或产生机器可执行指令的数据(例如，指令的部分、代码、代码的表示等)。例如，机器可读指令可以被分散并存储在一个或多个存储设备和/或计算设备(例如，服务器)上。机器可读指令可能需要安装、修改、适应、更新、组合、补充、配置、解密、解压缩、解包、分发、重新分配等中的一者或多者，以使其由计算设备和/或其他机器直接可读和/或可执行。例如，机器可读指令可以存储在多个部分中，这些部分被单独压缩、加密并存储在单独的计算设备上，其中这些部分在被解密、解压缩、以及组合时形成一组可执行指令，该组可执行指令指令实现如本文所述的程序。在另一示例中，机器可读指令可以计算机可读取的状态存储，但需要添加库(例如，动态链接库)、软件开发工具包(sdk)、应用程序编程接口(api)等，以在特定计算设备或其他设备上执行指令。在另一示例中，在机器可读指令和/或(一个或多个)相应程序可以全部或部分执行之前，可能需要配置机器可读指令(例如，存储的设置、数据输入、记录的网络地址等)。因此，所公开的机器可读介质和/或(一个或多个)相应程序旨在涵盖这种机器可读指令和/或(一个或多个)程序，而不管机器可读指令和/或(一个或多个)程序在存储时或在静止或传输中的特定格式或状态如何。
45.如上所述，图3-图4的(一个或多个)示例过程可以使用存储在非暂时性计算机和/或机器可读介质上的可执行指令(例如，计算机和/或机器可读指令)来实现，非暂时性计算机和/或机器可读介质例如硬盘驱动器、闪存、只读存储器、光盘、数字多功能盘、高速缓存、随机存取存储器、和/或其中信息可存储任意持续时间(例如，长时间、永久、短暂、临时缓冲和/或高速缓存信息)的任何其他存储设备或存储磁盘。如本文所使用的，术语非暂时性计算机可读介质被明确定义为包括任何类型的计算机可读存储设备和/或存储盘，并排除传播信号和排除传输介质。此外，如本文所使用的，除非另有指示，否则术语“计算机可读”和“机器可读”被认为是等效的。
[0046]“包括”和“包含”(及其所有形式和时态)在本文用作开放式术语。因此，每当权利要求采用任何形式的“包括”或“包含”(例如，包括(comprises、includes、comprising、including)、具有等)作为前序，或在任何种类的权利要求陈述中，应当理解，可以存在附加的元素、术语等，而不会超出相应权利要求或陈述的范围。如本文所使用的，当短语“至少”在例如权利要求的前序中用作过渡术语时，其以与术语“包括”和“包含”相同的方式是开放式的。例如，当以诸如a、b和/或c的形式使用术语“和/或”时，指a、b、c的任何组合或子集，例如(1)a单独，(2)b单独，(3)c单独，(4)a与b，(5)a与c，(6)b与c，以及(7)a与b与c。如本文在描述结构、组件、项、对象和/或事物的上下文中所使用的，短语“a和b中的至少一者”意指包括(1)至少一个a、(2)至少一个b和(3)至少一个a和至少一个b中的任何一者的实现。类似地，如本文在描述结构、组件、项、对象和/或事物的上下文中所使用的，短语“a或b中的至少一者”意指包括(1)至少一个a、(2)至少一个b，和(3)至少一个a和至少一个b中的任何一者的实现。如本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中所使用的，短语“a和b中的至少一者”意指包括(1)至少一个a、(2)至少一个b、和(3)至少一个a和至少一个b中的任何一者的实现。类似地，如本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中所使用的，短语“a或b中的至少一者”意指包括(1)至少一个a、(2)至少一个b、和(3)至少一个a和至少一个b中的任何一者的实现。
[0047]
图3是表示根据本发明的教导的可以执行以使用返回路径数据执行媒体设备开/关检测的示例计算机可读指令的流程图300。参考前面的图和相关的书面描述，图3的示例程序300在框305开始执行，其中，图2的识别器204访问一组公共住宅的rpd 112和相应的小组计量器数据122，这被统称为公共住宅数据。例如，识别器204可以访问数据存储器202以获得分钟级rpd 112调谐数据和相应的小组计量器122观看数据。在框310，识别器204将公共住宅数据分组为被称为观看段的一刻钟段。因此，在框310，识别器204将给定公共住宅的分钟级rpd调谐分成多个一刻钟观看段，并链接到该公共住宅的相应小组计量器观看数据和观看段。在框315，分类器206将观看段分类为“匹配的”或“另外的”以确定公共住宅数据的标记的观看段。在该示例中，如果观看段中的rpd112调谐数据都没有与观看段匹配的小组计量器122观看数据，则分类器206将该观看段分类为“另外的”。相反，如果观看段中的所有rpd 112调谐数据具有与该观看段匹配的小组计量器122观看数据，则分类器206将该观看段分类为“匹配的”。在一些示例中，分类器206可以将公共住宅数据分组为15分钟持续时间的观看段，这导致几乎所有观看段被分类为“匹配的”或“另外的”，而相对较少的观看段是部分“匹配的”或部分“另外的”。在一些示例中，在框315，分类器206将部分“匹配的”或部分“另外的”的观看段分类为“匹配的”。
[0048]
在框320，生成器208从标记的观看段生成特征(例如，基于rpd 112调谐数据和包括在标记的观看段中的可能的其他可用rpd)，以确定要用于训练机器学习算法(例如，随机森林、神经网络等)的训练数据来预测rpd 112调谐数据的输入观看段可能被分类为“匹配的”(并且因此可能与打开的媒体设备相关联))，还是可能被分类为“另外的”(并且因此可能与关闭的媒体设备相关联)。由生成器208从标记的观看段生成的示例特征包括但不限于：月中的某天、观看段索引、观看段持续时间、事件持续时间、自事件开始以来的分钟数、事件类型、在一天中家庭的事件的数量等。可以从标记的观看段生成的其他特征包括但不限于：家庭id、设备id、事件类型(直播、dvr等)、播放延迟、电台代码等。在一些示例中，特征选择是基于对“匹配的”观看段的百分比和移除的“另外的”观看段的百分比的评估，使得如果某些特征的使用导致过度拟合(例如，训练数据建模得太好，以至于当应用新的数据集时，模型对训练数据集中的细节和噪声的学习会对模型的性能产生负面影响)，则这些特征可以不包括在内。在一些示例中，在将模型应用于报告的来自给定公共住宅的返回路径数据以确定媒体显示器开/关状态之前，可以在至少一个月(或一些其他监控间隔)的公共住宅数据上训练模型。在一些示例中，可以每月(或以某个其他速率)重新训练和测试模型。
[0049]
在框325，训练器210使用在框320生成的训练数据来反复地训练和调整由开/关确定器212实现的机器学习算法(例如，随机森林、神经网络等)。机器学习算法输出将rpd 112调谐数据的输入观看段分类为2个标签之一的预测，2个标签即“匹配的”(对应于与输入的rpd 112调谐数据的观看段相关联的媒体设备105打开的判定)或“另外的”(对应于与输入的rpd 112调谐数据的观看段相关联的媒体设备104关闭的判定)。在一些示例中，训练器210使用一个或多个阈值将从机器学习算法输出的概率值转换为“匹配的”或“另外的”分类，其中(一个或多个)阈值被调整以满足一个或多个性能目标。在框330，训练器210将报告的来自rpd住宅(例如，不是公共住宅)的rpd应用到经训练的机器学习算法(例如，随机森林、神经网络等)，该算法针对每个观看段和由报告的rpd表示的每个rpd住宅预测“匹配的”或“另外的”分类，这转换为预测每个rpd住宅的每个观看段是否与打开或关闭的媒体设备相关联。
[0050]
图4是表示可以由媒体设备开/关检测器124执行以使用基于返回路径的训练数据来训练机器学习算法的示例计算机可读指令的流程图325。使用由识别器204访问的公共住宅返回路径数据和小组计量器数据(由框405表示)以及由生成器208从返回路径数据生成的特征(由框410表示)，训练器210训练模型，使得模型输出预测(例如，数字0-1)(框415)。训练器210使用分类阈值将模型预测分类为“另外的”或“匹配的”。在一些示例中，选择分类阈值以允许训练器210训练算法，使得最终“匹配的”预测与可在训练过程期间用作参考的npm公共住宅调谐数据相关联(框420)。在一些示例中，可以选择分类阈值，使得当与作为参考的npm公共住宅调谐相比时，模型后rpd公共住宅调谐不大于20％。训练器210使用分类阈值将模型预测识别为“匹配的”或“另外的”(框425)。例如，如果使用的模型是基于随机森林机器学习算法的，则模型返回的0.995的概率值(或其他一些相对较高的概率值)很可能是“匹配”的观看段，而0.004的概率值(或一些其他相对较低的概率值)预测数据集很可能是“另外的”(例如，观看段中的rpd 112数据(例如，调谐数据)都没有匹配的小组计量器数据122)。然而，0.6的预测值(或其他一些相对接近0.5的概率值)并不明显是“匹配的”或“另外的”，因此需要使用阈值来确定应该如何对这样的概率值分类。在一些示例中，可以基于“匹
配的”和/或“另外的”预测与从作为算法训练期间使用的公共住宅数据的一部分的小组住宅得到的小组计量器数据122相比是否正确来调整分类阈值(框428)。建立分类阈值使得算法能够预测媒体设备是打开还是关闭具有高度准确性(例如，算法准确地识别媒体设备状态)。如果基于模型输出将模型预测分类为“匹配的”(框430)，则训练器210将媒体显示器状态识别为“打开”(框435)。如果模型预测被分类为“另外的”(框440)，则训练器210将媒体显示器状态识别为“关闭”(框445)。在一些示例中，将识别媒体设备打开或关闭的模型产生的训练数据输出与npm数据进行比较，以确定是否应调整分类阈值(例如，确保模型后rpd公共住宅调谐比npm公共住宅调谐大不超过20％，同时也最小化匹配调谐被移除的量)。一旦根据图4的示例指令完成训练周期，则媒体设备开/关检测器124使用开/关确定器212基于经训练的机器学习算法来确定给定rpd住宅的媒体显示器开/关状态。
[0051]
图5a-图5b包括使用本文描述的技术来指示媒体设备开/关状态确定的示例验证度量，与参考开/关确定技术相比，本文描述的技术使用得到提高的准确性的公共住宅返回路径数据和小组计量器数据。在图5a的示例表500中，当将非机器学习算法训练数据集(例如，prod(产品))与机器学习算法训练数据集(例如，new(新))进行比较时，示出三个广播服务提供者的移除的“另外的”调谐百分比(％)和移除的“匹配的”调谐百分比(％)的示例量。例如，返回路径数据(例如，返回路径数据112)捕获stb调谐(例如，stb 106)，但不揭示媒体设备(例如，电视)何时打开或关闭。因此，使用机器学习算法训练数据集对开/关时间进行建模可确保调谐不会被夸大。在表500的示例中，针对三个示例广播服务提供者中的每一个(例如，510、520和530)，评估与移除的被指定为“匹配的”(例如，电视打开)调谐百分比相比较时，移除的被指定为“另外的”(例如，电视关闭)调谐百分比。对于广播服务提供者510，经训练的模型导致更大的被移除的“另外的”调谐百分比(例如，52％与43％相比)，并且被移除的“匹配的”调谐百分比降低(例如，15％与21％相比)。在一些示例中，被移除的“另外的”调谐百分比可能不会显著增加，但被移除的“匹配的”调谐百分比会显著降低。例如，对于广播服务提供者520，使用经训练的模型导致被移除的“另外的”调谐略有增加(例如，71％与70％相比)，以及被移除的“匹配的”调谐百分比总体下降(例如，12％与25％相比)。同样，在广播服务提供者530的示例中，被移除的“另外的”调谐略微减少(例如，从78％到75％)，但被移除的“匹配的”调整显著减少(例如，从36％到18％)。因此，在一些示例中，经训练的模型使得能够移除“另外的”调谐的更大百分比(例如，广播服务提供者510的新(new)开/关模型)，使得被识别为具有关闭的媒体(例如，指定为“另外的”调谐)的更大数量的公共住宅从整体调谐数据中移除，而在图5a呈现的示例(例如，广播服务提供者510、520和530的新开/关模型)中，被移除的“匹配的”调谐百分比降低，表明调谐计数中可以包括更多数据，因为“匹配的”数据表明返回路径数据和公共住宅的小组计量器数据确认媒体设备(例如电视)打开，从而允许将调谐数据包括在总计数中。这允许调谐数据更准确、更可靠，并能代表公共住宅媒体设备的使用。
[0052]
在图5b的示例表550中，将先前开/关模型(例如，不使用基于机器学习的训练算法)和使用本文描述的基于机器学习的训练算法的开/关模型(例如，指定为新开/关模型)与通用测量(例如，既定的受众测量方法，例如来自收视记录仪和/或代码计量器的测量，但不包括rpd)进行比较。例如，用于开/关模型的训练与本文公开的方法一致，旨在提高模型的准确性，该准确性可以对照参考(例如，使用国民计量器(npm)小组数据确定的通用参考)
进行测量。例如，可以将模型结果与使用收视记录仪和/或代码阅读器获得的数据进行比较，以获得家庭收视率555和基于人的收视率585(例如，特定于人口统计数据，例如18-24岁的人、25-54岁的人、和55岁及以上的人)。在示例表550中，比较在通用测量560与先前开/关模型565或新开/关模型570之间进行，从而产生先前模型与通用测量比较575和新模型与通用测量比较580。对于收视记录仪数据和代码阅读器数据，新开/关模型(例如，使用基于机器学习的训练算法)提高了家庭收视率555的结果的准确性(例如，基于数据科学验证和分析)。例如，与使用收视记录仪和代码阅读器获得的通用测量相比，将新模型与通用测量进行比较时的调谐数据之间的百分比差异(例如，0.2％和-0.7％)低于将先前模型与通用测量进行比较时的调谐数据之间的百分比差异(例如，-0.6％和-1.6％)。对于特定于人的收视率585，与算法训练模型相比(例如，-2.9％、-2.7％和0％)，使用非机器学习训练模型的收视记录仪的比较数据(例如，-3.4％、-3.3％和-0.6％)比通用测量的差异百分比更高。同样，与算法训练模型(例如，-2.7％、-5.1％和-0.4％)相比，使用非机器学习训练模型的代码计量器的比较数据比通用测量的差异百分比也更高(例如，-3.2％、-5.9％和-1.1％)。在一些示例中，数据准确度可以根据其他变量而增加，例如频道更改的频率(例如，3小时或更长时间没有频道更改的家庭收视率的测量可能更准确)。
[0053]
图6a-图6b包括当基于公共住宅返回路径数据和小组计量器数据的使用本文所述的基于机器学习的训练算法时的调谐分钟和剩余调谐分钟百分比的变化的示例。图6a包括在一组一刻钟630的给定数据中为家庭记录的调谐分钟620的图表600，包括使用先前开/关模型610(例如，不包括返回路径数据的模型)、产品开/关模型615(例如，不包括基于机器学习的训练算法的模型)和新开/关模型605(例如，包括返回路径数据和使用基于机器学习的算法的训练的模型)的数据。与产品开/关模型615和新开/关模型605相比，使用先前开/关模型610(例如，不包括返回路径数据)时，每一刻钟计入的调谐分钟数要高得多。总体而言，与在没有附加训练的情况下使用返回路径数据时(例如，产品开/关模型615)相比，使用利用返回路径数据的机器学习训练模型计入的调谐分钟数更高，除了在清晨的时间段，调谐分钟读数几乎相同。新开/关模型的算法的训练方面允许提高调谐分钟计数的准确性，而不会消除本来应该包含在一刻钟调谐分钟计数中的分钟。如图6b的图表650进一步所示，与包括基于返回路径数据和小组计量器数据的此类训练的开/关模型605相比，不包括基于机器学习的训练的开/关模型615的剩余调谐分钟百分比655更低。例如，使用新开/关模型605，剩余调谐分钟百分比较高，使得与使用未经训练的模型615时可用的分钟数相比，使用了更多由参考评估(例如，国民计量器数据)提供的原始调谐分钟数。总体而言，开/关模型的影响可能因广播服务提供者而异，并且可能需要为每个提供者单独评估以确定给定模型的适用程度。
[0054]
图7是被构造成执行图3-图4的示例计算机可读指令以实现图1-图2的示例媒体设备开关检测器124的示例处理器平台的框图。处理器平台700可以是，例如，服务器、个人电脑、工作站、自学习机(例如，神经网络)、移动设备(例如，手机、智能手机、诸如ipad
tm
的平板电脑)、个人数字助理(pda)、互联网设备、或者任何其他类型的计算设备。
[0055]
所示示例的处理器平台700包括处理器712。所示示例的处理器712是硬件。例如，处理器712可以由一个或多个集成电路、逻辑电路、微处理器、gpu、dsp、或来自任何期望系列或制造商的控制器来实现。硬件处理器712可以是基于半导体(例如，基于硅)的设备。在
该示例中，处理器712实现图2的示例识别器204、示例分类器206、示例生成器208、示例训练器210、和/或示例开/关确定器212。
[0056]
所示示例的处理器712包括本地存储器713(例如，高速缓存)。所示示例的处理器712通过链路718与包括易失性存储器714和非易失性存储器716的主存储器通信。链路718可以由总线、一个或多个点到点连接等或其组合来实现。易失性存储器714可以由同步动态随机存取存储器(sdram)、动态随机存取存储器(dram)、动态随机存取存储器和/或任何其他类型的随机存取存储器设备来实现。非易失性存储器716可以由闪存和/或任何其他期望类型的存储器设备来实现。对主存储器714、716的访问由存储器控制器控制。
[0057]
所示示例的处理器平台700还包括接口电路720。接口电路720可以由任何类型的接口标准实现，例如以太网接口、通用串行总线(usb)、接口、近场通信(nfc)接口、和/或pci-express(串行总线)接口。
[0058]
在所示示例中，一个或多个输入设备722连接到接口电路720。(一个或多个)输入设备722允许用户向处理器712输入数据和/或命令。(一个或多个)输入设备可以由例如音频传感器、麦克风、照相机(静物或视频)、键盘、按钮、鼠标、触摸屏、轨迹板、轨迹球、轨迹条(如等点)、语音识别系统、和/或任何其他人机接口来实现。此外，许多系统，例如处理器平台700，可以允许用户使用物理手势(例如但不限于手或身体运动、面部表情和面部识别)来控制计算机系统并向计算机提供数据。
[0059]
一个或多个输出设备724也连接到所示示例的接口电路720。输出设备724例如可以由显示设备(例如，发光二极管(led)、有机发光二极管(oled)、液晶显示器(lcd)、阴极射线管显示器(crt)、就地开关(ips)显示器、触摸屏等)、触觉输出设备、打印机和/或(一个或多个)扬声器来实现。因此，所示示例的接口电路720通常包括图形驱动卡、图形驱动芯片和/或图形驱动处理器。
[0060]
所示示例的接口电路720还包括通信设备(例如发射器、接收器、收发器、调制解调器、家庭网关、无线接入点和/或网络接口)，以促进通过网络726与外部机器(例如，任何种类的计算设备)交换数据。通信可以通过例如以太网连接、数字用户线路(dsl)连接、电话线连接、同轴电缆系统、卫星系统、直线对传式无线系统、蜂窝电话系统等实现。
[0061]
所示示例的处理器平台700还包括用于存储软件和/或数据的一个或多个大容量存储设备728。此类大容量存储设备728的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光光盘驱动器、独立磁盘冗余阵列(raid)系统和数字多功能盘(dvd)驱动器。
[0062]
图3-图4的指令所对应的机器可执行指令732可以存储在大容量存储设备728、易失性存储器714、非易失性存储器716、本地存储器713中、和/或可移除的非暂时性计算机可读存储介质(例如cd或dvd)736上。
[0063]
由上可见，可以理解的是，示例系统、方法和装置允许根据由机顶盒(stb)报告的返回路径数据(rpd)来预测连接到该机顶盒的媒体设备的开/关操作状态。公开的示例技术方案利用公共住宅数据来训练一种或多种机器学习算法，例如随机森林、神经网络等，以根据从stb报告的rpd中提取的特征来预测连接到那些stb的媒体设备的操作状态。将每个公共住宅的计量器数据链接到来自同一住宅的rpd，以产生具有匹配的小组计量器观看数据(例如，媒体设备观看数据)(这表明该公共住宅中的媒体设备打开)或者没有任何匹配的计
量器观看数据(这表明该公共住宅中的媒体设备关闭)的训练rpd。在本文公开的示例中，训练rpd用于训练机器学习算法以预测给定公共住宅的训练rpd是具有匹配的计量器数据(对应于媒体设备打开状态)还是不具有匹配的计量器数据(对应于到媒体设备关闭状态)。所公开的示例技术方案然后采用经训练的机器学习算法来处理从stb报告的rpd，以预测连接到该stb的媒体设备是打开还是关闭。
[0064]
尽管本文公开了某些示例方法、装置和制品，但本专利的覆盖范围不限于此。相反，本专利涵盖了完全落入本专利权利要求的范围内的所有方法、装置和制品。
[0065]
所附权利要求在此通过引用并入本具体实施方式中，每个权利要求作为本发明的单独实施方式独立存在。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于修改神经网络的操作的技术的制作方法

使用返回路径数据的媒体设备开/关检测的制作方法

相关文献

最热文献