基于停留数据的目标人群识别方法、系统和可读介质与流程

2022-02-20 07:02:10 来源：中国专利 TAG：

1.本技术主要涉及数据处理技术领域，尤其涉及一种基于停留数据的目标人群识别方法、系统和计算机可读介质。

背景技术：

2.随着软件应用的发展，经常会用到智能推荐来改善用户体验。为了能更好地进行智能推荐，通常需要对用户进行识别，判断用户是否为目标人群。
3.但通常情况下，软件所能获取到的用户数据较为有限，难以直接得知用户的身份来判断用户是否为目标人群。当软件应用不能对用户进行精准识别时，由于每个用户的情况不同，所以软件应用推荐给用户的内容也许并不适用于该用户，这样的方式有可能极大地影响到用户体验。
4.因此，如何对用户目标人群进行精准识别，成为本领域技术人员目前亟须解决的技术问题。

技术实现要素：

5.本技术要解决的技术问题是提供一种基于停留数据的目标人群识别方法、系统和计算机可读介质，能够对用户目标人群进行精准识别。
6.为解决上述技术问题，本技术提供了一种基于停留数据的目标人群识别方法，包括：获取用户的多日停留数据，所述多日停留数据包括连续的单日停留数据，所述单日停留数据包括单日停留开始时间、单日停留结束时间和单日停留点位置，所述多日停留数据的天数大于等于预设的观察周期参数的2倍；基于每日停留开始时间和每日停留结束时间计算每日停留时间特征强化系数；基于每日的当日停留数据和当日之前的所述观察周期参数的天数的单日停留数据计算每日停留位置特征强化系数；基于预设的学习速率参数、昨日命中函数值、当日停留时间特征强化系数和当日停留位置特征强化系数计算当日命中函数值，其中所述命中函数为预定义并且设第一天的昨日命中函数值为0；以及基于计算得到的多日命中函数值判断该用户是否为目标人群。
7.在本技术的一实施例中，所述基于每日停留开始时间和每日停留结束时间计算每日停留时间特征强化系数的步骤是通过以下方式进行计算：
8.fn(xn,yn)＝on(xn)
·
off(yn)
·
sigmoid(|停留小时数-典型停留小时数|-1)
9.sigmoid函数：
[0010][0011][0012]
其中，fn(xn,yn)为第n天的停留时间特征强化系数，xn为第n天停留开始时间，yn为
第n天停留结束时间，停留小时数是根据xn和yn计算得到的，(a,b)为目标停留开始时间区间，(c,d)为目标停留结束时间区间，典型停留小时数是预设参数。
[0013]
在本技术的一实施例中，所述基于每日的当日停留数据和当日之前的所述观察周期参数的天数的单日停留数据计算每日停留位置特征强化系数的步骤是通过以下方式进行计算：
[0014]
rn＝sigmoid((|x
n-第n天往前m日停留开始时间的中值|)-1
·
(|y
n-第n天往前m日停留结束时间的中值|)-1
·
(distance)-1)
[0015]
sigmoid函数：
[0016][0017][0018]
δlon＝lon
中心点-lonn[0019]
δlat＝lat
中心点-latn[0020][0021][0022]
其中，rn为第n天的停留位置特征强化系数，xn为第n天停留开始时间，yn为第n天停留结束时间，m为所述观察周期参数，(lonn,latn)为第n天的停留点的经纬度，(lon
中心点
,lat
中心点
)是前m天停留历史中心点的经纬度。
[0023]
在本技术的一实施例中，所述基于预设的学习速率参数、昨日命中函数值、当日停留时间特征强化系数和当日停留位置特征强化系数计算当日命中函数值，其中所述命中函数为预定义并且设第一天的昨日命中函数值为0的步骤是通过以下方式进行计算：所述命中函数定义为：
[0024][0025]
其中，α为所述学习速率参数，rn为第n天的停留位置特征强化系数，fn为第n天的停留时间特征强化系数，fn为第n天的命中函数值，f
n-1
为第n天的昨日命中函数值即第n-1天的命中函数值。
[0026]
在本技术的一实施例中，所述基于计算得到的多日命中函数值判断该用户是否为目标人群的步骤是通过以下方式进行判断：若连续m日的δfn的标准差小于连续m日的δfn的平均值的30％，则判断该用户为目标人群，δfn通过以下方式计算：
[0027][0028]
其中，δfn为所述观察周期参数的天数的命中函数值的增量，fn为第n天的命中函数值，m为所述观察周期参数，α为所述学习速率参数，ri为第i天的停留位置特征强化系数，fi为第i天的停留时间特征强化系数，fn为第n天的命中函数值。
[0029]
在本技术的一实施例中，所述基于计算得到的多日命中函数值判断该用户是否为目标人群的步骤还通过以下方式进行判断：若连续m日的δfn的的标准差大于连续m日的δfn的平均值的60％，则判断该用户不是目标人群。
[0030]
在本技术的一实施例中，当所述目标人群为上班族时，所述观察周期参数为7，所述停留数据为用户的汽车停留数据。
[0031]
为解决上述技术问题，本技术还提供了一种基于停留数据的目标人群识别系统，包括：存储器，用于存储可由处理器执行的指令；以及处理器，用于执行所述指令以实现如上所述的方法。
[0032]
为解决上述技术问题，本技术还提供了一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如上所述的方法。
[0033]
与现有技术相比，本技术的基于停留数据的目标人群识别方法、系统和计算机可读介质通过用户的多日停留数据来判断目标人群，能够更简单精准地识别出目标人群。单次识别敏感度可调，从低敏感度到极高敏感度均可通过调整参数来控制。并且随着迭代次数越多，识别结果越精确。形象地说，就是每次计算出的停留点，在越多的天数内重合度越高，结果就越可信。此外，没有使用复杂的机器学习算法，因此对硬件算力要求较低。
附图说明
[0034]
包括附图是为提供对本技术进一步的理解，它们被收录并构成本技术的一部分，附图示出了本技术的实施例，并与本说明书一起起到解释本技术原理的作用。附图中：
[0035]
图1是根据本技术一实施例示出的一种基于停留数据的目标人群识别方法的流程示意图。
[0036]
图2是根据本技术一实施例示出的基于停留数据的目标人群识别系统的系统框图。
具体实施方式
[0037]
为了更清楚地说明本技术的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本技术的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本技术应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。
[0038]
如本技术和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含有其他的步骤或元素。
[0039]
除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本技术的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出的和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，
而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应当注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
[0040]
本技术中使用了流程图用来说明根据本技术的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。
[0041]
图1是根据本技术一实施例示出的一种基于停留数据的目标人群识别方法的流程示意图。如图1所示，本实施例的一种基于停留数据的目标人群识别方法包括以下步骤101-105：
[0042]
步骤101，获取用户的多日停留数据。多日停留数据包括连续的单日停留数据，单日停留数据包括单日停留开始时间、单日停留结束时间和单日停留点位置，多日停留数据的天数大于等于预设的观察周期参数的2倍。
[0043]
步骤102，基于每日停留开始时间和每日停留结束时间计算每日停留时间特征强化系数。
[0044]
步骤103，基于每日的当日停留数据和当日之前的观察周期参数的天数的单日停留数据计算每日停留位置特征强化系数。
[0045]
步骤104，基于预设的学习速率参数、昨日命中函数值、当日停留时间特征强化系数和当日停留位置特征强化系数计算当日命中函数值，其中命中函数为预定义并且设第一天的昨日命中函数值为0。
[0046]
步骤105，基于计算得到的多日命中函数值判断该用户是否为目标人群。
[0047]
下面以本技术的基于停留数据的目标人群识别方法应用在智能汽车上为例，对上述步骤101-105进行详细说明。本实施例的基于停留数据的目标人群识别方法可以由基于停留数据的目标人群识别方法的系统执行，所要识别的目标人群为上班族。停留数据可以为用户的汽车停留数据，可以通过用户的智能汽车获取。观察周期参数可以设为一周的天数7。
[0048]
在步骤101中，停留数据是指用户停留在一个地方的数据，包括停留开始时间、停留结束时间和停留点位置，并且通过停留开始时间和停留结束时间还可以计算出停留时长。若用户在一天内有多个停留点时，可以仅考虑停留时间最长和/或大于预设时间长度阈值的停留点。用户的多日停留数据包括连续的单日停留数据，并且连续天数大于等于观察周期参数的2倍。观察周期参数是后续步骤中进行滚动计算时需要的数据周期，该值一般可以取7天，时间越长计算结果越精确，可以在实践过程中加以调整。
[0049]
在本技术的一实施例中，步骤102可以是通过以下方式进行计算：
[0050]fn
(xn,yn)＝on(xn)
·
off(yn)
·
sigmoid(|停留小时数-典型停留小时数|-1)
[0051]
sigmoid函数：
[0052][0053]
[0054]
其中，fn(xn,yn)为第n天的停留时间特征强化系数，xn为第n天停留开始时间，yn为第n天停留结束时间，停留小时数是根据xn和yn计算得到的。(a,b)为目标停留开始时间区间，(c,d)为目标停留结束时间区间。停留时间特征强化系数是用于从停留时间的角度来判断符合目标人群的特征的程度。在本实施例中，目标停留开始时间区间和目标停留结束时间区间可以按照上班族的作息规律进行设置，例如将目标停留开始时间区间设为(6,11)，将目标停留结束时间区间(16,21)。也就是说，上班时间区间为6点到11点，下班时间区间为16点到21点。典型停留小时数是预设参数，按照上班族的作息规律，一般可以取典型停留小时数为9，该值可在实践过程中加以调整。通过sigmoid函数来避免出现无穷值，将函数范围限制在0～1之间。
[0055]
在本技术的一实施例中，步骤103可以是通过以下方式进行计算：
[0056]
rn＝sigmoid((|x
n-第n天往前m日停留开始时间的中值|)-1
·
(|y
n-第n天往前m日停留结束时间的中值|)-1
·
(distance)-1)
[0057]
sigmoid函数：
[0058][0059][0060]
δlon＝lon
中心点-lonn[0061]
δlat＝lat
中心点-latn[0062][0063][0064]
其中，rn为第n天的停留位置特征强化系数，xn为第n天停留开始时间，yn为第n天停留结束时间，m为观察周期参数，(lonn,latn)为第n天的停留点的经纬度，(lon
中心点
,lat
中心点
)是前m天停留历史中心点的经纬度。停留位置特征强化系数是用于从停留位置的角度来判断符合目标人群的特征的程度。r
地球
是地球半径。第n天往前m日停留开始时间的中值是指，从第n天起往前推m天，这m天的停留开始时间的中值。第n天往前m日停留结束时间的中值是指，从第n天起往前推m天，这m天的停留结束时间的中值。假设用户停留点之间距离较小，停留点之间的弧度可忽略不计，则求中心点时可将地球球面近似看作平面。因此，可以通过计算各个停留点经纬度的平均值来得到中心点经纬度lon
中心点
和lat
中心点
。在一个示例中，在根据两点坐标的经纬度求出两点坐标间的距离时，可以先将经纬度转化为弧度(*π/180)，然后再计算两点坐标间的距离。
[0065]
在步骤104中，学习速率参数一般可以设为0.01，可以在实践过程中加以调整。在计算第一天的当日命中函数值时，昨日命中函数值为0。第n天的当日命中函数值是指第n天的命中函数值，例如第一天的当日命中函数值是指第一天的命中函数值。当n为1时，第1天的昨日命中函数值被定义为0；当n大于1时，第n天的昨日命中函数值是指第n天的前一天(即第n-1天)的命中函数值。
[0066]
在本技术的一实施例中，步骤104可以是通过以下方式进行计算：命中函数定义
为：
[0067][0068]
其中，α为学习速率参数，rn为第n天的停留位置特征强化系数，fn为第n天的停留时间特征强化系数，fn为第n天的命中函数值，f
n-1
为第n天的昨日命中函数值即第n-1天的命中函数值。
[0069]
若每日停留位置特征强化系数rn》0和每日停留时间特征强化系数fn》0,则当日命中函数值fn逐日递增且增量保持基本一致，用户可被定义为目标人群。但是，因不同人群的休息日或出行规律有差异，并且fn在休息日或未出行日可能不变或递增量减少，所以按观察周期参数的天数为滚动窗口(计算命中函数值的增量作为判断标准更为合理。在本技术的另一实施例中，步骤105还可以通过以下方式进行判断：若连续m日的δfn的标准差小于连续m日的δfn的平均值的30％，则判断该用户为目标人群，δfn通过以下方式计算：
[0070][0071]
其中，δfn为观察周期参数的天数的命中函数值的增量，fn为第n天的命中函数值，m为观察周期参数，α为学习速率参数，ri为第i天的停留位置特征强化系数，fi为第i天的停留时间特征强化系数，fn为第n天的命中函数值。
[0072]
仍以目标人群为上班族为例，若用户做五休二，停留时间落在上下班区间内，停留时长在7到12小时之间，每日停留开始结束时间都在前m天停留开始结束时间中值半小时内，且距离在历史停留点中心1km内，则δfn≥5*0.01*0.583*0.982＝0.0286，，用户可被定义为上班族。
[0073]
若用户做六休一，停留时间落在上下班区间内，停留时长在7到12小时之间，每日停留开始结束时间都在前m天停留开始结束时间中值半小时内，且距离在历史停留点中心1km内，则δfn≥6*0.01*0.583*0.982＝0.0343，用户可被定义为上班族。
[0074]
上班族的命中函数在休息日可能不变或递增量减少，所以使用7日滚动增量来判断用户是否为上班族更为合理。若用户的作息时间发生变化，如年假或早晚班，命中函数的7日滚动增量会减少，但一段时间后又恢复正常，则该用户仍可被定义为上班族。
[0075]
若用户不再上班，命中函数的7日滚动增量明显减少甚至不再增加，则该用户将不再被定义为上班族。在本技术的一实施例中，步骤105还可以通过以下方式进行判断：若连续m日的δfn的标准差大于连续m日的δfn的平均值的60％，则判断该用户不是目标人群。
[0076]
本技术的基于停留数据的目标人群识别方法通过用户的多日停留数据来判断目标人群，能够更简单精准地识别出目标人群。单次识别敏感度可调，从低敏感度到极高敏感度均可通过调整参数来控制。并且随着迭代次数越多，识别结果越精确。形象地说，就是每次计算出的停留点，在越多的天数内重合度越高，结果就越可信。此外，没有使用复杂的机器学习算法，因此对硬件算力要求较低。
[0077]
本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本技术，在没有脱离本技术精神的情况下还可做出各种等效的变化或替换，
[0078]
本技术领域中的普通技术人员使用本技术的强化学习的思路对公式进行调整，可
以达到相似的效果。公式中的倒数项可换成其他衰减函数，可以达到相似的效果。停留位置特征强化系数rn可被替代为聚类算法的标签，0为非上班族，1为上班族，可以达到相似的效果。学习速率、目标停留开始时间区间和目标停留结束时间区间可以变化，判断标准的阈值也会发生相应变化。
[0079]
本技术还提供了一种基于停留数据的目标人群识别系统，包括：存储器，用于存储可由处理器执行的指令；以及处理器，用于执行所述指令以实现如上所述的方法。
[0080]
图2是根据本技术一实施例示出的基于停留数据的目标人群识别系统的系统框图。基于停留数据的目标人群识别系统200可包括内部通信总线201、处理器(processor)202、只读存储器(rom)203、随机存取存储器(ram)204、以及通信端口205。当应用在个人计算机上时，基于停留数据的目标人群识别系统200还可以包括硬盘207。内部通信总线201可以实现基于停留数据的目标人群识别系统200组件间的数据通信。处理器202可以进行判断和发出提示。在一些实施例中，处理器202可以由一个或多个处理器组成。通信端口205可以实现基于停留数据的目标人群识别系统200与外部的数据通信。在一些实施例中，基于停留数据的目标人群识别系统200可以通过通信端口205从网络发送和接受信息及数据。基于停留数据的目标人群识别系统200还可以包括不同形式的程序储存单元以及数据储存单元，例如硬盘207，只读存储器(rom)203和随机存取存储器(ram)204，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器202所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备，在用户界面上显示。
[0081]
上述的基于停留数据的目标人群识别方法可以实施为计算机程序，保存在硬盘207中，并可加载到处理器202中执行，以实施本技术中的任一种基于停留数据的目标人群识别方法。
[0082]
本实施例的基于停留数据的目标人群识别系统的其他实施细节可参考图1所描述的方法实施例，在此不再展开描述。
[0083]
本技术还提供了一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如上所述的方法。
[0084]
基于停留数据的目标人群识别方法实施为计算机程序时，也可以存储在计算机可读存储介质中作为制品。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条)、光盘(例如，压缩盘(cd)、数字多功能盘(dvd))、智能卡和闪存设备(例如，电可擦除可编程只读存储器(eprom)、卡、棒、键驱动)。此外，本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
[0085]
上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述申请披露仅仅作为示例，而并不构成对本技术的限定。虽然此处并没有明确说明，本领域技术人员可能会对本技术进行各种修改、改进和修正。该类修改、改进和修正在本技术中被建议，所以该类修改、改进、修正仍属于本技术示范实施例的精神和范围。
[0086]
同时，本技术使用了特定词语来描述本技术的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本技术至少一个实施例相关的某一特征、结构或特点。因
此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本技术的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
[0087]
本技术的方法和系统的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理器件(dapd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器或者其组合。此外，本技术的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备(例如，硬盘、软盘、磁带
……
)、光盘(例如，压缩盘(cd)、数字多功能盘(dvd)
……
)、智能卡以及闪存设备(例如，卡、棒、键驱动器
……
)。
[0088]
计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。
[0089]
本技术各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如java、scala、smalltalk、eiffel、jade、emerald、c 、c#、vb.net、python等，常规程序化编程语言如c语言、visual basic、fortran 2003、perl、cobol 2002、php、abap，动态编程语言如python、ruby和groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何一种网络形式与用户计算机连接，比如局域网(lan)或广域网(wan)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(saas)。
[0090]
此外，除非权利要求中明确说明，本技术所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本技术流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的申请实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本技术实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。
[0091]
同理，应当注意的是，为了简化本技术披露的表述，从而帮助对一个或多个申请实施例的理解，前文对本技术实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本技术对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。
[0092]
在一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施
例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有
±
20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需的特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位，并采用一般位数保留的方法。尽管本技术的一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。
[0093]
虽然本技术已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本技术，在没有脱离本技术精神的情况下还可做出各种等效的变化或替换，因此，只要在本技术的实质精神范围内对上述实施例的变化、变型都将落在本技术的权利要求书的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于停留数据的目标人群识别方法、系统和可读介质与流程

相关文献

最热文献