一、背景
产品除了活跃的数据,留存的数据也是至关重要的,优化好了留存,也就提升了活跃。所以数据分析师天天会被产品问到的一个问题就是:我们到底应该怎么去提升我们的留存。非常烦,你们有没有这样的感触?
互联网思维中的一条就是用户至上,留住用户才有故事。那么我们怎么通过数据去帮助产品去发现留存的关键行为呢,去解决我们烦心的问题呢?
我们的分析目标: 影响留存的相关的关键行为有哪些?这些行为和留存哪一个相关性是最大的?这些关键行为和留存是否存在因果关系?
二、分析思路
分析思路和方法:
首先是关键行为的提取,这一步就是利用sql从数据仓库中提取你想要的与留存相关的数据行为,这一步是最麻烦也是最费时间的。
利用统计学的相关性的计算方法,可以计算第一步计算的每一个行为与留存的相关性。相关性的系数越大就代表这个行为跟留存是越相关的,就代表它可能就越影响留存。
比如刷抖音的次数跟留存的相关系数是 0.6,刷抖音的时长和留存的相关系数是0.8,就可以说明刷抖音的时间。
然而数据分析中的相关关系不一定是因果关系,比如很多人喜欢张杰跟他唱歌好听是相关的,我们不能说他唱歌好听是大家喜欢他的原因,可能真正原因是他的颜值。
类似的,我们的这些关键行为也不一定是决定留存的原因,可能只是具有相关性。所以我们就要去推断 a 是b 的原因,利用的方法是granger test因果检验的方法。
当我们已经判断了XX 行为就是留存的原因,比如你一周刷抖音的时间是你下一周是否会留存的原因,那么接下来就是去发现到底刷抖音多长时间是留存的magic number。
这个magic number 非常神奇,就是比如你一周刷抖音288分钟,你下周留存的概率会大大增加,这个”一周* 刷 * 288分钟” 就是互联网中最经典的magic number。抓住了magic number,也就抓住了一个产品的留存灵魂。
三、关键行为特征
拿某直播app 作为例子,与留存的相关的行为可以分为:登录行为、观看行为、弹幕行为、付费行为,然后在每一个大的行为分类进行小的指标的刻画。
比如去描述登录的行为我们就可以用30天登录天数、7天登录天数;还可以用比率型指标,像最近30天的登录天数和过去30天的登录的天数的比值,这个反应了用户活跃度的变化。
四、相关性分析
上一步已经提取完了所有跟留存相关的行为特征,这一步就要进行计算留存和这些特征的相关性。
留存相关最大的四大因素:
30天或者7天登录天数(cor: 0.66)
30天观看品类个数(cor: 0.44)
30天观看主播数 (cor: 0.37)
30天日均观看时长(cor: 0.26)
五、因果分析
因为我们只是找出了跟留存相关的行为特征,但我们不知道这些行为特征是否是留存的原因,所以就要通过granger test 因果推断的方法去验证这些行为特征是否是留存的原因。
两个经济变量X、Y之间的格兰杰因果关系定义为:若在包含了变量X、Y的过去信息的条件下,对变量Y的预测效果要优于只单独由Y的过去信息对Y进行的预测效果;即变量X有助于解释变量Y的将来变化,则认为变量X是引致变量Y的格兰杰原因。
原假设和是否拒绝:X 和 Y 是不存在因果关系,当经过格兰杰因果检验后计算出来的 p 值大于0.05 则接受原假设,否则拒绝原假设。
主要结论:
六、Magic Number
发现了影响留存了原因以后,我们就要寻找这些行为是达到一个怎么样的值以后,会大大影响留存的概率。所以我们计算了30天登录天数、7天登录天数、月日均观看时长、30天观看主播数、30天观看品类数和留存的关系。
下面是画出来的图:
拿30天登录天数作为例子:横轴就是30天内不同登录天数,纵轴就是留存率;当横轴为7的时候,留存率趋于稳定,这时候就达到较稳定的状态也被称作 aha moment.
我们可以发现几个神奇的magic number:
月登录4天
周登录三天
月观看7个主播数
月观看4个品类数
月日均观看时长4分钟
CIO之家 www.ciozj.com 公众号:imciow