市场活动效果评估表,通过数据分析进行活动效果评估和归因

一般来说,互联网公司的运营活动按运营目标可以分为4种:拉新、促活、变现、品牌宣传,以下以用户促活活动为例进行活动效果量化评估,其他类型活动虽然核心指标不同,但分析的框架和指标体系可以类推。
1. 分析框架和指标体系1.1 分析框架1.2 指标体系

1.2.1 流量规模
数据指标:
回答的问题:
1.2.2 用户质量和用户画像
数据指标:
回答的问题:
1.2.3 用户路径
数据指标:
回答的问题:
2. 分析过程2.1 活动效果归因
所有的活动运营或者产品经理都很希望知道活动最终是否有效,那么如何快速地前后时间评估活动效果呢?很多时候我们会采取活动前后数据对比的方式来评估活动效果,但其实这种方法并不科学,因为其中可能有数据自身波动的原因,也可能有同时段其他活动或策略影响的原因。所以我们归纳了效果归因分析三种方法,以下方法也合适于策略效果的评估:
2.1.1 AB实验

做归因分析,AB实验应该是大家头脑中第一个想到的方法。因为AB实验通过将流量均匀地分为实验组和对照组,实验组用户只有在活动策略上与对照组不同,因此我们可以认为两组用户在同一时间维度上的指标差异,可以完全归因于活动策略上的差异。
所以AB实验的优点是通过流量分组能够有效地撇去时间、其他活动影响等因素,快速地完成活动效果归因。但AB实验的缺点也很明显市场活动效果评估表,比如实验设计比较耗时;需要开发实验平台;线下活动由于无法随机分流不适用等原因,导致活动无法进行AB实验测试。这时候就只能采取下面的方法进行上线后评估了。
2.1.2 相似群体对照法
相似群体对照法,就是在无法进行AB实验时,基于AB测试的思想,构造与实验组“相似”的用户群体作为对照组。
A、特征对照法

将参与活动的用户作为实验组,未参与活动的存量用户作为对照组;选取活动参与用户的主要特征(比如机型、新增渠道、历史活跃度、…),基于“特征相同”的原则,对两组用户划分为 N 对实验组和对照组。注意尽量将特征通过区间离散化,避免划分出的某一组落入的样本数过少,导致两组样本的指标差异不可信,比如特征「新增日期间隔」可以离散化为:7天内、8-14天、14天以上;计算 N 对实验组和对照组的每一组的指标差异值,以及实验组的总指标差异(等于每一组指标差异*人群占比的相乘结果求和)
B、PSM倾向性匹配
上面用的方式是用近似于一一对应的关系,来找到相同特征的样本来构造对照组。
但是在实操中,我们遇到的往往不会有这么简单市场活动效果评估表,变量维度一般会有很多,同时随着维度的增加,可匹配上的样本越少,匹配的难度也会越来越大。这时我们可以用PSM倾向性匹配得分来解决这个问题。
PSM 通过统计学模型计算每个观测的每个协变量的综合倾向性得分,再按照倾向性得分是否接近进⾏匹配。
用直白的话来讲就是:由于变量太多,如果坚持各个变量一一精确匹配,那估计匹配下来没几个样本能一一匹配得上了。那不如直接用倾向得分,根据影响活动核心指标的各个元素,将每个用户计算出一个参与活动的得分,从而将多维向量的信息压缩到一维,最后根据倾向得分进行匹配。
PSM 的大致流程如下:
确定核心结果指标:核心指标指的是希望最终活动上线后达到的效果,也就是策略增益。比如说活动新增用户量;计算倾向性得分: 除去活动策略变量外,基于可能对核心指标有影响的其他变量,对每个用户算出得分(比如可以运用 model输出倾向性得分)构建与实验组匹配的样本作为对照组: 针对得分去做一个匹配,类似k近邻,生成新的两组用户,排除其他变量的干扰检查两组用户的分布是否一致:即比较生成的两组用户在活动上线前核心指标是否有显著差异,如没有则表示分布一致。对比活动上线后两组用户核心指标数据是否有显著差异,得出结论
2.1.3 虚拟现实构造法
相似群体对照法对非人群的全量策略不太适用,比如一个城市里面只有快车一个业务类型,如果开了拼车,对于整个城市网约车的GMV是正向还是负向?这个问题可以采用DID双重差分法或者 来解决。

A、DID双重差分分析方法
DID方法常用于全城上线的实验的效果回归。我们假设策略上线前后的指标差异可以拆分为大环境变化带来的差异(Trend)和策略上线()带来的差异两部分。我们可以找到一个长期指标变动趋势和实验组较为相近的组作为虚拟对照组,通过该组时间前后指标的波动差异来量化Trend, 从而有效剥离出带来的独立影响,可以近似的理解为:AB差异-AA差异=真实策略差异。
核心假设:趋势一致性,即在策略不上线的情况下,实验组和对照组的指标变动趋势的相似关系是始终保持高度稳定的。
DID的核心优势是通过模型搭建、基本不用算法拟合,容易理解和应用,难点是怎么找到长期变化趋势高度同步的虚拟对照组呢?
方法的典型用例是在特定城市推广营销活动或新产品功能。比较推广城市和未推广城市在同一时间段上的结果差距,那么这个差距值即为该事件的真实效果。

B、
是基于贝叶斯结构时间序列模型,会综合多种信息输入结合自身的时间序列来构造一个策略未上线的虚拟值。为了准确的量化产品改版的效果,⾕歌推出了开源项⽬ ⼯具包,该⽅法基于合成控制法的原理,利⽤多个对照组数据来构建贝叶斯结构时间序列模型,并调整对照组和实验组之间的⼤⼩差异后构建综合时间序列基线,最终预测反事实结果。即如果没有上线这次的产品改版,那么产品指标该是如何⾛向。那么这次的产品改版对指标的影响⼤⼩即是真实值(产品改版后的指标值)和预测值(预测没有改版该时期的指标值)的差距。
2.2 用户行为分析、和用户质量评估
可以以「大盘未参活用户」、「同期同类活动」、「往期同类活动」分别作为对比基准,基于用户行为漏斗、留存率、核心行为pv、人均使用时长等指标,识别本次促活策略是否有薅羊毛或者作弊严重的渠道,并评估活动参与用户质量好坏。
