主题：葫芦僧乱判葫芦案 -- 煮酒正熟

共:💬133 🌺93 新:

经济管理

分页树展主题 · 全看下页末页

家园 葫芦僧乱判葫芦案
老美优秀起来是真优秀，葫芦起来也是没边儿没沿儿的。昨天和两个兄弟陪director 参加某美国服装名牌的营销会议，做最后一次努力。结果遇到这位葫芦僧，终于明白为什么美国会有小布什那样的葫芦总桶了。
其实我们要sell的idea是我们这个行业里再寻常不过的了，就是让他们发行PLCC (Private Label Credit Card)。这种信用卡与咱们平时用的Visa、Master卡不太一样，它是某一个名牌零售公司发行的，你只能在这个公司的店里消费时才能用，在其他场所不能使用，当然凭此卡第一次消费时可以享受较为优厚的折扣，还有credit line。这种方式可以更好地实现customer retention，就是留住消费者，避免消费者离开自己而投奔竞争品牌，这样有望一辈子或至少是长期得到他们的惠顾。
为什么发行那种塑料卡就能达到这个效果，有很多学院派书籍都给出了解释，我就不赘了。解释归解释，那只是逻辑推演，光有这个是无法说服用户的，关键是要提供实际证据。
为了获得这一证据，我们帮这家公司做了半年的工作。这家公司与所有其他美国名牌公司一样，对自己的消费者都有“细分”，就是segmentation。最常见的segmentation上是基于RFA。R是recency，就是说消费者最后一次惠顾是多少天以前，这个数字越小，R得分就越高；F是frequency，就是消费者在一定时期内 (通常是一年，但我们这个具体案例是半年) 来惠顾的次数或频度，这个数字越大，F得分就越高；A是average dollar spent per visit，就是每次惠顾所花费的金额，这个数字越大，A得分就越高。然后将每个消费者的三项得分按一定权重相加，这样就得出了一个RFA Score。将所有消费者的RFA Score进行大排名，排名在 top 10% 的消费者，就是 decile 1，排名在 top 11-20%的就是decile 2，依此类推直到 decile 10。一般来说，decile 8 以后的那些消费者，公司从他们身上是赚不到钱甚至还要亏钱的，公司70%的销售额和80%的盈利都来自the top two deciles。
当然还有其他细分的方式，包括基于demographic or psycho-graphic or behavior 的细分。
经过细分后，同一decile里的消费者是比较同一的，彼此差异性不大；而一个decile里的消费者与另一decile里的消费者之间却有着很大的差异性, in the ball park.
我们为这家客户做的工作，就是针对他们的decile 1，也就是最好的消费者群体，从中随机选了5,000位消费者，建议他们用PLCC，其中大约3,000位接受了建议，开始用了我们的PLCC卡。这3000人是我们的“实验组”(Test Group)。然后我们从那初始的5,000人之外又随机挑选了3,000人，没有给他们建议PLCC，只是进行监控；这三千人是我们的“对照组”(Control Group)。
这两个组，严格从逻辑意义上来讲，有两点不同：
(1) 实验组使用了PLCC卡，对照组没有使用。
这一点不同是我们人为有意设计的，目的就在于观察消费者从无卡变成有卡，这一变化对其消费行为有无影响。
(2) 实验组的成员总体上可能比对照组的成员更愿意接受多一个信用卡所带来的麻烦(按时付帐单等等)，另外他们也比对照组的消费者更相信自己将来会在这个店里有很多消费，所以他们愿意承受多一个卡的麻烦以享受今后有可能专门提供给他们的特殊折扣。
从这个意义上讲，实验组成员有可能比对照组成员天生就是更高质量的消费者 (仅对这一品牌而言)。这种消费质量上的差距，是我们的实验设计所根本无法避免的因素。虽然无法避免，但我们可以尽量缩小这种差距。我们之所以要在初始5000人之外另选3000人为对照组，而不是直接将那5000人中拒绝我们PLCC卡的那2000人作为对照组，目的就在于要缩小这种质量上的差异。
这里的逻辑其实只要是考过纪阿姨或继马特的同学们都是可以轻松理解的。
半年之后分析数据，发现我们的实验组比对照组，无论是recency，还是消费频度(frequency)，还是单次惠顾消费额(average dollar spent per visit)，都有明显的提高，总体效果上提高了28%！
当我们昨天拿着这个分析结果去向用户(就是那个大品牌) 论证发行PLCC会提高营业额和利润率时，对方那个葫芦VP就是不买账。这葫芦说，你们选的那3000人实验组，本来就是俺们最好的消费者！即使你对他们什么都不做，他们也照样会比那个对照组高出28%！
于是我们再拿出事先精心准备的一套数据来，告诉他，这两个组的人都是在您的 decile 1 里挑选出来的，他们都是您的最好消费者，他们之间的差异性很小。更具体地讲，您的decile 1 里，RFA Score排名第一的那位消费者虽然比排名最后的那位消费者总分高了35%(要大于28%)，但你排名前3000的消费者的平均RFA Score 比排名后3000的消费者的Score，只高出20%，要低于现在28%的差距。而且我们选的那两组，对照组是完全随机的，实验组也离随机不远，这两个组之间的天生差异性远远小于20%，而现在两组表现出的差异性却高达28%！按照逻辑，如此高的差异性只能归结于PLCC卡的因素。
同时我们还提供了相关的 statistical analysis results，包括minimum sampling size，以及P-value等等。
结果那葫芦依然坚持说，你们这些分析我没时间仔细看，也不想看，我不认为用卡就真的能促进消费。也许你们那个实验组的消费者碰巧在这半年里因为自身的需求而提高了消费水平呢，你们说发行了那个塑料卡就提高了他们的消费，证据不足。
面对如此葫芦乱判，俺们的 director 同志孤注一掷地提出：那我们再为你重复这个实验如何？我们另外随机挑两个组？结果那葫芦说我不相信什么随机。
俺们的director最后提议，如果你不愿承担这个风险，我们公司可以承担正式发行PLCC卡后一年的发行和管理费用，让你们公司无风险运作一年，如果效果不佳，可以停止发行，与此相关的发行和管理费用都由我们公司承担！说实话我们公司在业内那也是人前显圣傲里多尊的主儿，要不是跟这家公司颇有渊源 (从前都是LBI 旗下的)，才不会这么哈着他们呢！
结果您猜怎么着？那葫芦把大白脑袋一晃：No thanks. We'll take full responsibility of our own business decision.
--------------------------
回来以后哥儿几个一边吃午餐一边说这个事儿，都气得直乐。Director告诉我们，这种不相信实验-对照组理念、不相信incrementality 理念的人，在美国知名大品牌的高层营销主管人员中可不是少数，我们公司的另两个用户也是一秋之豹！
- 复葫芦僧乱判葫芦案
  家园 统计设计和理解小有问题
  私下讨论先。
  - 复统计设计和理解小有问题
    家园 自我辩护一哈~
    1 实验设计不是我，是我们的Advanced Analytics部门的数学博士兼统计学博士设计的，他的实力在公司内部受到高度承认。另外他组建并领导的竞赛小组，在正常工作的情况下，依然获得业内统计学模型竞赛的第四名(参赛公司近40家)。
    另外，我的一位好友在Merkle，也是业内顶级公司。他们所使用的实验方式与我们的完全一样。
    老兄是医学领域的，所谓隔行如隔山，您是更相信一个领域中很多家公司长期通用的方法呢，还是更相信少数不懂统计学也不相信Test-Control Groups理念的VP的直觉呢？
    2 我前文没有交待清楚(实际应该说当时我自己也没琢磨清楚)。事实是，RFA Scoring都是categorical，根本不是工业和医学领域的测量值，所以计算standard deviation 或者variance(前者平方)，does not make any sense.
    至于前文说的28%等数字，那个指的是消费金额方面的差异。这个差异的P-value极小，说明两组的差异远远大于两组的振幅，为什么不能归结于“外力”作用呢？
    - 复自我辩护一哈~
      家园 统计原理在哪里都是一样的。
      我无意质疑他们的资历。我质疑的只是具体的施行。简单的说，由于你们的样本不同质，差异的原因不能想当然的归于处理因素。这跟统计博士没有任何关系。统计就是一份事实说一份话的干活。
      这个差异的P-value极小，说明两组的差异远远大于两组的振幅，为什么不能归结于“外力”作用呢？
      这个差异可以由组内因素引起。你的P-value只能用于说明两组之间有差异。不能说明引起差异的原因。建议你读一下F检验的原理和来由。你也可以把你们的统计过程贴出来，我们也好仔细合计合计
      - 复统计原理在哪里都是一样的。
        家园 继续继续
        首先，两个组严格来说确实不同质，但两组间本身差异非常小(Test大约比Control 优1-3%)。
        加了外力后，两组差异变得非常大(28%)。
        由此依然可以推出外力作用在统计学上的有效性。
        其次，我们后来将Test组中的3000人与另2000拒绝使用PLCC的人合在一起，计算总的消费金额。
        这5000人已与control那3000人同质了，所以具有完全可比性。
        这样的比较结果大约是26-27%。怎么能否定外力的有效性呢？
        复继续继续
        家园 统计不是这样做的吧？
        ，。
        加了外力后，两组差异变得非常大(28%)。
        由于持卡的麻烦，我们根据常识判断，愿意持卡并真正查卡的人群，消费意愿本身可能就很高昂。你的实验组由于都是此类均一人群，score 高并不奇怪。你的对照组如果不愿持卡的人占多数，score 低当然就有可能。
        不知道，
        但两组间本身差异非常小(Test大约比Control 优1-3%)。
        加了外力后，两组差异变得非常大(28%)
        。
        你们这个比较怎么做的，（均数比较？若是也没有意义）你若可能，你把你的统计步骤一次贴在这里以便讨论。
        这5000人已与control那3000人同质了，所以具有完全可比性。
        统计不是想当然，你不能觉得同质均一了就同质均一了，你还没有作齐性检验。何况你们这个补充调查是事后做的，就这样叫人家掏钱，也未免太强了点。呵呵。
        复统计不是这样做的吧？
        家园 老兄请再仔细看看我的原文
        我们是在同一类消费者中随机抽取了五千作为A组，另外随机抽取三千为C组。由于
        是随机抽取，因此A、C理论上是同质的(当然存在样本差异)。
        C组是我们的control group.
        然后A组中，只有三千人愿意用卡。这三千人我们称为T组。
        如果用这三千人作为test group，与C组进行比较，当然有问题。但并非不能得出正
        确结论。
        我们的历史记录现实，T组这三千人，在消费金额上只比C组的三千人高1-3%。所以
        虽然两组不同质，但差异很小。
        而用卡以后T组消费金额超过C组28%！这还不说明问题么？
        最后，我们将T组三千人与那两千拒绝用卡的人合并到一起，等于就是初始的A组。
        而这个A组与C组在理论上是同质的，因此是可比的。
        A组在其中三千人用卡两千人未用卡的情况下，消费金额高出C组26%以上！这还不说
        明问题么？
        复老兄请再仔细看看我的原文
        家园 我个人觉得两组不同质的担心仍然存在
        个人觉得合理的办法是你在A组中愿意用卡的3k用户里面，只给1.5k用户发卡，然后对照这两个1.5k用户的结果。申请卡都有被拒可能，所以只发50%也不会有什么问题。
        复我个人觉得两组不同质的担心仍然存在
        家园 As I said before it's not viable
        In theory, what you've suggested is fine. But in reality, it's just not correct.
        By turning down those 1,500 best customers of their right to use PLCC, you'll piss them off and hurt their loyalty to your brand. A certain percentage of these customers would switch to your competing brands and that's the least thing that you wanna see.
        Secondly, from a pure theoretical stand point, the very act of denying the cards to those 1,500 people actually changes the quality of these people. To be more specific, this will hurt their loyalty, emotional attachment, and the passion associated with your brand, hence turn them to a lower quality group. In other words this group is no longer the group before! And you're still using them as the control group?? In this case you would over-estimate the impact of the card.
        So the only theoretically correct and practically viable and appropriate approach is, you first randomly pick 5,000, propose the card to them, and let them decide at their free will. Then you'll have two groups of customers, the first group, say, 3000 people, being those who choose to use the card, and the second group (2,000) who choose not to use the card. These 3000 plus 2000 would be your Test Group.
        Then you pick another 3000 people who belong to the same decile but are mutually exclusive from those 5000. This will be your control group.
        Then you evaluate the performance of the whole Test Group (not only those 3000 card users) and the Control Group, do the comparisons and then draw a conclusion. This is exactly what we're doing right now, and the difference is more than 26%.
        I don't see any flaws here. Can you?
        复我个人觉得两组不同质的担心仍然存在
        家园 估计用的是t 检验
        t 检验的原理之一就是比较两样本的均数是否一致。前提是样本来自总体并同质（符合总体分布，通常大样本都可以认为是正态分布，但这里不一样）。所以我觉得统计思想大有问题。再有，不能说同质就同质了，一定要有统计分析为依据。嗬嗬，统计认真起来，蛮有意思的，不是一个p 小于0.05 就搞定的。
        复估计用的是t 检验
        家园 I think you're missing the point
        No one would use t-statistic or F-statistic to draw a conclusion without checking the underlying assumptions.
        If I remember correctly, the underlying assumptions include (but may not be limited to):
        1. Normality;
        2. Equal variance (or stable variance);
        3. Linearity (no curvature)
        4. no influential outliers
        I didn't check the Statistics text book so I may miss one or two.
        Assumptions checking can be done by the method of residual analysis.
        What I'm trying to say here is that, these are the very basic knowledge in statistics. I do not hold any degree in statistics, but I still know that I need to check these assumptions before drawing a conclusion. I just can't imagine that my colleague in the Advanced Analytics team who holds PhD in mathematics and statistics would NOT know this. I think you might have been too subjective in reaching a conclusion that what our company does is not correct.
        复 I think you're missing the point
        家园 那你给说说你们怎么满足第一和第二条的把
        你总是说你们的统计博士不会犯这样的错。我也不认为他们在制定protocol时会在这么简单的问题上有任何错误。问题是统计操作人员在选取样本的时候不知道他们在做什么，也不知道为什么这样做，对统计后面的思想和适用范围并不了然。我对spss和sas比较熟，见过初学统计的人在上面犯的钱其百怪的错误。
        在我看来，你们这个统计过程的错误是很明显的，你们作报告的时候比较的根本不是同一个总体（在你上一个帖子讲的方法开始往正确的方向行走了，但还有点问题。你也解释了取样如何困难等等。然而作为受众，我们关心的是你的统计过程和统计结论。取样的困难不意味着可以不恰当的延伸你的结论。统计是一份材料一分话，任何的延伸只会削弱结论的可信度）。我觉得老是引证统计博士如何如何没什么意思。你考过gmat,应该知道这对加强你的结论没有任何意义。这样的统计知识，国内本科就应该掌握，国外，是研究生的初级课程。不过一般人若不经常用，在此范迷糊可能也不奇怪。
        我看了你昨晚的最后一个贴子。一些讲法，印证了我的看法，你对t 检验，齐性检验的原理理解似乎没有到位.本贴里，你又说 Assumptions checking can be done by the method of residual analysis.。更是不知从何说起。
        我本来是在短信和你探讨的，公开讨论非我所愿。我没有任何不敬的意思。如我短信所言，美国很多资深的医生在这里也常犯错误。据我所知，这不妨碍他们是很好的医生。
        若有唐突，一笑置之可也。
        复那你给说说你们怎么满足第一和第二条的把
        家园 the other thing is
        It's really not something special, it's pretty much the same stuff that people in the whole industry are doing. If you challenge one specific analyst in our company that's fine. But since this is something really common in our industry, you're actually challenging all the statistics experts, and that' where I find a bit unaccetable.
        By the way, just did a quick check and found that Levene test is for checking the equal variance assumption.
        http://www.itl.nist.gov/div898/handbook/eda/section3/eda35a.htm
        The macro for levene test.
        /*************************************************************************/
        /* This macro tests the Equality of Variances for a Response Variable */
        /* using the Levene Test and is available for use on the ASU's */
        /* Research/Statistics UNIX cluster. */
        /* */
        /* The following SAS macro takes as input: */
        /* - the name of a Classification or Grouping Variable */
        /* - the name of the Dependent Variable to be analyzed */
        /* - the name of the SAS Data Set containing the above two variables */
        /* */
        /* It uses SAS PROC GLM to perform Levene's Test for Homoscedasticity. */
        /* */
        /* References: */
        /* Madansky, Albert, Prescriptions for Working Statisticians, 1988, */
        /* New York: Springer-Verlag. */
        /* Miller, Rupert G., Jr., Beyond ANOVA, Basics of Applied Statistics,*/
        /* 1986, New York: Wiley. */
        /* */
        /* Example of a statement to call the macro below: */
        /* %LEVENE(gp_varname,dp_varname,ds_name); */
        /* where */
        /* gp_varname is the name of the grouping variable to be tested, */
        /* dp_varname is the name of the dependent variable to be tested */
        /* for homoscedasticity, */
        /* ds_name is the SAS data set name given in the DATA step. */
        /* */
        /* The MACRO can be called in your SAS program as indicated below: */
        /* */
        /* OPTIONS SAS_system_options; */
        /* DATA ds_name; */
        /* INPUT gp_varname, dp_varname; */
        /* (rest of your SAS statements) */
        /* . */
        /* . */
        /* RUN; */
        /* TITLE "Your choice of title"; */
        /* %LEVENE(gp_varname,dp_varname,ds_name); */
        /*************************************************************************/
        OPTIONS NONOTES NOSOURCE NOSOURCE2; /* suppress usual echoing, and */;
        OPTIONS ERRORABEND; /* abort job if the macro fails */;
        %Macro Levene(Gp_var,Dp_var,DSet);
        Proc GLM Data=&DSet;
        Class &Gp_var;
        Model &Dp_var=&Gp_var;
        Means &Gp_var/HOVTest;
        ODS select HOVFTest;
        Run;
        Quit;
        %Mend Levene;
        复 the other thing is
        家园 嗬嗬，没有什么不可接受的
        我不是在挑战什么专家。我只是在阐述一个最基本的统计原理罢了。跟随原理出发，我觉得不会错在哪里去。我们可能和你们不太一样。每次作报告，尖锐地批评到处都是，我们都是很正面地看待这些的。不会认为这是对整个行业的挑战。如我再三强调，统计只有一个，即使你们有行业特殊性，但对不同总体的样本进行比较，又没有任何的同质均一性的分析，那我只能说你们的行业太特殊了。
        PROTOCOL 本身没错，只不过在执行理解过程中会出偏差。
        另外诚恳地说一句，齐性检验的方法有很多种。你举的方法只是其一。弄一段程序出来不能帮助你理解后面的原理。最好的方法还是弄懂其中的原理，这样就一通百通了，也会搞明白各种方法的优缺点以及为什么这样做。
        我的意见你可以不接受，可能我说的却有不对的地方，以后我们慢慢提高吧。我对我们肺科医生的类似统计评论只用了两分钟，他们的PI现在看见我老远就打招呼。我在这儿打字其实也不图什么，西西河就是开心的地方。你若因为我的评论而加深了对你们统计方法的了解，那就再好不过了，即使我说的是错的。
        复嗬嗬，没有什么不可接受的
        家园 I'm not a statistician
        So I may not be able to discuss statistics in detail. But I have general trust in our folks in the Advanced Analytics team. I have no problem at all with your challenging on statistical analysis method. The thing is, you don't yet know the bolts and nuts in our industry and our company, it's very likely that your challenge is just not valid. I have no doubt that you can always come up with great insights in your own research area, with the combination of an excellent knowledge about your subject and a solid understanding in statistics. Yet without the specific knowledge in another industry and research area and equipped only with statistics knowledge, it's likely to fall when making a challenge or judgment.

分页树展主题 · 全看下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明