科学的用户研究,少不了科学的用户招募:
用户招募的三个步骤:
- 确定目标用户;
- 确定样本配额;
- 确定合适的样本量。
如何确定合适的样本量呢?
- 问卷:样本量至少是题量的5~10倍,且不能少于30份。
- 访谈:可以边访谈边总结,直到找到相对稳定的数据样本,问不到新的信息了。
- 可用性测试:按照尼尔森的理论,5个人就基本能找到85%的问题了,性价比较高。
去哪找到用户呢?分为三种情况:
- 如果已经有用户库那就很方便了。
- 如果是临时招募用户:渠道也有很多,关键在于灵活充分地利用资源。
- 用产品渠道解决,例如在产品banner投放问卷;
- 用企业资源解决,例如企业公众号推送;
- 用经济手段解决,例如找咨询公司;
- 用人脉解决,例如发朋友圈;
- 用用户资源解决,例如通过用户介绍用户;
- 用线下方式解决,例如蹲点拦用户;
- 如果是产品还没有用户的情况:找对标竞品的用户、产品潜在用户、“培养一批目标用户”。
问卷:
适用场景:
- 态度型信息:满意度调研、NPS调研、视觉/内容风格偏好、版本效果对比...
- 行为型信息:需求挖掘、用户使用情况、过往使用行为...
- 意见型信息:产品意见反馈、售后意见反馈、就餐意见反馈...
- 还可以用于“用户招募”。
关键点:
- 题目:题目设计、题目顺序、逻辑跳转。
- 选项:选项设计、选项顺序或选项随机(“其他”不参与随机)、选项排他(例如选了“没有付费过”,其他选项就不能同时选)。
- 开场/结束语:关键要体现——感谢、保密、时长短、礼品、认真作答。有些信息甚至可以标红。
- 数据分析:描述性统计、交叉分析、因子分析、回归分析、聚类分析、相关分析。
- 可视化结论:图表的选择。
样本量:
- 样本量至少是题量的5~10倍(当你的问卷需要做因子分析)。
- 保证细分群体样本量大于100,如果确实没办法,最低要大于30(当你需要研究细分群体的情况,这样做差异检验的条件都满足)。
样本配额:
- 控制影响问卷结果的关键要素,例如男女/岗位比例。
- 当回收清洗后的数据和配额不完全一致时,可在SPSS里进行加权,以达到样本纠偏的目的。例如每个用户算作0.88个人,或算作1.23个人。
题量:
- 移动端题目数量控制在30题以内(20题以内,用户的感受会比较好)。
- PC端题目数量控制在40题以内。
- 答题时长控制在 5 分钟以内。
怎么样控制题目数量?
- 删减目的性不强,重要性不高的题目。
- 拆成多个问卷,分期、分主题进行。
- 主观题尽量允许用户跳题。
- 降低用户的认知成本:推敲措辞,简洁/易理解/无歧义、标注【多选/单选/可跳过/最多选择几个...】、备注-举例/解释/配图、关键词加粗/标红...(投放前,内部先测试一下)
题目顺序:
- 先封闭题,后开放题。
- 重要的题目靠前。
- 敏感题目-个人信息等靠后。
- 先容易,后困难。
- 前后逻辑关系清晰。
防作弊,进行数据清洗:
- 非公开问卷,精准投放。
- 目标用户甄别题。例如选了“没用过”的用户就不是目标用户。
- 防作弊题。例如请在以下选项中选择“我爱中国”。
- 答题时长监控。
- 同选项监控。
- 账号去重。
访谈:
1、围绕目的,【结构化】访谈大纲。
2、要想获得有价值的增量信息,一定要【追问】:
- 要求定义、举例、对比、缺失。
- 属性、利益、目的、价值观。
- 适当留白/“还有吗?”,让用户自发说更多。
- 表示澄清,确定理解了用户的意思。
- 证据确认,是用户的主观想法,还是真实行为,
3、访谈分析与报告撰写:
内容切割,赋予概念,构建框架,报告撰写。
先定性挖掘,再定量验证:
需要特别注意的是,访谈中得出的任何结论,都不可以作为最终定论。尤其是在“特殊人群”身上发现的洞察,就更需要谨慎验证。
可用性测试:
通过观察有代表性的用户,完成产品的典型任务,而界定出可用性问题,并解决这些问题,目的是让产品用起来更容易。
可用性测试的适用场景:挖掘体验问题,优化改进。
- 使用某功能模块——提升体验
- 不使用某功能模块——有需求——体验不好
可用性水平:
- 有效性:完成目标
- 效率:快速地完成目标
- 满意度:满意且快速地完成目标
可用性测试任务:
- 根据尼尔森的理论,测试5个(或3~6个)有代表性的用户,就可以发现大部分的可用性问题了。
- 选3~5个高频/典型任务,时间在40分钟以内。
- 编写真实的任务场景:
错误:“如果分类导航去掉了,你觉得怎么样?”
正确:“你打算去北京西站接站,临行前,你打开百度搜索的首页,准备查找「北京西站」地图”
正确:“我们临时决定需要和上海团队发起一场会议。现在我们到了A会议室,请你使用会议室内的设备尝试呼叫xx会议室” - 用户执行结果:
成功:独立完成、独立完成但有痛点
失败:指导后完成、无法完成 - 可用性问题优先级排序:是否属于核心功能。是否难以解决。是否持续出现。
尼尔森十大可用性原则:(更多用于 “走查” 。)
- 状态可见性原则
- 贴近用户真实环境原则
- 自由控制原则
- 一致性和标准化原则
- 防错原则
- 识别而非记忆原则
- 灵活高效原则
- 美观简洁的原则
- 帮助用户从错误中恢复原则
- 人性化帮助原则
NPS净推荐值:
由Fred Reichheld(贝恩公司董事)在2003年发表于《哈佛商业评论》的《The One Number You Need to Grow》这篇文章中提出。
- 衡量顾客忠诚度,预测业务增长的最强指标之一。
- NPS = 推荐者% - 贬损者%
- the right question:“How likely is it that you would recommend [company X] to a friend or colleague?” “ 您有多大意愿向您的朋友推荐XXX产品?”
- 衡量等级:0分 非常不愿意 ~ 10分 非常愿意。10或9分是推荐者、8或7分是被动者、6~0分是贬损者。
- 影响因子:在推荐意愿选择后,再追加问题:10或9分问“推荐的主要理由是什么?”、8或7分问“我们在哪些方面改善可以让您更愿意推荐”、6~0分问“不推荐的主要理由是什么?”。
对比:
- 与不同竞品/行业基准的NPS对比。
- 细分用户的NPS对比。(例如用户属性:全量/付费/性别/年龄…)
- 产品不同模块/业务线的NPS对比。(例如滴滴的顺风车、专车、快车…)
- 长期追踪的NPS对比。(例如各年、季、月…)
- 影响因子分析:推荐因子、贬损因子。
避免样本偏差:
- 尽量使用相同渠道、相同样本量。
- 关注同时参与多次调研的用户的数据。
- 调研回应率较低时,NPS存在很大偏差风险,因为不回应者往往是被动者或者贬损者。
满意度:
- 这篇文章批评了当时复杂的顾客满意度调查方法,这些方法往往产生难以解读或行动的数据。
满意度评估:
- 用户的 “实际体验” 与 “预期” 的比较后的心理感受,通过数字来度量就成了满意度。
- 更适用于较成熟的产品。
- 调研时机:季/半年/年。不要在重大改版后立即调研,可以一个月后再调研。
如何搭建 “满意度模型”?
- 提指标
- 设权重
- 定问卷
- 得结论
5 颗粒度:
- 非常满意、比较满意、一般、比较不满意、非常不满意(可以再加上 “没用过” 这个选项)
计算方式:
- 百分比:非常满意% + 比较满意%。
- 5分制:求均值。(非常不满意1分,非常满意5分,以此类推)
满意度维度:
- 总体满意度
- 细分满意度:
满意度体系:按照模块/子功能,或功能/体验/视觉,或其他角度去拆解,分别评估各个满意度。
权重:每个细分可以有不同的分数权重
满意度与权重交叉的四项限:优势保持区、亟待改进区、锦上添花区、次要改进区。 - 竞品满意度
国际上通行的测评标准:
- CSI · Customer Satisfaction Index · 顾客满意度指数
- for 中国的:C-CSI · China Customer Satisfaction Index
- 更多应用于快消品,有行业报告公开数据。
A/B 测试:
是一种测试不同设计版本如何影响页面的方法,在新设计全部运用之前获得数据以数据来支持决策。
优势:
相较于传统新旧版本各一实验周期的方法,可以很好地避免由于时间不同而引起的用户样本属性变化的问题,在更短的时间内得出结论,并且所得出的结论更有可对比性。
适用情况:
在线产品进行大量控制实验代价低且可控性高,很适合进行AB测试。但对于含较重要线下环节的产品,以及迭代周期较长的产品,AB测试的可用性低。
步骤:
1、建立假设:A/B测试一定要基于假设,如果成功了,你应该能说出为什么,而不仅仅是什么。
2、设定实验指标。
3、设计实验方案:
- 分解实验变量:单变量测试 vs 多变量测试。拿优化按钮样式来举例,可以考虑优化按钮颜色、位置、形状。如果优化其中一种,就是单变量测试,例如a1红色/a2蓝色/a3绿色,或b1上方/b2中部/b3底部。如果同时优化两种或三种,就是多变量测试,例如a1b1 / a1b2 / a1b3… 如果变量之间有强烈的关联,就需要多变量测试;越到成熟期的产品越推荐单变量测试。
- 多维度排列优先级:指标>指标提升的可能性>“从大到小”的思路,先做大优化,再做小细节优化>实现难度。
- 可视化时间安排:时间、实验目的、实验假设、实验设计、实验结果及实验结论。
4、创建实验:
做实验需要考虑时间周期,不能看几天数据就盲目判断结果。
流量比例和量级直接决定了实验结果是否有效。由于A/B测试直接使用线上生产环境的流量,切得太多,风险又太高;切得太少,可能导致结果不准确。解决方法:
- 灰度发布,例如从1%,慢慢扩大到2%、5%、10%…(若实验效果达到预期)直至扩大到全体。
- 分桶测试,把流量分成3份,一份90%,剩下两份各5%,用第二桶流量和第三桶流量进行测试对比。
5、分析实验结果:
用在 A/B 测试里,置信区间可以简单地理解成是用来表示实验的误差范围的。经过测量,我们得知小明的智商是 140,测量误差是±10。也就是说,小明智商数值的区间是[140-10,140+10]。
在抽样调查中,样本能在多大程度上代表总体?这个问题本质上就是想知道数据统计的误差范围是多少,也就是置信区间。
常用的置信水平是 95%或99%。也就是说,如果我们能证明 B 版本比 A 版本好的概率在 95% 以上,就可以认为 B 版本更好了。
明确实验结果后,还要分析背后的原因。
