用户研究方法

科学的用户研究，少不了科学的用户招募：

用户招募的三个步骤：

确定目标用户；

确定样本配额；

确定合适的样本量。

如何确定合适的样本量呢？

问卷：样本量至少是题量的5~10倍，且不能少于30份。

访谈：可以边访谈边总结，直到找到相对稳定的数据样本，问不到新的信息了。

可用性测试：按照尼尔森的理论，5个人就基本能找到85%的问题了，性价比较高。

去哪找到用户呢？分为三种情况：

如果已经有用户库那就很方便了。

如果是临时招募用户：渠道也有很多，关键在于灵活充分地利用资源。

用产品渠道解决，例如在产品banner投放问卷；

用企业资源解决，例如企业公众号推送；

用经济手段解决，例如找咨询公司；

用人脉解决，例如发朋友圈；

用用户资源解决，例如通过用户介绍用户；

用线下方式解决，例如蹲点拦用户；

如果是产品还没有用户的情况：找对标竞品的用户、产品潜在用户、“培养一批目标用户”。

问卷：

适用场景：

态度型信息：满意度调研、NPS调研、视觉/内容风格偏好、版本效果对比...

行为型信息：需求挖掘、用户使用情况、过往使用行为...

意见型信息：产品意见反馈、售后意见反馈、就餐意见反馈...

还可以用于“用户招募”。

关键点：

题目：题目设计、题目顺序、逻辑跳转。

选项：选项设计、选项顺序或选项随机（“其他”不参与随机）、选项排他（例如选了“没有付费过”，其他选项就不能同时选）。

开场/结束语：关键要体现——感谢、保密、时长短、礼品、认真作答。有些信息甚至可以标红。

数据分析：描述性统计、交叉分析、因子分析、回归分析、聚类分析、相关分析。

可视化结论：图表的选择。

样本量：

样本量至少是题量的5~10倍（当你的问卷需要做因子分析）。

保证细分群体样本量大于100，如果确实没办法，最低要大于30（当你需要研究细分群体的情况，这样做差异检验的条件都满足）。

样本配额：

控制影响问卷结果的关键要素，例如男女/岗位比例。

当回收清洗后的数据和配额不完全一致时，可在SPSS里进行加权，以达到样本纠偏的目的。例如每个用户算作0.88个人，或算作1.23个人。

题量：

移动端题目数量控制在30题以内（20题以内，用户的感受会比较好）。

PC端题目数量控制在40题以内。

答题时长控制在 5 分钟以内。

怎么样控制题目数量？

删减目的性不强，重要性不高的题目。

拆成多个问卷，分期、分主题进行。

主观题尽量允许用户跳题。

降低用户的认知成本：推敲措辞，简洁/易理解/无歧义、标注【多选/单选/可跳过/最多选择几个...】、备注-举例/解释/配图、关键词加粗/标红...（投放前，内部先测试一下）

题目顺序：

先封闭题，后开放题。

重要的题目靠前。

敏感题目-个人信息等靠后。

先容易，后困难。

前后逻辑关系清晰。

防作弊，进行数据清洗：

非公开问卷，精准投放。

目标用户甄别题。例如选了“没用过”的用户就不是目标用户。

防作弊题。例如请在以下选项中选择“我爱中国”。

答题时长监控。

同选项监控。

账号去重。

访谈：

1、围绕目的，【结构化】访谈大纲。

2、要想获得有价值的增量信息，一定要【追问】：

要求定义、举例、对比、缺失。

属性、利益、目的、价值观。

适当留白/“还有吗？”，让用户自发说更多。

表示澄清，确定理解了用户的意思。

证据确认，是用户的主观想法，还是真实行为，

3、访谈分析与报告撰写：

内容切割，赋予概念，构建框架，报告撰写。

先定性挖掘，再定量验证：

需要特别注意的是，访谈中得出的任何结论，都不可以作为最终定论。尤其是在“特殊人群”身上发现的洞察，就更需要谨慎验证。

可用性测试：

通过观察有代表性的用户，完成产品的典型任务，而界定出可用性问题，并解决这些问题，目的是让产品用起来更容易。

可用性测试的适用场景：挖掘体验问题，优化改进。

使用某功能模块——提升体验

不使用某功能模块——有需求——体验不好

可用性水平：

有效性：完成目标

效率：快速地完成目标

满意度：满意且快速地完成目标

可用性测试任务：

根据尼尔森的理论，测试5个（或3～6个）有代表性的用户，就可以发现大部分的可用性问题了。

选3～5个高频/典型任务，时间在40分钟以内。

编写真实的任务场景：
错误：“如果分类导航去掉了，你觉得怎么样？”
正确：“你打算去北京西站接站，临行前，你打开百度搜索的首页，准备查找「北京西站」地图”
正确：“我们临时决定需要和上海团队发起一场会议。现在我们到了A会议室，请你使用会议室内的设备尝试呼叫xx会议室”

用户执行结果：
成功：独立完成、独立完成但有痛点
失败：指导后完成、无法完成

可用性问题优先级排序：是否属于核心功能。是否难以解决。是否持续出现。

尼尔森十大可用性原则：（更多用于 “走查” 。）

状态可见性原则

贴近用户真实环境原则

自由控制原则

一致性和标准化原则

防错原则

识别而非记忆原则

灵活高效原则

美观简洁的原则

帮助用户从错误中恢复原则

人性化帮助原则

NPS净推荐值：

由Fred Reichheld（贝恩公司董事）在2003年发表于《哈佛商业评论》的《The One Number You Need to Grow》这篇文章中提出。

衡量顾客忠诚度，预测业务增长的最强指标之一。

NPS = 推荐者% - 贬损者％

the right question：“How likely is it that you would recommend [company X] to a friend or colleague?” “ 您有多大意愿向您的朋友推荐XXX产品？”

衡量等级：0分非常不愿意～ 10分非常愿意。10或9分是推荐者、8或7分是被动者、6～0分是贬损者。

影响因子：在推荐意愿选择后，再追加问题：10或9分问“推荐的主要理由是什么？”、8或7分问“我们在哪些方面改善可以让您更愿意推荐”、6～0分问“不推荐的主要理由是什么？”。

对比：

与不同竞品/行业基准的NPS对比。

细分用户的NPS对比。（例如用户属性：全量/付费/性别/年龄…）

产品不同模块/业务线的NPS对比。（例如滴滴的顺风车、专车、快车…）

长期追踪的NPS对比。（例如各年、季、月…）

影响因子分析：推荐因子、贬损因子。

避免样本偏差：

尽量使用相同渠道、相同样本量。

关注同时参与多次调研的用户的数据。

调研回应率较低时，NPS存在很大偏差风险，因为不回应者往往是被动者或者贬损者。

满意度：

这篇文章批评了当时复杂的顾客满意度调查方法，这些方法往往产生难以解读或行动的数据。

满意度评估：

用户的 “实际体验” 与 “预期” 的比较后的心理感受，通过数字来度量就成了满意度。

更适用于较成熟的产品。

调研时机：季/半年/年。不要在重大改版后立即调研，可以一个月后再调研。

如何搭建 “满意度模型”？

提指标

设权重

定问卷

得结论

5 颗粒度：

非常满意、比较满意、一般、比较不满意、非常不满意（可以再加上 “没用过” 这个选项）

计算方式：

百分比：非常满意% + 比较满意%。

5分制：求均值。（非常不满意1分，非常满意5分，以此类推）

满意度维度：

总体满意度

细分满意度：
满意度体系：按照模块/子功能，或功能/体验/视觉，或其他角度去拆解，分别评估各个满意度。
权重：每个细分可以有不同的分数权重
满意度与权重交叉的四项限：优势保持区、亟待改进区、锦上添花区、次要改进区。

竞品满意度

国际上通行的测评标准：

CSI · Customer Satisfaction Index · 顾客满意度指数

for 中国的：C-CSI · China Customer Satisfaction Index

更多应用于快消品，有行业报告公开数据。

A/B 测试：

是一种测试不同设计版本如何影响页面的方法，在新设计全部运用之前获得数据以数据来支持决策。

优势：

相较于传统新旧版本各一实验周期的方法，可以很好地避免由于时间不同而引起的用户样本属性变化的问题，在更短的时间内得出结论，并且所得出的结论更有可对比性。

适用情况：

在线产品进行大量控制实验代价低且可控性高，很适合进行AB测试。但对于含较重要线下环节的产品，以及迭代周期较长的产品，AB测试的可用性低。

步骤：

1、建立假设：A/B测试一定要基于假设，如果成功了，你应该能说出为什么，而不仅仅是什么。

2、设定实验指标。

3、设计实验方案：

分解实验变量：单变量测试 vs 多变量测试。拿优化按钮样式来举例，可以考虑优化按钮颜色、位置、形状。如果优化其中一种，就是单变量测试，例如a1红色/a2蓝色/a3绿色，或b1上方/b2中部/b3底部。如果同时优化两种或三种，就是多变量测试，例如a1b1 / a1b2 / a1b3… 如果变量之间有强烈的关联，就需要多变量测试；越到成熟期的产品越推荐单变量测试。

多维度排列优先级：指标＞指标提升的可能性＞“从大到小”的思路，先做大优化，再做小细节优化＞实现难度。

可视化时间安排：时间、实验目的、实验假设、实验设计、实验结果及实验结论。

4、创建实验：

做实验需要考虑时间周期，不能看几天数据就盲目判断结果。

流量比例和量级直接决定了实验结果是否有效。由于A/B测试直接使用线上生产环境的流量，切得太多，风险又太高；切得太少，可能导致结果不准确。解决方法：

灰度发布，例如从1%，慢慢扩大到2%、5%、10%…（若实验效果达到预期）直至扩大到全体。

分桶测试，把流量分成3份，一份90%，剩下两份各5%，用第二桶流量和第三桶流量进行测试对比。

5、分析实验结果：

用在 A/B 测试里，置信区间可以简单地理解成是用来表示实验的误差范围的。经过测量，我们得知小明的智商是 140，测量误差是±10。也就是说，小明智商数值的区间是[140-10，140+10]。

在抽样调查中，样本能在多大程度上代表总体？这个问题本质上就是想知道数据统计的误差范围是多少，也就是置信区间。

常用的置信水平是 95%或99%。也就是说，如果我们能证明 B 版本比 A 版本好的概率在 95% 以上，就可以认为 B 版本更好了。

明确实验结果后，还要分析背后的原因。