📢 转载信息
原文链接:https://www.kdnuggets.com/7-statistical-concepts-every-data-scientist-should-master-and-why
原文作者:Bala Priya C
图片作者提供
# 引言
很容易沉迷于数据科学的技术层面,比如完善你的 SQL 和 pandas 技能,学习机器学习框架,以及掌握 Scikit-Learn 等库。这些技能很有价值,但它们只能带你走这么远。如果对工作背后的统计学没有深刻的理解,就很难判断你的模型何时值得信赖、你的见解何时有意义,或者你的数据何时可能在误导你。
最优秀的数据科学家不只是熟练的程序员;他们对数据也有深刻的理解。他们知道如何解读不确定性、显著性、变异性和偏差,这有助于他们评估结果是否可靠并做出明智的决策。
在本文中,我们将探讨在数据科学中反复出现的七个核心统计学概念——例如在A/B测试、预测建模和数据驱动决策中。我们将从区分统计显著性和实际显著性开始。
# 1. 区分统计显著性与实际显著性
这是一个你经常会遇到的场景:你在网站上进行A/B测试。B版本的转化率比A版本高0.5%。P值为0.03(统计显著!)。你的经理问道:“我们应该采用B版本吗?”
答案可能会让你惊讶:也许不应该。仅仅因为某件事具有统计显著性,并不意味着它在现实世界中很重要。
- 统计显著性告诉你一个效应是真实的(不是由偶然性引起的)
- 实际显著性告诉你这个效应是否大到值得关注
假设你的两组各有10,000个访问者。A版本的转化率为5.0%,B版本的转化率为5.05%。这个微小的0.05%差异,在足够多的数据下可能具有统计显著性。但关键在于:如果每次转化价值50美元,而你每年有100万访问者,这次改进每年只能带来2,500美元的收入。如果实施B版本成本为10,000美元,那么尽管它具有“统计显著性”,但仍然不值得投入。
在P值之外,务必计算效应大小和业务影响。统计显著性告诉你效应是存在的。实际显著性告诉你是否应该关心这个效应。
# 2. 识别和解决抽样偏差
你的数据集永远不会是现实的完美代表。它总是一个样本,如果这个样本不能代表总体,无论你的分析多么复杂,你的结论都将是错误的。
当你的样本与你试图了解的总体存在系统性差异时,就会发生抽样偏差。这是模型在生产环境中失败的最常见原因之一。
举一个微妙的例子:想象一下你想了解平均客户年龄。你进行了一次在线调查。年轻客户更有可能回复在线调查。你的结果显示平均年龄为38岁,但真实平均值是45岁。由于数据收集方式,你低估了七岁。
考虑一下对报告的欺诈案件进行欺诈检测模型训练。听起来很合理,对吧?但你只看到了那些被发现和报告的明显欺诈。那些未被发现的复杂欺诈根本不在你的训练数据中。你的模型学会了识别简单的东西,却错过了真正危险的模式。
如何发现抽样偏差:尽可能将你的样本分布与已知的总体分布进行比较。质疑数据是如何收集的。问自己:“这个数据集中缺少谁或什么?”
# 3. 利用置信区间
当你从样本中计算一个指标时——比如平均客户支出或转化率——你得到一个单一的数字。但这并不能告诉你应该对该数字有多大的信心。
置信区间(CI)为你提供了一个总体真实值可能落入的范围。
95% CI 意味着:如果我们重复这个抽样过程100次,大约有95个区间会包含真实的总体参数。
假设你从20个客户那里测量了客户终身价值(CLV),平均值为310美元。95%的CI可能是290美元到330美元。这表明所有客户的真实平均CLV很可能落在这个范围内。
关键点在于:样本量对CI有巨大影响。20个客户,你的不确定性范围可能是100美元。500个客户,该范围缩小到30美元。同样的测量变得更加精确。
你应该报告:“平均CLV为310美元(95% CI: 290-330美元)”,而不是“平均CLV为310美元”。这同时传达了你的估计值和不确定性。较宽的置信区间是你在做出重大决策前需要更多数据的信号。在A/B测试中,如果CI重叠很大,则这些变体可能实际上没有差异。这可以防止根据小样本得出过于自信的结论,并使你的建议立足于现实。
# 4. 正确解释P值
P值可能是统计学中最容易被误解的概念。一个P值实际上意味着:如果原假设成立,观察到当前结果或比当前结果更极端结果的概率。
以下是它不意味着的:
- 原假设为真的概率
- 你的结果是偶然发生的概率
- 你发现的重要性
- 你犯错的概率
让我们用一个具体的例子。你正在测试一项新功能是否能提高用户参与度。历史上,用户平均每次会话花费15分钟。对30个用户推出新功能后,他们平均花费18.5分钟。你计算出的P值为0.02。
- 错误解释:“该功能无效的概率是2%。”
- 正确解释:“如果该功能没有效果,我们观察到如此极端结果的概率只有2%。由于这种情况不太可能发生,我们得出结论该功能可能有效果。”
区别微妙但很重要。P值并不告诉你你的假设为真的概率。它告诉你,如果不存在真实效应,你的数据会有多令人惊讶。
避免只报告P值而不报告效应大小。务必两者都报告。在数据量足够大的情况下,一个微小、无意义的效应也可以有一个很小的P值。在数据量太少的情况下,一个巨大、重要的效应也可能有一个很大的P值。P值本身不能告诉你你需要知道的一切。
# 5. 理解I型和II型错误
每次进行统计检验时,你都有可能犯两种类型的错误:
- I型错误(假阳性):在实际上不存在效应的情况下,得出存在效应的结论。你上线了一个实际上没有起作用的功能。
- II型错误(假阴性):错过了真实存在的效应。你没有上线一个实际上会带来帮助的功能。
这两种错误是相互制衡的。降低一种,通常会增加另一种。
考虑医疗检测。I型错误意味着假阳性诊断:一个人接受了不必要的治疗和焦虑。II型错误意味着在疾病存在时未能检测到疾病:在需要治疗时没有治疗。
在A/B测试中,I型错误意味着你上线了一个无用的功能,浪费了工程时间。II型错误意味着你错失了一个好的功能,失去了机会。
很多人没有意识到的是:样本量有助于避免II型错误。在小样本下,即使效应存在,你也常常会错过它。假设你测试一个功能可以将转化率从10%提高到12%——一个有意义的2%绝对提升。如果每组只有100个用户,你只有20%的概率检测到这个效应。即使效应真实存在,你也有80%的概率错过它。如果每组有1,000个用户,你将有80%的概率检测到它。
这就是为什么在运行实验前计算所需的样本量如此重要。你需要知道你是否真的能检测到那些重要的效应。
# 6. 区分相关性和因果关系
这是统计学中最著名的陷阱,但人们仍然不断地掉进去。
仅仅因为两件事一起波动,并不意味着其中一件事导致了另一件事。这是一个数据科学的例子。你注意到更多参与你的应用的用户的收入也更高。参与度导致了收入吗?也许吧。但也可能正是那些从你的产品中获得更多价值的用户(真正的因果),既参与度更高,收入也更高。产品价值是造成这种相关性的混淆因素。
学习更多的学生往往考试成绩更好。学习时间导致了更好的成绩吗?部分是肯定的。但那些拥有更多先验知识和更高动机的学生既学习更多,考试成绩也更好。先验知识和动机是混淆因素。
员工更多的公司往往收入更高。员工导致了收入吗?不直接。公司规模和增长阶段同时驱动了招聘和收入增长。
以下是一些虚假相关的危险信号:
- 没有明显机制的非常高的相关性(高于0.9)
- 一个第三变量可能对两者都有影响
- 随着时间推移只是同时上升的时间序列
建立真正的因果关系是困难的。黄金标准是随机实验(A/B测试),通过随机分配打破混淆。当你发现情况“如同”随机时,也可以利用自然实验。因果推断方法,如工具变量和双重差分法,有助于处理观察性数据。此外,领域知识至关重要。
# 7. 驾驭维度灾难
初学者常常认为:“特征越多=模型越好。” 经验丰富的数据科学家知道这并不正确。
当你增加维度(特征)时,会发生几件不好的事情:
- 数据变得越来越稀疏
- 距离度量变得意义减弱
- 需要指数级更多的数据
- 模型更容易过拟合
这是一种直觉上的理解。想象你有1,000个数据点。在一个维度(一条线)上,这些点相当密集。在两个维度(一个平面)上,它们分布得更开。在三个维度(一个立方体)上,分布得更开。当你达到100个维度时,这1,000个点变得极其稀疏。每个点都离其他所有点很远。再也没有“邻近”这个概念了。距离度量变得几乎没有意义了。
一个违反直觉的结果是:即使数据量相同,添加不相关的特征也会积极地损害性能。这就是为什么特征选择很重要。你需要:
# 总结
这七个概念构成了数据科学中统计思维的基础。在数据科学中,工具和框架会不断发展。但是,进行统计思维的能力——质疑、测试和用数据推理——将永远是区分优秀数据科学家的技能。
因此,下次你分析数据、构建模型或展示结果时,问问自己:
- 这个效应大到足以产生影响,还是仅仅是统计上可检测到的?
- 我的样本可能存在哪些我没有考虑到的偏差?
- 我的不确定性范围是多少,而不仅仅是我的点估计值?
- 我是在混淆统计显著性和真实性吗?
- 我可能犯了哪些错误,哪一个更重要?
- 我看到的是相关性还是真正的因果关系?
- 相对于我的数据量,我是否拥有过多的特征?
这些问题将引导你得出更可靠的结论并做出更好的决策。在你构建数据科学职业生涯的过程中,花时间加强你的统计学基础。这不是最炫酷的技能,但它将使你的工作真正值得信赖。学习愉快!
Bala Priya C 是一位来自印度的开发者和技术撰稿人。她喜欢在数学、编程、数据科学和内容创作的交叉点工作。她的兴趣和专业领域包括DevOps、数据科学和自然语言处理。她喜欢阅读、写作、编码和咖啡!目前,她正致力于通过撰写教程、操作指南、观点文章等方式学习并与开发者社区分享她的知识。Bala还创作引人入胜的资源概述和编码教程。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区