本文目录导读:
标准差是什么?先搞懂“平均差多远”

标准差(Standard Deviation)是统计学里最常用的“离散程度”指标,简单说,它衡量的是:一组数据里的数字,平均偏离平均值有多远。
举个例子:
有两组分数:
- A 组:80, 80, 80, 80 → 所有人分数一样,偏差为 0
- B 组:60, 70, 80, 90, 100 → 有的高有的低,偏差较大
B 组的标准差就比 A 组大得多。
标准差小 → 数据集中,差异小
标准差大 → 数据分散,差异大
标准差怎么计算?五步走,包教包会
📌 公式一:总体标准差(已知整个群体的数据)
[ \sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2} ]
- (\sigma):总体标准差
- (N):数据总个数
- (x_i):每一个数据
- (\mu):所有数据的平均值
- (\sum):求和符号
📌 公式二:样本标准差(只用部分数据推测整体)
[ s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2} ]
- (s):样本标准差
- (n):样本数量
- (\bar{x}):样本均值
- 分母用 (n-1) 而不是 (n),是为了对样本的“有偏估计”做校正(贝塞尔校正),让估计更接近总体的真实标准差。
实操演示:拿一组数字算一遍
假设我们收集了 5 个人的考试成绩(样本数据):
70, 80, 90, 85, 75
第 1 步:求平均值
[ \bar{x} = \frac{70+80+90+85+75}{5} = \frac{400}{5} = 80 ]
第 2 步:每个数减去平均值,得到“偏差”
| 分数 | 减去均值 80 | 偏差 |
|---|---|---|
| 70 | 70 - 80 | -10 |
| 80 | 80 - 80 | 0 |
| 90 | 90 - 80 | 10 |
| 85 | 85 - 80 | 5 |
| 75 | 75 - 80 | -5 |
第 3 步:对偏差进行平方(消除负号)
| 偏差 | 平方 |
|---|---|
| -10 | 100 |
| 0 | 0 |
| 10 | 100 |
| 5 | 25 |
| -5 | 25 |
第 4 步:求所有平方值的平均值(注意样本要除以 n-1)
先求和:
[
100 + 0 + 100 + 25 + 25 = 250
]
因为是 样本标准差,所以除以 (n-1 = 5-1 = 4):
[
\frac{250}{4} = 62.5
]
这个 62.5 叫做“方差”。
第 5 步:开平方,得到标准差
[ s = \sqrt{62.5} \approx 7.91 ]
这组分数平均偏离平均值约 7.91 分。
常见疑问解答
❓ 为什么有时候除以 n,有时候除以 n-1?
- 除以 n:适用于你拥有全体数据(例如全班的成绩、全年的天气数据)。
- 除以 n-1:适用于你只取了样本数据,想用样本去估计总体的标准差,因为样本平均往往比总体平均更靠近数据本身,导致偏差平方和偏小,所以除以 n-1 可以“放大”一点方差,更准确。
❓ 标准差和方差的关系?
方差 = 标准差的平方,方差单位是原单位的平方,不便直观理解,所以一般用标准差(单位相同)。
❓ 标准差多大算大?
没有绝对标准,要结合具体场景。
- 某次考试平均分 80,标准差 5 → 大部分人在 75~85 之间
- 标准差 20 → 分数从 40 到 100 都有,极差很大
通常用“变异系数”(标准差 ÷ 平均值)来比较不同量纲的数据离散程度。
偷懒方法:用 Excel / 计算器 / Python 一键计算
-
Excel:
- 总体:
=STDEV.P(数据范围) - 样本:
=STDEV.S(数据范围)
- 总体:
-
Python(numpy):
- 总体:
np.std(数据, ddof=0) - 样本:
np.std(数据, ddof=1)
- 总体:
-
科学计算器:一般有
σ或s按键,直接输入数据即可。
记住这一句话
标准差 = 每个数与平均值的偏差的平方的平均值,再开平方。
- 求平均
- 求偏差
- 平方
- 求平均(总体除以 N,样本除以 N-1)
- 开平方
五步走完,标准差就到手了,下次再看到别人聊“均值±标准差”,你就知道那是在描述数据的典型分布范围啦!