标准偏差是一个用来衡量一组数据波动大小或者分散程度的数字,它告诉我们,数据点们是都紧密地聚集在平均值的周围,还是七零八落地散落在各处,数值越大,说明数据越分散;数值越小,说明数据越集中。
计算标准偏差可以分为几个清晰的步骤,我们通过一个具体的例子来一步步说明。
第一步:计算平均值(平均数)
平均值是我们最熟悉的统计量,它代表了这组数据的“中心位置”,计算方法是把所有数据加起来,然后除以数据的个数。
实例: 假设我们有一个小组5个学生的数学考试成绩,分别是:85分,90分,78分,92分,85分。
计算平均值: (85 + 90 + 78 + 92 + 85) / 5 = 430 / 5 = 86分。 这组数据的平均值是86分。
第二步:计算每个数据与平均值的差
这一步是为了找出每个数据点距离“中心”有多远,我们用每个数据减去第一步算出的平均值。
实例:
我们得到了五个差值:-1, 4, -8, 6, -1。
第三步:将每个差值平方
为什么要把差值平方呢?主要有两个原因:第一,消除负号,因为差值有正有负,如果直接相加,正负可能会相互抵消,无法真实反映总的偏差,第二,放大差异,平方会使较大的偏差显得更加突出,这样标准偏差会对数据中的异常值(离群点)更敏感。
实例:
我们得到了五个平方值:1, 16, 64, 36, 1。
第四步:计算平方差的平均值(方差)
这一步是把所有第三步得到的平方值加起来,然后除以数据的个数,这个结果被称为“方差”,方差本身也是一个衡量数据分散程度的指标,但它的单位是原始数据单位的平方(比如这里是“分的平方”),不太容易理解。
实例: 总和 = 1 + 16 + 64 + 36 + 1 = 118 方差 = 118 / 5 = 23.6
第五步:取方差的平方根(标准偏差)
这是最后一步,为了得到一个和原始数据单位一致的指标(比如这里变回“分”),我们对第四步计算出的方差开平方根,这个最终的结果就是“标准偏差”。
实例: 标准偏差 = √23.6 ≈ 4.86分
结果解析:
现在我们来理解这个结果意味着什么,这组学生成绩的平均分是86分,标准偏差大约是4.86分,这可以粗略地理解为:大部分学生的成绩都在“平均分 ± 标准偏差”这个范围内,也就是在 86 - 4.86 = 81.14分 到 86 + 4.86 = 90.86分 之间,回头看原始数据(85, 90, 78, 92, 85),除了78分和92分,其他三个分数确实落在这个区间内。
这个4.86分的标准偏差说明学生们的成绩分布相对集中,波动不是特别大,如果另一个小组的标准偏差是10分,那就说明那个小组的成绩好坏差异非常大,有的分数极高,有的分数极低。
除以N”还是“除以N-1”的说明
在上面的例子中,我们计算方差时是除以数据的个数(N=5),这适用于你的数据是“总体”(比如你研究的就是这5个特定的学生),但如果你这5个学生的成绩只是从一个更大的群体(比如全校学生)中随机抽取的“样本”,你想用这个样本来估计全校学生的成绩波动情况,那么在第4步,你就需要除以“N-1”(也就是5-1=4)。
用样本数据计算的话,方差就是 118 / 4 = 29.5,标准偏差就是 √29.5 ≈ 5.43分,除以N-1是一种称为“贝塞尔校正”的统计方法,目的是使样本对总体的估计更加准确,在实际应用中(尤其是使用计算器或统计软件时),需要分清你处理的是总体数据还是样本数据。
