本笔记来源于B站Up主: 有Li 的影像组学系列教学视频
本节(43)主要内容:标准差、标准误及95%置信区间CI
本视频缘起于网友的提问:
ke提问者未能清晰地描述问题,李博士猜测其可能在询问95%置信区间(Confidence interval, CI)的问题,于是顺势科普了一下几个统计学基本概念。
标准误和标准差的区别:
第一,标准误的英文是Standard Error, 是一种误差;而标准差的英文是Standard Deviation, 只是一种对均数的偏离而已。偏离和误差根本不是一个概念。
第二,标准差只是一个描述性指标,只是描述原始数据的波动情况;而标准误是跟统计推断有关的指标。描述性指标和推断性指标根本不是一个层次上的概念。
第三,它们针对计算的对象不同。标准差是根据某次抽样的原始数据计算的;而标准误是根据多次抽样的样本统计量(如均数、率等)计算的。理论上,计算标准差只需要一个样本,而计算标准误需要多个样本。(简书作者@Zhigang_Han)
代码演示:
import numpy as np
from scipy import stats
a_arr = np.array([1,2,3,2,3,4])
a_std = stats.tstd(a_arr) # trimmed std
a_sem = stats.sem(a_arr) # 标准误
print(a_std, a_sem)
# 1.0488088481701516 0.4281744192888377
print(a_std/np.sqrt(len(a_arr)),a_sem)
# 0.4281744192888377 0.4281744192888377
CI = stats.t.interval(0.95,df=len(a_arr)-1,loc=np.mean(a_arr),scale=a_sem)
print(CI)
# (1.3993426148730501, 3.60065738512695)
CI = stats.t.interval(0.95,df=len(a_arr)-1,loc=np.mean(a_arr),scale=a_std) #换成std试试
print(CI)
# (-0.19604897518701803, 5.1960489751870185)
李博士反复强调,在计算CI时,公式里使用的应该是标准误,而不是标准差。网上有不少资料使用的是标准差,应当警惕。
参考资料:
统计学(44)-利用标准误计算置信区间