byzhao19
基础概念你应该自己去学习。
### 标准差(Standard Deviation)
标准差是一种用于度量数据集中各个数据点偏离其平均值的程度的统计量。在一组数据中,标准差越大,说明数据点距离平均值的距离越远,数据的离散程度越高;反之,标准差越小,数据越集中。
- 公式:对于一组有 \(n\) 个观测值(\(x_1, x_2, \ldots, x_n\))的数据集,其样本标准差 \(S\) 用以下公式计算:
\[
S = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})2}
\]
其中,\(\bar{x}\) 是观测值的平均数。
### 四分位距(Interquartile Range, IQR)
四分位距是描述数据分布和离散程度的另一种方法,通常用于非正态分布的数据。它是第三四分位数(Q3)和第一四分位数(Q1)之间的差值,即:
\[
IQR = Q3 - Q1
\]
- 第一四分位数(Q1):将所有数值由小到大排列后,处于 \(25\%\) 位置的数。
- 第三四分位数(Q3):同样地,将所有数值由小到大排列后,处于 \(75\%\) 位置的数。
### 相互关系与区别
- **对异常值的敏感性**:标准差对异常值(或称为“离群点”)较为敏感,而四分位距则相对稳健。
- **数据分布**:标准差通常用于正态分布(或近似正态分布)的数据,而四分位距更多用于非正态分布的数据。
- **计算复杂性**:标准差的计算涉及平方和平方根,相对复杂;四分位距的计算则相对简单。