WEEK一:数据的描述性统计
这周时间比较紧张,加上本身工作不太涉及到数据内容的分析描述,所以文章内容主要是知识点的罗列。基本都是从《面向数据科学家的实用统计学》一书中获得。
数据类型
结构化数据有两种基本类型,即数值型数据和分类数据。包括连续型数据、离散型数据、分类数据(其中包括二进制数据)和有序数据。
连续型数据 数据可在一个区间内取任何值。
同义词:区间数据、浮点型数据、数值数据离散型数据 数据只能取整数,例如计数。
同义词:整数型数据、计数型数据分类型数据 数据只能从特定集合中取值,表示一系列可能的分类。
同义词:枚举数据、列举数据、因子数据、标称数据、多分支数据二元数据 一种特殊的分类数据,数据值只能从两个值中取其一(例如 0 或 1,True 或 False)。
同义词:二分数据、逻辑型数据、指示器数据、布尔型数据有序数据 具有明确排序的分类数据。
同义词:有序因子数据
位置估计
变量表示了测量数据或计数数据,一个变量的取值可能会数以千计。探索数据的一个基本步骤,就是获得每个特征(变量)的“典型值”。典型值是对数据最常出现位置的估计, 即数据的集中趋势。
- 众数 指数据中出现最频繁的一个或一组数值。
- 均值 所有数据值之和除以数值的个数。
同义词:平均值 - 切尾均值 在数据集剔除一定数量的极值后,再求均值。
同义词:截尾均值 - 加权均值 各数值乘以相应的权重值,然后加总求和,再除以权重的总和。
同义词:加权平均值 - 中位数 使得数据集中分别有一半数据位于该值之上和之下。
同义词:第 50 百分位数 - 加权中位数 使得排序数据集中分别有一半的权重之和位于该值之上和之下。
- 稳健 对极值不敏感。
同义词:耐抗性 - 离群值 与大部分数据值差异很大的数据值。
同义词:极值
均值是一种基本的位置度量,但是对极值(离群值)敏感。其他一些度量更为稳健,例如中位数和切尾均值。
变异性
位置只是总结特性的一个维度,另一个维度是变异性(variability),也称离差(dispersion), 它测量了数据值是紧密聚集的还是发散的。变异性是统计学的一个核心概念,统计学关注 如何测量变异性,如何降低变异性,如何识别真实变异性中的随机性,如何识别真实变异 性的各种来源,以及如何在存在变异性的情况下做出决策。
偏差 位置的观测值与估计值间的直接差异。
同义词:误差、残差方差 对于 n 个数据值,方差是对距离均值的偏差平方后求和,再除以 n-1。
同义词:均方误差标准偏差 方差的平方根。
同义词: L2 范数、欧几里得范数平均绝对偏差 对数据值与均值间偏差的绝对值计算均值。
同义词:L1 范数、曼哈顿范数中位数绝对偏差 数据值与中位数间绝对偏差的均值。
极差 数据集中最大值和最小值间的差值。
顺序统计量 基于从大到小排序的数据值的度量。
同义词:秩百分位数 表示一个数据集中,P% 的值小于或等于第 P 百分位数,(100-P)% 的值大于或等 于第 P 百分位数。
同义词:四分位数四分位距 第 75 百分位数和第 25 百分位数间的差值。
同义词:四分位差
方差和标准偏差是日常最广为使用的变异性统计量。方差和标准偏差都对离群值敏感。更稳健的度量包括偏离均值(百分位数、四分位距)的平均(中位数)绝对偏差。