多峰分布是什么(多峰分布是什么意思)

总结和描述一个分布最常用的方法是找出一个值作为整个分布的代表,这个值定义了平均数。而如何找到能够代表分布中心的数值,就是今天我们要介绍的集中趋势。

1. 什么是集中趋势

集中趋势是一种统计测量,目的是确认最典型的个体,找到最能够代表整个组的单个数值。找到\"中心\"是集中趋势最重要的任务。它能够描述一个大型总体的典型特征,使数据更容易被理解。例如2017年北京地区的的平均工资水平是131700元,而河南的平均工资是55495元。仅仅从这两个数字我们就可以直观的看到两个地区经济水平的差异。确定集中趋势并没有统一的标准化的方法,没有一种测量集中趋势的代表性数值的方法可以适用于所有情况。接下来我们来逐一介绍测量集中趋势的三种方法。

2.测量集中趋势的三种方法

2.1平均数

平均数又叫算数平均数,只能用于等距,等比数据的测量。它是由分布中所有数据相加并除以数据个数得到,总体平均数用μ代表。样本平均数用M或X代表。平均数用到了分布中的每个数值,具有很好的代表性,它与方差和标准差等常见的变异性测量有较紧密的关系,是三种测量中最好的一种。

当我们需要将两组数据结合,并找出合并组的整体平均数的时候,就需要计算整体平均数。需要注意的是整体平均数并不是原先两个样本的平均数的中心。由于样本大小的不同,每组数据对整体组做出的贡献不同,样本大的一组在决定整体平均数时占了更大的权数,因此计算整体平均数又被称为加权平均数。具体公式如下:

2.2中数

中数是将一个分布一分为二的数值,相当于第50个百分位数。只能用于等距,等比数据的测量。它的目的是确定一个分布的精确中点,无特殊符号或记号。当N为奇数时,中数就是排在中间的那个分数。当N为偶数是,中数是中间两个数的平均值。以下几种情况的测量需要使用中数:

a. 极端数值和偏态分布

当一组数据包含了极端数值的时候,平均数会产生较大的位移,从而不能很好的代表整体分布。另外中数常常用来报告偏态分布的平均值。以个人收入为例,由于一小部分人口的收入远远高于绝大多数人,平均数并不能很好的代表绝大多数人的工资收入,这种情况下,中数是一个比较好的测量方法。

b.未确定数值

在遇到一个未确定的情况的时候,例如测量个体解决某个问题所用的时间。如果个体无论如何都解不出这道题,那么时间这个数值变成未知,我们不能简单的排除这个个体的数据,而平均值又无法计算,这时候中数是一个很好的解决办法。

c.尾端开放式分布

当一个分布没有上限或者下限的时候,我们称为尾端开放式分布。如下图所示,我们无法计算这些数据的平均数。

d. 顺序量表

顺序数据无法进行加减法运算。因此采用中数是比较合理的测量方法。

2.3众数

一组分数中最常出现的值我们称之为众数。它可以用于确认任意测量量表的典型值或平均值。众数也没有特别符号或记号。具有两个众数分布称为双峰分布,较高峰称为主要众数,较矮的高峰称为次要众数。具有多于两个众数的分布称为多峰分布。有时具有数个等高点的分布称为无众数。以下几种情况的测量需要使用众数:

a. 称名量表

称名数据无法进行加减法运算,很多时候它们甚至不是数字。因此众数是描述称名数据集中趋势的唯一选择。

b. 离散变量

离散变量往往是一个整数值。我们不能说每个家庭平均有2.4个儿童,或者每个户型平均有5.6个房间。人们更愿意使用众数这个实际的整数值。

c. 描述形状

由于众数无需计算,它常常作为额外无成本的对平均数和中数的补充测量。

3.集中趋势的分布形状

通常对于一组数据,研究者会计算所有三种测量数据。由于平均数,中数和众数测量的都是集中趋势,这三个值必定会存在某种联系。根据这三种集中趋势的关系,我们会发现两种分布类型。

3.1对称分布

对于一个对称分布,图形的右部和左部呈镜像反射关系。如果一个对称分布只有一个众数,平均数,中数和众数完全重合。如果是双峰分布,则平均数和中数处于中点而众数位于两侧。如果没有众数,则平均数和中数相等,位于分布中点。

3.2偏态分布

分布并不总是对称的,事实上,它常常偏向一边,呈正偏态或者负偏态。在偏态分布中,特别是连续数据的分布中,平均数,中数,众数的分布如下图:

​参考书目:行为科学统计,现代心理与教育统计学