10828是什么(10828是什么意思)

“石油公司的员工为了利益当然会质疑全球变暖!”

“反对提高企业税的肯定是资本家!”

“男生更擅长理科!”

……

这些“杠精”言论初看似乎有点道理,细想总觉得哪里不对!

抬杠有风险 图片来源:sina

不过,只要你研究一下今年的高考题,就能看出其中的奥秘!

↓↓↓

今年数学全国卷I的第20题,就以人们关注的疾病防控作为切入点——

下面我们就来仔细分析一下本题。

彼此相关vs毫无干系:独立性检验的基本思路

问题(1)要求同学们根据材料判断“有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异”这一结论是否正确,而这个问题的本质,即讨论事件“是否患该疾病”(记作B)与事件“卫生习惯” (记作A)是否独立。

这里所谓的“独立”,指的是事件A的发生不会影响到事件B发生的概率。如果我们记事件A和事件B发生的概率分别为P(A)与P(B),那么两事件是独立的,当且仅当

其中为事件A和事件B同时发生的概率。回到高考试题,我们可以将给出的条件抽象化,即

那么我们可以给出假设

:患病与否与卫生习惯没有差异

这相当于说,

参考上表,

所以如果有

成立,即ad=bd,可得(患病与否与卫生习惯没有差异)成立。但如果ad与bd之间的差异很大,说明不成立,即患病与否与卫生习惯有关。这也就是独立性检验的基本思路。

皮尔逊检验:可以量化的独立性检验

上述独立性检验的基本思路虽然简洁明了,但存在一个根本性问题,即不足以定性地描述独立性。若想得出题目所述的“有99%的把握”这一要求,就需要我们引入更为严格的统计模型。1900年,英国数学家卡尔·皮尔逊发表了著名的关于(是希腊字母,读作/kaɪ/,所以也有了“卡方”的说法)检验的论文,奠定了现代统计学的基础。

卡尔·皮尔逊(Karl Pearson,1857—1936),英国数学家,数理统计学的创立者 图片来源:wikipedia

皮尔逊在文中研究了拟合优度检验。具体而言,假设实验中从总体随机取样,得到n个观测值,这些值被划分为k个互斥的分类,这样每个分类都有一个对应的实际观测次数,。研究者对实验中各个观测值落入第i个分类的概率的分布提出零假设(),从而获得了对应所有第i个分类的理论期望次数以及限制条件:

皮尔逊假设就是说,在上述成立,所有分类的理论观测次数mi均足够大且已知的情况下,同时假设各分类的实际观测数xi均服从正态分布。当样本容量n足够大时,统计量

限分布趋向服从于自由度为k-1的分布。

卡方分布的概率密度函数,k代表自由度 图片来源:作者自制

读到这里,肯定有不少同学会有疑问,皮尔逊给出的计算公式与高考试卷中给出的公式

并不相同。所以难道说皮尔逊当年算错了吗?当然不是!(毕竟皮尔逊可是现代统计学之父之一)

现代统计学如是说 图片来源:《秦时丽人明月心》

这里有一个计算的小技巧。再次考虑我们上文提到的表格

对于事件“不够良好”(A)的“病例组”(B),实际观测次数,而理论期望次数可以通过下面式子计算

其他的事件也可以通过类似方法计算,最终我们得到

代入皮尔逊计算的公式,

化简(此处可以有请万能的Mathematica)之后就可以得到

也就是高考试题中给出的公式。如果将给出的具体数据代入,

所以可以认为“有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异”。这也提醒我们,不同的卫生习惯对于是否患病有着切实的影响。(所以疫情期间一定要记得戴口罩,勤洗手!)

图片来源:bilibili

有了解这道题的经验,相信大家对于如何与“杠精”对线一定有自己的想法——

石油公司的员工为了利益当然会质疑全球变暖!(检验“石油公司员工”与“质疑全球变暖”之间的独立性)反对提高企业税的肯定是资本家!(检验“反对加税言论”与“资本家”之间的独立性)男生更擅长理科!(检验“男生”与“理科成绩好”之间的独立性)

下面进行一个操作示范:

譬如要反驳“男生更擅长理科”这一论点,我们可以给出

:性别与理科成绩无关

首先根据数据计算

然后计算自由度(分类变量数减1),最后在一定的显著性(如0.05,0.01)下的临界值比较,若小于临界值,则不能拒绝原假设,性别与理科成绩的差异不具有统计学意义。

如果有同学想上手练习一下,推荐引用R.E. O’Dea小组的元分析(简单说就是对许多现有实证文献的再统计)论文Gender differences in individual variation in academic grades fail to fit expected patterns for STEM的数据。作者分析了227项研究中的820,158位女性学生和826,629位男性学生,并提供了数据集与代码(https://osf.io/2z6fg/)。顺带说一句,虽然作者在这项研究中没有用到皮尔逊检验,但结论倒是毫不意外——

性别与理科成绩的差异不具有统计学意义 图片来源:R.E. O’Dea

R.E. O’Dea等论文中男(蓝色)女(红色)生在STEM(科学、技术、工程和数学)课程与非STEM课程的表现,男生和女生的成绩分布为近似重合的两个钟形分布,整体而言女生的成绩略好于男生,但差异不具有统计学意义。

“有99%的把握”:这种说法好不好?

虽说有关的讨论到此已经可以告一段落,但试题中“有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异”这句话仍然值得我们稍微深入地讨论一下。题目中“有99%的把握”的说法,暗示了出题人希望考察p值这一知识点。这其实也是近年来学术界比较关注的一个问题。

这里我们简单介绍p值的基本原理。所谓p值,指的是假设检验中假设零假设为真,此时观测到至少与实际观测样本相同极端的样本的概率。换言之,很小的p值说明在下观测到实际观测结果的概率很小(但事实却观测到了),故有理由拒绝。显然p值越小,拒绝原假设的理由越充分。

自由度为1的卡方的分布的概率密度函数 图片来源:作者自制

这里我们用分布来演示p值的含义。上图是自由度为1的分布的概率密度函数,虚线代表=10.828。根据概率密度函数的性质,函数曲线与坐标轴围成的面积为1,虚线左侧面积约为0.999。

如果结合题目给出的信息,得到统计量,说明在零假设的前提下,出现了极小概率事件,所以观测结果“拒绝”了。说到底,p值给出的是观测所得到的数据集与特定假设(如零假设)之间的匹配程度。具体而言,如果为真,p值指的是获得与观测到的数据一样极端,甚至更极端结果的概率。

所以说,p值不宜简单地被理解为零假设的概率,或者其对立假设不成立的概率,也就不宜使用“有99%的把握”这种说法。“认为患该疾病群体与未患该疾病群体的卫生习惯有极显著的统计学差异”也许可以更好地描述题目所给出的场景。

结语

这道高考题告诉我们,对于生活中那些不能得出确定答案的问题,我们可以用统计学知识去得出具有显著性的结论。利用这些结论,我们就可以优雅地与“杠精”对线~

不过,这些“显著”的结论并不是确切的,并不能仅仅因为相关就断然对因果下结论。千万不要让自己变成统计学“杠精”哦!

参考文献:

[1] Pearson, Karl (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine Series 5. 50: 157–175.

[2] Wasserstein RL, Lazar NA (2016). The ASA's statement on pvalues: context, process, and purpose. The American Statistician. 70 (2): 129–133.

[3] Sterne JA, Davey Smith G (2001). Sifting the evidencewhat's wrong with significance tests?. BMJ. 322 (7280): 226–31.

[4] Valentin, Amrhein, Sander, Greenland, Blake, & McShane. (2019). Scientists rise up against statistical significance. Nature, 567(7748), 305-307.

[5] O’Dea, R. E., Lagisz, M. , Jennions, M. D. , & Nakagawa, S. . (2018). Gender differences in individual variation in academic grades fail to fit expected patterns for stem. Nature Communications, 9(1).

作者:铸雪

中国科普博览是中科院科普云平台,由中科院计算机网络信息中心主办,依托中科院高端科学资源,致力于传播前沿科学知识,提供趣味科教服务。