不得不知的统计学知识(一)
郑喜儿
2022-04-15 18:08:00
共 1 个回答
季涛
2022-04-18 08:11:18
统计学是数据分析必须掌握的基础知识,它是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外,因此扎实的统计学基础是一个优秀的数据分析师必备的技能。统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识,对于具体的知识点,楼主就不一一介绍了,感兴趣的同学请参考书籍《深入浅出统计学》、《统计学:从数据到结论》,今天的分享主要会选取统计学中几个容易混淆的、比较重要的知识点进行分享。
PS:本部分知识点整理自《深入浅出统计学》以及网友们分享的博客、知乎等,转载的部分已经在原文加引同时在文末的参考链接部分已经标出,欢迎大家参读网友的原作。
一、 方差、协方差、相关系数R、决定系数R2 1.方差、标准差以及标准差系数
(1).方差:所有样本各自减平均数的差,平方后在累计求和,最后在除以样本个数。
(2).标准差:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数,最后再开方。
(3).标准差系数:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数再开方,最后除以样本平均值。 2.协方差
协方差通俗的理解就是两个变量在变化过程中是同向还是反向?同向或反向的程度如何?
你变大,同时我也变大,说明两个变量是同向变化,这时协方差就为正;
你变大,同时我变小,说明两个变量是反向变化的,这时协方差为负
协方差的计算公式: 如果有X,Y两个变量,每个时刻的‘X与其均值之差’乘以‘Y与其均值之差’得到一个乘积,在对这时刻的乘积求和并求出均值。 3.相关系数R
相关系数分三种,spearman, pearson, kendall
协方差的值会随着变量量纲的变化而变化(covariance is not scale invariant),所以,这才提出了pearson相关系数的概念: 相关系数(皮尔森相关系数):X,Y的协方差除以X,Y的标准差的乘积。
解释:自变量X和因变量Y的协方差/标准差的乘积。
* 协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。
* 为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。
* 因此,相关系数是一种特殊的协方差。 4.决定系数R2
下面来说决定系数,R方一般用在回归模型用于评估预测值和实际值的符合程度,R2的定义如下:
决定系数=回归平方和/总平方和=1-残差平方和/总平方和 该部分引用GRAYLAMB的《如何通俗易懂地解释「协方差」与「相关系数」的概念?》,链接为 https://www. zhihu.com/question/2085 2004  ;TheOneGIS的《相关系数r和决定系数R2的那些事》,链接为 https:// blog.csdn.net/theonegis /article/details/85991138#_5 ;PriscillaBai的《统计-R(相关系数)与R^2(决定系数)傻傻分不清》,链接为 https://www. jianshu.com/p/8aefd78be 186  ;高阶Python成长之路专栏的《线性回归中的相关系数和决定系数》,链接为 https:// zhuanlan.zhihu.com/p/32 335608 。
二、 极限中心定理和大数定理 大数定律讲的是样本均值收敛到总体均值,说白了就是期望。
中心极限定理告诉我们,当样本足够大时,样本均值的分布会慢慢变成正态分布。
中心极限定理收敛至大数定律。 1.中心极限定理
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
下图形象的说明了中心极限定理 当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布,如上图, 这个正态分布的u会越来越逼近总体均值,并且其方差满足a^2/n,a为总体的标准差 ,注意抽样样本要多次抽取,一个容量为N的抽样样本是无法构成分布的。 2、大数定律
大数定律 是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。 ps:
1.总体的分布不要求是正态分布
2.抽取的样本要足够大(>=30)
3、数学理论
我们假设有n个独立随机变量,令他们的和为: 那么大数定律(以一般的大数定律为例),它的公式为: 而中心极限定理的公式为: 注意:上面两个公式,一个是值为0,一直均值为0的正太分布;而左边极为相似!但不一样的。 4、区别
(1).随机变量的分布
大数定律:揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。
中心极限定理:说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。
(2).研究的内容不同
大数定律研究的是在什么条件下,这组数据依概率收敛于他们的均值。
中心极限定理研究的是在什么条件下,这些样本依分布收敛于正态分布。(卯诗松的概率论与数理统计上说)
(3).描述的问题不同
大数定律描述的是频率稳定性,就是我们所说的频率稳定在具体的一个数值,即为概率;
中心极限定理描述的是分布稳定性,指的是频率有很多,但是服从正态分布,XY轴中Y最高的那个正态分布数值即为概率。
(4).举个例子
大数定理是说样本足够大时,会接近期望,在样本无穷大时平均值是期望(一个值)。
中心极限定理说的是样本距离期望的涨跌偏差分布。(出现一种分布规律)
举个简单的例子,一滴水从高空落下,经过一个随机分布的风向后,落在地上。
大数定理指出,无论风向分布规律是什么,所有的点距离垂直落下的点的距离应该等于一个值,这个值就是期望。
中心极限定理指出,无论风向分布规律是什么,每个样本距离期望的位置的距离分布是符合正态分布的。 该部分参考绿岛小微米的《中心极限定理以及其和大数定律的区别》,链接为 https:// blog.csdn.net/u01475549 3/article/details/72118559 ;深度学习自然语言处理的《大数定理与中心极限定理的区别与联系》, https:// zhuanlan.zhihu.com/p/36 259056 。
三、 条件概率与贝叶斯公式 该部分的知识点整理自《深入浅出统计学》以及部分网友分享的笔记。
1. 概率 :度量某事发生几率的数量指标。
进一步理解:概率只是对事件发生可能性的一种表达,概率并非担保。
2. 事件 :有概率可言的一个结果或一件事。
计算公式:
,其中S称为概率空间,或样本空间。
3. 概率的直观表现形式 :
维恩图
概率树
4.对立事件 : “A不发生”事件可以用A'表示。A'被称为A的对立事件。A'包含事件A所不包含的任何事件。 P(A')=1-P(A)
5.互斥事件 :事件A与事件B不同时发生。
6.相交事件 :事件A与事件B会同时发生。 7.独立事件 : 几个事件互相不影响。P(A|B)=P(A). 如果两个事件相互独立,则 P(A∩B)= P(A|B)P(B)=P(A)P(B)
8.穷举事件 :表示两个事件的并为全集。
划重点
9.条件概率 :P(A|B)=P(A∩B)/P(B)
10.全概率公式:根据条件概率计算一个特定事件的全概率。P(B)=P(A∩B)+P(A'∩B)=P(A)* P(B|A)+P(A')* P(B|A')
11.贝叶斯定理:提供了一种计算逆条件概率的方法,再无法预知每种概率的情况下,非常有用。
贝叶斯定理:已知P(A),P(B|A),P(B|A');求P(A|B).
P(A|B) = P(A∩B) / P(B) = P(A)* P(B|A) / P(A)* P(B|A)+P(A')* P(B|A')
公式:P(A∪B)=P(A)+P(B)-P(A∩B)
12.相关事件 : 如果 P(A|B)不等于P(A),就说事件A与事件B的概率相互影响。
【贝叶斯定理例题解析—2020 Pdd学霸批笔试题】 设工厂A和工厂B的产品的次品率分别为1%和2%,现从由A和B的产品分别占60%和40%的一批产品中随机抽取一件,发现是次品,则该次品属A生产的概率是______.
【解析】
设事件:A={抽取的产品为A工厂生产的};
事件:B={抽取的产品是B工厂生产的};
事件:C={抽取的是次品};
显然有:
P(A)=0.6;P(B)=0.4
P(C|A)=0.01;P(C|B)=0.02;
根据全概率公式有:
P(C)=P(A)P(C|A)+P(B)P(C|B)
=0.6×0.01+0.4×0.02
=0.014.
P(AC)=P(A)P(C|A)
=0.6×0.01
=0.006
根据条件概率公式有:
P(A|C)=
P(AC)
P(C)
=0.006÷0.014=3/7
故答案为:3/7
四、 正态分布与偏态分布 1.正态分布与偏态分布的概念
正态分布(normal distribution)
偏态分布(skewed distribution)
左偏态:left skewed distribution,负偏态(negatively skewed distribution),以尾部命名,左偏态或者叫负偏态的尾部,主要在左侧;
右偏态:right skewed distribution,正偏态(positively skewed distribution),同样地,右偏态或者叫正偏态的尾部,则集中在右侧; 2.众数、中位数以及均值的关系
正态分布还是偏态分布(左偏态/右偏态)在函数图像上容易分辨,在统计数据上,也很容易分别,比如正偏态分布(右偏),mean > median>mode,对于负偏态(左偏),mean < median0为右偏分布
3).偏态系数3的峰度系数说明观察量更集中,有比正态分布更短的尾部;
声明:本文内容及图片来源于读者投稿,本网站无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。请将本侵权页面网址发送邮件到zhongyue_yx1@sina.com,我们会及时做删除处理。
举报/反馈
阅读原文