教学课件第4章 统计分析:推断统计.pptx
《教学课件第4章 统计分析:推断统计.pptx》由会员分享,可在线阅读,更多相关《教学课件第4章 统计分析:推断统计.pptx(95页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、教材配套资源页完整PPT课件教学课件第4章 统计分析:推断统计1配套教材:毛新述编著,2022,实证研究方法论Stata应用,中国人民大学出版社2描述性统计与Stata实现推断统计与Stata实现3随机变量的概率与分布参数估计假设检验4统计只说可能性是实际世界统计只说可能性是实际世界的真实体现。真实世界充满的真实体现。真实世界充满了不确定性。了不确定性。从某种意义来说,生活中唯从某种意义来说,生活中唯一确定的事情就是其不确定一确定的事情就是其不确定性。性。 5正是不确定性使得生活充满正是不确定性使得生活充满了魅力和迷人的色彩。了魅力和迷人的色彩。有多少人会享受其未来每一有多少人会享受其未来每一
2、时刻全部已经确定了的世界时刻全部已经确定了的世界呢?呢?6随机现象与随机变量o 随机现象:在个别试验中其结果呈现出不确定性,在大量重复试验中其结果又具有统计规律性的现象o 随机变量:用来描述随机实验结果的变量,其取值随试验的结果而定,在试验之前不能预知它取什么值,且其取值具有一定的概率o 随机变量的引入,使我们能方便地描述各种随机现象71.一次试验的结果的数值性描述2.一般用 X、Y、Z 来表示3.例如: 投掷两枚硬币出现正面的数量4.根据取值情况的不同分为离散型随机变量和连续型随机变量8在概率论中,所研究的随机变量,它的分布都是假设已知的,在这一前提下研究它的性质、特点和规律性在数理统计中,
3、所研究的随机变量,它的分布是未知的,或者不是完全知道的,通过对所研究的随机变量进行重复独立的观察,得到许多观测值,对这些数据进行分析,从而对所研究的随机变量的分布做出种种推断9设X是具有分布函数F的随机变量,若X1,X2,X3,.,Xn是具有同一分布函数F的、相互独立的随机变量,则称X1,X2,X3,.,Xn为从分布函数F(总体X)得到的容量为为n的简单随机样本,简称样本,他们的观察值x1,x2,x3,.,xn称为样本值。10o 设X1,X2,X3,.,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,X3,.,Xn),不依赖于任何未知参数参数,则称函数T(X1
4、,X2,X3,.,Xn)是一个统计量统计量。 样本均值和样本方差都是常用的统计量o 因为X1,X2,X3,.,Xn是随机变量,因此统计量也是随机变量样本是进行统计推断的依据。但应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,来进行统计推断11统计量的分布称为抽样分布在使用统计量进行统计推断时,常需要知道它的分布。当总体的分布函数已知时,抽样分布是确定的。但要求出统计量的精确分布,一般来说是困难的统计量的分布称为抽样分布在使用统计量进行统计推断时,常需要知道它的分布。当总体的分布函数已知时,抽样分布是确定的。但要求出统计量的精确分布,一般来说是困难的12设一个总体,含有4
5、个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n = 2 的样本(共16个)13 计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值14统计推断从数据得到对现实世界的结从数据得到对现实世界的结
6、论的过程论的过程15样本统计量样本统计量例如:样本均值、比例、方差总体均值、比总体均值、比例、方差等例、方差等一.估计量与估计值二.点估计与区间估计三.评价估计量的标准191.估计量:用于估计总体参数的随机变量如样本均值,样本比例、样本方差等例如: 样本均值就是总体均值 的一个估计量2.参数用 表示,估计量用 表示3.估计值:估计参数时计算出来的统计量的具体值如果样本均值 x =80,则80就是 的估计值估计量是样本的函数,对于不同的样本值,参数 的估计值一般是不相同的20有95%的样本均值会落在2个(比较精确的值是1.96)标准误差范围内。2122统计推断的另一类重要问题是假设检验问题在总体
7、的分布函数完全未知或只知道其形式、但不知道其参数的情况,为推断总体的某些未知特性,提出某些关于总体的假设,然后根据样本对所提出的假设做出拒绝,还是不能拒绝的决策假设检验是作出这一决策的过程23 对总体参数的的数值所作的一种陈述 总体参数包括总体均值总体均值、比例比例、方差方差等 分析之前之前必需陈述我认为该地区新生婴儿的平均体重为3190克!1.事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设/零假设是否成立2.采用逻辑上的反证法,依据统计上的小概率原理25之所以用零来修饰原假设,其原因是原假设的内容总是没有差异或没有改变,或变量间没有关系等等零假设总是一个与总体参数有关的问
8、题,所以总是用希腊字母表示。关于样本统计量如样本均值或样本均值之差的零假设是没有意义的,因为样本统计量是已知的,当然能说出它们等于几或是否相等26设立原假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾,从而否定这个假设。如果否定不了,那就说明证据不足,无法否定原假设。但这不能说明原假设正确。例如,我从来没骂过人27 什么是小概率? 1. 在一次试验中,一个几乎不可能发生的事件发生的概率 2. 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设 3. 小概率由研究者事先确定28概率是从0到1之间的一个数,因此小概率就应该是接近0的一个数著名的英国统计家Ronald
9、Fisher 把20分之1作为标准,这也就是0.05,从此0.05或比0.05小的概率都被认为是小概率Fisher没有任何深奥的理由解释他为什么选择0.05,只是说他忽然想起来的29假定某行业公司的每股收益(EPS)服从正态分布,正常情况下,该行业公司的EPS均值为0.5元/股,标准差为0.015。2019年随机抽取该行业9家公司2018年年报披露的每股收益,分别为:请问,该行业公司2018年度的业绩是否正常?1234567890.4970.5060.5180.5240.4980.5110.5200.5150.51230以 , 分别表示总体X的均值和标准差。假定该行业属于成熟行业,业绩波动比较
10、小,设=0.015。于是XN(, 0.0152), 未知。问题是根据样本值来判断 =0.5,还是 0.5提出两个相互对立的假设 H0: 0.5和 H1: 0.5然后,利用合理的法则来判断31由于检验的假设涉及总体均值 ,故首先想到是否可借助样本均值这一统计量来判断样本均值是 的无偏估计,样本均值一定程度上反映了 的大小,因此,如果H0为真, 一般不应太大,如果差异过大,就有理由怀疑H0的正确性。当H0为真, ,衡量 的大小可归 结于衡量 的大小0 x0 x0 xn32当 时,就拒绝原假设H0 ,反之不能拒绝由于做出决策的依据是一个样本,当H0实际上为真时,仍可能做出拒绝H0的决策,这是一种错误
11、,应当予以控制P当H0为真拒绝H0,即犯错误的概率最大为当H0为真, 由标准正态分布分位点的定义 可得0 xkn00|XPkn33通常,为了控制犯错误的概率,取值较小若H0为真,即当 = 0,时,是一个小概率事件,根据实际推断原理,就可以认为,如果H0为真,则由一次试验得到的观察值,满足不等式几乎是不会发生的,现在在一次观察中竟然出现了,就有理由怀疑 H H0 的正确性,因而拒绝H00/ 2|Xkzn0/ 2|xkzn340.511,0.015,9,0.50.05xn假设,给定,则有00.511 0.52.20.015/ 9xZn/22.21.96zdisp invnormal(0.025)
12、if normal(z) = p, then invnormal(p) = z.根据零假设根据零假设(不是备选假设!),我们可以得到该检验(不是备选假设!),我们可以得到该检验统计量的分布;统计量的分布;然后再看这个统计量的数据实现值(然后再看这个统计量的数据实现值(realization)属不属)属不属于小概率事件。也就是说把数据代入检验统计量,看其于小概率事件。也就是说把数据代入检验统计量,看其值是否落入零假设下的小概率范畴;值是否落入零假设下的小概率范畴;如果的确是小概率事件,那么我们就有可能拒绝零假设如果的确是小概率事件,那么我们就有可能拒绝零假设,否则我们说没有足够证据拒绝零假设。,
13、否则我们说没有足够证据拒绝零假设。36假设检验就好像一场审判过程统计检验过程37你不能同时减你不能同时减少两类错误少两类错误! !38什么是P 值?(P-value)P值(p-value)是检验统计量在零假设下等于这个样本的数据实现值或更加极端值的概率1.是一个概率值2.拒绝原假设犯错误的概率39实际上,计算机软件仅仅给出p-值,而不给出a。这有很多方便之处比如a=0.05,而假定我们得到的p-值等于0.001。这时我们如果如果采用p-值作为新的显著性水平,即alpha()=0.001,于是可以说,我们拒绝零假设,显著性水平为0.001。拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五在
14、这个意义上,p-值又称为观测的显著性水平(observed significant level)。在统计软件输出p-值的位置,有的用“p-value”,有的用significant的缩写“Sig”就是这个道理40展示结果的精确性(根据数据减少 的值)总是没有害处的。这好比一个身高180厘米的男生,可能愿意被认为高于或等于180厘米,而不愿意说他高于或等于155厘米,虽然这第二种说法数学上没有丝毫错误。41假定有两个班级进行考试。假定有两个班级进行考试。从第一个班抽取从第一个班抽取2 2个观测值的一个样本个观测值的一个样本,分数为(数据,分数为(数据1 1 )( (n n=2)=2):-100,
15、 -100, -300300分分( (样本均值样本均值-200-200分分) ) 从第二个班抽取从第二个班抽取1010个观测值的样本,个观测值的样本,分数为(数据分数为(数据2 2)( (n n=10)=10):100, 100, 100, 100, 100, 100, 100, 100, 99, 99, 99, 100, 100, 100, 100, 99, 99, 99, 9999(样本均值(样本均值99.699.6分)分)哪个班平均成绩更接近哪个班平均成绩更接近100100分?分?42H0: m=100 对对 Ha: m=34Xi|Xi-M0|秩符号4307-6286-9255-1519
16、4-3133-3311-3622+65318+77439+885410+Wilcoxon符号秩检验:W-=26,W+=29,检验统计量W=W+=29,P值=0.5771符号检验:S-=6,S+=4,检验统计量K=S+=4,P值=0,33763符号检验: command:signtestsigntest varname = exp if in signtest x=0Wilcoxon符号秩检验:Command:signranksignrank varname = exp if in signrank x=0642.1独立两样本检验2.1.1 比较两独立总体中位数的非参数检验:Wilcoxon(M
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件第4章 统计分析:推断统计 教学 课件 统计分析 推断 统计
限制150内