统计学课件之9抽样推断.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《统计学课件之9抽样推断.ppt》由会员分享,可在线阅读,更多相关《统计学课件之9抽样推断.ppt(198页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第七章抽样推断汤来香:美国总统选举民意调查1984年11 月里根与孟代尔竞选总统,美国著名的盖洛普、哈里斯、国家广播公司三家民意调查社在选举前三个星期所做调查的统计分析,里根分別约可获得58%、55%及60%选票,正式选举的结果:里根约获得59%选票,而孟代尔约41%选票。此次美国所有的民意调查社的预测数字与选举结果最多只有4%误差,但被调查的选民不超过3000人,可见统计的技巧是多么有用。在以往的十七次美国总统选举预测中,只有两次失败,第一次是1936年的蓝顿对罗斯福的选举,样本数一千万但是误差20%,第二次是1948年杜威对杜鲁门,样本数二百万误差5%,50年来美国21次全国选举预测之平均
2、误差只有2.3%。学习目的与要求:抽样估计是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。主要内容:1抽样推断的概念与特点2抽样平均误差的计算3抽样估计4抽样的组织形式5必要抽样数目的确定 第一节抽样推断概述一、抽样推断的概念抽样推断:是按随机原则从总体中抽取一部分单位构成一个样本进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断的一种统计方法。随机原则:随机原则即是在抽取样本时,排除人们主观意图的作用,使
3、得总体中的每个单位或每个样本有相等的入选机会。随机原则又称为等可能性原则。统计推断的过程:样本总体样本指标总体指标二、抽样推断的特点 按随机原则抽取样本单位;用部分推断总体,即用样本指标去推断或估计总体指标。抽样推断必然产生抽样误差,且误差可以事先计算并加以控制。运用概率估计方法。三、抽样调查的作用 适用于无限总体或者很难进行全面调查的总体的研究;对某些可以但事实上不必或不可能进行全面调查的现象总体的研究。适应于破坏性产品的质量检验;可以用于生产过程中的质量控制;用于订正全面调查的数据;可用于假设检验。四、抽样推断的基本概念(一)总体与样本总体(全及总体、母体):是指统计所要研究的全体,由具有
4、某种特定性质的许多个别事物组成的集合体。N:总体单位数。总体可分为有限总体与无限总体。样本(抽样总体、样本总体或子样)样本:是指按照随机原则,从全及总体中抽取出来,代表全及总体的那部分单位的集合体。样本容量(n):样本中所包含的总体单位数。n 30是大样本。M总体是唯一的,样本是随机多个的。(二)、总体指标与样本指标总体指标(母体参数、总体参数、全及指标):它是根据总体各单位的标志值或标志特征计算的,反映总体某种属性的综合指标。M 全及指标是唯一确定的,一个总体常常有多个总体参数。常用的总体指标有:或或样本指标(样本统计量):样本指标:也称为统计量或抽样指标,它是根据抽样各单位的标志值或标志特
5、征值计算的、用以估计和推断相应总体指标的综合指标。M 一个样本常常有多个样本指标,依据样本的数据计算的样本指标不是唯一确定的。常用的样本统计量有:或或说明:按照无偏估计的要求,才是总体方差的无偏公式,但在某些统计中,n通常较大,n与(n-1)相差甚微,为简便,就用n代替(n-1)。总体指标是唯一确定的值,样本指标是随机变量。(三)抽样方法与样本个数样本个数(m)指从总体中可能抽取的全部样本数目,又称样本可能数目。这与抽样方法和样本容量有关系。抽样方法重复(置)抽样不重复(置)抽样考虑顺序不考虑顺序考虑顺序不考虑顺序重复抽样的特点:n个单位的样本是由n次连续试验构成的。每次试验相互独立,各单位中
6、选与不中选相互不影响。每次试验都是在相同的条件下进行,即都是从N个总体单位中随机抽取一个,因此,每个单位在每次中选的机会都相等,它们每次都有1/N的中选机会。不重复抽样的特点:n个单位的样本是由n次连续试验构成的,但由于每次抽出不放回,所以实质上等同于同时从总体中抽n个样本单位。每次试验不相互独立,上次中选情况影响下次中选结果。每抽一次总体的单位数便少一个,因此每个单位在各次中选的机会是不相等的,第i次抽取每个单位有1/(N-i+1)的中选机会。考虑顺序的样本个数:1)不重复排列数2)重复排列数不考虑顺序的样本个数:3)不重复组合数4)重复组合数【例】从0-9 的10个数中随机重复抽选6个数字
7、组成电话号码,共能组成多少个电话号码?(重复排列数)【例】从班级10位学生中抽选三人担任不同的职务,问共有几种抽法?(不重复的排列数)【例】从小组10位学生中不重复随机抽选3个组成样本,考查其平均成绩,可能的样本数目为:(重复组合数)从A、B、C、D四个单位中,抽出两个单位构成一个样本,问样本个数是多少?重复抽样排列数:Nn42 16(个样本)AAAC ADBA BB BC BDABCA CB CC CDDA DB DC DD不重复抽样排列数:N(N-1)(N-2)4312(个样本)【例】(四)抽样推断的理论依据1大数法则(大数定律)基本思想:大量的随机现象具有一定的稳定性。l 我们知道,总体
8、由许多总体单位组成,每个总体单位的表现各不一样。这些不同的表现共同决定着总体的表现或特征。l 如果我们将这些大量的总体单位加以综合平均,那么它们对总体的个别影响会将相互抵消,最后呈现出它们共同作用的结果,使总体具有稳定的性质。实际推断原理:当试验次数很大时,可以用样本指标代替总体指标。在概率论中,大数法则是这样表述的:对于任意正数,有:或这样,以严格的数学形式,表达了频率的稳定性。2、中心极限定理:中心极限定理,其着眼点是“变量和的分布”。一个随机变量服从正态分布的现象并不多见,但多个变量和的分布服从正态分布则是普遍存在的。在现实生活中,变量和的分布是普遍存在的。基本思想:变量和的分布函数向正
9、态分布收敛。也就是说:中心极限定理论证了:如果总体变量存在有限的平均数和方差,那么,不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋近于正态分布。中心极限定理的通俗定义是这样的:当n无限增大时,不管总体分布是什么形状,样本平均数分布趋近于平均数为方差为的正态分布;且,。标准化变量的分布趋近于平均数为0,方差为1的标准正态分布。这样就可以利用标准正态分布求得标准变量t落入任意区间的概率了。第二节抽样平均误差一、统计误差的分类(抽样误差)统计误差登记性误差代表性误差各种统计误差:登记误差:指由于调查登记或计算差错在发生的误差统计误差:指调查所得的统计数字与调查总体实际数值之
10、间的差异。代表性误差:指用样本指标推断总体指标时,由于样本结构与总体结构不一致,样本不能完全代表总体而产生的误差。系统误差:由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称为偏差。随机误差:指遵循随机原则抽样,由于随机因素(偶然性因素)引起的代表性误差。通常所说的抽样误差指的就是随机误差。抽样实际误差:抽样实际误差:每一次抽样,得到的样本指标与总体指标的绝对离差。如、,这是无法计算的。l 抽样实际误差是随机变量。抽样平均误差抽样平均误差:指所有可能出现的样本平均数或抽样成数的标准差。反映了抽样指标与总体指标的平均误差程度。从理论上说是一个唯一确定的量
11、。二、抽样平均数的平均误差(一)平均数的抽样分布平均数的抽样分布:由总体中全部样本平均数的可能取值和与之相应的概率(频率)组成。即把所有可能样本平均数的次数分布称之为平均数的抽样分布。抽样分布:指样本指标的次数分布。1重复抽样分布【例】设有某班组5个工人的日分别为34、38、42、46、50元,则:现用重复抽样方法从中随机抽取2个构成样本,并求样本平均工资来推断总体的平均工资。重复排列数:样本日工资平均数单位:元样本日平均工资的次数分布表根据上表数据,可以整理出样本平均数的分布如左表:5/254/253/252/251/25 34 36 38 40 42 44 46 48 50样本日平均工资分
12、布图平均工资(元)则样本日工资平均数的平均数和方差为:两个重要结论:重复抽样的样本平均数的平均数等于总体平均数,即:所以抽样平均数的标准差反映了样本平均数与总体平均数的平均误差程度,称为抽样平均误差或抽样标准误差。因为样本平均数的分布与总体分布的比较:总体分布 样本平均数的分布34 38 42 46 50X20100%3/252/251/254/255/2534 36 38 40 42 44 46 48 500重复抽样抽样平均误差的计算公式:l 可见抽样平均误差比总体标准差小得多,仅为总体标准的。l 另外,抽样平均误差和总体标准差成正比变化,而和样本单位数n的平方根成反比变化。2不重复抽样分布
13、样本日工资平均数单位:元样本日平均工资的次数分布表根据上表数据,可以整理出样本平均数的分布如左表:则样本日工资平均数的平均数和方差为:也可得出两个重要结论:不重复抽样的样本平均数的平均数等于总体平均数,即:所以抽样平均数的标准差也反映了样本平均数与总体平均数的平均误差程度,称为抽样平均误差或抽样标准误差。因为不重复抽样的抽样平均误差计算公式:不重复抽样的抽样平均误差等于重复抽样的抽样平均误差乘以修正因子即:(二)、抽样平均误差1定义定义公式反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。或者说,用来描述各样本抽样实际误差的一般水平。抽样平均误差:指所有可能出现的样本指标的
14、标准差。定义公式:l 抽样平均误差是一个确定的值。抽样平均误差 的具体意义:从总体N中取容量为n的可能样本共有m个,可计算出m个抽样实际误差(随机变量):为了测定样本(指标)的代表性程度的高低,单独用某一次的抽样误差来衡量是不科学的,因此就需要采用一定的方法(求标准差的方法)计算所有m个抽样实际误差的平均数,这就是抽样平均误差。(i=1,2,3,m)2抽样平均误差的应用公式l 抽样平均误差是一个确定的值,但在实际抽样估计中,常用某些样本指标来代替未知的总体指标。例如用s2代替。由于s2是随机变量,故这时所测得的只是抽样平均误差的估计量,此估计量仍为随机变量。l 实际工作中常用推导的应用公式。抽
15、样平均误差的应用公式:l 重复抽样:l 不重复抽样:说明:l 抽样平均误差与总体标准差成正比,仅为总体标准差的;l 抽样平均误差与成反比。可通过调整样本单位数来控制抽样平均误差。假定抽样单位数增加倍、0.5倍时,抽样平均误差怎样变化?【例】【解】计算应注意的两点(1)总体方差未知时的处理方法:u 用s代替或p代替P;u 用方差的历史或经验数据代替。如果有多个方差可供选择,则通常取用较大的,故p应选择最接近于0.5的。u 用方差的试验或试点数据代替。(2)当N很大时,N-1N,于是4的计算实例随机抽查某大学150个男生的身高,得其平均身高为170.8公分。根据过去的材料,知道大学生身高的总体标准
16、差为24公分,试求抽样平均误差。【例】1解:【例】2某厂生产某种灯泡5000只,随机抽取500只作寿命测试。测试结果表明,平均寿命为6200小时,样本标准差为450小时,求抽样平均误差。解:【例】3某仓库有某种零配件10000套,随机抽取400套,发现32套不合格。求合格率的抽样平均误差。已知=10000,n=400,p=368/400=92%,求解:重复抽样:不重复抽样:【例】某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?样本p=n1/n=80/400=20%解:【例】某灯泡厂对10000个产品进行使用寿命检验,随机抽取
17、2%样本进行测试,按规定,灯泡使用寿命在1000小时以上者为合格品。测得样本数据如下:灯泡平均使用时间x=1057小时,灯泡使用时间标准差为s=53.63小时,合格品率为p=91.5,则:不重复抽样时:重复抽样时:5影响抽样平均误差的因素 总体方差或标准差。大,则大。样本容量n。如n扩大为原来的4倍,则缩小为原来的1/2。抽样方法。由于小于1,重复抽样时的抽样平均误差永远大于不重复抽样时的抽样平均误差。抽样调查的组织形式。第三节抽样估计(推断)有效的估计将是一、抽样估计的概念l 统计推断:就是利用样本的数据,对总体的数量特征作出具有一定可靠程度的估计和判断。统计推断包括参数估计和假设检验两个方
18、面。l 总体参数估计:是以样本统计量作为未知总体参数的估计量,并通过样本数据计算样本统计量的取值,作为总体参数的估计值。参数估计又称抽样估计。抽样估计要具备三个基本要素:要有合适的统计量作为估计量 要有合理的允许误差范围()要有一个可接受的置信度二、统计量的优良估计标准估计量:用于估计总体参数的统计量。估计值:依据某一具体的样本指标所估计的总体指标的值。优良估计量总是从总体上来说的,其标准有三个:无偏性、一致性和有效性。1无偏性要求样本指标的平均数等于被估计的总体指标。即:样本指标是总体指标的无偏估计量。有:无偏性:样本统计量的期望值(均值)等于被估计的总体参数。E(x)X无偏估计量E(Me)
19、X有偏估计量2一致性当样本的单位数充分大时,样本指标充分靠近总体指标。即当n无限增加,样本指标与未知的总体指标之差的绝对值小于任意小的正数,它的可能性也趋近于必然性。对于,当n愈多,抽样平均误差愈接近于0。3、有效性要求作为优良估计量的方差应该比其他估计量的方差小。例如有:注意:并不是所有的估计量都符合以上的标准。例如:在正态分布的情况下,总体平均数和中位数是重合的,样本中位数是总体中位数的无偏和一致估计量,但对比样本平均数却不是更有效的估计量。而样本平均数却是总体中位数的优良估计量。三、抽样极限误差()总体指标是唯一确定的值,样本指标是围绕着全及指标上下随机出现的变量。抽样平均误差指抽样分布
20、的标准差,说明的是某一抽样方案下所有可能样本的平均误差情况,但在抽样推断实践中往往只抽取一个样本,该样本的指标数值与总体指标数值的离差,可能为正,也可能为负,该误差可能大于也可能小于或者等于抽样平均误差。因此,对于一项抽样调查,总是要求有一个合理的允许误差范围,这就是抽样极限误差。抽样极限误差的定义:l 抽样极限误差:指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。也称容许误差、可能误差。常用表示。l 它是根据概率理论,以一定的可靠程度保证抽样误差不超过某一给定的范围。1)是指误差范围的原意表示是以为中心,在之间变动。但由于全及指标
21、未知,而样本指标通过实测可得到。因此,抽样误差范围的实际意义是要求被估计的全及指标落在抽样指标的一定范围内,即落在的范围内。即:因此,、P的范围估计(区间估计)分别为:同理得:、2)是指可能范围而非肯定范围抽样极限误差不是唯一固定的,而是根据抽样调查的目的,根据人们希望控制总体指标的把握程度来确定的。如果希望控制的把握程度大些,就给予较大的值,否则,的给定值就较小。这种把握程度就是概率保证程度。亦即抽样估计的可靠程度,叫估计置信度,习惯上也称为可靠度、可信程度、把握程度或概率保证程度。四、置信度、概率度、估计精度1置信度是估计的可靠性问题置信度:就是表明抽样指标和总体指标的误差,不超过一定范围
22、()的概率保证程度。置信度即概率保证程度:由于抽样指标值随着样本的变动而变动,它本身是一个随机变量,因而抽样指标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要来计算抽样指标和总体指标的误差不超过一定范围的概率大小,即计算抽样指标落在一定区间范围内的概率,这种概率称之为抽样估计的置信度。估计值所确定的估计区间是随机的,在实际抽样中并不能保证被估计的总体指标值都落在允许误差范围内,这就产生要冒多大风险来相信所作的估计。例如:我们愿意冒10%的风险,表示如果进行多次重复估计,则平均每100次估计将有10次是错误的,90
23、次是正确的,90%就称为置信度或概率保证程度。2概率度(t)反映的相对程度描述全部样本指标与总体指标的平均误差,而则是对一个样本的样本指标与总体指标误差的控制范围,因而可用来衡量。即抽样极限误差等于t倍的抽样平均误差:t就称为概率度。或或因此:是用一定倍数的表示的抽样指标与全及指标之间的绝对离差。t是指以抽样平均误差为尺度来衡量的相对误差范围。求t值的过程,也就是样本变量和p的标准化过程。标准变量t服从正态分布。t值大小是确定正态分布函数的决定因子。即t是确定概率保证程度大小的指标。可依据一定的置信度,查标准正态分布表求得。概率是概率度的函数:P=F(t)在正态分布的情况下,从总体中随机抽取一
24、个样本观察,则该样本指标落在某一范围内的概率,是用占正态曲线面积的大小表示的。即:正态分布及其曲线下的面积图68.27%1-1-2 95.45%99.73%-3 2 3 可见随着t的不断增大,概率P的数值也随着增大以致逐渐接近于1,使抽样推断达到完全可靠的程度。应用正态分布曲线,把概率度t和抽样误差范围联系起来,便可得到抽样推断全及指标在一定范围内的概率保证程度。统计抽样推断中常用的有:常用概率度与概率对照表3估计精度是从相对数的角度说明抽样估计的准确程度误差率允许误差估计值,即:估计精度误差率,即:l 抽样估计的准确性随着的增大而减小,它们之间呈反方向变动。注意:估计的准确性与可靠信是相互矛
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 课件 抽样 推断
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内