3 理论分布与抽样分布.ppt

资源ID：93085144 资源大小：1.87MB 全文页数：65页
资源格式： PPT 下载积分：16金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要16金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

3 理论分布与抽样分布.ppt

第二章理论分布与抽样分布本章重点介绍有关随机变量的几种常见理论分布、平均数的抽样分布及t 分布。v 前面谈到过间断性资料和连续性资料的简单整理列成次数分布表、图，我们说从中可以看出资料的简单分布规律。那么分布情况的描述我们可以通过随机变量X 的概率函数或概率密度函数来实现。随机变量下一张主页退出上一张描述随机事件的变量称为随机变量。随机变描述随机事件的变量称为随机变量。随机变量的取值在一次试验前不能确定，具有随机性。量的取值在一次试验前不能确定，具有随机性。作一次试验，其结果有多种可能。每一种可能结作一次试验，其结果有多种可能。每一种可能结果都可用一个数来表示，把这些数作为果都可用一个数来表示，把这些数作为变量变量xx的取的取值值，则试验结果可用变量，则试验结果可用变量xx来表示。来表示。【例例】对对1010种品牌袋装奶粉进行质量检测，其种品牌袋装奶粉进行质量检测，其可能结果是可能结果是“00种合格种合格”、“11种合格种合格”、“22种合种合格格”、“”、“1010种袋装奶粉都合格种袋装奶粉都合格”。若用。若用xx表示袋装奶粉合格品牌数，则表示袋装奶粉合格品牌数，则xx的取值为的取值为00、11、22、1010。【例】食品加工中高温杀菌可能结果只有两种，即“全部杀死细菌”与“未能全部杀死细菌”。若用变量x 表示试验的两种结果，则可令x=0 表示“未能全部杀死细菌”，x=1 表示“全部杀死细菌”。【例】测定关中地区不同小麦品种的蛋白质含量，其蛋白质含量在9.3-13.5 之间，如用x 表示测定结果，那么x 值可以是这个范围内的任何实数。下一张主页退出上一张离散型随机变量：如果表示试验结果的如果表示试验结果的变量变量xx，其可能取值为可列个，其可能取值为可列个，且，且以各种确定的以各种确定的概率取这些不同的值概率取这些不同的值，则则称称 x x 为为离离散散型型随随机机变变量量(discrete random variable)(discrete random variable)；连续型随机变量：如果表示试验结果的变如果表示试验结果的变量量x x，其可能取值为某范围内的任何数值，其可能取值为某范围内的任何数值，且，且xx在其取值范围内的任一区间中取值时，其概率是在其取值范围内的任一区间中取值时，其概率是确定的，则称确定的，则称xx为为连续连续型型随随机机变变量量(continuous random variable)continuous random variable)。下一张主页退出上一张试验结果和取此结果的概率可以一一列出。试验结果和取此结果的概率可以一一列出。不能列出试验结果和取此结果的概率，不能列出试验结果和取此结果的概率，只能给出一定范围和在此范围内取值只能给出一定范围和在此范围内取值的概率。的概率。v 根据资料的分类可知，随机变量X 也可分为：离散型随机变量（间断性随机变量）连续性随机变量二项分布泊松分布正态分布 1.理论分布1.1 二项分布二项分布是最重要的离散性分布之一，在理论和实践应用上都有重要的地位。它比较简单，但用途很广。v 什么是二项分布呢？：若随机变量X 所有可能取值为0 和正整数：0、1、2、n，且有（k=0，1，2，n），式中p 0，q 0，p+q=1 则称随机变量X 服从参数为n 和p 的二项分布。记作 x B(n，p)。1.1.1 定义v 二项分布的总体特征数：一般只有两种属性类别资料服从二项分布。意思是说，二项分布中，每次试验都有两种且只有两种不同的结果。这两种结果是互不相容的，一种结果发生了，另一种结果就不会发生。1.1.2 二项分布总体特征数v 二项分布的概率分布条形图的形状决定于p 和n。特点是：（1）当p=q=1/2 时，图形是对称的；1.1.3 二项分布特点（2）若pq，图形为偏斜的；当n 很大时，即使pq 图形亦趋于对称。（3）对于固定的n 及p，当k 增加时，Pn(k)先随之增加并达到其极大值，以后又下降。（4）在n 较大，np、nq 较接近时，二项分布接近于正态分布；当n 时，二项分布的极限分布是正态分布。v 例：有一批食品，其合格率为0.85，今在该批食品中随机抽取6 份该食品，求正好有5 份该食品合格的概率，最多有4 份食品合格的概率？v 由题意可知，食品抽检结果有两种可能，合格与不合格，合格率为0.85，即P(A)=0.85，相应不合格率为P（）1-0.85 0.15，由概率公式得，正好有5 个合格产品的概率为：1.1.4 二项分布的概率计算及应用条件最多有4 个合格的概率是：v 二项分布的应用条件：v（1）各观察单位只具有相互对立的一种结果，如合格或不合格，生存或死亡等等，非此即彼；v（2）已知发生某一结果(如死亡)的概率为p，其对立结果的概率则为1-P=q，实际中要求p 是从大量观察中获得的比较稳定的数值；v（3）n 次观察结果互相独立，即每个观察单位的观察结果不会影响到其它观察单位的观察结果。波松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布。要观察到这类事件，样本含量 n 必须很大。所谓稀有事件即是小概率事件。在生物、医学等研究中，服从波松分布的随机变量也是常见的。例如，正常生产线中单位事件生产出不合格产品个数，单位事件内机器出现故障的次数，每升饮水中大肠杆菌数，计数器小方格中血球数，一批香肠中含有毛发的香肠数，1000 袋面粉中含有金属物的袋数等等，都是服从或近似服从波松分布的。1.2 泊松分布1.2.1 泊松分布的定义v 当随机变量x（x=k）所有可能取值是非负整数，且其概率分布为：其中，是一个大于0 的常数；k=1,2,，n,；e 是自然对数的底数；则称随机变量x为服从参数为的泊松分布。记为：x P()。v 泊松分布的特点：泊松分布所依赖的参数是，越小分布越偏，随着的增加，分布趋于对称（见下图）。当=20 时，泊松分布接近于正态分布；当=50 时可以认为泊松分布呈正态分布。所以在实际工作中当20 时就可以用正态分布来近似处理泊松分布的问题。1.2.2 泊松分布的重要特征利用这一特征，可以初步判断一个离散型随机变量是否服从泊松分布。图不同的泊松分布例，某食品店每小时光顾的顾客人数服从=3 的泊松分布，即x P(3)。计算每小时恰有5 人光顾的概率；计算不超过5 人的概率；计算最少有6 人的概率。1.2.3 泊松分布的概率计算由波松分布的概率计算公式可以看出，依赖于参数的确定，只要参数确定了，把k=0，1，2，代入即可求得各项的概率。但是在大多数服从波松分布的实例中，分布参数往往是未知的，只能从所观察的随机样本中计算出相应的样本平均数作为的估计值，将其代替计算公式中的，计算出 k=0，1，2，时的各项概率。下一张主页退出上一张 v 例，为监测饮用水的污染情况，现检验某社区每毫升饮用水中细菌数，共得400 个记录如下：v 试分析饮用水中细菌数的分布是否服从波松分布。若服从，按波松分布计算每毫升水中细菌数的概率及理论次数。下一张主页退出上一张 v 经计算得每毫升水中平均细菌数=0.500,方差S2=0.496。两者很接近，故可认为每毫升水中细菌数服从波松分布。以=0.500 代替，得 v(k=0,1,2)计算结果如表所示。下一张主页退出上一张 v 细菌数的泊松分布下一张主页退出上一张 v 注意，二项分布的应用条件也是波松分布的应用条件。比如二项分布要求n 次试验是相互独立的，这也是波松分布的要求。v 然而一些具有传染性的罕见疾病的发病数，因为首例发生之后可成为传染源，会影响到后续病例的发生，所以不符合波松分布的应用条件。v 对于在单位时间、单位面积或单位容积内，所观察的稀有事件由于某些原因分布不随机时，如细菌在牛奶中成集落存在时，不呈波松分布，不能用波松分布来描述其发生规律。下一张主页退出上一张 1.3 正态分布(normal distribution)正态分布是一种常见的连续型随机变量的分布。食品科学研究中所涉及的许多变量都是服从或接近正态分布的，如食品中各种营养成分的含量，有害物质的残留量，瓶装食品的重量等。其中为平均数，为方差，则称随机变量x 服从正态分布，记为x N(,)。相应的概率分布函数为 1.3.1 正态分布的定义若连续型随机变量x 的概率分布密度函数为分布密度曲线如所示。其分布规律：中间高两边低，对称且连续，分布曲线是一条光滑的钟形曲线。1.3.2 正态分布的特征（1）以x=为中心左右对称，即f（-x）=f（+x）（2）在处纵轴最高，即在x=处有最大的概率分布密度。（3）曲线有两个拐点（-，f（-），（+，f（+）。当X 在（-，-）中取值时，曲线向上弯；在（-，+）中取值时曲线向下弯；在（+，+）间取值时，曲线又向上弯。（4）曲线的位置由确定；曲线的胖瘦由确定。v（5）曲线在x 轴上方，当x 趋向于，x 轴为渐近线。分布曲线从-到+与横轴所围面积为1。若求X 在实数区间（a，b）上的概率P（a xb）呢？（6）正态分布的次数多数集中在平均数的附近，离均数越远，其相应次数越少，在3 以外的极少，这就是食品工业控制中的3 原理的基础。1.3.3 标准正态分布我们称=0,=1 的正态分布为标准正态分布(standard normal distribution)。随机变量u 服从标准正态分布，记作u N(0，1)，标准正态分布的概率密度函数及分布函数分别记作和，得：v 分布密度曲线为：对于任何一个服从正态分布N(,2)的随机变量x，都可以通过标准化变换，u=(x-)将其变换为服从标准正态分布的随机变量u。u 称为标准正态变量或标准正态离差。x x N N(,(,2 2)x x N N(0,1)(0,1)u=u=(x-x-)已知X N(0，1)，求X 在实数区间（a，b）上的概率P（a x b）？标准正态分布的计算：v 这个积分比一般正态分布要简单，在实际工作中应用广泛。为了使用方便，前人编制了标准正态分布函数的数值表。见附表。1.3.3 正态分布的概率计算(b b)(a a)（1）附表1 可解决：已知a 和b，求P（a x b）?例1，已知 X N(0，1)，求P(x1.23）？P(x1.23）=0.8907 例2，已知 X N(0，1)，求P(x1.23）？P(x 1.23）=1-P(x1.23）=1-0.8907=0.1093例3，已知 X N(0，1)，求P(x0.73）？P(x 0.73）=1-P(x0.73）=1-0.7673=0.2327例4，已知 X N(0，1)，求P(0.51 x1.36）？P(0.51 x1.36）=P（x1.36）-P（x0.51）=0.21809例4，已知 X N(0，1)，求P(-0.51 x1.36）？P(-0.51 x1.36）=P（x1.36）-P（x-0.51）=0.60809a=0.64335（2）附表2 可解决：已知P（axb），求a 或b？例4，已知 X N(0，1)，P（xa）=0.26，求a？v 在正态分布中，X 大于或小于某一定值的概率称为一尾概率。v 正态分布中，X 与差的绝对值大于某一定值的概率称为两尾概率。一般正态分布的概率计算对上式作变换对上式作变换uu=(=(xx-)，得，得dxdx=dudu，故有，故有?其中例，设x 服从=30.26,2=5.102的正态分布，试求P(21.64x 32.98)。令=P P(-1.69(-1.69 u u 0.53)0.53)=(0.53)-(-1.69)=(0.53)-(-1.69)=0.7019-0.04551=0.7019-0.04551=0.6564=0.6564 则则u u 服从标准正态分布，故服从标准正态分布，故关于一般正态分布，以下几个概率是经常用到的。P(-x+)=0.6826 P(-2x+2)=0.9545 P(-3x+3)=0.9973 P(-1.96x+1.96)=0.95 P(-2.58x+2.58)=0.99 关于标准正态分布，以下几种概率应当熟记：P（-1u 1）=0.6826 P（-2u 2）=0.9545 P（-3u 3）=0.9973 P（-1.96u 1.96）=0.95P(-2.58u 2.58)=0.99 标准正态分布的常用概率图示：标准正态分布的常用概率图示：我们知道，由总体中随机地抽取若干个体组成样本，即使每次抽取的样本含量n 相等，其统计量(如，S)也将随样本的不同而有所不同，因而样本统计量也是随机变量，也有其概率分布。我们把统计量的概率分布称为抽样分布。为什么要学习抽样分布呢？2.抽样分布统计分析的一大特点是由样本去推断总体，也称为统计推断(statistical inference)。统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体，并能正确地理解统计推断的结论，须对样本的抽样分布有所了解。2.1 样本平均数的抽样分布由总体随机抽样(random sampling)的方法可分为有返置抽样和不返置抽样两种。前者指每次抽出一个个体后，这个个体应返置回原总体；后者指每次抽出的个体不返置回原总体。对于无限总体，返置与否都可保证各个体被抽到的机会相等。对于有限总体，就应该采取返置抽样，否则各个体被抽到的机会就不相等。l 从一个平均数为,方差为2 的总体（原总体）中，独立随机的抽取多个含量为n 的样本，样本平均数记为：。该样本平均数有多少个？它们相等吗？与相等吗？可以设想，从原总体中可抽出很多甚至无穷多个含量为n 的样本。由这些样本算得的平均数有大有小，不尽相同，与原总体平均数相比往往表现出不同程度的差异。这种差异是由随机抽样造成的，称为抽样误差(sampling error)。显然，样本平均数也是一个随机变量，其概率分布叫做样本平均数的抽样分布。由样本平均数构成的总体称为样本平均数的抽样总体。l 样本平均数的抽样总体（样本平均数构成的总体）跟其他总体一样，也有两个重要参数：样本平均数的标准差样本平均数的平均数总体标准误大，说明之间离散性大，抽样误差大。2.1.1 样本平均数抽样总体的两个参数表明大小与成正比，与样本容量n 平方根成反比，样本n 相同时，越大，越大，此时表明抽样误差越大。相同情况下，n 越大，就越小，则抽样误差越小。人们常利用这一特性增大n 来减少抽样误差。l 统计学上已经证明总体的两个参数与x 总体（原总体）的两个参数有如下关系：=n 为样本容量2.1.2 样本平均数抽样分布的概率分布（11）若随机变量）若随机变量x x 服从正态分布服从正态分布N(N(22)，、是由是由x x 总体得来的随机样本，则统总体得来的随机样本，则统计量计量=xxnn的概率分布也是正态分布，的概率分布也是正态分布，且有且有，即即 NN(,(,22nn)。（22）若随机变量）若随机变量xx服从平均数是服从平均数是，方差是，方差是22的的分布分布(不是正态分布不是正态分布)；，是由此总体是由此总体得来的随机样本，则得来的随机样本，则统统计计量量=xxnn的概率的概率分布，当分布，当nn相当大时逼近正态分布相当大时逼近正态分布NN(,(,22nn)。这。这就是中心极限定理。就是中心极限定理。下一张主页退出上一张 X X 变量与变量与变量概率分布间的关系可由下列两个变量概率分布间的关系可由下列两个定理说明：定理说明：中心极限定理告诉我们：不论中心极限定理告诉我们：不论xx变量是连续型还是变量是连续型还是离散型，也无论离散型，也无论xx服从何种分布，一般服从何种分布，一般只要只要nn3030，就就可认为可认为的分布是正态的。的分布是正态的。如果如果xx的分布不很偏斜，在的分布不很偏斜，在nn2020时，时，的分布的分布就近似于正态分布了。就近似于正态分布了。在实际工作中，总体标准差往往是未知的，因而无法求得。此时，可用样本标准差S 估计。于是，以估计。记为，称作样本均数标准误或均数标准误。样本均数标准误是平均数抽样误差的估计值。S 与之间的关系：两者既有联系又有区别：样样本本标标准准差差 S S 是是反反映映样样本中各本中各观测值观测值，变变异异程程度大小的一个指标，它的大小度大小的一个指标，它的大小说明了说明了对对该该样本代表性的强弱。样本代表性的强弱。样本标准误样本标准误是样本平均数是样本平均数的标的标准差，它是抽样误差的估计值，准差，它是抽样误差的估计值，其大小说明了样本间其大小说明了样本间变异程度的大小及精确性的高低。变异程度的大小及精确性的高低。对于大样本资料，常将样本标准差S 与样本平均数配合使用，记为 S，用以说明所考察性状或指标的优良性与稳定性。对于小样本资料，常将样本标准误与样本平均数配合使用，记为，用以表示所考察性状或指标的优良性与抽样误差的大小。n n若随机变量若随机变量xxN(N(，)或者非正态总体但样本容或者非正态总体但样本容量足够大，则统计量量足够大，则统计量 N(N(，)，将随机变量，将随机变量标准化得，标准化得，2.1.3 t 分布当未知且n 不够大时，以S 代替所得到的统计量记为t，即 N(0N(0，1)1)。（未知时用未知时用S S 代替）代替）n ntt分布是分布是19081908年英国统计学家年英国统计学家W.S.GOSSTW.S.GOSST（古斯特）（古斯特）首先提出的。后首先提出的。后R.A.FisherR.A.Fisher(费雪尔费雪尔)于于19241924年加以年加以完善而成。完善而成。tt分布在小样本资料的统计分析中有着广分布在小样本资料的统计分析中有着广泛的应用。泛的应用。n n与其他随机变量一样，随机变量与其他随机变量一样，随机变量tt也有自己的分布密也有自己的分布密度函数和分布函数，度函数和分布函数，tt分布的分布密度函数和分布函分布的分布密度函数和分布函数相当复杂，超出本书的讨论范围。数相当复杂，超出本书的讨论范围。式中，t 的取值范围是（-，+）；df=n-1 为自由度。t 分布的平均数和标准差为：t0(df1)，(df2）t 分布密度曲线如下图所示，11、tt分布受自由度的制约，每一个自由度对应一分布受自由度的制约，每一个自由度对应一条条tt分布密度曲线。分布密度曲线。22、tt分布密度曲线以纵轴分布密度曲线以纵轴tt00为对称轴，左右对为对称轴，左右对称，且在称，且在tt00时，分布密度函数取得最大值。时，分布密度函数取得最大值。33、与标准正态分布曲线相比，、与标准正态分布曲线相比，tt分布曲线顶部略分布曲线顶部略低，两尾部稍高而平。低，两尾部稍高而平。dfdf越小这种趋势越明显。越小这种趋势越明显。dfdf越越大，大，tt分布越趋近于标准正态分布。当分布越趋近于标准正态分布。当n n 3030时，时，tt分分布与标准正态分布的区别很小；布与标准正态分布的区别很小；n n 100100时，时，tt分布基分布基本与标准正态分布相同；本与标准正态分布相同；nn时，时，tt 分布与标准正态分布与标准正态分布完全一致。分布完全一致。其特点是：例如，当例如，当df df=15=15 时，查附表时，查附表3 3 得两尾概率等于得两尾概率等于0.05 0.05 的临界的临界t t 值为值为=2.131=2.131，其意义是：，其意义是：P P(-(-t t-2.131)=-2.131)=P P(2.131(2.131t t+)+)=0.025=0.025；P P(-(-t t-2.131)+-2.131)+(2.131(2.131t t+)+)=0.05=0.05。由附表由附表3 3 可知，当可知，当df df 一定时，概率一定时，概率P P 越大，临界越大，临界t t 值越小；概值越小；概率率P P 越小，临界越小，临界t t 值越大值越大。当当概概率率 P P 一定时，随着一定时，随着df df 的增的增加，临界加，临界t t 值在减小，当值在减小，当df df=时，临界时，临界t t 值与标准正态分布的值与标准正态分布的临界临界u u 值相等。值相等。如何求t 分布下的概率呢？总结理解：理解：二项分布二项分布泊松分布泊松分布正态分布正态分布样本平均数的抽样分布（中心极限定理）样本平均数的抽样分布（中心极限定理）tt分布分布

注意事项

本文（3 理论分布与抽样分布.ppt）为本站会员（s****8）主动上传，得力文库 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知得力文库 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。