教学课件第4章 统计分析:描述性统计.pptx
《教学课件第4章 统计分析:描述性统计.pptx》由会员分享,可在线阅读,更多相关《教学课件第4章 统计分析:描述性统计.pptx(73页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、教材配套资源页完整PPT课件教学课件第4章 统计分析:描述性统计1配套教材:毛新述编著,2022,实证研究方法论Stata应用,中国人民大学出版社2描述性统计与Stata实现推断统计与Stata实现3数据的集中趋势数据的离散程度数据的分布形状经验研究中数据概括性统计量的报告4定量/数值型数据:均值/平均数定序数据:中位数和分位数定类数据:众数众数、中位数和平均数的比较51.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据61.也称
2、为平均数,一组数据相加后除以数据的个数得到的结果2.集中趋势的最常用测度值3.一组数据的均衡点所在4.体现了数据的必然性特征5.易受极端值的影响6.有简单平均数和加权平均数之分7.根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x7设一组数据为:x1 ,x2 , ,xn (总体数据xN) 样本平均数样本平均数总体平均数总体平均数设各组的组中值为:M1 ,M2 , ,Mk 相应的频数为: f1 , f2 , ,fk1. n 个变量值乘积的 n 次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为5.可看作是平均数的一种变形10【例例】某水泥生产企
3、业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率年平均增长率114.91%11【例例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 12几何平均在会计和财务经验研究的应用很广泛持有期回报年化收益率13在持有期间的实际回报率,例如,2010年1月1日以5元(p0)买入100股甲公司的股票,12月31日每股股票价格为8元(p12),则持有期的回报为多少?10
4、211201,.pppprrpp14Lee,So 和 Wang,2010 ,Evaluating Implied Cost of Capital Estimates :FF1 is then obtained by multiplying the estimated beta to the most recent 12 months compounded annualized market risk premium (provided by Fama and French), and adding the risk-free rate.15t-1tm5m6m7m8m9m10m11m12 m1m
5、2m3m4月市场风险溢价4%3%4%3%1%1%0% -1%0%0%0%1%1+月市场风险溢价104% 103% 104% 103% 101% 101% 100% 99% 100% 100% 100% 101%年市场风险溢价16% 如果每月收益率一致:1+yr=(1+mr)12如果每月收益率不一致:同持有期回报率的计算1+yr=(1+mr1) (1+mr2) (1+mr3) (1+mr4) (1+mr5) (1+mr6) (1+mr7) (1+mr8) (1+mr9) (1+mr10) (1+mr11) (1+mr12)16sort nd dm m gen r1=1+regen r2=prod
6、(r1),by(dm nd )findit _gprodegen r2=prod(r1),by(dm nd )gen ret=r2-1171.排序后处于中间位置上的值2.不受极端值的影响3.主要用于定序数据,也可用数值型数据,但不 能用于定类数据18位置确定位置确定数值确定数值确定19解:解:中位数的位置为 (300+1)/2150.5 从累计频数看,中位数在“一般”这一组别中 中位数为 Me=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满
7、意非常满意 24108 93 45 30 24132225270300合计合计30020【例例】 9个家庭的人均月收入数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 1630排排 序序: : 750 780 850 960 1080 1250 1500 1630 2000位位 置置: : 1 2 3 4 5 6 7 8 921【例例】:10个家庭的人均月收入数据排排 序序: : 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置: : 1 2 3 4 5 6 7 8 9 10 221.排序后处于
8、25%和75%位置上的值2.不受极端值的影响3.主要用于定序数据,也可用于数值型数据,但不能用于分类数据23方法方法2:较准确算法较准确算法方法方法1:定义算法定义算法24方法方法3: 其中 表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法方法4 4: Excel给出的四分位数位置的确定方法 如果位置不是整数,则按比例分摊位置两侧数值的差值25解:解:QL位置= (300)/4 =75 QU位置 =(3300)/4 =225 从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中 四分位数为 QL = 不满意不满意 QU = 一般
9、一般回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计30026【例例】:9个家庭的人均月收入数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 1630排排 序序: : 750 780 850 960 1080 1250 1500 1630 2000位位 置置: : 1 2 3 4 5 6 7 8 9K百分位数(k-pecentile)是指有k%的观测值小于它,如果令=k%,则k百分位数也称为
10、分位数(-quantile)28分位数在经验研究中有着广泛运用l1.按分位数进行分组,例如按4分位数将全部数据分为4组,按5分位数将数据分为5组,然后分组观察期数据特征l2.有些时候,由于整体数据的差异不明显,这时可以考察最小组和最大组来获得相关结论,如应计异象研究,盈余管理研究、过度投资研究l3.利用分位数去掉极端值29* *按中位数分组按中位数分组egen p50= pctile(r), p(50)gen sizerank=s if r=p50 & r!=.* *按上下四分位数分组按上下四分位数分组egen p25= pctile(r) , p(25)egen p75= pctile(r)
11、 , p(75)* *验证验证sum* *当存在多个年度时,应分年度按分位数分组当存在多个年度时,应分年度按分位数分组bys nd: egen p50= pctile(r), p(50)30对极端值的缩尾(winsorize)和截尾(truncate)处理*缩尾gen x=rsum x,dreplace x=r(p1) if xr(p99) & r!=.sum x,d*截尾preservegen y=rsum y,ddrop if yr(p99) & r!=.)sum y,drestore31*可以自行下载的命令:winsor2和winsorizeJssc install winsor2 /可
12、缩尾和截尾ssc install winsorizeJ /仅缩尾winsor2 varlist if in, suffix(string) replace trim cuts(# #) by(groupvar) label winsor2 x2 x3, suffix(W) cuts(1 99) by(nd)*winsorizeJ命令中cut(1 99)对分位数1%和99%以外的值winsorize【不可截尾】gen x2=rgen x3=jqrwinsorizeJ x2 x3, suffix(W) cuts(1 99)*当有多个年度时,应当分年度winsorizewinsorizeJ x2 x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件第4章 统计分析:描述性统计 教学 课件 统计分析 描述 统计
限制150内