欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据处理与分析课件.ppt

    • 资源ID:48375862       资源大小:609KB        全文页数:51页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据处理与分析课件.ppt

    关于数据处理与分析第1页,此课件共51页哦1.编码编码编编码码是是给给问问题题的的每每项项答答案案赋赋予予一一个个数数值值代代码码,以以便便于于数数据据录录入入和和作作进进一一步步处处理理的过程。的过程。编码具体方法很多,包括:n问卷中已预先编码;n在数据收集完毕之后进行手工编码;n通过文本识别软件进行自动编码(即借助软件给一串字符赋予一个代码)。第2页,此课件共51页哦2)数据录入)数据录入数据录入是将回答转化成可机读的形式数据录入是将回答转化成可机读的形式。采采用用纸纸张张式式收收集集数数据据的的方方法法时时,数数据据录录入入是是在在数数据据收收集集完完毕毕之之后后(通通常常是是在在对对问问卷卷进进行行一一些些“梳梳理理”和和初初步步审审核核之之后后)进行。进行。采采用用计计算算机机辅辅助助数数据据收收集集方方法法时时,数数据据录入是在数据收集的同时完成的。录入是在数据收集的同时完成的。第3页,此课件共51页哦下面几种方法可以提高数据录入的效率:下面几种方法可以提高数据录入的效率:n采用计算机辅助数据收集方法;采用计算机辅助数据收集方法;n对纸张式问卷进行光电扫描;对纸张式问卷进行光电扫描;n对纸张式问卷进行预先编码。对纸张式问卷进行预先编码。第4页,此课件共51页哦3.审核审核审审核核是是应应用用各各种种检检查查规规则则来来辨辨别别缺缺失失、无无效效或或不不一一致致的的录录入入,这这些些会会导导致致数数据据记记录录的的潜潜在在错错误误。审核的目的就是要保证调查最后所得的数据的完整性、一致性和有效性(包括逻辑性)。审核主要可分为三类:即有效性审核、一致性审核与分布审核。有效性审核和一致性审核是对单张问卷进行的审核;分布审核则是对全部问卷或部分问卷的数据一起进行审核。第5页,此课件共51页哦通常,审核规则的确定基于以下几个方面:通常,审核规则的确定基于以下几个方面:关于调查主题的专业知识;问卷和问题的结构;其它相关的调查或数据;统计理论(如离群值的检测方法)。第6页,此课件共51页哦数据收集完毕后,对审核失效,通常按下列方法进行处理:n将其剔除;n进行插补;n设立特殊代码。第7页,此课件共51页哦有些时候,一条记录(或整份问卷)不符合多条审核规则的要求,或者不符合少数几条关键审核规则的要求,从而使得后续的处理失去意义。在这种情况下,通常可以将这些记录剔除,作为无回答处理,同时将赋予各被调查单元的权数进行调整。第8页,此课件共51页哦对大多数审核失效都应该加以标示,留待作插补处理。对于有些项目,我们可以用特殊代码标示的方法,对确认为审核失效而不可接受的值或无效的空白加以保留。第9页,此课件共51页哦选择性审核选择性审核选择性审核基于这样一种思想:即只有那些“关键”的审核失效,而不是所有的审核失效,才需要采取相应的处理措施。选择性审核一般适于定量数据。对审核失效进行选择性审核时,可能需要对被调查者进行再访,但对于那些需要进一步处理和插补的记录的审核失效除外。第10页,此课件共51页哦审核的指导方针审核的指导方针审核的目标是:-更好地理解数据和数据处理过程;-检查问卷;-回访被调查者;-检出错填或漏填的数据;-删除无效记录;-分离需要插补的记录。第11页,此课件共51页哦审核的准则审核的准则:审核不仅对整理数据有用,而且审核失效发生率不论是对当前调查的质量度量,还是对将来调查的改进都很有用,它能提供调查中有关数据处理的信息;不论什么时候,开始一项调查时,总是要对数据做一些假定,审核时可以检验这些假定的合理性。例如,可能很明显,有些领域的审核规则太严,或者有些类型的审核失效太频繁,这些情况表明审核规则可能不太合适(或问卷可能存在问题);第12页,此课件共51页哦审核应该分阶段进行;审核工作应由对本次调查的主题、问卷的设计和数据分析有专业知识、并且有类似调查经验的人员来进行;各阶段所进行的审核不应与其它阶段的审核相抵触;应该将审核的信息和审核工作对调查数据的影响通知数据的用户。第13页,此课件共51页哦4.插补插补插补就是解决在审核过程中辨别出来的数据缺失、无效与不一致等问题的过程。插补是对审核过程中发现的所有缺失信息的记录进行补充或用合适的数值进行替代,确保得出内在一致的记录。第14页,此课件共51页哦插补方法可以归为两类随机插补和确定性插补。确定性插补,对于特定的被调查的数据,可能的插补值只有一个。随机插补则含有随机因素因此,每次得出的插补值可能会不一样。第15页,此课件共51页哦几种确定性插补方法如下:几种确定性插补方法如下:-推理插补;-均值插补;-比(率)/回归插补;-序贯热平台插补;-序贯冷平台插补;-最近邻值插补。每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得出一个插补值,加上从某个适宜的分布或模型产出的一个残差作为最后的插补值,就成为随机插补。第16页,此课件共51页哦随机插补能更好地保持数据集的频数结构,保持比确定性插补方法更真实的变异性。除供者插补方法外,下面介绍的方法可逐项进行插补。所谓的供者插补方法,就是用一个供者来插补一个受者的所有缺失的或不一致的数据。第17页,此课件共51页哦4.1推理插补推理插补推理插补:缺失的或不一致的数据能通过推断确定。通常,这种推理是根据问卷上其它回答项的模式来进行的。下面简述一些常用的插补方法。对所有这些插补方法,最好是把类似的记录归为一组,就象进行无回答权数调整时一样,这些组称为插补类。第18页,此课件共51页哦4.2均值插补均值插补用均值插补,缺失或不一致的值可用插补类的均值来代替。对缺失数据,用均值插补相当于对同一插补类中的所有被调查者使用相同的无回答权数进行调整。均值插补会得到较好的点估计,但由于在插补类均值这一点形成一个人为的“峰值”,从而破坏了分布状态和变量之间的关系。因此,如果用常规的抽样方差公式进行计算,就会低估最终的方差。均值插补通常在没有辅助信息可用或只有少量记录需要作插补处理时,才被采用。第19页,此课件共51页哦4.3比(率)或回归插补比(率)或回归插补比率或回归插补是使用辅助信息及其它记录中的有效回答建立一个比率或回归模型,该模型表明了两个或多个变量之间的关系。例如,比率插补所使用的模型为:其中:yi是变量y的第i个单元值;xi是与变量y相关的变量x的第i个单元值;R是直线的斜率(即每变动一个单位,平均变动的数值);是模型的随机误差项,均值为0、方差为。第20页,此课件共51页哦这时,的插补值按如下公式计算:式中:是变量y第i个记录的插补值;是插补类中记录的x值的均值;是插补类中记录的y值的均值。这里我们假定,拟合一个插补类中有效数据(即通过了所有的审核)的比率或回归模型,同样适用于该插补类中审核失效的数据。第21页,此课件共51页哦比率和回归估计产生的插补值比简单均值法产生的插补值更加稳定。这种方法常用于的商业调查中的定量变量,在这种调查中常可用前期数据来预测现期数据。利用前期的数据进行插补,也称前向插补,是比率或回归插补的一个特例,只是直接用前期调查的数据来作为当前调查的缺失数据的插补值。第22页,此课件共51页哦4.4热平台插补热平台插补热平台插补是使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据。为了找到一个与受者记录相似的供者记录,必须先确定与需要进行插补处理的变量相关的变量,建立插补类。然后,插补类中通过所有审核的记录集就是供者记录的集合,这些记录用来插补受者中缺失的数据。热平台插补可以用来插补定量数据,也可以用来插补定性数据,但通常只用定性变量建立插补类。第23页,此课件共51页哦样本序号样本序号性别性别年龄年龄婚姻状况婚姻状况收入收入汽车拥有汽车拥有1男青年未婚70无2男中老年已婚100有3女青年未婚50无4男中老年已婚70有5男青年未婚90有6女中老年丧偶30无7男中老年已婚-8女青年离异45有9男青年未婚-无10女中老年丧偶20-11男青年未婚50有12男中老年已婚-第24页,此课件共51页哦插补情况:插补情况:受者受者收入收入汽车拥有汽车拥有供者供者770有有4990510无无61270有有4第25页,此课件共51页哦在序贯热平台插补方法中,数据在插补类中是按某种顺序排列进行处理的,插补就是用这个序列需要插补数据前面某一个有效的回答单元的数据来代替缺失的数值。如果每次都使用相同的排序及选取方法,序贯热平台法是一种确定性的插补方法。而随机热平台插补,供者是在插补类中随机选出的,因此是一种随机插补方法。第26页,此课件共51页哦供者插补方法(局限于热平台插补和最近邻插补)的优点是,因为相似的供者(如公司和家庭等)具有相似的特征,因此插补出的数值应该是相当准确的。使用供者插补可以保持数据的原始分布形式。第27页,此课件共51页哦4.5冷平台插补冷平台插补冷平台插补与热平台插补类似,不同之处在于热平台插补使用当前调查的供者,而冷平台插补则使用其它资料中的供者。冷平台插补经常使用前期的调查或普查中的历史数据。第28页,此课件共51页哦4.6最近邻插补最近邻插补最近邻插补,就像热平台插补,也是基于匹配变量选择一个供者记录。但是,用这种方法,目的不一定是非要找出一个和受者记录在匹配变量上完全相同的供者记录,而是要在插补类中按匹配变量找到和受者记录最接近的供者记录即找到距离最近的值。“最近”是通过两个观测对象之间的距离来定义的,两个观测对象之间的距离是由辅助数据计算的。第29页,此课件共51页哦4.7随机性插补随机性插补任何用于定量数据的确定性插补都能通过加上随机残差变得具有非确定性。例如,我们可以用平均值加上随机残差来进行插补:其中,是y变量第i个记录的插补值;是插补类的均值;是从被调查者或某一分布的随机模型中抽取的残差。第30页,此课件共51页哦哪些值需要插补哪些值需要插补由于无回答或回答无效检出的审核失效的记录一般都需要进行插补。但是并不是所有审核失效的数据都需插补。对一个记录应尽可能限制需插补的项目。确定哪些字段需要插补应遵循以下三条准则:n应该通过变更尽可能少的数据项(字段),以使每条记录都满足审核规则的要求;n尽可能保持数据文档的原始频数结构;n插补规则的确定,不是参考其它任何具体规定,而是由相应的审核规则导出。第31页,此课件共51页哦举例说,假设某份问卷中关于一位被调查者的背景资料是:受教育程度(大学),婚姻状况(已婚),性别(女),年龄(10岁)。显然,这条记录中,年龄-婚姻状况、年龄、受教育程度是不符合审核规则的。为了纠正审核失效,可以同时调整婚姻状况和受教育程度,也可以只对年龄作调整,一般倾向于采用后者。第32页,此课件共51页哦插补后数据的方差估计插补后数据的方差估计前面讲到的所有插补方法都能为每一个缺失的或不一致的值生成一个单一的插补值,这些方法也都会在某种程度上扭曲插补变量的原始分布,并导致使用标准方差估计公式得出的不适当的方差估计。分布扭曲的程度很大程度上取决于插补量的大小和所使用的插补方法。第33页,此课件共51页哦插补的准则插补的准则虽然插补能改善最终数据的质量,但也要小心选择适当的插补方法。插补方法是否适当取决于调查的类型、目的、可用的辅助信息和错误的性质。审核和插补带来的风险是它们会破坏报告数据,产生符合预想模型的记录,而这种模型后来可能表明并不正确。第34页,此课件共51页哦以下是进行插补的几条准则:以下是进行插补的几条准则:插补得到的记录应该和审核失效的记录非常相似。这通常可以通过只对尽可能少的变量进行插补而尽可能多地保留被调查者的原始回答数据来做到。基本的假定(在实际工作中并不总成立)是一个被调查者更有可能只出错一两次,而出错多次的情况较少;好的插补会为评估留下审查的线索,并保证插补的记录具有内部一致性。插补处理过程应该是自动的、客观的、可再现的和有效的;第35页,此课件共51页哦插补得到的记录应该满足所有的审核规则;-插补值应标明,插补方法和插补使用的资料也应清楚地标明。记录中变量的插补和非插补的值都应该保留,以便对插补的程度和影响进行评估;-仔细选择插补的方法,考虑每一种插补方法的优缺点以及要插补的数据的类型;第36页,此课件共51页哦-插补方法应减少无回答偏倚,并尽可能地保持不同变量之间的关系(即不应破坏数据的多变量结构);-插补系统应事先思考、提出、编程和调试;-插补系统应该能处理各种缺失或不一致的字段;第37页,此课件共51页哦-对于供者插补方法,插补得到的记录应尽可能与选中的供者相似。这有利于保证插补记录中插补值与非插补值的组合不仅满足审核规则而且具有多样性。第38页,此课件共51页哦5)离群值的检测和处理离群值的检测和处理离群值的检测可以看作审核的一种类型,主要是用来发现和确认可疑的记录。应该区分极值和影响值。如果一个记录值和抽样权数的组合对估计有较大的影响,我们就称这样的观测值为影响值。但极值不一定是影响值。第39页,此课件共51页哦应区别单变量离群值和多变量离群值。如果一个离群值对应一个变量,该观测值就是一个单变量离群值;如果一个离群值对应两个或多个变量,我们就说该观测值是一个多变量离群值。例如,某人的身高是2米,或体重是45公斤,这种情况可能并不少,但身高2米且体重只有45公斤的人,即是一个多变量离群值的例子。第40页,此课件共51页哦有许多原因会导致离群值的产生:数据中有错误(如,数据录入错误);离群值可能来自另一模型或分布,如,大多数数据服从某个正态分布,但所推测的离群值很可能是来自一个指数分布;离群值的出现,可能是由于数据固有的变异性。看起来值得怀疑的东西,可能仅仅是由于数据集固有的变异性。第41页,此课件共51页哦离群值的检测离群值的检测传统上,离群值是通过测量它们和数据中心的相对距离来辩认的。设是观测到的样本数据,m和s分别是数据集中趋势和离散趋势的度量,离数据中心的相对距离定义为:如果大于预先确定的偏离值(如d=1.96,对应的概率为95%,d=2.58,对应的概率为99%),那么该观测值就被认为是一个离群值。第42页,此课件共51页哦离群值也可以通过下面的容许区间进行确认:这里,和分别是预先确定的下限和上限的值。如果总体是偏态的,和就不相等。落在这个区间之外的观测值被认为是离群值。第43页,此课件共51页哦样本均值和样本方差是度量数据集中趋势和离散程度最常用的统计量。但是,由于它们对离群值比较敏感。因为上述原因,检测离群值的最常用的方法之一是四分位数法。这种方法用中位数度量数据的集中趋势,四分位数间距度量数据的离散程度,因为这些统计量对离群值更为稳健(即不大敏感)。第44页,此课件共51页哦注意这里所说的中位数和四分位数都是用加权的样本数据计算出来的。与分别称为下四分位数间距与上四分位数间距。由此可得容许区间为:其中,和可以通过以前的数据或基于过去的经验来确定。任何落到这个区间之外的观测值都被认为是一个离群值。第45页,此课件共51页哦10.6.2离群值的处理离群值的处理在手工审核系统中,对离群值进行检查,如果确认是错误,就要回访并校正。在自动审核系统中,离群值经常要进行插补处理。有些情况下,如果认为离群值无妨大碍,可以不对离群值做任何处理。第46页,此课件共51页哦在审核时没有进行处理的离群值可以在估计的时候处理。简单地忽略未经处理的离群值会影响估计的效果,并导致估计量的方差增大;给离群值赋予1或0的权数会使估计结果发生偏倚。离群值处理的目的就是在不引入较大偏倚的前提下,尽量减少离群值对估计量抽样误差的影响。第47页,此课件共51页哦估计时有三种方法可以处理离群值,即:1)改变数值处理极值的一种方法是缩尾化,这种方法首先要将样本数据按从小到大依次排序:假设是将样本观测值按从小到大的顺序重新排列得到的有序样本。若样本数据中前k个最大值(即有序样本值中的)被认为是离群值,则单侧次缩尾估计量就可以通过用第n-k个最大值代替所有离群值来定义。第48页,此课件共51页哦例如:年龄的样本数据排序为:20、20、21、21、21、22、23、99、100、105、110如果我们认为105和110为离群值,则可用100来代替105和110。第49页,此课件共51页哦2)调整权数处理离群值的另一种方法是,降低离群值的权数使它们的影响变小。若赋予离群值的抽样权数为1或0,这样做对估计的影响太大,特别是对偏态总体的估计。这样做对估计的具体影响是使估计出现严重的偏倚通常是低估。第50页,此课件共51页哦感谢大家观看第51页,此课件共51页哦

    注意事项

    本文(数据处理与分析课件.ppt)为本站会员(石***)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开