欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    心理测量学 第十一讲 测验效度.pdf

    • 资源ID:96541892       资源大小:2.97MB        全文页数:89页
    • 资源格式: PDF        下载积分:11金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要11金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    心理测量学 第十一讲 测验效度.pdf

    心理测量学第H-讲测验效度)教育与心理测验标准 1999年美国教育研究协会(American Educational Research Association,AERA)、美 国心理学会(American Psychological Association,APA)和美国国家教育测量学会(National Council on Measurement in Education,NCME)3家机构共同颁布了新版的教育与 心理测验标准(Standards for Educational and Psychological Testing)o-标准是教育与心理测验领域中的一份权威 性文献,体现了测验领域中的行业标准,是测 验工作者和测验研究人员的一本重要的参考书。在1999年之前,颁布标准的3家机构曾经 颁布过5个有关测验开发和使用的文件。(1)1954年由APA颁布的关于心理测验和 诊断技术的技术建议(2)1955年由国家教育协会颁布、由AERA 和NCME编制的关于成就测验的技术建议(3)1966年由APA出版、由APA,AERA和 NCME共同编制的教育与心理测验及手册 的标准(4)3家机构于1974年对第3个文件的修订版(5)1985年颁布了标准的第5个版本对效度的重新定义和分类 85年版本:效度被定义为“从测验所做 出推论的适当性或合理性的程度”。根据证据来源不同,证据被划分为来自“构念(construct)”、来自内容(content)和来自标准(criterion)3种,效度也被箱 应地划分为3种。99年版本:效度被定义为“关于测验分数的 特定解释所得到的支持程度。这种支持来自累 积的证据或理论。这种解释是测验应用的基 础。”“在本标准中,所有的分数都被视为 对构念的测量”。-在99年版标准中,没有再沿用把效度分为 构念、内容和效度标准的3种分类法。关于 Construct。关于construct的解释是:“测验所测量的 概念或特性(the concept or the characteristic that a test is designed to measure)o”使用术语概念(concept),可能比使用术语 construct,更好,但是,我们使用后者的原 因是为了强调,这些范畴是为了将经验组织 进定律性陈述而精心创造的。(Cronbach)中译为“结构”的人并没有准确理解 construct本身的涵义在英语中,与“概念(concept)”相比,construct更强调建造、创造、人为的意思。所以,认为译为“构念”会更好,既强调 了建造、创造的意思,又体现了概念的意思。效度概述效度所要回答的问题:(1)测验测量的是什么?(2)对它所测量的东西测量到什么程度?效度的概念CTT认为,效度(validity)是指一个测验或量 表实际能测出其所要测的心理特质的程度。效度概念的理解效度是一个相对的概念:(1)效度是相对 于一定的测量目的而言的;(2)只能达到 某种程度上的准确。效度是测量的随机误差和系统误差的综合反映 判断一个测量是否有效要从多方面收集 证据效度的数学定义及基本原理。一组测验分数的总变异(62。)包括三部分:真实的(稳定的)、与测量目的有关的 变异(。)真实的、但出自无关来源的变异(62sp)随机误差的变异(Se)二者关系如下:62O=62CO+62sp+62e CTT将测量效度定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量 的变因引起的有效变异数)与总变异数(实 得变异数)的比率。val=62CO/620=r2XY效度概念发展的四阶段-最初测验是用来评定个体在指定的内容领域已 经学会了什么东西第二阶段时,重点则转到预测现在或将来 某个时候,不同的个体在一定的情境中会怎 样反应?同一个体在不同的指定情境中又会 怎样反应?所要预测的行为在情境中的表现 逐渐被称为效标。在90年代出现两种主要趋向:加强理论 趋向;心理学理论与通过经验和实验的 假设检验之间密切联系。日益认识到构念(结构construct)在描述 和理解人类行为中的重要性。构念是一种 广泛的范畴,源自直接可观察的行为变量 共同具有的一般特性。构念又是一种理论 实体,本身无法直接观察。-99年的标准认为,就说明测验测量 什么东西而言,构念效度逐渐被认为是 基本的、包括一切的效度概念。Validity/Validation Content validity Construct validity Predictive validity、Concurrent validity 1999年的标准改以Validation来说明心理测验的有效性的评估。I把Validation译成:效度验证、考验效度、|效化 Validation是一种用以了解测验得分的意义的 科学研究(Scientific inquiry into test score meaning),并指出Validation研究的两个目的,Validity for measurement与Validity for decisions总而言之,Validation一词的使用,贝U在强 调效度的动态过程。)效度与信度的关系:信度是效度的必要条件(necessary condition)而非充分条件(sufficient condition)o效度是 测验的首要条件,而信度是效度不可缺少的 辅助品。信度系数的平方根是效度系数的最高限%表示校正后的效度系数,Qy表示实得的 效度系数,为测验的信度,Tyy为效标的信 度测验的效度受它的信度制约。根据效度和信度的定义有:心二S。始2。和XX=62?020 又因为62T=62co+62sp 所以可得到:r2xY=62co/62o=(62T62Sp)/62o=rXx-o2sp/o2o 因为62sp 0所以r2XY rxx这就是说,一个测验的效度总是受它的信度所制约的。效度的估计:由于真分数方差是无法估计的,因此对测验的 效度的检验就难以依靠心理计量学的理论。但由于潜在心理特质之间及与人的外显 行为之间有密切的关系,因此我们可以通 过逻辑的和实证的方法对效度进行间接的 验证。内容效度定义:content related valicHty,又称内容关联效 度。验证测验内容效度的程序 确定所要测量的全部内容范围:将测验目的具体化为不同层次的测验目标 确定每一层次测验目标在整个测验中所占的比 重 编制测验双向细目表 按比例随机抽取测验题目 请专家对测题的代表性、测题对测验目的的适 合性进行分析)内容效度的确定。题目样本与总体得分相关法两测验的相关法处理后的重测法内容效度比十内容效度与表面效度表面效度(face validity)表面效度会影响被试的测验动机适当的表面效度内容效度的应用-成就测验-教育测量中的标准参照测验 职业测验效标关联效度 效标:即效度标准(valicHty criterion),是指独 立于测验结果,反映测验目的的行为参照,也 称效标行为。-理解:用来检验效度的参照标准;用来显示 测验所欲测量的特性的变量。例如:智力测验,它的效标可以有哪些呢?飞行员选拔测验的效标有哪些呢?企业的招聘 测验的效标。观念效标与效标的测量选择效标时首先要进行逻辑分析,判断被 试的某种行为表现与所要测量的心理特质间 是否有对应关系,如果所测特质是该行为表 现的决定因素或主要影响因素,则这一行为 表现就可作为相应测验的效标。*观念效标是指从概念上确定所要选择的测验 效标是什么。观念效标确定后就要将其数量化,即以具 体的测量指标表示效标行为水平的高低,这 就是效标的测量。效标所具有的特点:有效性可靠性客观性实用性I常用的效标:学业成就(academic achievement)实际工作表现(job performance)对照组(contrasted groups)精神病诊断(psychiatric diagnosis)特殊训练课程成绩(performance in specialized training)评定(ratings)先前己有的测验(previously available tests)I效标关联效度定义:效标关联效度(criterion-related validity)也称为统计效度(statistical validity)或实证效 度(empirical validity)o以测验分数和效度标准之间的相关系数,来表示测验效度的高低,所以又称之为统 计效度。由于它以实践的效果来作为检验 测验是否有效的标准,所以也称为实证效 度。实际上是一个测验对于特定情境中的 个体行为进行预测时的有效性程度。同时效度(concurrent validity)和:预测效度(predictive validity):同时效度:测验分数与效标资料的取得约在同 一时间内连续完成,计算这两种资料的相关系 数即代表测验的同时效度。指测验与同时获得 的效标行为的一致性程度。预测效度:在测验分数取得一段时间后力 获得效标资料,计算这两种资料间的相关系 数就代表测验的预测效度。指测验结果对效 标行为的预测程度。-预测效度和同时效度之间的逻辑区分,不是根 据时间而是根据测验目标。同时效度多用于诊断现在的状态,检查 和测量现有的某种能力或特质的有效性。预测效度则预测将来的结果,表明测 验对某种行为的预测的有效性。“某人具有这种能力吗?”能力吗?”-“某人的心理正常吗?”问题吗?”“某人会有这种“某人会出心理“某人有资格当优秀飞行员吗?”“某人具备 成为优秀飞行员的必要条件吗?”效标关联效度的估计方法:相关系数法 区分法或分组检验法思路:被试接受测验后,让他们工作一段时间,再根据工作成绩(效标测量结果)分为两个极端 组(成功与不成功,合格与不合格),然后检 验这两组被试原来的测验分数是否具有统计学 上的差异显著性。重叠量另一个版本:计算出成功组中低于失败组 平均数的人数,再计算出失败组中超过成 功组平均数的人数,两数相加除以两组总 人数即为重叠量。计算出处于两组分数分布的共同区域的人数 百分比命中率或取舍正确性 命中率的计算方法是:先根据测验的临界分数 将被试分为成功与不成功的两类,再根据效标 将被试分为成功与不成功的两类。这样被试就 分成了四类:在测验分数上成功而在效标分数 上也成功的(A);在测验分数上成功而在效 标分数上不成功的(B);在测验分数上不成 功而在效标分数上成功的(C);在测验分数 和效标分数上都不成功的(D)四类。效标测验分数成功失败成功 失败正确接受(A)错误拒绝(C)错误接受(B)正 确拒绝(D)在实际计算测验的效度时,要统计出四类被试 的人数(即表中ABCD四个数字),再计算分 类决策的取舍正确性。总命中率正命中率I构念效度构念如何理解:构念或构想是充满科学想象的 产物,抽象而属假设性的概念或特质。为更好地描述人的具有内在一致性的 行为和心理现象I构念的两个基本的属性它们本质上是对某些规律性进行的抽象概括它们与具体的可观察的实体或事件存在相关构念效度(construct related validity):指一个测验实际测到所要测量的理论构念和 特质的程度,或者说它是指测验分数能够说 明心理学理论的某种构念或特质的程度。测验结果与对某特质理论解释的一致性程度。确定构念效度的步骤:提出理论假设,建立理论框架,以解释被试在 测验中的表现;依据理论框架,推演出有关测验成绩的假设;以逻辑和实证的方法来验证假设O 例子:。从现代智力的理论,可推出4项主要的假设:智力随年龄而增长;智力与学业成就有 密切的关系;智商是相当稳定的;智力 受遗传的影响。编制智力测验,再就实施测验所得资料 加以分析-如果受试者的测验分数随年龄而增加,其智商 在一段时间内保持相当的稳定性,而且智力与 学业成就之间确有正相当存在,挛生子的智力 的相关也高于一般兄弟或姊妹。I构念效度的估计方法:测验内方法a1,确定测验的内容效度a2,分析被试对题目作反应的过程a3,考察测验的同质性以及分测验之间 的关系测验间方法,与权威测验的相关。相容效度(congruent validity)发展水平的变化,即年龄产生的发展变化。效标研究-因素分析实质是将为数众多的观测“变量”缩减为少数 不同观测的“潜变量”(又称因素,或共同因 素、公共因素、公因子等),用最少的因素概 括和解释大量的观测数据-基本步骤:-计算出变量间的相关系数矩阵 根据一定的标准确定抽取因素的数量 进行因素转轴 因素的命名和解释:多质多法矩阵(multitrait-multimethod matrix)采用多种方法测量多种特质,并计算 出不同测验结果之间的相关,生成相 关系数矩阵。以数种方法测量数种特质,从理论的观点 言之,测验的结果应与其所欲测的特质有 显著相关而与其他不相干的特质无关。以相同方法测量相同特质所得的分数之 间应具有最大的相关-以不同方法测量相同特质所得的分数之间应具 有次大的相关以相同方法测量不同特质所得的分数之 间的相关应较低以不同方法测量不同特质所得的分数 之间的相关应为最低或无意义矩阵包括:信度系数,对同样结构使用同样的测量方法 得到的测量值之间的相关系数 会聚效度系数,对同一结构使用不同测量方 法得到的测量值之间的相关系数 区分效度系数,包括异质-同法系数和异质-异法系数 例子:例子:爱情。没有明确的爱情定义和测量方法人们对爱情的表达方式是不同的,是多种 多样的编制一大堆的项目来表述人们可能对 爱情的不同表达方式-把人们关于爱情的智慧语言精简为一系列的陈 述让被试进行回答逐步将各种语言陈述发展为被试在5点量 表上的回答形式(其中,1代表强烈的不 同意,5是强烈的同意)。形成了一系列陈述了,一部分项目是用于测)量爱情的,另外一些项目是测量喜欢的然后用这些项目对198名大学生进行施测,每一个项目后都有一个空,要求被试填写上 一个名字,所有的学生都对问题回答两次,一次填写的是恋人的名字,另一次是朋友的 名字 I7,然后对这些项目进行因素分析,就是将大 量项目缩减为几个变量或因素的过程结果:在爱情量表上得到了三个因素:依恋、关心和亲近依恋量表上的项目强调个体在孤独时希望和恋 人呆在一起的愿望或试图去寻找他/她关心量表上的项目强调同情心和考虑对方的 生活状况亲近量表表述的是爱情关系的独占性方面-喜欢量表上的项目则集中于他人的良好品质方 面的内容将一些正在恋爱的伴侣分为“强烈爱情”组(爱情量表上得分高)和“微弱爱情”组(爱情量表上得分低),通过一个单面 玻璃研究者可以观察到恋人之间目光相互 注视的次数。“强烈爱情”组的被试目光交流的次数要 远远多于“微弱爱情”组的被试。当与来自 另一对伴侣中的异性被试配对时,“强烈爱 情”组被试的目光交流与“微弱爱情”组的 被试没有什么区别。-在爱情量表上的得分与结婚的可能性之 间也存在显著的相关,爱情量表的得分 越高,结婚的可能性就越大。结论:通过一系列构念化的活动逐步的抓住了这个概念的核心恋人和朋友在一些项目上的回答具有差异“爱情”至少具有三个方面的成分效度的应用。一、效标分数的预测及估计标准误。1、效标分数的预测。2、估计标准误:3、预测效标分数的置信区间效标分数的预测当测验分数与效标分数呈直线关系时,就 可以建立线性回归方程,以一个人的测验 分数预测其效标分数。请回忆一下一元线性回归方程回归方程y=a+bYXXy为预测的效标分数 a为纵轴上的截距 byx为斜率X为测验分数-这个回归方程是以原始分数表示的,回归系数 的大小要受变量单位的影响 将测验分数和效标分数转化为标准分数,再建 立标准回归方程 标准回归方程式:Zy=rxyZxZy为效标的标准分数的估计值Zx为测验分数的标准分数rxy为效度系数,即标准分数的回归议程的回归 系数快!I:高中英语科成就测验与大学联考英语 科分数的平均数、标准差及其相关系数高中英语科成就 测验分数(X)大学联考英语科 分数(Y)平均数 标准差92.5721.0164.1811.13相关系数0.86-计算步骤:计算Zx 计算Zy-计算V 或者:计算bYX 计算aYX 计算为a+byxX-计算V预测误差-根据测验分数对效标得分进行预测总会存在一 定的误差,不可能预测得完全准确 这个误差分布的标准差就称为预测误差,或估 计标准误(standard error of estimate,SEest)回忆一下,测量标准误 可以把估计的标准误理解为,真实效标分数与 估计的效标分数的差的标准差公式:假如效度是完美的,友广1.00,估计的标准误 就是0,即预测之结果毫无误差 如果一个测验的效度为0,%=0,则估计的标 准误就和效标分布的标准差一样大,预测的效 果与猜测无异预测效标分数的置信区间有了估计的标准误,就可以估计出一个人 的效标分数的分布范围方法:先根据回归方程预测一个人的效标 分数;再根据估计的标准误计算出效标分 数的置信区间效标分数95%置信区间=预测的效标分数 1.96SestY-二、效度与人才选拔 1、基率(base rate)2、选择比率或录取率(selection ratio)3、决策结果:人才选拔是一个决策的过程,效度系数仅 仅是决定一个测验可能提高或者降低决策 质量程度的许多因素中的一个 I:为了充分评价一个测验对决策的影响,我 们也必须考虑一个决策的基率和选择比率 或录取率)基率(base rate):在总体中自然存在着的合格 人员的比例 例如:95%的申请者在一个大学课程中的表现 是成功的,那么基率是.也就是被认为潜在成功的人的百分比-实际上就是指不使用测验为录取依据而随机 录取被试时的成功率选择比率(selection ratio)或录取率:表示的是 职位对申请者的比率例如:如果30个人申请3个职位,那么只有选 择率是决策过程结果决策I决策结果平成功现失败错误的拒绝(FR)正确的接受(TA)正确的拒绝(TR)错误的接受(FA)拒绝 接受(预测失败)(预测成功)决策基率和决策 基率为90%假设200人的组申请100个职位,基率为90%所以说:非常高的基率大量“正确的 接受”决策,但同时,也可能导致大量的“错误的拒绝”决策-基率为5%,假设招飞行员:-因为基率是非常低的,所以大多数人群事实 上是拒绝 因为接受是非常少的,任何试图将这个罕见 组隔离开来的决策程序可能会错误地将大量 拒绝鉴别为接受 所以说:非常低的基率大量“正确的拒 绝”决策,但同时也导致大量的“错误的接 受,当基率在0.50左右时,测验很可能有助于决策 的整体质量 当基率非常高时,在分配正确的接受方面没有 太多的改善空间,而且避免大量错误的拒绝的 几率是很小的 当基率非常低时,在分配正确的拒绝方面没有 太多的改善空间,而且避免大量错误的接受的 几率是很小的录取率和决策:录取率高,如果10个人申请8个职位,录取率 为0.8:大量潜在的失败者可能也被接受(错误的接 受):录取率低,如果10个人申请2个职位,录取率 为02。大量潜在的成功者可能也被拒绝(错误的拒 绝)基率、录取率和测验效度对结果的影响False rejection 错误拒绝(22)True acceptance 正确接受(38)True rejection 正确拒绝(33)False acceptance 错误接受 错误拒绝(22)正确接受(38)正确拒绝(33)错误接受 功 败成,失 一-作表现Ur FI PIF lur拒绝 接受(测验失败)(测验成功)决策 基率二 录取率二 正命中率二 总命中率或取舍正确性二 是更注重正命中率还是更注重总命中率?测验上的临界分数定在哪儿好呢?陛率为0.60时,通过采用某种效度的测验和某 种录取率而预期的“成功”率选出率 效度0.050.100.200.300.400.500.600.700.800.900.9500.600.600.600.600.600.600.600.600.600.600.600.100.680.670.650.640.640.630.630.620.610.610.600.200.750.730.710.690.670.660.650.640.630.620.610.300.820.790.760.730.710.690.680.660.640.620.610.400.880.850.810.780.750.730.700.680.660.630.620.500.930.900.860.820.790.760.730.700.670.640.620.600.960.940.900.870.830.800.760.730.690.650.630.700.990.970.940.910.870.840.800.750.710.660.630.801.000.990.980.950.920.880.830.780.720.660.630.901.001.001.000.990.970.940.880.820.740.670.631.001.001.001.001.001.001.001.000.860.750.670.63影响效度的因素:测验本身的因素(注意一下测验的长度、测验 的信度)测验实施和计分方面 被试的主观方面 进行效度化所依据的有关准则(实际上就是效 标因素:效标的性质、效标分数与测验分数的 关系类型、效标测量的信度)样组方面提高测量效度的方法-精心编制测验量表,避免出现较大的系统误差 妥善组织测验,控制随机误差 创设标准的应试情境,让每个被试都能发挥正 常的水平 选好正确的效标、定好恰当的效标测量,正确 地使用有关公式。nM1 _

    注意事项

    本文(心理测量学 第十一讲 测验效度.pdf)为本站会员(曲****)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开