心理测量学第十一讲测验效度.pdf

资源ID：96541892 资源大小：2.97MB 全文页数：89页
资源格式： PDF 下载积分：11金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要11金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

心理测量学第十一讲测验效度.pdf

心理测量学第H-讲测验效度)教育与心理测验标准 1999年美国教育研究协会(American Educational Research Association,AERA)、美国心理学会(American Psychological Association,APA)和美国国家教育测量学会(National Council on Measurement in Education,NCME)3家机构共同颁布了新版的教育与心理测验标准(Standards for Educational and Psychological Testing)o-标准是教育与心理测验领域中的一份权威性文献，体现了测验领域中的行业标准，是测验工作者和测验研究人员的一本重要的参考书。在1999年之前，颁布标准的3家机构曾经颁布过5个有关测验开发和使用的文件。(1)1954年由APA颁布的关于心理测验和诊断技术的技术建议(2)1955年由国家教育协会颁布、由AERA 和NCME编制的关于成就测验的技术建议(3)1966年由APA出版、由APA,AERA和 NCME共同编制的教育与心理测验及手册的标准(4)3家机构于1974年对第3个文件的修订版(5)1985年颁布了标准的第5个版本对效度的重新定义和分类 85年版本：效度被定义为“从测验所做出推论的适当性或合理性的程度”。根据证据来源不同，证据被划分为来自“构念(construct)”、来自内容(content)和来自标准(criterion)3种，效度也被箱应地划分为3种。99年版本：效度被定义为“关于测验分数的特定解释所得到的支持程度。这种支持来自累积的证据或理论。这种解释是测验应用的基础。”“在本标准中，所有的分数都被视为对构念的测量”。-在99年版标准中，没有再沿用把效度分为构念、内容和效度标准的3种分类法。关于 Construct。关于construct的解释是：“测验所测量的概念或特性(the concept or the characteristic that a test is designed to measure)o”使用术语概念(concept)，可能比使用术语 construct，更好，但是，我们使用后者的原因是为了强调，这些范畴是为了将经验组织进定律性陈述而精心创造的。(Cronbach)中译为“结构”的人并没有准确理解 construct本身的涵义在英语中，与“概念(concept)”相比，construct更强调建造、创造、人为的意思。所以，认为译为“构念”会更好，既强调了建造、创造的意思，又体现了概念的意思。效度概述效度所要回答的问题：(1)测验测量的是什么?(2)对它所测量的东西测量到什么程度？效度的概念CTT认为，效度(validity)是指一个测验或量表实际能测出其所要测的心理特质的程度。效度概念的理解效度是一个相对的概念：（1）效度是相对于一定的测量目的而言的；（2）只能达到某种程度上的准确。效度是测量的随机误差和系统误差的综合反映判断一个测量是否有效要从多方面收集证据效度的数学定义及基本原理。一组测验分数的总变异（62。）包括三部分：真实的（稳定的）、与测量目的有关的变异（。）真实的、但出自无关来源的变异（62sp）随机误差的变异（Se）二者关系如下：62O=62CO+62sp+62e CTT将测量效度定义为：在一列测量中，与测量目的有关的真实变异数（由所要测量的变因引起的有效变异数）与总变异数（实得变异数）的比率。val=62CO/620=r2XY效度概念发展的四阶段-最初测验是用来评定个体在指定的内容领域已经学会了什么东西第二阶段时，重点则转到预测现在或将来某个时候，不同的个体在一定的情境中会怎样反应？同一个体在不同的指定情境中又会怎样反应？所要预测的行为在情境中的表现逐渐被称为效标。在90年代出现两种主要趋向：加强理论趋向；心理学理论与通过经验和实验的假设检验之间密切联系。日益认识到构念（结构construct）在描述和理解人类行为中的重要性。构念是一种广泛的范畴，源自直接可观察的行为变量共同具有的一般特性。构念又是一种理论实体，本身无法直接观察。-99年的标准认为，就说明测验测量什么东西而言，构念效度逐渐被认为是基本的、包括一切的效度概念。Validity/Validation Content validity Construct validity Predictive validity、Concurrent validity 1999年的标准改以Validation来说明心理测验的有效性的评估。I把Validation译成：效度验证、考验效度、|效化 Validation是一种用以了解测验得分的意义的科学研究(Scientific inquiry into test score meaning),并指出Validation研究的两个目的,Validity for measurement与Validity for decisions总而言之，Validation一词的使用，贝U在强调效度的动态过程。)效度与信度的关系：信度是效度的必要条件(necessary condition)而非充分条件(sufficient condition)o效度是测验的首要条件，而信度是效度不可缺少的辅助品。信度系数的平方根是效度系数的最高限%表示校正后的效度系数，Qy表示实得的效度系数，为测验的信度，Tyy为效标的信度测验的效度受它的信度制约。根据效度和信度的定义有：心二S。始2。和XX=62?020 又因为62T=62co+62sp 所以可得到：r2xY=62co/62o=(62T62Sp)/62o=rXx-o2sp/o2o 因为62sp 0所以r2XY rxx这就是说，一个测验的效度总是受它的信度所制约的。效度的估计:由于真分数方差是无法估计的，因此对测验的效度的检验就难以依靠心理计量学的理论。但由于潜在心理特质之间及与人的外显行为之间有密切的关系，因此我们可以通过逻辑的和实证的方法对效度进行间接的验证。内容效度定义：content related valicHty,又称内容关联效度。验证测验内容效度的程序确定所要测量的全部内容范围:将测验目的具体化为不同层次的测验目标确定每一层次测验目标在整个测验中所占的比重编制测验双向细目表按比例随机抽取测验题目请专家对测题的代表性、测题对测验目的的适合性进行分析)内容效度的确定。题目样本与总体得分相关法两测验的相关法处理后的重测法内容效度比十内容效度与表面效度表面效度(face validity)表面效度会影响被试的测验动机适当的表面效度内容效度的应用-成就测验-教育测量中的标准参照测验职业测验效标关联效度效标：即效度标准(valicHty criterion),是指独立于测验结果，反映测验目的的行为参照，也称效标行为。-理解：用来检验效度的参照标准；用来显示测验所欲测量的特性的变量。例如：智力测验，它的效标可以有哪些呢？飞行员选拔测验的效标有哪些呢？企业的招聘测验的效标。观念效标与效标的测量选择效标时首先要进行逻辑分析，判断被试的某种行为表现与所要测量的心理特质间是否有对应关系，如果所测特质是该行为表现的决定因素或主要影响因素，则这一行为表现就可作为相应测验的效标。*观念效标是指从概念上确定所要选择的测验效标是什么。观念效标确定后就要将其数量化，即以具体的测量指标表示效标行为水平的高低，这就是效标的测量。效标所具有的特点:有效性可靠性客观性实用性I常用的效标：学业成就(academic achievement)实际工作表现(job performance)对照组(contrasted groups)精神病诊断(psychiatric diagnosis)特殊训练课程成绩(performance in specialized training)评定(ratings)先前己有的测验(previously available tests)I效标关联效度定义：效标关联效度(criterion-related validity)也称为统计效度(statistical validity)或实证效度(empirical validity)o以测验分数和效度标准之间的相关系数，来表示测验效度的高低，所以又称之为统计效度。由于它以实践的效果来作为检验测验是否有效的标准，所以也称为实证效度。实际上是一个测验对于特定情境中的个体行为进行预测时的有效性程度。同时效度(concurrent validity)和：预测效度(predictive validity):同时效度：测验分数与效标资料的取得约在同一时间内连续完成，计算这两种资料的相关系数即代表测验的同时效度。指测验与同时获得的效标行为的一致性程度。预测效度：在测验分数取得一段时间后力获得效标资料，计算这两种资料间的相关系数就代表测验的预测效度。指测验结果对效标行为的预测程度。-预测效度和同时效度之间的逻辑区分，不是根据时间而是根据测验目标。同时效度多用于诊断现在的状态，检查和测量现有的某种能力或特质的有效性。预测效度则预测将来的结果，表明测验对某种行为的预测的有效性。“某人具有这种能力吗？”能力吗？”-“某人的心理正常吗？”问题吗？”“某人会有这种“某人会出心理“某人有资格当优秀飞行员吗?”“某人具备成为优秀飞行员的必要条件吗？”效标关联效度的估计方法:相关系数法区分法或分组检验法思路：被试接受测验后，让他们工作一段时间,再根据工作成绩（效标测量结果）分为两个极端组（成功与不成功，合格与不合格），然后检验这两组被试原来的测验分数是否具有统计学上的差异显著性。重叠量另一个版本：计算出成功组中低于失败组平均数的人数，再计算出失败组中超过成功组平均数的人数，两数相加除以两组总人数即为重叠量。计算出处于两组分数分布的共同区域的人数百分比命中率或取舍正确性命中率的计算方法是：先根据测验的临界分数将被试分为成功与不成功的两类，再根据效标将被试分为成功与不成功的两类。这样被试就分成了四类：在测验分数上成功而在效标分数上也成功的（A）；在测验分数上成功而在效标分数上不成功的（B）；在测验分数上不成功而在效标分数上成功的（C）；在测验分数和效标分数上都不成功的（D）四类。效标测验分数成功失败成功失败正确接受（A）错误拒绝（C）错误接受（B）正确拒绝（D）在实际计算测验的效度时，要统计出四类被试的人数（即表中ABCD四个数字），再计算分类决策的取舍正确性。总命中率正命中率I构念效度构念如何理解：构念或构想是充满科学想象的产物，抽象而属假设性的概念或特质。为更好地描述人的具有内在一致性的行为和心理现象I构念的两个基本的属性它们本质上是对某些规律性进行的抽象概括它们与具体的可观察的实体或事件存在相关构念效度(construct related validity)：指一个测验实际测到所要测量的理论构念和特质的程度，或者说它是指测验分数能够说明心理学理论的某种构念或特质的程度。测验结果与对某特质理论解释的一致性程度。确定构念效度的步骤:提出理论假设，建立理论框架，以解释被试在测验中的表现；依据理论框架，推演出有关测验成绩的假设；以逻辑和实证的方法来验证假设O 例子：。从现代智力的理论，可推出4项主要的假设:智力随年龄而增长；智力与学业成就有密切的关系；智商是相当稳定的；智力受遗传的影响。编制智力测验，再就实施测验所得资料加以分析-如果受试者的测验分数随年龄而增加，其智商在一段时间内保持相当的稳定性，而且智力与学业成就之间确有正相当存在，挛生子的智力的相关也高于一般兄弟或姊妹。I构念效度的估计方法：测验内方法a1,确定测验的内容效度a2,分析被试对题目作反应的过程a3,考察测验的同质性以及分测验之间的关系测验间方法，与权威测验的相关。相容效度(congruent validity)发展水平的变化，即年龄产生的发展变化。效标研究-因素分析实质是将为数众多的观测“变量”缩减为少数不同观测的“潜变量”（又称因素，或共同因素、公共因素、公因子等），用最少的因素概括和解释大量的观测数据-基本步骤：-计算出变量间的相关系数矩阵根据一定的标准确定抽取因素的数量进行因素转轴因素的命名和解释：多质多法矩阵(multitrait-multimethod matrix)采用多种方法测量多种特质，并计算出不同测验结果之间的相关，生成相关系数矩阵。以数种方法测量数种特质，从理论的观点言之，测验的结果应与其所欲测的特质有显著相关而与其他不相干的特质无关。以相同方法测量相同特质所得的分数之间应具有最大的相关-以不同方法测量相同特质所得的分数之间应具有次大的相关以相同方法测量不同特质所得的分数之间的相关应较低以不同方法测量不同特质所得的分数之间的相关应为最低或无意义矩阵包括:信度系数，对同样结构使用同样的测量方法得到的测量值之间的相关系数会聚效度系数，对同一结构使用不同测量方法得到的测量值之间的相关系数区分效度系数，包括异质-同法系数和异质-异法系数例子:例子：爱情。没有明确的爱情定义和测量方法人们对爱情的表达方式是不同的，是多种多样的编制一大堆的项目来表述人们可能对爱情的不同表达方式-把人们关于爱情的智慧语言精简为一系列的陈述让被试进行回答逐步将各种语言陈述发展为被试在5点量表上的回答形式（其中，1代表强烈的不同意，5是强烈的同意）。形成了一系列陈述了，一部分项目是用于测）量爱情的，另外一些项目是测量喜欢的然后用这些项目对198名大学生进行施测，每一个项目后都有一个空，要求被试填写上一个名字，所有的学生都对问题回答两次，一次填写的是恋人的名字，另一次是朋友的名字 I7,然后对这些项目进行因素分析，就是将大量项目缩减为几个变量或因素的过程结果：在爱情量表上得到了三个因素:依恋、关心和亲近依恋量表上的项目强调个体在孤独时希望和恋人呆在一起的愿望或试图去寻找他/她关心量表上的项目强调同情心和考虑对方的生活状况亲近量表表述的是爱情关系的独占性方面-喜欢量表上的项目则集中于他人的良好品质方面的内容将一些正在恋爱的伴侣分为“强烈爱情”组（爱情量表上得分高）和“微弱爱情”组（爱情量表上得分低），通过一个单面玻璃研究者可以观察到恋人之间目光相互注视的次数。“强烈爱情”组的被试目光交流的次数要远远多于“微弱爱情”组的被试。当与来自另一对伴侣中的异性被试配对时，“强烈爱情”组被试的目光交流与“微弱爱情”组的被试没有什么区别。-在爱情量表上的得分与结婚的可能性之间也存在显著的相关，爱情量表的得分越高，结婚的可能性就越大。结论：通过一系列构念化的活动逐步的抓住了这个概念的核心恋人和朋友在一些项目上的回答具有差异“爱情”至少具有三个方面的成分效度的应用。一、效标分数的预测及估计标准误。1、效标分数的预测。2、估计标准误:3、预测效标分数的置信区间效标分数的预测当测验分数与效标分数呈直线关系时，就可以建立线性回归方程，以一个人的测验分数预测其效标分数。请回忆一下一元线性回归方程回归方程y=a+bYXXy为预测的效标分数 a为纵轴上的截距 byx为斜率X为测验分数-这个回归方程是以原始分数表示的，回归系数的大小要受变量单位的影响将测验分数和效标分数转化为标准分数，再建立标准回归方程标准回归方程式：Zy=rxyZxZy为效标的标准分数的估计值Zx为测验分数的标准分数rxy为效度系数，即标准分数的回归议程的回归系数快！I：高中英语科成就测验与大学联考英语科分数的平均数、标准差及其相关系数高中英语科成就测验分数(X)大学联考英语科分数(Y)平均数标准差92.5721.0164.1811.13相关系数0.86-计算步骤：计算Zx 计算Zy-计算V 或者：计算bYX 计算aYX 计算为a+byxX-计算V预测误差-根据测验分数对效标得分进行预测总会存在一定的误差，不可能预测得完全准确这个误差分布的标准差就称为预测误差，或估计标准误(standard error of estimate,SEest)回忆一下，测量标准误可以把估计的标准误理解为，真实效标分数与估计的效标分数的差的标准差公式:假如效度是完美的，友广1.00,估计的标准误就是0,即预测之结果毫无误差如果一个测验的效度为0,%=0,则估计的标准误就和效标分布的标准差一样大，预测的效果与猜测无异预测效标分数的置信区间有了估计的标准误，就可以估计出一个人的效标分数的分布范围方法：先根据回归方程预测一个人的效标分数；再根据估计的标准误计算出效标分数的置信区间效标分数95%置信区间=预测的效标分数 1.96SestY-二、效度与人才选拔 1、基率(base rate)2、选择比率或录取率(selection ratio)3、决策结果:人才选拔是一个决策的过程，效度系数仅仅是决定一个测验可能提高或者降低决策质量程度的许多因素中的一个 I:为了充分评价一个测验对决策的影响，我们也必须考虑一个决策的基率和选择比率或录取率)基率(base rate)：在总体中自然存在着的合格人员的比例例如：95%的申请者在一个大学课程中的表现是成功的，那么基率是.也就是被认为潜在成功的人的百分比-实际上就是指不使用测验为录取依据而随机录取被试时的成功率选择比率(selection ratio)或录取率：表示的是职位对申请者的比率例如：如果30个人申请3个职位，那么只有选择率是决策过程结果决策I决策结果平成功现失败错误的拒绝(FR)正确的接受(TA)正确的拒绝(TR)错误的接受(FA)拒绝接受(预测失败)(预测成功)决策基率和决策基率为90%假设200人的组申请100个职位，基率为90%所以说：非常高的基率大量“正确的接受”决策，但同时，也可能导致大量的“错误的拒绝”决策-基率为5%,假设招飞行员：-因为基率是非常低的，所以大多数人群事实上是拒绝因为接受是非常少的，任何试图将这个罕见组隔离开来的决策程序可能会错误地将大量拒绝鉴别为接受所以说：非常低的基率大量“正确的拒绝”决策，但同时也导致大量的“错误的接受，当基率在0.50左右时，测验很可能有助于决策的整体质量当基率非常高时，在分配正确的接受方面没有太多的改善空间，而且避免大量错误的拒绝的几率是很小的当基率非常低时，在分配正确的拒绝方面没有太多的改善空间，而且避免大量错误的接受的几率是很小的录取率和决策:录取率高，如果10个人申请8个职位，录取率为0.8:大量潜在的失败者可能也被接受（错误的接受）:录取率低，如果10个人申请2个职位，录取率为02。大量潜在的成功者可能也被拒绝（错误的拒绝）基率、录取率和测验效度对结果的影响False rejection 错误拒绝(22)True acceptance 正确接受(38)True rejection 正确拒绝(33)False acceptance 错误接受错误拒绝(22)正确接受(38)正确拒绝(33)错误接受功败成,失一-作表现Ur FI PIF lur拒绝接受(测验失败)(测验成功)决策基率二录取率二正命中率二总命中率或取舍正确性二是更注重正命中率还是更注重总命中率?测验上的临界分数定在哪儿好呢？陛率为0.60时，通过采用某种效度的测验和某种录取率而预期的“成功”率选出率效度0.050.100.200.300.400.500.600.700.800.900.9500.600.600.600.600.600.600.600.600.600.600.600.100.680.670.650.640.640.630.630.620.610.610.600.200.750.730.710.690.670.660.650.640.630.620.610.300.820.790.760.730.710.690.680.660.640.620.610.400.880.850.810.780.750.730.700.680.660.630.620.500.930.900.860.820.790.760.730.700.670.640.620.600.960.940.900.870.830.800.760.730.690.650.630.700.990.970.940.910.870.840.800.750.710.660.630.801.000.990.980.950.920.880.830.780.720.660.630.901.001.001.000.990.970.940.880.820.740.670.631.001.001.001.001.001.001.001.000.860.750.670.63影响效度的因素:测验本身的因素（注意一下测验的长度、测验的信度）测验实施和计分方面被试的主观方面进行效度化所依据的有关准则（实际上就是效标因素：效标的性质、效标分数与测验分数的关系类型、效标测量的信度）样组方面提高测量效度的方法-精心编制测验量表，避免出现较大的系统误差妥善组织测验，控制随机误差创设标准的应试情境，让每个被试都能发挥正常的水平选好正确的效标、定好恰当的效标测量，正确地使用有关公式。nM1 _

注意事项

本文（心理测量学第十一讲测验效度.pdf）为本站会员（曲****）主动上传，得力文库 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知得力文库 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

心理测量学 第十一讲 测验效度.pdf

心理测量学 第十一讲 测验效度.pdf

心理测量学第十一讲测验效度.pdf

心理测量学第十一讲测验效度.pdf