1 什么是测试效度?
测试效度这一概念源于心理计量学。美国教育研究协会、美国心理学协会和全美教育测量公会在2014年最新版本的《教育和心理测试标准》(Standards for Educational and Psychological Testing)(以下简称为《标准》)中把效度定义为:
Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests
其实,从20世纪30年代至今,测试效度(Testing Validity)的定义经历了多次争论。在这里,我带大家回顾下历史上效度定义的变迁:
1930s-1940s
这一时期的测试效度属于单一概念,指测试对测量对象的测量程度,也就是某测试的分数和其他关于该项测试目标上的客观测量结果之间的相关程度(Lindquist,1942,转引自邹申2012:
140)。我们都知道分数不能够完全地、准确地测量出被测者在该测量目标上的能力,但效度可以告诉我们分数在多少程度上能体现出被测者的能力。
1940s-1980s
这一时期的测试效度不再是单一概念,而是有多种分类。美国心理学协会在1954年发布的《心理测量和诊断技术的具体建议》(Technical Recommendations for Psychological Tests and Diagnostic Techniques)将效度分为4种:内容效度(content validity),构念效度(construct validity),预测效度(predictive validity)和共时效度(concurrent validity)。
内容效度:测试内容与预定要测的内容之间的一致性程度。由于某些客观因素(例如试卷篇幅、测试时间等),一项测试无法囊括所有需检测的内容,测试者只能通过取样,利用部分测试项目进行测试。考查一项测试是否具有较高的内容效度,可以参考:
1、)测试的内容范围是否明确;
2、)试题取样是否具有代表性。其中,第二点是内容效度的主要考查方面。如果考试题目是所学内容的最佳或有效取样,则可以推论内容效度较高;如果选题考查要求的范围,或内容重复过多,则可以推论内容效度较低(霍敏,2002)。
构念效度:测试成绩能够解释心理学上的某种结构或特质的程度。所谓构念,是指心理学理论所涉及的抽象而属假设性的理念、特质或变量,如智力、能力倾向、行为习惯、成就动机、人格结构等。语言测试的作用是测出人的语言能力,这就要求我们首先要提出关于“语言能力”的构想,即我们要说明所谓的“语言能力”是什么?有什么特性?由于语言能力处于人的大脑里,到目前为止我们既看不到它,也不能直接测量它。所以,关于语言能力的构想是带有假说性质的。构念效度主要关注一项测试考查了哪一种或哪些种语言能力,以及是否测试了应该考查的能力(霍敏,2002)。
预测效度:测试结果是否能够反映出未来将要发生的事情或者预测被测者未来的行为。举个例子,高考的预测效度,一般是以被录取考生在大学一年级各门学科的平均成绩作为效度标准分数,这些考生高考与大学一年级各门学科的平均成绩的相关系数, 即为预测效度(许之所,张丽芳,2004)。
共时效度:待检验的测试成绩与受试在几乎同一时间参加的其他测试的成绩的相关性(刘芹,2004)。也就是把本次测试与另一个公认的、标准化的测试进行比较,计算两者相关蔽埋慧系数,若相关系数大于07,那么两者的关系十分密切,说明这场测试是标准化的,具有较高的共时效度。
然而,种类分类也不是一成不变的。美国教育研宏答究协会、美国心理学协会和全美教育测量公会在1966年版和1974年版的《标准》中又把预测效度和共时效度合二为一,称为效标关联效度(criterion-related validity)。此外,还有其他分类方式,例如因子效度(factorial validity),区别效度(discriminant validity)等等,这里就不再赘述。
since 1980s
以Samuel Messick为代表的研究者们把效度看作为一个整体概念,液局即整体效度概念(unitary concept of validity)。效度不再是某个单一的概念,也不再专注于区分各个种类,而是应当从各个方面尽可能地收集证据,运用不同的测量手段来保证测试的结果能够得到合理的使用(邹申,2012)。Messick认为效度是:
(Validity is)an integrated evaluative judgement of the degree to which empirical evidence and theoretical rationales support the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment
效度是关于经验证据和理论论证对建立在测试分数和其他方式评估结果之上的种种推断与行动的充分性与合适性支持程度的综合评价性判断。
(Messick,1989,转引自邹申,2012)
同时,Messick发现基于分类方法而对效度进行验证所得到的结果过于分散,且忽视了测试成绩的价值含义及社会影响。他提出效度只有一个,即构念效度,但不是传统的构念效度,而是包括六大方面:内容方面(content),理论方面(substantive),结构方面(structural),普遍性方面(generalizability),外部方面(external)和结果方面(consequential)(Messick,1994)。Messick指出,证明效度的证据可来自多方面,效度验证不仅仅是对测试本身及分数的评价,还包括对测试结果解释和使用的评价(姜秀娟,2018)。
至此,受Messick效度观的影响,效度验证不再是以结果为导向的研究,而是一个持续不断的拷问过程。
值得一提的是,现在的效度验证非常注重公平性。1999年版的《标准》和2014年版的《标准》都专门开辟了一个章节Fairness in Testing,将公平性定义为无偏颇、考试过程公平、基于考试结果的决策公平以及学习机会均等。具体来讲,“无偏颇”就是消除影响构念效度的偏颇,比如要保证内容样本的覆盖面、所有考生都熟悉答题形式等;“考试过程公平”指在施考过程中平等对待所有考生,考生要有相同的机会展示自己的能力;“基于考试结果的决策公平”指不同考生群体的考试结果具有可比性,能力相同的考生应享有同等的选拔机会;“学习机会均等”主要指在标准参照考试中,考生有相同的机会学习考试内容和接触复习资料,尤其是考试成绩用于决定是否留级或颁发证书时,学习机会均等更显重要(姜秀娟,2018)。
2 如何衡量测试效度?
有时候老师们在使用了某些测量工具或手段(例如各种考试等)后会说,“这场考试看不出学生们的阅读水平”,这句话实际体现了老师们对测试效度的检验,即效验。效验就是在较为公认的理论框架下,对特定的测试结果的使用、解释以及根据该结果可能做出的推断或决策提供一些可以参考的理论和经验证据(邹申,2012:
143)。
学术界关于考查测试效度的讨论也很多,这里篇幅有限,就简单介绍两个效度证据收集的框架:一个是上文出现过的2014年颁布《标准》中规定的证据来源,另一个是目前较为完善也是学术界讨论比较热烈的AUA框架。
2014年版《标准》规定的证据来源
根据2014年版的《标准》,效度证据主要来自五个方面(关丹丹,2017):
1 基于考试内容的证据
考试内容与欲测构念之间是否匹配,即测验题目与测验要求的一致性。
2 基于答题过程的证据
基于对考生反应过程的观察,检验考生在回答题目时是否使用或表现出测验开发者所要求使用或表现的能力或策略,有声思维是搜集这一证据的主要方法。
3 基于试卷结构的证据
对试卷结构本身的检验,与题目的同质性有关,可以通过内部一致性信度、因素分析、多维尺度分析和结构方程模型等方法来评价。
4 基于与其他变量关系的证据
在该测验上的得分与测量同一构念的相近测验上得分的相关程度,相关分析与回归分析是常用的方法。
5 基于考试结果的证据
与测试项目有关的后果是积极的还是消极的,也可称之为测验的反拨作用。
AUA理论框架
目前比较热门的测试理论是“测试使用论证”框架(Assessment Use Argument,简称AUA),该框架由Bachman和Palmer在2010年提出。它尝试解释了测试开发与使用的整个过程,并对开发者和使用者都具有指导意义(韩宝成、罗凯洲,2013)。整个AUA的运行机制如下图所示:
AUA框架(韩宝成、罗凯洲,2013)
测试的使用以及基于测试的决策都会给相关人员(如考生、家长、教师、机构等)带来影响,高风险测试的影响尤大(韩宝成、罗凯洲,2013),所以AUA看重对测试(测试分数、决策及测试本身)使用合理性的论证,并非仅仅解读分数。同时,AUA强调在现实世界中(特别是通过衡量“后果”)评价一项测试的有用性,测试者不能仅凭冰冷的统计数字就对学生能力盖棺定论。
标准分数(standard
score)也叫z分数(z-score),是一个分数与平均数的差再除以标准差的过程。用公式表示为:
拿盯 z=(x-μ)/σ。其中x为某一具体分数,
滑盯μ为平均数,σ为标准差。
Z值的量代表消让和着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数。
高考录取平均分是:平均分是指所有被录取考生的平均分数。平均分,是考生当年进入高校所平均水平的体现。比较几年的平均分,如果考生都能够处于这个位置,那该考生被录取的可能性在不发生特别意外的情况下是非常大的。可以说,使用好平均分就能很好避免“大小年”的影响。因此,我们在使用分数线时,应将最高分蠢樱并、最低分和平均分结合使用,并特别重视平均分的意义。平均分的算法:高考志愿填报指南相对于平均分,录取线差更具参考价值,而且是高考填报志愿的重要参考依据,所谓录取线差是该院校当年平均录取分数与其在所在招生批次录取控制分数线的差值,中国教育在线建议考生用“录取线差”来分析。由于每年高考模式不一、高考试卷难度有别,造成各个院校各年度的录取分数可能发生较大的变化。但是通过大量的统计和分析,我们发现,对多数院校来说,尽管录取分数波动较大,但其录取线差一般波动不带迹会太大。所以应该逐年计算目标院校往年的录取线差:某年录取线差=当年颂返平均录取分数-当年相应批次控制分数线下面以某重点大学在北京招生情况为例,计算录取线差如下:例:某重点大学(理工类)在北京2003——2008年录取情况简单线差法分析示例:平均录取线差=(62+70+69+69+64+58)/6=65很显然,根据往年的情况来看,报考此大学平均需要65分的线差,最高的年份需要70分的线差。为保险起见,2009年报考该校还必须根据录取分数区间大小、录取人数在各分数段分布情况留出足够的保险空间,建议考生至少要留10分以上的余地。
1、gpa平均成绩的意思
GPA英语全称是grade point average,意思就是平均成绩点数,美国的GPA满分是4分,即A=4,B=3,C=2, D=1。GPA的精确度往往达到小数点后1到2位,如:30,345。GPA的计算一般是将每门课程的学分乘以 学时,加起来以后除以总的学时,得出平均分。中国学校的分数设置一般是百分制或五分制,具体的 折合方式视不同的美国大学的要求而有所不同,一般来讲,百分制中的90分以上可视为4分,80分以上 为3分,70分以上为2分,60分以上为1分,五分制中的5分为4分,4分为3分,3分为2分,2分为1分。
2、gpa可以提高吗
如果你是大二大三的学生,GPA当然是可以提高的,根据本科大学之后的安排尽量的重修或者重考一下以前成绩不高的科目,就能达到提高自身的GPA的目的。
如果你现在已经是一个大四的学生,那么由于之前GPA奠定的基数太大并且你也失去了很多重考重修的机会,那么GPA基本上就没有办法改变了,再想想别的办法表现自己吧。
3、gpa的计算方法
计算方法为:把学科所得到的评级,换算成一个积点,再按各学科的学分比例加权所得的数字。具体算法因国家、地区、学校的不同,差异较大。
最常见的成绩平均积点系统为四分制:A为4分;B为3分;C为2分;D为1分;F为0分,如果有+号加03分(例如B+即33分),有—号则减03分(例如B—即27分)。通常每科最高分为4分,但部份院校会设有A+,即最高分为43分。而个别院校的计算方法也可能有少许差异。
GPA的标准计算方法是将大学成绩的加权平均数乘以4,再除以100。比较常见的方法还有把各科成绩按等级乘以学分求和再以总学分除之。
GPA概述
GPA是Grade Point Average的意思,相当于我们的学分绩。对于本科生申请来说,GPA是所有申请材料里面最为重要的一项。很多时候,GPA的高低直接导致申请的好坏。当然,如果你有SCI/SSCI/AHCI论文,那是最好不过了,这是其他材料里面唯一能与GPA的重要性相抗衡的。对于研究生申请来说,其本科GPA和研究生阶段的论文都非常重要。所以拆庆,在本科低年级阶段,要把大多数精力投入在GPA的提高方面。当然,这并不是说要你一味地追求高分;你同时要注重在根本上提升自己的综合实力:有丰富的研究经历对于申请也非常重要。对于本科生,能有文章是很不容易的,但是如果你有丰富的研究经历,即使没有能够发表论文,它也会对你的申请大有裨益。
GPA分为Overall GPA和Major GPA,前者是把你上过的所有课程都计入在内的(包括选修课),后岩游者只计入你的核心课。GPA尤以Major GPA最为重要。但是Overall GPA也不容忽视。由于选修课也计入Overall GPA,所以选修课最好也要认真上,认真考。但是,美国学校在审查你的材料时,一般会挑出一些他们认为重要的课程重新计算GPA,所以如果你选修课考得不高也不必过于担心。另一方面,正是因为如此,如果你打算通过选修很多课程来提高你的Overall GPA,这也是没有多大作用的。
GPA计算方法
我们一般采用两种GPA计算方法:百分制加权平均(中国通用标准算法)和4分制加权平均(美国通用标准算法)。
百分制加权平均:∑(百分制课程成绩×课程学分数)/∑课程学分数。
4分制加权平均:先把百分制分数转换成4分制分数,再按照同样的公粗御销式计算:∑(4分制课程成绩×课程学分数)/∑课程学分数。转换表:
百分制90~100 80~89 70~79 60~69 0~60
4分制 40 30 20 10 0
这两种方法任挑一种使用,但对于不同的人各有利弊。比如说,如果你有很多88、89这样的分数,你可以使用百分制;如果你的核心课全部或绝大多数在90分以上,你可以使用4分制。另外,网上还流传着北大算法之类的其他算法,但我们建议采用以上的两种标准算法。
以上就是关于测试效度全部的内容,包括:测试效度、什么是标准分数,简述标准分数在实际中的应用、平均分是什么意思(录取平均分是什么意思)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【测试效度】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态