与教学目标相一致,教学评价也应包括认知、情感和技能三个方面。对于认知和技能领域的学业成就,最常用的教学评价手段是标准化成就测验和教师自编测验。而对于情感以及道德行为表现则常常采用非测验性的评价手段。如案卷分析、观察、问卷量表以及谈话等。当然,这些非测验性的评价手段也可作为学业成就评价的补充。
(一)标准化成就测验
标准化成就测验是指由专家或学者们所编制的适用于大规模范围内评定个体学业成就水平的测验。这种测验的命题、施测、评分和解释,都有一定的标准或规定。由于测验条件的标准化,测验的结果比较客观一致,适用的范围和时限也较宽广。其特点大致为:测验是tij专门机构或专家或学者按一定测验理论和技术,根据全国或某一地区所有学校的共同教育目标来编制的。所有受试人所做的试题、时限等施测条件相同,计分手段和分数的解释也完全相同。
(二)教师自编测验
1.教师自编测验的含义与特点。教师自编测验是由教师根据具体的教学目标、教材内容和测验目的,自己编制的测验,目前学校中使用的学习测验,绝大部分是教师自编测验。就学校教师自编测验而言,一般是根据课程标准的要求、教学内容以及所教学生的特点编制的.因此,这类测验针对性很强,是为特定的教学服务的。教师自编测验通常用于测量学生的学习状况,而标准化成就测验则用来判断学生与常模相比时所处的水平。
2.教师自编测验的一般原则。
(1)试题要符合测验的目的。学绩测验的目的有多种,是作为选拔、诊断之用,还是作为评价或分类之用。这一点是命题时必须明确的。测验目的不同,编制测验的取材范围及试题难度就应该有所不同。
(2)试题内容的取样要有代表性。由于学绩测验只是测量目标的一个样本而不是全部,因此试题内容的取样应有代表性,能代表该学科的全部内容,不能只偏重某一方面的内容而忽视其他方面的材料,否则,这个测验的效度就不可能高。
(3)题目格式应多种多样。在同一份试题中,应依据测验的目的与要求的不同,选用各种不同的题目形式,不宜“单打一”。如果要考查学生对概念的记忆,宜用简答题;要考查对事物的辨别和判断,适用多选题;而要考查学生综合运用知识的能力,宜采用论述题。此外,题目格式应明确,不要使学生误解。
(4)文句要简明扼要。测验题目的文字应力求浅显简短,不要使用艰深的字词,要排除与题目无关的多余信息;同时又不能遗漏解题所必须依据的条件,否则,试题便无法解答。
(5)测题应彼此独立。各测题不能含有暗示本题或其他题的正确答案的线索。如果一个题目的命题或答案的内容,为另一个题目的解答提供了线索,那么这后一个题目就失去了测验的意义,得分也就不能准确地反映其学绩。
3.教师自编测验的题目类型。
(1)客观题。客观题具有良好的结构,对学生的反应限制较多。学生的回答只有对、错之分,因此教师评分也就只可能是得分或失分。这类题目包括选择题、完形填空、匹配和是非题等。
选择题由题干和两个或更多的选项组成。题于可以是直接提问或者以不完整的句子的形式出现,目的是为了设置问题情境。而选项则提供选择的答案,包括一个正确答案和若干具有干扰性的错误项或迷惑项。学生的任务就是阅读题目,再从一系列选项中挑选出正确的项目。教师在出题时,要综合考虑题干和选项,使整个题目清楚明了。选项的数量一般没有统一的规定,教师可以随意确定选项的个数,大多是4~5个,这样可以避免学生猜测答案。题目可以安排各自不同数量的选项。良好的选择题,题干应该明确简单,选项应具有迷惑性。
经过精心设计的题干和选项,可以测查目标系列中的高于知识水平的其他水平。此外,选择题还有一种常用变式,选项中有一至多个正确答案,即通常被称为多选题。这种题型的难度大大高于常规的选择题(单选题),可以有效地检查高一级的学习成果,在测验中使用得较广。是非题与选择题有一点相似之处,即学生需要识别、选择出正确答案。常用的形式是,陈述一句话要求学生判断对错。是非题可用于测查不同水平的教学目标。是非题形式简单,能够在一份试卷内覆盖大量的内容。教师在评判时也较客观,计分简便省时。但是,一个重要的问题是:学生只有两种选择——对或错,所以即使在完全猜测的情况下,他们也有50%的机会选择到正确答案。一种可行的办法是,增加题目的数量。由于题量大,对题目总体的取样较全面,学生很难只凭猜测获得高分。
匹配题是另一种可提供多种选择的考试形式。通常,题目包括两列词句,一列是问题选项,一列是反应选项。学生根据题意按照某种关系将左右的项目连接起来。匹配题形式简单,能够有效地测量学生对知识联系的掌握情况,且易于计分。但是,它只能用于测查彼此存在着简单关系的知识。
填空题是呈现给学生一句或一段不完整的话或者直接提问,要求学生简要作答。当教师的目的是考查学生对知识的记忆时,填空题十分有用,它可将学生猜测的可能性降到最小。如果经过精心设计也可以通过填空题来考查学生对知识的记忆和理解以及推理和判断能力。填空题的问题在于:学生的答案各不相同,甚至会出现出人意料的答案,学生的答案受笔迹、用词等无关因素的影响。
(2)主观题。主观性测验也称论文式测验。它是用少数几个问题让被试或综述、或论证、或比较、或评价、或批判,允许根据自己的观点回答的一种开放式、自由式的测验,而评分者的给分标准也难以做到完全客观,需由主观判断确定,故称之为主观性测验。主观性测验的题目大致可分为两大类:一种是限制反应式,另一种是扩展反应式。限制反应式,这种题目通常规定解答范围,答案比较确定,常常只允许被试者提出一个简单准确的答案,回答的自由度不大。这种试题计分容易,也较为客观,但所测结果难以断定是学生记忆的结果还是理解、分析的结果,难以测出学生组织、整理、综合与评价的能力。扩展反应式,这种试题几乎不限制学生反应的形式及范围,给学生以回答问题的充分自由。如语文科考试中的作文,历史科考试中的人物评价等。扩展式反应试题编制比较容易,作答也不能靠简单的死记硬背,可以反映学生理解、分析、综合、评价及组织整理方面的能力。正因为作答的自由度大,所以评分标准难以掌握,信度也难以保证。
为了避免主观性测验的缺陷,编制试题时应注意以下几个方面:
①试题取样要有代表性。
②尽量避免机械作答的题目。
③应有标准答案作为评分的参照,力求评分客观、准确。
④阅卷者要克服无关因素对评分的影响和干扰,如书法的好坏、字词的流畅、学生平时的表现等。
4.有效自编测验的特征。
(1)信度。信度是指测验的可靠性,即多次测验分数的稳定、一致的程度。它既包括在时间上的一致性,也包括内容和不同评分者之间的一致性。例如,采用性格量表测量学生,他们在这一个月的得分,如果大致等于六个月前和三个月前的得分,那么我们就认为测验的信度较高。
(2)效度。效度是指测量的正确性,即一个测验能够测量出其所要测量的东西的程度。效度考虑的问题是:测验测量什么?测验对测量目标的测量精确性和真实性有多大?效度的重要性大于信度,因为一个低效度的测验,即使具有很好的信度,也不能获得有用的资料。例如,用磅秤称量体重,连续多次都会得到相同的值,而且准确地反映了个体的重量,那么信度和效度都很高;但是如果使用它来测量身高,虽然测量值之问总是保持一致,即信度很好,但是并没有说明个体的高度,因而不是适宜的测量身高的工具。
(3)区分度。区分度是指测验项目对所测量属性或品质的区分程度或鉴别能力。它是根据
学生对测验项目的反应与某种参照标准之间的关系来估计的。例如,可用年级或教师评定的等级作标准,看测验的项目能否把不同年级或不同水平的学生区分开来。
(三)非测验的评价技术
在实际教育中,前述纸笔测验并不是收集资料的唯一途径。教师还使用了许多非测验的评价技术,尤其是情感领域的教学评价更需要采用非纸笔测验。情感教学不属于任何一个学科,其效果可能产生在任何一种认知学科的教学中。
1.案卷分析。案卷是指学生作品的合集,即按照一定标准收集起来的学生作品以反映该学生的学习成果和学业水平。例如,学生的家庭作业、课堂练习、日记、手工制作的模型、绘画等各种作品。对学生的作品集进行评价分析并形成某种教学决策的过程就是案卷分析。在教学实际中,教师可根据不同的测评目的,选择使用代表作案卷、成长案卷或过程案卷。收录的是学生的最佳作品,例如学生自己最满意的若干周记、散文、说明文、议论文或诗歌。成长案卷收集的则是学生在同一学习目标上的不同时期的作品,例如学生可以挑选自己英语口语的会话片段,从早期的单词朗读、简单对话到后期灵活自如的交谈,这样的案卷可以形象地展现学生所取得的进步。过程案卷强调的是学生在某几个重要作品上的多次草稿和终稿,目的是为了促进和加深学生对重要知识技能的学习。例如,教师可以给学生的论文提供详细的评语并让学生反复修改论文,这个过程有助于学生体会和提高自己的写作能力。案卷分析可以适用于不同学科,尤其是语文、英语等学科的阅读和写作。为了行之有效地
使用案卷,教师在测评时可参考以下建议:
(1)对学生的作业进行恰当的取样。
(2)让家长参与评定,使家长了解学生在学校所学的内容。
(3)向学生说明,他们应该把最能体现他们的特长、完成得最满意的作业交给教师。
(4)通过班级讨论,决定评价的标准。
(5)要求学生写明评价的内容和依据。
2.课堂观察。教学过程中的各种正式和非正式观察,也能够收集到大量的有关学生理解状况的测评信息,以了解学生的社会性技能和情绪的发展水平。教师的课堂观察是最为广泛应用和最直接的测评手段,包括教师在授课时的提问和倾听学生的回答,留意学生的课堂行为
(如,学生是否专心听讲,例子是否太难,哪些学生仍然困惑),巡视学生实验的完成情况并解答疑问,对某些学生特别辅导等。教师必须随时根据所观察到的学生反应,来评价学生的学习情况,并有针对性进行教学决策,例如,教学目标是否已经达到,下一步教学何去何从,教学方法是否有效,哪些方面急需改进等。这一系列决策将帮助教师灵活地调节教学,对学生有效地因材施教。其次,观察测评不仅是教学中至关重要的环节,而且对于某些特定的学习结果,观察是最准确的测评方法,如朗读课文、英语会话、听力、讲演、实验动手能力、合作技能、演奏乐器、运动技能等。为了确保观察信息的信度、效度和公正性,教师应注意对学生进行全面系统性的观察,有时甚至需要客观、详细地记录下观察信息。就观察结果的记录方式而言,教师可以选择行为检查单、等级评价量表或轶事记录。
(1)行为检查单。教师在教学前列出一系列他认为重要的目标行为,然后在课堂上利用检查单及时记录下所观察到的行为,以便指导和帮助学生。表7—3所示是一份评价学生劳动行为的检查单的一部分。
姓名:
表7—3学生劳动行为的检查单(部分)时间:月日
行为表现 |
出现在左边的行为请画V |
备注 |
抹桌子 |
V |
|
打扫走廊 |
V |
班长布置的 |
为班级打水 |
||
帮老师擦黑板 |
V |
|
擦玻璃窗 |
(2)轶事记录。轶事记录是教师描述所观察的事件,这些记录一般是按照发生时间排列的。教师可以事先有明确的观察目标,就某一方面的行为进行记录;也可以没有明确目的,事后再专门分析或考查某一件事提供比较详细的情况,与检查单相比,轶事记录可提供比较详细的信息,这些记录一般是按照发生时间排列的。教师可以事先有明确的观察目标,就某一方面的行为进行记录;也可以没有明确目的,事后再专门分析或考查某一件事,这时教师就需要记下很多资料,甚至包括一些无关信息。轶事记录要求教师纯粹记录所观察到的内容,而不要掺杂个人的意见或观点。许多教师在他们的教案或工作日记上,都有轶事记录。但是,轶事记录比较费时,而且也很难排除主观偏见。
(3)等级评价量表。等级评价量表对于连续性的行为,可能更为有效。它可用于判断某种行为的发生频率,以及某种操作或活动的质量,使得观察信息被量化。评价量表是一种间接的观察技术,通过量化所观察的信息。可以迅速简便地获得概括化的信息。评价量表和行为检查单有一定关系。两者都要求教师对学生的行为进行判断,可以在观察过程中或结束后使用。但是它们的评价标准不同.检查单只需要作定性的判断.而等级评价量表是作定量的判断。等级评价量表可用来判断某种行为发生的频率,以及某种操作活动的质量,使观察信息量化。评价量表使用一系列值来表示从“不好”到“好”或从“不满意”到“满意”之间的几个等级,如教师评价学生交作业的情况:
123 4
总是从不有时经常
由于这种评价是教师的主观判断,有时难免有偏见,可以找几位教师一起进行评价,这样就会更客观。这种方法与检查表结合起来,既能得到定性的资料,也能得到定量的资料。
3.学生态度的评价。学生态度的评价是对学生的情绪、学习动机和个人观点等进行评价。除采用测验、已有量表进行评价外,也可以由教师自行编制一些开放式问题和问卷来收集信息进行评价。如了解学生对班级的态度可以采取开放式问卷:
班里有的同学 我愿意在课堂上
如果我是班长 每次班里组织活动时
了解学生的学习情况可采用这样的问卷:
我觉得数学很简单
(1)总是(2)从来没有(3)有时
我做作业很困难
(1)总是(2)有时(3)从来没有
辽宁教师资格证VIP班:怎样让备考才万无一失?233网校教师资格,讲师带你告别盲目备考,轻松掌握考点!零基础VIP班,不过免费重学!点击免费试听>>