淺談差異化評估的實踐
每位老師都希望照顧到學生個別差異,教育初心是讓每個學生在自己的賽道上盡情跑。為此,部分教育者把盼望投往了彈性評估試卷。
差異化評估:理念、實踐與挑戰
在差異化評估(Differentiated Assessment)和通用學習設計(Universal Design for Learning, UDL)的理念下,評估被細分為不同部分,所用的時間由少至多,難度由淺入深,並考核了不同層級的能力。學生可以按照個人的能力水平、作答信心、當下狀態以及對題目難度的判斷等因素,自由選擇只回答部分試卷或完成全部試卷。這項設計的關鍵優勢在於照顧差異,它允許學生選擇最適合自己難度的賽道,從而有效減輕了應試壓力,並推進了以學生為本的評核模式。
例如,若評估是一道長題目,要求學生以小論文方式作答,學生可以選擇:
一,只提出核心觀點和簡要論證(淺層次能力):適合基礎較弱或時間有限的學生,只需展現題目基本概念,提出清晰論點,交出簡單支持理由。他們還可以寫出引入段。此舉確保他們也可參與評估,獲得初步肯定。
二,在核心觀點的基礎上,加入更多資料佐證、深入分析或提出反駁論點(中層次能力):適合能力較強、希望展現更深層次思考的學生,不僅要提出論點,還需運用相關知識和數據進行至少一次論述,可能還要兼顧不同的角度。
三,建構完整而嚴謹論證,包含多層次或多角度(如正、反、駁兼備,有即時或長遠的角度之分)的論據,要回應不同觀點:為頂尖學生設計,要求他們展現出全面和較深入的知識水平,應考能力。
儘管設計初衷既專業又公平,但如何統一呈現不同賽道的成績,將彼此比較卻是一大難題:
傳統的方法是按照舊有的評分方式給予分數,對於只列出觀點的學生而言,雖然已掌握基本知識和能力,但卻可能不會得到及格的分數。
另一個極端是以質性方式評估為主,能力導向表現報告最理想 — 它清晰列出所選賽道、各部分表現,並給出總體能力評語。這種報告能精準描述學生能力,尤其有利於有特殊學習需求的學生,但缺乏統一總分,解釋成本較高。
第一個折中的方案是用兩個不同的評分系統,只作答部分內容的學生可能獲得的是等級,全答的學生則有具體分數;但兩者難以直接比較,更難以進行統一排名。
第二個折中方案是沒有挑戰完整賽道者只給等級,且設定等級上限,換算成可以比照的分數。此法略似今日考評局在某些科目實行的總結性評估,操作直接,能獎勵挑戰高難度者,它不盡適合形成性評估,其不公平體現在「懲罰」基礎賽道中取得卓越成就的學生,讓他們的成就只與完整實道表現平平的人相近,與「因材設評」的差異化評估的理念背道而馳。
在不能盡善盡美下,如果採用統計為本的綜合分數似乎是個較好的出路,方式有二:
第一個是百分位排名,只比較同賽道的人,呈現學生勝過多少百分比的人;好處是呈現到只做基礎部分學生的優勢,但因為是常模參照(Norm-Referenced)而非「標準參照」(Criterion-Referenced),只呈現到比多少人強,而不是掌握了甚麼,且同樣也會對較難賽道中等表現者不公。
第二個做法是標準分處理法(Z-score / T-score),將不同「賽道」上、原本無法直接比較的原始分數,轉換成一個統一的、標準化的尺度,以便進行公平的比較和排名。這種方法在統計學上最為嚴謹,能夠反映學生在其所屬群體中的相對位置,原理是內部標準化 — 首先針對每個「賽道」計算平均分和標準差,接著把原始分數轉換成Z-score(成績比所在賽道的平均分高出或低了多少個標準差)— 所有成績轉換成 Z-score,就處於同一個標準,可以直接比較,甚至統一排名。為了讓分數更直觀,避免出現負數和小數,Z-score 還可以選擇性地轉換為 T-score(T = 10 × Z + 50)。經過轉換,T-score 通常會分佈在 20 到 80 之間,平均值為 50,更易於理解。這種方法優點顯而易見,在統計學上具公平性,公認最科學 — 這方式也和教育局用以比較不同收生情況的學校的增值指標原理相近。
評估的真正目的,在於與學與教緊密結合,並回歸到其「促進學習」的本質。唯有如此,評估才能成為學生成長的真正動力,而非僅僅是冰冷的排名工具。它應當全面反映學生的發展,並能針對性地提供個人化學習建議,引導他們持續進步。我們深信,評估的意義,在於看見每個孩子的獨特性和潛能,而非僅憑一個分數來定義他們的全部價值。因為一個分數無法定義學生,我們希望評估能真實地見證每個孩子的獨特光芒。