中共中央、國務院印發(fā)的《深化新時代教育評價改革總體方案》明確指出,“創(chuàng)新評價工具,利用人工智能、大數(shù)據(jù)等現(xiàn)代信息技術,探索開展學生各年級學習情況全過程縱向評價、德智體美勞全要素橫向評價”。近年來,隨著人工智能、大數(shù)據(jù)、區(qū)塊鏈等新一代數(shù)字技術的教育應用,在實踐探索中形成了無感式數(shù)據(jù)采集、多模態(tài)數(shù)據(jù)融合處理、智能化診斷分析、即時性精準反饋等新樣態(tài),為破解教育評價難題提供了新的可能。在教育數(shù)字化轉型的背景下,如何發(fā)揮新一代數(shù)字技術優(yōu)勢,推動教育評價理念與方式的“迭代升級”,切實扭轉不科學的教育評價導向,為教育高質量發(fā)展保駕護航,是一個必須答好的時代課題。
一、數(shù)字技術是新時代教育評價的變革因子
回顧歷史,教育評價經(jīng)歷了漫長的發(fā)展過程。早在西周時期,我國就建立了較為完整的考試制度?!秾W記》中記載的“比年入學,中年考校”,就是每隔一年要依據(jù)相應標準對學生的學業(yè)和品行進行考查。隋朝創(chuàng)立了分科取士的科舉制,對社會發(fā)展產(chǎn)生了長遠而深刻的影響。隨著現(xiàn)代教育制度的建立,美國教育家泰勒提出了目標評價模式,將教育目標轉化為可測量的行為目標,依據(jù)行為目標編制課程教案、組織教學活動、評估教學成效,由此引發(fā)了標準化考試在全球教育領域的廣泛盛行。標準化考試操作性強、便于大規(guī)模實施,而且能夠有效克服主觀偏差,直到今天仍然是教育評價的首選方式,試卷、測驗等評價工具依舊發(fā)揮著重要作用,幾乎給所有學生都留下了難以忘卻的復雜印象。
隨著新一代數(shù)字技術的迅猛發(fā)展,人們可以利用大數(shù)據(jù)技術,采集過程性學習數(shù)據(jù),全面展現(xiàn)學生的知識結構、能力表現(xiàn)和內在潛能,為每個學生提供精細的“數(shù)字畫像”;利用人工智能技術,創(chuàng)設模擬仿真測驗、虛擬任務場景、協(xié)作學習環(huán)境等,在真實任務情境中考查學生的問題解決能力,破除唯分數(shù)的頑瘴痼疾;利用區(qū)塊鏈技術,建立分布式學習檔案,認證學生的多樣化學習成果,有效防止數(shù)據(jù)被篡改,助力解決學生綜合素質評價存在的信任問題;利用可穿戴智能設備,實時采集運動與健康數(shù)據(jù),及時發(fā)現(xiàn)學生在體質健康、運動技能等方面存在的問題,提供個性化的改進方案,實現(xiàn)伴隨成長全過程的診斷反饋??梢哉f,數(shù)字技術正在觸發(fā)一場教育評價的深刻變革,從根本上改變傳統(tǒng)評價過于強調甄別與選拔的現(xiàn)狀,使評價重點從“容易測量的技能”擴展到“難以測量的素養(yǎng)”,更加關注“軟素養(yǎng)”、高級認知技能和非認知學習成果,促進學生全面發(fā)展[1]。
二、教育評價數(shù)字化面臨的主要矛盾
目前,人們越來越重視數(shù)字技術對教育評價改革的重要作用,推進教育評價數(shù)字化轉型,在實踐探索中形成了自適應測驗、電子檔案袋、多模態(tài)學習分析、學生數(shù)字畫像、基于大數(shù)據(jù)的課堂觀察等新型評價方式,很大程度上改變了傳統(tǒng)評價面貌。但是,教育評價數(shù)字化大多停留于淺層次應用,尚未真正突破教育評價的痛點難點問題,尤其是新技術與新理念尚未有效銜接、評價內容過度關注知識獲得、評價功能存在錯位等,制約著教育評價改革的全面深化和整體轉型。
第一,“新技術”與“舊標準”之間的矛盾。評價標準具有重要的導向作用。如果用“新技術”來評“舊標準”,數(shù)字技術可能無法成為教育評價改革的利器,反倒還會強化傳統(tǒng)教育評價的弊端。遺憾的是,一些學校引入數(shù)字技術后,并未對評價標準進行相應調整,仍然以知識性考查為主,把過去的紙筆測試變成現(xiàn)在的“自動化測試”,用技術更加高效地開展考試排名,很可能進一步助長唯分數(shù)、唯升學的不良傾向。所以,教育評價數(shù)字化轉型的關鍵不是技術的“數(shù)字化”,而是標準的“轉型”,改變以知識為中心的評價導向,合理減少知識習得類指標,增加能力素養(yǎng)類指標,突出強調學生整合運用知識創(chuàng)造性解決復雜問題的能力,著力發(fā)展學生的高階思維和創(chuàng)新能力,讓數(shù)字技術真正成為構建新型教育評價體系的“催化劑”。
第二,“單向度”與“多模態(tài)”之間的矛盾。傳統(tǒng)教育評價存在“分數(shù)至上”“考試第一”等單向度風險,這主要是受到社會功利化、教育短視化的影響,但也與評價手段不先進、評價方法不完善有著密切關系。目前,我們還缺乏有效的評價方法和手段,準確衡量學生綜合素質發(fā)展情況,特別是如何評價學生的品格、心理和個性,一直是公認的難點?,F(xiàn)在,人工智能領域的深度學習算法提供了新思路。斯坦福大學實踐證明,只需要采集用戶的227個點贊行為,就能大致判斷出用戶的性格特征。這表明,通過網(wǎng)絡痕跡可以對學生的人格、興趣、心理健康等進行預估,為全方位評價學生提供了借鑒。所以,教育評價要善于利用技術優(yōu)勢,在教育教學活動中采集多模態(tài)數(shù)據(jù),既可以是總結性測試的考試分數(shù),也可以是記錄學習過程的文字、圖片、音頻、視頻等學習檔案,還可以是反映學生能力的調查報告、手工作品、活動總結等學習成果,甚至可以是學生網(wǎng)絡行為數(shù)據(jù)、參訪場館數(shù)據(jù)等,全面展現(xiàn)思想道德、身心發(fā)展、學業(yè)水平、審美情操、勞動技能等方面情況,促進學生德智體美勞全面發(fā)展。
第三,“高賦能”與“高負擔”之間的矛盾。教育評價數(shù)字化的核心是技術賦能,利用數(shù)字技術優(yōu)化評價流程,減輕師生負擔,提高評價效能。但在實踐中卻可能會不同程度增加教師負擔,把新技術異化成隨時隨地下任務、發(fā)指令、填表格、報數(shù)據(jù)的工具,導致許多教師望而卻步,不愿再開展教育評價數(shù)字化的探索。所以,教育評價數(shù)字化一定要平衡好“賦能”與“負擔”之間的關系,評價指標設計盡量精簡,追求用最少的指標實現(xiàn)最大的效能,能夠根據(jù)不同評價場景共享使用和自動調用數(shù)據(jù),為教師減輕各種機械性、重復性、事務性工作負擔。
第四,“技術性”與“倫理性”之間的矛盾。教育評價數(shù)字化不是為了技術而用技術,也不是技術用得越多越好,更不能把技術變成“一舉一動皆量化打分”的師生監(jiān)控器。有媒體調查發(fā)現(xiàn),一款覆蓋3000萬學生的教育類App記錄著學生在校的幾乎全部行為表現(xiàn),并通過加減分給學生排名——不午睡,扣分;坐姿不正確,扣分;周一不穿禮儀服,扣分……甚至有學校將App上的評分排名與加入少先隊、評選三好學生等評優(yōu)評先掛鉤。由于智能設備和視頻監(jiān)控的濫用,學校可能成為“超級全景數(shù)據(jù)監(jiān)獄”,對評價對象進行全方位監(jiān)視,其身份特征、課堂表現(xiàn)、學習興趣和偏好等個人信息變得無“私”可“隱”,進一步加大了算法偏見和信息繭房的風險。隨著“量化一切”思想的盛行,評價對象不斷“被注視、被觀察、被詳細描述、被一種不間斷的書寫逐日跟蹤”,人的生命價值被禁錮在數(shù)據(jù)枷鎖之中,逐漸矮化為數(shù)據(jù)馴順的肉身[2]。所以,教育評價數(shù)字化一定要堅守科技倫理底線,正確處理人機關系,充分尊重和保護師生隱私權和信息知情權,增強評價算法的透明度,構建可信的人工智能教育體系,保障師生擁有充分自主決策權。
三、數(shù)字技術賦能教育評價的路徑選擇
教育評價改革是一項世界性、歷史性、實踐性難題,數(shù)字技術為全面深化評價改革提供了重要機遇。我們要牢牢把握機遇,積極應對挑戰(zhàn),厘清發(fā)展路徑,推進教育評價數(shù)字化轉型,提高教育治理能力和水平,支撐教育強國建設。
第一,構建動態(tài)更新的教育評價模型。教育評價數(shù)字化要從簡單疊加的指標思維轉向系統(tǒng)完整的模型思維,建立數(shù)據(jù)變量與理論指標的映射關系,將“冷冰冰”的數(shù)據(jù)轉變成能夠反映“活生生”人的綜合表現(xiàn)。首先,跳出教育看教育,整合教育學、心理學、計算機科學等專業(yè)力量,聚焦思想品德、學業(yè)水平、身心健康、藝術素養(yǎng)、社會實踐等維度,形成一套具有廣泛共識度、覆蓋度的評價指標理論體系。然后,瞄準未來人才培養(yǎng)目標,依據(jù)評價指標理論體系,細化形成數(shù)據(jù)觀測點和采集點,利用數(shù)字技術將專家的理論知識與數(shù)據(jù)的量化表征關聯(lián)起來,構建可解釋、可操作的教育評價初始模型。最后,依托人工神經(jīng)網(wǎng)絡、人類反饋強化學習、關聯(lián)規(guī)則學習、生成對抗網(wǎng)絡等算法模型,從大量數(shù)據(jù)分析中提取有效的評價規(guī)則,開展智能精準的指標篩選和權重計算,推動評價模型從預設框架邁向動態(tài)體系,形成開放式、動態(tài)化、自適應的教育評價模型。這種動態(tài)模型不是封閉的,而是在使用過程中不斷改進、優(yōu)化、迭代升級,呈現(xiàn)出“越用越精準、越用越智能”的特征,能夠適應各類復雜的教育教學場景,將千人一面的標準化考試轉變?yōu)榍饲娴膫€性化診斷。比如,在數(shù)字化學習過程中,采用智能技術采集學生的學習時間、學習習慣、學習風格、學習方式等個人信息,根據(jù)學生一段時間的學習表現(xiàn),制訂個性化評價方案和可視化反饋報告,從而為學生規(guī)劃出最優(yōu)化學習路徑并提供適應性學習服務。
第二,實施全場景、多模態(tài)的教育數(shù)據(jù)采集。教育評價數(shù)字化將從散點式的成績記錄轉向全景式的數(shù)據(jù)采集,通過學生學習、教師教學、社會生活等方面的大數(shù)據(jù),實現(xiàn)對學生成長的橫縱向追蹤和全過程動態(tài)分析。一方面,充分發(fā)揮智能終端、可穿戴設備、智慧教育平臺等技術優(yōu)勢,在真實情境下開展伴隨式數(shù)據(jù)采集,除采集文字信息的單一模態(tài)數(shù)據(jù)之外,還能采集音頻、視頻、心理指標、生理信號等多模態(tài)數(shù)據(jù),全方位呈現(xiàn)學生成長過程中的關鍵時刻和典型行為。比如,有學者創(chuàng)建了一個計算機三人協(xié)作編程任務來考查受測者的協(xié)作問題解決能力。為了全面捕獲可反映受測者任務表現(xiàn)的相關信息,他們采用視頻記錄法和平臺自動記錄法,綜合采集了受測者的面部表情數(shù)據(jù)、語音討論數(shù)據(jù)和計算機編程界面變化數(shù)據(jù)[3]。另一方面,將學生視為“社會生活人”,而非“學校教育人”,把固定的教育場景變成泛在的社會場景,著力加強跨部門數(shù)據(jù)匯聚,從全社會各領域獲取學生成長相關數(shù)據(jù),把全社會都變成教育評價的數(shù)據(jù)源,以家校社協(xié)同的方式采集學生睡眠時間、運動頻率、課外勞動時長、社會實踐次數(shù)等數(shù)據(jù),共同推動德智體美勞全面培養(yǎng)的學生綜合素質評價有效落地。
第三,打造靈活彈性、人機協(xié)同的教育評價格局。教育評價數(shù)字化是一項復雜的系統(tǒng)工程,更加需要學校、家庭、社會的協(xié)同參與,每個參與者既是評價主體,也是評價對象。同時,數(shù)字技術發(fā)展使人機協(xié)同評價成為現(xiàn)實。為此,要充分激發(fā)多元評價主體的參與積極性,探索人機協(xié)同的有效模式,共同構建靈活彈性的教育評價體系。首先,堅持一數(shù)一源、一源多用的原則,建立統(tǒng)一的數(shù)據(jù)標準,加強不同平臺系統(tǒng)之間的銜接,保障數(shù)據(jù)內外部使用和調用交換的一致性,避免出現(xiàn)重復收集數(shù)據(jù)和“數(shù)據(jù)孤島”現(xiàn)象。然后,加強數(shù)據(jù)自動化采集分析,利用文本識別、圖像識別、語音識別等技術讀取傳統(tǒng)媒介信息,讓傳統(tǒng)媒介成為評價數(shù)據(jù)的重要來源,同步提供自動化診斷反饋和評價建議,有效減輕教師負擔。最后,探索實施數(shù)字認證,創(chuàng)建微證書、數(shù)字徽章、電子文憑等,推動校際課程互選、標準互通、學分互認、評價互信,結合校內外數(shù)據(jù)進行關聯(lián)分析和多重校準,撬動優(yōu)質教育資源共享,凝聚家校社協(xié)同育人合力,構建泛在終身學習體系。
本文系中國教育科學研究院基本科研業(yè)務費“面向教育數(shù)字化轉型的學習評價創(chuàng)新研究”(課題編號:GYI2023015)的研究成果
注釋:
[1] 曹培杰. 人工智能教育變革的三重境界[J]. 教育研究,2020(2):143-150.
[2] 鹿星南,高雪薇. 人工智能賦能教育評價改革:發(fā)展態(tài)勢、風險檢視與消解對策[J]. 中國教育學刊,2023(2):48-54.
[3] 鄭勤華,陳麗,柴喚友等. 基于信息技術的表現(xiàn)性評價:內涵、作用點與發(fā)展路向[J]. 中國電化教育,2023(3):55-61.
(作者曹培杰系中國教育科學研究院數(shù)字教育研究所副所長,王阿習系北京聯(lián)合大學師范學院講師、博士)
《人民教育》2023年第20期
工信部備案號:京ICP備05071141號
互聯(lián)網(wǎng)新聞信息服務許可證 10120170024
中國教育報刊社主辦 中國教育新聞網(wǎng)版權所有,未經(jīng)書面授權禁止下載使用
Copyright@2000-2022 www.cellautomata.net All Rights Reserved.