考試評價正在經(jīng)歷從知識到能力的轉(zhuǎn)向

發(fā)布時間：2023-07-03 作者：本報記者梁丹來源：中國教育報

1995年，時任外交學院訪問學者的阿米特·塞瓦克第一次來到中國。騎著飛鴿牌自行車，他隨著北京街頭浩蕩的自行車流，打量著這座古老又快速變化的城市。

“那是一個非常令人興奮、充滿活力的時期，人們對像我這樣的外國人充滿了新鮮感和好奇?！卑⒚滋鼗貞浀?。在他到來前不久的1981年，ETS（美國教育考試服務(wù)中心）旗下的托?？荚?，作為首個被引進中國內(nèi)地的國際化標準語言測試，剛剛迎來第一批723名中國考生。

作為擁有托福、GRE等諸多測評產(chǎn)品的世界知名專業(yè)化教育考試評價機構(gòu)，ETS在考試技術(shù)的運用和教育評價觀念的引領(lǐng)方面一直處于領(lǐng)先水平。在全球教育經(jīng)歷轉(zhuǎn)型的當下，ETS如何看待今天考試評估的新變化、新趨勢？在人工智能技術(shù)崛起的背景下，教育評價會有何變化？

2023年春，阿米特·塞瓦克作為ETS新任首席執(zhí)行官再次來到北京。中國教育報記者就這些問題采訪了阿米特。

考試測評將更關(guān)注如何全面地評價人

中國教育報：我們了解到，這次您來中國的一個重要行程是，參加托福iBT考試改革發(fā)布活動。這一次托福改革的背景是什么？

阿米特·塞瓦克：今年4月中旬，我們在北京召開發(fā)布會，介紹了托?？荚嚫母锏南嚓P(guān)情況。簡單來說，從今年7月26日起，托福考試時長將由3小時縮短至2小時以內(nèi)，并且我們將精簡考試流程說明與操作導引、將現(xiàn)有獨立寫作試題替換為更為簡練的全新寫作題型“學術(shù)討論寫作”、縮短閱讀部分時長，并取消所有不計分的加試題。

首先，我們想讓考試對考生來說盡可能地舒適、方便，我們想讓他們能以一種壓力更小的方式進行評估，并讓他們對參加測試有信心。正如我上大學時一位教授所說的那樣，考試不應該是一件煩人的事，它應該是對你學到的知識和能力的鼓勵。其次，我們希望測試體驗更加對用戶友好。當然，我們在縮短時間的情況下，依然保持了考試的高質(zhì)量和嚴謹?？偠灾?，我們希望托福考試更加方便，更加友好，同時，也依然擁有和此前一樣的高標準。

中國教育報：不僅是托福，從全球來看，考試評估都在經(jīng)歷著改革重塑。您認為將有哪些變化趨勢？

阿米特·塞瓦克：過去，世界上的大多數(shù)考試關(guān)注的都是知識的積累程度和掌握水平。但現(xiàn)在，企業(yè)招聘主管與大學招生官更關(guān)注“你是否掌握了能力”，而非“你是否掌握了知識”。我們把這稱為對“ABC能力”的重視。A是情感能力，B是行為能力，C是認知能力。

以前，大部分考試集中于邏輯推理等認知能力，這也是標準化考試中著重考查的內(nèi)容。情感能力則涉及你的行為表現(xiàn)，比如你的情商。行為能力則是你如何應用知識的具體行為。舉個例子，英文語法被歸類于認知層面，理解情緒與語義則被歸類于情感層面，與他人使用英語交流則是一種行為能力。隨著世界的發(fā)展，我們認為對ABC能力的關(guān)注將日益加深，對如何以更全面的方式來衡量和評價一個人的關(guān)注也會更多。

今天，我們已經(jīng)看到，越來越多的企業(yè)希望求職者具備良好的溝通能力、協(xié)作能力、團隊合作能力和高情商等非知識性能力，而這些能力在傳統(tǒng)的教育體系中得到的重視和培養(yǎng)還不夠。

中國教育報：這一變化趨勢意味著什么？

阿米特·塞瓦克：總的來看，為了評估考生的這些非知識性能力，會有越來越多的考試產(chǎn)品出現(xiàn)。以ETS為例，未來，除了托福考試外，我們也會對旗下的其他測評產(chǎn)品進行升級。比如，長期以來，GRE（美國研究生入學考試）更偏向于是一種認知測試，主要被用來測試考生解決問題和邏輯推理的能力。但我們也發(fā)現(xiàn)，越來越多的大學希望GRE考試對考生的溝通能力、團隊協(xié)作能力等也進行評估。因為大學也日漸發(fā)現(xiàn)，在研究生階段，團隊協(xié)作能力對于學術(shù)研究也是十分重要的。

我認為，未來的大學入學考試和結(jié)業(yè)考試，不僅有大型的標準化考試，還會嵌入越來越多的能力測評。例如，當考生參加一項考試后，不僅會得到一個分數(shù)，還會獲得相應證書和不同能力的評價。我們可以把能力測評和相應結(jié)果納入到成績報告中，這是值得一做的嘗試。

技術(shù)全面影響和改變著教育評價

中國教育報：正如您所說，能力型、素養(yǎng)型評價越來越被重視，但對能力和素養(yǎng)如何有效評估依然是難點。

阿米特·塞瓦克：我認為技術(shù)的發(fā)展將解決這個問題。目前我們已經(jīng)有了越來越多的工具可以用于能力的測評，而這些工具和技術(shù)在十年前甚至是五年前都還沒有出現(xiàn)。在我看來，借助這些技術(shù)，我們對于能力、素養(yǎng)的測評會更容易實現(xiàn)。未來，我們會有越來越多的工具支撐我們開展更好的測評。

應該看到，今天，技術(shù)的發(fā)展已經(jīng)給我們帶來了更多樣的檢測工具，比如，一些可穿戴設(shè)備能夠?qū)崟r地監(jiān)測用戶的心率和步數(shù)。我們認為，未來測評產(chǎn)品也會是這樣的發(fā)展方向。在技術(shù)的支持下，越來越多的人能積極、定期地評估自己能力的發(fā)展，而不是只能通過周期更長的標準化考試。

隨著數(shù)字化存儲技術(shù)的發(fā)展，已經(jīng)有一些公司在做這方面的嘗試。借助數(shù)字化工具，我們對能力的測評間隔將更短，會生成更多形成性、過程性的評價。當今的世界正在朝著科技含量更高、速度更快的方向發(fā)展，這表明了社會的進步，也將使人們對自己已經(jīng)掌握的能力和想要培養(yǎng)的能力擁有更多的掌控權(quán)和更清晰的認知。

中國教育報：技術(shù)給考試測評帶來了新的想象。但是，以ChatGPT為代表的人工智能技術(shù)也對傳統(tǒng)考試評估帶來了挑戰(zhàn)。您怎么看待這種影響？

阿米特·塞瓦克：包括教育在內(nèi)的許多行業(yè)正在受到以ChatGPT為代表的AI技術(shù)影響。在考試測評領(lǐng)域，AI已經(jīng)深刻影響著我們。

一般而言，我們可以把考試測評分為設(shè)計、實施、評分和分析四個階段。今天，AI正改變和影響著考試測評的每一階段。比如，在考試設(shè)計階段，AI可以通過生成式內(nèi)容技術(shù)幫助研究人員更好地開發(fā)不同類型的試題；在考試實施階段，AI可以幫助考試變得更加多樣和更具個性化；在評分階段，我們已經(jīng)可以用AI技術(shù)工具進行自動評分；在分析環(huán)節(jié)，憑借大量數(shù)據(jù)，人們可以通過AI來尋找和發(fā)現(xiàn)數(shù)據(jù)背后的規(guī)律和模式。另外，AI技術(shù)還被很多大學和企業(yè)用于面試環(huán)節(jié)，比如把面試人的表現(xiàn)記錄下來，通過AI對其表情、說話和溝通的方式進行分析。

現(xiàn)在一個有趣的現(xiàn)象是，在大學招生中，很多面試官都在思考如何更好地向?qū)W生提出問題。以短文寫作為例，由于ChatGPT已經(jīng)完全可以勝任短文寫作，因此，當面試官提問時，就得重新考慮，如何以一種機器無法替代的方式考查學生。因此，我認為AI不僅會影響到測評本身，還將影響到教育的整個過程。

考試評估正在進行更多樣化的探索

中國教育報：隨著技術(shù)的不斷發(fā)展，傳統(tǒng)的標準化考試會消亡嗎？

阿米特·塞瓦克：其實歷史上人們不止一次提出過這個問題，不少人也曾認為，標準化考試會逐漸消亡。但時至今日，我們也看到，標準化考試并沒消失，反而一直在發(fā)展延續(xù)。

今天，當我們再一次思考這個問題時，更應該需要考慮的問題是，除了標準化考試之外，我們還有其他哪些測評方式的選項，并確保其在不同的國家、州或省份享有同樣的有效性和公平性。我認為這是一個值得思考的問題。如果我們?nèi)∠麡藴驶瘻y試，在面對兩個背景截然不同的申請者時，院校應如何有效、公平地評估并比較他們呢？圍繞這一問題所展開的討論，是今天教育界所關(guān)注的。

與此同時，我們也要看到不同國家、社會的情況不同，對考試評價的需求也不同。今天，世界上一些國家和地區(qū)仍然是需要標準化測試的。但在另外一些國家和地區(qū)，人們正在思考和探索標準化測試之外的其他選項。正如我們關(guān)注到的一樣，一些國家和地區(qū)的教育評價中需要更多的標準化元素，但在另一些地方則可能希望更少的標準化色彩。

對我們來說，ETS作為全球最大的教育測評機構(gòu)之一，我們既可以提供標準化測試，也可以提供個性化測試，還可以進行定制化測試。我們對不同的測評類型持開放的態(tài)度，并能靈活應對。

中國教育報：近年來，美國很多高校采取“標化考試可選”，有些大學甚至不再要求提交SAT、GRE等標準化成績。這是一種多樣化的探索嗎？

阿米特·塞瓦克：最近幾年，美國這一政策的發(fā)展勢頭越來越強勁。一方面，美國許多大學正感受到不小的財政壓力，他們需要增加入學人數(shù)，以保持經(jīng)濟上的可持續(xù)性。對于許多大學來說，標化考試可選政策允許更多的申請人提交申請。此外，許多大學也日益看重多樣性，該政策可以幫助大學建立一個更為廣泛、多樣化的候選人儲備庫。大學正在把這一政策作為向社會開放和增加進入大學機會的方式。

中國教育報：在中國，高校也有強基計劃等多樣化的招生選拔方式。面對更加多元的考試招生方式，您怎么看？

阿米特·塞瓦克：我認為關(guān)鍵問題是招生考試的目的是什么。在我看來，招生考試的目的之一就是幫助申請人和學校能有一個共同的框架。對于大學而言，他們最大的希望是確保評價客觀、公正并且合理。因此，當大學決定改變或者摒棄某種測試時，都面臨著一個核心的問題——用什么標準來替代原有的測試。

幾十年來，標準化測試重要的功能是提供了這樣一個衡量標準。例如當大學同時面臨來自中國成都、法國巴黎和美國得克薩斯的學生時，怎么評價和比較呢？傳統(tǒng)的標準化測試就提供了一種標準。當然，這并不是唯一的，但這的確是一個有效的方法。因此今天，當我們思考把標準化考試替換成其他考試時，我們面臨著的新的挑戰(zhàn)是，如何再造一個評估候選人的新范式。

《中國教育報》2023年07月03日第4版

展開全文

0 0 0 0

糾錯

分享到：

ETS首席執(zhí)行官阿米特·塞瓦克：

考試評價正在經(jīng)歷從知識到能力的轉(zhuǎn)向

發(fā)布時間：2023-07-03 作者：本報記者 梁丹 來源：中國教育報

相關(guān)閱讀

發(fā)布時間：2023-07-03 作者：本報記者梁丹來源：中國教育報