红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

網(wǎng)站首頁(yè)
手機(jī)版

GRE作文用AI打分,20周年了:AI給中國(guó)考生的分?jǐn)?shù),遠(yuǎn)超人類(lèi)打分?gre作文 知乎

更新時(shí)間:2024-06-11 11:13作者:小樂(lè)

敖飛寺的栗子

量子比特報(bào)告|公眾號(hào)QbitAI

GRE 論文是使用AI 進(jìn)行評(píng)分的。

這原本不是新聞。

然而,由于美國(guó)媒體VICE發(fā)布的一項(xiàng)調(diào)查,此事成為熱議的焦點(diǎn)。

VICE 調(diào)查了美國(guó)50 個(gè)州,發(fā)現(xiàn)至少21 個(gè)州(包括加州)的教育系統(tǒng)已經(jīng)使用AI 作為標(biāo)準(zhǔn)化考試中作文評(píng)分的小學(xué)/中學(xué)主要工具。

藍(lán)色=AI評(píng)分,淺藍(lán)色=試點(diǎn),紅色=無(wú)AI評(píng)分,粉色=取決于學(xué)區(qū),灰色=無(wú)響應(yīng)

在這21個(gè)州中,只有3個(gè)州表示人類(lèi)也會(huì)參與論文評(píng)分;其余18個(gè)州只會(huì)隨機(jī)選擇5%-20%的論文,交給人類(lèi)審核AI給出的分?jǐn)?shù)。

問(wèn)題在于,標(biāo)準(zhǔn)化考試常常被用作選拔和決定人類(lèi)未來(lái)的依據(jù)。如果AI得分,那么命運(yùn)就掌握在AI手中。

這時(shí)候,人們不禁想起了GRE這位20年前就開(kāi)始用AI評(píng)判論文的大四學(xué)生。

許多研究表明,許多基于人工智能的論文評(píng)審機(jī)制,包括GRE評(píng)分機(jī)電子評(píng)分器,都存在明顯的缺陷。

然而這些年來(lái),AI不但沒(méi)有被各種作文考試拋棄,反而越來(lái)越受歡迎。

于是,《黑客新聞》網(wǎng)友們掀起了熱議,不到一天的時(shí)間,人氣就達(dá)到了330+。

GRE:機(jī)器比人更喜歡中國(guó)考生。早在1999 年,主辦GRE 考試的教育考試服務(wù)中心(ETS) 就開(kāi)始使用電子評(píng)分器對(duì)論文進(jìn)行評(píng)分。

根據(jù)官方信息,該自然語(yǔ)言處理(NLP)模型有以下8個(gè)評(píng)分標(biāo)準(zhǔn):

· 基于詞匯量的內(nèi)容分析

· 詞匯復(fù)雜性/措辭

· 語(yǔ)法錯(cuò)誤的比例

· 使用錯(cuò)誤的比例

· 力學(xué)錯(cuò)誤比例

指拼寫(xiě)錯(cuò)誤、大小寫(xiě)錯(cuò)誤、標(biāo)點(diǎn)錯(cuò)誤等技術(shù)問(wèn)題。

· 風(fēng)格點(diǎn)評(píng)比例

例如,某些短語(yǔ)太多、太短的句子太多、太長(zhǎng)的句子太多等等。

· 組織與發(fā)展分?jǐn)?shù)

· 獎(jiǎng)勵(lì)慣用語(yǔ)的功能

當(dāng)然,這個(gè)AI不僅僅服務(wù)于GRE。至少,托福和GRE一樣,也是ETS出品的考試。

對(duì)于這個(gè)算法的缺陷,ETS官方做了大量的研究,并且從不回避研究結(jié)果。

在1999年、2004年、2007年、2008年、2012年和2018年寫(xiě)的論文中可以發(fā)現(xiàn),人工智能給中國(guó)大陸考生的分?jǐn)?shù)普遍高于人類(lèi)的分?jǐn)?shù)。

相比之下,在非裔美國(guó)人中,人工智能的得分往往低于人類(lèi)。母語(yǔ)為阿拉伯語(yǔ)、西班牙語(yǔ)和印地語(yǔ)的候選人也存在類(lèi)似情況。盡管團(tuán)隊(duì)一直在改進(jìn)算法,但這個(gè)問(wèn)題并沒(méi)有消除。

ETS 的一位高級(jí)研究員表示:

如果我們希望算法對(duì)某個(gè)國(guó)家的某個(gè)群體友好,那么很可能會(huì)傷害其他群體。

更進(jìn)一步,我們可以觀察AI在單項(xiàng)上的評(píng)分情況。

你會(huì)發(fā)現(xiàn),在所有考生中,e-rater給中國(guó)大陸考生的語(yǔ)法和力學(xué)成績(jī)普遍偏低;

在文章長(zhǎng)度和復(fù)雜詞的選擇方面,中國(guó)大陸考生的人工智能得分高于平均水平。最終,人工智能給大陸考生的總體評(píng)分高于人類(lèi)。 GRE作文評(píng)分為6分(滿分10分),AI評(píng)分平均比人類(lèi)高1.3分。

相比之下,在非裔美國(guó)人中,AI 的得分平均比人類(lèi)低0.81 分。而且,這些只是平均數(shù)據(jù),對(duì)于許多候選人來(lái)說(shuō),差異甚至比這還要巨大。

無(wú)論是1.3還是0.81,在6分制考試中都不是一個(gè)小數(shù)字,可能會(huì)嚴(yán)重影響考生的成績(jī)。

不僅如此,麻省理工學(xué)院的朋友開(kāi)發(fā)了一種名為BABEL 的算法,可以將復(fù)雜的單詞和句子拼貼在一起。生成的文章沒(méi)有任何實(shí)際意義,但被GRE的在線評(píng)分工具ScoreItNow打出了4分!良好的結(jié)果。

但ETS 表示,人工智能并不單獨(dú)評(píng)判論文。每一篇由人工智能評(píng)分的作文都會(huì)同時(shí)由人類(lèi)評(píng)分。然后,將人類(lèi)和機(jī)器分?jǐn)?shù)的差異交給第二個(gè)人來(lái)判斷,得到最終分?jǐn)?shù)。

因此,ETS 相信考生不會(huì)受到人工智能缺陷的不利影響。

然而,相比之下,傳統(tǒng)方法是由兩個(gè)人同時(shí)對(duì)一篇文章進(jìn)行評(píng)分;當(dāng)AI取代其中一個(gè)人進(jìn)行評(píng)分時(shí),就相當(dāng)于那個(gè)人的責(zé)任變成了審稿。

成本可能下降了很多,但很難說(shuō)會(huì)對(duì)結(jié)果產(chǎn)生多大影響。至少評(píng)分機(jī)制和AI介入之前是不一樣的。

此外,AI的存在不僅影響評(píng)分,還直接影響考生的應(yīng)試策略。近年來(lái),取悅AI的策略越來(lái)越多:

摘自竹林追夢(mèng)論壇@人中人

幸運(yùn)的是,GRE 是由人類(lèi)和人工智能共同評(píng)分的。

不過(guò),有很多考試是直接交給AI來(lái)評(píng)論文的:

不僅僅是GRE 算法有問(wèn)題。例如,VICE 的一項(xiàng)調(diào)查發(fā)現(xiàn),猶他州多年來(lái)一直使用人工智能作為其主要論文評(píng)分工具。

一位州官員解釋了原因:

除了耗時(shí)之外,手動(dòng)評(píng)分對(duì)于國(guó)家來(lái)說(shuō)也是一筆巨大的開(kāi)支。

那么,利用AI進(jìn)行寫(xiě)作評(píng)分能否做到公平公正,同時(shí)降低成本呢?

美國(guó)研究院(AIR) 是一個(gè)非營(yíng)利組織,也是猶他州的主要測(cè)試提供商。

關(guān)于給AI打分什么樣的問(wèn)題,AIR給出了一個(gè)模板:

該問(wèn)題要求考生觀看海牛的圖像并寫(xiě)出觀察結(jié)果(A) 和推論(B)。

AIR每年都會(huì)產(chǎn)生一份報(bào)告來(lái)評(píng)估一些新主題的公平性。

評(píng)估的重點(diǎn)之一是女性和少數(shù)族裔學(xué)生在特定測(cè)試問(wèn)題上的表現(xiàn)是否比男性/白人學(xué)生差。該指標(biāo)稱(chēng)為“差異項(xiàng)函數(shù)(DIF)”。

報(bào)告顯示,2017-2018學(xué)年,女生和少數(shù)族裔學(xué)生的三至八年級(jí)寫(xiě)作試題中有348道被判定為輕微DIF;相比之下,男孩和白人學(xué)生的差異較小。有40 個(gè)問(wèn)題。

另外,有3道題被判定為女學(xué)生和少數(shù)民族學(xué)生存在嚴(yán)重差異。這些問(wèn)題將由專(zhuān)門(mén)委員會(huì)進(jìn)行審查。

可能造成DIF的原因有很多,其中算法偏差是大家最關(guān)心的因素。

一位來(lái)自猶他州的家長(zhǎng)(@dahart) 占據(jù)了黑客新聞?dòng)懻搮^(qū)的頂層。

他不喜歡聽(tīng)那些官員談?wù)摗俺杀尽?。他認(rèn)為教育本質(zhì)上是耗時(shí)耗力的,不可能又快又便宜。

他說(shuō),孩子們的作文是由機(jī)器評(píng)分的,如果全家人都對(duì)AI給出的分?jǐn)?shù)不滿意,配偶和孩子都會(huì)哭。

還有一件事當(dāng)然,人工智能論文寫(xiě)作不僅限于美國(guó)。

去年,《南華早報(bào)》表示,中國(guó)有6萬(wàn)所學(xué)校依靠AI批作業(yè),分布在全國(guó)各地。

其中,學(xué)生提交的英語(yǔ)作業(yè)也是由機(jī)器評(píng)分的。構(gòu)圖校正系統(tǒng)來(lái)自Kuju Correction Network。要求理解文本的總體邏輯和意義,對(duì)作文的整體質(zhì)量做出合理的人性判斷,并對(duì)寫(xiě)作風(fēng)格、結(jié)構(gòu)、主題等提出建議。

據(jù)說(shuō),AI 和人類(lèi)老師對(duì)作文的評(píng)分在92% 的情況下是一致的。

但從評(píng)論來(lái)看,學(xué)生們和他們?cè)诿绹?guó)的朋友一樣,也受到了很多委屈:

這樣的情感仍然沒(méi)有界限。

參考:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS發(fā)表的多篇NLP論文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

- 超過(guò)-

誠(chéng)意招聘

量子位正在招聘編輯/記者到北京中關(guān)村工作。我們期待有才華、有熱情的學(xué)子加入我們!相關(guān)詳情請(qǐng)?jiān)诹孔颖忍毓娞?hào)(QbitAI)對(duì)話界面回復(fù)“招聘”。

量子比特QbitAI·今日頭條簽約作者

'' 追蹤AI技術(shù)和產(chǎn)品新進(jìn)展

為您推薦

改革之后的GRE寫(xiě)作,有多難?該如何應(yīng)對(duì)?,gre寫(xiě)作最新題庫(kù)

GRE在沉寂多年之后,終于改革了。就寫(xiě)作部分而言,ETS刪掉了容易出分的Argument,保留了邏輯性更強(qiáng)的Issue。這也就意味著,大家需要花費(fèi)更多的時(shí)間來(lái)準(zhǔn)備GRE寫(xiě)作部分,以此來(lái)獲得dream school的青睞。改革之前,根據(jù)我們過(guò)

2024-06-11 11:13

GRE考試內(nèi)容及評(píng)分標(biāo)準(zhǔn),gre考試內(nèi)容及評(píng)分標(biāo)準(zhǔn)圖片

GRE內(nèi)容和評(píng)分標(biāo)準(zhǔn)是什么,我們先來(lái)了解一下GRE是什么。GRE全稱(chēng)研究生入學(xué)考試,翻譯過(guò)來(lái)就是美國(guó)研究生入學(xué)考試。GRE由美國(guó)教育考試服務(wù)中心主辦。GRE也是世界各國(guó)大學(xué)研究生出國(guó)留學(xué)需要準(zhǔn)備的語(yǔ)言考試。同時(shí)也是留學(xué)生獲得獎(jiǎng)學(xué)金的重要標(biāo)準(zhǔn)

2024-06-11 11:12

GRE Argument 系列想要作文寫(xiě)得好,開(kāi)頭段落不能少(gre作文常用句式)

在從本科邁入研究生的道路上,必不可少的一項(xiàng)硬性指標(biāo)就是GRE。GRE, 全稱(chēng)Graduate Record Examination, 是世界各地大學(xué)研究生院校要求申請(qǐng)者提供的入學(xué)考試成績(jī),分為Verbal/Math/Essay三個(gè)大項(xiàng)。而在

2024-06-11 11:12

GRE備考丨GRE考試的算分標(biāo)準(zhǔn)是怎樣的,gre考試分?jǐn)?shù)怎么算

今天來(lái)跟大家聊一聊GRE考生一直很疑惑卻一知半解,但又對(duì)GRE考試十分重要的——GRE評(píng)分標(biāo)準(zhǔn)。GRE是一門(mén)自適應(yīng)的考試,分?jǐn)?shù)取決于兩個(gè)section的做題情況,這意味著計(jì)算機(jī)依據(jù)考生第一個(gè)section的表現(xiàn)來(lái)選擇第二個(gè)Section。在

2024-06-11 11:11

想提高GRE寫(xiě)作成績(jī),這些常犯的扣分原因注意別犯(gre寫(xiě)作技巧)

提高GRE寫(xiě)作成績(jī)是許多考生特別是志在申請(qǐng)文科專(zhuān)業(yè)考生都想要努力達(dá)成的目標(biāo)。不過(guò),提高作文成績(jī)并不易,如果不找到文章中存在的各種問(wèn)題,哪怕練習(xí)再多也事半功倍。今天,小編為大家講解GRE寫(xiě)作常犯的錯(cuò)誤。整體邏輯不清考生在邏輯方面的問(wèn)題比較多,

2024-06-11 11:11

GRE寫(xiě)作備考攻略,gre作文備考

GRE考試中作文是一個(gè)比較頭疼的問(wèn)題,但也是一個(gè)容易拿分點(diǎn),下面小編就給同學(xué)們梳理一下GRE的寫(xiě)作攻略吧。 首先當(dāng)然是單詞關(guān)了,GRE考試中絕大部分的考點(diǎn)其實(shí)就是考詞匯量,所以如果單詞過(guò)關(guān)了,自然寫(xiě)起來(lái)也就得心應(yīng)手了。其次是范文,同學(xué)們具體

2024-06-11 11:10

加載中...