红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

網(wǎng)站首頁
手機(jī)版

GRE作文用AI打分,20周年了:那時算法有偏見,如今還是沒修復(fù) gre作文頻率統(tǒng)計

更新時間:2024-03-14 03:47作者:小樂

敖飛寺的栗子

量子比特報告|公眾號QbitAI

GRE 論文是使用AI 進(jìn)行評分的。

這原本不是新聞。

然而,由于美國媒體VICE發(fā)布的一項調(diào)查,此事成為熱議的焦點。

VICE 調(diào)查了美國50 個州,發(fā)現(xiàn)至少21 個州(包括加州)的教育系統(tǒng)已經(jīng)使用AI 作為標(biāo)準(zhǔn)化考試中作文評分的小學(xué)/中學(xué)主要工具。

藍(lán)色=AI評分,淺藍(lán)色=試點,紅色=無AI評分,粉色=取決于學(xué)區(qū),灰色=無響應(yīng)

在這21個州中,只有3個州表示人類也會參與論文評分;其余18個州只會隨機(jī)選擇5%-20%的論文,交給人類審核AI給出的分?jǐn)?shù)。

問題在于,標(biāo)準(zhǔn)化考試常常被用作選拔和決定人類未來的依據(jù)。如果AI得分,命運就掌握在AI手中。

這時候,人們不禁想起了GRE這位20年前就開始用AI評判論文的大四學(xué)生。

許多研究表明,許多基于人工智能的論文評審機(jī)制,包括GRE評分機(jī)電子評分器,都存在明顯的缺陷。

然而這些年來,AI并沒有被各種作文考試拋棄,反而越來越受歡迎。

于是,《黑客新聞》網(wǎng)友們掀起了熱議,不到一天的時間,人氣就達(dá)到了330+。

GRE:機(jī)器比人更青睞中國考生。早在1999 年,主辦GRE 考試的教育考試服務(wù)中心(ETS) 就開始使用電子評分器對論文進(jìn)行評分。

根據(jù)官方信息,該自然語言處理(NLP)模型有以下8個評分標(biāo)準(zhǔn):

· 基于詞匯量度的內(nèi)容分析

· 詞匯復(fù)雜性/措辭

· 語法錯誤的比例

· 使用錯誤的比例

· 力學(xué)錯誤比例

指拼寫錯誤、大小寫錯誤、標(biāo)點錯誤等技術(shù)問題。

· 風(fēng)格評論比例

例如,某些短語太多、太短的句子太多、太長的句子太多等等。

· 組織與發(fā)展分?jǐn)?shù)

· 獎勵慣用語的功能

當(dāng)然,這個AI不僅僅服務(wù)于GRE。至少,托福和GRE一樣,也是ETS出品的考試。

對于這個算法的缺陷,ETS官方做了大量的研究,并且從不回避研究結(jié)果。

在1999年、2004年、2007年、2008年、2012年和2018年寫的論文中可以發(fā)現(xiàn),人工智能給中國大陸考生的分?jǐn)?shù)普遍高于人類的分?jǐn)?shù)。

相比之下,在非裔美國人中,人工智能的得分往往低于人類。母語為阿拉伯語、西班牙語和印地語的候選人也存在類似情況。盡管團(tuán)隊一直在改進(jìn)算法,但這個問題并沒有消除。

ETS 的一位高級研究員表示:

如果我們希望算法對某個國家的某個群體友好,那么很可能會傷害其他群體。

更進(jìn)一步,讓我們觀察一下AI 在各個項目上的得分。

你會發(fā)現(xiàn),在所有考生中,e-rater給中國大陸考生的語法和力學(xué)成績普遍偏低;

在文章長度和復(fù)雜詞的選擇方面,中國大陸考生的人工智能得分高于平均水平。最終,人工智能給大陸考生的總體評分高于人類。 GRE論文滿分6分,AI分?jǐn)?shù)平均比人類高1.3分。

相比之下,在非裔美國人中,AI 的平均得分比人類低0.81 分。而且,這些只是平均數(shù)據(jù),對于許多候選人來說,差異甚至比這還要顯著。

無論是1.3還是0.81,在6分制考試中都不是一個小數(shù)字,可能會嚴(yán)重影響考生的成績。

不僅如此,麻省理工學(xué)院的朋友開發(fā)了一種名為BABEL 的算法,可以將復(fù)雜的單詞和句子拼貼在一起。生成的文章沒有任何實際意義,但被GRE的在線評分工具ScoreItNow打出了4分!良好的結(jié)果。

但ETS 表示,人工智能并不單獨評判論文。每一篇由人工智能評分的作文都會同時由人類評分。然后,將人類和機(jī)器分?jǐn)?shù)的差異交給第二個人來判斷,得到最終分?jǐn)?shù)。

因此,ETS 相信考生不會受到人工智能缺陷的不利影響。

然而,相比之下,傳統(tǒng)方法是由兩個人同時對一篇文章進(jìn)行評分;當(dāng)AI取代了其中一個人的評分時,就相當(dāng)于那個人的責(zé)任變成了審稿。

成本可能下降了很多,但很難說會對結(jié)果產(chǎn)生多大影響。至少評分機(jī)制和AI介入之前是不一樣的。

此外,AI的存在不僅影響評分,還直接影響考生的應(yīng)試策略。近年來,取悅AI的策略越來越多:

摘自ChaseDream論壇@人中人

幸運的是,GRE 是由人類和人工智能共同評分的。

不過,有很多考試是直接交給AI來評論文的:

不僅僅是GRE 算法有問題。例如,VICE 的一項調(diào)查發(fā)現(xiàn),猶他州多年來一直使用人工智能作為其主要論文評分工具。

一位州官員解釋了原因:

除了耗時之外,手動評分對于國家來說也是一筆巨大的開支。

那么,利用AI進(jìn)行寫作評分能否做到公平公正,同時降低成本呢?

美國研究院(AIR) 是一個非營利組織,也是猶他州的主要測試提供商。

關(guān)于給AI打分什么樣的問題,AIR給出了一個模板:

該問題要求考生觀看海牛的圖像并寫出觀察結(jié)果(A) 和推論(B)。

AIR每年都會發(fā)布一份報告來評估一些新主題的公平性。

評估的重點之一是女性和少數(shù)族裔學(xué)生在特定測試問題上的表現(xiàn)是否比男性/白人學(xué)生差。該指標(biāo)稱為“差異項函數(shù)(DIF)”。

報告顯示,2017-2018學(xué)年,女生和少數(shù)族裔學(xué)生的三至八年級寫作試題中,有348道被判定為輕微DIF;相比之下,男孩和白人學(xué)生的差異較小。有40 個問題。

此外,還有3道題被判定為女學(xué)生和少數(shù)民族學(xué)生存在嚴(yán)重差異。這些問題將由專門委員會進(jìn)行審查。

可能造成DIF的原因有很多,其中算法偏差是大家最關(guān)心的因素。

一位來自猶他州的家長(@dahart) 占據(jù)了黑客新聞討論區(qū)的頂層。

他不喜歡聽那些官員談?wù)摗俺杀尽?。他認(rèn)為教育本質(zhì)上是耗時耗力的,不可能又快又便宜。

他說,孩子的作文是由機(jī)器評分的,如果全家人都對AI給出的分?jǐn)?shù)不滿意,配偶和孩子都會哭。

還有一件事當(dāng)然,人工智能論文寫作不僅限于美國。

去年,《南華早報》表示,中國有6萬所學(xué)校依靠AI批作業(yè),分布在全國各地。

其中,學(xué)生提交的英語作業(yè)也是由機(jī)器評分的。構(gòu)圖校正系統(tǒng)來自Kuju Correction Network。要求理解文本的總體邏輯和意義,對作文的整體質(zhì)量做出合理的人性判斷,并對寫作風(fēng)格、結(jié)構(gòu)、主題等提出建議。

據(jù)說,AI 和人類老師對作文的評分在92% 的情況下是一致的。

但從評論來看,學(xué)生們和他們在美國的朋友一樣,也受到了很多委屈:

這樣的情感仍然沒有界限。

參考:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS發(fā)表的多篇NLP論文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

- 超過-

誠意招聘

Qubit正在招聘編輯/記者到北京中關(guān)村工作。我們期待有才華、有熱情的學(xué)子加入我們!相關(guān)詳情請在量子比特公眾號(QbitAI)對話界面回復(fù)“招聘”。

量子比特QbitAI·今日頭條簽約作者

'' 追蹤AI技術(shù)和產(chǎn)品新進(jìn)展

為您推薦

武漢申友推薦丨年后備考GMAT,必收藏的寶藏網(wǎng)站,超實用 武漢gmat培訓(xùn)班哪家好

文章首發(fā)自“武漢申友留學(xué)考試”公眾號,每天更新GMAT、雅思、留學(xué)干貨,助力備考GMAT備考想要高分,除了基本的GMAT備考資料外,這6款實用寶藏網(wǎng)站/軟件不要錯過,好好利用起來,幫助你輕松高效備考,順利出分。武漢申友七七學(xué)姐給大家列出了G

2024-03-14 03:41

七彩虹CGU 2018開戰(zhàn)!電競大咖+美女解說 神秘卡皇首曝,七彩虹丐版卡

電子競技一直都是被高度關(guān)注的行業(yè),同時電競也是一種職業(yè),2003年11月18日就獲得國家體育總局正式成為我國第99個正式體育競賽項,2008年又改批為第78個正式體育競賽項,尤其是最近兩年,電競行業(yè)更是空前火爆,各種比賽、活動精彩紛呈。作為

2024-03-14 03:36

游戲愛好者和電腦硬件發(fā)燒友的盛宴,CGU2018活動回顧

CGU是由七彩虹主辦的電競賽事,自2013年起,CGU這個舞臺為國內(nèi)電競輸入了不少電競新血液。此次“CGU 2018七彩虹游戲聯(lián)盟盛典”與芒果互娛展開合作,NVIDIA、英特爾、京東游戲以及馬欄山文創(chuàng)投等久負(fù)盛名的企業(yè)鼎力支持,迪瑞克斯、O

2024-03-14 03:30

九段新旗艦登場!七彩虹CGU2018盛大開幕(七彩虹九段什么時候出的)

CGU是由游戲硬件領(lǐng)創(chuàng)者七彩虹主辦的電競賽事,自2013年起,CGU這個舞臺為國內(nèi)電競輸入了不少電競新血液。此次“CGU 2018七彩虹游戲聯(lián)盟盛典”與芒果互娛展開合作,NVIDIA、英特爾、京東游戲以及馬欄山文創(chuàng)投等久負(fù)盛名的企業(yè)鼎力支

2024-03-14 03:23

硬件是電競的源動力 CGU2017大咖群訪

CGU2017泛亞太電子競技大賽(CGU APAC 2017)是由七彩虹獨立策劃、運營的面向亞太地區(qū)最廣大電競愛好者的洲際民間電競賽事。12月16日至17日,2017泛亞太七彩虹游戲聯(lián)盟盛典將于武漢理工大學(xué)南湖校區(qū)體育中心舉辦。諸如RNG這

2024-03-14 03:15

七彩虹泛亞游戲盛典CGU APAC 2017上演:強(qiáng)大硬件+COS眼花繚亂

電子游戲一度被很多家長、老師、專家視為危害孩子成長的洪水猛獸,但如今,電子競技已經(jīng)是國家認(rèn)可的體育比賽項目,越來越多的硬件與游戲廠商、大批的熱血青少年投身其中,推動了整個行業(yè)的健康發(fā)展,規(guī)模宏大的電競賽事也遍布全球,影響力越來越大。作為本土

2024-03-14 03:08

加載中...