美國(guó)留學(xué)選擇什么專(zhuān)業(yè)好?留學(xué)美國(guó)熱門(mén)專(zhuān)業(yè)推薦
2019-06-26
更新時(shí)間:2024-06-11 11:13作者:小樂(lè)
敖飛寺的栗子
量子比特報(bào)告|公眾號(hào)QbitAI
GRE 論文是使用AI 進(jìn)行評(píng)分的。
這原本不是新聞。
然而,由于美國(guó)媒體VICE發(fā)布的一項(xiàng)調(diào)查,此事成為熱議的焦點(diǎn)。
VICE 調(diào)查了美國(guó)50 個(gè)州,發(fā)現(xiàn)至少21 個(gè)州(包括加州)的教育系統(tǒng)已經(jīng)使用AI 作為標(biāo)準(zhǔn)化考試中作文評(píng)分的小學(xué)/中學(xué)主要工具。
藍(lán)色=AI評(píng)分,淺藍(lán)色=試點(diǎn),紅色=無(wú)AI評(píng)分,粉色=取決于學(xué)區(qū),灰色=無(wú)響應(yīng)
在這21個(gè)州中,只有3個(gè)州表示人類(lèi)也會(huì)參與論文評(píng)分;其余18個(gè)州只會(huì)隨機(jī)選擇5%-20%的論文,交給人類(lèi)審核AI給出的分?jǐn)?shù)。
問(wèn)題在于,標(biāo)準(zhǔn)化考試常常被用作選拔和決定人類(lèi)未來(lái)的依據(jù)。如果AI得分,那么命運(yùn)就掌握在AI手中。
這時(shí)候,人們不禁想起了GRE這位20年前就開(kāi)始用AI評(píng)判論文的大四學(xué)生。
許多研究表明,許多基于人工智能的論文評(píng)審機(jī)制,包括GRE評(píng)分機(jī)電子評(píng)分器,都存在明顯的缺陷。
然而這些年來(lái),AI不但沒(méi)有被各種作文考試拋棄,反而越來(lái)越受歡迎。
于是,《黑客新聞》網(wǎng)友們掀起了熱議,不到一天的時(shí)間,人氣就達(dá)到了330+。
GRE:機(jī)器比人更喜歡中國(guó)考生。早在1999 年,主辦GRE 考試的教育考試服務(wù)中心(ETS) 就開(kāi)始使用電子評(píng)分器對(duì)論文進(jìn)行評(píng)分。
根據(jù)官方信息,該自然語(yǔ)言處理(NLP)模型有以下8個(gè)評(píng)分標(biāo)準(zhǔn):
· 基于詞匯量的內(nèi)容分析
· 詞匯復(fù)雜性/措辭
· 語(yǔ)法錯(cuò)誤的比例
· 使用錯(cuò)誤的比例
· 力學(xué)錯(cuò)誤比例
指拼寫(xiě)錯(cuò)誤、大小寫(xiě)錯(cuò)誤、標(biāo)點(diǎn)錯(cuò)誤等技術(shù)問(wèn)題。
· 風(fēng)格點(diǎn)評(píng)比例
例如,某些短語(yǔ)太多、太短的句子太多、太長(zhǎng)的句子太多等等。
· 組織與發(fā)展分?jǐn)?shù)
· 獎(jiǎng)勵(lì)慣用語(yǔ)的功能
當(dāng)然,這個(gè)AI不僅僅服務(wù)于GRE。至少,托福和GRE一樣,也是ETS出品的考試。
對(duì)于這個(gè)算法的缺陷,ETS官方做了大量的研究,并且從不回避研究結(jié)果。
在1999年、2004年、2007年、2008年、2012年和2018年寫(xiě)的論文中可以發(fā)現(xiàn),人工智能給中國(guó)大陸考生的分?jǐn)?shù)普遍高于人類(lèi)的分?jǐn)?shù)。
相比之下,在非裔美國(guó)人中,人工智能的得分往往低于人類(lèi)。母語(yǔ)為阿拉伯語(yǔ)、西班牙語(yǔ)和印地語(yǔ)的候選人也存在類(lèi)似情況。盡管團(tuán)隊(duì)一直在改進(jìn)算法,但這個(gè)問(wèn)題并沒(méi)有消除。
ETS 的一位高級(jí)研究員表示:
如果我們希望算法對(duì)某個(gè)國(guó)家的某個(gè)群體友好,那么很可能會(huì)傷害其他群體。
更進(jìn)一步,我們可以觀察AI在單項(xiàng)上的評(píng)分情況。
你會(huì)發(fā)現(xiàn),在所有考生中,e-rater給中國(guó)大陸考生的語(yǔ)法和力學(xué)成績(jī)普遍偏低;
在文章長(zhǎng)度和復(fù)雜詞的選擇方面,中國(guó)大陸考生的人工智能得分高于平均水平。最終,人工智能給大陸考生的總體評(píng)分高于人類(lèi)。 GRE作文評(píng)分為6分(滿分10分),AI評(píng)分平均比人類(lèi)高1.3分。
相比之下,在非裔美國(guó)人中,AI 的得分平均比人類(lèi)低0.81 分。而且,這些只是平均數(shù)據(jù),對(duì)于許多候選人來(lái)說(shuō),差異甚至比這還要巨大。
無(wú)論是1.3還是0.81,在6分制考試中都不是一個(gè)小數(shù)字,可能會(huì)嚴(yán)重影響考生的成績(jī)。
不僅如此,麻省理工學(xué)院的朋友開(kāi)發(fā)了一種名為BABEL 的算法,可以將復(fù)雜的單詞和句子拼貼在一起。生成的文章沒(méi)有任何實(shí)際意義,但被GRE的在線評(píng)分工具ScoreItNow打出了4分!良好的結(jié)果。
但ETS 表示,人工智能并不單獨(dú)評(píng)判論文。每一篇由人工智能評(píng)分的作文都會(huì)同時(shí)由人類(lèi)評(píng)分。然后,將人類(lèi)和機(jī)器分?jǐn)?shù)的差異交給第二個(gè)人來(lái)判斷,得到最終分?jǐn)?shù)。
因此,ETS 相信考生不會(huì)受到人工智能缺陷的不利影響。
然而,相比之下,傳統(tǒng)方法是由兩個(gè)人同時(shí)對(duì)一篇文章進(jìn)行評(píng)分;當(dāng)AI取代其中一個(gè)人進(jìn)行評(píng)分時(shí),就相當(dāng)于那個(gè)人的責(zé)任變成了審稿。
成本可能下降了很多,但很難說(shuō)會(huì)對(duì)結(jié)果產(chǎn)生多大影響。至少評(píng)分機(jī)制和AI介入之前是不一樣的。
此外,AI的存在不僅影響評(píng)分,還直接影響考生的應(yīng)試策略。近年來(lái),取悅AI的策略越來(lái)越多:
摘自竹林追夢(mèng)論壇@人中人
幸運(yùn)的是,GRE 是由人類(lèi)和人工智能共同評(píng)分的。
不過(guò),有很多考試是直接交給AI來(lái)評(píng)論文的:
不僅僅是GRE 算法有問(wèn)題。例如,VICE 的一項(xiàng)調(diào)查發(fā)現(xiàn),猶他州多年來(lái)一直使用人工智能作為其主要論文評(píng)分工具。
一位州官員解釋了原因:
除了耗時(shí)之外,手動(dòng)評(píng)分對(duì)于國(guó)家來(lái)說(shuō)也是一筆巨大的開(kāi)支。
那么,利用AI進(jìn)行寫(xiě)作評(píng)分能否做到公平公正,同時(shí)降低成本呢?
美國(guó)研究院(AIR) 是一個(gè)非營(yíng)利組織,也是猶他州的主要測(cè)試提供商。
關(guān)于給AI打分什么樣的問(wèn)題,AIR給出了一個(gè)模板:
該問(wèn)題要求考生觀看海牛的圖像并寫(xiě)出觀察結(jié)果(A) 和推論(B)。
AIR每年都會(huì)產(chǎn)生一份報(bào)告來(lái)評(píng)估一些新主題的公平性。
評(píng)估的重點(diǎn)之一是女性和少數(shù)族裔學(xué)生在特定測(cè)試問(wèn)題上的表現(xiàn)是否比男性/白人學(xué)生差。該指標(biāo)稱(chēng)為“差異項(xiàng)函數(shù)(DIF)”。
報(bào)告顯示,2017-2018學(xué)年,女生和少數(shù)族裔學(xué)生的三至八年級(jí)寫(xiě)作試題中有348道被判定為輕微DIF;相比之下,男孩和白人學(xué)生的差異較小。有40 個(gè)問(wèn)題。
另外,有3道題被判定為女學(xué)生和少數(shù)民族學(xué)生存在嚴(yán)重差異。這些問(wèn)題將由專(zhuān)門(mén)委員會(huì)進(jìn)行審查。
可能造成DIF的原因有很多,其中算法偏差是大家最關(guān)心的因素。
一位來(lái)自猶他州的家長(zhǎng)(@dahart) 占據(jù)了黑客新聞?dòng)懻搮^(qū)的頂層。
他不喜歡聽(tīng)那些官員談?wù)摗俺杀尽?。他認(rèn)為教育本質(zhì)上是耗時(shí)耗力的,不可能又快又便宜。
他說(shuō),孩子們的作文是由機(jī)器評(píng)分的,如果全家人都對(duì)AI給出的分?jǐn)?shù)不滿意,配偶和孩子都會(huì)哭。
還有一件事當(dāng)然,人工智能論文寫(xiě)作不僅限于美國(guó)。
去年,《南華早報(bào)》表示,中國(guó)有6萬(wàn)所學(xué)校依靠AI批作業(yè),分布在全國(guó)各地。
其中,學(xué)生提交的英語(yǔ)作業(yè)也是由機(jī)器評(píng)分的。構(gòu)圖校正系統(tǒng)來(lái)自Kuju Correction Network。要求理解文本的總體邏輯和意義,對(duì)作文的整體質(zhì)量做出合理的人性判斷,并對(duì)寫(xiě)作風(fēng)格、結(jié)構(gòu)、主題等提出建議。
據(jù)說(shuō),AI 和人類(lèi)老師對(duì)作文的評(píng)分在92% 的情況下是一致的。
但從評(píng)論來(lái)看,學(xué)生們和他們?cè)诿绹?guó)的朋友一樣,也受到了很多委屈:
這樣的情感仍然沒(méi)有界限。
參考:
https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays
https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/
ETS發(fā)表的多篇NLP論文:
https://www.ets.org/research/topics/as_nlp/writing_quality/
- 超過(guò)-
誠(chéng)意招聘
量子位正在招聘編輯/記者到北京中關(guān)村工作。我們期待有才華、有熱情的學(xué)子加入我們!相關(guān)詳情請(qǐng)?jiān)诹孔颖忍毓娞?hào)(QbitAI)對(duì)話界面回復(fù)“招聘”。
量子比特QbitAI·今日頭條簽約作者
'' 追蹤AI技術(shù)和產(chǎn)品新進(jìn)展