美國留學(xué)選擇什么專業(yè)好?留學(xué)美國熱門專業(yè)推薦
2019-06-26
更新時間:2024-03-14 03:47作者:小樂
敖飛寺的栗子
量子比特報告|公眾號QbitAI
GRE 論文是使用AI 進(jìn)行評分的。
這原本不是新聞。
然而,由于美國媒體VICE發(fā)布的一項調(diào)查,此事成為熱議的焦點。
VICE 調(diào)查了美國50 個州,發(fā)現(xiàn)至少21 個州(包括加州)的教育系統(tǒng)已經(jīng)使用AI 作為標(biāo)準(zhǔn)化考試中作文評分的小學(xué)/中學(xué)主要工具。
藍(lán)色=AI評分,淺藍(lán)色=試點,紅色=無AI評分,粉色=取決于學(xué)區(qū),灰色=無響應(yīng)
在這21個州中,只有3個州表示人類也會參與論文評分;其余18個州只會隨機(jī)選擇5%-20%的論文,交給人類審核AI給出的分?jǐn)?shù)。
問題在于,標(biāo)準(zhǔn)化考試常常被用作選拔和決定人類未來的依據(jù)。如果AI得分,命運就掌握在AI手中。
這時候,人們不禁想起了GRE這位20年前就開始用AI評判論文的大四學(xué)生。
許多研究表明,許多基于人工智能的論文評審機(jī)制,包括GRE評分機(jī)電子評分器,都存在明顯的缺陷。
然而這些年來,AI并沒有被各種作文考試拋棄,反而越來越受歡迎。
于是,《黑客新聞》網(wǎng)友們掀起了熱議,不到一天的時間,人氣就達(dá)到了330+。
GRE:機(jī)器比人更青睞中國考生。早在1999 年,主辦GRE 考試的教育考試服務(wù)中心(ETS) 就開始使用電子評分器對論文進(jìn)行評分。
根據(jù)官方信息,該自然語言處理(NLP)模型有以下8個評分標(biāo)準(zhǔn):
· 基于詞匯量度的內(nèi)容分析
· 詞匯復(fù)雜性/措辭
· 語法錯誤的比例
· 使用錯誤的比例
· 力學(xué)錯誤比例
指拼寫錯誤、大小寫錯誤、標(biāo)點錯誤等技術(shù)問題。
· 風(fēng)格評論比例
例如,某些短語太多、太短的句子太多、太長的句子太多等等。
· 組織與發(fā)展分?jǐn)?shù)
· 獎勵慣用語的功能
當(dāng)然,這個AI不僅僅服務(wù)于GRE。至少,托福和GRE一樣,也是ETS出品的考試。
對于這個算法的缺陷,ETS官方做了大量的研究,并且從不回避研究結(jié)果。
在1999年、2004年、2007年、2008年、2012年和2018年寫的論文中可以發(fā)現(xiàn),人工智能給中國大陸考生的分?jǐn)?shù)普遍高于人類的分?jǐn)?shù)。
相比之下,在非裔美國人中,人工智能的得分往往低于人類。母語為阿拉伯語、西班牙語和印地語的候選人也存在類似情況。盡管團(tuán)隊一直在改進(jìn)算法,但這個問題并沒有消除。
ETS 的一位高級研究員表示:
如果我們希望算法對某個國家的某個群體友好,那么很可能會傷害其他群體。
更進(jìn)一步,讓我們觀察一下AI 在各個項目上的得分。
你會發(fā)現(xiàn),在所有考生中,e-rater給中國大陸考生的語法和力學(xué)成績普遍偏低;
在文章長度和復(fù)雜詞的選擇方面,中國大陸考生的人工智能得分高于平均水平。最終,人工智能給大陸考生的總體評分高于人類。 GRE論文滿分6分,AI分?jǐn)?shù)平均比人類高1.3分。
相比之下,在非裔美國人中,AI 的平均得分比人類低0.81 分。而且,這些只是平均數(shù)據(jù),對于許多候選人來說,差異甚至比這還要顯著。
無論是1.3還是0.81,在6分制考試中都不是一個小數(shù)字,可能會嚴(yán)重影響考生的成績。
不僅如此,麻省理工學(xué)院的朋友開發(fā)了一種名為BABEL 的算法,可以將復(fù)雜的單詞和句子拼貼在一起。生成的文章沒有任何實際意義,但被GRE的在線評分工具ScoreItNow打出了4分!良好的結(jié)果。
但ETS 表示,人工智能并不單獨評判論文。每一篇由人工智能評分的作文都會同時由人類評分。然后,將人類和機(jī)器分?jǐn)?shù)的差異交給第二個人來判斷,得到最終分?jǐn)?shù)。
因此,ETS 相信考生不會受到人工智能缺陷的不利影響。
然而,相比之下,傳統(tǒng)方法是由兩個人同時對一篇文章進(jìn)行評分;當(dāng)AI取代了其中一個人的評分時,就相當(dāng)于那個人的責(zé)任變成了審稿。
成本可能下降了很多,但很難說會對結(jié)果產(chǎn)生多大影響。至少評分機(jī)制和AI介入之前是不一樣的。
此外,AI的存在不僅影響評分,還直接影響考生的應(yīng)試策略。近年來,取悅AI的策略越來越多:
摘自ChaseDream論壇@人中人
幸運的是,GRE 是由人類和人工智能共同評分的。
不過,有很多考試是直接交給AI來評論文的:
不僅僅是GRE 算法有問題。例如,VICE 的一項調(diào)查發(fā)現(xiàn),猶他州多年來一直使用人工智能作為其主要論文評分工具。
一位州官員解釋了原因:
除了耗時之外,手動評分對于國家來說也是一筆巨大的開支。
那么,利用AI進(jìn)行寫作評分能否做到公平公正,同時降低成本呢?
美國研究院(AIR) 是一個非營利組織,也是猶他州的主要測試提供商。
關(guān)于給AI打分什么樣的問題,AIR給出了一個模板:
該問題要求考生觀看海牛的圖像并寫出觀察結(jié)果(A) 和推論(B)。
AIR每年都會發(fā)布一份報告來評估一些新主題的公平性。
評估的重點之一是女性和少數(shù)族裔學(xué)生在特定測試問題上的表現(xiàn)是否比男性/白人學(xué)生差。該指標(biāo)稱為“差異項函數(shù)(DIF)”。
報告顯示,2017-2018學(xué)年,女生和少數(shù)族裔學(xué)生的三至八年級寫作試題中,有348道被判定為輕微DIF;相比之下,男孩和白人學(xué)生的差異較小。有40 個問題。
此外,還有3道題被判定為女學(xué)生和少數(shù)民族學(xué)生存在嚴(yán)重差異。這些問題將由專門委員會進(jìn)行審查。
可能造成DIF的原因有很多,其中算法偏差是大家最關(guān)心的因素。
一位來自猶他州的家長(@dahart) 占據(jù)了黑客新聞討論區(qū)的頂層。
他不喜歡聽那些官員談?wù)摗俺杀尽?。他認(rèn)為教育本質(zhì)上是耗時耗力的,不可能又快又便宜。
他說,孩子的作文是由機(jī)器評分的,如果全家人都對AI給出的分?jǐn)?shù)不滿意,配偶和孩子都會哭。
還有一件事當(dāng)然,人工智能論文寫作不僅限于美國。
去年,《南華早報》表示,中國有6萬所學(xué)校依靠AI批作業(yè),分布在全國各地。
其中,學(xué)生提交的英語作業(yè)也是由機(jī)器評分的。構(gòu)圖校正系統(tǒng)來自Kuju Correction Network。要求理解文本的總體邏輯和意義,對作文的整體質(zhì)量做出合理的人性判斷,并對寫作風(fēng)格、結(jié)構(gòu)、主題等提出建議。
據(jù)說,AI 和人類老師對作文的評分在92% 的情況下是一致的。
但從評論來看,學(xué)生們和他們在美國的朋友一樣,也受到了很多委屈:
這樣的情感仍然沒有界限。
參考:
https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays
https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/
ETS發(fā)表的多篇NLP論文:
https://www.ets.org/research/topics/as_nlp/writing_quality/
- 超過-
誠意招聘
Qubit正在招聘編輯/記者到北京中關(guān)村工作。我們期待有才華、有熱情的學(xué)子加入我們!相關(guān)詳情請在量子比特公眾號(QbitAI)對話界面回復(fù)“招聘”。
量子比特QbitAI·今日頭條簽約作者
'' 追蹤AI技術(shù)和產(chǎn)品新進(jìn)展