红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

托??谡Z機器評分11大扣分點!——Speech Rater(托福口語評分系統(tǒng))

更新時間:2024-06-08 15:03作者:小樂

十年前的2009年,No Teacher是中國大陸第一個爆料ETS已經(jīng)開始使用e-Rater(論文自動評分系統(tǒng))的消息的人。

去年,無老師在全球首次發(fā)布托福考試作文模板。

日前,吳老師獨家爆料,ETS即將改革現(xiàn)行托??荚?。很多人都擔心,所以吳老師專門發(fā)文章告訴大家,大規(guī)模的托福改革通常會提前兩年通知。需要兩年后才能正式實施,也就是說最早要到2021年才能正式實施。同時,吳老師也掌握了2013年ETS內(nèi)測的試題。吳老師會提前找時間爆料。

托福教學和研究首先要研究標準。這些托福考試標準都隱藏在ETS的官方研究論文中。今天我們就從ETS官方研究論文來深度解讀ETS的語音評分器!這些論文非常有價值。吳老師10年前對e-Rater試卷的研究成果對于今天的托福考生來說仍然具有巨大的指導意義,并將永垂不朽!

十年前的2009年,吳老師系統(tǒng)地總結了e-Rater的運行機制。今天,我們就來權威解讀最新托??谡Z人工智能自動評分系統(tǒng)Speech Rater!

演講評分器于2018年首屆中國托福年會上首次推出,本次年會沒有邀請任何老師坐在第一排。以下是當時的第一手照片。

這種無老師的解釋是有目的的。就是直接幫你。它高度濃縮了ETS官方論文,取其精華,扔掉所有討論部分,直接打出Speech Rater的核心點,直接發(fā)給你。無花果面前,聽老師講,托??谡Z考滿分,就這么簡單!

我們干脆忽略這份報告的前22頁,因為前22頁都是對實驗細節(jié)的分析,對考生的指導有限。我們直接從最后的核心實驗開始,也就是從第23頁的核心內(nèi)容開始。

在第23頁的這個表格中,總共列出了20個核心評分標準,這些標準將影響最終的托福口語分數(shù)。

在這20個項目中,ETS將其分為兩大類。第一類是Delivery——表達式;第二類是語言使用——語言使用。我想如果你看到這兩類的名字,你會想直接撞墻,而且你根本不知道他們在說什么。沒關系,繼續(xù)讀下去你就會明白的。

第一類Delivery——表達分為4個級別

1 流利度—— 流利度

2 發(fā)音—— 發(fā)音

3 韻律—— 韻律

4 節(jié)奏—— 節(jié)奏

第二大類是Language use——語言使用,分為兩個級別

1 語法—— 語法

2 詞匯—— 詞匯

其實當你看到這個的時候,你就已經(jīng)有一種感覺了。與剛才的兩個詞表達和語言使用相比,非常明顯的是,流暢性、發(fā)音、韻律、韻律、語法和詞匯,讓大家很容易明白ETS想要什么。

隨著吳老師講解的深入,顯然高潮即將來臨!

在這份官方研究報告中,ETS非常關鍵地列出了每個細節(jié)的得分點以及與最終總分的相關系數(shù)。也就是說,這意味著,對于每一個得分點,到底會在多大程度上影響最終的得分。

右邊整行系數(shù)相加,它們的和為1。這意味著這張表列出了所有最終影響托??谡Z分數(shù)的影響因素,并且還給出了每個因素。影響因素的權重。右側給出的權重越高,對最終得分的影響就越大。賦予的權重越低,相關性越低,對最終得分的影響也越小。

最后,在這里,吳老師將影響系數(shù)在0.05以上的所有影響因素都用黃色背景標注出來。影響系數(shù)在0.05以上的占整個表20項中的11項,其中第一項“平均沉默持續(xù)時間”影響最大。它是所有20個影響因素中唯一的一個。超過0.1的影響因素達到了0.119,這意味著在我們托??谡Z考試中,不恰當?shù)耐nD實際上是最損害我們分數(shù)的因素,而且停頓時間越長、停頓次數(shù)越多,分數(shù)就會越低。讓我們的分數(shù)盡可能低!

第二個最有影響力的因素是具有最高單詞CVA 相似度得分的得分點。影響因素指數(shù)達到0.99。吳老師把這段英文翻譯成大家都能看懂的中文。這一段的意思是,你使用的單詞相似度越高,反之,你的單詞數(shù)量就越多。規(guī)模越大,替換越多,得分越高;相反,如果你總是使用相同的單詞而不進行商定的替換,你得到的分數(shù)就會越低。

第三大影響因素是每秒單詞數(shù)的語速,影響指數(shù)為0.97。這個影響因素就是你的“語速”。也就是說,一般情況下,你說話的速度越高,你得到的分數(shù)就越高,你說話的速度越慢,你最終得到的分數(shù)就越低。但請注意,這并不意味著你必須像機關槍一樣不停地說,而是句子內(nèi)部和句子之間應該有正常的停頓。

以上三個核心影響因素的總影響指數(shù)達到了0.315,是對我們托??谡Z成績影響最大的三個因素。

托福口語這次引入了自動評分系統(tǒng)。事實上,ETS已經(jīng)謀劃已久。這一點從ETS的官方報告中可以看出。事實上,目前使用的引擎是5.0版本的引擎,而這個引擎的第一個版本,其實是在2008年開發(fā)的。光看這個時間就讓我們對ETS肅然起敬。這是一個只有谷歌這樣的公司才應該投資的項目,但小型的ETS卻這么早就開始投資和沉淀。

從官方的研究報告來看,第一代版本的Speech Rater非常原始,使用的數(shù)據(jù)庫也很小??偣仓挥惺畮讉€樣本,而且這些樣本中的數(shù)據(jù)并沒有被機器自動分析和讀取。但需要手動輸入,而且在最早的1.0版本中,計算機只能判斷(發(fā)音、流利度、詞匯、語法)這四個方面,但截至目前的5.0版本,僅將大類分為6類。毫無疑問,分析的維度也得到了很大的提升。當然,在ETS 眼中,人類考官做得更多。人工檢查員必須執(zhí)行以下操作:

交付:發(fā)音、節(jié)奏、語調(diào)、語速、停頓結構、流暢性

語言使用:詞匯和語法

主題發(fā)展:內(nèi)容和連貫性

3個主要領域和10個小領域分別考慮并評分。

但在最新的5.0引擎中,正如吳老師之前展示的那樣,最新版本的引擎已經(jīng)非常接近真人的評分了。在ET官方發(fā)布的信息中,真人評分與機器評分的相關系數(shù)已經(jīng)達到了0.81。換句話說,ETS是在告訴大家:我們的系統(tǒng)做得很好,我們敢給你們看。

接下來,我們來看看另外8個重要的影響因素。

顯然,這里排名第四的影響因素是在本機數(shù)據(jù)上訓練模型的所有單詞的總聲學模型得分。讀完這句生澀的語言,說實話,吳老師有點想吐。這個詞確實不太好解釋??偠灾?,這實際上涉及到ETS評分過程中的一個具體過程。也就是說,Speech Rater在評分的時候,其實有一個關鍵的步驟,就是讓機器識別考生自己說的英語是否地道。在英語中,這主要是根據(jù)發(fā)音和節(jié)奏來判斷的。也就是說,你的英語口語越接近地道發(fā)音,你的分數(shù)就越高,反之亦然。這個影響系數(shù)達到了0.081,所以就有了下面的第二個影響因素,在非原生數(shù)據(jù)上訓練的模型的總聲學模型得分。

以上4項均為影響系數(shù)大于0.07的影響因素。接下來7項的影響系數(shù)均低于0.07且高于0.05。這意味著對最終分數(shù)的影響對之前的分數(shù)沒有影響。 4項影響這么大,但也比較重要。

其中高于0.06的影響因素有4個,分別是:

塊長度的平均值(以秒為單位)—— 塊的平均長度

No.repetitions—— 重復程度

語法相似度得分最高的得分點——語法相似度

總數(shù)不同的詞匯類型——詞匯的多樣性

塊的平均長度(以秒為單位)—— 塊的平均長度,屬于大類Fluency—— Fluency:影響因子0.066,

這意味著如果句子都是三個詞,類似于像我喜歡你這樣的簡單句子,那么分數(shù)肯定會很低。但如果能用一些固定的搭配或者一些裝飾性的元素,一方面句子也不會脫節(jié)。口語不會像書面語那么復雜,而且句子結構的內(nèi)容也可以更加豐富和充實,所以你的分數(shù)會提高。當然,這篇文章的解讀有很多層次,吳老師這里就不一一贅述了。

No.repetitions——有一定程度的重復,屬于一般類別Fluency——:影響系數(shù)為0.061。

說實話,把重復程度放在流暢程度上有點奇怪。既然是放在流利的范疇,那么這里大概表達的是你會不會結巴,也就是你會不斷地重復同一句話。

語法相似度得分最高的得分點是——語法相似度,屬于大類Grammar——語法,影響系數(shù)為0.062。

這篇文章的方向非常明顯。它要求考生增加句型的豐富性和多樣性,而不是使用相同的句型。例如,整篇文章不應該都是我認為或我喜歡的,或者都是There be句型。

總數(shù)不同詞匯類型——個詞匯多樣性,屬于大類——個詞匯,影響系數(shù)0.061。這篇文章的方向也很明顯,就是要求考生增加詞語的多樣性。方向性與之前單詞CVA 相似度得分最高的得分點相似。只是從不同的角度來描述而已。

影響系數(shù)在0.05~0.06之間的有3項:

No.disfluency——不流暢的數(shù)量,

No.silences per second——每秒沉默數(shù)

power——的SD 吳老師不太清楚這個詞的理解。論文中并未詳細解釋“SD”一詞??磥硗ㄟ^上下文表達的意思就是句子的長度。這里的“SD of power”可能意味著“重音”,或者是音量的大小。

No.disfluency—— 不流暢的數(shù)量,屬于一般類別Fluency——,影響系數(shù)為0.056

顯然流暢性是ETS非常關心的事情。

No.silences per second—— 每秒的沉默數(shù),屬于一般類別Fluency——,影響系數(shù)為0.056

事實上,這篇文章與第1條“平均沉默市場”密切相關。它還告訴我們,除了正常的節(jié)奏外,句子之間不應該有太長的停頓。這意味著您的語言不連貫并且您不熟悉該語言。

以上11項是整個托福口語成績中最關鍵的影響因素。根據(jù)Speech Rater 的說法,它們最終會影響你分數(shù)的核心。影響因素為以上11項。

但這還不是故事的全部!

托??谡Z自動評分系統(tǒng)Speech Rater的固有問題就是上梁不直,下梁歪!

首先我們看一下ETS官方公布的托??谡Z自動評分系統(tǒng)與人工評分的相關性,為0.81。

說實話,如果我們簡單地把這樣一個系數(shù)放在我們面前,我們是沒有任何感覺的。這個系數(shù)是高還是低,我們沒有辦法比較。但其實我們有一個非常重要的參考系,那就是e-Rater,托福論文自動評分系統(tǒng)。

其實考過托福的人都知道一件事,那就是托??谡Z和作文作為托福考試的主觀題,其實是可以申請復議的。也就是如果你認為考官的分數(shù)有問題,就判斷真實分數(shù)是否太高?;蛘咛?,則可以申請復議。

在您申請復議后,ETS 將重新安排一位高級考官對您的口語或作文分數(shù)進行評分。當然,他不會知道你原來的分數(shù),會獨立給你打分。如果審核后分數(shù)波動較大,則說明其分數(shù)一致性較低。如果審核后分數(shù)波動較小,說明他們的分數(shù)一致性比較高。

從來沒有老師統(tǒng)計過復習的成功率。托福作文復習成功率是提高分數(shù)10%,降低分數(shù)10%,保持不變80%。托福口語復習的成功率是,分數(shù)提高20%,分數(shù)降低20%,無變化60%。

這意味著托??谡Z及其本身評分的穩(wěn)定性實際上不如托福作文評分那么穩(wěn)定。不同的考官或者自己的考官可能會得到與新手考官不同的分數(shù)。托福作文成績的穩(wěn)定性比較好。即使經(jīng)過審核,大多數(shù)情況下,審核后得到的分數(shù)實際上與原始分數(shù)是一致的。

這意味著整個托??谡Z自動評分系統(tǒng)Speech Rater,他們評分的基礎,也就是ETS口語評分標準的穩(wěn)定性,相比托福作文寫作來說,本身就不好。當然,這并不是說托福考試,這是一個非常糟糕的評分系統(tǒng)。事實上,從世界兩大語言考試托福和雅思來看,托??谡Z和作文的整體得分穩(wěn)定性實際上比雅思口語和作文要好得多。的。

雅思口語作文的原因是分數(shù)的穩(wěn)定性不高,人為因素影響很大。評分的高低與考官自身素質(zhì)密切相關。中國大陸的雅思考場組織都比較完善,考官素質(zhì)也比較高,也比較穩(wěn)定。但東南亞很多考官和海外很多考試中心組織得不是很好,考官水平也參差不齊。因此,很多中國考生去海外參加雅思考試,就是為了鉆這個空子,讓其他國家的考官給出更高的分數(shù)。甚至中國境內(nèi)的雅思考官在私下討論時也經(jīng)常對同一案件給出不同的分數(shù)。也就是說,在組織相對完善的中國,雅思口語、作文成績的穩(wěn)定性實際上不如托??谡Z、作文成績穩(wěn)定。

所以,這里我們說托福的穩(wěn)定性不好,因為它相對于托福作文成績的穩(wěn)定性來說還不夠好,但是它比雅思口語和作文成績的穩(wěn)定性要高。接下來我們回到托??谡Z分數(shù)的問題。

我們這里已經(jīng)說得很清楚了,托??谡Z成績的穩(wěn)定性本質(zhì)上不如托福作文成績的穩(wěn)定性。那么我們要知道,使用e-Rater自動評分托福論文后,仍然保留了手動評分。即機器電子評分器和人工評分同時進行。如果兩個分數(shù)相同或相似,則給出分數(shù)。如果機器和人工評分不一致或者差距比較大,評分就會交給更有經(jīng)驗的評分員。

也就是說,在評分系統(tǒng)較為穩(wěn)定的托福作文中,人工評分實際上涉及到每一個細節(jié),最終的決策權也掌握在人類手中。

那么托??谡Z本身的穩(wěn)定性就沒有托福作文評分那么穩(wěn)定。這意味著托??谡Z自動評分系統(tǒng)實際上帶來了更大的不確定性。如果直接使用托??谡Z自動評分系統(tǒng)Speech Rater進行評分,人工評分的不穩(wěn)定加上機器評分的不穩(wěn)定,偏差可能會很大。復議成功率可能提高40%,降低40%,維持20%不變。

每位托??忌U納考試費1900元。大家的委托很重要,每一個分數(shù)的公平性也很重要。如果出現(xiàn)這么大的偏差,ETS評分的公平性就沒有了。因此,在實際使用中,托福口語自動評分系統(tǒng)Speech Rater在10年內(nèi)將無法掌控主要決策權。要知道托福作文自動評分系統(tǒng),在2009年吳老師爆料之后,要到10年后才能做出決定。如今,仍然需要人類參與評分。那么托福口語自動評分系統(tǒng),在未來10年里,實際上只是人工評分的陪襯或者背景,不能算是主角。

而我們在考試場景中必須要考慮一個非常重要的問題。托福作文評分更容易做到公平,因為考官看到的是一篇由一個個字母組成的作文,不會有其他影響因素。然而,影響托??谡Z的因素有很多。比如托??紙鰳巧系难b修會造成非常大的噪音。例如,如果有人在托??紙龃舐暢?,也會引起非常大的噪音。例如,托??忌绻恍⌒陌邀溈孙L放在遠離嘴邊的地方,聲音捕捉就會很差。這就是為什么在參加考試之前必須進行托??荚嚨脑?。如果您對此不滿意,則無法參加測試。但即使在海選之后,許多托??忌矔唤?jīng)意地降低音量。

正如吳老師所說,裝修的噪音、考場的噪音、麥克風不小心放錯了位置,可能都是人類考官可以接受的。但對于托??谡Z自動評分系統(tǒng)這個電腦系統(tǒng)來說,大量的噪音和降低的聲音其實是他們無法接受的。它將使整個系統(tǒng)完全癱瘓。因此,從實際應用的角度來看,托??谡Z自動評分系統(tǒng)Speech Rater將會受到很大的挑戰(zhàn)。

因此,這套托??谡Z自動評分系統(tǒng)Speech Rater對于展示ETS本身的技術實力來說是非常有價值的,但從實用角度來看,每位考生1900元的考試費用是必要的。老實說,與手動評分的相關性為0.81。 1,000 名候選人是可能的。大約有100 名候選人會遇到問題。哪個候選人愿意自己出問題?而且,中國總共有6000個托??荚囅?,每次都有600名托??忌赡艹霈F(xiàn)問題。您認為教育部考試中心會接受托福熱線被炸的事實嗎?

因此,未來10年內(nèi),托??谡Z自動評分系統(tǒng)Speech Rater很可能會在短時間內(nèi)進入評分系統(tǒng)。然而,10年內(nèi),托福口語成績的最終決定權實際上仍然是由人工決定的,而不是由這個系統(tǒng)決定的。

這套托??谡Z自動評分系統(tǒng)已引入國內(nèi)。你享受其中是可以的,但過于認真對待你的分數(shù)就是你的錯了。

備考托福最大秘訣:掌握精髓,更快提高成績!

你需要的是無人老師托福!

封閉嚴格的管理,

主課、課堂練習、周末模擬考試的鞏固與提高

直至晚上21:00,我們將親自解答您的問題,快速提高您的托福成績!

無老師的封閉托福課程將幫助您在考試前成為尖子生!

一起

快來積分吧

立即掃碼注冊

為您推薦

關于托福成績復議,你了解多少?(托福成績復議時還可以遞交么)

ETS“坑”人不斷,動不動就拿出考試題目泄漏,出題方式不對等等各種套路,人家辛辛苦苦準備幾個月到半年一年的考試成績說取消把取消了。更甚者還有臉跟護照相片對不上而取消考試的情況,難道變美了也有錯嗎?!咳咳,扯遠了,就考試結果來說,如果同學們覺

2024-06-08 15:02

托??谡Z復議你了解嗎?,托福口語真題

許多新參加托??荚嚨耐瑢W可能聽自己的師兄姐們講這個問題,他們會告訴你,如果你覺得自己的成績不是很理想的話,你可以去參加復議。當然,這個復議只能是口語和寫作。那么你們知道托??谡Z復議是什么意思嗎?不知道的小伙伴來看一下哦!一、托??谡Z復議是什

2024-06-08 15:02

托??谡Z復議時間要多久?(托??谡Z25分相當于雅思多少分)

不少參加托??荚嚨目忌鷤冊诳荚囍蠖加X得成績和自己的不符合,這個時候考生們可以通過托??谡Z復議進行提出自己的成績不滿之處。那么一般托??谡Z復議需要浪費多久的時間呢?托??谡Z復議的流程是什么呢?這都是即將準備托??谡Z復議的考生們需要了解的一個

2024-06-08 15:01

這次的口語都說完了,結果才19分,你說我要不要復議一下?

“無老師,這次成績出了,跟我預計的完全不同,考完之后并沒有覺得發(fā)揮不好,這次的口語都說完了,結果才19分,你說我要不要復議一下?”托福到底怎么評分那些年那些誤解說實話感覺這個無花果,對于托??谡Z的評分標準,有一些誤解。就是很多無花果的,剛開

2024-06-08 15:01

大連托福雅思百家分享托福考試口語復議你一定要知道這些(托??谡Z復議成功率大嗎)

托??荚噺妥h是一件讓人糾結的事,對于自己的成績有異議的同學會考慮提出復議,但是也有部分人復議之后分數(shù)不反而比現(xiàn)在更低,所以復議需謹慎,現(xiàn)在我們來看看復議都需要什么!一.托??谡Z復議托??谡Z復議是指如考生判斷自己的托??谡Z分數(shù)應高于現(xiàn)在的分數(shù)

2024-06-08 15:00

5人涉嫌幫中國學生代考托福在美被逮捕(代報托福報名)

據(jù)《紐約郵報》5月2日報道披露,3月12日,美國聯(lián)邦當局逮捕5人,他們涉嫌多次使用假護照幫中國學生代考托福取得學生簽證,并被起訴26項罪名。據(jù)報道,美國相關部門表示,超過40名中國公民通過該手段拿到學生簽證,隨后進入美國高校學習。聯(lián)邦調(diào)查局

2024-06-08 15:00

加載中...