红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

OpenAI推出GPT-4,SAT數(shù)學(xué)超過89%人類考生,法律考試超過90%考生 open sat

更新時間:2024-03-26 23:53作者:小樂

教育導(dǎo)報3月15日訊OpenAI周二發(fā)布了多模態(tài)大語言模型GPT-4。該模型是OpenAI 在調(diào)用和響應(yīng)深度學(xué)習(xí)模型生成方面的最新里程碑,并在重要考試中超越了大多數(shù)人類考生。

根據(jù)OpenAI 的描述,該模型展示了“跨各種專業(yè)和學(xué)術(shù)領(lǐng)域的人類水平的表現(xiàn)”。 GPT-4 在模擬律師考試中得分位于前10%,而其前身GPT-3.5(ChatGPT 的基礎(chǔ))得分在后10% 左右。

GPT-4 在其他各種考試中也表現(xiàn)出色,例如SAT 數(shù)學(xué)考試,它在滿分800 分中獲得了700 分。然而,它并不具備所有科目的能力,例如AP 英語語言和作文僅獲得2 分。

需要考慮的一件事是:OpenAI 的GPT 系列本質(zhì)上是一個反流引擎系列,它采用訓(xùn)練過的材料并重新組裝它來解決用戶查詢。有時是對的,有時是錯的。它可以回憶起考試細(xì)節(jié)——,而人類用戶可能很難清楚地記住所有細(xì)節(jié),并且它的響應(yīng)可能更像是對人類必須參加的各種考試的評論。

OpenAI CEO Sam Altman在談到GPT-4時承認(rèn):“它仍然有缺陷,它仍然有限,第一次使用它時可能會讓人印象深刻,但當(dāng)人們花更多時間使用它時,可能就無法做到這一點(即多輪對話詢問后獲得的答復(fù)可能有缺陷)?!?

GPT-4 是一個大型多模態(tài)模型,支持通過文本和圖像輸入查詢并以文本形式返回答案。開發(fā)人員目前可以通過等候名單上的GPT-4 API 進(jìn)行訪問,而個人用戶則可以通過ChatGPT Plus 進(jìn)行訂閱?;趫D像的輸入目前仍在進(jìn)行中。

盡管增加了圖像輸入機制,但OpenAI 并未披露或提供有關(guān)其模型生產(chǎn)的信息。這家備受矚目的公司選擇不透露有關(guān)其規(guī)模、訓(xùn)練方式以及流程中使用哪些數(shù)據(jù)的詳細(xì)信息。

“考慮到GPT-4 等大型模型的競爭格局和安全影響,本報告不包含有關(guān)架構(gòu)(包括模型大?。?、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法或類似內(nèi)容的更多詳細(xì)信息,”公司在其技術(shù)文件中表示。

在YouTube 的直播中,OpenAI 總裁兼聯(lián)合創(chuàng)始人Greg Brockman 演示了GPT-4 和GPT-3.5 之間的區(qū)別。

GPT-3.5 根本不嘗試做出回應(yīng)。 GPT 4 回歸“GPT-4 產(chǎn)生了突破性的、宏偉的成果,極大地激發(fā)了廣義人工智能目標(biāo)?!碑?dāng)布羅克曼告訴模型,當(dāng)包含“AI”的句子不算數(shù)時,GPT-4 在另一個不含“AI”的句子中修改了其響應(yīng)。

然后,他繼續(xù)讓GPT-4 為Discord 機器人生成Python 代碼。更令人印象深刻的是,他拍了一張笑話網(wǎng)站的手繪模型的照片,將圖像發(fā)送到Discord,相關(guān)的GPT-4 模型用HTML 和JavaScript 代碼進(jìn)行響應(yīng),實現(xiàn)了模型網(wǎng)站。

最后,Brockman 設(shè)置了GPT-4 來分析16 頁的美國稅法,以返回Alice 和Bob 這對具有特定財務(wù)狀況的夫婦的標(biāo)準(zhǔn)扣除額。 OpenAI 的模型給出了正確答案并解釋了所涉及的計算。

除了更好的推理(從測試分?jǐn)?shù)的提高中可以明顯看出),GPT-4 還改善了協(xié)作(按照指示進(jìn)行迭代以改進(jìn)之前的輸出),并且能夠更好地處理大量文本(分析或輸出大約25,000 字的中篇小說)接受基于圖像的輸入(用于對象識別,盡管此功能尚未公開)。

更重要的是,根據(jù)OpenAI 的說法,GPT-4 應(yīng)該比早期版本更不容易出錯。

OpenAI 表示:“我們花了六個月的時間,利用從對抗性測試程序和ChatGPT 中吸取的經(jīng)驗教訓(xùn),迭代調(diào)整GPT-4,在現(xiàn)實性、可控性和拒絕安全邊界方面取得了有史以來最好的結(jié)果(盡管遠(yuǎn)非完美)?!?

從微軟Bing 問答功能首次亮相以來,人們可能已經(jīng)熟悉了這種“遠(yuǎn)非完美”的安全級別,該功能使用GPT-4 作為其Prometheus 模型的基礎(chǔ)。

OpenAI 承認(rèn)GPT-4 與其早期版本一樣,“扭曲事實并產(chǎn)生推理錯誤”,但該公司表示,新模型降低了錯誤程度。

相對于之前的模型,GPT-4 顯著減少了失真

該公司解釋說:“雖然仍然是一個真正的問題,但與以前的模型相比,GPT-4 的事實扭曲性能較少(每次迭代都得到了改進(jìn))?!?“在我們內(nèi)部的對抗現(xiàn)實主義評估中,GPT-4 的得分比我們最新的GPT-3.5 高出40%?!?

GPT-4 的定價為每1,000 個提示代幣0.03 美元,每1,000 個完成代幣0.06 美元,其中一個代幣大約為四個字符。默認(rèn)速率限制為每分鐘40,000 個令牌和每分鐘200 個請求。

此外,OpenAI 還開源了Evals,這是一個用于評估和校對機器學(xué)習(xí)模型(包括其自己的模型)的程序。

盡管人們對人工智能風(fēng)險的擔(dān)憂揮之不去,但企業(yè)仍在爭先恐后地將人工智能模型推向市場。在GPT-4 到來的同一天,由前OpenAI 員工創(chuàng)立的初創(chuàng)公司Anthropic 推出了自己的基于聊天的助手Claude,用于處理和生成文本摘要、搜索、問答、編程等。

Google 擔(dān)心在營銷相關(guān)模型方面落后,因此推出了一個名為PaLM 的API,用于與各種大型語言模型交互,以及一個名為MakerSuite 的原型環(huán)境。

幾周前,F(xiàn)acebook 推出了LLaMA 大規(guī)模語言模型,斯坦福大學(xué)的研究人員現(xiàn)已將其改造為Alpaca 模型,未來可能會出現(xiàn)更廣泛的競爭。

OpenAI 表示:“還有很多工作要做,我們期待通過社區(qū)的集體努力來改進(jìn)這個模型,在該模型的基礎(chǔ)上進(jìn)行構(gòu)建、探索和貢獻(xiàn)。”

https://openai.com/research/gpt-4

https://www.theregister.com/2023/03/14/openai_gpt4_ai/

其他閱讀

2023年兩會閉幕:教育、就業(yè)、婚育18條建議

學(xué)生開始使用ChatGPT寫論文?但老師們并不擔(dān)心作弊現(xiàn)象激增

ChatGPT 將如何改變大學(xué)和高中的學(xué)習(xí)?

為您推薦

SAT數(shù)學(xué)考試中幾種常用方法 sat數(shù)學(xué)題型

SAT數(shù)學(xué)對于中國考生來說雖然難度不是很大,但是拿高分的比例并不是很高,因為SAT數(shù)學(xué)注重速度和解題質(zhì)量。下面給大家分享一些關(guān)于SAT數(shù)學(xué)考試中的答題方法,希望可以幫助大家更好的應(yīng)對SAT數(shù)學(xué)考試。SAT數(shù)學(xué)考試部分44道選擇題和10道填空

2024-03-26 23:45

專家告訴你美國SAT考試內(nèi)容都有哪些?

哈嘍大家好!這里是美簽之家老蔡~在美國,大學(xué)申請入學(xué)條件中,包含大學(xué)入學(xué)標(biāo)準(zhǔn)化測試成績,目前分ACT和SAT兩種。這兩種測試同為美國大學(xué)的入學(xué)條件之一,也是美國大學(xué)發(fā)放獎學(xué)金的主要依據(jù)。接受ACT成績的學(xué)校多為美國中西部地區(qū)的大學(xué),而東部和

2024-03-26 23:35

朗麒干貨!sat考試適用國家

SAT考試是全球范圍內(nèi)廣泛認(rèn)可的大學(xué)入學(xué)考試,適用于申請美國、加拿大、澳大利亞等國家的大學(xué)。一、SAT考試適用于哪些國家1. 美國:SAT考試是美國大學(xué)招生過程中使用最廣泛的標(biāo)準(zhǔn)化考試之一,幾乎所有美國大學(xué)都接受SAT成績作為申請材料的一部

2024-03-26 23:26

SAT 數(shù)學(xué)部分到底考什么?,sat數(shù)學(xué)需要達(dá)到什么水平

關(guān)于SAT 數(shù)學(xué),其實一上來就想跟各位考生分享一些技巧,可是又怕有的考生會覺得還不如知識點按部就班慢慢算來的踏實。所以別的都先撇開不談,我們來談一談,按照步驟一步一步將題目讀完之后,我們要做的事情到底是什么,為什么簡單易錯的SAT 數(shù)學(xué),你

2024-03-26 23:15

備考SAT || 數(shù)學(xué)滿分攻略(SAT數(shù)學(xué)考試滿分多少)

SAT數(shù)學(xué)在考試中占一半的分?jǐn)?shù),是很重要的一部分,尤其是對于中國考生來說,是一門至關(guān)重要的科目。相比于其他科目,我們在數(shù)學(xué)方面有著很大的優(yōu)勢,大家想要取得高分并不難,但是想要取得滿分就沒有那么容易了。那么,我們?nèi)绾尾拍茉跀?shù)學(xué)部分取得滿分的成

2024-03-26 23:06

SAT數(shù)學(xué)考什么內(nèi)容??sat考數(shù)學(xué)嗎

SAT是申請大學(xué)時重要的考試之一,即使有些學(xué)校不需要繳交SAT成績,但絕大多數(shù)的學(xué)校(尤其名校)都仍然需要。今天我們將告訴你SAT數(shù)學(xué)在考什么、應(yīng)該要怎么準(zhǔn)備,一起看下去吧!SAT數(shù)學(xué)范圍有哪些?SAT數(shù)學(xué)的測驗范圍主要有四大類:代數(shù)與函數(shù)

2024-03-26 22:56

加載中...