更新時間:2024-03-26 23:53作者:小樂
教育導(dǎo)報3月15日訊OpenAI周二發(fā)布了多模態(tài)大語言模型GPT-4。該模型是OpenAI 在調(diào)用和響應(yīng)深度學(xué)習(xí)模型生成方面的最新里程碑,并在重要考試中超越了大多數(shù)人類考生。
根據(jù)OpenAI 的描述,該模型展示了“跨各種專業(yè)和學(xué)術(shù)領(lǐng)域的人類水平的表現(xiàn)”。 GPT-4 在模擬律師考試中得分位于前10%,而其前身GPT-3.5(ChatGPT 的基礎(chǔ))得分在后10% 左右。
GPT-4 在其他各種考試中也表現(xiàn)出色,例如SAT 數(shù)學(xué)考試,它在滿分800 分中獲得了700 分。然而,它并不具備所有科目的能力,例如AP 英語語言和作文僅獲得2 分。
需要考慮的一件事是:OpenAI 的GPT 系列本質(zhì)上是一個反流引擎系列,它采用訓(xùn)練過的材料并重新組裝它來解決用戶查詢。有時是對的,有時是錯的。它可以回憶起考試細(xì)節(jié)——,而人類用戶可能很難清楚地記住所有細(xì)節(jié),并且它的響應(yīng)可能更像是對人類必須參加的各種考試的評論。
OpenAI CEO Sam Altman在談到GPT-4時承認(rèn):“它仍然有缺陷,它仍然有限,第一次使用它時可能會讓人印象深刻,但當(dāng)人們花更多時間使用它時,可能就無法做到這一點(即多輪對話詢問后獲得的答復(fù)可能有缺陷)?!?
GPT-4 是一個大型多模態(tài)模型,支持通過文本和圖像輸入查詢并以文本形式返回答案。開發(fā)人員目前可以通過等候名單上的GPT-4 API 進(jìn)行訪問,而個人用戶則可以通過ChatGPT Plus 進(jìn)行訂閱?;趫D像的輸入目前仍在進(jìn)行中。
盡管增加了圖像輸入機制,但OpenAI 并未披露或提供有關(guān)其模型生產(chǎn)的信息。這家備受矚目的公司選擇不透露有關(guān)其規(guī)模、訓(xùn)練方式以及流程中使用哪些數(shù)據(jù)的詳細(xì)信息。
“考慮到GPT-4 等大型模型的競爭格局和安全影響,本報告不包含有關(guān)架構(gòu)(包括模型大?。?、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法或類似內(nèi)容的更多詳細(xì)信息,”公司在其技術(shù)文件中表示。
在YouTube 的直播中,OpenAI 總裁兼聯(lián)合創(chuàng)始人Greg Brockman 演示了GPT-4 和GPT-3.5 之間的區(qū)別。
GPT-3.5 根本不嘗試做出回應(yīng)。 GPT 4 回歸“GPT-4 產(chǎn)生了突破性的、宏偉的成果,極大地激發(fā)了廣義人工智能目標(biāo)?!碑?dāng)布羅克曼告訴模型,當(dāng)包含“AI”的句子不算數(shù)時,GPT-4 在另一個不含“AI”的句子中修改了其響應(yīng)。
然后,他繼續(xù)讓GPT-4 為Discord 機器人生成Python 代碼。更令人印象深刻的是,他拍了一張笑話網(wǎng)站的手繪模型的照片,將圖像發(fā)送到Discord,相關(guān)的GPT-4 模型用HTML 和JavaScript 代碼進(jìn)行響應(yīng),實現(xiàn)了模型網(wǎng)站。
最后,Brockman 設(shè)置了GPT-4 來分析16 頁的美國稅法,以返回Alice 和Bob 這對具有特定財務(wù)狀況的夫婦的標(biāo)準(zhǔn)扣除額。 OpenAI 的模型給出了正確答案并解釋了所涉及的計算。
除了更好的推理(從測試分?jǐn)?shù)的提高中可以明顯看出),GPT-4 還改善了協(xié)作(按照指示進(jìn)行迭代以改進(jìn)之前的輸出),并且能夠更好地處理大量文本(分析或輸出大約25,000 字的中篇小說)接受基于圖像的輸入(用于對象識別,盡管此功能尚未公開)。
更重要的是,根據(jù)OpenAI 的說法,GPT-4 應(yīng)該比早期版本更不容易出錯。
OpenAI 表示:“我們花了六個月的時間,利用從對抗性測試程序和ChatGPT 中吸取的經(jīng)驗教訓(xùn),迭代調(diào)整GPT-4,在現(xiàn)實性、可控性和拒絕安全邊界方面取得了有史以來最好的結(jié)果(盡管遠(yuǎn)非完美)?!?
從微軟Bing 問答功能首次亮相以來,人們可能已經(jīng)熟悉了這種“遠(yuǎn)非完美”的安全級別,該功能使用GPT-4 作為其Prometheus 模型的基礎(chǔ)。
OpenAI 承認(rèn)GPT-4 與其早期版本一樣,“扭曲事實并產(chǎn)生推理錯誤”,但該公司表示,新模型降低了錯誤程度。
相對于之前的模型,GPT-4 顯著減少了失真
該公司解釋說:“雖然仍然是一個真正的問題,但與以前的模型相比,GPT-4 的事實扭曲性能較少(每次迭代都得到了改進(jìn))?!?“在我們內(nèi)部的對抗現(xiàn)實主義評估中,GPT-4 的得分比我們最新的GPT-3.5 高出40%?!?
GPT-4 的定價為每1,000 個提示代幣0.03 美元,每1,000 個完成代幣0.06 美元,其中一個代幣大約為四個字符。默認(rèn)速率限制為每分鐘40,000 個令牌和每分鐘200 個請求。
此外,OpenAI 還開源了Evals,這是一個用于評估和校對機器學(xué)習(xí)模型(包括其自己的模型)的程序。
盡管人們對人工智能風(fēng)險的擔(dān)憂揮之不去,但企業(yè)仍在爭先恐后地將人工智能模型推向市場。在GPT-4 到來的同一天,由前OpenAI 員工創(chuàng)立的初創(chuàng)公司Anthropic 推出了自己的基于聊天的助手Claude,用于處理和生成文本摘要、搜索、問答、編程等。
Google 擔(dān)心在營銷相關(guān)模型方面落后,因此推出了一個名為PaLM 的API,用于與各種大型語言模型交互,以及一個名為MakerSuite 的原型環(huán)境。
幾周前,F(xiàn)acebook 推出了LLaMA 大規(guī)模語言模型,斯坦福大學(xué)的研究人員現(xiàn)已將其改造為Alpaca 模型,未來可能會出現(xiàn)更廣泛的競爭。
OpenAI 表示:“還有很多工作要做,我們期待通過社區(qū)的集體努力來改進(jìn)這個模型,在該模型的基礎(chǔ)上進(jìn)行構(gòu)建、探索和貢獻(xiàn)。”
看
https://openai.com/research/gpt-4
https://www.theregister.com/2023/03/14/openai_gpt4_ai/
其他閱讀
2023年兩會閉幕:教育、就業(yè)、婚育18條建議
學(xué)生開始使用ChatGPT寫論文?但老師們并不擔(dān)心作弊現(xiàn)象激增
ChatGPT 將如何改變大學(xué)和高中的學(xué)習(xí)?