美國留學(xué)選擇什么專業(yè)好?留學(xué)美國熱門專業(yè)推薦
2019-06-26
更新時間:2024-06-07 20:49作者:小樂
機器之心編輯部
“這次采訪的每一秒都是精華?!苯眨欢螆D靈獎得主Geoffrey Hinton的采訪視頻受到網(wǎng)友好評。
視頻鏈接:https://www.youtube.com/watch v=tP-4njhyGvot=660s
采訪中,Hinton 談到了很多話題,包括當(dāng)前大模型的技術(shù)路線圖、多模態(tài)學(xué)習(xí)、數(shù)字計算和共享知識的重要性、智能系統(tǒng)的意識和情感,以及他的合作者和優(yōu)秀學(xué)生……
Hinton 認(rèn)為,大型語言模型通過尋找不同領(lǐng)域的共同結(jié)構(gòu)進(jìn)行編碼。這種能力使他們能夠壓縮信息并形成深刻的理解,發(fā)現(xiàn)現(xiàn)實世界中人類尚未發(fā)現(xiàn)的一切事物之間的聯(lián)系,這是創(chuàng)造力的關(guān)鍵。來源。他還提到,通過預(yù)測下一個符號,模型實際上必須執(zhí)行某種程度的推理,而不是像很多人所說的大型模型無法推理。隨著模型規(guī)模的增大,這種推理能力會越來越強。這是一個值得追求的方向。
在回憶與伊利亞的老師和學(xué)生一起工作時,Hinton 提到伊利亞有很好的直覺。他很早就預(yù)見到增加模型的大小會很有用,盡管Hinton 當(dāng)時對這個想法并不熱衷。事實證明,伊利亞的直覺是準(zhǔn)確的。
整個采訪時間比較長。為了方便理清故事背景,我們可以先回顧一下Hinton的職業(yè)生涯:
辛頓1947年12月6日出生于英國溫布爾登。 1970年,他獲得了劍橋大學(xué)實驗心理學(xué)學(xué)士學(xué)位。 1976年至1978年,擔(dān)任蘇塞克斯大學(xué)認(rèn)知科學(xué)研究項目研究員。 1978年,他獲得愛丁堡大學(xué)人工智能博士學(xué)位。 1978年至1980年在加州大學(xué)圣地亞哥分校認(rèn)知科學(xué)系做訪問學(xué)者。 1980年至1982年,擔(dān)任英國劍橋MRC應(yīng)用心理學(xué)系科學(xué)經(jīng)理。 1982年至1987年在卡內(nèi)基梅隆大學(xué)計算機科學(xué)系擔(dān)任助理教授、副教授。 1987年至1998年,擔(dān)任多倫多大學(xué)計算機科學(xué)系教授。 1996年,他當(dāng)選為加拿大皇家學(xué)會院士。 1998年,他當(dāng)選為英國皇家學(xué)會會員。 1998年至2001年,他擔(dān)任倫敦大學(xué)學(xué)院蓋茨比計算神經(jīng)科學(xué)系的創(chuàng)始主任。 2001年至2014年,擔(dān)任多倫多大學(xué)計算機科學(xué)系教授。 2003年,當(dāng)選為認(rèn)知科學(xué)學(xué)會會員。 2013年至2016年擔(dān)任谷歌杰出研究員。 2016年至2023年,他擔(dān)任谷歌副總裁兼工程研究員。 2023年,從谷歌辭職。以下為采訪內(nèi)容:
,期間
45:46
起點:了解大腦如何工作
Hinton:我記得我第一次從英國來到卡內(nèi)基梅隆大學(xué)時。在英國的研究機構(gòu)里,每個人六點鐘都會去酒吧喝一杯。但在卡內(nèi)基梅隆大學(xué),幾周后的一個周六晚上,當(dāng)我沒有任何朋友并且不知道該做什么時,我決定去實驗室和項目。由于我有一臺單機,所以這個東西不能在家里編程。所以我在周六晚上九點左右去了實驗室,實驗室里擠滿了人,所有的學(xué)生都在那里。他們之所以這樣,是因為他們所做的事代表著未來。他們都相信他們接下來所做的事情將改變計算機科學(xué)的進(jìn)程。這與英國的情況有很大不同,非常令人耳目一新。
Hellermark:讓我們回到我們開始的地方,劍橋的—— You。當(dāng)你試圖了解大腦如何運作時,感覺如何?
Hinton:那是一段非常令人失望的時期。我主要學(xué)的是生理學(xué)。在夏季學(xué)期,他們教我們大腦是如何工作的。他們所教的只是神經(jīng)元如何傳導(dǎo)動作電位,這很有趣,但它并沒有告訴你大腦是如何工作的。所以這非常令人失望。然后我轉(zhuǎn)向哲學(xué)。這個想法是,也許哲學(xué)可以告訴我們思維是如何運作的。結(jié)果同樣令人失望。我最終去了愛丁堡大學(xué)學(xué)習(xí)人工智能,這更有趣。至少你可以模擬事物,這樣你就可以測試?yán)碚摗?
Hellermark:您還記得是什么讓您對人工智能感興趣嗎?你讀過某篇論文嗎?或者是否有特定的人向您介紹了這些想法?
Hinton:我認(rèn)為唐納德·赫布(加拿大心理學(xué)家、認(rèn)知心理生理學(xué)先驅(qū))寫的一本書對我影響很大。他對如何在神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)連接強度非常感興趣。我還讀了馮·諾依曼(計算機之父)的書,他對大腦如何計算以及它與普通計算機有何不同非常感興趣。
Hellermark:在愛丁堡的那些日子里,你是否相信這些想法會成功?或者你當(dāng)時的直覺是什么?
Hinton:在我看來,大腦肯定有一種學(xué)習(xí)方式。大腦的學(xué)習(xí)并不依賴于對各種事物進(jìn)行預(yù)先編程,然后應(yīng)用邏輯推理規(guī)則。 —— 這種方法從一開始就顯得過于瘋狂。因此,我們必須解開大腦如何學(xué)習(xí)調(diào)整神經(jīng)網(wǎng)絡(luò)中的連接以處理復(fù)雜事物的謎團(tuán)。馮·諾依曼和圖靈也是如此。馮·諾依曼和圖靈都非常擅長邏輯,但他們并不相信這種邏輯方法。
Hellermark:你如何區(qū)分做神經(jīng)科學(xué)的想法和僅僅做看起來不錯的人工智能算法?您從早期的經(jīng)歷中汲取了多少靈感?
Hinton:我在神經(jīng)科學(xué)方面沒有做太多研究。我總是受到對大腦如何工作的理解的啟發(fā),大腦中有一堆神經(jīng)元執(zhí)行相對簡單的操作。它們是非線性的,但它們接受輸入,對這些輸入進(jìn)行加權(quán),然后輸出取決于這些加權(quán)輸入。問題是,如何改變這些權(quán)重,以便整個系統(tǒng)發(fā)揮作用。這似乎是一個相當(dāng)簡單的問題。
Hellermark:你還記得當(dāng)時的合作者嗎?
Hinton:我在卡內(nèi)基梅隆大學(xué)工作的主要同事都不是卡內(nèi)基梅隆大學(xué)的人。我與巴爾的摩約翰·霍普金斯大學(xué)的泰倫斯·塞諾斯基(Terrence Sejnowski)進(jìn)行了很多互動。大約每月一次,要么他開車去匹茲堡,要么我開車去巴爾的摩。兩地之間的距離為250英里(約402公里)。我們會在巴爾的摩一起度過一個周末,在機器上工作。這是一次很棒的合作。我們都相信這就是大腦的工作原理。這是我做過的最令人興奮的研究,并產(chǎn)生了許多技術(shù)上非常有趣的結(jié)果,但我不認(rèn)為這就是大腦的工作方式。
我還與Peter Brown 進(jìn)行了很好的合作,他是一位非常優(yōu)秀的統(tǒng)計學(xué)家,曾在IBM 從事語音識別工作。他作為一名成熟的學(xué)生來到卡內(nèi)基梅隆大學(xué)獲得博士學(xué)位。事實上,他已經(jīng)知道很多了。他教了我很多關(guān)于語音的知識,教給我隱馬爾可夫模型。我覺得我從他身上學(xué)到的東西比他從我身上學(xué)到的東西還要多。這是每個人都想要的學(xué)生。當(dāng)他教我隱馬爾可夫模型時,我正在使用隱藏層進(jìn)行反向傳播。當(dāng)時它還不被稱為隱藏層。我認(rèn)為馬爾可夫模型中使用的這個名稱對于您不知道它們做什么的變量來說是一個很好的名稱。所以這就是神經(jīng)網(wǎng)絡(luò)中“隱藏層”名稱的由來。
關(guān)于伊利亞:他有很好的直覺
海勒馬克:讓我們回到伊利亞出現(xiàn)在你辦公室的時候。
Hinton:那可能是周日,我正在編程,有人敲門。不是隨便敲,而是有點急。然后我去開門,門口站著一個年輕的學(xué)生。他說他整個夏天都在炸薯條,但他寧愿在我的實驗室工作。我說,要不你約個時間我們聊聊吧?然后伊利亞說:“現(xiàn)在談?wù)勗趺礃??”這就是伊利亞的性格。
我們聊了一會兒,我給了他一篇論文,是發(fā)表在Nature 上的一篇關(guān)于反向傳播的論文。我們安排一周后舉行另一次會議。他回來后說他聽不懂,我很失望。我覺得他看起來是個聰明人。我給他的論文只涉及鏈?zhǔn)椒▌t,不難理解。他說:“不,我理解那部分。我只是不明白為什么你不將梯度提供給合理的函數(shù)優(yōu)化器?!边@個問題讓我們思考了好幾年。這就是伊利亞的特點,他有很強的直覺,他的想法總是好的。
海勒馬克:你認(rèn)為是什么給了伊利亞這樣的直覺?
辛頓:我不知道。他總是為自己著想。他從小就對人工智能感興趣,也擅長數(shù)學(xué)。
Hellermark:你們兩人的合作是如何產(chǎn)生的?你扮演什么角色,伊利亞扮演什么角色?
Hinton:和他一起工作很有趣。我記得有一次我們試圖以一種復(fù)雜的方式繪制數(shù)據(jù)圖,我有一個混合模型,您可以在其中繪制具有同一組相似性的兩個圖。因此,在一張圖像上,銀行可能非??拷G色空間,而在另一張圖像上,銀行可能非常靠近河流。因為在圖表上,你不能讓它同時接近兩者,對嗎?因為河流和綠地距離較遠(yuǎn)。
我們在MATLAB 中完成了此操作,其中涉及大量代碼重組以執(zhí)行正確的矩陣乘法。然后他就厭倦了。因此有一天,他說:“我要為MATLAB 編寫一個界面。我要用這種不同的語言進(jìn)行編程,并且我有一些東西可以將其轉(zhuǎn)換為MATLAB?!蔽艺f,“不,伊利亞,這將花費你一個月的時間。我們必須繼續(xù)這個項目。不要因此分心,”伊利亞說。 “我今天早上就做。”
海勒馬克:這太不可思議了。這些年最大的轉(zhuǎn)變不僅僅是算法,還有規(guī)模。多年來您如何看待規(guī)模?
Hinton:伊利亞很早就有這種直覺。所以伊利亞總是說,你只要把它做得更大,它就會更好。我總覺得這有點逃避現(xiàn)實,你也必須有新的想法。事實證明,他的直覺大多是正確的。新想法有幫助。像Transformer 這樣的東西有很大幫助,但真正的問題是數(shù)據(jù)規(guī)模和計算規(guī)模。當(dāng)時,我們并不知道計算機的速度會快十億倍。我們認(rèn)為速度可能會快100 倍。我們試圖通過提出一些聰明的想法來解決問題,但如果我們有更大的數(shù)據(jù)和計算規(guī)模,這些問題就會得到解決。
2011 年左右,Ilya、我和另一位名叫James Martins 的研究生發(fā)表了一篇使用字符級預(yù)測的論文。使用Wikipedia,我們嘗試預(yù)測下一個HTML 字符。結(jié)果效果非常好。我們總是對它的運作效果感到驚訝。那是在GPU 上使用了一個奇特的優(yōu)化器,我們永遠(yuǎn)無法相信它能理解任何東西,但看起來確實如此,這似乎令人難以置信。
“預(yù)測下一個詞”也需要推理
Hellermark:這些模型如何預(yù)測下一個單詞?為什么這是一種錯誤的思考方式?
Hinton:我不認(rèn)為這是錯誤的做法。事實上,我認(rèn)為我使用嵌入和反向傳播制作了第一個神經(jīng)網(wǎng)絡(luò)語言模型。數(shù)據(jù)非常簡單,只是三元組,它將每個符號轉(zhuǎn)換為嵌入,然后讓嵌入交互以預(yù)測下一個符號的嵌入,然后從那里預(yù)測下一個符號,然后通過整個過程進(jìn)行反向傳播來學(xué)習(xí)這些三元組。我證明了它是可以推廣的。
大約10 年后,Yoshua Bengio 使用了一個非常相似的網(wǎng)絡(luò),并表明它可以處理真實的文本。大約十年后,語言學(xué)家開始相信嵌入。這是一個緩慢的過程。
我之所以認(rèn)為這不僅僅是預(yù)測下一個符號,是因為如果你問,預(yù)測下一個符號需要什么?具體來說,如果你問我一個問題,而答案的第一個單詞是下一個符號,那么你必須理解這個問題。所以我認(rèn)為預(yù)測下一個符號與老式的自動完成有很大不同。在老式的自動完成中,您需要存儲三元組的單詞。然后,如果您看到一對單詞,您會看到不同單詞出現(xiàn)在第三個位置的頻率,因此您可以預(yù)測下一個符號。這就是大多數(shù)人認(rèn)為的自動完成。現(xiàn)在情況已經(jīng)完全不同了。
為了預(yù)測下一個符號,您必須理解所說的內(nèi)容。所以我認(rèn)為通過讓它預(yù)測下一個符號,你就迫使它理解。我想這和我們理解的方式是一樣的。很多人會告訴你這些東西不像我們,他們只是預(yù)測下一個符號,而不像我們一樣推理。但實際上,為了預(yù)測下一個符號,它必須進(jìn)行一些推理。我們現(xiàn)在已經(jīng)看到,即使你不添加任何特殊的推理元素,只是制作大型模型,它們也已經(jīng)可以進(jìn)行一些推理了。我認(rèn)為當(dāng)你讓它們變得更大時,它們可以進(jìn)行更多推理。
Hellermark:在你看來,除了預(yù)測下一個符號之外,我現(xiàn)在還在做什么?
Hinton:我認(rèn)為這就是你學(xué)習(xí)的方式。您正在預(yù)測下一個視頻幀,您正在預(yù)測下一個聲音。但我認(rèn)為這是一個非常合理的大腦學(xué)習(xí)理論。
Hellermark:是什么讓這些模型能夠?qū)W習(xí)如此廣泛的領(lǐng)域?
Hinton:這些大型語言模型的作用是尋找共同的結(jié)構(gòu)。他們可以使用通用的結(jié)構(gòu)來編碼事物,這樣效率更高。
例如,如果你問GPT-4,為什么堆肥堆像原子彈?大多數(shù)人無法回答。大多數(shù)人并不認(rèn)為原子彈和堆肥堆是截然不同的東西。但GPT-4 會告訴你,它們處于非常不同的能量尺度,它們處于非常不同的時間尺度。但它們的共同點是,當(dāng)堆肥堆變得更熱時,它產(chǎn)生熱量的速度更快;當(dāng)原子彈產(chǎn)生更多中子時,它產(chǎn)生中子的速度就會更快。這給了我們連鎖反應(yīng)的想法。我相信它理解這兩種連鎖反應(yīng),并利用這種理解將所有這些信息壓縮到它的權(quán)重中。如果它真的這樣做了,它就會對我們還沒有見過的一切做同樣的事情。這就是創(chuàng)造力的來源—— 看到這些看似不同的事物之間的類比關(guān)系。
所以我認(rèn)為隨著GPT-4 變得越來越大,它最終會變得非常有創(chuàng)意。認(rèn)為它只是重復(fù)你所學(xué)的東西,只是將你已經(jīng)學(xué)到的東西粘貼在一起的想法是完全錯誤的。它將比人類更有創(chuàng)造力。
海勒馬克:你說它不僅會復(fù)制我們迄今為止開發(fā)的人類知識,而且可能會取得更大的進(jìn)步。我認(rèn)為我們還沒有看到足夠的情況。我們開始看到一些例子,但在更大范圍內(nèi),它仍然停留在當(dāng)前的科學(xué)狀態(tài)。您認(rèn)為如何才能超越這個水平?
Hinton:我們已經(jīng)看到這種情況在更有限的情況下發(fā)生。例如,在AlphaGo與李世石的著名比賽中,第37步,AlphaGo下了一個所有專家都認(rèn)為肯定是錯誤的棋,但后來他們意識到這是一個精彩的棋步。這是在有限的領(lǐng)域內(nèi)的創(chuàng)造力。我認(rèn)為隨著模型變得越來越大,我們會看到更多這樣的情況。
Hellermark:AlphaGo 的不同之處在于它使用強化學(xué)習(xí),這使得它能夠超越當(dāng)前的狀態(tài)。它從模仿學(xué)習(xí)開始,觀察人類如何下棋,然后通過自我對弈遠(yuǎn)遠(yuǎn)超出這個水平。您認(rèn)為這是標(biāo)準(zhǔn)組件中缺失的部分嗎?
Hinton:我認(rèn)為這可能是缺失的部分。 AlphaGo 和AlphaZero 的自我對弈是他們能夠做出這些創(chuàng)造性舉動的重要原因。但我認(rèn)為這并不是完全必要的。
很久以前有一個實驗,你訓(xùn)練神經(jīng)網(wǎng)絡(luò)來識別手寫數(shù)字。我真的很喜歡這個例子。您提供的訓(xùn)練數(shù)據(jù)中有一半標(biāo)簽是錯誤的。問題是它的學(xué)習(xí)效果如何?這些錯誤標(biāo)簽是固定的,每次它看到一個特定的樣本時,它都會與相同的錯誤標(biāo)簽配對,因此它不能通過多次看到相同的樣本但有時使用正確的標(biāo)簽,有時使用錯誤的標(biāo)簽來平均這些錯誤。訓(xùn)練數(shù)據(jù)有50% 的錯誤標(biāo)簽,但如果使用反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò),其錯誤率可以降低到5% 以下。換句話說,即使從錯誤標(biāo)記的數(shù)據(jù)中,它也可以獲得更好的結(jié)果。它識別訓(xùn)練數(shù)據(jù)中的錯誤。就像聰明的學(xué)生比他們的導(dǎo)師更聰明一樣。導(dǎo)師告訴了他們很多事情,但有一半的信息是錯誤的。學(xué)生可以辨別哪些是錯的,只聽正確的一半,最終比導(dǎo)師更聰明。所以這些大規(guī)模的神經(jīng)網(wǎng)絡(luò)實際上能夠比它們的訓(xùn)練數(shù)據(jù)做得更好,而大多數(shù)人并沒有意識到這一點。
Hellermark:那么您認(rèn)為這些模型將如何融入推理?我的意思是,一種方法是在模型之上添加啟發(fā)式方法,現(xiàn)在有很多研究正在進(jìn)行,您可以在模型中加入一些思考,并將推理反饋給模型本身。另一種方法是增加模型尺寸。你的本能是什么?
Hinton:我的預(yù)感是,當(dāng)我們擴展這些模型時,它們的推理能力會變得更好。如果你問人是如何工作的,粗略地說,我們有這些直覺,我們可以用推理,我們用推理來糾正我們的直覺。當(dāng)然,我們在推理中也會運用直覺。但如果我們的推理結(jié)論與我們的直覺相沖突,我們就會意識到我們需要改變我們的直覺。這很像AlphaGo 或AlphaZero 中的情況,你有一個評估函數(shù),只需查看棋盤并說,這對我來說有多好?但是當(dāng)您進(jìn)行蒙特卡羅模擬時,您會得到更準(zhǔn)確的想法,并且可以修改您的評估函數(shù)。所以你可以訓(xùn)練它與推理結(jié)果一致。
我認(rèn)為這些大型語言模型必須開始這樣做。他們必須開始訓(xùn)練他們的原始本能來推理下一步該做什么,并意識到這是不對的。這樣,他們可以獲得更多的訓(xùn)練數(shù)據(jù),而不僅僅是模仿人們的行為。這正是AlphaGo 能夠構(gòu)思出這個創(chuàng)造性步驟37 的原因。它擁有更多的訓(xùn)練數(shù)據(jù),因為它使用推理來確定下一步要做什么。
模型可以從語言中學(xué)習(xí)很多東西,但從多種模式中學(xué)習(xí)更容易
Hellermark:您對多模態(tài)有何看法?當(dāng)我們引入圖像、視頻和聲音時,您認(rèn)為這會如何改變模型?
Hinton:我認(rèn)為這將會產(chǎn)生很大的影響。我認(rèn)為這將使模型更好地理解空間事物。例如,僅從語言來理解一些空間事物是相當(dāng)困難的,盡管令人驚訝的是,GPT-4 在成為多模態(tài)模型之前就能夠做到這一點。但當(dāng)GPT-4 成為多模態(tài)模型時,如果讓它同時進(jìn)行視覺和觸覺,伸手去抓東西,它就會更多地了解物體。
因此,雖然你可以從語言中學(xué)到很多東西,但如果它是多模態(tài)的,學(xué)習(xí)起來會更容易。事實上,你需要的語言甚至更少。例如,YouTube 上有很多視頻可以預(yù)測下一個場景。所以我認(rèn)為多式聯(lián)運模式顯然將占據(jù)主導(dǎo)地位。這允許更多的數(shù)據(jù)并且需要更少的語言。所以這是一個哲學(xué)觀點,你可以僅從語言中學(xué)習(xí)一個好的模型,但從多模態(tài)系統(tǒng)中學(xué)習(xí)它要容易得多。
Hellermark:您認(rèn)為這會如何影響模型的推理?
Hinton:我認(rèn)為這會讓模型在空間推理方面變得更好。例如,推理如果拾起一個物體會發(fā)生什么。如果你真的嘗試拿起物體,你將獲得各種訓(xùn)練數(shù)據(jù)。
關(guān)于“認(rèn)知”的三種看法
海勒馬克:你認(rèn)為人類大腦的進(jìn)化是為了與語言很好地配合,還是語言的進(jìn)化是為了與人腦很好地配合?
Hinton:我認(rèn)為這是一個非常好的問題,關(guān)于語言是否進(jìn)化到與大腦一起工作,或者大腦是否進(jìn)化到與語言一起工作。我認(rèn)為兩者都發(fā)生了。
我曾經(jīng)認(rèn)為我們做很多認(rèn)知活動根本不需要語言,但現(xiàn)在我改變了主意。我對語言及其與認(rèn)知的關(guān)系提出三種觀點。
第一種是老式的符號觀點,認(rèn)為認(rèn)知由一些符號串組成,這些符號串采用經(jīng)過凈化的邏輯語言,沒有歧義,并且適用推理規(guī)則。因此,認(rèn)知只是對語言符號串等事物的符號操作。這是一種極端的觀點。
另一個極端的觀點是,一旦進(jìn)入大腦,一切都是向量。符號進(jìn)來,你將這些符號轉(zhuǎn)換成大向量,所有的見解都是通過大向量完成的。如果你想產(chǎn)生輸出,你將再次產(chǎn)生符號。因此,在2014 年的機器翻譯領(lǐng)域,人們使用循環(huán)神經(jīng)網(wǎng)絡(luò),單詞不斷進(jìn)入,它們將具有隱藏狀態(tài),信息將在這種隱藏狀態(tài)中不斷積累。因此,當(dāng)?shù)竭_(dá)句子末尾時,有一個很大的隱藏向量捕獲了句子的含義。然后它可以用來生成另一種語言的單詞,這些單詞被稱為思想向量。這是語言的第二種觀點。
還有第三種觀點,我現(xiàn)在相信的是,大腦將這些符號轉(zhuǎn)換為嵌入,并使用多層嵌入。所以你將獲得非常豐富的嵌入。但嵌入仍然與符號相關(guān)聯(lián),因為符號具有其相應(yīng)的大向量。這些向量相互作用產(chǎn)生下一個單詞的符號向量。因此,理解意味著知道如何將符號轉(zhuǎn)換為向量,以及向量的元素如何相互作用以預(yù)測下一個符號的向量。這就是理解在大型語言模型和我們大腦中的運作方式。您保留該符號,但將其解釋為一個大向量。所有的工作和所有的知識都在于使用哪些向量以及這些向量的元素如何相互作用,而不是符號規(guī)則。但這并不意味著您完全擺脫符號,而是意味著將符號轉(zhuǎn)換為大向量,但保留符號的表面結(jié)構(gòu)。這就是大型語言模型的工作原理?,F(xiàn)在我認(rèn)為這似乎也是一個更合理的人類思維模型。
“黃仁勛給了我一個GPU”
Hellermark:您是最早考慮使用GPU 的人之一。我知道詹森因此愛你。早在2009 年,您就提到您告訴Jensen,使用GPU 可能是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一個非常好的主意。
Hinton:實際上,2006 年左右,我有一個研究生,名叫理查德·塞利斯基(Richard Szeliski)。他是一位非常優(yōu)秀的計算機視覺專家。我在一次會議上與他交談,他說你應(yīng)該考慮使用圖形處理單元,因為它們非常擅長矩陣乘法,而你所做的基本上就是矩陣乘法。
所以我想了一會兒。然后我們了解到Tesla 系統(tǒng)配備了四個GPU。最初,我們嘗試使用游戲GPU,發(fā)現(xiàn)它們使速度提高了30 倍。然后我們買了一個帶有四個GPU 的Tesla 系統(tǒng),我們在它上面進(jìn)行了語音處理,它運行得非常好。
然后在2009 年,我在NIPS 上做了一次演講,我告訴1000 名機器學(xué)習(xí)研究人員,你們都應(yīng)該購買Nvidia GPU。 GPU 是未來。您需要GPU 來進(jìn)行機器學(xué)習(xí)。然后我實際上給Nvidia 發(fā)了一封電子郵件,說我告訴1000 名機器學(xué)習(xí)研究人員購買你們的產(chǎn)品,你們能免費給我一個嗎?他們沒有說不。事實上,他們沒有回復(fù)。但當(dāng)我告訴詹森這個故事時,他免費給了我一個。
數(shù)字系統(tǒng)具有人類無法比擬的優(yōu)勢
海勒馬克:那太好了。我認(rèn)為有趣的是GPU 的發(fā)展與該領(lǐng)域的發(fā)展是一致的。您認(rèn)為我們在計算領(lǐng)域下一步應(yīng)該走向何方?
Hinton:我在Google 的最后幾年,我一直在思考如何嘗試進(jìn)行模擬計算。也就是說,您可以像大腦一樣使用30 瓦的功率在模擬硬件中運行大型語言模型,而不是使用1 兆瓦的功率。
我從來沒有實現(xiàn)過這一點。但我開始真正欣賞數(shù)字運算。如果您要使用低功耗模擬計算,每個硬件都會有所不同,您將需要利用硬件的特定屬性。這就是發(fā)生在人類身上的事情。我們都有不同的大腦,所以我們不能把你大腦中的重量轉(zhuǎn)移到我的大腦中。硬件不同。各個神經(jīng)元的確切特性各不相同。
當(dāng)我們死亡時,我們的大部分知識和經(jīng)驗都會隨之消失,因為人類傳遞知識的方式通常涉及口頭交流,效率相對較低。然而,數(shù)字系統(tǒng)不同,可以通過共享權(quán)重(即學(xué)習(xí)的數(shù)據(jù)和參數(shù))來傳輸知識。一旦數(shù)字系統(tǒng)學(xué)習(xí)到一些東西,這些權(quán)重就可以保存并在任何其他類似配置的系統(tǒng)中重復(fù)使用。這種方法不僅保證了知識的準(zhǔn)確復(fù)制,而且大大提高了學(xué)習(xí)和知識共享的效率。因此,數(shù)字系統(tǒng)在共享和傳播知識方面比人類具有更大的能力。
需要認(rèn)真對待的快速舉重
Hellermark:許多已經(jīng)在實際應(yīng)用中部署的人工智能系統(tǒng)的想法都源自早期的神經(jīng)科學(xué)理論,而且這些想法已經(jīng)存在很長時間了?,F(xiàn)在的問題是,還有哪些其他未充分利用的神經(jīng)科學(xué)理論可以應(yīng)用于我們開發(fā)的系統(tǒng)?這就需要我們探索神經(jīng)科學(xué)中尚未探索的理論,并將其轉(zhuǎn)化為技術(shù),以推動人工智能技術(shù)的進(jìn)一步發(fā)展。
Hinton:在人工智能與神經(jīng)科學(xué)方面,我們?nèi)匀恍枰s上的一個重要方面是變化的時間尺度。在幾乎所有神經(jīng)網(wǎng)絡(luò)中,活動中都會出現(xiàn)快速的時間尺度變化—— 輸入數(shù)據(jù)后嵌入向量發(fā)生變化。還有一個是慢時間尺度,就是權(quán)重的變化,這和長期學(xué)習(xí)有關(guān)。大腦里也有這兩個時間尺度。
例如,如果我突然說出一個意想不到的詞,比如黃瓜,你五分鐘后戴上耳機,在嘈雜的環(huán)境中,如果有很輕微的說話聲,你會更容易識別這個詞黃瓜,因為我晚了五分鐘。幾分鐘前就說過了。那么這些知識存儲在哪里呢?在大腦中。這種認(rèn)知顯然是通過暫時的突觸變化而不是特定的神經(jīng)元來保存的?!?我們大腦中沒有足夠的神經(jīng)元來做到這一點。這種臨時權(quán)重變化,我稱之為快速加權(quán),在我們當(dāng)前的神經(jīng)模型中并未使用。
我們在模型中不使用快速權(quán)重的原因是,如果權(quán)重的臨時變化取決于輸入數(shù)據(jù),那么我們就無法同時處理許多不同的情況。目前,我們通常將多個不同的數(shù)據(jù)批量堆疊在一起并并行處理它們,因為這樣可以更有效地執(zhí)行矩陣乘法。正是這種對效率的需求阻礙了我們使用快速的重量。然而,大腦顯然利用快速權(quán)重來進(jìn)行臨時記憶存儲,并且可以通過這種方式實現(xiàn)許多我們目前無法做到的功能。
我對GraphCore(一家英國半導(dǎo)體公司,開發(fā)人工智能和機器學(xué)習(xí)加速器,引入大規(guī)模并行智能處理單元,在處理器內(nèi)保存完整的機器學(xué)習(xí)模型)等技術(shù)寄予厚望。如果他們采取順序方法并且只在線學(xué)習(xí),那么他們就可以使用快速權(quán)重。但這種方法尚未成功。我認(rèn)為當(dāng)人們開始使用電導(dǎo)作為權(quán)重時,這種方法最終會成功。
喬姆斯基的一些理論是無稽之談
Hellermark:了解這些模型的工作原理以及大腦的工作原理如何影響您的思維方式?
Hinton:我認(rèn)為影響很大,而且是一個相當(dāng)抽象的層面。長期以來,在人工智能領(lǐng)域,人們普遍認(rèn)為,龐大的隨機神經(jīng)網(wǎng)絡(luò)不可能僅僅依靠大量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)復(fù)雜的事物。如果你與統(tǒng)計學(xué)家、語言學(xué)家或大多數(shù)人工智能領(lǐng)域的人交談,他們會說這只是一個白日夢,沒有大規(guī)模的架構(gòu)你就無法學(xué)習(xí)真正復(fù)雜的知識。
但實際情況卻徹底推翻了這個觀點。事實證明,通過用大量數(shù)據(jù)訓(xùn)練一個巨大的隨機神經(jīng)網(wǎng)絡(luò)并使用隨機梯度下降不斷調(diào)整權(quán)重,你可以學(xué)習(xí)復(fù)雜的東西。這一發(fā)現(xiàn)對于我們理解大腦的結(jié)構(gòu)具有重要意義,表明大腦并不需要生來就擁有所有的結(jié)構(gòu)知識。當(dāng)然,大腦確實有很多先天節(jié)點
構(gòu),但它顯然不需要依賴這些結(jié)構(gòu)來學(xué)習(xí)那些容易獲得的知識。 這種觀點也挑戰(zhàn)了喬姆斯基的語言學(xué)理論,即復(fù)雜的語言學(xué)習(xí)必須依賴于先天就編織在大腦中的結(jié)構(gòu),并且要等待這種結(jié)構(gòu)成熟。這種想法現(xiàn)在顯然是無稽之談。 Hellermark:我相信喬姆斯基會感謝你稱他的觀點為無稽之談。 智能系統(tǒng)也能擁有情感 Hellermark:你認(rèn)為要使這些模型更有效地模擬人類的意識,需要做些什么? Hinton:我認(rèn)為它們也可以出現(xiàn)情感(feeling)。我們常常傾向于使用「內(nèi)部劇場模型」來解釋感知(perception)和情感。比如我說我想打 Gary 的鼻子,讓我們試著把它從內(nèi)部劇場模型的概念中抽象出來。這通常被解釋為一種內(nèi)部情感體驗。然而,這種模型可能并不準(zhǔn)確。實際上,當(dāng)我表達(dá)這種情感時,我的真實意圖是,如果不是因為我的前額葉的抑制作用,我可能真的會采取這樣的行動。因此,所謂的情感,實際上是我們在沒有限制的情況下可能會采取的行動。 事實上,這些感覺并非人類獨有,機器人或其他智能系統(tǒng)也有可能體驗情感。例如,1973 年在愛丁堡,我見過一個機器人表現(xiàn)出情感。這個機器人有兩個抓手,可以在綠色毛氈上組裝玩具汽車,只要將零件分開放置。但如果你把零件堆在一起,由于它的視覺系統(tǒng)不夠好,無法分辨情況,它會顯得困惑并將零件擊散,然后再進(jìn)行組裝。如果這種行為發(fā)生在人類身上,我們可能會認(rèn)為他因為不理解情況而感到惱怒,并因此摧毀了它。 Hellermark:這讓人印象深刻。你之前說過,你將人類和大型語言模型描述為類比機器(analogy machines)。你認(rèn)為你一生中發(fā)現(xiàn)的最有力的類比是什么? Hinton:在我的一生中,一個對我影響很大的、雖然有些牽強的類比是宗教信仰與符號處理之間的相似性。我出生在一個無神論家庭,當(dāng)我還很小的時候,上學(xué)時首次接觸到宗教信仰,對我來說那完全是無稽之談,直到現(xiàn)在我仍然這么認(rèn)為。當(dāng)我了解到符號處理被用來解釋人們的行為時,我覺得這和宗教信仰一樣荒謬。但現(xiàn)在我不再認(rèn)為它完全是無稽之談,因為我確實認(rèn)為我們進(jìn)行了符號處理,只不過我們是通過為這些符號賦予嵌入向量來處理的。但我們實際上是在進(jìn)行符號處理,只是方式與人們原本想象的完全不同。人們曾認(rèn)為符號處理只是簡單地匹配符號,一個符號只有一個屬性:要么與另一個符號相同,要么不相同。我們根本不是這樣做的。我們利用上下文為符號提供嵌入向量,然后利用這些嵌入向量的組件之間的相互作用來進(jìn)行思考。 但谷歌有一位非常優(yōu)秀的研究人員,名叫 Fernando Pereira,他曾表示我們確實有符號推理。我們擁有的唯一符號是自然語言。自然語言是一種符號語言,我們用它進(jìn)行推理。我現(xiàn)在相信了。 對于問題保持懷疑,然后證明它 Hellermark:你已經(jīng)完成了計算機科學(xué)史上一些最有意義的研究。能否向我們介紹一下,例如,如何挑選正確的問題進(jìn)行研究? Hinton:我和我的學(xué)生做了很多最有意義的事情。這主要歸功于與學(xué)生的良好合作以及我挑選優(yōu)秀學(xué)生的能力。這是因為在上世紀(jì) 70 年代、80 年代、90 年代以及進(jìn)入 21 世紀(jì),很少有人研究神經(jīng)網(wǎng)絡(luò)。所以從事神經(jīng)網(wǎng)絡(luò)研究的少數(shù)人能夠挑選到最優(yōu)秀的學(xué)生,還需要依靠一點運氣。 但我挑選研究問題的方式基本上是這樣的:你知道,當(dāng)科學(xué)家談?wù)撍麄兊墓ぷ鞣绞綍r,他們會有一些關(guān)于工作方式的理論,這些理論可能與事實并無太大關(guān)聯(lián)。但我的理論是,我會尋找一個大家都認(rèn)同的觀點,但感覺上似乎有些不對勁的地方。通常是有一種微妙的直覺,覺得某處有問題,只是有一點點感覺不對勁。然后我就會研究這個問題,試圖詳細(xì)解釋為什么它是錯誤的。也許我能用一個小型計算機程序做一個小演示,顯示它的工作方式并不像你可能預(yù)期的那樣。 讓我舉一個例子。大多數(shù)人認(rèn)為,如果你給神經(jīng)網(wǎng)絡(luò)添加噪聲,它的效果會變差。實際上,我們知道如果這樣做,它的泛化能力會更好。這可以通過一個簡單的例子來證明,這就是計算機模擬的好處。你可以展示你原先的想法 —— 添加噪聲會使效果變差,讓一半的神經(jīng)元停止工作會使其效果變差 —— 在短期內(nèi)確實如此。但如果你像這樣訓(xùn)練它,最終它的效果會更好。你可以通過一個小型計算機程序來演示這一點,然后你可以仔細(xì)思考為什么會這樣。這就是我的工作方法:找到一個聽起來可疑的東西,然后研究它,看看你是否能用一個簡單的演示來說明它為什么是錯誤的。 Hinton 想繼續(xù)研究的未解之謎:大腦運作方式 Hellermark:最近,什么東西引起了你的懷疑? Hinton:我們不使用快速權(quán)重,這看起來有些問題。我們只有這兩種時間尺度,這顯然是錯誤的。這與大腦的運作方式完全不同。從長遠(yuǎn)來看,我認(rèn)為我們將需要更多的時間尺度。 Hellermark:如果你現(xiàn)在帶領(lǐng)一組學(xué)生,他們來找你,說到我們之前討論過的問題,你所在的領(lǐng)域中最重要的問題是什么?你會建議他們接下來研究并工作什么?我們談到了推理的時間尺度。你建議的最優(yōu)先的問題是什么? Hinton:對我來說,現(xiàn)在的問題和我過去大約 30 年一直關(guān)注的問題相同,那就是大腦是否進(jìn)行反向傳播?我相信大腦在獲取梯度。如果你沒有獲取到梯度,你的學(xué)習(xí)效果會比獲取到梯度時差很多。但大腦是如何獲取梯度的?它是否在實現(xiàn)某種近似版本的反向傳播,或者是采用了一種完全不同的技術(shù)?這是一個很大的未解之謎。如果我繼續(xù)從事研究,這就是我將要研究的內(nèi)容。 Hellermark:當(dāng)你現(xiàn)在回顧你的職業(yè)生涯時,你在很多事情上都是正確的。但假如當(dāng)時用很少的時間來決定的方向后來被證明是錯誤的? Hinton:這里有兩個單獨的問題。1、你做錯了什么?2、你希望自己少花點時間嗎?我認(rèn)為我對玻爾茲曼機的看法是錯誤的,我很高興我在它上面花了很長時間。關(guān)于如何獲得梯度,有比反向傳播更美麗的理論,它只是普通且合理的,它只是一個章節(jié)。這兩個機制都很聰明,這是一種非常有趣的獲取梯度的方法。我希望大腦是這樣運作的,但我認(rèn)為事實并非如此。 Hellermark:您是否花了很多時間想象系統(tǒng)開發(fā)后會發(fā)生什么?如果我們能讓這些系統(tǒng)運行得很好,我們就可以實現(xiàn)教育的民主化,我們可以讓知識更容易獲得,我們可以解決醫(yī)學(xué)上的一些棘手問題?;蛘邔δ銇碚f更重要的是了解大腦運行的機制? Hinton:是的,我確實覺得科學(xué)家應(yīng)該做那些能幫助社會的事情。但實際上,這不是你做出最好的研究的方式。當(dāng)你的研究被好奇心驅(qū)動時,你才能做出最好的研究。你只需要理解一些事情。更近地,我意識到這些東西可能會造成很多傷害,也會帶來很多好處。我變得更加關(guān)注它們對社會的影響。但這不是動機。我只想知道大腦是如何學(xué)會做事的?那就是我想知道的。而我在試錯的過程中,我們得到了一些不錯的工程結(jié)果。 Hellermark:是的,這對世界來說是一個有益的失敗。如果從可能帶來巨大正面影響的角度來看,你認(rèn)為最有前景的應(yīng)用是什么? Hinton:我認(rèn)為醫(yī)療保健顯然是一個大領(lǐng)域。在醫(yī)療方面,社會可以吸收的數(shù)量幾乎沒有限制。對一個老人來說,他們可能需要全職的五位醫(yī)生。所以當(dāng) AI 在做事上比人類更好時,你會希望你在這些領(lǐng)域出現(xiàn)更多的資源 —— 如果每個人都有三位醫(yī)生,那就太好了。我們將達(dá)到那個地步。 還有新的工程,開發(fā)新材料,例如更好的太陽能電池板、室溫超導(dǎo)或僅僅是理解身體的工作原理。這些都會有很大的影響力。我擔(dān)心的是壞人利用它們做壞事。 Hellermark:你有沒有擔(dān)心過,放慢這個領(lǐng)域的發(fā)展速度也可能會放慢積極的一面? Hinton:當(dāng)然。我認(rèn)為這個領(lǐng)域不太可能放慢速度,部分原因是它是國際性的。如果一個國家放慢速度,其他國家不會放慢速度。之前有一個提議說我們應(yīng)該暫停大模型研究六個月。我沒有簽名,因為我認(rèn)為這永遠(yuǎn)不會發(fā)生。我可能應(yīng)該簽字,因為即使它永遠(yuǎn)不會發(fā)生,它也表明了一個觀點。有時為了表明立場而使用它也是好事。但我不認(rèn)為我們會放慢速度。 Hellermark:你認(rèn)為擁有(ChatGPT)這樣的助手將如何影響 AI 研究過程? Hinton:我認(rèn)為它將使 AI 研究變得更加高效。當(dāng)你有這些助手來幫助你編程,也幫助你思考問題,可能會在方程式上幫助你很多。 挑選學(xué)生,更看重直覺 Hellermark:你有沒有深思熟慮過選擇人才的過程?這對你來說大多是憑直覺的嗎?就像當(dāng) Ilya Sutskever 出現(xiàn)在門口時,你會覺得「這是一個聰明人,讓我們一起工作吧」。 Hinton:對于選擇人才,有時候是很明顯的。在交談后不久,你就能看出他非常聰明。進(jìn)一步交談你會發(fā)現(xiàn),他顯然非常聰明,并且在數(shù)學(xué)上有很好的直覺。所以這是輕而易舉的。 還有一次我在 NIPS 會議上,我們有一個 Poster,有人走過來問我們關(guān)于 Poster 的問題。他問的每個問題都是對我們做錯了什么的深刻洞察。五分鐘后,我給了他一個博士后職位。那個人是 David McKay,他非常聰明。他去世了,這非常令人難過,但他顯然是你想要的那種人。 其他時候就不那么明顯了。我學(xué)到的一件事是,人是不同的。不僅僅有一種類型的好學(xué)生。有些學(xué)生可能不那么有創(chuàng)造力,但從技術(shù)角度來看非常強大,可以讓任何事情都運轉(zhuǎn)起來。還有一些學(xué)生技術(shù)上不那么強,但非常有創(chuàng)造力。當(dāng)然,你想要的是兩者兼?zhèn)涞娜耍悴⒉豢偸悄艿玫?。但我認(rèn)為實際上在實驗室里,你需要各種不同類型的研究生。但我還是跟著我的直覺走,有時你和某人交談,他們真的非常聰明,他們就是能跟得上思路,那就是你想要的人。 Hellermark:你認(rèn)為你對有些人有更好的直覺的原因是什么?或者說你如何培養(yǎng)你的直覺? Hinton:我認(rèn)為部分原因是,他們不會接受無意義的東西。有個獲得糟糕直覺的方法,那就是相信你被告知的一切,那太致命了。你必須能夠... 我認(rèn)為有些人是這樣做的,他們對理解現(xiàn)實有一個完整的框架。當(dāng)有人告訴他們某些事情時,他們會試圖弄清楚這如何適應(yīng)他們的框架。如果不適合,他們就拒絕它。這是一個非常好的策略。 試圖吸收他們被告知的一切的人最終會得到一個非常模糊的框架。他們可以相信一切,那是沒有用的。所以我認(rèn)為實際上擁有一個對世界的堅定觀點,并試圖整合輸入的事實以適應(yīng)你的觀點,這可能會導(dǎo)致深刻的宗教信仰和致命的缺陷等等,像我對玻爾茲曼機的信念,但我認(rèn)為這是正確的。 如果你有可靠的好直覺,你應(yīng)該信任它們。如果你的直覺不好,怎么做都沒用了。所以你不妨信任它們。 全力以赴,用多模態(tài)數(shù)據(jù)訓(xùn)練更大的模型 Hellermark:這是一個非常好的觀點。當(dāng)你看正在進(jìn)行的研究類型時,你認(rèn)為我們是不是在把所有的雞蛋放在一個籃子里。我們是否應(yīng)該在領(lǐng)域內(nèi)更多樣化我們的想法?還是說你認(rèn)為這是最有希望的方向,所以我們應(yīng)該全力以赴? Hinton:我認(rèn)為擁有大型模型并在多模態(tài)數(shù)據(jù)上訓(xùn)練它們,即使只是為了預(yù)測下一個詞,這是一個非常有希望的方法,我們應(yīng)該全力以赴。顯然,現(xiàn)在有很多人在做這件事,還有很多人在做一些看似瘋狂的事情,這是好事。但我認(rèn)為讓大多數(shù)人走這條路是沒問題的,因為它運作得非常好。 Hellermark:你認(rèn)為學(xué)習(xí)算法真的那么重要嗎,還是說規(guī)模更重要?是否有數(shù)百萬種方法可以讓我們達(dá)到人類級別的智能,還是有一些我們需要發(fā)現(xiàn)的特定方法? Hinton:是的,關(guān)于特定的學(xué)習(xí)算法是否非常重要,是否有很多學(xué)習(xí)算法可以完成這項工作,我不知道答案。但在我看來,反向傳播在某種意義上是正確的事情。獲得梯度,這樣你就可以改變參數(shù)讓它工作得更好,這似乎是正確的事情,而且它取得了驚人的成功??赡苓€有其他的學(xué)習(xí)算法,它們以不同的方式獲得相同的梯度,并且也能工作。我認(rèn)為這都是開放的,并且是一個非常有趣的問題,即是否有其他你可以試圖最大化的東西,會給你好的系統(tǒng)。也許大腦正在這樣做,因為它很容易。反向傳播在某種意義上是正確的事情,我們知道這樣做非常有效。 一生最自豪的成就:玻爾茲曼機的學(xué)習(xí)算法 Hellermark:最后一個問題?;仡櫮銕资甑难芯浚阕钭院赖氖鞘裁??是學(xué)生?還是研究? Hinton:玻爾茲曼機的學(xué)習(xí)算法。它非常優(yōu)雅,可能在實踐中沒有希望,但這是我最享受的事情,我與 Terry 一起開發(fā)了它,這是我最自豪的,即使它是錯誤的。 論文鏈接:https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf Hellermark:你現(xiàn)在花最多時間思考的問題是什么? Hinton:在 Netflix 上下個劇該看什么。