红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

專訪喬治亞理工終身教授藍光輝:開創(chuàng)隨機加速梯度法助力深度學習

更新時間:2024-08-13 08:15作者:小樂

機器之心原版

作者:李澤南

蘭光輝教授畢業(yè)于佐治亞理工學院,獲博士學位。目前在佐治亞理工學院H. Milton Stewart 工業(yè)與系統(tǒng)工程學院任教。他還擔任《Computational Optimization and Applications》、Top Journal of Optimization Algorithms 《Mathematical Programming》 和《SIAM Journal on Optimization》 的副主編。是國際機器學習和深度學習算法領域的頂級專家。蘭光輝教授專注于計算機科學領域的基礎研究。他的研究領域包括:隨機優(yōu)化和非線性規(guī)劃的理論、算法和應用,包括隨機梯度下降和加速隨機梯度下降,以及隨機凸和非凸問題的解決方案。優(yōu)化問題。

近日,機器之心對這位頂尖學者進行了專訪,談論了他的科研生涯,“Geoffrey Hinton 在隨機加速梯度方法方面的開創(chuàng)性進展啟發(fā)了他訓練深度學習模型”,并談到了優(yōu)化算法在業(yè)界的作用。應用程序中的展望。

優(yōu)化算法研究

機器心:蘭教授,您能先介紹一下您最近的研究嗎?

蘭光輝:我最近主要發(fā)布了兩部作品。一是去中心化隨機優(yōu)化和機器學習(參見論文:去中心化和隨機優(yōu)化的高效通信算法)。主要用于解決數(shù)據(jù)分散在網(wǎng)絡上、無法集中處理的機器學習和統(tǒng)計推理問題。我們設計的算法可以最大限度地減少網(wǎng)絡上的通信傳輸量,同時保證其達到類似于集中式處理的隨機優(yōu)化或機器學習效果。

另一項工作是關(guān)于多階段隨機優(yōu)化和決策(參見論文:多階段隨機優(yōu)化的動態(tài)隨機近似)。主要用于支持隨機環(huán)境下的動態(tài)決策,例如金融領域如何確定一段時間內(nèi)的最優(yōu)資產(chǎn)配置等。我們設計新的算法來保證多階段決策的最優(yōu)解- 制作的同時確保需要收集或存儲的數(shù)據(jù)(樣本)量最少。

機器之心: 蘭老師關(guān)于深度學習優(yōu)化的課程非常好??梢越榻B給我嗎?

蘭光輝:我主要講一些基本的成果。很多人對深度學習感興趣,但可能對算法了解不多。我的這個課程就是告訴大家算法的真相以及它能解決什么樣的問題。那么深度學習模型能解決到什么程度呢?理論上我們還沒有完全理解深度學習,我們應該更深入地研究這些不太理解的領域。

我們將深度學習(包括機器學習)視為一種隨機優(yōu)化模型,將大量數(shù)據(jù)視為隨機向量的樣本,然后根據(jù)樣本解決預測未來的隨機優(yōu)化問題。我們需要設計理論上最優(yōu)的好算法來解決隨機優(yōu)化模型。

我的課程主要圍繞我和我的團隊在隨機優(yōu)化和機器學習算法方面的一些研究工作。當我還是一名博士生時,我就開始研究和設計一系列這樣的算法。之前的一些算法,比如經(jīng)典的隨機梯度法,只針對一些非常狹窄(比如強凸)的問題,在實際應用中不穩(wěn)定。因此,在我們工作之前,大多數(shù)研究人員認為隨機梯度算法對于解決隨機優(yōu)化問題并不可靠,因此基本上放棄了此類算法。

博士期間做的第一個工作就是在導師Arkadi Nemirovski(現(xiàn)代凸優(yōu)化理論創(chuàng)始人、美國科學院院士)的指導下研究魯棒隨機梯度法(參見論文:Robust Stochastic Approximation for Stochastic Planning)工程)。我們研究的隨機圖像下降方法后來成為機器學習的驅(qū)動力之一。同時,我獨立研究了一種新型的隨機加速梯度算法,它是Nesterov加速梯度法的隨機版本(參見論文:An Optimal Method for Stochastic Composite Optimization)。在此之前,雖然大家都知道加速梯度法對于解決確定性問題非常簡單有效,但沒有人(包括涅斯特羅夫本人)能夠證明這種方法可以用來解決隨機優(yōu)化問題。這些新的隨機算法的出現(xiàn)從根本上改變了大家對隨機梯度方法的理解,使我們能夠非常穩(wěn)健有效地解決隨機優(yōu)化問題。這兩部作品基本上是我博士論文的主體部分。我的博士論文還包括關(guān)于增強拉格朗日經(jīng)典算法的復雜性分析的工作。

我關(guān)于隨機加速梯度法的論文后來榮幸地獲得了三個獎項,INFORMS計算學會最佳學生論文一等獎,INFORMS喬治·尼克爾森獎二等獎,幾年后,我的博士論文獲得了Informs計算學會的Finalist數(shù)學優(yōu)化協(xié)會塔克獎。

當時,我們并沒有完全意識到它們后來在機器學習中的巨大用途,盡管從數(shù)學角度來看我們已經(jīng)有了很好的理論和實驗結(jié)果。我在出國讀博士之前做了三年的軟件工程師,學到的編程經(jīng)驗幫助我更好地實現(xiàn)這些算法。在我們實現(xiàn)這些算法之后,我們發(fā)現(xiàn)它們比以前解決隨機優(yōu)化問題的工具快了幾十倍。那時,我們感到充滿希望和鼓舞。一群機器學習研究人員也非常聰明??吹竭@一進展后,他們很快使用這些算法來解決大規(guī)模機器學習問題,并發(fā)現(xiàn)它們在數(shù)據(jù)量很大的情況下非常有用。

我前期研究的算法比較偏向于隨機優(yōu)化中的凸問題。但2009年畢業(yè)后,我意識到很多隨機優(yōu)化問題不是凸的,而是非凸的。所以在2012年左右,我做了一個隨機梯度法來解決非凸問題,這在當時也是一個比較困難的問題。由此,本文很榮幸獲得INFORMS青年教授論文第一名(參見論文:Stochastic First and Zeroth-orderMethods for Nonconvex Stochastic Planning)。

后來,我們做了一系列工作來完善解決非凸問題的隨機梯度法的理論體系(參見論文:Accelerated GradientMethods for Nonconvex Nonlinear and Stochastic Planning)?,F(xiàn)在深度學習出現(xiàn)了,正好是一個非凸問題,所以上面的文章就變得重要了。

目前業(yè)界用于訓練大規(guī)模機器學習模型的隨機梯度方法主要基于魯棒性和加速性,尤其是在大量優(yōu)秀研究人員對這些基礎算法進行改進之后。值得注意的是,Geoffrey Hinton(深度學習巨頭之一)在2013年的一篇文章(參見論文:論深度學習中初始化和動量的重要性)中建議使用隨機加速梯度方法來訓練深度學習模型,從而極大的促進了該類算法的應用。該算法現(xiàn)在稱為隨機動量梯度,基本上是我之前研究的隨機加速梯度方法的變體。

該領域仍在快速發(fā)展,新的研究成果將不斷發(fā)布。因此,未來的課程內(nèi)容將會更加豐富。

Heart of the Machine:加州大學伯克利分校提出AdaGrad的論文(參見論文:Adaptive SubgradientMethods for Online Learning and Stochastic Optimization)也引用了您的研究成果?

蘭光輝:是的,它是在我們原來的隨機圖像下降法(鏡像下降隨機近似)的基礎上進行的改進(參見論文:Robust stochastic approximation method to stochasticprogramming)。在機器學習領域,論文提交和發(fā)表速度很快,但在基礎研究領域,發(fā)表研究普遍存在延遲。我們這個領域一般都會延遲兩年。我們的論文于2007年在線發(fā)表,并于2009年正式發(fā)表在SIAM Journal on Optimization上。John Duchi(AdaGrad論文的第一作者)和他們的論文于2011年左右被ICML和Journal of Machine Learning Research接收。

我博士期間做的隨機加速梯度法(見上一篇文章)于2008年發(fā)表在網(wǎng)上(www.optimization-online.org)。文章于2010年被Mathematical Planning接受,直到2012年才正式發(fā)表。

現(xiàn)在作為這些雜志的副主編,我希望盡我所能,加快這篇文章的發(fā)表進程。同時,我們希望通過機器之心,讓每個人,尤其是初學者,以及優(yōu)化和機器學習應用工作者,能夠意識到不同學術(shù)圈之間的“文化”差異。機器(包括深度)學習研究人員非常重視文章的實用性和時效性,因此發(fā)表了大量的會議文章(如ICML和NIPS等)。當然,一些頂級會議期刊也很難選擇。最優(yōu)化、統(tǒng)計領域的基礎研究工作者往往更注重文章成果的突破性、理論推導的嚴密性和完整性,會注重在頂級期刊(如《上述MathematicalProgramming、SIAMJournalonOptimization和AnnalsofStatistics等)。由于前者周期短,易于閱讀、使用和跟進,這些會議文章往往被引用較多,而后者則因其所謂的“高水平”和高尚的品格,也會導致被引用。金額相對較小。但我們不能因此而貶低基礎研究工作的價值。事實上,這些基礎研究工作往往會推動甚至引導該領域的發(fā)展,值得更多關(guān)注。單純注重文章的被引用和熱度而忽視作品本身的內(nèi)在價值,會導致不良的學術(shù)生態(tài)環(huán)境,甚至對下一代研究人才的培養(yǎng)產(chǎn)生負面影響。

機器之心:我們了解到您對梯度滑動有非常有趣的研究。您能給我們介紹一下嗎?

蘭光輝:是的,這個很有趣。這應該是我最新的研究方向之一。

在數(shù)據(jù)處理中,一般問題有兩個要求: 1、要求模型與數(shù)據(jù)(data)很好地匹配(fit); 2、要求模型的參數(shù)具有一些特征,如稀疏性或群體稀疏性。等待。正是由于這些要求,求解模型變得非常緩慢。非常緩慢地求解模型意味著多次訪問數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,訪問數(shù)據(jù)是一項相對昂貴的任務,尤其是當涉及矩陣和向量乘法時,速度會非常慢。

我想知道我們是否可以避免數(shù)據(jù)或矩陣和向量乘法的運算,而不影響解決整個問題的速度。我發(fā)現(xiàn)理論上證明這是可以做到的,即梯度滑動,就是在一個梯度方向上走很多步,而不需要重新計算梯度。

我們在該領域發(fā)表了兩篇論文,即《數(shù)學編程》和《Siam Journal on Optimization》。

最近的一些工作,比如前面提到的如何在去中心化隨機優(yōu)化和機器學習中減少通信量,也深受這個思想的影響。

機器之心:你對《Accelerated Algorithms for a Class of Saddle Point problems and Variational Inequalities》也有研究

蘭光輝:這個工作就是如何將上述過去只能用于解決簡單優(yōu)化問題的加速算法擴展到鞍點問題和變分方程(變分不等式)。這些問題比優(yōu)化問題更廣泛,盡管它肯定不如優(yōu)化問題那么直觀。例如,在優(yōu)化中最小化目標函數(shù)相當于找到鞍點。然而,鞍點問題和變分方程不僅涵蓋優(yōu)化,還涵蓋均衡和博弈論中的一些問題。這些問題的解決方案與優(yōu)化問題的解決方案有很多共同點。我們的工作是擴展優(yōu)化算法的一些最新成果來解決這些鞍點和變分方程問題。

我也做了一些行業(yè)研究。例如,我們將加速算法應用于大規(guī)模圖像重建。我們現(xiàn)在還與上海財經(jīng)大學合作開發(fā)可用于工業(yè)界的大規(guī)模優(yōu)化和機器學習問題的求解器。因為上海財經(jīng)大學的幾位老師有自己創(chuàng)業(yè)公司的打算,所以我們的研發(fā)成果應該有機會進一步直接應用到不同的行業(yè),比如物流、電商、金融等。

機器心:二階算法有哪些值得追求的方向?

蘭光輝:我做的比較多的是一階算法和隨機算法?,F(xiàn)在對于是否應該使用二階算法也存在意見。不同的人會有不同的看法。其實2005年之前大家就一直在做二階算法。1984年到1995年間,甚至2000年左右,一群優(yōu)化領域的頂尖科學家做了很多二階算法。中國科學家中,像葉寅予教授這樣的人在這些領域做出了非常突出的貢獻。

至于現(xiàn)在是否有必要做二階算法,可能對于某些問題是有必要的。一些以前沒有探索過的問題可以進一步探索,也有一些開放性問題值得繼續(xù)研究。最近這些領域也出現(xiàn)了一些有趣的進展。

機器之心:您認為二階算法在機器學習中的潛力是什么?

蘭光輝:二階算法的優(yōu)點是可以獲得高精度的解,但一般來說,機器學習并不需要高精度的解。

因為我個人喜歡探索新的研究領域。所以可能不太關(guān)注二階算法,但我相信會有人去做,因為總會有新的東西。我可能會做更多原本認為很難但我們無法接觸或理解的問題?,F(xiàn)在隨著新思想的出現(xiàn)和計算平臺的改進,這些難題可能會變得不那么困難。就像隨機優(yōu)化一樣,以前很難,但是因為新思想、新計算平臺的出現(xiàn),現(xiàn)在沒那么難了。所以我可能會做一些這樣的工作,這在機器學習方面也可能有很大的潛力。

Heart of the Machine:機器學習有很多思想流派,比如優(yōu)化,還有Bass 的統(tǒng)計觀點。你屬于哪一類?

蘭光輝:我所在的方向其實是同時從兩個角度看問題,比如隨機優(yōu)化,它完全把統(tǒng)計和優(yōu)化結(jié)合起來。

比如我以前的兩位老師,一位是前面提到的Arkadi Nemirovski,他既是優(yōu)化領域的領軍人物,也是非參數(shù)統(tǒng)計的創(chuàng)始人之一。我的另一位老師亞歷山大·夏皮羅(Alexander Shapiro)既是一位統(tǒng)計學家,也是優(yōu)化領域的頂尖學者。因此,在基礎研究工作中,優(yōu)化和統(tǒng)計之間不存在競爭關(guān)系,盡管我們不一定從貝葉斯角度描述統(tǒng)計特性。我們將使用統(tǒng)計語言和優(yōu)化語言來描述問題的本質(zhì)及其解決方案,因此該領域稱為隨機優(yōu)化。

或許在網(wǎng)上的一些科普讀物中,有些人將優(yōu)化局限于解決確定性問題(比如所謂的經(jīng)驗風險最小化),這是不準確的。在優(yōu)化領域,特別是隨機優(yōu)化領域,我們不僅會研究如何設計有效的算法來求解機器學習模型,還會研究求解這個模型后得到的解會滿足哪些統(tǒng)計性質(zhì)。

優(yōu)化算法和機器學習

機器之心:當你剛開始研究這些算法時,機器學習和深度學習還沒有那么流行。后來深度學習開始流行。您與這個領域的交流多嗎?

蘭光輝:其實美國之間的交流還是比較頻繁的。當我研究前兩個算法時,一群機器學習人員已經(jīng)聯(lián)系了我。例如,伯克利的一些研究隨機優(yōu)化算法的人會聯(lián)系我討論算法本身的一些問題。別說深度學習,我覺得深度學習的理論還不清楚。

此外,我們還將研究機器學習問題。機器學習研究人員也在研究優(yōu)化算法,兩個領域正在融合。我也覺得美國有一批非常優(yōu)秀的人才,包括中國、印度和美國的年輕人,他們在不斷地產(chǎn)出新的成果。你們互相追逐,非常非?;钴S。

機器之心:您能介紹一下您的工作對于當前機器學習的意義和價值嗎?

蘭光輝:我早期做的一些工作,比如隨機加速梯度算法(或者隨機動量梯度法),現(xiàn)在更多地用在機器學習中。由于加速梯度算法需要極大的步長,以前人們認為這類算法不可能解決隨機問題,更不用說非光滑問題了。

我是第一個嘗試并證明這個算法不僅可以用來解決光滑問題,也可以用來解決隨機問題,甚至可以用來解決非光滑問題。后來我們也證明了它可以解決非凸問題。更重要的是,我們證明了無論解決什么問題,理論上都是最優(yōu)的(理論上收斂速度無法提高)。

這些工作,包括我們現(xiàn)在獲得的其他研究成果,為機器學習提供了一些有效的算法工具。因為以前如何加速機器學習模型的訓練是一個瓶頸,現(xiàn)在可能會變得更加有效。當然,機器學習不僅僅是我們這邊推動的。它是在計算架構(gòu)、深度學習、分布式計算等多個領域科學家的共同努力下取得的進步,各司其職。我們只做算法。工作的核心方面。

個人研究方法

機器之心:您還獲得了NSF 職業(yè)獎。獲獎后對您的研究方向有什么影響嗎?

蘭光輝:NSF CAREER Award主要用于獎勵年輕教授未來(五年)的科研計劃。我在2012年7月寫了這個提案,英文標題是Reduced-orderMethodsforBigDataChallengesinNonlinearandStochasticOptimization。這是關(guān)于如何設計新算法來處理大數(shù)據(jù)的非線性和隨機優(yōu)化。挑戰(zhàn)。然后我在2013年1月獲得了這個獎項。

2012年,大數(shù)據(jù)這個名字可能剛剛問世。我感覺美國國家自然科學基金會認可我的科研判斷,這當然為我提供了良好的榮譽和職業(yè)發(fā)展平臺。

機器心:您曾經(jīng)提到過“研究人員的責任”。您能解釋一下您對此的解釋嗎?

蘭光輝:我自己就是一名研究員,研究員必須清楚自己的研究職責是什么。研究人員不能只是推廣一個概念而不了解其更深層的含義,例如它何時有效、何時無效、為什么有效以及無效后的解決方案。

如果我們不理解這些深層次的問題,我們最終就會像過去的機器學習或人工智能一樣回到這個循環(huán)。因此,為了避免這種情況,必須有一群致力于理論的人。更多的人會做理論、算法,并理解“為什么”。

機器之心:可能中國有這個想法的人還是太少了。許多人正在研究什么是機器學習以及如何使用它。

蘭光輝:是的,另一方面,我覺得中國學生的背景是挺好的,但是社會可能需要培養(yǎng)一種氛圍,讓研究人員和年輕學生覺得做這些事情是有價值的,或者說,從一個角度來說,做這些事情是有價值的。從精神上、媒體報道乃至物質(zhì)利益等各個方面,我都覺得做這些工作是有前途的。

為什么美國會有這樣一群人?一個很重要的方面是美國人選擇他們喜歡的職業(yè)。他們不只是追隨流行的那一種。比如,機器學習流行了,就做機器學習,互聯(lián)網(wǎng)流行了,就做網(wǎng)紅。

因此,我認為應該鼓勵研究者去追求自己喜歡的方向,無論是理論還是應用。正是因為美國有兩批研究人員,做理論的和做應用的相互促進,所以美國在科學研究上始終走在前面。

機器之心:蘭教授好像在2016年初從佛羅里達州回到了佐治亞理工學院(你的母校),原因是什么?

蘭光輝:我更多的是從研究的角度來思考。佛羅里達州也很好,但首先,佐治亞理工學院是我的母校;第二,佐治亞理工學院擁有一批在優(yōu)化和機器學習領域非常優(yōu)秀的人才,都是世界頂尖的人才,有著深厚的理論基礎;而且,我還可以找到最優(yōu)秀的學生,我們一起研究。

到目前為止,似乎這對于我自己的職業(yè)生涯來說是值得的。

機器之心:你覺得學習和理解你所從事的技術(shù)對數(shù)學的要求高嗎?

蘭光輝:總體來說,我認為中國大學生的數(shù)學水平還是不錯的。只要在大學里認真學過基礎數(shù)學課程,比如數(shù)學分析、線性代數(shù)、統(tǒng)計和概率等基礎知識,我想應該就夠了。

機器心:正如您所說,國內(nèi)該領域的研究團隊也在不斷壯大。一些中國學生可能對攻讀博士學位更感興趣。作為一名教師,您對博士學位有什么要求嗎?

蘭光輝:如果說中國學生有哪些需要提高的地方,我覺得他們首先要做的就是在大學甚至更早的時候就知道研究是什么。因為很多學生可能只是上課,并不知道什么是研究。例如,美國學生從小學開始就會自己尋找相關(guān)信息并提出研究想法。

當然,中國也有偉大的人。比如我去年在北大發(fā)現(xiàn),北大很早就允許本科生參與研究工作。我覺得這個非常好。

其次,一般來說,中國學生可能需要提高英語寫作能力??赡苁且驗閷W生在大學學習期間的考試主要以考試為主,比較簡單。引入學生寫作訓練(如研究報告、論文等)是解決這一問題的一種方法。

機器的心臟:佐治亞理工學院的科學和工程學科非常強大。它和MIT、CMU、Stanford最大的區(qū)別是什么?比如學校的氣質(zhì)、風格。

蘭光輝:我覺得這些學校都很好,但是又各有不同。我認為佐治亞理工學院非常保守。有時,當我們?nèi)〉檬澜缫涣鞯某晒麜r,我們只是謙虛地說出來。這可能符合美國南方人的特點(笑)。我認為像斯坦福大學和麻省理工學院這樣的公司也敢說他們也有這個資本。

為您推薦

喬治華盛頓大學申請條件,美國喬治華盛頓大學留學

喬治華盛頓大學申請條件本科申請條件喬治華盛頓大學的本科申請條件主要包括以下幾個方面:學術(shù)成績:申請者需要高中畢業(yè)或完成大一課程,均分不得低于80分。對于英語非母語的申請者來說,托福總分至少要在90分以上,或者提供雅思分數(shù),總分要求不低于6.

2024-08-13 08:16

喬治華盛頓大學國內(nèi)認可度高嗎(喬治華盛頓大學學費)

喬治華盛頓大學國內(nèi)認可度喬治華盛頓大學是一所位于美國首都華盛頓特區(qū)的著名私立綜合性大學,其國內(nèi)認可度可以從以下幾個方面進行分析:1. 教育部認可度喬治華盛頓大學的學歷是受到中國教育部認可的,可以辦理學歷認證,不會出現(xiàn)學歷不受認可的現(xiàn)象。這意

2024-08-13 08:16

喬治華盛頓大學世界排名 喬治華盛頓大學世界排名usnews

喬治華盛頓大學世界排名喬治華盛頓大學(The George Washington University)是一所位于美國首都華盛頓特區(qū)的世界著名私立綜合性大學。其世界排名根據(jù)不同的年份和排名機構(gòu)有所差異。以下是喬治華盛頓大學近年來的部分世界排

2024-08-13 08:15

中國留學生開扒佐治亞理工學院!那些你不知道的秘密(佐治尼亞理工大學在哪)

佐治亞理工學院(Georgia Institute of Technology),又譯喬治亞理工學院,簡稱Gatech,也被簡稱為Georgia Tech,1885 年建校,是美國頂尖的理工學院。學校園面積 400 英畝,擁有 143 座建

2024-08-13 08:14

瞭望 | “爭奪認知”的殖民戰(zhàn)爭

與傳統(tǒng)戰(zhàn)爭受到地理邊界和戰(zhàn)爭規(guī)則限制、偏重于從物理維度來實現(xiàn)戰(zhàn)爭目標不同,認知戰(zhàn)在信息技術(shù)的加持下,可以很大程度上使戰(zhàn)爭由非常態(tài)變?yōu)椤俺B(tài)”“認知操作可以是擴張的工具,甚至可以通過改變目標群體的觀點、價值觀和利益來實現(xiàn)特定的殖民化。這種控制

2024-08-13 08:14

培養(yǎng)出阿伯格的“美巡賽大學”是什么?中國球員如何受益于此?

北京時間本周一,第88屆美國大師賽在奧古斯塔國家俱樂部落下帷幕,除了斯科蒂·舍弗勒的統(tǒng)治級表現(xiàn)被津津樂道之外,盧德維格·阿伯格在大滿貫首秀中單獨第二的成績,也讓人驚艷。從德克薩斯理工大學的在校生,到萊德杯歐洲隊隊員,再到美巡賽冠軍,最后來到

2024-08-13 08:13

加載中...