美國留學選擇什么專業(yè)好?留學美國熱門專業(yè)推薦
2019-06-26
更新時間:2024-06-10 13:27作者:小樂
Python 受歡迎的原因是什么?為什么我身邊的朋友都開始學習Python?我怎樣才能從頭開始學習這門語言?學習上有哪些困難? DT財經(jīng)特邀紐約數(shù)據(jù)科學學院講師張澤宇為您一一解答。
流行的Python語言
在國外的StackOverflow(DT君注:StackOverflow是一個程序相關的IT技術問答網(wǎng)站,用戶可以在網(wǎng)站上免費提交問題、瀏覽問題、索引相關內(nèi)容)網(wǎng)站上,Python已經(jīng)是增長最快的語言,并將可能成為2020年最流行的語言。
Python最近從Python2過渡到Python3,很多朋友都遇到了問題。這可能是StackOverflow 網(wǎng)站上問題數(shù)量激增的原因之一。
在Github(DT注:GitHub是開源和私有軟件項目的托管平臺)中,JavaScript目前是2014年排名第一的語言,Java排名第二,Python排名第三。隨著Python流行度的增長,現(xiàn)在Python的排名已經(jīng)上升到第二位。
JavaScript 目前是Web 開發(fā)的首選語言。有用的框架很多,但是更新速度很快,新手學習起來比較困難。另一方面,Python也從Python2更新到了Python3。所以兩種語言都有各自的優(yōu)點和缺點。
去年,一則新聞引起關注,其中提到Python語言將被納入高考科目,可見這門語言正在被越來越重視。
在中國,數(shù)據(jù)分析崗位的需求量非常大。作為數(shù)據(jù)分析的第一語言,Python 正變得越來越流行。國內(nèi)很多數(shù)據(jù)比較雜亂,比如醫(yī)學分析報告,是很多患者的檢測結(jié)果拼接在一起的。如果需要從中提取有用的數(shù)據(jù),則需要使用Python來處理它們。
學習Python有哪些難點?如何打破零基礎?
Python是一門“易學但難掌握”的語言。與C++等語言相比,Python的語言非常精簡。有時需要十行C++代碼才能解決一個問題,而Python只需要一行。
那么零基礎知識的同學如何入門呢?澤宇老師推薦了兩門預科課程:完成Codecademy網(wǎng)站和Github網(wǎng)站上的基礎課程后,參加紐約數(shù)據(jù)科學院的訓練營會更加順利。 (DT君注:Codecademy是國外一個學習編程知識的在線網(wǎng)站)Codecademy網(wǎng)站非常適合新手練習。在這個網(wǎng)站上,你可以同時學習和練習,網(wǎng)站會反饋代碼的正確性。
在美國學習代碼有兩個概念:通過編碼學習和保持雙手骯臟。因此,如果你想學習Python,你必須自己敲代碼。為了保證學習效果,訓練營要求學員在Codecademy上通過Python相關練習后才能開始參加訓練營。
另外,GitHub網(wǎng)站上有一個目錄“awesome-python”,里面有很多教程,包括數(shù)據(jù)分析、數(shù)據(jù)可視化、機器學習、自然語言處理、網(wǎng)絡開發(fā)等,涵蓋了Python可以應用的所有領域。
澤宇老師再給大家分享一個額外的小技巧:在Github上搜索“awesome-你想學的語言”,比如“awesome-java”,就可以找到對應的目錄。
不管聽老師講多少,最實際的還是自己完成一個項目。經(jīng)驗是在一個又一個的坑中積累的,訓練營中的每一個通宵都會有回報。
訓練營課程有哪些亮點?
英文原版課件翻譯
訓練營課件采用紐約教育部認證的原版英文課件,中文教學。使用英文原版課件的原因有兩個:一是Python代碼要求是英文的;二是Python代碼需要英文。其次,當學生在StackOverflow和Github上提問時,只有熟悉Python的英文名詞才能理解問題。
純粹的東西,沒有廢話
澤宇老師的教學風格偏向“相聲流”,與早年很受歡迎的新東方英語老師羅永浩的教學風格類似,非常注重與學生的互動。他開玩笑說,他理想的教學方式是直播,學生可以隨時發(fā)帖提問,還可以雙擊“666”為他發(fā)射火箭。
訓練營中的所有課程對項目都有幫助,不會浪費學員的寶貴時間。學生還可以訪問紐約數(shù)據(jù)科學院網(wǎng)站,瀏覽過去學生完成的數(shù)百個項目,其中充滿了有用的信息。
有同學可能會問,課程這么多亮點,學完你確定能找到工作嗎?我給大家講一個小故事:羅永浩老師在給老羅進行英語培訓的時候,說中國的英語培訓主要有三大流派:第一是“魔派”,比如魔法速記,還有千人計劃。神奇英語記憶法;是“N天搞定”學校,意味著17天掌握GRE詞匯,17天突破托福作文;第三所學校是“不不不學?!?,你不需要背英語單詞,你也不再需要背英語單詞。但紐約數(shù)據(jù)科學院不會提供這種“十天學會Python”的課程。
訓練營的一位畢業(yè)生給出了這樣的評價:“訓練營就像一個放大鏡,比如說十倍放大鏡,你投資一塊錢,得到十塊錢,你投資十塊錢,得到一百塊錢?!彼?。學生投入的時間和精力越多,自然獲得的回報就越多。
過去的學生項目
澤宇老師給大家分享了一些往屆學員的項目。
其中,同學們從招聘網(wǎng)站Glassdoor上爬取了美國各大城市的招聘信息,然后進行了簡單的薪資分析??梢钥闯觯又莺褪ズ稳墓べY高于紐約。不過加州的稅率和房租都會比紐約高,所以你最終拿到的工資可能不會比紐約高。在這種情況下,老師會建議學生抓一些生活成本、稅率等方面的統(tǒng)計數(shù)據(jù),綜合分析哪個城市最適合數(shù)據(jù)科學家找工作。
在這個項目中,學生還進行了詞頻分析??梢钥闯?,各大科技公司的主要產(chǎn)品和語言是,例如蘋果的關鍵詞是Siri和機器學習,亞馬遜的關鍵詞是AWS云計算服務,F(xiàn)acebook的主要語言是PHP,谷歌的主要關鍵詞是Cloud和Android,微軟的關鍵詞是Cloud和Android。專注于Azure。
有同學可能會問:在公司工作會用到網(wǎng)絡爬蟲嗎?公司沒有內(nèi)部數(shù)據(jù)和現(xiàn)成的數(shù)據(jù)嗎?事實上,好的數(shù)據(jù)要花很多錢才能買到。
舉個具體的例子,上一期訓練營與美國最大的制鎖公司Masterlock合作。他們提供了數(shù)據(jù)和要求,訓練營的學員們被分成小組,為他們提供一些咨詢服務,讓學員們在畢業(yè)前能夠取得聯(lián)系。來自大公司的真實數(shù)據(jù),了解大公司對數(shù)據(jù)科學工作的要求。
Masterlock非常關注其對各個電商公司的評價,希望訓練營的學員搭建一個爬蟲軟件,每天抓取亞馬遜過去24小時的新評論。對于捕獲到的新評論,首先要對數(shù)據(jù)進行清洗,然后使用一些自然語言處理技術來處理,比如深度學習中的遞歸神經(jīng)網(wǎng)絡技術。
最后,生成的報告告訴Masterlock這次評估的內(nèi)容是什么,比如鎖的顏色、安全性等。使用爬蟲軟件代替人類閱讀評論,正在利用數(shù)據(jù)科學和機器學習來改變企業(yè)處理數(shù)據(jù)的方式。
Python更高級的應用
學會使用Python進行數(shù)據(jù)分析后,可以參加Kaggle數(shù)據(jù)分析比賽。 (DT注:Kaggle是一個數(shù)據(jù)分析競賽平臺:企業(yè)或研究人員可以在Kaggle上發(fā)布數(shù)據(jù)、問題描述和預期指標,以競賽的形式收集數(shù)據(jù)科學家的解決方案)
比如,澤宇老師正在參加桑坦德銀行的客戶價值預測比賽,獎金為6萬美元。這次競賽將解決一個現(xiàn)實問題,其中敏感數(shù)據(jù)的含義不會被公開,從而不會出現(xiàn)數(shù)據(jù)泄露的問題。
Kaggle 最近被谷歌收購了?,F(xiàn)在該網(wǎng)站每年都會推出近百個競賽,其中一些競賽是關于預測兩種產(chǎn)品之間的相似性,或者預測哪條生產(chǎn)線發(fā)生事故的概率更大。比賽中使用的數(shù)據(jù)包括數(shù)字、文字和圖片相關的數(shù)據(jù)?,F(xiàn)在有很多中國學生參加上述比賽,在排行榜上可以看到很多中國ID。
紐約數(shù)據(jù)訓練營的學生在Kaggle比賽中取得了非常好的成績,獲得了多枚銀牌和銅牌。澤宇老師還獲得過一些金牌和銀牌。在Kaggle 上獲獎對以后找工作很有幫助,參與項目更是為你的簡歷加分。
Python也可以用于圖像識別。例如,在下圖中,識別圖片是狗還是貓。圖像識別的另一個應用是無人駕駛汽車。
上層建筑必須有基礎。只有打下了堅實的基礎,我們才有能力去挑戰(zhàn)更艱巨的任務。
注:以上內(nèi)容根據(jù)張澤宇在數(shù)據(jù)人在線實驗室的演講整理。圖片來自其現(xiàn)場PPT。本文僅代表作者觀點,不代表DT財經(jīng)立場
編輯|陳靜[email protected]
標題圖片|扎古海洛
期待數(shù)據(jù)英雄更多的數(shù)據(jù)分享、話題討論、福利發(fā)放嗎?您可以通過公眾號DT數(shù)據(jù)英雄(ID:DTdatahero)后臺回復“數(shù)據(jù)社區(qū)”申請加入DT數(shù)據(jù)社區(qū)。
數(shù)據(jù)人派
張澤宇是紐約數(shù)據(jù)科學研究所的數(shù)據(jù)科學家。主要負責在紐約數(shù)據(jù)科學研究所訓練營教授Python、機器學習、深度學習課程。他擁有上海交通大學工程學士學位和紐約大學電氣工程碩士學位。