美國留學(xué)選擇什么專業(yè)好?留學(xué)美國熱門專業(yè)推薦
2019-06-26
更新時(shí)間:2024-06-11 08:06作者:小樂
大家好,我是皮皮。
1.前言前幾天,我在Python最強(qiáng)王交流群里問了一個(gè)Python網(wǎng)絡(luò)爬蟲問題【哎喲,是豆子~】。讓我們來看看。問題描述:
各位,這個(gè)13位數(shù)字怎么構(gòu)造呢?我找不到圖案。我嘗試在第一頁的URL 中添加數(shù)字,但沒有成功。
1. 網(wǎng)站鏈接:http://quote.eastmoney.com/center/gridlist.html#fund_etf
2、需求:獲取ETF基金數(shù)據(jù)(代碼和名稱兩列)
3、帶有“push”字樣的鏈接存儲(chǔ)的是ETF基金數(shù)據(jù)(兩列數(shù)據(jù),代碼和名稱),但該鏈接有兩個(gè)變化的數(shù)據(jù),一個(gè)是頁碼,另一個(gè)是最后13位。帶有單詞“push”的鏈接示例:http://85 .pusp.eastmoney.com/api/qt/clist/get cb=jQuery1124030358799609457776_1703062450956pn=1pz=20po=1np=1ut=bd1d9ddb04089700cf9c27f6f74262 81fltt=2invt=2 wbp2u=|0|0|0| webfid=f3fs=b:MK0021,b:MK0022,b:MK0023,b:MK0024字段=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f 21、 f23,f24,f25,f22,f11,f62,f128,f136,f115,f152_=1703062450958
2. 實(shí)施過程這里[吳朝建]給出了指導(dǎo):
這里她給出了自己的代碼,從指定的URL(可用)獲取數(shù)據(jù),如下:
導(dǎo)入請(qǐng)求,jsonimport pandas as pdheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0'}url='http://89.pusp.eastmoney.com /api/qt/clist/get cb=jQuery112406545446716331029_1703061927055pn=3pz=20po=1np=1ut=bd1d9ddb04089700cf9c27f6f7426281fltt=2invt=2wbp2u=|0|0|0 |webfid=f3fs=b:MK0021、b:MK0022、b:MK0023、b:MK0024字段=f1、f2、f3 ,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115 ,f152_=1703061927065'resp=requests.get(url,headers=headers,timeout=10).texttable=resp.replace('jQuery112406545446716331029_1703061927055(','').replace(')','').replace(' ;','')dict_data=json.loads(table)df=pd.json_normalize(data=dict_data['data']['diff'])df[['f12','f14']] 但抓取更多頁面數(shù)據(jù)(不成功),代碼如下:
number=[]i=0n=44j=1703054636319while i n: j +=5 number.append(j) i +=1df_all=[]for i,j in zip (range(1,45),number): url=f 'http://85.pusp.eastmoney.com/api/qt/clist/get cb=jQuery1124030358799609457776_1703062450956pn={i}pz=20po=1np=1ut=bd1d9ddb04089700cf9c27f6f7426281flt t=2invt=2wbp2u=|0|0|0|webfid=f3fs=b:MK0021 , b:MK0022,b:MK0023,b:MK0024字段=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25 , f22,f11,f62,f128,f136,f115,f152_={j}' resp=requests.get(url,headers=headers,timeout=10).text table=resp.replace('jQuery112404551488490763843_1703043849281(','' ) .replace(')','').replace(';','') df=pd.json_normalize(data=dict_data['data']['diff']) df_1=df[['f12', ' f14']] df_all.append(df_1)all_table=pd.concat(df_all) 后來【貓藥師Kelly】指出:你覺得很復(fù)雜。豆子想要的數(shù)據(jù)都在第一頁給出了。
代碼運(yùn)行后結(jié)果如下:
url='http://55.pusp.eastmoney.com/api/qt/clist/get cb=jQuery112402201018241113597_1703065790029pn=1pz=20po=1np=1ut=bd1d9ddb04089700cf9c27f6f7426281fl tt=2invt=2wbp2u=|0|0|0|webfid=f3fs=b:MK0021, b:MK0022 ,b:MK0023,b:MK0024字段=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25, f22 ,f11,f62,f128,f136,f115,f152_=1703065790075'headers={ 'Referer': 'http://quote.eastmoney.com/center/gridlist.html', '用戶代理': 'Mozilla/5.0 (Windows NT 10.0 ; Win64;=headers, proxies=proxies) 成功解決了粉絲的問題。
文章最后給大家分享一個(gè)Python網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集工具。
報(bào)名官網(wǎng)報(bào)名地址:https://get.brightdata.com/wxdtkgpzhtj8,即可報(bào)名。
之后會(huì)有郵件驗(yàn)證,您自行驗(yàn)證即可完成注冊(cè)。
注冊(cè)完成后,會(huì)有相應(yīng)的歡迎說明,如下圖:
您可以在下面看到數(shù)據(jù)集和網(wǎng)絡(luò)爬蟲IDE。
還有官網(wǎng)提供的一些知名網(wǎng)站數(shù)據(jù)集,大家可以自己使用。
示例數(shù)據(jù):
量數(shù)據(jù)還提供Web端IDE工具和相關(guān)示例代碼。您可以直接使用模板和相應(yīng)的代碼!您還可以根據(jù)自己的需求定制自己的爬蟲并創(chuàng)建代碼。
輸入相關(guān)規(guī)則后,就可以在線運(yùn)行代碼了:
無論你是需要大規(guī)模采集數(shù)據(jù)、突破網(wǎng)站封鎖,還是管理你的爬蟲代理網(wǎng)絡(luò),我個(gè)人發(fā)現(xiàn)亮數(shù)據(jù)的質(zhì)量都非常好?,F(xiàn)在使用我的鏈接獲得免費(fèi)試用。點(diǎn)擊閱讀原文。嘗試一下!
三、總結(jié)大家好,我是皮皮。本文主要盤點(diǎn)一個(gè)Pandas數(shù)據(jù)處理問題。針對(duì)這個(gè)問題,文章提供了具體的分析和代碼實(shí)現(xiàn),幫助粉絲成功解決問題。
最后感謝粉絲【哎喲,是豆子啦~】提出問題,【貓藥師凱莉】和【吳朝建】出謀劃策,感謝【莫怒】、【円馬蠠成】等人參與學(xué)習(xí)和交流。
【問題補(bǔ)充】溫馨提醒,大家在群里提問時(shí)??梢宰⒁庖韵聨c(diǎn):如果涉及到大文件數(shù)據(jù),可以對(duì)數(shù)據(jù)進(jìn)行脫敏,發(fā)一些demo數(shù)據(jù)(小文件的意思),然后貼一些代碼(可以復(fù)制的那種),記得發(fā)截圖錯(cuò)誤(完整屏幕截圖))。如果代碼不多,直接發(fā)送代碼文本即可。如果代碼超過50行,只需發(fā)送.py文件。