Python大数据编程.pptx

上传人:b****1 文档编号:1387565 上传时间:2022-10-21 格式:PPTX 页数:100 大小:2.11MB
下载 相关 举报
Python大数据编程.pptx_第1页
第1页 / 共100页
Python大数据编程.pptx_第2页
第2页 / 共100页
Python大数据编程.pptx_第3页
第3页 / 共100页
Python大数据编程.pptx_第4页
第4页 / 共100页
Python大数据编程.pptx_第5页
第5页 / 共100页
点击查看更多>>
下载资源
资源描述

Python大数据编程.pptx

《Python大数据编程.pptx》由会员分享,可在线阅读,更多相关《Python大数据编程.pptx(100页珍藏版)》请在冰豆网上搜索。

Python大数据编程.pptx

Python大数据编程,4数据分析,3数据描述,1数据收集,2数据整理,大数据处理过程,2,便捷数据获取,Python大数据编程,用Python获取数据,本地数据如何获取?

文件的打开,读写和关闭文件打开读文件写文件文件关闭,4,用Python获取数据,网络数据如何获取?

抓取网页,解析网页内容,urllib,urllib2,httplib,httplib2,5,Python3中被urllib.request代替,Python3中被http.client代替,yahoo财经数据,http:

/t,利用urllib库获取yahoo财经数据,File#Filename:

dji.pyimporturllibimportredBytes=urllib.request.urlopen(http:

/dStr=dBytes.decode(GBK)#在python3中urllib.read()返回bytes对象而非str,语句功能是将dBytes转换成Strm=re.findall(.*?

)(.*?

).*?

(.*?

).*?

dStr)ifm:

printmprintnprintlen(m)else:

printnotmatch,数据形式,包含多个字符串(dji)AXP,AmericanExpressCompany,86.40BA,TheBoeingCompany,122.24CAT,CaterpillarInc.,99.44CSCO,CiscoSystems,Inc.,23.78CVX,ChevronCorporation,115.91,便捷网络数据,是否能够简单方便并且快速的方式获得雅虎财经上各上市公司股票的历史数据?

File#Filename:

quotes.pyfrommatplotlib.financeimportquotes_historical_yahoofromdatetimeimportdateimportpandasaspdtoday=date.today()start=(today.year-1,today.month,today.day)quotes=quotes_historical_yahoo_ochl(AXP,start,today)df=pd.DataFrame(quotes)printdf,函数目前更新为quotes_historical_yahoo_ochl,便捷网络数据,quotes的内容,日期,收盘价,开盘价,最高价,最低价,成交量,便捷网络数据,自然语言工具包NLTK,古腾堡语料库布朗语料库路透社语料库网络和聊天文本,fromnltk.corpusimportgutenbergimportnltk,printgutenberg.fileids(),uausten-emma.txt,uausten-persuasion.txt,uausten-sense.txt,ubible-kjv.txt,ublake-poems.txt,ubryant-stories.txt,uburgess-busterbrown.txt,ucarroll-alice.txt,uchesterton-ball.txt,uchesterton-brown.txt,uchesterton-thursday.txt,uedgeworth-parents.txt,umelville-moby_dick.txt,umilton-paradise.txt,ushakespeare-caesar.txt,ushakespeare-hamlet.txt,ushakespeare-macbeth.txt,uwhitman-leaves.txttexts=gutenberg.words(shakespeare-hamlet.txt)u,uThe,uTragedie,uof,uHamlet,uby,.,Source,brown,需要先执行nltk.download()下载某一个或多个包,若下,载失败,可以在官网(http:

/www.nltk.org/nltk_data/),单独下载后放到本地python目录的nltk_datacorpora下,数据准备,Python大数据编程,数据形式,30支成分股(dji)股票数据的逻辑结构,美国运通公司(quotes)股票详细数据的逻辑结构,数据整理,quotes数据加属性名File#Filename:

quotesproc.pyfrommatplotlib.financeimportquotes_historical_yahoo_ochlfromdatetimeimportdateimportpandasaspdtoday=date.today()start=(today.year-1,today.month,today.day)quotes=quotes_historical_yahoo_ochl(AXP,start,today)fields=date,open,close,high,low,volumequotesdf=pd.DataFrame(quotes,columns=fields)printquotesdf,数据整理,dji数据:

加属性名,code,AXP,quotes数据:

加属性名,数据整理,用1,2,作为索引,quotesdf=pd.DataFrame(quotes,columns=fields),quotesdf=pd.DataFrame(quotes,index=range(1,len(quotes)+1),columns=fields),数据整理,如果可以直接用date作为索引,quotes的时间能否转换成常规形式(如下图中的效果)?

Sourcefromdatetimeimportdatefirstday=date.fromordinal(735190)lastday=date.fromordinal(735551)firstdaydatetime.date(2013,11,18)lastdaydatetime.date(2014,11,14),时间序列,#Filename:

quotesproc.pyfrommatplotlib.financeimportquotes_historical_yahoo_ochlfromdatetimeimportdatefromdatetimeimportdatetimeimportpandasaspdtoday=date.today()start=(today.year-1,today.month,today.day)quotes=quotes_historical_yahoo_ochl(AXP,start,today)fields=date,open,close,high,low,volume,list1=foriinrange(0,len(quotes):

x=date.fromordinal(int(quotesi0)y=datetime.strftime(x,%Y-%m-%d)list1.append(y),quotesdf=pd.DataFrame(quotes,index=list1,columns=fields),quotesdf=quotesdf.drop(date,axis=1)printquotesdf,File,转换成常规时间,转换成固定格式,删除原date列,创建时间序列,importpandasaspddates=pd.date_range(20141001,periods=7)dates2014-10-01,.,2014-10-07Length:

7,Freq:

D,Timezone:

Noneimportnumpyasnpdates=pd.DataFrame(np.random.randn(7,3),index=dates,columns=list(ABC)datesABC2014-10-011.302600-1.2147081.4116282014-10-02-0.5123432.2774740.4038112014-10-03-0.788498-0.2171610.1732842014-10-041.042167-0.453329-2.1071632014-10-05-1.6280751.6633770.9435822014-10-06-0.0910340.3358842.4554312014-10-07-0.679055-0.8659730.2469707rowsx3columns,Source,数据显示,Python大数据编程,数据显示,djidf,quotesdf,数据显示,显示方式:

显示索引显示列名显示数据的值显示数据描述,数据显示,Sourcequotesdf.indexIndex(u2013-11-18,u2013-11-19,u2013-11-20,u2013-11-21,u2013-11-22,u2013-11-25,u2013-11-26,u2013-11-27,-04-08,u2014-04-09,u2014-04-10,u2014-04-11,.,dtype=object),索引的格式,数据显示,djidf.head(5),code,name,0AXPAmericanExpressCompany,1BA,2CAT,CSCOCVX,TheBoeingCompanyCaterpillarInc.CiscoSystems,Inc.ChevronCorporation,lasttrade90.67128.86101.3426.32116.32,5rowsx3columnsdjidf.tail(5),code,namelasttrade,25UTXUnitedTechnologiesCorporation,26VVisaInc.,27VZ,VerizonCommunicationsInc.,WMTXOM,Wal-MartStoresInc.ExxonMobilCorporation,107.45248.8451.5082.9695.09,5rowsx3columns,Source,df:

5,df25:

显示方式:

显示行专用方式切片,查看道琼斯工业股中前5只和后5只的股票基本信息?

数据选择,Python大数据编程,数据选择,选择方式:

选择行选择列选择区域筛选(条件选择),数据选择,5rowsx5columns,Sourcequotesdfu2013-12-02:

u2013-12-06,选择方式:

选择行切片索引,美国运通公司2013年12月2日至2013年12月6日间的股票交易信息?

数据选择,AXPBACAT,01229XOM,Name:

code,dtype:

objectdjidf.code,01,AXPBA,CAT,229XOM,Name:

code,dtype:

object,Sourcedjidfcode,选择方式:

选择列列名,不支持djidfcode,lasttradedjidfcode:

lasttrade,道琼斯工业股公司代码?

数据选择,选择方式:

行、列标签label(loc),5rowsx3columnsdjidf.loc:

code,lasttradecodelasttrade,0AXP,1BA,90.67128.862CAT101.3429XOM95.09,Sourcedjidf.loc1:

5,道琼斯工业股中标号是1至5的股票信息以及所有股票的代码和最近一次交易价?

30rowsx2columns,数据选择,选择方式:

行和列的区域标签label(

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 成人教育 > 远程网络教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1