ImageVerifierCode 换一换
格式:DOCX , 页数:22 ,大小:459.87KB ,
资源ID:29443789      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/29443789.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘r语言总结报告.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据挖掘r语言总结报告.docx

1、数据挖掘r语言总结报告成绩:总 结 报 告 课程名称: 数据挖掘R语言 任课教师: 姓 名: 专 业: 计算机科学与技术 班 级: 学 号: 计算机科学与技术学院 2018 年 6 月 19 日1、数据预处理针对不同分析目标,选择合适的字段,并将字段值处理成适于分析的形式。必要时还需对原数据集进行统计变换后形成易于分析的形式。为每条数据添加字段:所属地区。根据下图中划分的美国四大地区,将每条数据中表示的案件发生地在该字段上划分为东北部、中西部、南部和西部四个值。首先导入数据:gundata-read.csv(d:/gun.csv,sep = ,stringsAsFactors = FALSE,

2、header = TRUE,quote=”)然后将需要的字段取出来,在这里取出了一下几个字段:标号字段名含义数据类型1incident_id犯罪记录idnumeric2date犯罪日期dateTime3state犯罪案件所在的州string4city_or_county犯罪案件所在的市string6n_killed死亡人数numeric7n_injured受伤人数numeric15latitude犯案位置的纬度numeric17longitude犯案位置的经度numericgundata,c(incident_id,date,state,city_or_county,n_killed,n_in

3、jured,congressional_district,latitude,longitude,state_house_district,state_senate_district)gd - subset(gundata,select=c(incident_id,date,state,city_or_county,n_killed,n_injured,congressional_district,latitude,longitude,state_house_district,state_senate_district)然后根据州字段将所有数据划分为四个地区阿拉巴马州 Alabama阿拉斯加州

4、Alaska 亚利桑那州 Arizona阿肯色州 Arkansas加利福尼亚州 California科罗拉多州 Colorado哥伦比亚特区Columbia康涅狄格州 Connecticut特拉华州 Delaware佛罗里达州 Florida佐治亚州 Georgia夏威夷州 Hawaii爱达荷州 Idaho伊利诺州 Illinois印弟安纳州 Indiana爱荷华州 Iowa堪萨斯州 Kansas肯塔基州 Kentucky路易斯安那州 Louisiana缅因州 Maine马里兰州 Maryland麻塞诸塞州 Massachusetts密歇根州 Michigan明尼苏达州 Minnesota密西

5、西比州 Mississippi密苏里州 Missour蒙大拿州 Montana内布拉斯加州 Nebraska内华达州 Nevada新罕布希尔州 New Hampshire新泽西州 New Jersey新墨西哥州 New Mexico纽约州 New York北卡罗来纳州 North Carolina北达科他州 North Dakota俄亥俄州 Ohio奥克拉荷马州 Oklahoma俄勒冈州 Oregon宾西法尼亚州 Pennsyivania罗德岛州 Rhode Island南卡罗来纳州 South Carolina南达科他州 South Dakota田纳西州 Tennessee德克萨斯州 Tex

6、as犹他州 Utah佛蒙特州 Vermont弗吉尼亚州 Virgina华盛顿州 Washington西佛吉尼亚州 West Virginia威斯康辛州 Wisconsin怀俄明州 Wyoming东北部Maine,New Hampshire,Vermont,Massachusetts,Rhode Island,Connecticut,New York,Pennsyivania,New Jersey中西部Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,North Dakota,South Dakota,Nebraska,Kansas,Minneso

7、ta,Iowa南部Delaware,Maryland,District of Columbia,Virgina,West Virginia,North Carolina,South Carolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklahoma,Texas,Arkansas,Louisiana西部Iowa,Montana,Wyoming,Nevada,Utah,Colorado,New Mexico,Arizona,Alaska,Washington,Oregon,California,Hawaiifor (i

8、in 1:length(gd,1)if (gdi,3=Maine|gdi,3=New Hampshire|gdi,3=Vermont|gdi,3=Massachusetts|gdi,3=Rhode Island|gdi,3=Connecticut|gdi,3=New York|gdi,3=Pennsylvania|gdi,3=New Jersey)gdi,9=东北部else if(gdi,3=Wisconsin|gdi,3=Michigan|gdi,3=Illinois|gdi,3=Ohio|gdi,3=Indiana|gdi,3=Missouri|gdi,3=North Dakota|gdi

9、,3=South Dakota|gdi,3=Nebraska|gdi,3=Kansas|gdi,3=Minnesota|gdi,3=Iowa)gdi,9=中西部else if(gdi,3=Delaware|gdi,3=Maryland|gdi,3=District of Columbia|gdi,3=Virginia|gdi,3=West Virginia|gdi,3=North Carolina|gdi,3=South Carolina|gdi,3=Georgia|gdi,3=Florida|gdi,3=Kentucky|gdi,3=Tennessee|gdi,3=Mississippi|g

10、di,3=Alabama|gdi,3=Oklahoma|gdi,3=Texas|gdi,3=Arkansas|gdi,3=Louisiana)gdi,9=南部else if(gdi,3=Iowa|gdi,3=Montana|gdi,3=Wyoming|gdi,3=Nevada|gdi,3=Utah|gdi,3=Colorado|gdi,3=New Mexico|gdi,3=Arizona|gdi,3=Alaska|gdi,3=Washington|gdi,3=Oregon|gdi,3=California|gdi,3=Hawaii)gdi,9=西部然后用fix(gd)将第九列的字段修改为par

11、t:最后处理完的数据为以下格式:最后将数据存储下来,备用:write.csv(gd,f:/GunData.csv,row.names = FALSE) .保存的数据格式如下:共有23w多条数据,其中部分数据有字段为空值,将在后续分析中删除。2、基本统计分析1)统计各州发生枪支案件的总数。 2)统计各地区发生枪支案件的总数。 3)分析各地区枪支案件的分布特征。 4)按年度统计各州发生枪支案件的数目。 5)分析四大地区的经纬度范围2)推断性统计:选择合适的R函数进行如下假设检验,并得出结论。 1)分析死亡人数与受伤人数间是否具有相关性。 2)分析南部地区的案件数和其他地区的案件数是否具有显著差异。

12、 3)分析死亡人数与案件数是否相关;受伤人数与案件数是否相关。1、统计各州发生枪支案件的总数。建立一个table,可以显示出各州的案件数然后绘制一个直方图,显示出各个州的案件数就可以直观的看出各个州的案件数量。2、统计各地区发生枪支案件的总数:绘制一个条形图,可以直观的看出各个地区的案件总数。首先建立一个table,counts-table(gd$part),然后利用画图函数,绘制条形图barplot(counts,main=gunvolience,xlab=part,ylab=num,col=c(red,yellow,green,blue),ylim = c(0,120000)结果如下图:可

13、以看出南部人数最多,10w+,其次是中西部,东北部和西部的数量差不多。3、分析各地区枪支案件的分布特征。首先取出数据中东北部地区的数据gd1-gg,10=东北部,gd2-gg,10=南部,gd3-gg,10=中西部,gd4-gg,10=西部,然后生成四个tablecount1-table(gd1$state)count2-table(gd2$state)count3-table(gd3$state)count4-table(gd4$state)然后绘制各地区的案件分布图分析东北部地区的枪支案件分布,利用barplot函数,barplot(count1,main=东北部,)barplot(cou

14、nt2,main=南部)barplot(count3,main=中西部)barplot(count4,main=西部)可以看出主要集中在纽约和宾夕法尼亚州,西部全部集中在加州,南部分布的还算平均,佛罗里达多一些,中西部集中在波士顿。4、按年度统计各州发生枪支案件的数目。根据日期中的年度,将数据划分为13,14,15,16,17,18六段数据,先将数据排序后,找到每年数据的第一条,然后分片取数据gt13-g1:276,gt14-g277:51813,gt15-g51814:105715,gt16-g105716:159395,gt17-g159396:219007,gt18 length(gt1

15、3,1)1 276 length(gt14,1)1 51537 length(gt15,1)1 53902 length(gt16,1)1 53680 length(gt17,1)1 59612 length(gt18,1)1 12219可以看出13年犯案数是276例,14年51537,15年53902,16年53680,17年56912,18年12219例。然后分别建立table,然后就可以看到各个州的案件数。Table(gt14$state)Table(gt17$state)5、分析四大地区的经纬度范围将数据根据地区分为四部分,然后根据经度和纬度数据绘制散点图。gd1-gg,10=东北部,

16、gd2-gg,10=南部,gd3-gg,10=中西部,gd4-gg,10=西部, plot(gd1,9,gd1,8,col=blue,main=东北部,xlab=经度,ylab=纬度,xlim=c(-125,-65),ylim=c(30,50)plot(gd2,9,gd2,8,col=blue,main=南部,xlab=经度,ylab=纬度,xlim=c(-125,-65),ylim=c(30,50) plot(gd3,9,gd3,8,col=blue,main=中西部,xlab=经度,ylab=纬度,xlim=c(-125,-65)plot(gd4,9,gd4,8,col=blue,main

17、=西部,xlab=经度,ylab=纬度,xlim=c(-125,-65)2)推断性统计:选择合适的R函数进行如下假设检验,并得出结论。 1)分析死亡人数与受伤人数间是否具有相关性。 2)分析南部地区的案件数和其他地区的案件数是否具有显著差异。 3)分析死亡人数与案件数是否相关;受伤人数与案件数是否相关。1、利用R语言中的cor()函数,可以计算数据之间的相关性先取出数据中的死亡人数和受伤人数字段,分别为,6和,7,因为字段中的格式为字符串形式,现用as.numeric函数将字符串格式强制转化为数值型。然后利用cor函数Cor(g,6,g,7)计算相关性。这里a是前面的,6死亡人数数据,b是,7

18、受伤人数数据,取10000条计算(取全部会显示NA),结果为负值。多次取值取数据越大数值绝对值越小。2、生成各地区案件数table,并画出各地区案件数的条形图counts counts东北部 南部 西部 中西部 35220 102785 34016 58572 plot(counts,main=gunvolience,xlab=part,ylab=num,col=c(red,yellow,green,blue),ylim = c(0,120000) 可以看出南部的案件数显著的比其他地区的要多很多。3、首先按地区统计受伤,死亡人数与案件数的相关性。将数据分为按地区字段分为四个部分,使用前面的gd

19、1,gd2,gd3,gd4。统计各州的案件数总和和受伤,死亡人数总和,然后进行计算。k1-sum(as.numeric(gd1$n_killed),na.rm=TRUE)k2-sum(as.numeric(gd2$n_killed),na.rm=TRUE)k3-sum(as.numeric(gd3$n_killed),na.rm=TRUE)k4-sum(as.numeric(gd4$n_killed),na.rm=TRUE)i1-sum(as.numeric(gd1$n_injured),na.rm=TRUE)i2-sum(as.numeric(gd2$n_injured),na.rm=TRU

20、E)i3-sum(as.numeric(gd3$n_injured),na.rm=TRUE)i4-sum(as.numeric(gd4$n_injured),na.rm=TRUE)l1-length(gd1,1)l2-length(gd2,1)l3-length(gd3,1)l4 c1=c(i1,i2,i3,i4) c2=c(k1,k2,k3,k4) c3=c(i1,i2,i3,i4) cor(c1,c2) cor(c1,c3) cor(c2,c3)可以看出数据之间是相关的,相关系数均约等于1。3. 数据挖掘(1)聚类:针对如下目标进行聚类分析,并针对生成的聚簇,分析每个聚簇中数据的特征。1)

21、根据死亡人数、受伤人数对所有城市(city)划分聚簇,分析各聚簇中死亡人数和受伤人数的分布特征,以及各聚簇中的城市是否具有几大地区聚集的特征。2)根据死亡人数、受伤人数、犯案数对所有州划分聚簇,分析各聚簇特征。(2)时间序列:将数据集按照处理成时间序列形式的数据【例如对州按月度获取其犯案数、死亡人数、受伤人数等数据】1)对四个地区分别分析从2013年1月到2018年3月,犯案数所构成的时间序列具有什么样的趋势,是否具有季节周期性特征。2)对南部地区预测其2018年4月的犯案数大概是多少。3)画出全美关于枪支犯案数构成的时间序列的月度图(将每个月份组成的子序列画在一张图内)和年度图(将每年1到1

22、2月份的数据形成子序列,画在一张图内)。(3)分类根据现有经纬度数据构建关于州的分类器。使得能基于该分类器对指定经度纬度表示的位置判断其所属的州。要求划分的训练集与测试集每次均一致,即训练集与测试集的划分可重复。1、根据死亡人数、受伤人数对所有城市划分聚簇,2、根据死亡人数、受伤人数、犯案数对所有州划分聚簇 g1-g,c(city_or_county,n_killed,n_injured)先统计出各个城市的死亡人数,受伤人数的数据。根据犯案数对州进行聚类 最长聚类法counts-table(g$state)distance - dist(counts)c.hc - hclust(distance)plot(c.hc, hang = -1)c.hc - hclust(distance,method=ward) #聚类分析,离差平方和法plot(c.hc, hang = -1) #绘画系谱图 re - rect.hclust(china.hc, k = 5) #分为5类可以看出前四个州是犯案数最多的,Florida,Texas,California,Illinois四个州是最多的,算为第一类。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1