数据筛选实验总结.docx

上传人:b****2 文档编号:23188338 上传时间:2023-05-15 格式:DOCX 页数:16 大小:22.43KB
下载 相关 举报
数据筛选实验总结.docx_第1页
第1页 / 共16页
数据筛选实验总结.docx_第2页
第2页 / 共16页
数据筛选实验总结.docx_第3页
第3页 / 共16页
数据筛选实验总结.docx_第4页
第4页 / 共16页
数据筛选实验总结.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

数据筛选实验总结.docx

《数据筛选实验总结.docx》由会员分享,可在线阅读,更多相关《数据筛选实验总结.docx(16页珍藏版)》请在冰豆网上搜索。

数据筛选实验总结.docx

数据筛选实验总结

数据筛选实验总结

重庆科技学院

实验报告

课程名称:

统计软件与应用开课学期:

xx-xx学年第二学期学院:

法政与经贸学院开课实验室:

H414学生姓名:

专业班级:

资环13-2学号:

xx4

重庆科技学院学生实验报告

统计学实验报告与心得体会

班级:

姓名:

学号:

成绩:

一实验报告成绩:

实验一数据的搜集与

实验目的和要求

培养学生处理数据的基本能力,熟悉Excelxx的基本操作界面,熟悉间接和直接数据的搜集方法,掌握不同类型的数据处理方法,以及数据的编码、分类、筛选、排序等操作的方法。

实验步骤

1、数据的搜集:

确定数据,主要由两种渠道,间接数据和直接数据。

间接数据一种方式是直接进入专业数据库网站查询,另一种是使用搜索引擎。

直接数据搜集步骤有:

调查方案设计、调查问卷设计、问卷发放、问卷收回、数据初步等。

2、数据的编码:

如果数据是由开放式的问题来获取的,那么,需要对答案进行罗列、合并、设码三个过程来完成编码工作。

3、数据的录入:

Excel的数据录入操作比较简单,一般只要在工作表中,单击激活一个单元格就可以录入数据了。

通过“格式-单元格格式”(Ctrl+1)菜单来实现数据的完整性。

4、数据文件的导入:

导入的方法有二,一是使用“文件-打开”菜单,二是使用“数据-导入外部数据-导入数据”菜单,两者都是打开导入向导,按向导一步步完成对数据文件的导入。

5、数据的筛选:

Excel中提供了两种数据的筛选操作,即“自动筛选”和“高级筛选”。

6、数据的排序:

在选中需排序区域数据后,点击“升序排列”(“降序排列”)工具按钮,数据将按升序(或降序)快速排列

7、数据文件的保存:

保存经过初步处理的Excel数据文件。

可以使用“保存”工具按钮,或者“文件-保存”菜单,还可以使用“文件-另存为”菜单。

实验二描述数据的图标方法

实验目的和要求

通过软件辅助,将数据转换为直观的统计表和生动形象的统计图,掌握Excel的制图和制表功能,并能准确地很据不同对象的特点加以运用。

实验步骤

利用Frequency函数获取频数频率:

1、将数据输入并激活分别符合条件的单元格。

2、打开“插入函数”对话框,选择函数。

3、点击“插入函数”对话框确定按钮进入“函数参数”对话框,选中符合条件的对话框。

4、使用组合键“Ctrl+Shift+Enter”,得到频数,返回结果。

5、对结果进行修饰,加入分组标志及其值,再加入频数具体名称,并且计算频数。

利用直方图:

1、将数据输入到指定单元格。

2、使用“工具——数据分析”菜单,选择“直方图”。

3、进入“直方图”分析工具库,选中复选框。

4、单击确定按

钮,得到直方图分析工具扩展函数的返回结果。

5、对结果进行修饰。

实验三统计数据的描述

实验目的及要求

应用统计软件,描述统计数据的集中趋势、离散程度、分布偏态。

掌握Excelxx中描述统计指标对应的函数,包括算数平均数、调和平均数、几何平均数、众数、中位数、标准差、方差等。

.熟练掌握Excelxx“描述统计”工具进行描述统计。

实验步骤

掌握一些常用的使用函数。

就Average函数进行举例,计算参数的算术平均值,简单算术平均数:

1、直接将数据输入到符合条件的单元格。

2、然后激活一个空白单元格,输入公式“=AVERAGE()”,回车返回结果;加权算术平均数,Excel没有提供专门的内置函数,1、可先计算各组的组中值,作为该组一般代表2、激活一空白单元格,输入相关公式,回车返回结果。

“描述统计”分析工具扩展函数:

1、使用“工具——数据分析”菜单,打开“数据分析”对话框,从分析工具下框中选择“描述统计”。

2、点击数据分析对话框的确定按钮进入“描述统计”对话框,输入区域点击右侧箭头,选择需要分析描述统计结果的数据。

3、点击描述统计对话框确定按钮,得到描述统计结果。

实验四参数估计

实验目的和要求

应用统计软件,完成抽样的工作,并且在抽样数据获取的基础上,计算样本统计量,对对应总体参数进行区间估计。

了解抽样组织形式以及如何抽取样本数据,掌握Excelxx中应用函数表单进行参数估计的方法和步骤。

实验步骤

“抽样”分析工具将输入区域视为总体,并使用总体来建立样本。

1、使用“工具——数据分析”菜单打开“数据分析”对话框,选择“抽样”,并将其打开。

2、点击输入区域右侧的箭头,鼠标拖动选择单元格。

3、点击“抽样”对话框的确定按钮,返回结果。

点估计是依据样本估计总体分布中所含的参数或参数的函数。

通常它们是总体的某个特征值,如数学期望、方差和相关系数等。

点估计问题就是要构造一个只依赖于样本的量,作为参数或参数的函数的估计值

区间估计:

1、选中单元格,使用“插入——名称——指定”菜单,打开“指定名称”,选择“首行”,点击确定。

2、构建函数表单框架。

3、输入框架下对应的数据和函数公式。

实验五假设检验

实验目的与要求

了解不同假设检验内容要求的不同检验统计量和检验方法;掌握利用函数表单进行假设检验的方法和步骤;掌握Excelxx中应用分析工具库进行假设检验的方法和步骤。

实验步骤

1、创建样本数据,确定需进行假设检验的总体参数2、确定抽样样本统计量及其服从的分布3、进行假设设计(单侧,双侧)4、确定置信水平5、计算检验统计量6、计算置信水平下的检验区间(或检验临界值)7、比较检验统计量与检验区间(或检验临界值),得出结论。

实验六方差分析

实验目的与要求

应用统计软件,对数据进行单因素饭方差分析和双因素方差分析。

了解方差分析的假设前提,掌握Excelxx中应用分析工具库进行方差分析的方法和步骤。

实验步骤

单因素方差分

1、使用“工具——数据分析”打开数据分析对话框,选择“方差分析:

单因素方差分析”分析工具,点击确定按钮打开“方差分析:

单因素方差分析”对话框。

2、输入区域点击右侧箭头,选择单元格。

3、分组方式选择“列”单选框。

4、点击“方差分析:

单因素方差分析”对话框确定按钮,返回结果。

双因素方差分析

1、使用“工具——数据分析”打开数据分析对话框,选择“方差分析:

无重复双因素方差分析”分析工具,点击确定按钮打开“方差分析:

无重复双因素方差分析”对话框。

2、输入区域点击右侧箭头,选择单元格。

3、分组方式选择“标志”复选框。

4、点击“方差分析:

无重复双因素方差分析”对话框确定按钮,返回结果。

二心得体会成绩:

统计学实验心得体会

某生产车间30名工人的日产零件数如下(单位:

个),试对其一组距为10进

一个学期的实训不知不觉的就这样过去了,在这里不敢说自己学到很多的东西,但我真的懂得了很多,也在其中明白了很多。

在这学期的统计学实验学习中,我加深了对统计学原理的学习,以及对数据知识的理解和掌握,同时也对Excel操作软件的应用有了更深刻的了解,巩固了所学知识,拓展了知识面。

结合以上的数据分析,以下是我这几次实验的一些心得和体会。

在统计实验中,对数据的筛选和处理是比较重要的内容和要求。

同时对数据的分析也离不开相关软件的支持。

比如,要求一个企业30名职工的日生产零件数,就要对数据进行导入、分析、筛选,最后得出答案。

因此,Excel软件是实

数据分析与筛选

[1]

在预测与决策时,经常需要对所要研究的对象进行分析和收集数据,从大量的统计数据中找规律,而这些数据真实与否直接影响分析结论的科学性。

在多数情况下会发现,统计来的数据是按照某一规律且起伏并不是很大,但其中都可能混有“异常数据”,这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。

有些异常值可能是在统计时度量或执行错误所得到的,在分析过程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除,否则可能导致重要的隐藏信息丢失[2,特别有些异常数据非常有价值,若剔除则可能影响到结论的科学性。

因此,对于异常数据的挖掘及处理(利用)是值得研究的问题。

]

异常数据的挖掘方法

所谓数据挖掘就是按照既定的目标,对大量的统计数据进行探索,揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。

对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值,挖掘过程实际上是识别过程,可以用以下几种方法进行挖掘:

3σ检测法[2]

一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列),都分布在其均值周围,标准差σ能反映其离散程度。

统计数据可以是某一总体的样本。

如果是一般总体,可以由概率统计中的切贝谢夫不等式知道,对于任意的0ε>,有:

?

2

P{|X?

E(X)|?

?

}?

2?

?

21特别地有,P{|X?

E(X)|?

3?

}?

即统计数据与其均值的偏差超过?

2(3?

)9

3σ比例不超过1/9则由不等式P{|X?

E(x)|?

3?

}?

2[1?

?

(3)]?

0.027,即在正态分布下统计数据与平均值的离差大于3?

的概率仅为0.27%,所以可将那3σ些有均值之差的绝对值超过3σ的统计数据视为异常数据。

根据概率论中的中心极限定理,

因此3σ检测法在实际中比较常用。

当然它的局限性是只适用于单维异常数据的挖掘。

2.3利用聚类分析法对数据处理

聚类分析又称群分析,是研究分类问题的一种多元统计方法。

在聚类分析的过程中,将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排除指标之间相关性的干扰且不受量纲的影响,最为实用。

根据聚类的结果,距离较小

或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。

如果存在几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就可断定这些样品数据为异常数据。

1、数据在聚类分析之前要进行数据的变换,常用的方法有

a中心化变换:

x*?

xij?

x(i?

1,2,3,...m)

变换后的数据均值为0,而协方差不变。

B.标准变换:

xij?

xjx*?

(i?

1,2,...n;j?

1,2,...m)sj

其中sj是标准差;变换后的数据每个变量的样本均值为0,而且标准变换后的数据与变量的量纲无关;

2、由聚类分析法的基本思想,即可得出

①数据变换:

常用的数据变换方法在上面已经详细举出。

数据变换的目的时为了便于计算和比较,或改变数据的结构;

②计算n各样品两两间的距离,得到样品间的距离(常用欧式距离)矩阵D(0);③初始(第一步:

i=1)n个样品各自构成一类,类的个数k=n,第i类Gi?

{x(ij)}(i?

1,2,...n),此时类的间距就是样品距离,然后对样品X(i)(i?

1,2,...,n)执行并类过程④和⑤;

④对步骤3得到的距离矩阵Di?

1,合并类间距离最小的两类为一新类,此时类的总个数k减少一类,即k=n-i+1;

⑤计算新类与其他类的距离,得到新的距离矩阵,若合并后的总个数k仍然大于1,重复以上的过程,

⑥画谱系聚类图;

⑦觉定分类个数及各类的成员。

2.4.典型例子——市场占有率问题

一个企业的销售量(或销售额)在市场同类产品中所占的比重。

直接反映企业所提供的商品和劳务对消费者和用户的满足程度,表明企业的商品在市场上所处的地位。

市场份额越高,表明企业经营、竞争能力越强。

市场份额根据不同市场范围有4种测算方法:

(1).总体市场份额。

指一个企业的销售量(额)在整个行业中所占的比重。

(2).目标市场份额。

指一个企业的销售量(额)在其目标市场,即它所服务的市场中所占的比重。

一个企业的目标市场的范围小于或等于整个行业的服务市场,因而它的目标市场份额总是大于它在总体市场中的份额。

(3).相对于3个最大竞争者的市场份额。

指一个企业的销售量和市场上最大的3个竞争者的销售总量之比。

如:

一个企业的市场份额是30%,而它的3个最大竞争者的市场份额分别为20%,10%,10%,则该企业的相对市场份额就是30%÷40%=75%,如4个企业各占25%,则该企业的相对市场份额为33%。

一般地,一个企业拥有33%以上的相对市场份额,就表明它在这一市场中有一定实力。

4.相对于最大竞争者的市场份额。

指一个企业的销售量与市场上最大竞争者的销售量之比。

若高于100%,表明该企业是这一市场的领袖。

三、数据筛选

数据的筛选在数学建模中占有很重要的地位,它是数学建模的第一步,我们只有得到好的数据才能保证得出的结果的真实性与准确性。

而在实际的问题中我们遇到的数据量往往是巨大的。

为了保证我们所用的方法能够在原始数据的支持下得以实现,我们必须要对数据进行筛选,使得解决方法简单化。

但是我们又要保证筛选出来的数据具有代表性,使得到的结果更加准确与真实。

数据筛选有很多种不同的方法

3.1:

随机抽样

从一个总体的样本X中随机抽取出n个个体,这样称对总体X进行随机抽样,其中n叫做样本容量,这n个个体构成了样本。

在随机抽样过程中满足随机性和独立性两个特征,即对于每一次的抽样在总体中的每一个个体被抽到的概率都相同,每次抽取的结果不会影响到下一次的抽取。

这样的随机抽样适用于对总体的概率分析等统计方面的应用,比如可以分析数据中的最大值、均值、众数等数据特征不能够对数据的

3.2利用粗差法筛选数据

1基本假设

利用粗差法筛选数据的方法是一种基于数理统计理论得出的一种筛选数据的方法,其主要的运用体现在矿井通风阻力测定数据前处理的运用中,以及其他相类似的数据处理。

以下我们就以矿井的通风阻力为例介绍粗差筛选数据的方法。

在进行通风阻力测量时,要求选择合理的测量路线,在每条测量路线上选择合理的测量点,每个测量点至少要求5个数据。

在测量期间,如果巷道通风状况等条件保持稳定,则某点的数据样本符合正态分布,且其平均值近似为真值。

某测点测量数据的样本x=(x1,x2,x3.....xn),n>5,的方差为

1n2s?

(x?

xi)2

(1)?

n?

1i?

1

设允许的测量误差为a(0

(1?

a)x?

x1?

(1?

a)x,i?

1,2,...n

(2)

样本x的最大可能方差为:

1n(ax)s?

(x?

(1?

a)x)?

(3)?

n?

1n?

122

测量数据之间的两两误差?

xij?

xi?

xj,i,j?

1,2...n,则误差矩阵可以表达为

?

0?

?

x?

2,1

?

xx3,1?

?

...

?

?

xn,1?

矩阵?

x的无穷范数为:

?

x1,20?

x3,2...?

xn,2?

x1,3?

x2,30.........?

x1,n?

...?

x2,n?

?

...?

x3,n?

(4)?

......?

...0?

?

n

fmax?

||?

x||?

maxi?

1~n{?

|?

xi,j|}(5)

j?

1

2分析方法

某点的测量数据不存在粗差,则在给定的测量误差范围内有:

s2?

s2max

则认为存在粗差。

如果某此测量数据xi粗差中偏移最大的值,则在公式(4)所表示的误差矩阵中,当i=k时,?

|?

xi,j|取最大值,也可以表示为公式(5),即取误差矩阵?

x

j?

1n

的无穷范数时的测量误差xj-k为偏差最大的数据,亦称最大粗差。

如果某次测量数据较多,在保证计算可靠性的基础上,为了减少计算量或统一规范,也可以采用该方法进行有效筛选。

经过逐次筛选,将测量数据按偏移量从小到大按顺序依次排序,直到

s2?

s2max为止,这样就可以得到测量数据的正常取值范围。

同时,为了保证测量的可靠性,一般要求具有代表性的数据至少有3个。

以上就是利用粗差来晒选数据的基本步骤,在筛选数据时的重要依据就是样本数据与无穷范数的差值,而无穷范数是通过误差矩阵经过公式(5)得到的。

通过这样的方法就可以将数据筛选。

3.3利用自组织方法进行数据筛选

自组织理论是基于神经网络和计算机科学的迅速发展而产生和发展起来的。

它将黑箱思想、生物神经元方法、归纳法、概率论、数理逻辑等方法有机地组合起来。

其主要思想是通过简单的初始输入(局部变量)的交叉组合产生第一代中间候选模型,再从第一代中间候选模型中选出最优的若干项组合而产生第二代中间候选模型,重复这样一个产生、选择和遗传进化过程,使模型复杂度不断增加,直到选出最优复杂度模型为止。

本文利用自组织方法进行数据筛选和建立税收预测模型,并在数据筛选基础上建立线性回归预测模型和BP神经网络预测模型,然后结合时间序列的预测模型,利用自组织方法建立组合预测模型。

通过预测结果比较得出了组合预测模型比其它单个模型具有更高的预测精度。

其重要的应用体现在对税收收入的的预测问题上。

税收收入预测可以使用统计技术,其使用的模型一般分为时间序列模型和回归模型。

时间序列模型的缺点在于不能充分利用与税收收入密切相关的经济因素,导致预测的数据不准确和不稳定。

回归模型虽然考虑了经济因素,但需要事先知道其它经济因素与税收收入间的函数关系,而且为了获得比较精确的预测结果,需要大量的计算。

许多实验表明BP神经网络用于税收等经济指标的预测也是一种适合的方法。

神经网络的优点在于它具有模拟多变量而不需要对输入变量做复杂的相关假定的能力,只要利用以往的历史数据,就可以从训练过程中通过学习来抽取和逼近隐含的输入/输出非线性关系。

但BP神经网络也有缺点,特别是在复杂系统建模时输入变量确定主观化等缺陷。

为结合回归模型、时间序列模型和神经网络模型的优点,有人利用自组织方法将多种模型的预测结果进行组合,实现自组织方法的组合预测模型。

所谓组合预测,就是将不同的预测方法进行适当的组合,综合利用各种方法所提供的有用信息,从而尽可能地提高预测精度。

为提高预测的精度,自组织理论在复杂系统的模拟、预测、模式识别、样本聚类等诸方面都有成功的应用

利用自组织方法对数据进行预处理

利用自组织方法,将税收收入作为因变量,其余变量作为自变量,通过自组织GMDH方法的实现工具KnowledgeMiner5.0建立模型得到税收与相关变量的模

内容仅供参考

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1