excel数据分析教程Word文档下载推荐.docx
《excel数据分析教程Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《excel数据分析教程Word文档下载推荐.docx(43页珍藏版)》请在冰豆网上搜索。
采用同样的分析方法可以知道,反映阶段结束于9:
10,反应阶段时间区间为8:
56-9:
10,共持续14分钟。
单击其中一个单元格“D6”,可以看出它是“B3-B6”的平均值,而单元格“E11”则是“SQRT(SUMXMY2(B6:
B9,D6:
D9)/4)”,它的意思是B6-B9,D6-D9对应数据的差的平方的平均值再取平方根,也就是数组的标准差。
用Excel做数据分析—抽样分析工具
省教育厅派专家组进行某校检查学生考试试卷,专家组拟对总体进行抽样调查,对学校某班的全体同学随机抽取25名作为调查样本。
为了保证结果的非人为性,采用Excel帮助专家组做出抽查的结果。
抽样分析工具以数据源区域为总体,从而为其创建一个样本。
当总体太大而不能进行处理或绘制时,可以选用具有代表性的样本。
如果确认数据源区域中的数据是周期性的,还可以对一个周期中特定时间段中的数值进行采样。
也可以采用随机抽样,满足用户保证抽样的代表性的要求。
注:
本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘的支持下加载“数据分析库”。
加载成功后,可以在工具的下拉菜单中看到“数据分析”选项。
操作步骤:
1.打开原始数据表格,制作本实例的原始数据无特殊要求,只要满足行或列中为同一属性数值即可。
实例中显示的是学生学号。
2.选择“工具”—“数据分析”—“抽样”后,出现对话框,依次选择:
输入区域:
把原始总体数据放在此区域中,数据类型不限,数值型或者文本型均可;
抽样方法:
有间隔和随机两种。
间隔抽样需要输入周期间隔,输入区域中位于间隔点处的数值以及此后每一个间隔点处的数值将被复制到输出列中。
当到达输入区域的末尾时,抽样将停止。
(在本例题中没有采用);
随机抽样是指直接输入样本数,电脑自行进行抽样,不用受间隔的规律限制;
样本数:
在此输入需要在输出列中显示需要抽取总体中数据的个数。
每个数值是从输入区域中的随机位置上抽取出来的,请注意:
任何数值都可以被多次抽取!
所以抽样所得数据实际上会有可能小于所需数量。
本文末尾给出了一种处理方法;
输出区域:
在此输入对输出表左上角单元格的引用。
所有数据均将写在该单元格下方的单列里。
如果选择的是“周期”,则输出表中数值的个数等于输入区域中数值的个数除以“间隔”。
如果选择的是“随机”,则输出表中数值的个数等于“样本数”;
3.然后单击确定就可以显示结果了(这是电脑自行随机抽样的结果)。
原始数据文档在这里下载>
>
操作结果文档在这里下载>
需要说明的情况:
由于随机抽样时总体中的每个数据都可以被多次抽取,所以在样本中的数据一般都会有重复现象,解决此问题有待于程序的完善。
可以使用“筛选”功能对所得数据进行筛选。
选中样本数据列,依次执行“数据”-“筛选”-“高级筛选”,如下图所示。
最后的样本结果如下图所示,请您根据经验适当调整在数据样本选取时的数量设置,以使最终所得样本数量不少于所需数量。
实现Excel动态链接外部数据库
我们有时需要在Excel中调取其他数据库的数据,并且希望其他数据库数据改变时,Excel中调取的数据也随之动态改变。
下面介绍在Excel中通过“新建数据库查询”(MicrosoftQuery)的方法来实现动态链接数据库。
您在Excel中第一次使用“新建数据库查询”查询数据时,如果系统未安装MicrosoftQuery,系统会提示您安装。
一、Excel链接vfp数据库
vfp是常用的数据库,先以此来介绍。
假设从px.dbf表中取出相应学校的数据,已知学校的后5位代码,数据所在字段为x16,数据值为03行和06行相加,放入Excel单个单元格中。
步骤如下:
1、点击菜单“数据”—“导入外部数据”—“新建数据库查询”,出现“选择数据源”对话框,选择“VisualFoxproTables*”,按“确定”。
如果您对SQL语句不是很熟悉的话,请使用默认的“查询向导”创建。
(图1)
2、在“configureconnection”对话框中,按“Browse”按钮选择表px.dbf所在的路径,按“ok”键。
(图2)
3、在“查询向导—选择列”对话框中,选择查询结果中的列,要选取的数据在“x16”字段,所以将可用表“px”中的“x16”列移至“查询结果中的列”,按“下一步”。
(图3)
4、在“查询向导—筛选数据”对话框中,因为此例中设置的条件在字段学校代码“xxdm”和行号“bh”,非字段“x16”,所以点击“下一步”,暂时不筛选数据。
(图4)
5、在“查询向导—排序顺序”对话框中,因为此例中所取的是单个数据,所在点击“下一步”。
(图5)
6、出现“查询向导—完成”对话框,因还要对数据进行筛选,所以选择“在MicrosoftQuery中查看数据或编辑查询”,点击“完成”。
(图6)
7、进入“MicrosoftQuery”,看到查询结果x16列出了所有行的数据。
接下来要通过设置条件来筛选所需的数据。
点击菜单“条件”—“增加条件(A)...”,字段“bh”,运算符“等于”,指定值为“03”,按“添加”。
(图7)
继续“添加条件”对话框,选择“或”,字段“bh”,运算符“等于”,指定值为“06”,按“添加”。
(图8)
继续“添加条件”对话框,选择“与”,字段“xxdm”,运算符“等于”,指定值为“11201”,按“添加”后按“关闭”。
(图9)
但是看到符合条件x16为空,这是因为学校代码的后五位为“11201”。
可以通过“显示SQL”来直接修改条件语句,将SQL语句中px.xxdm="
11201"
改成right(px.xxdm,5)="
按“确定”。
(图10)
也可以在“条件字段”直接修改。
(图11)
光标放在x16字段,点击“循环总计”,将查询出的两个值相加,当然也可以直接在SQL语句中修改。
(图12)
8、关闭“MicrosoftQuery”,弹出“导入数据”对话框,选择“数据的放置位置”,选择“$B$2”,按“确定”。
(图13)
9、但我们发现显示了标题行,真正的数据却显示到了$B$3,这时我们需要修改$B$2单元格的“数据区域属性”。
点击$B$2单元格,按右键菜单的“数据区域属性”,弹出“外部数据区域属性”窗口,将“数据格式与布局”中“包含字段名”等前面的对勾去掉,将“数据区域中的行数随刷新而更改的方式”改成“用新数据覆盖现有单元格,并清除没有使用的单元格内容”,按“确定”。
但还是有标题,没有关系,点击$B$2单元格,按右键菜单的“刷新数据”即可。
(图14)
10、如果px.dbf数据库有所改变,那么如何在Excel中刷新,可以点击链接数据所在单元格右键菜单中的“刷新”手工刷新;
也可以在“数据区域属性”—“刷新控件”中选上“打开工作簿时,自动刷新”(见图14),从而在每次打开工作簿时,在“查询刷新”的提示框中按“启动自动刷新”按钮刷新(见图15)。
(图15)
11、如果需要编辑查询,则点击$B$2单元格,按右键菜单的“查询编辑”,如果出现“查询向导”无法编辑此查询的提示,只要按“确定”即可进入“MicrosoftQuery”。
12、$B$3单元格查询条件与$B$2相差的只是学校代码,可以将$B$2单元格复制到$B$3单位格,再用$B$3的“编辑查询”来修改,修改一下学校代码的值即可。
(图16)
二、Excel链接SQL数据库
链接SQL数据库与链接vpf大致是相同的。
这里介绍的是连接两表的查询。
点击菜单“数据”—“导入外部数据”—“新建数据库查询”,出现“选择数据源”对话框,可直接选取所需链接的SQL数据库名。
如果SQL数据库有密码的话,将提示输入密码,按“确定”。
如果SQLSERVER服务管理器未开启的话,将出现错误提示。
如果不使用“查询向导”的话,可直接进入“MicrosoftQuery”。
添加表news和表type,news表中的typeid和type表的typeid建立关联。
在“条件字段”中选择字段名,并在“值”中输入条件值,这里输入的条件是type表的typeid字段值为1且news表的topic中含有"
小学生"
。
点击选择要输出的字段名,这里选择的是type表中的typename字段和news表的topic字段。
(图17)
当然,如果您对SQL语句熟悉,也可以直接输入SQL语句。
接下来的步骤请参考一、中的8、至10、。
用Excel做数据分析—相关系数与协方差
化学合成实验中经常需要考察压力随温度的变化情况。
某次实验在两个不同的反应器中进行同一条件下实验得到两组温度与压力相关数据,试分析它们与温度的关联关系,并对在不同反应器内进行同一条件下反应的可靠性给出依据。
相关系数是描述两个测量值变量之间的离散程度的指标。
用于判断两个测量值变量的变化是否相关,即,一个变量的较大值是否与另一个变量的较大值相关联(正相关);
或者一个变量的较小值是否与另一个变量的较大值相关联(负相关);
还是两个变量中的值互不关联(相关系数近似于零)。
设(X,Y)为二元随机变量,那么:
为随机变量X与Y的相关系数。
p是度量随机变量X与Y之间线性相关密切程度的数字特征。
注:
本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘中加载“分析数据库”。
1.打开原始数据表格,制作本实例的原始数据需要满足两组或两组以上的数据,结果将给出其中任意两项的相关系数。
2.选择“工具”-“数据分析”-“描述统计”后,出现属性设置框,依次选择:
选择数据区域,注意需要满足至少两组数据。
如果有数据标志,注意同时勾选下方“标志位于第一行”;
分组方式:
指示输入区域中的数据是按行还是按列考虑,请根据原数据格式选择;
输出区域可以选择本表、新工作表组或是新工作簿;
3.点击“确定”即可看到生成的报表。
可以看到,在相应区域生成了一个3×
3的矩阵,数据项目的交叉处就是其相关系数。
显然,数据与本身是完全相关的,相关系数在对角线上显示为1;
两组数据间在矩阵上有两个位置,它们是相同的,故右上侧重复部分不显示数据。
左下侧相应位置分别是温度与压力A、B和两组压力数据间的相关系数。
从数据统计结论可以看出,温度与压力A、B的相关性分别达到了0.95和0.94,这说明它们呈现良好的正相关性,而两组压力数据间的相关性达到了0.998,这说明在不同反应器内的相同条件下反应一致性很好,可以忽略因为更换反应器造成的系统误差。
协方差的统计与相关系数的活的方法相似,统计结果同样返回一个输出表和一个矩阵,分别表示每对测量值变量之间的相关系数和协方差。
不同之处在于相关系数的取值在-1和+1之间,而协方差没有限定的取值范围。
相关系数和协方差都是描述两个变量离散程度的指标。
用Excel做数据排序的常用方法与技巧
在用Excel制作相关的数据表格时,我们可以利用其强大的排序功能,浏览、查询、统计相关的数字。
下面,我们以图1所示的“员工基本情况登记表”为例,来全面体验一番Excel的排序功能。
一、快速排序
如果我们希望对员工资料按某列属性(如“工龄”由长到短)进行排列,可以这样操作:
选中“工龄”列任意一个单元格(如I3),然后按一下“常用”工具栏上的“降序排序”按钮即可(参见图1)。
小提示:
①如果按“常用”工具栏上的“升序排序”按钮,则将“工龄”由短到长进行排序。
②如果排序的对象是中文字符,则按“汉语拼音”顺序排序。
③如果排序的对象是西文字符,则按“西文字母”顺序排序。
二、多条件排序
如果我们需要按“学历、工龄、职称”对数据进行排序,可以这样操作:
选中数据表格中任意一个单元格,执行“数据→排序”命令,打开“排序”对话框(图2),将“主要关键词、次要关键词、第三关键词”分别设置为“学历、工龄、职称”,并设置好排序方式(“升序”或“降序”),再按下“确定”按钮就行了。
三、按笔划排序
对“姓名”进行排序时,国人喜欢按“姓氏笔划”来进行:
选中姓名列任意一个单元格,执行“数据→排序”命令,打开“排序”对话框(参见图2),单击其中的“选项”按钮,打开“排序选项”对话框(图3),选中其中的“笔划排序”选项,确定返回到“排序”对话框,再按下“确定”按钮即可。
如果需要按某行属性对数据进行排序,我们只要在上述“排序选项”对话框中选中“按行排序”选项即可。
四、自定义排序
当我们对“职称”列进行排序时,无论是按“拼音”还是“笔划”,都不符合我们的要求。
对于这个问题,我们可以通过自定义序列来进行排序:
先把相应的职称序列按需要排序的顺序输入到相应的单元格区域(如N2至N18)中(图4);
执行“工具→选项”命令,打开“选项”对话框(图5),切换到“自定义序列”标签下,在“从单元格中导入序列”右侧的方框中输入“$N$2:
$N$18”(也可以用鼠标选择输入),然后单击“导入”按钮,将相应的序列导入到系统中,确定返回。
序列导入后,原来N2至N18区域中输入的数据可以删除,导入的序列在其他Excel文档中均可直接使用。
选中“职称”列任意一个单元格,执行“数据→排序”命令,打开“排序”对话框,单击其中的“选项”按钮,打开“排序选项”对话框(参见图3),按“自定义排序次序”选项右侧的下拉按钮,在随后弹出的下拉列表中,选中上述“导入”的序列,确定返回到“排序”对话框,再按下“确定”按钮即可。
五、用函数进行排序
有时,我们对某些数值列(如“工龄、工资”等)进行排序时,不希望打乱表格原有数据的顺序,而只需要得到一个排列名次。
对于这个问题,我们可以用函数来实现(以“工龄”为例):
在“工龄”右侧插入一个空白列(J列),用于保存次序(图6),然后选中J2单元格,输入公式:
=RANK(I2,$I$2:
$I$101),然后再次选中J2单元格,将鼠标移至该单元格右下角成“细十字线状”时(这种状态,我们通常称之为“填充柄”状态),按住左键向下拖拉至最后一条数据为止,次序即刻显示出来(图6)。
本文图片来自网络
若要升序排序,可在公式最后增加一个“非零”参数,如将上述公式改为:
$I$101,1)。
六、让序号不参与排序
当我们对数据表进行排序操作后,通常位于第一列的序号也被打乱了,如何不让这个“序号”列参与排序呢?
我们在“序号”列右侧插入一个空白列(B列),将“序号”列与数据表隔开。
用上述方法对右侧的数据区域进行排序时,“序号”列就不参与排序了。
插入的空列会影响表格的打印效果,我们可以将其隐藏起来:
选中B列(即插入的空列),右击鼠标,再选择“隐藏”选项即可。
Excel的数据分析—排位与百分比
某班级期中考试进行后,按照要求仅公布成绩,但学生及家长要求知道排名。
故欲公布成绩排名,学生可以通过成绩查询到自己的排名,并同时得到该成绩位于班级百分比排名(即该同学是排名位于前“X%”的学生)。
排序操作是Excel的基本操作,Excel“数据分析”中的“排位与百分比排位”可以使这个工作简化,直接输出报表。
2.选择“工具”-“数据分析”-“描述统计”后,出现属性设置框,依次选择;
选择数据区域,如果有数据标志,注意同时勾选下方“标志位于第一行”;
输出区域可以选择本表、新工作表组或是新工作簿。
可以看到,此时生成一个四列的新表格,其中“点”是指排序后原数据的序数,在本实例中对应与学号,这也是很实用的一个序列;
“成绩”即为排序后的数据系列;
“排位”采取重复数据占用同一位置的统计方法;
“百分比”是按照降序排列的,为了得到真正的“百分比排位”,还需要稍微作一下调整。
4.在“百分比”列的下一列输入“百分排名”,在第一个单元格中输入公式“=1-G3(对应于‘百分排名’)”,回车。
选中该单元格,向下拖动直至填充完毕。
这样就达到了显示百分比排名的目的。
完成的报表实例如下图所示。
用Excel做数据分析—描述统计
某班级期中考试进行后,需要统计成绩的平均值、区间,以及给出班级内部学生成绩差异的量化标准,借此来作为解决班与班之间学生成绩的参差不齐的依据。
要求得到标准差等统计数值。
样本数据分布区间、标准差等都是描述样本数据范围及波动大小的统计量,统计标准差需要得到样本均值,计算较为繁琐。
这些都是描述样本数据的常用变量,使用Excel数据分析中的“描述统计”即可一次完成。
1.打开原始数据表格,制作本实例的原始数据无特殊要求,只要满足行或列中为同一属性数值即可。
2.选择“工具”-“数据分析”-“描述统计”后,出现属性设置框,依次选择:
原始数据区域,可以选中多个行或列,注意选择相应的分组方式;
如果数据有标志,注意勾选“标志位于第一行”;
如果输入区域没有标志项,该复选框将被清除,Excel将在输出表中生成适宜的数据标志;
输出区域可以选择本表、新工作表或是新工作簿;
汇总统计:
包括有平均值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏斜度、极差、最小值、最大值、总和、总个数、最大值、最小值和置信度等相关项目。
其中:
中值:
排序后位于中间的数据的值;
众数:
出现次数最多的值;
峰值:
衡量数据分布起伏变化的指标,以正态分布为基准,比其平缓时值为正,反之则为负;
偏斜度:
衡量数据峰值偏移的指数,根据峰值在均值左侧或者右侧分别为正值或负值;
极差:
最大值与最小值的差。
第K大(小)值:
输出表的某一行中包含每个数据区域中的第k个最大(小)值。
平均数置信度:
数值95%可用来计算在显著性水平为5%时的平均值置信度。
结果示例如下(本实例演示了双列数据的描述统计结果):
成绩
学习时间
平均
78.64285714
62.91428571
标准误差
2.408241878
1.926593502
中位数
85
68
众数
98
78.4
标准差
18.02163202
14.41730562
方差
324.7792208
207.8587013
峰度
1.464424408
偏度
-1.130551511
-1.13055151
区域
最小值
15
12
最大值
100
80
求和
4404
3523.2
观测数
56
最大
(1)
最小
(1)
置信度(95.0%)
4.826224539
3.860979631
用Excel做数据分析—直方图
使用Excel自带的数据分析功能可以完成很多专业软件才有的数据统计、分析,这其中包括:
直方图、相关系数、协方差、各种概率分布、抽样与动态模拟、总体均值判断,均值推断、线性、非线性回归、多元回归分析、时间序列等内容。
下面将对以上功能逐一作使用介绍,方便各位普通读者和相关专业人员参考使用。
注:
本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘中加载“分析数
据库”。
实例1
某班级期中考试进行后,需要统计各分数段人数,并给出频数分布和累计频数表的直方图以供分析。
以往手工分析的步骤是先将各分数段的人数分别统计出来制成一张新的表格,再以此表格为基础建立数据统计直方图。
使用Excel中的“数据分析”功能可以直接完成此任务。
1.打开原始数据表格,制作本实例的原始数据要求单列,确认数据的范围。
本实例为化学成绩,故数据范围确定为0-100。
2.在右侧输入数据接受序列。
所谓“数据接受序列”,就是分段统计的数据间隔,该区域包含一组可选的用来定义接收区域的边界值。
这些值应