《统计学笔记.docx

资源描述

《统计学笔记.docx

《《统计学笔记.docx》由会员分享，可在线阅读，更多相关《《统计学笔记.docx（16页珍藏版）》请在冰豆网上搜索。

《统计学笔记.docx

第一节统计与统计学

统计学笔记

第一章绪论

（统计学是一门收集、整理和分析数据的方法科学，其目的是探索数据的内在数量规律性，以达到对客观事物的科学认识。

）

第二节统计学的分科

第三节统计学与其他学科的关系第四节统计学的产生与发展

第二章统计数据的搜集

第一节数据的计量与类型

一、数据的计量尺度

1、定类尺度

计量层次最低；对事物进行平行的分类（无大小、好坏之分）；数据表现为“类别”；使用时必须符合类别穷尽和互斥的要求（如男、女性别）。

2、定序尺度

在对事物分类的同时给出各类别的顺序；比定类尺度精确；数据表现为“类别”，但有序；未测量出类别之间的准确差值（如成绩的优、良、差，不如100分制精确）。

3、定距尺度

对事物的准确测度；比定序尺度精确；数据表现为“数值”（如成绩的100分制的分数、温度差别、货币差别等）；没有绝对零点。

4、定比尺度

对事物的准确测度；与定距尺度处于同一层次；数据表现为“数值”；有绝对零点。

二、数据的类型和分析方法

非参数方法←品质数据：

定类数据、定序数据参数方法←数量数据：

定距数据、定比数据

三、统计指标及其类型

第二节统计数据的来源（直接来源、间接来源）

1、统计调查方式：

普查（一次性全面调查）、抽样调查（随机抽取）、统计报表、重点调查（选择少数重点进行调查）和典型调查（选择少数典型进行调查）

2、数据的搜集方法：

询问调查：

访问调查、邮寄调查、电话调查、电脑辅助、座谈会、个别探访观察实验：

观察法、实验法

第三节调查方案设计

1、调查方案的内容：

调查目的、调查对象和调查单位、调查项目和调查表、其他

第四节统计数据的质量

一、统计数据的误差

1、误差来源：

登记性误差（人为造成，可以消除）、代表性误差（用样本数据推断产生，无法消除）

二、统计数据的质量要求：

精度、准确性、关联性、及时性、一致性、最低成本

第三章统计数据的整理与显示

第一节数据的预处理

1、数据的审核：

审核的内容：

完整性审核；准确性审核；适用性审核；时效性审核

2、数据的筛选：

筛选的内容：

将某些不符合要求的数据或有明显错误的数据予以剔除；

将符合某种特定条件的数据筛选出来，不符合的予以剔出。

例子：

表3-1是8名学生4门课程的考试成绩数据（单位：

分）。

试找出统计学成绩等于

75分的学生，英语成绩最高的前三名学生，4门课程成绩都高于70分的学生。

3、数据的排序：

按一定顺序将数据排列，以发现一些明显的特征或趋势，找到解决问题的线索；定类、定距、定比数据的排序

第二节品质数据的整理与显示

一、定类数据的整理与显示

1、基本问题：

对定类数据和定序数据主要是做分类整理；对定距数据和定比数据则主要是做分组整理

2、基本过程：

列出各类别；计算各类别的频数；制作频数分布表；用图形显示数据

3、可计算的指标：

频数；比例；百分比；比率

4、例子：

一家市场调查公司为研究不同品牌饮料的市场占有率，对随机抽取的一家超市进行调查。

调查员在某天对50名顾客购买饮料的品牌进行了记录，如果一个顾客购买某一品牌的饮料，就将这一饮料的品牌名字记录一次。

二、定类数据的图示

1、条形图：

是用宽度相同的条形的高度或长短来表示数据变动的图形。

在表示定类数据的分布时，是用条形图的高度来表示各类别数据的频数或频率。

2、圆形图：

也称饼图，是用圆形及圆内扇形的面积来表示数值大小的图形。

主要用于表示总体中各组成部分所占的比例。

三、定序数据的整理与显示

1、可计算的指标：

累计频数（将各类别的频数逐级累加）；累计频率（将各类别的频率/

百分比逐级累加）

2、实例：

非常不满意、不满意、一般、满意、非常满意四、定序数据的图示

1、累计频数分布图

2、环形图：

中间有一个“空洞”，总体中的每一部分数据用环中的一段表示。

第三节数值型数据的整理与显示

一、数据的分组

1、基本概念：

数据分组：

根据统计研究的需要，将原始数据按某种标准划分成不同的组别。

分组数据：

分组后的数据。

组距：

一个组的上限值与下限值之差。

2、频数分布表的编制步骤：

确定组数、确定组距、计算频数、编制表格

（例子：

）某生产车间50名工人日加工零件数如表格。

试采用单变量值对数据进行分组。

3、分组方法：

单变量值分组；组距分组（等距分组；异距分组）

（1）单变量值分组：

将一个变量值作为一组；适合于离散变量或变量值较少的情况。

例如：

以生产零件个数为变量。

（2）组距分组：

将变量值的一个区间作为一组；适合于连续变量或变量值较多的情况；可采取等距分组或不等距分组。

例如：

每五个零件为一个区间（变量）。

分别有上下组限重叠、上下组限间断、使用开口组

一、数据的图示

1、分组数据的图示

（1）直方图：

用矩形的面积来表示各组的频数分布的图形；直方图下的总面积等于

1。

（2）直方图与条形图的区别：

条形图是用条形的长度表示各类别频数的多少，其宽度（表示类别）则是固定的，是分开排列；直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数，宽度则表示各组的组距，是连续排列。

（3）折线图：

在直方图的基础上，把直方图顶部的中点用直线连接起来，再把原来的直方图抹掉。

2、未分组数据的图示

（1）茎叶图：

以该组数据的高位数值作数茎，低位数值作树叶。

（2）箱线图：

由一组数据的5个特征值（最大值、最小值、中位数、上四分位数、下四分位数）绘制而成，它由一个箱子和两条线段组成。

3、时间序列数据—线图：

时间一般绘在横轴，指标数据绘在纵轴。

4、多变量数据—雷达图：

是显示多个变量的常用图示方法

第四节统计表

一、统计表的构成二、统计表的设计

第四章数据分布特征的测度

数据分布的特征和测度：

集中趋势：

众数、中位数、均值

离散程度：

异众比率、四分位差、方差和标准差、离散系数、标准分

数

第一节集中趋势的测度

分布的形状：

偏态、峰度

集中趋势：

一组数据向其中心值靠拢的倾向和程度；测度集中趋势就是寻找数据一般水平的代表值或中心值。

一、定类数据：

众数（一组数据中出现次数最多的变量值，称~；可能没有众数或有几个众数；主要用于定类数据，也可用于定序数据和数值型数据）

1、未分组数据的众数（定类数据的算例、定序数据的算例）：

例如M0=商品广告、不满意

2、分组数据的众数：

用于数值型分组数据；相邻两组的频数相等时，众数组的组中值即为众数，不相等时，众数采用下列近似公式计算：

（L众数组的下限值；f众数组的频数；f-1众数前一组的频数；f+1众数后一组的频数；

i众数的组距）

二、定序数据：

中位数和分位数（一组数据排序后，处于中间位置上的变量值，称中位数；一组数据排序后处于25%和75%位置上的值，称四分位数。

这两个都主要用于定序数据，也可用数值型数据，但不能用于定类数据。

）

1、中位数位置的确定：

未分组数据：

位置=N+1/2 组距分组数据：

位置=N/2

2、未分组数据的中位数的值计算公式：

Me=X（N+1/2）当N为奇数时；1/2（XN/2+XN/2+1）当N为偶数时

3、分组数据的中位数的值的计算公式（用于数值型分组数据）：

（L中位数所在组的下限；N/2中位数的位置；Sm-1中位数所在组前一组距的累积频数；fm中位数所在组的频数；i中位数所在组的组距）

4、四分位数位置的确定：

未分组数据：

位置=下四分位数N+1/4，上四分位数3（N+1）

/4 组距分组数据=下四分位数N/4，上四分位数3N/4

5、数值型分组数据的四分位数计算公式：

下四分位数QL=LL+[（N/4-SL）/fL]*iL

上四分位数（LUQ所在组的

下限值；N数据个数；SUQ所在组以前各组的累积频数；fUQ所在组的频数；iUQ所在组的组距）

三、定距和定比数据：

均值（用于数值型数据，不能用于定类数据和定序数据）

1、单变量或未分组数据的简单均值公式：

2、加权均值：

3、调和平均数（均值的另一种表现形式；用于定比数据，不能用于定类数据和定序数据）

4、几何平均数（N个变量值乘积的N次方根；适用于特殊的数据；主要用于计算平均发展速度）

四、众数、中位数和均值的比较

1、数据类型和所使用的集中趋势测度值定类数据：

众数

定序数据：

中位数、四分位数、众数

定距数据：

均值、众数、中位数、四分位数

定比数据：

均值、调和平均数、几何平均数、中位数、四分位数、众数

第二节离散程度的测度

离中趋势：

反映的是各变量值远离其中心值的程度，其各测度值就是对数据离散程度的描述。

一、定类数据：

异众比率（非众数组的频数占总频数的比率；用于衡量众数的代表程度）

1、计算公式：

Vr=1-（Fm众数组频数/变量值总频数）

二、定序数据：

四分位差（上四分位数与下四分位数之差；反映了中间50%数据的离散程度；用于衡量中位数的代表程度）

1、计算公式：

QD=QU-QL

三、定距和定比数据：

方差及标准差（各变量值与其均值离差平方和的平均数，为方差；方差的平方根，为标准差）

1、极差：

一组数据的最大值与最小值之差；离散程度的最简单测度值；未考虑数据的分布。

计算公式：

未分组数据=最大值-最小值，组距分组数据=最高值上限-最低组下限

2、平均差：

各变量值与其均值离差绝对值的平均数；能全面反映一组数据的离散程度。

计算公式：

未分组数据：

组距分组数据：

3、方差和标准差：

反映了各变量值与均值的平均差异；根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差。

计算公式：

方差：

未分组数据：

组距分组数据：

标准差：

未分组数据：

组距分组数据：

样本方差：

未分组数据：

组距分组数据：

样本标准差：

未分组数据：

组距分组数据：

4、标准化值（标准分数）：

给出某一个值在一组数据中的相对位置；可用于判断一组数据是否有离群点；用于对变量的标准化处理。

Z分数没有改变一个数据在该组数据中的位置，也没有改变该组数分布的形状，而只是将该组数据变为均值为0，标准差/方差为1。

计算公式为：

四、相对离散程度：

离散系数（一组数据的标准差与其相应的均值之比；测度了数据的相对离散程度；用于对不同组别数据离散程度的比较）

1、计算公式：

第三节偏态与峰度的测度

一、偏态及其测度

1、偏态：

对数据分布偏斜程度的测度；偏态系数等于0为对称分布，大于0为右偏分布，

小于0为左偏分布。

计算公式：

2、峰度：

数据分布扁平程度的测度；峰度系数等于3扁平程度适中；偏态系数小于3为

扁平分布；偏态系数大于3为尖峰分布。

计算公式：

第五章第一节随机事件（试验、事件和样本空间）：

1、试验：

在相同条件下，对事物或现象所进行的观察；可以在相同的条件下重复进行；每次试验的可能结果可能不止一个，但试验的所有可能结果在试验之前是确切知道的；在试验结束之前，不能确定该次试验的确切结果。

2、事件：

随机试验的每一个可能结果（任何样本点集合）。

3、样本空间：

一个试验中所有基本事件的集合。

第二节事件的概率

1、事件A的概率=P（A）：

是对事件A在试验中出现的可能性大小的一种度量；表示事件A出现可能性大小的数值

2、概率的古典定义：

如果某一随机试验的结果有限，而且各个结果在每次试验中出现的

可能性相同，则事件A发生的概率为该事件所包含的基本个数m与样本空间中所包含的基本事件个数n的比值，记为P（A）=m/n【区别特点：

有限结果；等可能性】

3、概率的统计定义：

在相同条件下进行n次随机试验，事件A出现m次，则比值m/n

展开阅读全文