《统计学笔记.docx

上传人:b****9 文档编号:154021 上传时间:2022-10-04 格式:DOCX 页数:16 大小:188.70KB
下载 相关 举报
《统计学笔记.docx_第1页
第1页 / 共16页
《统计学笔记.docx_第2页
第2页 / 共16页
《统计学笔记.docx_第3页
第3页 / 共16页
《统计学笔记.docx_第4页
第4页 / 共16页
《统计学笔记.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

《统计学笔记.docx

《《统计学笔记.docx》由会员分享,可在线阅读,更多相关《《统计学笔记.docx(16页珍藏版)》请在冰豆网上搜索。

《统计学笔记.docx

第一节统计与统计学

统计学笔记

第一章绪论

(统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。

第二节统计学的分科

第三节统计学与其他学科的关系第四节统计学的产生与发展

第二章统计数据的搜集

第一节数据的计量与类型

一、 数据的计量尺度

1、定类尺度

计量层次最低;对事物进行平行的分类(无大小、好坏之分);数据表现为“类别”;使用时必须符合类别穷尽和互斥的要求(如男、女性别)。

2、定序尺度

在对事物分类的同时给出各类别的顺序;比定类尺度精确;数据表现为“类别”,但有序;未测量出类别之间的准确差值(如成绩的优、良、差,不如100分制精确)。

3、定距尺度

对事物的准确测度;比定序尺度精确;数据表现为“数值”(如成绩的100分制的分数、温度差别、货币差别等);没有绝对零点。

4、定比尺度

对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点。

二、 数据的类型和分析方法

非参数方法←品质数据:

定类数据、定序数据参数方法←数量数据:

定距数据、定比数据

三、 统计指标及其类型

第二节统计数据的来源(直接来源、间接来源)

1、统计调查方式:

普查(一次性全面调查)、抽样调查(随机抽取)、统计报表、重点调查(选择少数重点进行调查)和典型调查(选择少数典型进行调查)

2、数据的搜集方法:

询问调查:

访问调查、邮寄调查、电话调查、电脑辅助、座谈会、个别探访观察实验:

观察法、实验法

第三节调查方案设计

1、调查方案的内容:

调查目的、调查对象和调查单位、调查项目和调查表、其他

第四节统计数据的质量

一、 统计数据的误差

1、误差来源:

登记性误差(人为造成,可以消除)、代表性误差(用样本数据推断产生,无法消除)

二、 统计数据的质量要求:

精度、准确性、关联性、及时性、一致性、最低成本

第三章统计数据的整理与显示

第一节数据的预处理

1、数据的审核:

审核的内容:

完整性审核;准确性审核;适用性审核;时效性审核

2、数据的筛选:

筛选的内容:

将某些不符合要求的数据或有明显错误的数据予以剔除;

将符合某种特定条件的数据筛选出来,不符合的予以剔出。

例子:

表3-1是8名学生4门课程的考试成绩数据(单位:

分)。

试找出统计学成绩等于

75分的学生,英语成绩最高的前三名学生,4门课程成绩都高于70分的学生。

3、数据的排序:

按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索;定类、定距、定比数据的排序

第二节品质数据的整理与显示

一、 定类数据的整理与显示

1、基本问题:

对定类数据和定序数据主要是做分类整理;对定距数据和定比数据则主要是做分组整理

2、基本过程:

列出各类别;计算各类别的频数;制作频数分布表;用图形显示数据

3、可计算的指标:

频数;比例;百分比;比率

4、例子:

一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行调查。

调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。

二、 定类数据的图示

1、条形图:

是用宽度相同的条形的高度或长短来表示数据变动的图形。

在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率。

2、圆形图:

也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。

主要用于表示总体中各组成部分所占的比例。

三、 定序数据的整理与显示

1、可计算的指标:

累计频数(将各类别的频数逐级累加);累计频率(将各类别的频率/

百分比逐级累加)

2、实例:

非常不满意、不满意、一般、满意、非常满意四、 定序数据的图示

1、累计频数分布图

2、环形图:

中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。

第三节数值型数据的整理与显示

一、 数据的分组

1、基本概念:

数据分组:

根据统计研究的需要,将原始数据按某种标准划分成不同的组别。

分组数据:

分组后的数据。

组距:

一个组的上限值与下限值之差。

2、频数分布表的编制步骤:

确定组数、确定组距、计算频数、编制表格

(例子:

)某生产车间50名工人日加工零件数如表格。

试采用单变量值对数据进行分组。

3、分组方法:

单变量值分组;组距分组(等距分组;异距分组)

(1)单变量值分组:

将一个变量值作为一组;适合于离散变量或变量值较少的情况。

例如:

以生产零件个数为变量。

(2)组距分组:

将变量值的一个区间作为一组;适合于连续变量或变量值较多的情况;可采取等距分组或不等距分组。

例如:

每五个零件为一个区间(变量)。

分别有上下组限重叠、上下组限间断、使用开口组

一、 数据的图示

1、分组数据的图示

(1)直方图:

用矩形的面积来表示各组的频数分布的图形;直方图下的总面积等于

1。

(2)直方图与条形图的区别:

条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的,是分开排列;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数,宽度则表示各组的组距,是连续排列。

(3)折线图:

在直方图的基础上,把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉。

2、未分组数据的图示

(1)茎叶图:

以该组数据的高位数值作数茎,低位数值作树叶。

(2)箱线图:

由一组数据的5个特征值(最大值、最小值、中位数、上四分位数、下四分位数)绘制而成,它由一个箱子和两条线段组成。

3、时间序列数据—线图:

时间一般绘在横轴,指标数据绘在纵轴。

4、多变量数据—雷达图:

是显示多个变量的常用图示方法

第四节统计表

一、 统计表的构成二、 统计表的设计

第四章数据分布特征的测度

数据分布的特征和测度:

集中趋势:

众数、中位数、均值

离散程度:

异众比率、四分位差、方差和标准差、离散系数、标准分

第一节集中趋势的测度



分布的形状:

偏态、峰度

集中趋势:

一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值。

一、 定类数据:

众数(一组数据中出现次数最多的变量值,称~;可能没有众数或有几个众数;主要用于定类数据,也可用于定序数据和数值型数据)

1、未分组数据的众数(定类数据的算例、定序数据的算例):

例如M0=商品广告、不满意

2、分组数据的众数:

用于数值型分组数据;相邻两组的频数相等时,众数组的组中值即为众数,不相等时,众数采用下列近似公式计算:

(L众数组的下限值;f众数组的频数;f-1众数前一组的频数;f+1众数后一组的频数;

i众数的组距)

二、 定序数据:

中位数和分位数(一组数据排序后,处于中间位置上的变量值,称中位数;一组数据排序后处于25%和75%位置上的值,称四分位数。

这两个都主要用于定序数据,也可用数值型数据,但不能用于定类数据。

1、中位数位置的确定:

未分组数据:

位置=N+1/2 组距分组数据:

位置=N/2

2、未分组数据的中位数的值计算公式:

Me=X(N+1/2)当N为奇数时;1/2(XN/2+XN/2+1)当N为偶数时

3、分组数据的中位数的值的计算公式(用于数值型分组数据):

(L中位数所在组的下限;N/2中位数的位置;Sm-1中位数所在组前一组距的累积频数;fm中位数所在组的频数;i中位数所在组的组距)

4、四分位数位置的确定:

未分组数据:

位置=下四分位数N+1/4,上四分位数3(N+1)

/4 组距分组数据=下四分位数N/4,上四分位数3N/4

5、数值型分组数据的四分位数计算公式:

下四分位数QL=LL+[(N/4-SL)/fL]*iL

上四分位数 (LUQ所在组的

下限值;N数据个数;SUQ所在组以前各组的累积频数;fUQ所在组的频数;iUQ所在组的组距)

三、 定距和定比数据:

均值(用于数值型数据,不能用于定类数据和定序数据)

1、单变量或未分组数据的简单均值公式:

2、加权均值:

3、调和平均数(均值的另一种表现形式;用于定比数据,不能用于定类数据和定序数据)

4、几何平均数(N个变量值乘积的N次方根;适用于特殊的数据;主要用于计算平均发展速度)

四、 众数、中位数和均值的比较

1、数据类型和所使用的集中趋势测度值定类数据:

众数

定序数据:

中位数、四分位数、众数

定距数据:

均值、众数、中位数、四分位数

定比数据:

均值、调和平均数、几何平均数、中位数、四分位数、众数

第二节离散程度的测度

离中趋势:

反映的是各变量值远离其中心值的程度,其各测度值就是对数据离散程度的描述。

一、 定类数据:

异众比率(非众数组的频数占总频数的比率;用于衡量众数的代表程度)

1、计算公式:

Vr=1-(Fm众数组频数/变量值总频数)

二、 定序数据:

四分位差(上四分位数与下四分位数之差;反映了中间50%数据的离散程度;用于衡量中位数的代表程度)

1、计算公式:

QD=QU-QL

三、 定距和定比数据:

方差及标准差(各变量值与其均值离差平方和的平均数,为方差;方差的平方根,为标准差)

1、极差:

一组数据的最大值与最小值之差;离散程度的最简单测度值;未考虑数据的分布。

计算公式:

未分组数据=最大值-最小值,组距分组数据=最高值上限-最低组下限

2、平均差:

各变量值与其均值离差绝对值的平均数;能全面反映一组数据的离散程度。

计算公式:

未分组数据:

组距分组数据:

3、方差和标准差:

反映了各变量值与均值的平均差异;根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。

计算公式:

方差:

未分组数据:

组距分组数据:

标准差:

未分组数据:

组距分组数据:

样本方差:

未分组数据:

组距分组数据:

样本标准差:

未分组数据:

组距分组数据:

4、标准化值(标准分数):

给出某一个值在一组数据中的相对位置;可用于判断一组数据是否有离群点;用于对变量的标准化处理。

Z分数没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差/方差为1。

计算公式为:

四、 相对离散程度:

离散系数(一组数据的标准差与其相应的均值之比;测度了数据的相对离散程度;用于对不同组别数据离散程度的比较)

1、计算公式:

第三节偏态与峰度的测度

一、 偏态及其测度

1、偏态:

对数据分布偏斜程度的测度;偏态系数等于0为对称分布,大于0为右偏分布,

小于0为左偏分布。

计算公式:

2、峰度:

数据分布扁平程度的测度;峰度系数等于3扁平程度适中;偏态系数小于3为

扁平分布;偏态系数大于3为尖峰分布。

计算公式:

第五章第一节 随机事件(试验、事件和样本空间):

1、试验:

在相同条件下,对事物或现象所进行的观察;可以在相同的条件下重复进行;每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的;在试验结束之前,不能确定该次试验的确切结果。

2、事件:

随机试验的每一个可能结果(任何样本点集合)。

3、样本空间:

一个试验中所有基本事件的集合。

第二节 事件的概率

1、事件A的概率=P(A):

是对事件A在试验中出现的可能性大小的一种度量;表示事件A出现可能性大小的数值

2、概率的古典定义:

如果某一随机试验的结果有限,而且各个结果在每次试验中出现的

可能性相同,则事件A发生的概率为该事件所包含的基本个数m与样本空间中所包含的基本事件个数n的比值,记为P(A)=m/n【区别特点:

有限结果;等可能性】

3、概率的统计定义:

在相同条件下进行n次随机试验,事件A出现m次,则比值m/n

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1