《统计学笔记.docx
《《统计学笔记.docx》由会员分享,可在线阅读,更多相关《《统计学笔记.docx(16页珍藏版)》请在冰豆网上搜索。
第一节统计与统计学
统计学笔记
第一章绪论
(统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。
)
第二节统计学的分科
第三节统计学与其他学科的关系第四节统计学的产生与发展
第二章统计数据的搜集
第一节数据的计量与类型
一、 数据的计量尺度
1、定类尺度
计量层次最低;对事物进行平行的分类(无大小、好坏之分);数据表现为“类别”;使用时必须符合类别穷尽和互斥的要求(如男、女性别)。
2、定序尺度
在对事物分类的同时给出各类别的顺序;比定类尺度精确;数据表现为“类别”,但有序;未测量出类别之间的准确差值(如成绩的优、良、差,不如100分制精确)。
3、定距尺度
对事物的准确测度;比定序尺度精确;数据表现为“数值”(如成绩的100分制的分数、温度差别、货币差别等);没有绝对零点。
4、定比尺度
对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点。
二、 数据的类型和分析方法
非参数方法←品质数据:
定类数据、定序数据参数方法←数量数据:
定距数据、定比数据
三、 统计指标及其类型
第二节统计数据的来源(直接来源、间接来源)
1、统计调查方式:
普查(一次性全面调查)、抽样调查(随机抽取)、统计报表、重点调查(选择少数重点进行调查)和典型调查(选择少数典型进行调查)
2、数据的搜集方法:
询问调查:
访问调查、邮寄调查、电话调查、电脑辅助、座谈会、个别探访观察实验:
观察法、实验法
第三节调查方案设计
1、调查方案的内容:
调查目的、调查对象和调查单位、调查项目和调查表、其他
第四节统计数据的质量
一、 统计数据的误差
1、误差来源:
登记性误差(人为造成,可以消除)、代表性误差(用样本数据推断产生,无法消除)
二、 统计数据的质量要求:
精度、准确性、关联性、及时性、一致性、最低成本
第三章统计数据的整理与显示
第一节数据的预处理
1、数据的审核:
审核的内容:
完整性审核;准确性审核;适用性审核;时效性审核
2、数据的筛选:
筛选的内容:
将某些不符合要求的数据或有明显错误的数据予以剔除;
将符合某种特定条件的数据筛选出来,不符合的予以剔出。
例子:
表3-1是8名学生4门课程的考试成绩数据(单位:
分)。
试找出统计学成绩等于
75分的学生,英语成绩最高的前三名学生,4门课程成绩都高于70分的学生。
3、数据的排序:
按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索;定类、定距、定比数据的排序
第二节品质数据的整理与显示
一、 定类数据的整理与显示
1、基本问题:
对定类数据和定序数据主要是做分类整理;对定距数据和定比数据则主要是做分组整理
2、基本过程:
列出各类别;计算各类别的频数;制作频数分布表;用图形显示数据
3、可计算的指标:
频数;比例;百分比;比率
4、例子:
一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行调查。
调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。
二、 定类数据的图示
1、条形图:
是用宽度相同的条形的高度或长短来表示数据变动的图形。
在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率。
2、圆形图:
也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。
主要用于表示总体中各组成部分所占的比例。
三、 定序数据的整理与显示
1、可计算的指标:
累计频数(将各类别的频数逐级累加);累计频率(将各类别的频率/
百分比逐级累加)
2、实例:
非常不满意、不满意、一般、满意、非常满意四、 定序数据的图示
1、累计频数分布图
2、环形图:
中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。
第三节数值型数据的整理与显示
一、 数据的分组
1、基本概念:
数据分组:
根据统计研究的需要,将原始数据按某种标准划分成不同的组别。
分组数据:
分组后的数据。
组距:
一个组的上限值与下限值之差。
2、频数分布表的编制步骤:
确定组数、确定组距、计算频数、编制表格
(例子:
)某生产车间50名工人日加工零件数如表格。
试采用单变量值对数据进行分组。
3、分组方法:
单变量值分组;组距分组(等距分组;异距分组)
(1)单变量值分组:
将一个变量值作为一组;适合于离散变量或变量值较少的情况。
例如:
以生产零件个数为变量。
(2)组距分组:
将变量值的一个区间作为一组;适合于连续变量或变量值较多的情况;可采取等距分组或不等距分组。
例如:
每五个零件为一个区间(变量)。
分别有上下组限重叠、上下组限间断、使用开口组
一、 数据的图示
1、分组数据的图示
(1)直方图:
用矩形的面积来表示各组的频数分布的图形;直方图下的总面积等于
1。
(2)直方图与条形图的区别:
条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的,是分开排列;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数,宽度则表示各组的组距,是连续排列。
(3)折线图:
在直方图的基础上,把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉。
2、未分组数据的图示
(1)茎叶图:
以该组数据的高位数值作数茎,低位数值作树叶。
(2)箱线图:
由一组数据的5个特征值(最大值、最小值、中位数、上四分位数、下四分位数)绘制而成,它由一个箱子和两条线段组成。
3、时间序列数据—线图:
时间一般绘在横轴,指标数据绘在纵轴。
4、多变量数据—雷达图:
是显示多个变量的常用图示方法
第四节统计表
一、 统计表的构成二、 统计表的设计
第四章数据分布特征的测度
数据分布的特征和测度:
集中趋势:
众数、中位数、均值
离散程度:
异众比率、四分位差、方差和标准差、离散系数、标准分
数
第一节集中趋势的测度
分布的形状:
偏态、峰度
集中趋势:
一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值。
一、 定类数据:
众数(一组数据中出现次数最多的变量值,称~;可能没有众数或有几个众数;主要用于定类数据,也可用于定序数据和数值型数据)
1、未分组数据的众数(定类数据的算例、定序数据的算例):
例如M0=商品广告、不满意
2、分组数据的众数:
用于数值型分组数据;相邻两组的频数相等时,众数组的组中值即为众数,不相等时,众数采用下列近似公式计算:
(L众数组的下限值;f众数组的频数;f-1众数前一组的频数;f+1众数后一组的频数;
i众数的组距)
二、 定序数据:
中位数和分位数(一组数据排序后,处于中间位置上的变量值,称中位数;一组数据排序后处于25%和75%位置上的值,称四分位数。
这两个都主要用于定序数据,也可用数值型数据,但不能用于定类数据。
)
1、中位数位置的确定:
未分组数据:
位置=N+1/2 组距分组数据:
位置=N/2
2、未分组数据的中位数的值计算公式:
Me=X(N+1/2)当N为奇数时;1/2(XN/2+XN/2+1)当N为偶数时
3、分组数据的中位数的值的计算公式(用于数值型分组数据):
(L中位数所在组的下限;N/2中位数的位置;Sm-1中位数所在组前一组距的累积频数;fm中位数所在组的频数;i中位数所在组的组距)
4、四分位数位置的确定:
未分组数据:
位置=下四分位数N+1/4,上四分位数3(N+1)
/4 组距分组数据=下四分位数N/4,上四分位数3N/4
5、数值型分组数据的四分位数计算公式:
下四分位数QL=LL+[(N/4-SL)/fL]*iL
上四分位数 (LUQ所在组的
下限值;N数据个数;SUQ所在组以前各组的累积频数;fUQ所在组的频数;iUQ所在组的组距)
三、 定距和定比数据:
均值(用于数值型数据,不能用于定类数据和定序数据)
1、单变量或未分组数据的简单均值公式:
2、加权均值:
3、调和平均数(均值的另一种表现形式;用于定比数据,不能用于定类数据和定序数据)
4、几何平均数(N个变量值乘积的N次方根;适用于特殊的数据;主要用于计算平均发展速度)
四、 众数、中位数和均值的比较
1、数据类型和所使用的集中趋势测度值定类数据:
众数
定序数据:
中位数、四分位数、众数
定距数据:
均值、众数、中位数、四分位数
定比数据:
均值、调和平均数、几何平均数、中位数、四分位数、众数
第二节离散程度的测度
离中趋势:
反映的是各变量值远离其中心值的程度,其各测度值就是对数据离散程度的描述。
一、 定类数据:
异众比率(非众数组的频数占总频数的比率;用于衡量众数的代表程度)
1、计算公式:
Vr=1-(Fm众数组频数/变量值总频数)
二、 定序数据:
四分位差(上四分位数与下四分位数之差;反映了中间50%数据的离散程度;用于衡量中位数的代表程度)
1、计算公式:
QD=QU-QL
三、 定距和定比数据:
方差及标准差(各变量值与其均值离差平方和的平均数,为方差;方差的平方根,为标准差)
1、极差:
一组数据的最大值与最小值之差;离散程度的最简单测度值;未考虑数据的分布。
计算公式:
未分组数据=最大值-最小值,组距分组数据=最高值上限-最低组下限
2、平均差:
各变量值与其均值离差绝对值的平均数;能全面反映一组数据的离散程度。
计算公式:
未分组数据:
组距分组数据:
3、方差和标准差:
反映了各变量值与均值的平均差异;根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。
计算公式:
方差:
未分组数据:
组距分组数据:
标准差:
未分组数据:
组距分组数据:
样本方差:
未分组数据:
组距分组数据:
样本标准差:
未分组数据:
组距分组数据:
4、标准化值(标准分数):
给出某一个值在一组数据中的相对位置;可用于判断一组数据是否有离群点;用于对变量的标准化处理。
Z分数没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差/方差为1。
计算公式为:
四、 相对离散程度:
离散系数(一组数据的标准差与其相应的均值之比;测度了数据的相对离散程度;用于对不同组别数据离散程度的比较)
1、计算公式:
第三节偏态与峰度的测度
一、 偏态及其测度
1、偏态:
对数据分布偏斜程度的测度;偏态系数等于0为对称分布,大于0为右偏分布,
小于0为左偏分布。
计算公式:
2、峰度:
数据分布扁平程度的测度;峰度系数等于3扁平程度适中;偏态系数小于3为
扁平分布;偏态系数大于3为尖峰分布。
计算公式:
第五章第一节 随机事件(试验、事件和样本空间):
1、试验:
在相同条件下,对事物或现象所进行的观察;可以在相同的条件下重复进行;每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的;在试验结束之前,不能确定该次试验的确切结果。
2、事件:
随机试验的每一个可能结果(任何样本点集合)。
3、样本空间:
一个试验中所有基本事件的集合。
第二节 事件的概率
1、事件A的概率=P(A):
是对事件A在试验中出现的可能性大小的一种度量;表示事件A出现可能性大小的数值
2、概率的古典定义:
如果某一随机试验的结果有限,而且各个结果在每次试验中出现的
可能性相同,则事件A发生的概率为该事件所包含的基本个数m与样本空间中所包含的基本事件个数n的比值,记为P(A)=m/n【区别特点:
有限结果;等可能性】
3、概率的统计定义:
在相同条件下进行n次随机试验,事件A出现m次,则比值m/n