统计学.docx

上传人:b****5 文档编号:8335622 上传时间:2023-01-30 格式:DOCX 页数:15 大小:284.06KB
下载 相关 举报
统计学.docx_第1页
第1页 / 共15页
统计学.docx_第2页
第2页 / 共15页
统计学.docx_第3页
第3页 / 共15页
统计学.docx_第4页
第4页 / 共15页
统计学.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

统计学.docx

《统计学.docx》由会员分享,可在线阅读,更多相关《统计学.docx(15页珍藏版)》请在冰豆网上搜索。

统计学.docx

统计学

第一章导论

1、统计学的概念及统计学一词的三种含义

(1)统计工作:

是人们对客观事物数量方面进行调查研究的认识活动,包括数据资料的收集、整理和分析。

(2)统计资料:

是统计工作的成果,包括调查得到的经过整理具有信息价值的各种统计数据、图表和文字资料。

(3)统计学:

是一门收集、整理和分析统计数据的方法论科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。

2、掌握统计数据的基本类型

按照计量尺度:

分类数据、顺序数据、数值型数据。

按数据的收集方法:

观测数据和实验数据。

按描述对象与时间关系分为:

截面数据、时间序列数据、混合数据。

3、了解统计学的性质

统计学研究的对象是客观现象的数量方面。

统计学研究的是群体现象的数量特征与规律性。

统计学是一门方法论的科学。

4、统计学的产生发展

古典统计学时期(17世纪中叶至18世纪中叶)、近代统计学时期

(18世纪末到19世纪末)、现代统计学时期(20世纪初迄至今日)

5、了解统计学的分科

按统计方法的构成:

描述统计、推断统计

统计方法研究和应用:

理论统计学、应用统计学

6、掌握统计学中的几个基本概念

①总体和样本总体

总体:

据研究目的确定的所要研究的全部个别事物的集合,其中的每一个元素称为总体单位或个体

分为有限总体和无限总体

有限总体的范围能够明确确定,且元素的数目是有限的

无限总体所包括的元素是无限的,不可数的

样本:

从总体中抽取的一部分元素的集合

构成样本的元素的数目称为样本容量

总体和样本总体的特征

总体的特征

同质性:

构成总体的个别事物在某个方面(或某一点上)必须具有相同的性质;

变异性:

构成总体的个别事物除了至少在某一个方面具有相同的性质以外,其他方面应该存在差异;

大量性:

构成总体的个别事物要求足够的多,这是探究客观事物规律性的基础。

样本的特征:

构成样本的单位必须取自全及总体内部,不允许总体外部的单位参加抽样过程;

从一个全及总体中可以抽取许多个样本;

样本具有代表性;样本具有客观性。

②参数和统计量

参数:

来描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值

所关心的参数主要有总体均值、标准差、总体比例等

统计量:

用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数

③变量和变量值

概念:

可以取不同值的量,称为变量。

如商品销售额、受教育程度、产品的质量等级等;

变量的具体表现称为变量值,即数据

变量的分类:

(1)按其所受影响因素不同

确定性变量:

受确定性因素影响的变量

随机变量:

受随机因素影响的变量

(2)按其反映的特征不同

分类变量:

说明事物类别特征的变量

顺序变量:

说明事物顺序特征的变量

数值型变量:

说明事物数字特征的变量(连续、离散)

④标志与标志表现

标志是指总体单位所具有的属性和特征。

--在总体单位之间各有一定的具体表现,有的相同,有的不同。

--有品质标志和数量标志之分。

标志表现--各种属性和特征在总体单位身上的具体体现。

⑤统计指标与指标体系

统计指标

--反映统计总体数量特征的概念和数值。

--由两项基本要素构成的,即指标的概念(名称)和指标的取值。

(与标志有何区别?

--可以分为数量指标(如人口总数、企业总数、职工总数、工资总额等)和质量指标(粮食平均亩产量、职工平均工资、人口密度、出生率、死亡率等)。

指标体系

--由一系列相互联系的统计指标所组成的有机整体,用以反映所研究现象各方面相互依存相互制约的关系.

--指标体系的设置不但是客观现象的反映,而且也是人们对客观事物认识的结果。

第二章统计数据的收集整理与显示

一、统计数据的直接来源

来源于他人通过调查与实验的数据称为次级统计数据(间接数据);直接来源于自己进行调查与实验的数据称为初级统计数据(直接数据)

--次级统计数据主要是公开出版或公开报道的数据也有是尚未公开出版的数据。

--直接数据的来源:

专门组织的调查和科学实验

二、掌握调查方案的结构

1、调查目的;2、调查对象、调查单位和报告单位;3、调查项目和调查表;

4、调查时间、调查方式与方法;5、调查的组织工作

三、问卷的基本结构及提问、回答项目的设计

结构:

(1)问卷标题;

(2)问卷说明;(3)填写要求;(4)甄别部分;(5)主体内容;(6)编码;(7)背景。

提问:

1、提问的内容尽可能短

2、用词要确切、通俗{可按6W准则加以推敲。

6W即Who(谁),Where(何处),When(何时),Why(为什么),What(什么事),How(如何)}

3、一项提问只包含一项内容;

4、避免诱导性提问;

5、避免否定形式的提问;

6、避免敏感性问题。

回答:

①问题的安排应具有逻辑性;

②问题的顺序应先易后难;

③能引起被调查者兴趣的问题放在前面;

④开放性问题放在后面;

⑤版面格式的设计;

四、掌握统计数据整理及显示的方法

分类数据的图示方法主要包括:

(1)条形图;

(2)Pareto图;(3)对比条形;

(4)饼图;

顺序数据整理的主要方法---编制累积频数或累积频率分布表。

数值型数据整理的主要方法---数据分组和累积频数分布。

数值型数据的图示:

1.分组数据:

直方图

2.未分组数据:

(1)茎叶图

(2)箱线图

3.时间序列数据:

线图

4.多变量数据:

(1)散点图

(2)气泡图(3)雷达图(4)星座图(5)连接向量图

五、了解统计表的结构及设计

结构:

根据使用者的要求和数据的特点,统计表有多种具体形式,但不论哪种形式的统计表,从外形看都由表头、行标题、列标题和数字资料四个部分组成。

设计:

1.合理安排统计表的结构。

2.统计表的总标题、行标题、列标题都要能简明扼要地说明有关内容。

3.统计表的左右两端一律不封口;表的上下两端一般用粗线,其他的中间线都用细线隔开。

4.表中数据一般采用右对齐形式,有小数点时以小数点对齐,同栏数据要具有同一精确度;不要求填写或不可能有答案的表格单元,一般用“—”表示。

5.若使用的是次级资料,应在表的下方注明资料来源。

第三章数据分布特征的描述

一、分布集中趋势的测度

1、什么是集中趋势:

A、一组数据向其中心值靠拢的倾向和程度;

B、测度集中趋势就是寻找数据水平的代表值或中心值;

C、不同类型的数据用不同的集中趋势测度值;

D、注意:

低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层次的数据。

2、众数:

A、一组数据中出现次数最多的变量值(Mo);

B、适合于数据量较多时使用;

C、不受极端值的影响;

D、一组数据可能没有众数或有几个众数;

E、主要用于分类数据,也可用于顺序数据和数值型数据;

组距分组数据众数的计算公式

3、顺序数据----中位数

A、排序后处于中间位置上的值;

B、不受极端值的影响;

C、主要用于顺序数据,也可用数值型数据,但不能用于分类数据;

D、各变量值与中位数的离差绝对值之和最小,即

中位数(位置的确定)

未分组数据:

n+1/2;分组数据:

n/2=

组距分组数据中位数的计算公式

4、数值型数据---平均数:

平均数的定义----变量值的一般水平,通常也称为均值(mean),有算术均值、调和均值和几何均值。

(1)、算术平均数:

全部变量值之和与变量值个数相除所得到的结果。

按其计算形式又有简单算术平均数和加权算术平均数之分。

算术平均数(均值)特征:

a、集中趋势的最常用测度值;

b、一组数据的均衡点所在;

c、各变量值与其均值的离差之和等于零,即

d、各变量值与其均值的离差平方和最小,即

e、由组距分组资料计算的均值有近似值性质;

f、易受极端值的影响;主要用于数值型数据,不能用于分类数据和顺序数据

算术平均数的计算:

A、如果是未分组整理的原始资料,则直接将各个数据加总再除以数据的个数即得到平均数。

B、(加权算术平均数)根据分组整理的数据计算平均数时,需要先用每个组的变量值或组中值分别乘以各自的频数或频率,然后加总再除以总频数或总频率,即得算术平均数。

其计算公式为

权数及其起作用的条件:

用各组的组中值代表其实际数据计算算术平均数时,通常假定各组数据在组内是均匀分布的,相应的组中值近似等于各组的平均数。

权数:

衡量变量值相对重要性的数值。

各个变量值的权数要起作用必须具备两个条件:

 一是各个变量值之间有差异;

 二是各个变量值的权数有差异。

简单算术平均数是加权算术平均数在权数相等时的特例。

例:

某年级83名女生身高资料

身高人数比重

(CM)(人)(%)

150-15533.61

155-1601113.25

160-1653440.96

165-1702428.92

170以上1113.25

总计83100

(2)、调和平均数:

也称“倒数平均数”,它是对变量的倒数求平均,然后再取倒数而得到的平均数

A、平均数的另一种表现形式

B、易受极端值的影响

C、计算公式为

(3)、几何平均数

定义:

n个变量值乘积的n次方根

应用范围:

适用于比率数据的平均,主要用于计算平均发展速度、平均增长率、平均比率

应用的前提条件:

各个比率或速度的连乘积等于总比率或总速度;

相乘的各个比率或速度不为零或负值

几何平均数的计算方法:

A.简单几何平均数——适用于总体资料未经分组整理尚为原始资料的情况

B.加权几何平均数——适用于总体资料经过分组整理形成变量数列的情况

几何平均数的特点:

1.几何平均数受极端值的影响较算术平均数小。

2.如果变量值有负值,计算出的几何平均数就会成为负数或虚数。

3.它仅适用于具有等比或近似等比关系的数据。

4.几何平均数的对数是各变量值对数的算术平均数。

二、离散趋势的测度

概念:

数据分布的另一个重要特征;

反映各变量值远离其中心值的程度(离散程度);

从另一个侧面说明了集中趋势测度值的代表程度;

注意:

数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差;数据的离散程度越小,集中趋势的测度值对该组数据的代表性越好。

不同类型的数据有不同的离散程度测度值

(1)、分类数据:

异众比率

1.对分类数据离散程度的测度

2.非众数组的频数占总频数的比率

3.计算公式为

4.用于衡量众数的代表性

(2)、顺序数据----四分位差

对顺序数据离散程度的测度;

也称为内距或四分间距;

上四分位数与下四分位数之差QD=QU–QL;

反映了中间50%数据的离散程度;

用于衡量中位数的代表性。

(3)、极差(或全距)(R)

①离散程度的最简单测度值

②易受极端值影响

③未考虑数据的分布

计算公式为:

R=max(xi)-min(xi)

(4)、平均差

①各变量值与其均值离差绝对值的平均数

②能全面反映一组数据的离散程度

③数学性质较差,实际中应用较少

计算公式为:

未分组数据:

分组数据:

(5)、方差和标准差

方差:

各变量值与其平均数离差平方的平均数。

标准差:

即方差的算术平方根;其单位与原变量X的单位相同。

方差和标准差的计算也分为简单平均法和加权平均法。

对于总体数据和样本数据,计算公式略有不同

计算公式:

 

(6)、离散系数

标准差与其相应的均值之比

对数据相对离散程度的测度

消除了数据水平高低和计量单位的影响

4.用于对不同组别数据离散程度的比较

5.计算公式为

(7)相对位置的度量:

标准分数

1)也称标准化值

2)对某一个值在一组数据中相对位置的度量

3)可用于判断一组数据是否有离群点

4)用于对变量的标准化处理

5)计算公式为

标准分数(性质):

1.均值等于0

方差等于1

三、了解偏态与峰态的测度

1、数据分布偏斜程度的测度,数据分布的不对称性称为偏态。

计算偏态系数的方法有皮尔逊测度法和中心矩法两种。

皮尔逊测度法是利用算术平均数与众数的关系来测度数据分布偏斜程度的一种方法。

计算公式为:

中心矩法是指用标准差的三次方除三阶中心矩计算偏态系数的一种方法。

该偏态系数为

时,数据分布呈对称分布形态;

时,数据分布呈负(左)偏态;

时,数据分布呈正(右)偏态

2、峰态及其测定

峰度是统计学中描述数据分布的特征值,它以正态分布曲线为标准,反映分布曲线顶端相对于正态曲线顶端而言其平坦或尖峭的程度。

峰度分为高峰度和低峰度两种

频率分布中各变量值对众数的相对位置都较正态曲线更为密集,因而使其曲线呈陡峭形,称为高峰度;频率分布中各变量值对众数的相对位置都较正态曲线更分散,曲线较为平缓,称为低峰度,

第四章概率分布与抽样

一、了解大数定律和中心极限定理的意义

1、大数定律;又称大数法则,它阐述的是随机变量序列的前一些项的算术平均值在某种条件下收敛到某一常数的结论。

2、中心极限定理:

从均值为,方差为2的一个任意总体中重复抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。

中心极限定理的重要意义

1)确定了正态分布在各种分布中的首要地位,也回答了正态分布是最重要、最常见的分布。

2)揭示了正态分布的形成机制。

如果某一个量的变化受到许多种随机因素的影响,这种影响的总后果是各个因素的迭加,而且,这些因素中没有任何一个是起主导作用的,那么,这个量就是一个服从正态分布的随机变量。

3)提供了推断误差的计算思想方法,特别是大样本处理方法,但没有提供小样本下推断误差的计算方法。

二、掌握抽样方式的知识

1、概率抽样:

根据一个已知的概率来抽取样本单位,也称随机抽样,概率抽样有简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样等。

2、概率抽样优点:

调查结果可以用来推断总体;能估算出并能控制抽样误差。

缺点:

在大多数的案例中,相同规模的概率抽样的费用要比非概率抽样高;

概率抽样比非概率抽样的技术要求高需要更多的时间策划和实施。

3、相对于概率抽样而言,非概率抽样抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查

有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式。

三、掌握样本与统计量的概念

1、简单随机样本是指用简单随机抽样方法抽取的样本

2、样本统计量是样本的函数,依据不同的样本计算出来的值是不同的,所以统计量是随机变量,如样本均值,样本比例,样本方差等。

 

四、理解并掌握标准正态分布、2分布、t-分布、F分布的分位数。

1、2分布、t-分布、F分布均由正态分布导出的分布

2、2分布的性质和特点:

①由于2分布变量为正态变量的平方和,故分布的变量值始终为正。

②可加性:

若U和V为两个独立的服从2分布的随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布。

③n个独立正态变量平方和称为有n个自由度的c2-分布,记为c2(n)。

c2-分布为一族分布,成员由自由度区分。

④分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称。

⑤期望为E

(2)=n,方差为D

(2)=2n(n为自由度)

3、t分布的构造及性质

①由统计学家哥赛特(W.S.Gosset)于1908年提出,并以其笔名命名。

②构造:

若~N(0,1),~2(n),与独立,则

t(n)称为自由度为n的t分布。

③基本性质:

(1)f(t)关于t=0(纵轴)对称。

(2)f(t)的极限为N(0,1)的密度函数,即

4、F分布的构造

①由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的第一个字母来命名

②构造:

设若U为服从自由度为n1的2分布,即U~2(n1),V为服从自由度为n2的2分布,即V~2(n2),且U和V相互独立,则

称F为服从自由度n1和n2的F分布,记为

五。

掌握常用的抽样分布

1、样本均值抽样分布的含义

1)在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布

2)一种理论概率分布

3)是推断总体均值的理论基础

2、样本比例(成数)的抽样分布含义

1)总体(或样本)中具有某种属性的单位数与全部单位总数之比

①不同性别的人与全部人数之比

②合格品(或不合格品)与全部产品总数之比

2)总体比例可表示为

3)样本比例可表示为

样本比例抽样分布的含义及形式:

在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。

一种理论概率分布。

当样本容量很大时(np≥5和n(1-p)≥5),样本比例的抽样分布可用正态分布近似。

推断总体比例的理论基础。

3、样本方差的抽样分布

在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布

对于来自正态总体的简单随机样本,则比值

的抽样分布服从自由度为(n-1)的2分布,即

第五章参数估计与假设检验

一、点估计量的定义及评价标准

1、点估计是通过样本估计量的某一次估计值来推断总体参数的可能取值

2、评价准则:

(1)无偏性:

估计量

的期望等于总体参数,即

该估计量称为无偏估计量。

(2)、有效性:

的无偏估计时,方差

越小,无偏估计越有效。

(3)、一致性:

对于无限总体,如果对任意

则称

的一致估计。

(4)、充分性:

估计量如能包含样本中关于未知参数的全部信息,即为充分量。

二、掌握单总体均值、成数、方差的区间估计。

(掌握区间估计的方法、步骤。

理解置信度、精确度。

样本容量之间的关系公式6—12)

三、样本容量的影响因素、确定方法(公式5.16/5.17)

调查误差、样本容量、调查费用

1、必要样本容量的影响因素:

总体方差的大小;极限误差的大小;置信水平;抽样方法;抽样的组织方式

 

四、掌握单总体的参数检验(两类错误及其关系;P值得检验法;总体均值、成数和方差的检验方法、假设检验的步骤)

1、所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否拒绝原假设。

2、由于假设检验是根据有限的随机样本信息来推断总体特征,而样本的随机性可能致使判断出错。

第I类错误:

当原假设为真时,而拒绝原假设所犯的错误,称为第I类错误或弃真错误。

易知犯第I类错误的概率就是显著性水平

第II类错误:

当原假设为假时,不拒绝原假设所犯的错误,称为第II类错误或采伪错误。

犯第II类错误的概率常用表示:

3、P值及决策规则

1)在零假设为真的条件下,检验统计量取其计算值或更加极端值(沿着备择假设的方向)的概率称为p值(p-value)。

2)反映实际观测到的数据与原假设H0之间不一致的程度

3)也称为观察到的(或实测的)显著性水平

4)决策规则:

若p值≤a,拒绝H0

检验P值得方法;双侧检验的P值、左侧检验的P值、右侧检验的P值

4、

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 数学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1