一二章节绪论.docx

资源描述

一二章节绪论.docx

《一二章节绪论.docx》由会员分享，可在线阅读，更多相关《一二章节绪论.docx（17页珍藏版）》请在冰豆网上搜索。

一二章节绪论.docx

一二章节绪论

一二章、绪论现代统计学之父：

皮尔逊

描述统计与推断统计

描述统计主要研究如何整理、描述数据的特征。

推断统计主要研究如何通过局部数据所提供的信息推论总体特征。

变量类型

定类变量：

如，性别、学号、颜色类别、教学方法。

特征：

没有绝对零点，没有测量单位。

变量值之间有“相等〞和“不等〞的关系，但没有大小之分，不能比拟大小，更不能进行加、减、乘、除四那么运算。

定序变量：

程度、等级和水平。

如，比赛名次、品质等级、喜爱程度

特征：

既无零点、又无测量单位。

变量的值之间具有“等于〞或“不等于〞关系、序关系（优于、先于、劣于、后于等），四那么运算没有意义。

定比变量：

除了可以说知名称和排出大小，还能算出差异大小量的变量。

如温度、测验成绩、智商。

特征：

有相等的测量单位，无绝对零点。

考试成绩为零不表示没有一点知识。

可进行加减运算，乘除运算那么无意义。

定距变量：

如身高、重量、学生人数。

既有测量单位，又有绝对零点，可进行计算。

降低偏差：

利用随机抽样

降低变异性：

用大一点的样本

三、描述统计

一、频数：

某一事件在某一类别中出现的次数。

频数分布类型：

正态，正〔负〕偏态，正〔反〕J形，U形分布。

分布性质;集中〔分散〕程度，偏度和峰度不同。

偏态系数：

数据的对称性

峰态系数：

数据的峰度

二、集中量数：

包括算术平均数M、中位数Md、众数M0〔用众数代表一组数据，可靠性较差，

不过，众数不受极端数据的影响，并且求法简便〕、加权平均数MW、几何平均

数Mg、调和平均数MH。

组数据中有少数数据偏大或偏小，数据的分布呈偏态时，应用几何平均数。

算数平均数的性质〔算法必须会〕：

1〕每一个变量加减或乘除一个数之后，均值也相应增加。

2〕变量值与均值的离均差之和为零。

3〕变量值与均值的离均差平方和为最小值。

三、离散量数：

全距R、四分位差Q、平均差、方差〔样本统计量S2,总体参数2〕、标准差（s或者SD）、百分位差全距：

全部数据中的最大值与最小值的差，描述了数据分布的范围。

四分位差〔Q〕：

样本中间50%的人的全距的一半。

是一个距离，Q越大，表示样本中各样品越不整齐.

平均差：

全部数据与均值绝对离均差的均值。

方差：

各个数据偏离中心的程度。

方差越大，数据波动越大。

标准差：

方差的算术平方根。

自由度：

自由度是指当以样本的统计量来估计总体的参数时，样本中独立或能自由变化的数据的个数。

标准分数：

以标准差为单位表示一个原始分数在团体中所处的相对位置，即原始

分数在均值以上或以下几个标准差的位置。

性质：

标准分数的均值为0，标准差为1。

没有实际单位。

应用：

1〕、比拟不同性质的观测值在各自数据分布中相对位置的上下。

如身高与体重。

2〕计算不同质的观测值的总和或者均值，以表示在团体中的相对位置。

如高考的标准分。

3〕做线性转换后，表示标准测验分数。

如IQ。

图表

条形图，用于定性数据。

直方图与多边图：

用于定量数据

时序图：

反映事物变化趋势

饼图：

定性数据的多少或构成比例散点图:

两个变量的变化关系和变化方向。

茎叶图：

保存小样本连续变量的原貌。

三线表的组成要素包括：

表序、表题、工程栏、表体、表注五、随机变量分布正态分布XN（,2）------------------样本均值的分布正态分布曲线下的面积：

曲线高度是频数〔Y〕，曲线下面积那么是累积频数P〔也视作随机变量出现的概率〕。

X轴上的截距为Z。

其中，μ决定曲线的位置，σ决定曲线的“胖瘦〞。

无论各分布的均值与标准差的值是多少，x取值以下特定区域的概率（面积）是确定的，即：

正负一个标准差，占%，两个%，三个%标准正态分布：

均值为0，标准差为1.

总体服从正态分布N~（μ,2）时，来自该总体的所有容量为n的样本的均值

2X也服从正态分布，X的期望为μ，方差为σ2/n。

即X～N（μ,）

平均数的标准误

标准误衡量了抽样误差（samplingerror）的大小。

所谓抽样误差是指由抽样引起的样本统计量与总体参数间的差异。

标准误越小，统计量与参数越接近，样本对总体越有代表性，用统计量推断参数的可靠度越大，所以，标准误是推断统计可靠性的重要指标。

卡方分布：

变量相互独立，且服从N（0,1）分布的随机变量。

称随机变量服从自由

（）

度为为n的卡方分布。

记做

，x

卡方分布：

样本方差的分布〔样本方差的分布〕T分布：

随机变量X服从N（0,1），Y服从x2（n），且相互独立，那么随机变量服从自

由度为n的t分布，记做tt（n）.t

（X）

（X

X）2

来自一个正态总体：

t（N1）,其中，S

来自两个正态总体

（X1

X2）（12）

N1N2

t（N1

N22）,

SP为两样本的混合标准差。

（N11）S12

（N2

1）S22

其中，

N22

T分布的均值为0，方差为n/（n-2）.

t统计量是参数估计与假设检验的根底。

特点：

当样本容量趋于，t分布为正态分布，方差为1，

随自由度的减少，离散程度〔方差〕增大，分布中间变低，尾部变高。

F分布:

S12

F（N11,N21）----------两样本方差的比

S22

统计量主要用于方差分析、协方差分析、回归分析等。

六、参数估计参数估计：

当在研究中从样本获得一组数据后，如何通过这组信息，对总体特征进行估计，也就是如何从局部结果推论总体的情况，称为总体参数估计。

总体参数估计问题可以分为点估计与区间估计。

点估计：

用某一样本统计量的值来估计相应总体参数的值。

优良的估计量具有的性质：

无偏性、有效性、一致性。

区间估计：

按一定概率要求，由样本统计量的值估计总体参数值的所在范围。

原理：

抽样分布理论。

抽样分布的标准误的大小决定置信区间的长度。

置信区间：

指在某一置信度时，总体参数所在的区域长度。

置信度：

是作出某种推断时正确的可能性（概率）。

通常用（1－a）表示。

显著性水平：

即a，是指估计总体参数落在某一区间时可能犯错误的概率。

两个要素：

可靠性〔置信水平的上下〕和精确度〔区间长度〕。

置信水平为95%的置信区间确实切含义:

重复抽样N次，所得到的N个置信区间

中有95%个包含了总体参数。

影响区间估计精确度的因素：

1〕置信度（1－a）〔反比〕

2〕样本容量〔正比〕3〕总体数据的变异程度〔反比〕的置信区间：

X个标准误

单总体均值的区间估计：

方差，正态分布；Z

方差未知，t分布。

N（0,1）

两总体均值差异的区间估计：

T分布。