一二章节绪论.docx
《一二章节绪论.docx》由会员分享,可在线阅读,更多相关《一二章节绪论.docx(17页珍藏版)》请在冰豆网上搜索。
一二章节绪论
一二章、绪论现代统计学之父:
皮尔逊
描述统计与推断统计
描述统计主要研究如何整理、描述数据的特征。
推断统计主要研究如何通过局部数据所提供的信息推论总体特征。
变量类型
定类变量:
如,性别、学号、颜色类别、教学方法。
特征:
没有绝对零点,没有测量单位。
变量值之间有“相等〞和“不等〞的关系,但没有大小之分,不能比拟大小,更不能进行加、减、乘、除四那么运算。
定序变量:
程度、等级和水平。
如,比赛名次、品质等级、喜爱程度
特征:
既无零点、又无测量单位。
变量的值之间具有“等于〞或“不等于〞关系、序关系(优于、先于、劣于、后于等),四那么运算没有意义。
定比变量:
除了可以说知名称和排出大小,还能算出差异大小量的变量。
如温度、测验成绩、智商。
特征:
有相等的测量单位,无绝对零点。
考试成绩为零不表示没有一点知识。
可进行加减运算,乘除运算那么无意义。
定距变量:
如身高、重量、学生人数。
既有测量单位,又有绝对零点,可进行计算。
降低偏差:
利用随机抽样
降低变异性:
用大一点的样本
三、描述统计
一、频数:
某一事件在某一类别中出现的次数。
频数分布类型:
正态,正〔负〕偏态,正〔反〕J形,U形分布。
分布性质;集中〔分散〕程度,偏度和峰度不同。
偏态系数:
数据的对称性
峰态系数:
数据的峰度
二、集中量数:
包括算术平均数M、中位数Md、众数M0〔用众数代表一组数据,可靠性较差,
不过,众数不受极端数据的影响,并且求法简便〕、加权平均数MW、几何平均
数Mg、调和平均数MH。
组数据中有少数数据偏大或偏小,数据的分布呈偏态时,应用几何平均数。
算数平均数的性质〔算法必须会〕:
1〕每一个变量加减或乘除一个数之后,均值也相应增加。
2〕变量值与均值的离均差之和为零。
3〕变量值与均值的离均差平方和为最小值。
三、离散量数:
全距R、四分位差Q、平均差、方差〔样本统计量S2,总体参数2〕、标准差(s或者SD)、百分位差全距:
全部数据中的最大值与最小值的差,描述了数据分布的范围。
四分位差〔Q〕:
样本中间50%的人的全距的一半。
是一个距离,Q越大,表示样本中各样品越不整齐.
平均差:
全部数据与均值绝对离均差的均值。
方差:
各个数据偏离中心的程度。
方差越大,数据波动越大。
标准差:
方差的算术平方根。
自由度:
自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。
标准分数:
以标准差为单位表示一个原始分数在团体中所处的相对位置,即原始
分数在均值以上或以下几个标准差的位置。
性质:
标准分数的均值为0,标准差为1。
没有实际单位。
应用:
1〕、比拟不同性质的观测值在各自数据分布中相对位置的上下。
如身高与体重。
2〕计算不同质的观测值的总和或者均值,以表示在团体中的相对位置。
如高考的标准分。
3〕做线性转换后,表示标准测验分数。
如IQ。
图表
条形图,用于定性数据。
直方图与多边图:
用于定量数据
时序图:
反映事物变化趋势
饼图:
定性数据的多少或构成比例散点图:
两个变量的变化关系和变化方向。
茎叶图:
保存小样本连续变量的原貌。
三线表的组成要素包括:
表序、表题、工程栏、表体、表注五、随机变量分布正态分布XN(,2)------------------样本均值的分布正态分布曲线下的面积:
曲线高度是频数〔Y〕,曲线下面积那么是累积频数P〔也视作随机变量出现的概率〕。
X轴上的截距为Z。
其中,μ决定曲线的位置,σ决定曲线的“胖瘦〞。
无论各分布的均值与标准差的值是多少,x取值以下特定区域的概率(面积)是确定的,即:
正负一个标准差,占%,两个%,三个%标准正态分布:
均值为0,标准差为1.
总体服从正态分布N~(μ,2)时,来自该总体的所有容量为n的样本的均值
2X也服从正态分布,X的期望为μ,方差为σ2/n。
即X~N(μ,)
n
平均数的标准误
X
N
标准误衡量了抽样误差(samplingerror)的大小。
所谓抽样误差是指由抽样引起的样本统计量与总体参数间的差异。
标准误越小,统计量与参数越接近,样本对总体越有代表性,用统计量推断参数的可靠度越大,所以,标准误是推断统计可靠性的重要指标。
卡方分布:
变量相互独立,且服从N(0,1)分布的随机变量。
称随机变量服从自由
2
2
()
n
度为为n的卡方分布。
记做
x
x
,x
2
2
n
xi
i1
卡方分布:
样本方差的分布〔样本方差的分布〕T分布:
随机变量X服从N(0,1),Y服从x2(n),且相互独立,那么随机变量服从自
由度为n的t分布,记做tt(n).t
X
.
Y
n
(X)
(X
X)2
来自一个正态总体:
t
t(N1),其中,S
1
S
N
N
来自两个正态总体
(X1
X2)(12)
N1N2
t(N1
N22),
t
SP
N1
N2
SP为两样本的混合标准差。
(N11)S12
(N2
1)S22
其中,
SP
N1
N22
T分布的均值为0,方差为n/(n-2).
t统计量是参数估计与假设检验的根底。
特点:
当样本容量趋于,t分布为正态分布,方差为1,
随自由度的减少,离散程度〔方差〕增大,分布中间变低,尾部变高。
F分布:
F
S12
F(N11,N21)----------两样本方差的比
S22
统计量主要用于方差分析、协方差分析、回归分析等。
六、参数估计参数估计:
当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。
总体参数估计问题可以分为点估计与区间估计。
点估计:
用某一样本统计量的值来估计相应总体参数的值。
优良的估计量具有的性质:
无偏性、有效性、一致性。
区间估计:
按一定概率要求,由样本统计量的值估计总体参数值的所在范围。
原理:
抽样分布理论。
抽样分布的标准误的大小决定置信区间的长度。
置信区间:
指在某一置信度时,总体参数所在的区域长度。
置信度:
是作出某种推断时正确的可能性(概率)。
通常用(1-a)表示。
显著性水平:
即a,是指估计总体参数落在某一区间时可能犯错误的概率。
两个要素:
可靠性〔置信水平的上下〕和精确度〔区间长度〕。
置信水平为95%的置信区间确实切含义:
重复抽样N次,所得到的N个置信区间
中有95%个包含了总体参数。
影响区间估计精确度的因素:
1〕置信度(1-a)〔反比〕
2〕样本容量〔正比〕3〕总体数据的变异程度〔反比〕的置信区间:
X个标准误
单总体均值的区间估计:
方差,正态分布;Z
X
方差未知,t分布。
N(0,1)
n
两总体均值差异的区间估计:
T分布。
相关样本与独立样本都为
T分布。
其中,独立样本时用很长很长的那个公式。
总体均值的区间估计:
卡方分布N
2
1S2
x2(N1)
七、假设检验假设检验〔显著性检验〕:
事先对总体参数或分布形式作出某种假设,然后利用
样本信息来判断原假设是否成立。
类型:
参数检验和非参数检验〔包括分布检验和独立性检验〕。
假设检验的原理:
(1)逻辑上为反证法〔假设检验首先假定虚无假设H0为真,通过否认H0,来检验
备择假设H1的真实性〕
(2)统计上为小概率事件〔小概率事件在一次实验或观测中,几乎是不可能发生
的。
在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。
小概率由研究者事先确定,如,,等〕。
假设检验的步骤:
〔1〕提出原假设和备择假设
x
0
〔2〕确定适当的检验统计量,检验统计量〔方差〕的根本形式为:
z
n
〔3〕规定显著性水平〔或〕
〔4〕计算检验统计量的值
〔5〕作出统计决策
拒绝域:
拒绝原假设的概率。
两类错误:
拒真错误型错误;取伪错误
型错误。
统计效力〔统计检验力〕1
。
两类错误的关系:
〔1〕
不一定等于1.
2〕其他条件不变,两者不能同时增大或者减小。
3〕两者地位不一样。
我们应尽量防止第一类错误。
4〕影响错误的因素有总体标准差〔正比〕和样本容量〔反比〕。
单侧检验与双侧检验
单侧检验:
强调方向性。
双侧检验:
只强调差异,不强调方向性。
单总体均值的假设检验:
方差,正态分布;
X
N(0,1)。
用这个统计公式,然后查表。
Z
n
方差未知,t分布。
t
(X)
(X
X)2
S
t(N1),其中,S
1
N
N
两总体均值差异的显著性检验:
〔1〕相关样本,使用t分布统计量
〔2〕独立样本,方差,使用正态分布统计量;
(X1X2)
(12)
Z
2
2
1
2
N1
N2
〔3〕独立样本,方差未知,但是齐性,使用
t分布统计量
(X1
X2)(12)
N1N2
t(N1
N2
2),
t
SP
N1
N2
其中,
(N11)S12
(N2
1)S22
SP
N22
N1
总体分布的假设检验〔属于非参数检验〕:
卡方检验设有N个被试,按变量X的取值可以分成k类,第i类有Oi个观测值,那么检验统
计量为:
x2
k(Oi
Ei)2
x2(K1)
i1
Ei
八、方差分析方差分析的逻辑:
把观察值的总变异分解为两个或多个局部,除随机误差外,其余各局部变异可由某个或某几个因素或它们的交互作用来解释。
F分布的统计推断可说明某一或某些因素或因素间交互作用是否对观察值有影响。
单因素方差分析的逻辑与步骤:
1〕模型与假设
2〕平方和的分解与F检验
3〕关联强度与效应值4〕多重比拟
5〕前提假设
方差分析的前提条件:
总体服从正态分布;变异可加性;方差齐性;独立性。
单因素完全随机设计的方差分析:
关联强度与效应值:
实验处理引致的效应的大小或者数据的变异有多少局部是由实验处理造成的。
关联强度:
因变量的变异被自变量解释的百分比。
事后比拟:
F检验显著说明各组均值并不相同(至少两组不同),但不能答复到底哪几组不同。
通过对各组均值之间的配比照拟来进一步检验到底哪些均值之间存在差异。
事后比拟的方法:
〔1〕费舍最小显著差异法:
对检验两总体均值是否相等的t检验方法的总体方
差估计加以修正(用MSE代替)。
2〕S-N-K,q检验:
把各组均值排序,用每一比拟的两个均值在排序序列种相差的等级数来确定不同的q临界值。
3〕HSD检验:
与SNK法类似,不同之处在于不管各组均值的大小次序,均使用同一临界值。
4〕Bonferroni校正(以t分布作为检验分布,对检验水准进行调整),不适用于比拟的次数很多的情况。
方差分析结果的解释与报告:
单因素方差分析结果〔范例〕:
方差分析的结果〔见表2〕显示,教学方法对阅读理解的成绩有显著影响,F(2,15)=,MSE=,p=<,Etap2=。
进一步的多重比拟显示,当使用教学方法2时,
被试的成绩显著高于使用方法1〔p=〕或方法3时〔p=〕;但是,方法1和方法3
之间那么无显著差异〔
p=〕。
双因素结果方差分析〔范例〕:
标题提示与阅读速度对成绩的影响方差分析的结果显示,标题提示对成绩有显著影响,F(2,66)=,MSE=,p=<,
Etap2=。
事后比拟结果显示,当标题提示为正确与中性时,成绩显著高于标题提
示为误导时的成绩〔p<〕,但前两者无显著差异。
方差分析还显示,阅读速度对成绩有显著影响,F(1,66)=,MSE=,p=<,Etap2=,阅读速度为常速时的成绩比快速时更高。
更重要的是,交互作用显著,F(2,66)=,MSE=,p=<,Etap2=,也就是说,标题提示对成绩的影响会随着阅读速度的不同而不同。
简单主效应检验显示,阅读速度为快速时,标题提示为正确时的成绩显著高于标题提示为中性〔p=〕和误导时〔p=〕的成绩,但后两者无显著差异〔p=〕;而当阅读速度为常速时,标题提示对成绩无显著影响F(1,66)=,MSE=,p=,Etap2=。
两因素完全随机设计的方差分析:
适用情形:
有2个自变量,自变量A有p个水平,自变量B有q个水平,共有
p*q种处理。
比单因素多了一个交互作用的离均差平方和。
交互作用:
交互作用显著以后,还要做进一步的简单主效应的检验。
多重比拟:
小结:
检验:
主效应与交互作用是否显著。
多重比拟:
对显著的主效应进行多重比拟。
简单主效应检验:
检验因素A(B)在B(A)各个水平上的简单主效应,假设显著,继续就简单主效应进行多重比拟。
九、相关相关量数
相关系数:
两列变量间相关程度的数字表现形式作为样本的统计量用r表示,作为总体参数一般用ρ表示。
正相关:
两列变量变动方向相同
负相关:
两列变量中有一列变量变动时,另一列变量呈现出与前一列变量方向相反的变动
零相关:
两列变量之间没有关系,各自按照自己的规律或无规律变化
1.积差相关也就是Pearson相关。
〔1〕前提
①数据要成对出现,即假设干个体中每个个体都有两种不同的观测值,并且每队数
据与其它对子相互独立
②两列变量各自总体的分布都是正态的,至少接近正态
③两个相关的变量是连续变量,也即两列数据都是测量数据
④两列变量之间的关系应是直线性的
2.等级相关也就是Spearman相关〔1〕适用范围
①当研究考察的变量为顺序型数据时,假设原始数据为等比货等距,那么先转化为顺
序型数据
②当研究考察的变量为非线性数据时〔2〕公式
将原始数据转化为顺序型数据,仍然用Pearson相关公式计算即可。
3.肯德尔等级相关〔1〕肯德尔W系数也叫肯德尔和谐系数,原始数据资料的获得一般采用等级评定法,即让K个被试对N件实物进行等级评定。
其原理是评价者评价的一致性除以最大变异可能性。
〔2〕肯德尔U系数#其与肯德尔W系数所处理的问题相同,但评价者采用对偶比拟法,即将N件事
物两两配对分别进行比拟
4.点二列相关与二列相关1〕点二列相关
适用于一列数据为等距正态变量,另一列为离散型二分变量。
是与二分称名变量的一个值对应的连续变量的平均数
是与二分称名变量的另一个值对应的连续变量的平均数
p与q是二分称名变量两个值各自所占的比率
st是连续变量的标准差2〕二列相关
适用于两列变量都是正态等距变量,但其中一列变量被人为地分成两类。
y为标准正态曲线中p值对应的高度,查正态分布表能得到
相关系数:
度量两个变量相关程度大小的数字特征。
变量类型与该用的相关方法:
两个定序变量--------斯皮尔曼等级相关两定类变量-------------------卡方独立性检验
一定类,一个定序--------卡方独立性检验
定类〔序〕,定距----------点二列相关,单因素方差分析
两定距----------------------皮尔逊相关〔积差相关〕
各种统计方法的适用条件:
T检验:
〔1〕总体正态分布〔2〕方差齐性〔3〕变量相互独立
方差分析:
〔1〕正态〔2〕方差齐性〔3〕独立性〔4〕变异可加性积差相关:
〔1〕两个变量都是连续的〔2〕正态分布〔3〕变量之间为线性关系回归:
〔1〕正态〔2〕线性关系〔3〕独立性〔4〕误差等分散
积差相关的计算
协方差:
协方差是两个变量离均差乘积的均值。
两个变量离均差的成绩能够反映
两个变量的一致性。
协方差是两个变量线性关系的指示器,但不能直接用它来表
示相关的大小,因为有不同的测量单位,故将其标准化。
rxy
covSxSy
(XX)(YN?
SXSY
Y)
方差是协方差的特例。
相关系数值的大小不表示相关是否显著。
相关的程度与r值不成正比
卡方检验:
x2
(fe)2
f为实际频数,e为理论频数,
e
理论频数=所占比率*人数
点二列相关:
一个连续变量与另一个二分称名变量的相关程度。
〔男女,上下〕二列相关:
两列数据均为正态分布〔男女两个类别〕;十、回归回归:
指由一个变量的变化去预测另一个变量的变化,描述一个变量随另一变量做不同程度变化的单向关系。
回归分析的目的就是要找出一个错误最小的方法来用X预测Y。
回归分析的步骤:
1〕建立并求解回归模型的方程
2〕检验与评价回归方程的有效性针对整个回归方程
针对各个回归系数3〕利用回归方程作出预测与控制
建立回归方程:
Y=a+bXb为回归系数,Y为实际的Y的预测值。
a
YbX
b
(XiX)(Yi
Y)
(XiX)
2
回归系数与相关系数:
rxybxybyx
检验与评价:
是一个估计总体参数的置信区间和假设检验的问题。
估计误差标准差〔标准误〕:
Syx回归方程的显著性检验:
(YY)2N2
回归方程参数的置信区间与检验:
t检验
回归系数的b的检验:
〔1〕提出假设=0
b
b
2)
〔2〕t
t(n
SEb
SEb
〔3〕确定显著性水平,并决策。
决定序数〔度量了Y的变异(由总平方和衡量)中可以由自变量的变异来解释的比
例〕:
R2SSR
(Y
Y)2
(回归平方和与残差平方和)
2
SS
(Y
Y)
T
回归平方和占的比例越大,残差平方和占的比例就越小,回归直线拟合得越好
决定序数与相关系数的关系:
R2rXY2回归方程的解释:
回归系数
“平均而言,入学成绩每增加(或减少)1分,期末成绩将增加(或减少)分。
〞决定系数“期末成绩变异的%可以由入学成绩来解释。
〞
预测“对入学成绩为80分的学生,预测他们的期末成绩为78分,有95%的把握在70分至86分之间。
〞
多元回归:
考察两个或两个以上的自变量对同一个因变量的影响。
因变量:
连续变量
自变量:
连续变量或间断变量根本与一元回归一样,但自由度不再是N-2.而是N-p-1.
自变量的选择:
向前〔向后〕剔除法,逐步回归法
如何理解标准误:
标准误,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差
大小的尺度,反映的是样本均数之间的变异。
标准误不是标准差,是多个样本平均数的标准
差。
标准误用来衡量抽样误差。
标准误越小,说明样本统计量与总体参数的值越接近,
样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。
因此,标准误是统计推
断可靠性的指标。
计算公式为:
需要注意的是,标准误差不是测量值的实际误差,也不是误差范围,它只是对一组测量数
据可靠性的估计。
标准误差小,测量的可靠性大一些,反之,测量就不大可靠。
1.、标准误是描述抽样情况的参数,反响了抽样样本和总体样本之间的差异。
2、由于通常我们无法对所有数据进行检测,只能进行抽样检测,所以就应该有一个参数来
反响抽样质量的上下。