统计学是一组概念Word格式文档下载.docx
《统计学是一组概念Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《统计学是一组概念Word格式文档下载.docx(11页珍藏版)》请在冰豆网上搜索。
研究对象的全部单位总数
特征
统计量
参数
符号
样本容量:
n
样本平均数:
样本比例:
样本标准差:
s
样本方差
总体容量:
N
总体平均数:
μ
总体比例:
p
总体标准差:
σ
总体方差:
•描述统计与推断统计
•描述统计(descriptivestatistics)是来描绘或总结的观察量的基本情况的统计总称。
描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示。
•推断统计(inferentialstatistics)是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
•变量
•总体确定之后,研究者应对每个观察单位的某项特征进行测量或观察,该特征称为变量。
如“身高”、“体重”、“性别”、“智商”等。
•变量的测定值或观察值称为变量值或观察值,亦称为数据(data)。
•描述统计与推断统计的关系
•美国统计学家史蒂文斯(S.S.stevens)1968年按照变量的性质和数学运算的功能特点,将变量的统计测量尺度划分为定类尺度、定序尺度、定距尺度和定比尺度四类
•测量尺度
•测量的尺度决定了我们可以从测量数据中得到的回答的类型。
•数据的信息水平。
•称名测量(nominalscales)
•在于表明一件事物不同于另一件事物;
•没有数量的特征;
•E.g.性别(1、2),城乡(1、2
•顺序测量(ordinalscales)
•在于表明一个序列中的位置;
•不能说明两者之间差别多少;
•E.g.比赛排名等,常见的量表
•等距和等比测量(interval&
ratioscales)
•有固定的测量单位:
元、分钟等
•等距和等比量表的差异:
零点
•等距:
人为的零点(e.g.温度)
•等比:
绝对零点(时间、金钱etc.)
•
•常量与变量
•一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。
•但是,开车后,坐在这节车厢的旅客有多少就没准了。
这有随机性。
该车厢的乘客数为变量(variable)。
•一个学校的注册在校男女生比例是固定的,为常量
•但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。
•自变量和因变量
•IV(independentvariable):
为了解释因变量的差异或变化而操作的变量;
•DV(dependentvariable):
研究者感兴趣的观察或测量的结果,以评估IV的作用。
•数据:
泛指对客观事物的数量、属性、位置及其相互关系的抽象表示。
•信息:
人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关联,信息可以被数字化;
作为知识层次中的中间层,
•信息=数据+处理
•知识:
是信息、文化脉络以及经验的组合。
•智慧(Wisdom)-知识的选择,应对的行动方案可能有多种,但选择哪个靠智慧。
•数据的整理
•在获得原始数据资料之后,需要使用一定的方法对数据进行整理和综合,目的是从大量的原始数据资料中提炼所需要的信息,使之可以提供概要信息并能反映对象总体的基本数量特征,便于人们的理解和使用。
表格和图形是整理和反映统计资料的主要工具。
•频数分布
•频数分布(Frequencydistribution):
对一数据集的表格汇总法,显示若干无重叠组别中每一组的项目频数(或个数)。
•相对频数分布(Relativefrequencydistribution):
一数据集的表格汇总法,显示在若干无重叠组别中每一组的项目总数的相对频数,即分数或比例。
•直方图(Histogram):
一种通过在横轴上放置组间隔,在纵轴上放置频数来描述数量数据的频数分布、相对频数分布或百分数频数分布。
•直方图与条形图
•条形图是用宽度相同的条形的高度或长度来表示数据变动的图形。
直方图是用矩形的宽度和高度来表示频数分布的图形。
•直方图中的直方条显示出不能分开、连续的;
条形图中的直方条显示是可以分开的。
百分数频数分布(Percentfrequencydistribution):
一数据集的表格汇总法,显示几个无重叠组别中每一组的项目总数的百分率。
•条形图(Bargraph):
一种图形方法,描述在品质数据的频数分布、相对频数据分布或百分数频数分布中表示的信息。
•饼形图(Piechart):
一种描述品质数据汇总的图形方法,建立于把一个圆细分成与每一组的相对频数相对应的扇型的基础上。
•累积频数分布(Cumulativefrequencydistribution):
对数量数据集的表格法汇总,显示数值小于或等于每一组组上限的项目数。
•累积相对频数分布:
对数量数据的表格法汇总,显示数值小于或等于每一组组上限的项目分数或比例。
•累积百分数频数分布:
对数量数据的表格法汇总,显示数值小于或等于每一组组上限的项目的百分率。
•探索性数据分析技术由简单算术和易画的图形组成,可以用于快速地汇总数据。
•茎叶显示(Stem-and-leafdisplay):
一种同时排列数量数据顺序并提供分布形态的深入信息的探索性数据分析技术。
茎叶图由两部分组成:
茎(stem)与叶(leaf)
•茎:
通常由每组数的高位数值(leadingdigits)形成,按组竖立在左边;
•叶:
通常由每组数的低位数值(lastdigits)形成,按组横排在“茎”的右边。
•坐标轴:
坐标轴最大最小的取值十分有艺术性,想要让数值看起来夸张点,就把最大最小值之间的范围缩小点,反之亦可。
•趋势线:
趋势线是画龙点睛,简直就是专门为了误导别人而设计的。
•1.直线型趋势线,只取头尾两值的连线,中间的忽略不计
•2.移动平均线:
移动平均线的周期的取值会导致图形巨大差异
•颜色:
作为障眼法,
•1.假如有多条线,有一条比较难看,那么就把这条的颜色跟背景设置成类似,这样看起来就不是很明显了。
•2.假如有条线下面很难看,那么可以把背景颜色改成双色,下面的背景颜色跟线接近甚至一样,在多条线的时候效果更好,
•APA统计表规范
•1.整个统计表应以“置中”的方式放在内文的中间。
•2.而标题在表的正中央上方(标题和表之间不空行),标号(如“表1”)和标题的文字之间空一个全型格。
•3.表格的安排,能使读者易于掌握重要的资料
•4.通常文字解释先于图表
•5.APA格式因供期刊论文之用,通常在表格内不画纵向直线,但为求美观,一般学位论文也可画纵向直线。
•众数是一组数据分布的峰值,它是一种位置代表值,不受极端值的影响。
缺点是不具有唯一性;
•中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响;
•均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。
缺点是易受极端数据的影响。
•对于偏态分布数据,均值代表性较差。
当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。
•方差与标准差是表示一组数据离散程度的最好指标。
其值越大说明离散程度大,其值小说明数据比较集中。
•反应灵敏。
容易计算;
简单明了;
适合代数运算;
•受抽样变动的影响小,不同样本的标准差或方差比较稳定;
•具有可加性。
可以把总变异分解为不同来源的变异。
•每个观测值加上相同常数C后,计算得到的标准差不变;
•每个观测值都乘以一个相同常数C后,计算得到的标准差是原来标准差的C倍
•标准差系数(Coefficientofvariation):
衡量数据集相对变异程度的量度,以标准差除以平均数再乘以100得到。
•Z分数(z-Score):
以距平均数的离差()除以标准差s所得的值。
Z分数是标准化的数值,指数据值xi距离平均数的标准差的个数。
•z分数经常被称为是标准化分数。
比如,z1=1.2表示x1比样本平均数大1.2个标准差。
z2=-0.5表示x2比样本平均数小0.5个标准差。
•两个不同数据集的项有相同的z分数,则可以说它们有相同的相对位置,因为它们都与平均数的距离有相同个数的标准差。
•切贝谢夫定理(Chebysher’stheorem)
•在任意一个数据集中,至少有(1-1/z2)的数据项与平均数的距离都在z个标准差之内,其中z是任意大于1的值。
•z=2,3,4个标准差时,这一定理的含义:
•至少0.75,即75%的数据项与平均数的距离在z=2个标准差之内。
•至少0.89,即89%的数据项与平均数的距离在z=3个标准差之内。
•至少0.94,即94%的数据项与平均数的距离在z=4个标准差之内。
•假设100名学生统计学课程考试,平均分数为70,标准差为5,那么有多少学生的分数在60~80之间?
有多少学生的分数在58-82之间?
•对于60-80之间,到60比平均数低两个标准差而80比平均数高两个标准差。
利用切贝谢夫定理,至少有0.75即75%的数据项与平均数的距离在两个标准差之内。
•对于58-82之间,我们由(58-70)/5=-2.4知,58比平均分低2.4个标准差,又由(82-70)/5=2.4知,82比平均分高2.4个标准差。
应用切贝谢夫定理,z=2.4得到:
即至少有82.6%的学生的分数在58~82之间。
•经验法则(Empiricalrule)
•对于钟形或山峰形分布(正态分布)的数据:
•约68%的数据项与平均数的距离在1个标准差之内。
•约95%的数据项与平均数的距离在2个标准差之内。
•几乎所有的数据项与平均数的距离在3个标准差之内
•异常值(Outlier)检测
•可能是一个数据项被错误地记录了
•可能是一个数据项被错误地包含在这个数据集中
•可能就是一个反常的值,它被正确地记录并且的确属于这个数据集
•利用z分数来检测异常值时,任何z分数小于-3或大于+3的值都可作为异常值。
•在实践中,为了精确定义概率,人们使用了不同的方法,但并没有达成一致。
经常地,会用到下列3种方法之一:
•
(1)古典法。
(2)相对频数法。
(3)主观法。
•古典法(Classicalmethod):
在随机试验中有这样一类随机试验,试验的结果只有有限多个,且这些试验结果出现的可能性都是等可能的,称这样的试验为古典型随机试验。
•对于古典型随机试验,如果试验的全部结果有n个,其中有且仅有m﹝m≤n﹞个结果导致随机事件A发生,则称比值m/n为随机事件A的概率。
记作P(A)=m/n
•相对频数法(Relativefrequencymethod):
一种以试验或历史数据为基础的概率分配方法。
是一种定义概率的经验方法。
•例:
假设在某产品市场评估试验中,共联系了400名潜在顾客,结果有100人购买了该产品,300人未购买。
事实上,我们相当于把联系某一顾客的试验重复了400次,而结果中有100次是产品被购买。
•因此,我们可以利用相对频数作为某一名顾客购买该产品概率的估计。
对于顾客购买该产品的结果,我们分配以100/400=0.25的概率。
•主观法(Subjectivemethod):
一种以主观判断为基础的概率分配方法。
常常用在不太可能重复试验的情况下。
•例如,考虑皇马队将进行的下一场足球赛,该队获胜的概率是多少?
试验的结果即获胜、失利和平局并不一定是等可能发生的。
此外,由于参赛队伍在近几年中并未有几次交手,所以对于将要举行的比赛也没有相对频数的数据可用。
因此,为了估计球队获胜的概率,我们必须对其进行主观评价
•简单事件:
可以用一个特征描述。
•E.g.如果某人对“购买计划”感兴趣,则事件是“计划购买”和“不计划购买”。
•所有可能事件的集合叫做样本空间
•联合事件:
具有两个特征的事件
•E.g.“计划购买并实际购买”则是联合事件。
•以列联表的方式观察样本空间
•列联表:
为了研究两个分类变量对数据进行分类,使用一个表示两个变量的交叉分组表格
•简单概率:
某一简单事件发生的概率,记作P(A);
在列联表中,也称为边际概率。
•E.g.任选一户家庭,已购DVD的概率P(已购DVD)=108/300
•联合概率:
涉及两个或多个事件的情形。
•E.g.任选一户家庭,已购HDTV和已购DVD的概率P(已购HDTV和已购DVD)=38/300
•已购HDTV
•已购DVD
•是
•否
•合计
•HDTV
•38
•42
•80
•非HDTV
•70
•150
•220
•108
•192
•300
•事件A的补(ComplementofeventA):
由所有不包含在A的样本点构成的事件。
•P(A)+P(Ac)=1
假设某采购部声称供货商运来的货物中无残次品的概率为90%,利用补,我们可以推断出货物中有残次品的概率为1-0.90=0.10
•事件A和事件B的并(UnionofAandB):
所有的属于A或B或同时属于二者的事件。
A和B的并记作A∪B。
•事件A和事件B的交(IntersectionofAandB):
同时属于A和B的事件。
A和B的交记作A∩B。
•A或B的概率等于A的概率和B的概率之和减去A和B的概率,即
•P(A∪B)=P(A)+P(B)-P(A∩B)
•如果P(A∩B)=0,两个事件为互斥事件。
对于互斥事件加法公式简化为
•P(A∪B)=P(A)+P(B)
•经验法则:
当n/N≤0.05时,一般可忽略有限总体修正系数。
•样本均值的标准差反映了样本均值与总体均值的平均误差,故称之为抽样平均误差(或抽样标准误),如公式所示,抽样平均误差与总体标准差成正比变化,与样本容量的平方根成反比变化。
•拒绝(否定)域
•根据虚无假设H0确定的抽样分布内一端或二端的小区域,如果样本统计量的值在此区域范围内,则拒绝虚无假设H0。
•显著度(显著性水平)
•拒绝域在整个抽样分布中所占的比例;
•表示样本统计量的值落在拒绝域内的机会;
•虚无假设为真时,拒绝它的概率。
•表示为α(alpha)常用的α值有0.01,0.05,0.10
•由研究者事先确定
•单侧和双侧检验
•如果拒绝域只在一侧,称为单侧检验;
如果拒绝域在两侧的位置,则称为双侧检验。
•选择单侧检验与双侧检验主要根据研究假设而定。
•在所选显著度相同的情况下,双侧检验比单侧检验更难拒绝虚无假设。
•单侧假设如何设定?
•虚无假设与备择假设的选择是有现实背景的,研究者研究问题的着眼点不同将导致不同的虚无假设;
虚无假设始终是受到质疑的,同时也是受到保护的,而备择假设才是研究者真正想得到结论。
•假设检验中的决策是针对虚无假设的,而结论是针对备择假设的。
由于虚无假设是受到保护的,所以,肯定它并不具有说服力,充其量也只能说明样本没有出现与虚无假设相矛盾的地方,而拒绝虚无假设是有充分说服力的。
当决策是不能拒绝原假设时,假设检验方法失效。
•a错误和b错误的关系
α+β≠1
•对于固定的样本容量n,α与β不能同时减小
•统计检验力(powerofatest)
•能够正确拒绝一个错误的虚无假设的概率,
•1-β称为假设检验的功效。
其意义是,当所研究的总体与H0确有差别时,按检验水平α能够发现它(拒绝H0)的概率。
如果1-β=0.90,则意味着当H0不成立时,理论上在每100次抽样中,在α的检验水准上平均有90次能拒绝H0。
一般情况下对同一检验水准α,功效大的检验方法更可取。
•比例检验的z统计量
•公式中P0为假设的总体比率
案例
•某研究者估计本校学生的电脑拥有率为30%。
现随机抽查了200的学生,其中68个学生拥有电脑。
试问研究者的估计是否可信?
(α=0.05)
•提出H0H1;
H0:
ρ=.30;
H1:
ρ¹
.30;
•确定统计检验的方法;
z分数
•显著性水平;
σ=.05
•抽样分布;
标准正态分布
•决定H0拒绝区间;
如果|zobserved|≧|1.96|,拒绝H0
•总结和分析数据:
•p-值(p-value):
当虚无假设为真时,所获得的
•本结果至少与实测结果不同的概率值,它通常又被称为实测显著性水平。
或者,换一种说法,即是:
当H0为真时,得到当前以及更极端的样本统计量的概率。
“电脑拥有率”例中与样本比率34%(68/200)相联系的p-值。
给定总体比率的假设值=.30时,p值为观测到的样本比率的值小于等于实测值<
=.34的概率。
(z=+1.96时,样本p分别为0.36和0.24)