统计分析.docx

上传人:b****5 文档编号:2779235 上传时间:2022-11-15 格式:DOCX 页数:38 大小:219.85KB
下载 相关 举报
统计分析.docx_第1页
第1页 / 共38页
统计分析.docx_第2页
第2页 / 共38页
统计分析.docx_第3页
第3页 / 共38页
统计分析.docx_第4页
第4页 / 共38页
统计分析.docx_第5页
第5页 / 共38页
点击查看更多>>
下载资源
资源描述

统计分析.docx

《统计分析.docx》由会员分享,可在线阅读,更多相关《统计分析.docx(38页珍藏版)》请在冰豆网上搜索。

统计分析.docx

统计分析

统计图与统计表

一、统计表:

1.概念

 统计表:

是将要统计分析的事物或指标以表格的形式列出来,以代替烦琐文字描述的一种表现形式。

2.统计表的组成

 标题:

即表的名称。

 标目:

横项目说明每一行要表达的内容,相当于句子的主语;纵标目说明每一列要表达的内容,相当于句子的谓语。

3.统计表的种类

 简单表:

表格只有一个中心意思,即二维以下的表格。

 复合表:

表格有多个中心意思,即三维以上的表格。

4.制表原则

 标题:

位置在表格的最上方,应包括时间、地点和要表达的主要内容。

 标目:

标目所表达的性质相当于“变量名称”,要有单位。

 线条:

四根横线条,不用竖线条,禁用斜线条。

 数字:

小数点要上下对齐,缺失时用“-”或“---”代替。

 备注:

表中用“*”标出,再在表的下方注出。

看统计表示例

二、统计图

 1.概念:

   统计图:

用点、线、面的位置、升降或大小来表达统计资料数量关系的一种陈列形式。

 2.制图的基本要求:

   

(1)要有标题,一般位于图的下方,扼要说明资料内容。

   

(2)条图、散点图、线图、直方图要有横、纵轴,要有单位和图例。

   (3)注意合理选用图的种类。

 3.统计图的类型

   

(1)条图:

又称直条图,表示独立指标在不同阶段的情况,有两维或多维,图例位于右上方。

   

(2)百分条图和圆图:

描述百分比(构成比)的大小,用颜色或各种图形将不同比例表达出来。

   (3)线图:

用线条的升降表示事物的发展变化趋势,主要用于计量资料,描述两个变量间关系。

   (4)半对数线图:

纵轴用对数尺度,描述一组连续性资料的变化速度及趋势。

   (5)直方图:

描述计量资料的频数分布。

   (6)散点图:

描述两种现象的相关关系。

   (7)统计地图:

描述某种现象的地域分布。

数量资料统计描述

   对数值变量资料进行统计分析的一般步骤,是先对观察测量得到的变量值(即观察值)进行统计描述,再在此基础上进行深入的统计推断。

统计描述的工作主要是在编制频数表的基础上描述资料的集中位置和离散程度。

一、数值变量资料的频数表

1.频数表(frequencytable)的编制方法:

 

(1)找出观察值中的最大值(largestvalue)、最小值(smallestvalue)和极差(range)。

 

(2)据极差大小确定组段和组距(classinterval),将其分为10个左右的组段。

 (3)列表划记落在各组段内的观察值个数即可得频数表。

   根据编制出的频数表即可了解该数值变量资料的频数分布特征。

2.频数分布的特征及类型:

 

(1)两个特征:

集中趋势(centraltendency)和离散趋势(tendencyofdispersion)

 

(2)两种类型:

对称分布(symmetricdistribution)和偏态分布(skeweddistribution),偏态分布又有正偏态(positivelyskewed)和负偏态(negativelyskewed)之分。

3.频数表的用途:

 

(1)描述资料的分布特征和分布类型。

 

(2)进一步计算有关指标或进行统计分析。

 (3)发现特大、特小的可疑值。

 (4)据此绘制频数分布图。

二、集中位置的描述

  描述一组观察值集中位置或平均水平的指标称为平均数(average)。

它能使人对资料有个简明概括的印象,并能进行资料间的比较。

常用的平均数有算术均数、几何均数和中位数。

1.算术均数(arithmeticmean)

   简称均数(mean),有总体均数和样本均数之分,分别用希腊字母miu(音)和英文字母xbar(音)表示。

 

(1)计算方法

    不分组资料用直接法。

即所有观察值的累积和除以观察值个数,相同观察值较多或分组资料常用加权法(weightingmethod)。

 

(2)均数的应用

    适用于对称分布,特别是正态分布的资料,不适用于偏态分布的资料。

如有数据3、4、5、6、17,可见数据多在3-6之间,但均数为7,显然不能代表这组数据的中心位置,此时应用几何均数或中位数描述其集中趋势。

2.几何均数(geometricmean,G)

 适用于呈倍数关系的等比资料或对数正态分布的资料,应用中应注意观察值不能同时有正有负,同一资料算得的几何均数小于算术均数。

3.中位数(median)

  中位数是一组观察值的位置平均数,直接由原始数据计算中位数时,若n为奇数,则中位数为将观察值从小到大排序后中间位置那个观察值,若n为偶数,中位数为将观察值从小到大排序后中间两个观察值的算术均数。

用频数表计算中位数时先据频数表计算累计频数(cumulativefrequency)和累计频率,百分之五十分位数即为中位数。

  中位数用于描述偏态分布资料的集中位置,它不受两端特大、特小值的影响,当分布末端无确切数据时也可计算。

 百分位数(percentile)是资料分布数列的的百等份分割值,百分位数用于描述样本或总体观察值序列某百分位置的水平,应用中注意,样本例数不够多时,两端的百分位数不稳定。

百分位数还用于确定参考值范围(referencerange)

三、离散程度的描述

  多组资料均数相同,只说明其集中趋势相同,各组数据内部观察值参差不齐的程度可能不同。

此时,常用极差、

四分位数间距、方差、标准差和变异系数等指标来描述资料的离散程度。

 1.极差(range,R)

  又称全距,即最大和最小观察值之间的间距,用极差描述资料的离散程度简单明了,但它不能反映观察值的整个变异度,样本的例数越多,极差越大,不够稳定。

 2.四分位数间距

  四分位数(quartile,Q)是特定的百分位数,其中P25为下四分位数Ql,P75为上四分位数Qu。

四分位数间距即Qu-Ql。

四分位数间距比极差稳定,但仍未考虑每个观察值的变异度。

 3.方差(variance,Var)

  怎样一个指标才能反映整个资料的变异程度呢?

  离均差的绝对值之和或离均差平方和(sumofsquares,SS)可用来描述资料的变异度。

SS的均数(即方差)不受观察值个数的影响,用来描述资料的离散程度较离均差的绝对值之和或离均差平方和更好。

方差也有总体方差和样本方差之分。

 4.标准差(standarddeviation)

  因方差的单位是原单位的平方,所以使用仍不方便。

方差的算术平方根,即标准差,是一个更好的指标。

相应的,标准差也有总体标准差和样本标准差之分,分别用希腊字母xigema(音)和英文s表示

  标准差可用于描述变量值的离散程度,与均数结合还可描述资料的分布情况,此外还可用于求参考值范围和计算标准误。

5.变异系数(coefficientofvariance,CV)

  当比较多组资料的变异度,而这几组资料的单位不同或均数相差悬殊时,用标准差就不合适。

此时需要用到变异系数又称离散系数(coefficientofdispersion)来比较,它实际上是标准差占均数的百分比例。

统计推断概述

一、总体均数估计

1.关于抽样研究

(1)为何要进行抽样研究:

   抽样研究对无限总体来讲是唯一可行的方法,对有限总体的也可节省人力和材料,增加研究工作的可行性。

(2)抽样研究的目的:

   抽样研究是企望通过样本提供的信息来推断总体特征,其主要内容是参数估计和假设检验。

2.均数的抽样误差

   由于个体差异的存在,使得抽样研究中样本均数与总体均数间,样本均数与样本均数间始终存在着差异,这种差异是由抽样误差造成的,抽样误差的大小可用标准误来衡量。

  这里的标准误是准差除以样本含量算术平方根的商。

标准差和标准误有如下区别:

指标

标准差

标准误

意义

描述观察值的变异程度,即离散趋势

描述样本均数的变异程度,说明抽样误差的大小

用途

描述资料的频数分布状况,可用于制定医学参考值范围

用于总体均数的区间估计和两个均数之间的假设检验等

3.总体均数估计:

(1)点值估计:

即直接用样本均数作为总体均数的估计值。

(2)区间估计:

根据样本均数符合t分布的特点,利用t分布曲线下的面积规律估计出总体均数可能落在的区间和范围。

当样本含量较大时,可用u分布代替t分布。

总体均数95%可信区间的涵义为由样本均数确定的总体均数所在范围包含总体均数的可能性为95%。

二、假设检验概述

假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

1.假设检验的基本思想

假设检验的基本思想是小概率反证法思想。

小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。

反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。

2、假设检验的基本步骤

第一步:

提出检验假设(又称无效假设)和备择假设。

       H0:

样本与总体或样本与样本间的差异是由抽样误差引起的。

       H1:

样本与总体或样本与样本间存在本质差异。

        预先设定的检验水准为0.05。

第二步:

选定统计方法,计算出统计量的大小。

根据资料的类型和特点,可分别选用t检验,u检验,秩和检验和卡方检验等。

第三步:

根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。

若P值小于预先设定的检验水准,则H0成立的可能性小,即拒绝H0,若P值不小于预先设定的检验水准,则H0成立的可能性还不小,还不能拒绝H0。

P值的大小一般可通过查阅相应的界值表得到。

3、进行假设检验应注意的问题

(1)做假设检验之前,应注意资料本身是否有可比性。

(2)当差别有统计学意义时应注意这样的差别在实际应用中有无意义。

(3)根据资料类型和特点选用正确的假设检验方法。

(4)根据专业及经验确定是选用单侧检验还是双侧检验。

(5)当检验结果为拒绝无效假设时,应注意有发生I类错误的可能性,即错误地拒绝了本身成立的H0,发生这种错误的可能性预先是知道的,即检验水准那么大;当检验结果为不拒绝无效假设时,应注意有发生II类错误的可能性,即仍有可能错误地接受了本身就不成立的H0,发生这种错误的可能性预先是不知道的,但与样本含量和I类错误的大小有关系。

(6)判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能性。

(7)报告结论时是应注意说明所用的统计量,检验的单双侧及P值的确切范围。

t检验和u检验

简而言之,t检验和u检验就是统计量为t,u的假设检验,两者均是常见的假设检验方法。

当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。

当样本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t分布),当x为未知分布时应采用秩和检验。

一、样本均数与总体均数比较的t检验

样本均数与总体均数比较的t检验实际上是推断该样本来自的总体均数µ与已知的某一总体均数µ0(常为理论值或标准值)有无差别。

如根据大量调查,已知健康成年男性的脉搏均数为72次/分,某医生在一山区随即抽查了25名健康男性,求得其脉搏均数为74.2次/分,标准差为6.0次/分,问是否能据此认为该山区成年男性的脉搏均数高于一般成年男性。

上述两个均数不等既可能是抽样误差所致,也有可能真是环境差异的影响,为此,可用t检验进行判断,检验过程如下:

1.建立假设

 H0:

µ=µ0=72次/分,H0:

µ>µ0

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 其它模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1