统招硕士研究生上机实习讲义.docx-资源下载

统招硕士研究生上机实习讲义.docx

1、统招硕士研究生上机实习讲义统招硕士研究生医学统计学SPSS上机实验讲义天津中医药大学医疗系公共卫生教研室主讲人李戈2008-9绪论：学点统计学，迎接挑战1 什么是统计学：the science and art of dealing with variation in data through collection，classification and analysis in such a way as to obtain reliable results。即：统计学是一套收集数据和分析信息的方法和原则，以帮助人们在面对不确定性时制定决策。由此看来：1）它是处理资料中变异性的科学和艺术。2）它

2、的目的在于取得可靠的结果。3）它是在搜集、归类、分析和解释大量数据的过程中完成其使命的。2 学习统计学可以：1）在从事医药方面的科学研究时，从设计、分析到解释全面借助统计学。2）在医学论文所应用的统计学知识中70%是最基本的概念和经典的统计方法，出现的错误也最多。为此，作为读者也学提高识别统计学错误的本领，否则就不能正确对待出版物中的结果和结论，人云亦云，贻误自身工作。3）在工作中，正确理解与运用医学指标的正常参考范围、总结自己的治疗经验、证实自己提出的诊断方法不亚于现有方法、考证民间验方的优劣等。3 学什么：学统计学的基本概念，学统计学独特的思维方式，学常用的统计方法和电脑软件的使用。至于复

3、杂的统计理论和技术，专业性比较强，需要时可通过协作解决问题。实验安排实验一：1）SPSS统计软件的概述及数据文件的建立与修改第13周实验二：1）统计图第13周 2）计量资料统计描述实验三：1）t检验第14周实验四：1）单因素方差分析2）测验13）多因素方差分析第15周实验五：1）检验2）非参数检验第16周 3）测验2实验六：1）相关与回归第17周2）上机考试上课时间：8：00-12：00上课地点：本部实验楼一、 SPSS统计软件的概述及数据文件的建立与修改1 SPSS统计软件的概述：SPSS是社会科学用的统计软件包。事实上，它不仅适用于社会科学，同样可应用于经济学、心理学、医学等各

4、个不同领域。除了数据录入外，它无须编写程序，完全可以在Window下通过“菜单”、“对话框”使用点击或双击鼠标来操作，对读者提供及大的方便，深受用户欢迎。SPSS for window安装时，根据所选的模块多少及版本的不同，所占的硬盘空间也不同，一般来说，需要16-24MB。除此之外，为了运行此软件，一般还应有大于10MB的自由空间，否则，会感到存取速度明显的下降，甚至会出现错误信息。目前，本软件无汉化版。本软件与其他软件有数据转化接口，可以方便地读入其他软件的数据文件，也可以方便地转化为相应的其他数据文件。2SPSS13.0的主要窗口：数据编辑窗（Data Editor）、结果输出窗（Vi

5、ewer）、程序编辑窗（Syntax Editor）和脚本编辑窗（Script）。3SPSS for Window的启动和退出双击软件图标，进入其主界面，主菜单的内容有：File 文件操作Edit 文本编辑View 视图Data 数据文件的建立与编辑Transform 数据转换Analyze 统计分析Graphs 统计图表的建立与编辑Utilities 实用的一些工具Window 窗口信息与控制Help 帮助每个菜单都包括一系列功能，用鼠标点击可出现下拉式菜单，供下一步选择和操作。4 数据文件的建立：数据文件的建立是指把科研工作过程中采集的各种信息、数据以某种方式存入到计算机的磁盘中，建立可

6、随时存取、修改、统计分析的数据文件的全过程。一般来说，它包括数据编码、建立数据文件的二维结构、数据录入、选定数据文件名及保存数据等几个步骤。操作过程：FileNewData4.1数据编码在建立数据文件之前首先要进行数据编码（Data Code），它包括如下三个层次：4.1.1定义数据项的变量名（Variable Name）给数据项取变量名可以用汉语拼音或是英文缩写。但是，应遵循如下原则：1）变量名由一般不多于8个字符组成。2）首字符应该是英文字母，其后可以为字母或数字及除了“？”“！”“*”以外的字符。但是应该注意，不能以下划线“-”和“.”作为变量名的最后一个字符。3）变量名不能使用SPS

7、S的保留字。SPSS的保留字有：ALL、AND、OR、NOT、EQ、GE、GT、LE、LT、NE、TO、WITH及一些常用的函数符号等。4）系统中不区分变量名中的大小写字母。例如ABCE与abcd被认为是同一变量。4.1.2定义数据项变量的标签（Variable Label）定义变量标签是对该变量名所表示的数据项内涵的进一步说明，可以用英文或中文。变量标签是一个可选择项，可以定义，也可以不定义。4.1.3定义数据项变量取值的标签（Value Labels）每个变量名对应一个数据项，每个变量取不同的值，表示数据项中的不同信息。有时为了更好地理解统计分析过程中的输出结果，要进一步给变量的不同的取值

8、赋以不同的标签，以便对不同的信息作出解释。并不是所有的变量值都要定义标签，一般来说，离散变量才给变量值定义标签。3.2建立数据文件的操作定义变量包括定义变量名、变量类型、变量长度（含小数点位数）、变量标签、变量值标签、缺失值和变量显示格式（宽度、对齐方式）等。定义变量的步骤如下：进入数据窗口、激活定义变量的对话框、定义每个变量的名称及数据类型等、保存（存储）数据文件的框架结构、最后是数据录入和存储。5其他类型的数据文件的读入 SPSS有很好的兼容性，它能把DBASE、FOXBASE、FOXPRO及EXCEL所建立的数据文件读入并进行统计分析。6上机内容：5.1根据医学统计学187页表15-1

9、围手术期输血对先天性巨结肠术后感染关系的探讨的数据，在电脑上建立该项数据文件：并依照188页定义相应的变量名，定义合适的变量类型，数据宽度和小数点为数，依照189页表15-2定义变量标签，依照189页表15-3 定义分类变量的变量值标签。最后录入该数据，并以“EG1501”为名保存在D盘的“SPSS上机实验”的文件夹下。5.2对EG1501.sav数据集依照sex和age排序。操作过程：DataSort Cases5.3对EG1501.sav数据集依照sex拆分成两个数据文件。操作过程：DataSplit File5.4根据医学统计学1页表1-1，建立可在SPSS软件上分析用数据文件。5.5根

10、据医学统计学39页表5-2，建立可在SPSS软件上分析用数据文件。本单元参考书目：1 马斌荣.医学统计学人民卫生出版社二、统计图表统计表和统计图是统计描述的重要工具，在搜集、整理及分析资料时，尤其在科研论文中，表达统计结果及进行对比分析时应用极为广泛。将统计分析的事物及其指标用表格的形式列出，即为统计表。合理的统计表可将统计数据和分析结果简明而正确地表达出来，既可避免冗长的文字叙述，又可使数据条理化、系统化，便于理解、分析和比较。1统计表在对分类变量较多的数据进行分类汇总，或在处理由多项应答组成的问卷时，SPSS的统计表（Table）过程体现了很大的灵活性和方便性。统计表菜单下包括以下六

11、种过程：Custom Tables 自定义统计表Multiple Response Sets 定义多项应答数据集Basic Tables 基本统计表General Tables 综合统计表Multiple Response Tables 多项应答统计表Tables of Frequencies 频数统计表本课程只讲授基本统计表（Basic Tables）基本统计表过程可用以创建三维统计表。所谓三维统计表，是指由行变量（row/down variable）、列变量（column/across variable）和分层变量（layer/separate variable）构成的统计表。2统计图

12、统计图利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料和指标，它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象而生动地表达出来，更直观地反映出事物间的数量关系，更易于比较和理解，可以给读者留下清晰的印象，研究论文与宣传展示中经常用到它。统计图的缺点是往往不能精确地显示数字大小，所以经常与统计表一起使用。在医学中常用的统计图有直条图、百分条图、圆图、普通线图、半对数线图、直方图、箱图和散点图等。绘制统计图总的基本要求首先是根据资料的性质和分析目的选择适当的图形。击主菜单中的GraphsInteractive，弹出统计制图的子菜单：Bar 直条图Do

13、t 点形图Line 线图Ribbon 带形图Drop-Line 下降线图Area 面积图Pie 饼图Boxplot箱式图Error Bar误差条图Histogram直方图Scatterplot散点图3上机内容1. 基本统计表：数据集为上节课录入并存储的EG1501.sav。操作过程：AnalyzeCustom TablesBasic Tables，弹出基本统计表主对话框。Summaries：汇总变量，一般为定量变量。选入汇总变量后，击Statistic按钮，可在统计量对话框中选择汇总统计量，如均数、标准差、标准误等。Subgroups定义分组变量。 Down：行变量，一般为分类变量。 Acro

14、ss：列变量，一般为分类变量。 Separate：分层变量，一般为分类变量。 All combinations （nested）：嵌套排列。当行变量、列变量或分层变量同时选入两个或两个以上变量时，该选项被激活。 Each separately（stacked）：平行排列。当行变量、列变量或分层变量同时选入两个或两个以上变量时，该选项被激活。根据数据集，以sex、hct、opa、disease、infect为研究变量制作三维统计表、行变量嵌套统计表、行变量平行排列统计表。2. 条图：用以描述按性质分组某项指标值的大小。如表2-1数据，建立数据文件bar.sav，（建立三个变量：year（11

15、952，21972），cause（1肺结核，2=心脏病，3=恶性肿瘤），prop）并制图：表2-1 某地两年3种疾病的死亡率（1/10万）死因1952年1972年肺结核163.227.4心脏病72.583.6恶性肿瘤57.2178.21) 单式条图：分别以1952和1972年数据制图，作三种疾病的死亡率比较。DataSelect CasesIf 时间1， GroupsBarSimple & Summaries Define Other summary function（Mean） Variable : Prop Category : cause2) 复式条图：建立3种疾病死亡率比较的复式条图：

16、 GroupsBarCluster & Summaries Define Other summary function（Mean） Variable : Prop Category : cause（year） Defin Cluster by :year (cause)。4)分段条图（stacked）3. 线图（Line）：用以描述某一（些）变量随时间变量变化的关系。根据表2-2中数据，建立数据line.sav，并制作单变量线图（simple）和复变量线图（multiple）。表2-2 某地居民1950-1964年伤寒与结核病死亡率（1/10万）年份195019521954195619581

17、96019621964伤寒31.322.418.09.25.03.81.60.8结核174.5157.1142.0127.297.771.359.246.04. 饼图（pie）：用以描述构成比资料。根据表2-3中数据，建立数据pie.sav，并制作5种主要死因构成饼图。表2-3 某地1983年 5种主要死因构成死因分类例数心脏病1242脑血管病1113恶性肿瘤651呼吸系统病337消化系统疾病1575. Pareto 图：产生从高到低排列的条图，并可给出累积曲线。以pie.sav 为例，绘制单式Pareto 图。6. 箱丝图（Boxplot）：用以描述数值变量的五个百分位点，即P0（最小值）

18、、P25、P50、P75、P100（最大值）。对EG1501.sav 数据文件，作出hct关于sex的简单箱形图。7. 散点图（Scatter）：用于表示双数值变量之间的相关关系。以数据文件line.sav为例，绘制结核与伤寒之间关系的简单散点图。绘制复合散点图（Overlay）：以数据文件line.sav为例，x轴表示时间变量，y轴表示结核和伤寒死亡率。8. 直方图（Histogram）：用以描述一组数值变量资料的频数分布对EG1501.sav数据文件，作出hct的直方图。本单元参考书目：1马斌荣.医学统计学人民卫生出版社2. 陈平雁. SPSS13.0软件应用教程人民卫生出版社三、计量资料

19、的统计描述1数据汇总报告（Report）主菜单Analyze列出了统计分析的绝大部分内容，在菜单中Reports列在第一行，它的重要功能是数据的汇总统计，它可以按自行规定的格式报告描述统计量。1.1. 即时汇总分析（OLAP Cubes）OLAP是Online Analytical Processing的缩写，该过程主要用于统计描述。其特点是提供快捷、灵活多样的交互方式。操作过程：从菜单选择AnalyzeReportsOLAP Cubes Summary variable：分析变量。一般为计量变量。 Grouping variable：分组变量。可选1个或多个，对上面的分析变量进行分组统计。

20、Statistics：统计量。数据集EG1501.sav分别以sex为分组变量、infect为分组变量及二者共同为分组变量对time, hct计算统计量，包括合计、均数、样本量、标准差、标准误、最小值和最大值。1.2 数据汇总（Case Summarize）数据汇总是将数据编辑窗中的全部或部分数据源在结果窗中罗列出来，以便浏览或打印。同时对数据的基本特征进行描述。操作过程：从菜单选择AnalyzeReportsCase Summarize Variables：选入汇总变量。Grouping variable：选入分组变量。Statistics：统计量。对数据集EG1501.sav以sex 为

21、分组变量，计算反应变量time、lossb、opab的例数、均数及标准差，只限于数据文件中前20例的计算，并输出原始数据。1.3行汇总报告（Report Summaries in Row）行汇总报告过程可以罗列原始数据，其格式是以观察单位和统计量为行标目，以报告变量为列标目。与汇总数据过程相比，它可以给出更为复杂的报告形式，其输出格式的设置也更为详细。操作过程：从菜单选择AnalyzeReportsReport Summaries in Row Data Columns：定义报告变量。Break Columns ：选入分组（分类）变量。注意：在本界面存在两个Summary正下方Summary：

22、分组报告统计量。右下方Summary：汇总报告统计量。对数据集EG1501.sav以sex 为分组变量，计算反应变量time、lossb、opab，分组统计量选择均数、样本量和标准差，汇总统计量选择均数、样本量、标准差及最大和最小值。1.4列汇总报告（Report Summaries in Column）列汇总报告以分组变量的不同水平为行目标，以报告变量（包括合计汇总变量）和统计量为列目标。列汇总报告的功能与行汇总报告有许多相似之处，但也有不同，列汇总每次只能选择1个变量，但可以分别选择不同的统计量，不能列出原始数据；行汇总可多选变量，但入选变量只能选择相同的统计量，可以列出原始数据。操作过程

23、：从菜单选择AnalyzeReportsReport Summaries in ColumnData Columns：定义报告变量。Break Columns ：选入分组（分类）变量。对数据集EG1501.sav以sex 为分组变量，在报告变量中，每次选一个变量，Summary按钮被激活，击Summary按钮，分别选定待输出的统计量，一次仅选一个待输出的统计量。若不选，则系统默认求合计。本实验要求：计算反应变量time的Percentage inside Low：120 High：180、lossb均数、opab最大值。2频数分布分析（Frequencies）频数分布分析主要通过频数分布表、

24、条图和直方图，以及集中趋势和离散趋势的各种统计量，描述数据的分布特征。操作过程：从菜单选择AnalyzeDescriptiveFrequenciesStatistics：统计量。有包括四分位间距等的百分位数、包括均数等的集中趋势和包括标准差的离散趋势可供选择。Chart：统计图。对数据集EG1501.sav的lossb（失血量）作描述性分析，并绘制直方图。3描述性统计分析（Descriptives）描述性统计分析主要用以计算描述集中趋势和离散趋势的各种统计量，此外还有一个重要功能是对变量做标准化变换，即Z变换。操作过程：从菜单选择AnalyzeDescriptiveDescriptives对数

25、据集EG1501.sav的lossb、opab进行描述性分析。4探索性分析（Explore）探索性分析主要有以下几个目的：对数据进行初步检查，判断有无离群点（outliers）和（或）极端值（extremevalues）。对前提条件假定，如正态分布和方差齐性进行检验。了解组间差异特征。探索性分析（Explore）可以给出统计量、正态性检验和描述性统计图，包括茎叶图、直方图和箱图。对数据集EG1501.sav中的time（手术时间）按分组（分类）变量sex（性别）进行探索性分析，要求输出描述统计量、做出箱图和茎叶图、作正态性检验及方差齐性检验并绘制正态概率图。5对12只小鼠进行完全随机分3组：方

26、法1：Tansform Random number seedCompute，指定目标变量m，Uniform(3)，Tansform Categorize方法2：Data-Select Cases-Random sample Filtered，于Sample中，指定Exactly 4 cases from 12 cases, 选择Tansform Compute，指定目标变量m，Numeric Expression为1，选择Tansform Compute，指定目标变量m，Numeric Expression为3，if filter=1，Data-Sort Cases，指定m、Ascending

27、。最后从前面的8条中按上述方法再测取4条。本单元参考书目：1马斌荣.医学统计学人民卫生出版社2. 陈平雁. SPSS13.0软件应用教程人民卫生出版社四、两组计量资料的均数比较- t检验与单因素方差分析1对于两组计量资料的均数做显著性检验可用t检验。它要求该两组资料都分别服从正态分布或近似正态分布，并且要求两组的方差具有齐同性。t检验可根据实验设计分为单样本t检验（Oen-Sample T Test）、配对t检验（paired-samples T test）和两组独立样本的t检验（independent- samples T test）。表4-1 两均数差别的比较样本均数与总体均数的比较H0:

28、=0H1:0n较小，服从正态分布t=n50，或0已知 or 配对资料H0:d=0H1:d0成组设计两样本均数比较H0:H1: n150 , n2502 方差分析：又称为变异度分析，它是英国统计学家R.A.Fisher首先提出的一种统计方法，为此有时也称为F检验。方差分析简写为ANOVA（Analysis of Variance）。它要求各组观察值服从正态分布或近似正态分布，并且各组之间的方差具有齐性。方差分析的基本思想是把所有观察值之间的变异分解为几个部分，即把描写观察值之间的变异的离均差平方和分解为某些因素的离均差平方和及随机抽样误差的离均差平方和，进而计算其均方，然后相互比较，做统计学处理

29、。如表3-2表4-2 完全随机设计方差分析计算表差异源SS（自由度）MSF组间SS组间组间=k-1MS组间= SS组间/组间F= MS组间/ MS组内组内（误差）SS组内=SS总-SS组间组内=总-组间 =N-kMS组内= SS组内/组内总计SS总总=N-13步骤要求：1）写出检验假设 2）建立数据文件 3）统计分析，并纪录统计量和检验结果4）写出统计结论和专业结论4单样本 t检验：推断样本所代表的未知总体与已知总体均数有无差别，还可以计算相应的描述性统计量及样本均数和总体均数之差的95%可信区间。操作过程：AnalyzeCompare MeansOne-Sample T Test已知某水样

30、中含CaCO3的真值为20.7mg/L,现用某法重复测定改水样11次，CaCO3的含量为：20.99，20.41，20.10，20.00，20.91，22.60，20.99，20.41，20.00，23.00，22.00。问该法侧得的均数是否偏高？5配对t检验：用于检验两组相关样本或成对样本所得平均数间是否有显著性差异，实质上是检验样本差值的总体均数与0的差异有无显著性意义，以及配对样本是否相关。操作过程：AnalyzeCompare Meanspaired-samples T test 比较 10例矽肺患者经药物治疗前后的血红蛋白量（g/dl）。表4-3 10例矽肺患者经药物治疗前后的血红蛋白量（g/dl）治疗前11.315.013.512.810.011.012.013.012.31

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？