文献信息数理统计分析_精品文档PPT文件格式下载.ppt
《文献信息数理统计分析_精品文档PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《文献信息数理统计分析_精品文档PPT文件格式下载.ppt(128页珍藏版)》请在冰豆网上搜索。
,实验法:
又分为真正实验研究法与准实验研究法。
也是探讨多个变量之间的关系。
对变量可以明确地区分因(自变量)与果(依变量)。
真正实验研究法:
通过严谨的实验操作与受试者随机分派程序,研究者得以将一群普测受试者随机分派到实验因素(自变量)不同的实验处理中,并控制其他条件使每一位受试者在实验处理以外的情况都保持一致,然后对于某一特定的行为或态度加以测量。
此方法多在实验室中实施。
准实验研究法:
指在现实生活中的开放场域进行实验研究,通常无法做到受试者完全的随机分派与严谨的环境操控。
量化方法的比较,量化的研究过程,第一阶段:
理论基础是理论文献引导阶段,通过文献的整理与理论的引导,可以清楚地勾勒出一个研究的问题内涵与进行方向,并作为整个研究进行的逻辑基础与理论内涵。
第二阶段:
数据搜集是由一连串完美无缺研究活动所构成,目的在于获取真实世界的观察数据。
第三阶段:
资料分析针对实证观察所得到的数据进行分析,提供具体的比较与检验的证据,用以回答研究者所提出的命题是否成立,以做出最后的结论。
研究设计与数据处理时应考虑的几个问题:
抽样的样本要多少才算“够大”“抽样人数的多寡还是抽样的重点,而是选取的样本是否有足够的代表性,将来的研究结果能否有效推估至受试的总体。
”“如果抽样方式不当,虽然选了很大的样本,代表性也会很低。
”学者Sudman认为:
初学者进行与前人相类似的研究时,可参考别人的样本数,作为自己抽样的参考。
如果是地区性研究,平均样本人数在500-1000;
如果是全国性研究,平均样本人数在1500-2500。
描述性研究时,样本数最少占总体的10%。
总体较小时,则最小样本数最好为总体的20%。
相关性研究时,目的在于探究变量间有无关系存在,受试者至少须在30人以上。
因果比较研究与许多实验研究,各组的人数至少要有30位。
如果实验研究设计得宜,有严密的实验控制,每组受试者至少在15人以上。
量表编制,无论是问卷调查法、相关研究法或实验研究法,都要有客观的测量工具,这通常包括问卷、量表、测验等。
类别性测量表:
主要功能在鉴别差异。
确认受试者所属的类别。
如性别、教育背景等。
基本要件:
第一是题目的选项必须是完全互斥;
第二是能够包括所有可能的选择,有些题目研究者无法完全将选项设计进入试题,因此在最后增加“其他”一项,但一般不鼓励使用。
连续性测量表:
主要进行程度的测量,以测定某些概念或现象的强度大小。
如智商、自信、意见、焦虑感等。
李克特式(Likert-type)多选项量表:
通常采有四至六点量表法,其中五点量表法的内部一致性较佳。
在编制多选项量表时,一般把量表视为等距变量来设计,它虽然不是“真正”等距变量,但多假定具有等距变量的性质。
当采用奇数格式时,如5点或7点量表,中间值多为中庸或模数意见。
采用偶数格式时,多是希望受试者有具体的意见倾向,避免回答中间倾向的意见,从而能获得非常赞成、赞成与非常不赞成、不赞成两类明确的意见。
其它连续性测量量表:
Thurstone量表、Guttman量表、语意差别法、强迫选择法、形容词检核表,量表分析,在问卷调查法或实验研究法中,调查或研究工具编制甚为重要。
对问卷的信效度分析如下:
1、编拟预试问卷2、预试3、整理问卷与编号4、项目分析5、因素分析6、信度分析:
L.J.Cronbach的系数(0.7以上)7、再测信度,量表编码,编码表:
主要用于记载数据数量化的所有格式与内容,并配合计算机处理的需求,详述数据处理的步骤。
主要功能:
第一是提供标准化的作业流程。
第二是沟通的功能。
通过编码表,所有使用者可以轻易地理解数据的内容与格式。
第三是工作凭据的建立与工作记忆的留存。
题号编码时应注意,题号编码时应注意:
题号代号不能重复。
变量名称是唯一的,不能重复。
不区分大小写,不超过8个字符,最好以英文字母开头,不可有空格或其它特殊字符。
同一量表的题号最好有相同的识别码。
如Time1至Time9、A1至A20、Q1至Q20等。
名义或类别变量的变量代码最好与其意义内涵有关。
变量代码不要用中文。
中文可写在注释(标签)中。
此外,问卷中没有ID这个变量,但在数据处理中,每一份问卷的编号是重要的管理数据,因此若问卷没有事先编定好的一个编号,通常都会额外在问卷上编上流水号以资区别。
复选题的数据文件建立,注意:
若一个复选题有七个选项,在建立文件时应分别建立七个变量。
如:
排序题的数据文件建立这种有等级重要性的题项,在变量编码时与复选题相同,内有多少个选项,就要设定多少个变量。
SPSS的操作,1、建立SPSS数据文件界面介绍,变量名输入与变更变量类型与注释(标签)格式与度量标准变量情况列表:
文件显示数据文件信息实用程序变量工具栏变量图标,复选题分析,例:
用以了解青少年人际网络与影响力的题组:
在兄弟姊妹、同性或异性同学朋友、老师与父母等各种角色之中:
(可复选)Q1长期以来对你影响最深的是同性同学异性朋友兄弟姊妹父母老师Q2目前对你影响最大的是同性同学异性朋友兄弟姊妹父母老师Q3和你最贴心、最了解你的是同性同学异性朋友兄弟姊妹父母老师Q4遇到身心问题最可能诉说的对象同性同学异性朋友兄弟姊妹父母老师Q5重大人生决定最可能讨论的对象同性同学异性朋友兄弟姊妹父母老师,复选题虽然只是一题,但是由于有多个选项,必须对每个选项进行反应,因此每个选项都是一个二分变量(有无回答),可用0代表未勾选,1代表勾选。
上例共形成一个55的复选变量形态的数据表。
定义变量集后就可以通过频率法或交叉表法进行分析,频率法分析:
分析多重响应频率,频率法分析:
分析多重响应交叉表,排序题分析,例:
Q1请在下列各种网络工具选项中,指出三种您最常用来和朋友沟通的工具,并依程度标出1、2、3的次序(1为最常使用者)ICQCICQE-mailMSNBBSWWWNetmeeting,分析:
一个题目,多个选项,多次回答;
因此,要设七个变量。
每个选项的答案有1、2、3及不选择(0),共四个答案。
与复选题比,复选题答案只有选择与不选择两种,是二分变量;
而排序题答案有多个,是顺序变量,如本题是“0、1、2、3、4”。
设本题变量为Q2A、Q2B、Q2H,先定义变量集:
分析多重响应定义变量集分析:
分析多重响应频率(或交叉表),本排序题有1、2、3三种被选状态及0(未选中),所以要定义三个复选题集(order1-3)对应的计数值也分别为1、2、3。
数据与文档管理,读入SPSS文档与EXCEL文档数据转换(身高体重表1)数据转置数据分类汇总(成绩-chengji.sav),观察值加权(ch5.sav)数据加权个案分析报告个案汇总,数据转换,计算:
(邱皓政P89-91)(成绩-chengji.sav)转换计算变量计算语、数、英三科的总成绩,计算变量,重新编码:
(邱皓政P91-92)(成绩-chengji.sav)
(1)类别变量的重新编码将各年级的1、2班合并为一个班
(2)连续变量的重新编码将成绩分成优(90分以上)、良(80-89.99)、中(70-79.99)、及格(60-69.99)、不及格(59.99以下)转换重新编码,类别变量的重新编码,
(2)连续变量的重新编码,数据分组邱皓政P93-96转换可视离散化,转换可视离散化,等级观察值:
(邱皓政P98-100)(成绩-chengji.sav)按等级排名次(由低到高或由高到低)等级可按均值、按较低或高值取值按自订的N等级(Ntiles)取值,可以从1-9级,等级观察值(按等级排名次),等级观察值(按自订的N等级(Ntiles)取值),报表输出,简单报表在线分析处理(OLAPCubes)分析报告OLAPCubes个案汇总分析报告个案汇总商务报表分析报告按行(列)汇总(电视机质量跟踪调查问卷.sav)汇总被调查者基本信息报告,在线分析处理(OLAPCubes),高级报表(例说SPSSP74-85)(西部农业信息组织调查问卷.sav)定义复选变量集(多响应集)分析表多响应集制定报表分析表设定表
(1)不同地区信息组织提供内容及人员规模表
(2)性别与学历情况调查表与(3)性别不同文化程度的被调查者收入情况表,定义复选变量集,制定报表1,制定报表2(注意要将性别、文化程度的测量尺度改为序号或名义),从独立性检验(卡方检验)结果可知,独立性检验的p(概率)值(sig值)为0.42,大于检验显著水平(Alpha:
0.05),说明卡方值未达显著程度,即接受虚无假设,拒绝对立假设,也就是原假设相互独立成立,所以性别与文化程度相互独立,二者无关。
性别不同文化程度的被调查者收入情况表,描述统计的原理,描述统计是一套用以整理、描述、解释数据的系统方法与统计技术。
其中,用以描述测量观察值集中情形的称为集中量数、用以描述测量观察值分散情况的称为变异量数(离散量数)。
另有,偏态与峰度、相对量数、标准分数等。
集中量数众数、中位数、平均数变异量数(离散量数)全距、四分差、离均差、平均差、变异差(方差)、标准差,集中量数,平均数:
(mean,或M)-算术平均值是取某一变量的所有数值的总和除以观察值个数为总体数据平均数。
为样品数据平均数。
中位数:
(median,或Mdn)-中数是将某一变量数据依大至小或小至大排列,取位居最中间,或能够均匀对分全体观察值的分数。
中位数最大用途是反映全体“样体”的中心点。
又称为50百分位数(P50)或第二四分位数(Q2),众数:
(mode;
或Mo)指一组分数中出现次数最多的一个分数。
如果一个分布中有两个分数具有相同的最高次数,即出现了双众数。
变异量数(分散量数),全距:
(range)是一组分数中最大值(Xmax)与最小值(Xmin)之差,是一群分数变异情况最粗略的指标。
四分差:
(QR)是一组数据中的第三四分位数(Q3)与第一四分位数(Q1)距离的一半,也就是中间百分之五十的样本分数差距的二分之一。
以离均差为基础的变异量数:
标准差、变异数(方差)平均差:
(MD)离均差平方和:
(SS)变异数(方差):
(2或MS)将离均差平方和除以个数,得到变异数(方差)。
标准差:
()将变异数(方差)开方,即得到标准差。
样本变异数(方差):
(s2或)样本标准差:
(s或)N-1为自由度,表示一组分数中可以自由变动的分数的个数。
在离均差的计算中,自由度为样本数减1。
一般来说,当样本数超过30时,自由度的影响就几乎为零。
变异量数的特性,四种变异量数中,标准差与变异数(方差)使用到每一个分数进行四则运算,因此变量要有测量单位,对于变异情况的描绘能够考虑到每一个个体的分数,最为精密,但也容易受到偏离值的影响。
四分差,在适当排序之后算出,仍可用来表示变异情况,受到偏离值的影响相对较小。
可应用于顺序尺度。
偏态与峰度,偏态:
(Skewness)三种偏态:
地板效应:
主要指数据多集中于偏低值的一端,但在高分端有极端值,分数不易突破低分端。
地板效应常伴随正偏态现象。
天花板效应:
主要指数据多集中于偏高值的一端,但在低分端有极端值,分数不易突破高分端。
地板效应常伴随负偏态现象。
峰度:
(Kurtosis)三种峰度:
偏态与峰度的判断,标准分数,标准分数:
是