统计学之因子分析.docx
《统计学之因子分析.docx》由会员分享,可在线阅读,更多相关《统计学之因子分析.docx(12页珍藏版)》请在冰豆网上搜索。
统计学之因子分析
统计学之因子分析
&多元分析:
就是通过多个变量对数据进行分析的方法的统称。
多元分析包括:
@因子分析
@重回归分析
@LOGISTIC分析
@主成分分析
@聚类分析
@结构方程模型等等
所谓因子分析就是将数据背后的潜在的共性因子挖掘出来的一种分析方法。
简单来说,就是通过问卷调查的结果,将受访者的真实想法归纳出来的一种分析方法。
#问卷调查的基础知识
因子分析大多是先通过问卷调查来收集数据,然后再进行分析,所以我们必须先掌握问卷调查的相关知识。
%抽样方法
总体:
由全部调查对象所组成的集合称为“总体”。
抽样:
从总体中抽出的若干个个体所组成的集合称为“样本”。
Bytheway,以总体的为对象的调查称为“普查”;以样本为对象的调查称为“抽样调查”。
但是,样本如果不能成为“总体的精确缩影”的话,那么做样本分析就失去意义了。
(书18页图)
抽样方法,就是将样本从总体中抽出的方法的统称。
作为代表性的方法,我们主要介绍四种:
“简单随机抽样法”“分层抽样法”
“二阶抽样法”“分层二阶抽样法”
*“简单随机抽样法”就是从总体中随机抽取个体的抽样方法。
这种方法常常用来进行像“某大型企业的员工意识调查”,因为虽然可以拿到全体成员的名册,但是人数过多,不适合进行普查,这是就可以用简单随机抽样法。
*“分层抽样法”它是先将总体按照“出生地”、“出生年代”、“职业”或“最高学历”等属性划分出不同的层,然后再针对每层做简单随机抽样的一种方法。
从不同的层得到的调查结果会有比较大的差别,当这些状况能够事前预测到时,适合使用这种方法。
例如:
“喜欢哪类食品”这类问题可能会因“地域”的不同而有所不同;“喜欢哪位明星”这类问题可能会因“出生年代”不同而有所不同。
*“二阶抽样法”就是分2个阶段抽取数据的方法。
作为第一阶段,按照“出生地”或其他属性进行抽样;第二阶段,对已抽出的每一个区域进行简单随机抽样。
需要注意的是:
我们必须知道第一阶段中各区域的准确人数,否则无法进行调查;此外,在第一阶段中没有被抽到区域的人们,他们的意见将被我们忽视。
*“分层二阶抽样法”就是分层抽样法和二阶抽样法相结合的抽样方法。
^^以上均是随机抽样。
定向抽样是一种随机抽样以外的抽样方法,也就是将构成样本的个体从总体中非等概率地抽取出来的方法。
下面介绍几种定向抽样法。
介绍法:
以熟人或朋友为调查对象,获取样本的方法。
征召法:
以读者意见反馈卡等方式招募调查对象,获得样本的方法。
拦截法:
在商业街或街角等处寻找调查对象,获得样本的方法。
%调查方法
@邮寄调查@网络调查@现场调查@留置调查@电话调查
@RDD(RondomDigitDialing)调查
%样本容量的标准
样本中的个体数目称为样本容量。
样本容量越大,就越接近总体的数量,但不会超过总体的数目。
“样本容量的统计学最低标准”是不存在的。
但是,在问卷调查领域中,通常会有一个“约400”的最低标准,不过这个标准也不能说是合理的。
“约400”只是出于某种考虑而设定的值,并不能无条件的令人信服。
(第35页)
%数据分析的搭配方法
数据分析的搭配方法有两种类型。
@探索型@验证性
“探索型”的数据分析流程
①收集手头资料。
②试着运用各种分析方法,进行全面分析。
③如“事后诸葛”般恍然大悟“原来世上还有这样的事”。
④向周围的人公布自己的分析结果。
“验证型”的数据分析流程
①建立假设
②为了确认假设是否成立,收集资料,并进行分析。
③得出结论,即假设成立与否。
④向周围的人公布自己的分析结果。
“探索型”的数据分析,只需要手头的数据即可,其优点在于能够简单、快速的完成分析。
另一方面,它也存在弊端,如数据被随意加工、变量间被强加上想当然的因果关系,从而可以让“事后诸葛”们乱说一通。
更有甚者,便会“为所欲为”了。
“验证型”的数据分析,一定要在调查的最初阶段建立假设,所以着手分析时会比较困难,这也正是他的缺点。
但是另一方面,假设一旦建立,接下来便是收集数据和分析数据。
经过一番分析,如果假设成立,就可以得到一个非常有说服力的结果,获得周围的认同。
即便假设不成立,我们同样可以得到一个事实“至少这个假设不成立”,这对指导今后的研究很有帮助,所以绝不能说这是一个没有意义的数据分析。
#调查问卷和问题
无论是调查问卷的构成还是询问的问题都没有一个所谓的“最佳法则”,但是还是有一些规则能使调查问卷和问题的设计更科学合理一些。
在调查问卷中,首先要询问受访者的行为或经验这些“现状”层面的东西,接下来再询问感觉啦、想法啦这些“意识”层面的东西,最后询问“属性”层面的东西。
这样的结构才是最佳结构。
%问题的分类
调查问卷中的问题大致可分为“单项选择题”、“多项选择题”、“数量题”、“文字题”等。
“单项选择题”也就是只允许选择一个选项的问题。
当几个问题的选项相同时,为了节约纸面空间,建议采取下面的方式
多项选择题,也就是同一道题可以选择多个选项的问题。
另外,还有类似下面的这种询问方式
但是并不推荐大家使用,因为与“可选多项”相比,这种设计要求受访者必须先将全部选项浏览一遍之后才能作答,这样无形中会增加受访者的负担。
数量题,也就是需要回答具体数值的问题。
这时要用线将每一位数字隔开,以免书写时出现错误。
文字题,也就是不需要选择选项,而是需要自由作答的问题。
%应当避免的问题
@不能对于过于隐私的问题问得太具体。
如果一定要询问具体值的话,就要另想办法。
例如下面的方式会让受访者感到更为亲切。
@不能存在表达不明确的问题。
@同一问题不能包含两层以上的意思。
比如:
Q你觉得服务员的制服和服务态度如何?
倘若受访者认为“服务态度好,而制服不好”那他该如何作答呢?
所以问题要一个一个的明确的提出来。
@最好不要设置排序问题。
例如“觉得两者都不错的”或者“没有尝试过某一种”的人将不好作答。
问题的提出关键在于从“受访者角度”出发。
如果你是受访者的话,做这份调查问卷会有什么感受。
如果你身边的人是受访者的话,他们会协助你完成调查吗。
如果你已经考虑到这些的话,就没有问题了。
@诱导回答的问题。
例如:
Q.由于日本的资源紧缺,所以在21世纪,关于科学科技的教育越发显得重要。
因此,您对今后的初中理科教育有何看法?
1、应当更丰富一点2、保持现状就好
注:
面对这种提问,很多人都是出于不得已会选“1”。
@程度等级太多的问题。
@评分的问题。
@征集自由答案的问题。
当拿到千奇百怪的答案时,你就会意识到您所肩负的工作是多么沉重。
%“中值”的存在性
在进行程度等级的评价时,无论采用哪种方式,都会有包括“中值”和不包括“中值”的两种情况。
*包括中值
*不包含“中值”
总体来说,包括不包括“中值”都可以,但是不包含中值会出现这样的问题:
·必须明确的回答“是”或者“否”,这会增加受访者的回答难度。
·与含有“中值”的情况相比,其直方图与正态分布的相似度也比较低。
#基础数学知识
为了理解因子分析我们有必要先来学习一下数字的基础知识。
这部分主要讲讲一些事实性的问题。
权且当作“就是这么回事”来理解就好。
%相关矩阵
相关矩阵,也就是由单相关系数所构成的矩阵。
%单位矩阵
单位矩阵,就是主对角线(左上至右下)上的值全为1,其余的值全为0。
而且同单位矩阵相乘并不会对原来的矩阵产生影响。
也就是说这个矩阵就像数字里的1一样。
%坐标的“旋转”
围绕原点的旋转:
如下图,在2维坐标上,有一点p(x,y),直线opの长度为r,直线op和x轴的正向的夹角为a。
直线op围绕原点做逆时针方向b度的旋转,到达p’(s,t)
s=rcos(a+b)=rcos(a)cos(b)–rsin(a)sin(b)(1.1)
t=rsin(a+b)=rsin(a)cos(b)+rcos(a)sin(b)(1.2)
其中x=rcos(a),y=rsin(a)
代入(1.1),(1.2),
s=xcos(b)–ysin(b)(1.3)
t=xsin(b)+ycos(b)(1.4)
用行列式表示如下
%特征值和特征向量
每个矩阵都会有与之相对应的“特征值”和“特征向量”。
例如:
,这说明
是
的特征值,
是
对应于
的特征向量。
P行P列的矩阵的特征值和特征方程,原则上讲,存在P组。
%对称矩阵
所谓对称矩阵就是各元素关于对角线对称的矩阵。
如此说来,相关矩阵,单位矩阵都是对称的矩阵。
%矩阵的补充
@矩阵的书写规则
@矩阵的加法
@矩阵的乘法
@逆矩阵:
逆矩阵就是与原矩阵相乘之后得到同型的单位矩阵的那个矩阵。
@转置矩阵:
转置矩阵就是将行和列互换后得到的矩阵。
@离差平方和、方差、标准差
离差平方和=(每个数据-平方值)2相加之和
(总体)方差=离差平方和/数据的个数
(总体)标准差2=(总体)方差
注:
在方差中,也有不采用“数据的个数”而采用“数据的个数-1”作为分母的情况,我们将其称为样本方差。
#主成分分析
主成分分析和因子分析看起来很相似,很多人都会混淆这两种方法,为了避免今后我们也犯类似的错误,本章节主要为大家介绍主成分分析。
%主成分分析
主成分分析和因子分析的区别在于,如果给主成分分析增加一些约束条件,那么两者就完全相同了。
主成分分析,是为了“选出综合实力最强”的一种分析方法。