定量分析方法信息分析课件.ppt
《定量分析方法信息分析课件.ppt》由会员分享,可在线阅读,更多相关《定量分析方法信息分析课件.ppt(112页珍藏版)》请在冰豆网上搜索。
信息分析查先进55定量分析方法定量分析方法5.15.1多元分析法多元分析法5.25.2时间序列分析法时间序列分析法5.35.3系统动力学方法系统动力学方法5.45.4文献计量学方法文献计量学方法5.15.1多元分析法多元分析法变量之间本身具有某种关系(如线性关系),但因各变量之间本身具有某种关系(如线性关系),但因各种误差使之不具备该关系,通过回归,使之恢复该关种误差使之不具备该关系,通过回归,使之恢复该关系。
系。
变量之间本身不具有某种关系,通过回归,抓主要矛变量之间本身不具有某种关系,通过回归,抓主要矛盾,使之近似具有某种关系。
盾,使之近似具有某种关系。
5.1.15.1.1回归分析回归分析n回归分析回归分析可能应用的领域可能应用的领域处理两个或两个以上变量之间的相关关系处理两个或两个以上变量之间的相关关系样本观察(散点图)样本观察(散点图)选择恰当的模型选择恰当的模型确定模型参数确定模型参数回归效果检验回归效果检验预测和控制预测和控制数据采集数据采集一元线性回归分析一元线性回归分析一元线性回归方程参数的求解一元线性回归方程参数的求解有联系的两个变量:
有联系的两个变量:
X与与Y由由观察和实验得到观察和实验得到n对数据:
对数据:
(x1,y1),(x2,y2),(xn,yn)用用散点图描述收集到的点:
散点图描述收集到的点:
两两变量之间大致成线形关系:
变量之间大致成线形关系:
数学公式表达数学公式表达yx0方方法法和和过过程程设设可可得得一元线性回归方程参数的求解一元线性回归方程参数的求解由此得出回归方程:
由此得出回归方程:
求解得求解得分分析析可表示为可表示为lyy=U+Q通过通过xx对对yy的线性的线性相关关系而引起相关关系而引起的分散性的分散性剩余部分引起的剩余部分引起的yy的分散性的分散性回归方程效果的检验回归方程效果的检验11)平方和分解公式)平方和分解公式FF体现了体现了xx与与yy的线性相关关系的相对大小的线性相关关系的相对大小F值相当大值相当大F值比较小值比较小xx与与yy有线形相关关系有线形相关关系xx与与yy没有线形相关关系没有线形相关关系22)FF检验检验FF检验的一般程序检验的一般程序计算计算UU、QQ,得出,得出FF值值对给定的检验标准对给定的检验标准,查自由度为查自由度为11,n-2n-2的的FF分布临界值分布临界值表,得临界值表,得临界值:
PP(FF)比较比较FF值与值与值的大小值的大小FFt)比较比较tt值与值与值的大小值的大小ttF)=;比比较较FF值值与与值值的的大大小小。
如如果果FF,则则认认为为线线性性回回归归方方程程效效果果是显著的;反之,则认为是不显著的。
是显著的;反之,则认为是不显著的。
22)F检验检验33)各自变量影响程度大小的判别各自变量影响程度大小的判别在实际的信息分析工作中,我们还经常会关心在在实际的信息分析工作中,我们还经常会关心在y对对x1,x2,xk的线性回归中,哪些因素很重要,哪些因素不太重要。
这就需要对的线性回归中,哪些因素很重要,哪些因素不太重要。
这就需要对回归方程的每个自变量都进行显著性检验。
回归方程的每个自变量都进行显著性检验。
关于关于xxii变量显著性检验的一般程序:
变量显著性检验的一般程序:
计算计算ttii值;值;对对于于给给定定的的检检验验标标准准,查查自自由由度度为为n-k-1n-k-1的的tt分分布布临临界界值值表表,得临界值得临界值:
PP(tt)=;比比较较ttii值值与与值值的的大大小小。
如如果果ttii,则则说说明明xxii对对yy的的影影响响显显著著,必须保留必须保留xxii在回归方程中;否则,应去掉在回归方程中;否则,应去掉xxii重新建立回归方程。
重新建立回归方程。
33)各自变量影响程度大小的判别各自变量影响程度大小的判别回归分析的实际应用回归分析的实际应用例:
已知某年中国各地区城镇居民例:
已知某年中国各地区城镇居民平均每人全年可支配收入和消费性平均每人全年可支配收入和消费性支出两个变量支出两个变量,试利用社会科学统,试利用社会科学统计分析软件计分析软件SPSSSPSS对上表中的数据进对上表中的数据进行回归分析行回归分析。
(1)作散点图作散点图
(2)方差分析方差分析查自由度为查自由度为1,29的的F分布临界值表得分布临界值表得=7.60(=0.01)F=862.5017.60=862.5017.60,所所以以可可支支配配收收入入与与消消费费性性支支出出之之间间具具有有强线性相关关系。
强线性相关关系。
回归方程为回归方程为消费性支出消费性支出=0.772=0.772可支配收入可支配收入+126.005+126.005(3)预测值与残差预测值与残差通过通过SPSSSPSS,可以按要求输出消费性可以按要求输出消费性支出的预测值、残差和标准化残差。
支出的预测值、残差和标准化残差。
(3)预测值与残差预测值与残差通过通过SPSSSPSS,可输出消费性支出的预可输出消费性支出的预测值、残差和标准化残差。
测值、残差和标准化残差。
5.1.25.1.2聚类分析聚类分析聚类是把一组个体按照相似性归成若干个类别,聚类是把一组个体按照相似性归成若干个类别,即物以类聚。
其目的是使得属于同一类别的个体之即物以类聚。
其目的是使得属于同一类别的个体之间的距离尽可能地小,而不同类别上的个体间的距间的距离尽可能地小,而不同类别上的个体间的距离尽可能地大。
离尽可能地大。
聚类分析的基本思想是在样品之间定义距离,在变量之间定义聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数。
距离或相似系数代表样品或变量之间的相似程度。
相似系数。
距离或相似系数代表样品或变量之间的相似程度。
例如,在分层聚类中,按相似程度的大小,将样品或变量逐一例如,在分层聚类中,按相似程度的大小,将样品或变量逐一归类,关系密切的样品或变量聚集到一个小的分类单位,然后归类,关系密切的样品或变量聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的样品或变量聚集到一个大的分类单逐步扩大,使得关系疏远的样品或变量聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,形成一个表示亲疏关位,直到所有的样品或变量都聚集完毕,形成一个表示亲疏关系的谱系图,再对谱系图进行分析,并按照要求对样品或变量系的谱系图,再对谱系图进行分析,并按照要求对样品或变量进行分类。
进行分类。
相似性程度是聚类所依据的标准,样品间的相似性通常用相似性程度是聚类所依据的标准,样品间的相似性通常用距离距离进行度量,而变量间的相似性通常用进行度量,而变量间的相似性通常用相似系数相似系数进行度量。
进行度量。
n分层聚类分层聚类HierarchicalClusterAnalysis分层聚类一开始将每个样品看成是一类或一簇分层聚类一开始将每个样品看成是一类或一簇(clustercluster),),然后从低到高创建一个聚类的层次。
然后从低到高创建一个聚类的层次。
其中,最低层次的簇合并在一起创建下一个较高层次其中,最低层次的簇合并在一起创建下一个较高层次的簇;这一层次的簇再合并在一起,进一步创建更高的簇;这一层次的簇再合并在一起,进一步创建更高层次的簇。
层次的簇。
用分层聚类法聚类时,聚多少类为合适是一个很实际用分层聚类法聚类时,聚多少类为合适是一个很实际的问题。
一个较好的聚类应该在类内各样品尽可能相的问题。
一个较好的聚类应该在类内各样品尽可能相似的前提下,使得类的个数尽可能少。
对于相同的样似的前提下,使得类的个数尽可能少。
对于相同的样品对象,分层聚类在具体操作中,可采取不同的类间品对象,分层聚类在具体操作中,可采取不同的类间距离进行计算,并得到不同的分类结果。
哪个结果更距离进行计算,并得到不同的分类结果。
哪个结果更能反映样品对象本身的客观分类,这种判断的正确与能反映样品对象本身的客观分类,这种判断的正确与错误将直接决定分层聚类法在实际应用中的价值。
错误将直接决定分层聚类法在实际应用中的价值。
例:
表中显示的是某年度例:
表中显示的是某年度2020个代表性地区农村居民家庭平个代表性地区农村居民家庭平均每人生活消费现金支出情况。
试用均每人生活消费现金支出情况。
试用SPSSSPSS进行分层聚类。
进行分层聚类。
在层次聚类的参数选择中,选择按样品聚类;聚类指标为食在层次聚类的参数选择中,选择按样品聚类;聚类指标为食品、衣着、居住、家庭设备及服务、医疗保健、交通和通讯、品、衣着、居住、家庭设备及服务、医疗保健、交通和通讯、文教娱乐用品及服务、其他商品及服务;样品间的距离采用文教娱乐用品及服务、其他商品及服务;样品间的距离采用欧式距离;类间距离分别采用最短距离、最长距离和重心距欧式距离;类间距离分别采用最短距离、最长距离和重心距离,不同的类间距离算法适合不同的聚类形状,在不了解聚离,不同的类间距离算法适合不同的聚类形状,在不了解聚类形状之前,可尝试多种类间距离算法并对不同的分类效果类形状之前,可尝试多种类间距离算法并对不同的分类效果进行比较分析。
进行比较分析。
最短距离法最短距离法谱系图谱系图聚类过程聚类过程最长距离法最长距离法谱系图谱系图聚类过程聚类过程重心距离法重心距离法谱系图谱系图聚类过程聚类过程主要特征主要特征可以根据需要预先确定可以根据需要预先确定kk个聚类。
根据选定个聚类。
根据选定的的kk值,聚类可以产生两个完全极端的结果。
如果设值,聚类可以产生两个完全极端的结果。
如果设kk等等于于11,就可能会得到一个没有意义的结果,因为所有的数,就可能会得到一个没有意义的结果,因为所有的数据会归类到一个节点中。
另一个极端是设据会归类到一个节点中。
另一个极端是设kk等于样品数,等于样品数,同样也会得到一个毫无意义的结果。
任何其他的聚类个同样也会得到一个毫无意义的结果。
任何其他的聚类个数取决于数取决于kk值,对于值,对于kk值的选取没有一个固定的规则,常值的选取没有一个固定的规则,常常需要对各种取值进行反复试验。
常需要对各种取值进行反复试验。
n快速聚类快速聚类K-meansClusterAnalysis快速聚类示意图快速聚类示意图例:
对上例表中显示的某例:
对上例表中显示的某年代年代2020个代表性地区农村个代表性地区农村居民家庭平均每人生活消居民家庭平均每人生活消费现金支出情况,用费现金支出情况,用SPSSSPSS进行快速聚类。
进行快速聚类。
在降维思想指导下产生的一种有效处理高维数据的方法。
在在降维思想指导下产生的一种有效处理高维数据的方法。
在实际问题研究中,往往会涉及众多相关的变量。
虽然所涉及的实际问题研究中,往往会涉及众多相关的变量。
虽然所涉及的每个变量都提供了一定的信息,但其重要性不同,且在很多情每个变量都提供了一定的信息,但其重要性不同,且在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
信息的重叠越大,变量间的相关性息在一定程度上有所重叠。
信息的重叠越大,变量间的相关性也越大。
如何对这些变量加以也越大。
如何对这些变量加以“改造改造”,用,用为数较少的、互不为数较少的、互不相关的、不可直接测量的相关的、不可直接测量的新变量来反映原变量所提供的绝大部新变量来反映原变量所提供的绝大部分信息,并通过对新变量的分析达到解决问题的目的,是基于分信息,并通过对新变量的分析达到解决问题的目的,是基于主成分的因子分析法核心思想。
主成分的因子分析法核心思想。
5.1.35.1.3主成分分析主成分分析实践中,反映某个问题的可直接测量的变量很多(实践中,反映某个问题的可直接测量的变量很多(例如国例如国家信息化测评指标家信息化测评指标),并且这些变量之间存在相关性。
因),并且这些变量之间存在相关性。
因此,该方法的应用极其广泛。
通常,在分析过程中,选取此,该方法的应用极其广泛。
通常,在分析过程中,选取mm(mp