非参数统计1优质PPT.ppt
《非参数统计1优质PPT.ppt》由会员分享,可在线阅读,更多相关《非参数统计1优质PPT.ppt(39页珍藏版)》请在冰豆网上搜索。
![非参数统计1优质PPT.ppt](https://file1.bdocx.com/fileroot1/2022-10/19/79c6f301-90e9-4fe7-82d9-a7cc76970374/79c6f301-90e9-4fe7-82d9-a7cc769703741.gif)
数据分析方法和手段不足。
统计的方法论统计的方法论就就方法论而言,统计分析主要解决两方面的问方法论而言,统计分析主要解决两方面的问题:
题:
寻找数据内部差异中共同的特征。
寻找数据之间本质的差异。
统计分析的目标是从数据中发现比数据本身更统计分析的目标是从数据中发现比数据本身更为有用的知识为有用的知识2.非参数统计方法简介非参数统计方法简介参数方法参数方法定义:
样本被视为从分布族的某个参数族抽取出来的定义:
样本被视为从分布族的某个参数族抽取出来的总体的代表,而未知的仅仅是总体分布具体的参数值,总体的代表,而未知的仅仅是总体分布具体的参数值,推断问题就转化为对分布族的若干个未知参数的估计推断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些参数做出估计或者进行某种形式问题,用样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为的假设检验,这类推断方法称为参数方法参数方法参数方法参数方法。
比如:
(1)研究保险公司的索赔请求数时,可能假定索赔请求)研究保险公司的索赔请求数时,可能假定索赔请求数来自泊松分布数来自泊松分布P();
(2)研究化肥对农作物产量的影响效果时,平均意义之研究化肥对农作物产量的影响效果时,平均意义之下,每测量单元(可能是)产量服从正态分布下,每测量单元(可能是)产量服从正态分布N(a,b).一个典型的参数检验过程一个典型的参数检验过程1.总体参数总体参数Example:
PopulationMean2.假定数据的形态为假定数据的形态为WholeNumbersorFractionsExample:
HeightinInches(72,60.5,54.7)3.有很强的假定有很强的假定Example:
正态分布正态分布4.例子例子:
ZTest,tTest,2Test在不知总体分布的情况下如何利用数据所包含在不知总体分布的情况下如何利用数据所包含的信息呢的信息呢?
一组数据的最基本的信息就是次序一组数据的最基本的信息就是次序如果可以把数据点按大小次序排队,每一个如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中具体数目都有它的在整个数据中(从最小的数从最小的数起起)的位置或次序,称为该数据的秩的位置或次序,称为该数据的秩(rank)(rank)非参数统计的名字中的非参数统计的名字中的“非参数非参数(nonparametric)(nonparametric)”意味着其方法不涉及描述意味着其方法不涉及描述总体分布的有关参数;
它被称为和分布无关总体分布的有关参数;
它被称为和分布无关(distribution(distributionfree)free),是因为其推断方法和,是因为其推断方法和总体分布无关;
不应理解为与所有分布总体分布无关;
不应理解为与所有分布(例如例如有关秩的分布有关秩的分布)无关无关非参数方法非参数方法3.参数统计与非参数统计比较参数统计与非参数统计比较对总体假定较少,有广泛的适用对总体假定较少,有广泛的适用性,结果稳定性较好。
性,结果稳定性较好。
1.假定较少假定较少2.不需要对总体参数的假定不需要对总体参数的假定3.与参数结果接近与参数结果接近针对几乎所有类型的数据形态。
针对几乎所有类型的数据形态。
容易计算容易计算在计算机盛行之前就已经发展起来。
在计算机盛行之前就已经发展起来。
非参数检验的优点1.可能会浪费一些信息可能会浪费一些信息特别当数据可以使用参数模型的时候。
特别当数据可以使用参数模型的时候。
Example:
ConvertingDataFromRatiotoOrdinalScale2.大样本手算相当麻烦大样本手算相当麻烦3.一些表不易得到一些表不易得到非参数检验的弱点非参数统计的主要内容内容内容非参数检验非参数检验相应的参数检验相应的参数检验2独立样本中位数检验秩和检验独立样本t检验2配对样本/单一样本符号检验Wilcoxon检验成对样本t-检验2独立样本Kruskal-Wallis检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验分布的检验Kolmogorov-Smirnov4.非参数统计的历史非参数统计的历史非参数统计的历史非参数统计的历史非参数统计的形成主要归功于非参数统计的形成主要归功于20世纪世纪40年代年代50年代化学家年代化学家F.Wilcoxon等人的工作等人的工作。
Wilcoxon于于1945年提出两样本秩和检验,年提出两样本秩和检验,1947年年Mann和和Whitney二人将结果推广到两组样本二人将结果推广到两组样本量不等的一般情况;
量不等的一般情况;
Pitman于于1948年回答了非参数统计方法相对于年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题;
参数方法来说的相对效率方面的问题;
非参数统计的历史(续)非参数统计的历史(续)60年代中后期,年代中后期,Cox和和Ferguson最早将非参数方法应最早将非参数方法应用于生存分析。
用于生存分析。
70年代到年代到80年代,非参数统计借助计算机技术和大量年代,非参数统计借助计算机技术和大量计算获得更稳健的估计和预测,以计算获得更稳健的估计和预测,以P.J.Huber以及以及F.Hampel为代表的统计学家从计算技术的实现角度,为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。
为衡量估计量的稳定性提出了新准则。
90年代有关非参数统计的研究和应用主要集中在非参年代有关非参数统计的研究和应用主要集中在非参数回归和非参数密度估计领域,其中较有代表性的人数回归和非参数密度估计领域,其中较有代表性的人物是物是Silverman和和J.Fan。
5.必要的基础知识必要的基础知识
(1)假设检验假设检验
(2)顺序统计量)顺序统计量(3)秩检验统计量)秩检验统计量(4)U统计量统计量(5)数据处理)数据处理
(1)假设检验回顾假设检验回顾问题:
问题:
(a)新引进的生产过程是否优于旧过程?
新引进的生产过程是否优于旧过程?
(b)几种不同的肥料哪一种更有效?
几种不同的肥料哪一种更有效?
(c)大学生的就业率与城市失业率之间是否存大学生的就业率与城市失业率之间是否存在关系?
在关系?
内容内容(a)假设的真正涵义和作用假设的真正涵义和作用(b)如何选择零假设和备择假设如何选择零假设和备择假设(c)检验的检验的p-值和显著性水平的作用值和显著性水平的作用(d)两类错误两类错误(e)置信区间和假设检验之间的关系置信区间和假设检验之间的关系单边检验和双边检验的单边检验和双边检验的p值值?
顺序统计量顺序统计量顺序统计量:
顺序统计量:
基于顺序统计量的统计量:
秩检验统计量秩检验统计量无无结点秩的定义结点秩的定义例题:
某学院本科三年级有例题:
某学院本科三年级有9个专业组成,统计每个专业学个专业组成,统计每个专业学生每月消费数据如下,求消费数据的秩和顺序统计量的现值:
生每月消费数据如下,求消费数据的秩和顺序统计量的现值:
3002302085806902002632155202.有结数据的秩有结数据的秩设样本设样本取自总体取自总体X的简单随机抽的简单随机抽样,将数据排序后样,将数据排序后,相同的数据点组成一相同的数据点组成一个个“结结”,称重复数据的个数为结长。
,称重复数据的个数为结长。
例例:
3.83.21.21.23.43.23.2解:
结长为解:
结长为3。
U统计量统计量核的核的概念概念例:
总体期望有无偏估计例:
总体期望有无偏估计X1,总体期望是可估的,总体期望是可估的,X1是总是总体期望的核。
体期望的核。
对称核和对称核和U统计量的概念统计量的概念数据处理数据处理SPSSSASRS-Plus直方图直方图盒形图盒形图茎叶图茎叶图Q-Q图图数据处理数据处理数据处理数据处理