最新推荐统计学习方法word范文模板 19页.docx

上传人:b****6 文档编号:8452807 上传时间:2023-01-31 格式:DOCX 页数:16 大小:25.38KB
下载 相关 举报
最新推荐统计学习方法word范文模板 19页.docx_第1页
第1页 / 共16页
最新推荐统计学习方法word范文模板 19页.docx_第2页
第2页 / 共16页
最新推荐统计学习方法word范文模板 19页.docx_第3页
第3页 / 共16页
最新推荐统计学习方法word范文模板 19页.docx_第4页
第4页 / 共16页
最新推荐统计学习方法word范文模板 19页.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

最新推荐统计学习方法word范文模板 19页.docx

《最新推荐统计学习方法word范文模板 19页.docx》由会员分享,可在线阅读,更多相关《最新推荐统计学习方法word范文模板 19页.docx(16页珍藏版)》请在冰豆网上搜索。

最新推荐统计学习方法word范文模板 19页.docx

最新推荐统计学习方法word范文模板19页

本文部分内容来自网络整理,本司不为其真实性负责,如有异议或侵权请及时联系,本司将立即删除!

==本文为word格式,下载后可方便编辑和修改!

==

统计学习方法

篇一:

统计学方法分析

一、两组或多组计量资料的比较

1.两组资料:

1)大样本资料或服从正态分布的小样本资料

(1)若方差齐性,则作成组t检验

(2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验

2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验

2.多组资料:

1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。

如果方差分析的统计检验为有统计学意义,则进一步作统计分析:

选择合适的方法(如:

LSD检验,Bonferroni检验等)进行两两比较。

2)如果小样本的偏态分布资料或方差不齐,则作KruskalWallis的统计检验。

如果KruskalWallis的统计检验为有统计学意义,则进一步作统计分析:

选择合适的方法(如:

用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。

二、分类资料的统计分析

1.单样本资料与总体比较

1)二分类资料:

(1)小样本时:

用二项分布进行确切概率法检验;

(2)大样本时:

用U检验。

2)多分类资料:

用Pearsonc2检验(又称拟合优度检验)。

2.四格表资料

1)n>40并且所以理论数大于5,则用Pearsonc2

2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s确切概率法检验

3)n£40或存在理论数<1,则用Fisher’s检验

3.2×C表资料的统计分析

1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMHc2或成组的Wilcoxon秩和检验

2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验

3)行变量和列变量均为无序分类变量

(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearsonc2

(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s确切概率法检验

4.R×C表资料的统计分析

1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMHc2或KruskalWallis的秩和检验

2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作nonezerocorrelationanalysis的CMHc2

3)列变量和行变量均为有序多分类变量,可以作Spearman相关分析

4)列变量和行变量均为无序多分类变量,

(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearsonc2

(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s确切概率法检验

三、Poisson分布资料

1.单样本资料与总体比较:

1)观察值较小时:

用确切概率法进行检验。

2)观察值较大时:

用正态近似的U检验。

2.两个样本比较:

用正态近似的U检验。

配对设计或随机区组设计四、两组或多组计量资料的比较

1.两组资料:

1)大样本资料或配对差值服从正态分布的小样本资料,作配对t检验

2)小样本并且差值呈偏态分布资料,则用Wilcoxon的符号配对秩检验

2.多组资料:

1)若大样本资料或残差服从正态分布,并且方差齐性,则作随机区组的方差分析。

如果方差分析的统计检验为有统计学意义,则进一步作统计分析:

选择合适的方法(如:

LSD检验,Bonferroni检验等)进行两两比较。

2)如果小样本时,差值呈偏态分布资料或方差不齐,则作Fredman的统计检验。

如果Fredman的统计检验为有统计学意义,则进一步作统计分析:

选择合适的方法(如:

用Wilcoxon的符号配对秩检验,但用Bonferroni方法校正P值等)进行两两比较。

五、分类资料的统计分析

1.四格表资料

1)b+c>40,则用McNemar配对c2检验或配对边际c2检验

2)b+c£40,则用二项分布确切概率法检验

2.C×C表资料:

1)配对比较:

用McNemar配对c2检验或配对边际c2检验

2)一致性问题(Agreement):

用Kap检验

变量之间的关联性分析六、两个变量之间的关联性分析

1.两个变量均为连续型变量

1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析

2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析

2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析

3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析

七、回归分析

1.直线回归:

如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。

2.多重线性回归:

应变量(Y)为连续型变量(即计量资料),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。

1)观察性研究:

可以用逐步线性回归寻找(拟)主要的影响因素

2)实验性研究:

在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

3.二分类的Logistic回归:

应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型

变量、有序分类变量或二分类变量。

1)非配对的情况:

用非条件Logistic回归

(1)观察性研究:

可以用逐步线性回归寻找(拟)主要的影响因素

(2)实验性研究:

在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

2)配对的情况:

用条件Logistic回归

(1)观察性研究:

可以用逐步线性回归寻找(拟)主要的影响因素

(2)实验性研究:

在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

4.有序多分类有序的Logistic回归:

应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

1)观察性研究:

可以用逐步线性回归寻找(拟)主要的影响因素

2)实验性研究:

在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

5.无序多分类有序的Logistic回归:

应变量为无序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。

1)观察性研究:

可以用逐步线性回归寻找(拟)主要的影响因素

2)实验性研究:

在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用

篇二:

统计学习方法习题

《统计学》

一、单项选择题(在每小题的3个备选答案中选出正确答案,并将其代号填在题干后面

的括号内。

每小题1分,共14分)

1、对正态总体均值进行区间估计时,其它条件不变,置信水平1?

?

越小,则置信上限与

置信下限的差()

①、越大②、越小③、不变

2、若某总体次数分布呈轻微左偏分布,则成立的有()①、x>me>mo

②、xmo>me

3、方差分析中的原假设是关于所研究因素

()

①、各水平总体方差是否相等②、各水平的理论均值是否相等③、同一水平内

部数量差异是否相等

4、某年某地区甲乙两类职工的月平均收入分别为1060元和3350元,标准差分别为230

元和680元,则职工月平均收入的离散程度

()

①、甲类较大②、乙类较大③、两类相同

5、某企业201X年与201X年相比,各种产品产量增长了8%,总生产费用增长了15%,

则该企业201X年单位成本指数为()①、187.5%②、7%③、106.48%

6、.研究如何对现象的数量特征进行计量、观察、概括和表述的理论和方法属于

()

①、应用统计学②、描述统计学③、推断统计学

7、若各个标志值都扩大2倍,而频数都减少为原来的1/3,则平均数()①、扩大2倍②、减少到1/3③、不变

8、在处理快艇的6次试验数据中,得到下列最大速度值:

27、38、30、37、35、31.则最大艇速的均值

的无偏估计值为()①、32.5②、33③、39.6

9、某地区粮食作物产量年平均发展速度:

1998~201X年三年平均为1.03,201X~201X年两年平均为1.05,试确定1998~201X五年的年平均发展速度()

10、若两个变量的平均水平接近,平均差越大的变量,其

()

①、平均值的代表性越好②、离散程度越大③、稳定性越高11、季

节指数刻画了时间序列在一个年度内各月或季的典型季节特征。

在乘法模型中,季节指数是以其平均数等于什么为条件而构成的?

()①、100%②、400%③、1200%

12、周末超市的营业额常常会大大高于平日数额,这种波动属于

()

①、长期趋势②、季节变动③、循环变动

13、下列情况下,适合用算术平均法计算平均数的数据是

()

①、不同顾客所需的皮鞋尺码②、一群人的身高③、一群人的学历

14、在试验中,两个事件有一个发生时,另一个就不发生,称这两个事件为

()

①、独立事件②、相容事件③、互斥事件

二、填空题(每空1分,共10分)

1、依据统计数据的收集方法不同,可将其分为____________数据和_____________数据。

2、收集的属于不同时间上的数据称为数据。

3、设总体x的方差为1,从总体中随机取容量为100的样本,得样本均值=5,则总体均值的置信水平为99%的置信区间_________________。

(z0.005=2.58)

4、某地区201X年1季度完成的gdp=50亿元,201X年3季度完成的gdp=55亿元,则

gdp年度化增长率为。

5、在某城市随机抽取13个家庭,调查得到每个家庭的人均月收入数据如下:

1080、750、

1080、850、960、201X、1250、1080、760、1080、950、1080、660,则其众数为,

中位数为。

6、判定系数的取值范围是。

7、设总体x~

?

?

n(?

?

)2,为样本均值,s为样本标准差。

当?

未知,且为小样本时,则sn服从自

由度为n-1的___________________分布。

8、若时间序列有20年的数据,采用5年移动平均,修匀后的时间序列中剩下的数据有

个。

三、多项选择题(在下列备选答案中,有一个以上正确答案,请将其全部选出并把顺序

号填入括号内。

共7题,每题2分。

1、推断统计学研究的主要问题是:

()

①、如何科学地由样本去推断总体②、如何科学地从总体中抽出样本③、怎样控制样本对总体的随机性误差

2、数据质量的评价标准包含的方面有:

()①、精度②、及时性③、关联性

3、以下数据的收集方法属于询问调查的是:

()①、抽样调查②访问调查③电话调查

4、测定数值型数据的离散程度,依据研究目的及资料的不同,可用的指标有

()

①、标准差②、离散系数③、几何平均

5、估计量的评价标准包括:

()①、无偏性②、有效性③、一致性

6、如果两个变量之间有一定的相关性,则以下结论中正确的是

()

①、回归系数b的绝对值大于零②、判定系数r2大于零③、相关系数r

的绝对值大于0.3

7、常用的加权综合指数包括:

()

①、拉氏指数②、物质生活质量指数③、帕氏指数

四、判断题:

(判断命题的正误。

对的,在题干前的括号内打√号;错的,在题干前的括

号内打×号。

共10题,每题1分。

)()1、茎叶图主要用于顺序型数据的显示。

()2、四分位数不受数据极端值的影响。

()3、在设计调查问卷的回答项目时,封闭性问题的答案往往是选择回答型,所

以设计出的答案一定要穷尽和互斥。

()4、标准分数只是将原始数据进行线性变换,没有改变该组数据分布的形状,

也没有改变一个数据在该组数据中的位置,只是使该组数据的平均数为0,标准差为1。

()5、假设检验中要使α和β同时减少的唯一方法是减少样本容量。

()6、对一个正态总体进行抽样调查,不论样本容量大小如何,样本均值统计量

总是服从正态分布的。

()7、在参数估计中,样本比例p是非随机变量,而总体参数π通常是未知的随

机变量。

()8、对两个总体方差相等性进行检验,在?

=0.01的显著性水平上拒绝了原假设,

这表示原假设为真的概率小于0.01。

()9、相关系数r的符号反映相关关系的方向,其绝对值的大小反映相关的密切

程度。

()10、抽样调查中,样本容量的大小取决于很多因素,在其他条件不变时,样本

容量与边际误差成正比。

五、简要回答下列问题(共2题,每题6分。

1、统计学的确对我们的生活的各个方面起着重要的作用,但如果有意或者无意地误用统

计学方法,其结论则会带来更大的欺骗性。

为了避免这种情况的发生,请根据你的了解,写出1个误用统计学方法的例子,并说明应该如何正确应用方法?

六、计算题:

(要求写出计算公式、过程,结果保留两位小数,共4题,每题10分)

1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机

样本,调查结果为:

样本平均花费为12.6元,标准差为2.8元。

试以95.45%的置信水平估

计该快餐店顾客的总体平均花费数额的置信区间;(φ

(2)=0.9545)

3、从某一行业中随机抽取5家企业,所得产品产量与生产费用的数据如下:

要求:

①、利用最小二乘法求出估计的回归方程;②、计算判定系数r2。

附:

?

(xi?

)?

1080?

(yi?

)?

392.8?

58?

144.2i?

1i?

15252

?

xii?

152?

17900?

y?

104361?

xiy?

42430iii?

1i?

1525篇二:

统计学(第五版)

贾俊平课后思考题和练习题答案(最终完整版)统计学(第五版)贾俊平课后思考题和练习题答案(最终完整版)整理by__kiss-ahuang

第一部分思考题

第一章思考题

1.1什么是统计学

统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中

得出结论。

1.2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。

断统计;它是研究如何利用样本数据来推断总体特征的统计方法。

1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:

只能归于某一类别的非数字型数据,它是对事物进行分类的结

果,数据表现为类别,用文字来表述;(定性数据)顺序数据:

只能归于某一有序类别的非数字型数据。

它也是有类别的,但

这些类别是有序的。

(定量数据)数值型数据:

按数字尺度测量的观察值,其结果表现为具体的数值。

计数据;按统计数据都收集方法分;观测数据:

是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条

件下得到的。

实验数据:

在实验中控制实验对象而收集到的数据。

统计数据;按被描述的现象与实践的关系分;截面数据:

在相同或相似的时间点收集到的数据,也叫静态数据。

时间序列数据:

按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。

1.4解释分类数据,顺序数据和数值型数据答案同1.3

1.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一

百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的

数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统

计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。

1.6变量的分类

变量可以分为分类变量,顺序变量,数值型变量。

变量也可以分为随机变量和非随机变量。

经验变量和理论变量。

1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。

1.8统计应用实例

人口普查,商场的名意调查等。

1.9统计应用的领域

经济分析和政府分析还有物理,生物等等各个领域。

第二章思考题

2.1什么是二手资料?

使用二手资料应注意什么问题与研究内容有关,由别人调查和试验而来已经存在,并会被我们利用的资料为“二手资

料”。

使用时要进行评估,要考虑到资料的原始收集人,收集目的,收集途径,收集时间使用

时要注明数据来源。

2.2比较概率抽样和非概率抽样的特点,指出各自适用情况概率抽样:

抽样时按一定的概率以随机原则抽取样本。

每个单位别抽中的概率已知或可

以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽到的概率。

技术含

量和成本都比较高。

如果调查目的在于掌握和研究对象总体的数量特征,得到总体参数的置

信区间,就使用概率抽样。

非概率抽样:

操作简单,时效快,成本低,而且对于抽样中的统计学专业技术要求不是

很高。

它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。

它同

样使用市场调查中的概念测试(不需要调查结果投影到总体的情况)。

2.3除了自填式,面访式和电话式还有什么搜集数据的办法试验式和观察式等

2.4自填式,面访式和电话式各自的长处和弱点自填式;优点:

1调查组织者管理容易2成本低,可进行大规模调查3对被调查者,可

选择方便时间答卷,减少回答敏感问题压力。

缺点:

1返回率低2不适合结构复杂的问卷,

调查内容有限3调查周期长4在数据搜集过程中遇见问题不能及时调整。

面访式;优点:

1回答率高2数据质量高3在调查过程中遇见问题可以及时调整。

缺点:

1成本比较高2搜集数据的方式对调查过程的质量控制有一定难度3对于敏感问题,被访者

会有压力。

电话式;优点:

1速度快2对调查员比较安全3对访问过程的控制比较容易。

缺点:

1

实施地区有限2调查时间不能过长3使用的问卷要简单4被访者不愿回答时,不易劝服。

2.5

老师说这个内容不讲,应该不会考实验数据的

2.6如何控制调查中的回答误差对于理解误差,我会去学习一定的心理学知识,对于记忆误差,我会尽量去缩短所涉及

的时间范围,对于有意识的误差,我要做好被调查者的心理工作,要遵守职业道德,为被调

查者保密,尽量在问卷中不涉及敏感问题。

2.7怎么减少无回答

对于随机误差,要提高样本容量,对于系统误差,只有做好准备工作并做好补救措施。

比如说要一百份的问卷回复,就要做好一百二十到一百三十的问卷准备,进行面访式的时候

要尽量的劝服不愿意回答的被访者,以小物品的馈赠提高回复率。

第三章思考题

3.1数据预处理内容

数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。

3.2分类数据和顺序数据的整理和图示方法各有哪些分类数据:

制作频数分布表,用比例,百分比,比率等进行描述性分析。

可用条形图,

帕累托图和饼图进行图示分析。

顺序数据:

制作频数分布表,用比例,百分比,比率。

累计频数和累计频率等进行描述

性分析。

可用条形图,帕累托图和饼图,累计频数分布图和环形图进行图示分析。

3.3数据型数据的分组方法和步骤分组方法:

单变量值分组和组距分组,组距分组又分为等距分组和异距分组。

分组步骤:

1确定组数2确定各组组距3根据分组整理成频数分布表

3.4直方图和条形图的区别1条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组

频数,矩形的高度表示每一组的频数或频率,宽度表示组距,2直方图各矩形连续排列,条

形图分开排列,3条形图主要展示分类数据,直方图主要展示数值型数据。

3.5绘制线图应注意问题时间在横轴,观测值绘在纵轴。

一般是长宽比例10:

7的长方形,纵轴下端一般从0开

始,数据与0距离过大的话用折断符号折断。

3.6饼图和环形图的不同饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的

数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。

3.7茎叶图比直方图的优势,他们各自的应用场合茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。

在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。

3.8鉴别图标优劣的准则

p75明确有答案,我就不写了。

3.9制作统计表应注意的问题1,合理安排统计表结构2表头一般包括表号,总标题和表中数据的单位等内容3表中的

篇三:

定量资料统计学方法小结

计量资料分析常用的统计学方法小结

第二章、定量资料的统计描述

频率分布表与频率分布图:

描述平均水平的统计指标(描述集中趋势):

算数均数、几何均数、中位数

与百分位数、众数

描述变异程度的统计指标(描述离散趋势):

极差、四分位数间距、方差、

标准差、变异系数

描述分布形态的统计指标:

偏度系数、峰度系数

第一节频率分布表与频率分布图

离散型定量变量和连续型定量变量的频率分布

离散型定量变量的取值是不连续的。

直接清点各变量值出现的频数计算相应

的频率,即为频率分布表。

离散型定量变量的频率分布图可用直条图表达,以各

等宽矩形直条的高度表示各组频率的大小。

连续型定量变量的取值是连续的。

将数据适当分组,清点各组频数,并计算

相应频率,即为频率分布表。

连续型定量变量的频率分布图可用直方图表达,纵

坐标为频率密度,即频率/组距,直方图面积之和等于1.

1、离散型定量变量的频率分布

步骤:

(1)直接清点各变量值出现的频数

(2)计算各组频率,累计频数,累计频率

2、连续型定量变量的频率分布

步骤:

(1)求极差(range):

即最大值与最小值之差,又称为全距。

(2)决定分组组数、组距:

根据研究目的和样本含量n确定分组组数,通

常分为10~15个组。

组距=极差/组数,为方便计,组距为极差的十分之一,再

略加调整。

(3)列出组段:

第一组段的下限略小于最小值,最后一个组段上限必须包

含最大值。

(4)划记计数:

用划记法将所有数据归纳到各组段,得到各组段的频数。

编制频率表的注意事项:

(1)分组不宜过粗,也不宜过细。

通常分为10~15个组。

(2)为计算方便,组段下限一般取较整齐的数值。

确定各组段上下限时,

各组段要连续但不重叠。

除去最后一个组段,其余组段应包含下限值,不包含上

限值。

(3)第一组段应包含最小值,最后一组段应包含最大值。

3、频数表和频数分布图用途

(1)描述频数分布的类型

对称分布:

若各组段的频数以中心位置左右两侧大体对称,就认为该资料

是对称分布

正偏态分布:

右侧的组段数多于左侧的组段数,

频数向右侧拖尾。

偏态分布:

负偏态分布:

左侧的组段数多于右侧的组段数,频

数向左侧拖尾。

(2)描述频数分布的特征

随机变量的分布具有两个特征——集中趋势与离散趋势。

①数据集中(平均):

总体中的个体具有某些同性质,这些同性质是的数据

趋向同一数值,表现为变量值聚集在某个中心值的周围,称为集中趋势。

②数据

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1