1、统计 相关量:相关系数(表示两件事情的相互关系)r.r-1,1(r表示从无关道完全相关,相关:正相关,相关,负相关)2推断统计 参数估计: s推断 r统计 假设检验:参数检验 非参数检验3实验设计 初级的,用平均数,百分比 后来,平均数 T检验(2个对象) 标准差 中级的,(2个或2个以上对象)(方差分析)下检验。 高级的,相关回归(用相关系数) 再高级的,(研究生学) 因素分析(探索性的)两两相关,写相关系数 更高级的,协方差结构方程(验证性的)前程:相同符号的一串非参数检验中的一种第二章 数据整理1.数据种类一间断变量与连续变量 eg:人数 间断二四种量表。1称名量表。 Eg:307室,学
2、好,电话好吗 不能进行数学运算(也包括不能大小比较)2顺序量表。Eg:名次。能力大小,不能运算3等距量表。可以运算(做加减法),不能乘除 要求:没有绝对0 年龄有绝对0 时间(年代,日历。)位移无绝对0,可能有相对0,即有正负4等比量表。可做乘除法。 要有绝对零。成绩中的,0分不是绝对0(因为并不说明此人一窍不通)分数代表的意义。010分 与90100分。 每一分的“距离”不一样因为严格来说,成绩是顺序量表。但为了实际运用中的各种统计,把它作为等距量表2.次数分布表一 简单次数分布表eg: 组别 次数(人次)100 29099 58089 147079 156069 760分以下 31 求全距
3、 R=Max Min(连续变量) (间断变量)R=MaxMin+12 定组数 K(组数)1.87(N1)。 取整 N-总数 定组距 I=R/K。一般,取奇数或5的倍数(此种更多)。4 定各组限5 求组值 X=(上限下限)/2 上限指最高值加或取10的倍数等)6 归类划记7 登记次数例题: 99 96 92 90 90 (I) R=99-57+1=43 87 86 84 83 83 82 82 80 79 78 (II)K=1.87(50-1)。978 78 78 77 7777 76 76 76 7675 75 74 74 73 (III)I=R/K =43/9572 72 72 71 717
4、1 70 70 69 6968 67 67 67 65 (iu)组别 组值 次数64 62 62 61 57 9599 97 2 9094 92 3 8589 87 2 8084 82 6 7579 77 14 7074 72 11 6569 67 7 6064 62 4 5559 57 1 总和 50二 相对(比值)次数分布表。 累积次数分布表 相对(比值)累积次数:累积次数值/总数N注:一般避免不等距组(“以上”“以下”称为开口组)。相对次数 累积次数(此处意为“每组上限以下的人次)”小于制“.04 50 .06 48.04 45 .12 43.28 37.22 23.14 12.08 5
5、.02 11.003.次数分布图一直方图 标出横轴,纵轴(5:3)标刻度 直方图的宽度(一个或半个组距) 编号,题目 必要时,顶端标数) 图二次数多边图 画点,组距正中 连接各点 向下延伸到左右各自一个组距的中央最大值即y轴最大值相对次数分布图,只需将纵坐标改为比率。(累积次数,累积百分比也同样改纵坐标即可)”S形”曲线是正态分布图的累积次数分布图 图(略)第三章 常用统计量数1.集中量一算术平均数 公式算术平均数的优缺点。P3637算术平均数的特征。(X-#)=0 离(均数)差 (X-#)(X-#)取#时,得最小值 即:离差平方和是一最小值二几何平均数g= 略long#g=1/NlogXi根
6、据按一定比例变化时,多用几何平均数 91年 92 93 94 95 96 12 10 11 9 9 8%求平均增长率xg=加权平均数甲:600人 #=70分乙:100人 #=80分加权平均数:=(70*600+80*100)/(600+100) (总平均数)eg:600人,100人简单平均数:(7080)/2三中(位)数。(Md)1.原始数据计算法 分:奇、偶。2频数分布表计算法(不要求)3优点,缺点,适用情况(p42)四众数(o)1理论众数 粗略众数2计算方法:Mo=3Md-2# Mo=Lmo+fa/(fa+fb)*I 计算不要求3优缺点平均数,中位数,众数三者关系。 &2.差异量数一全距R
7、=Max-Min二平均差(MD或AD)MD=|x-#(或Md)|/N三方差总体方差的估计值S2 =(X #)2 反编样本的方差:2 x有编N很小时,用S2 估计总体N30时,用S2 或2 x 都可以计算方法:2 xx2 /N (X/N) 2 标准差x2 x2/1 四差异系数(CV)CV=x/# *100% CV5%,35%3个用途五偏态量与锋态量(SK)1.偏态量:sk=(#-Mo)/x 动差(一级四级) a3= (x-#)3 、 / N/x3 三级动差计算偏态系数)2峰态量:高狭峰 a40 (a4=0 正态峰) 低调峰。A41.82)=.0344N1=np=47000*0.0344=1616
8、(人)(2)Zz=(80-57.08)/18.04=1.27P(1.27Z1,82)=.46562-.39796=0.677N2=NP=3177(人)(3)Z3=(60-57.08)/18.04=0.16 P(Z0.16)=.56356 N3=26487(人)四正态分布的应用T=KZ+C TN(C,K2)IQ=15Z+100 IQ=100 一般 IQ130 超常 (30=2x*15) IQ70 弱智 70几 bndenline1.某市参加一考试2800人,录取150人,平均分数75分,标准差为8。问录取分数定为多少分?解: XN(75.82) Z=(x-#)/x=(x-15)/8 N(0,12
9、) P=150/2800=0.053 0.5-0.053=0.447 Z=1.615 X=1.615*8+7588(分)2某高考,平均500分,标准差100分,一考生650分,设当年录取10,问该生是否到录取分? Zo=(650-500)/100=1.5 (XN(500,1002)(ZN(0,12) Po=0.5-0.43319=0.06681=6.681%30是大样本所以近似正态分布N(5000,402)当4900时,Z=(4900-5000)/400/1001/2=-2.5 P(#4900)=P(Z-2.5)=0.993793.有限总体的修正系数(引出)(2)同上题,从2000(有限总体)
10、盏中不放回地抽取100盏,问。(概念)设总体是有限的总体,其均值为,方差为2 (X1,X2Xn)是以不放回形式从该总体抽取的一个简单随机样本。则样本均值的数学期望(E(#)与方差为E(#)=#= 和2 (N-n)/(N-1)*( 2 /n)N时,修正系数不计。 (N-n)/(N-1)*( 2 /n)1/2 .n/N0.05%,要用修正系数如题(2),n/N0.05 所以要用修正系数所以解题2:x2 (N-n)/(N-1) *( 2 /n)2000100)/2000-1=4002 /100=1520 #=15201/2 =38.987 Z=(4900-5000)/38.987= -2.565 P
11、(Z-2.565)=.9949二总体方差2 未知时,样本均值的抽样分布。用S2(总体方差的估计值)代替 2 t=(x-)/s/n1/2 tn-1dp(自由度)=n-1 设(X1,X2,Xn)为抽自正态总体的一个容量为n的简单随机样本,即t=(x-)/s/n1/2符合自由度为n-1的t分布当总体为非正态分布,且2 未知。则样本 小:无解 大:接近七分布 t t=(x-)/s/n1/2 tn-1 Z t=(x-)/s/n1/2 N(0,1)(也可用Z)总体均值为80,非正态分布,方差未知,从该总体中抽一容量为64的样本,得S=2,问样本均值大于80.5得概率是多少?因为6430 是大样本 P(#8
12、0.5)=P(t(x-)/s/n1/2 )=P(t2) df=63 P0.025 若用Z,P(Zz) 0.02275 (若N24,总体正态,则Z分布1不能用,只能用七分布) 非正态总体:小样本无解 大样本Z(x-)/n1/2 2 已知 正态总体 Z=(x-)/n1/2小样本 无解2 未知: 大样本t(x-)/n1/2 Z正态总体:小样本t=(x-)/n1/2 大样本Zt=(x-)/n1/23.两个样本均值之差(#1-#2)的抽样分布若1是独立地抽自总体X1N(1,2 )的一个容量为n,的简单随机样本的均值;是。X2N(2, 22 )的。n2.的。则两样本均值之差(#1#2)N(1-2,12/n
13、1,22/n2)复杂计算一种钢丝的拉强度,服从正态分布总体均值为80,总体标准差6,抽取容量为36的简单随机样本,求样本均值79,81的概率 XN(80,62) ZN(0,12) Z=(x-)/6/361/2 =(x-8)/1 x79,8081 Z -1,1 P=.68268若不知。S=b,则 X(80, 2 )用公式t=(# -)/s/n1/2 tn-1 =t35 某种零件平均长度0.50cm,标准差0.04cm,从该总零件中随机抽16个,问此16个零件的平均长度小于0.49cm的概率无解。抽100个,则概率? Z(x-)/n1/2 =(# - 0.50)/0.004#0.49 P(Z-0.
14、01/0.004) =P(Z-2.5)=.49379=从500件产品中不放回地抽25件。 25/500=0.05 要修正系数(N-n)/(N-1).95 某校一教师采用一种他认为有效的方法,一年后,从该师班中随机抽取9名学生的成绩,平均分84.5分,S=3。而全年级总平均分为82分,试问这9名学生的84.5分的概率为多大? #N(82, 2 ) tt8 t=(# -)/s/n1/2 =84.5-82)/3/3=2.5 df=8 0.975P(t0) f(x)=0 (x0) 图(略)2.定理: 设(X1,X2,X3Xn)为抽自正态总体 XN(,2 )的一个容量为n的简单随机样本,则#=(X-#)
15、2/n-1为相互独立的随机变量,且N(, 2 /n) (X-#)2 /2 =(n-1)S2 /2 X2n-1(I=1,2,n) 若抽自非正态总体: 大样本 X2(n-1)S2 /2 二F分布1F分布的密度函数 f(x)= (n1+n2)/2/(n1/2)(n2/2) (n1/n2)(n1/n2*X)n1/2-1(1+n1/n2*X)-n1+n2/2 (x0) f(x)=0 (x2.定理 设(X1,X2,Xn)为抽自XN(1, 2 1)的一个容量为n1的简单(y1,y2yn)为抽自正态总体yN(2, 2 2)的一个容量n2的简单,则: 当2 1=2 2时, F=S21/S22F(n1-1,n2-
16、1) n1分子自由度 n2分母自由度 第六章 参数估计(置信水平下的区间估计)1.点估计 E(X)(即)=x/N (拿一个点来估计参数) D(X)= (x-#)2 /N-12 2.总体均值的区间估计一总体均值的区间估计,2 已知。正态总体 xN (, 2 ) #N(, r2/n) Z=(# -)/ /n1/2 某种零件的长度符合正态分布。1.5,从总体中抽200个作为样本,8.8cm,试估计在 95的置信水平下,全部零件平均长的置信区间。 解: 已知XN(,1.52 ) n=200, #=8.81-a=0.95 a-0.05Z0.025=1.96P(#-Za/2/n1/2 #+Za/2 n1/2 =P(8.595%若不放回地从2000个(总体)中抽出200个。需修正系数 所以用(N-n)/(n-1)1/2 P(# +- 1.96*/n1/2 *(N-n)/(n-1)1/2 =0.95=P(8.60,9.00) 二 2 未知 P(#-t(a/2,n01)S/ n1/2 #+t(a/2,n-1) S/ n1/2 )=1-a为了制定高中学生体锻标准,在某区随机抽36名男生测100米,36名学生平均成绩13.5秒,S=1.1秒,试估计在95地置信水平下,高中男生
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1