1、 样本:由母体中随机抽取部分群体之集合。 统计量:用来描述此样本的特征之数值。母体(Population)、参数(Parameter)、样本(Sample)、统计量(Statistics) 欲了解XX工管系学生每周平均看书时间,经随机抽样30位该系学生,计算结果: 该系学生每周平均看书时间为21hrs-点估计。 该系学生每周平均看书时间为21-25 hrs-区间估计,且有95%的信心,相信母体平均值为落于该区间内,即该系学生每周平均看书时间为21-25 hrs。-此称之为点估计与区间估计-倘该系系学会宣称,本系学生每周平均看书时间为23 hrs,怀疑者进行随机抽样,欲以实际的数据验证与驳斥此宣
2、称,然数据显示怀疑者是不能驳斥此宣称,因为, 该系学生每周平均看书时间为23 hrs的确在95%信赖区间21-25 hrs之内。倘该系系学会宣称,本系学生每周平均看书时间为30 hrs,怀疑者进行随机抽样,欲以实际的数据验证与驳斥此宣称,然数据显示怀疑者能驳斥此宣称,因为, 该系学生每周平均看书时间为30 hrs不在95%信赖区间21-25 hrs之内。-此过程称之为假设检定-2.3 统计在现代社会所扮演的角色以事实(数字)作决策 政治经济-民调、得票率预测、失业率预测、各项经济指标 商业方面-市场占有率、利率、汇率 企管方面-物管、人管、财管、品管 工程方面-质量、可靠度、交通流量 农业方面
3、-品种改良、生产量、成功率与存活率 医药方面-流行病的感染模式、成功率与存活率 教育方面-教学评鉴、犯罪率 观光方面-旅游景点的受欢迎程度、周休二的影响2.4 统计学的发展 源于1世纪,领导者或君主为了解国家(State)的人口、经济、生产、税赋、天文与气候等。 直到18世纪左右,主要偏向数据与图形显示的范围,即所谓叙述统计学(Descriptive Statistics)-将资料予以分析后,用数据、模式或图表陈示出来。 19世纪末和20世纪初,演变包括数据的解释、数据分析归纳、更精确的估计与检定结果、与模式建构等,即所谓推论统计学(Inferential Statistics)或分析统计学(
4、Analytic Statistics)-由随机描样,经样本统计量去推论母体参数,或检定母体参数。对动态数据则有趋势分析、建构模式与预测的功能。现代统计学大师1、 Karl Pearson, (1875-1936)-介绍简单的统计量,如众数、标准偏差及相关系数,尤其回归分析观念和卡方检定都为其贡献。2、 R. A. Fisher, (1890-1962)-提出小样本统计方法,并建立一致性、有效性、充分性、最大概似法等,提出实验设计,另其对常态分配和t分配的理论与应用都有极大贡献。3、 J. Neyman, (1894-1981) and Egon Pearson, (1895-)-在估计与检定
5、方面提供理论基础,如提出型、型误差及检定力、信赖区间等观念。4、 A. Wald, (1902-1950)-统计决策理论之始祖。数学、社会科学与统计学之关系做统计工作时,须注此意数学与统计不同之处1、 100/300 = 1/3,数学式100/300 = 1/3是恒等式,但在统计却有不同的意义。如于一母体中抽3人,其中有1人是男生,则男生所占样本的比例是1/3,如此可能无证据说明此母体中的男女生比例不是各占一半;但倘于此母体中抽300人,其中有100人是男生,则男生所占的样本比例为1/3,如此已有证据说明此母体内男女生比例不是各占一半。2、 49/100 1/2,在数学上此式是对的,但在统计检
6、定时,倘于此母体中抽100人,其中有49人是男生,则男生所占的样本比例为49/100,虽然49/100 1/2,但可能无足够证据说明此母体内男生比例不是1/2的结论。统计计算常用软件 Excel、Minitab、Matlab、SAS、SPSS、Statistica2.5 统计资料的整理与描述研究自然或社会现象,首先要搜集相关的统计资料。接着对所搜集的资料进行处理描述,并制作统计图表,以简洁、有系统的方式,陈示说明数据的主要内容与特性,使之一目了然。藉由统计资料去了解母体的特性(参数),常用代表集中趋势的统计量,如样本的平均值;与代表离散的统计量,如样本的变异数或标准偏差。此即叙述统计量。(Me
7、asures of Central Tendency-Location)(Measures of Dispersion-Scale)2.5.1 统计资料的搜集 一般数据依性质可分为:连续型数据与离散型数据1. 连续型资料(Continuous Data):如量测身高、体重、容量、重量、长度等数据,它是一种计量尺度(Metric Sacle),而且理论上可以量到小数点以下几位的数据。2. 离散型资料(Discrete Data):它是一种计数尺度,又细分三型-类别尺度、顺序尺度、比率尺度。(1) 类别尺度(Nominal Scale)-依数据性质分类并给予特别数值或代号。如女性= 0、男性= 1
8、;合格= 、不合格= ;红色= 1、黄色= 2、蓝色= 3。此类别表示之数值或记号只区分类别,没有大小、顺序或比率关系。其仅能计算某类别代号出现的次数或频率,其计算平均数则无意义。(2) 顺序尺度(Ordinal Scale)- 依数据的重要性、强弱、好坏程度区分,给予大小不等的数值。如小学= 1、中学= 2、大学= 3、研究所= 4;很便宜= 1、便宜= 2、一般= 3、贵= 4、很贵= 5。此类别虽在等第上有好坏、高低之分别,但无从比较差距。(3) 比率尺度(Ratio Scale)-以某一特定对象为基准,其他现象相对于此一标准的比值。例如,经济成长率、人口成长率。2.5.2 数据处理与展
9、示-统计图表人类辨识影像图形的能力,一般优于辨识数字与文字。千言万言的说明叙述,有时反不及图表的效果。字不如表,表不如图。制作统计图表,即以简洁、有系统的方式,陈示说明数据的主要内容与特性,使之一目了然。常用统计图表(a) 次数分配或频率表-直方图(1) 确定所须组数。Sturges Formula k(组数)=1+3.32 log(n), n=样本数When n= 40 k=1+3.32 log(40)= 6.3 6-7组数或依下列原则分组n50-100100-250250以上k6-107-1210-20(2)计算全部数据的全距(Range)。R = max-min。并求出组距C = 全距/
10、组数(3) 求出各组的组距与组界(4) 确定各组的频数 (5) 作直方图例题:某技术员用车床车制螺丝,要求其直径为10mm。为了了解该技术员的加工质量,抽查其加工的100个螺丝,分别测得其直径数据100个。螺丝直径数据(100个)10.249.94109.999.8510.4210.310.3610.0910.219.799.710.049.989.8110.139.849.5510.019.889.229.6110.0310.4110.1210.159.7610.5710.1110.059.739.8210.0610.69.589.9710.1410.179.4910.189.899.839
11、.8710.1910.3910.279.7710.339.919.6710.19.539.9510.169.759.6410.029.54 Max. = 10.60; Min. = 9.22;Range = 1.38; k = 7 (n =100); 组距 = 1.38/7 = 0.192 0.2为使得所有数据不会落在组界上,并保证最小值9.22落在第一组内,故取第一组的组下限等于最小值减去最小量测单位的一半(即0.01/2 = 0.005)。则 第一组的组下限 = 9.22 0.005 = 9.125 第一组的组上限 = 第一组的组下限+组距 = 9.215 + 0.2 = 9.415接着,
12、确定各组的频数组 别频 数第一组:9.215 9.4151第二组:9.415 9.6158第三组:9.615 9.81514第四组:9.815 10.01529第五组:10.015 10.21532第六组:10.215 10.41512第七组:10.415 10.6154最后作直方图 直方图可以种方式表示:(1) Frequency (2) Cumulative Frequency(3) Percent (4) Cumulative Percent(3-1) Relative Fequency (3-2) Cumulative Relative Frequency(5) Density (6)
13、 Cumulative Density 螺丝直径落在直方图的可能性大小是以其高度表示,另由数学应用方便的角度观之,各直方的面积表示可能大小,由于各组的组距,即直方的宽度是相等的,因此用直方面积表示与用直方的高度表示是相同的。(b) 散布图 系对两组变量之间关系感兴趣,组成这两组变量的对应图,又称XY散布图。范例:身高132149160140138154145151136体重384558405341473436(c) 盒图或盒须图(Box Plot or Box and Whisker Plot) 盒图中有极小值、极大值、Q1 ,Q2 ,Q3。修改后16.8516.4017.2116.3516.
14、5217.0416.9617.1516.5916.57修改前17.517.6318.251817.8617.7518.2217.917.9618.15(d) 柏拉图法(Paretos Diagram)80/20法则:80%的问题是来自20%的源头。问题区分少数重要项目(Vital Few)、多数轻微项目(Trivial Many)的分法称之为柏拉图原则-重点的掌握。Example of Pareto Analysis The data in Table 1 has been recorded for peach arriving at Super Market during August.Ta
15、ble 1 Raw data for Pareto AnalysisProblem CategoriesPeaches LostBruised(有受伤的)100Undersized(太小的)87Rotten(腐烂的)235Underripe(未熟的)9Wrong Variety(品种不同的)7Wormy(有虫的)3The Pareto table for the data in Table 1 is shown in Table 2.RankCategoryCountPercentageCum%53.29222.6875.9719.7395.70Other194.31100.012.6 样本统
16、计量(统计量)(Sample Statistic)统计图表可方便展示数据,但对于数据的深入分析,其精确度与广度仍不足。为了研究母体的特性(参数),仍须用一些统计量测数,藉以了解母体的特性。常用的统计量测数为代表集中趋势统计量、代表离散统计量与形状统计量,来表达母体的分配情形。这些样本统计量亦称之样本的特征值。2.6.1集中趋势统计量 集中趋势统计量是用来衡量所有观测值聚集的中心位置-(算术)平均数、中位数、四分位数、众数、截尾平均数(a) 算术平均数(Arithmetic Mean)在一般未分组的原始数据中,有n个观测值,其集合为x1, x2, , xn |nN,则其算术平均数=(x1 + x
17、2 + + xn)/n = (xi)/n对于分组数据,假定数据共有n个观测值分为m组,令xi为第i组观测值之组中点,fi为该组观测值相对应的次数,fi = n。则其算术平均数为=(x1f1+x2f2+xmfm)/n = (xi fi)/n (b) 中位数(Median)中位数又称为二分位数,是一种由小至大顺序数列的中心项。将某笔数据n个观测值由小而大顺序排列,则其中间位数的观测值即为中位数。若n为奇数,则第(n+1)/2位数的观测值为中位数。若n为偶数,中位数即为第n/2位数与第(n/2)+1位数观测值的算术平均数。(c) 四分位数(Quartile)将观测值由小至大顺序数列按位数分为四等分,
18、Q1 , Q2 , Q3为其位数等分点之观测值。第0个四分位(Q0)即是最小值,第1个四分位(Q1)是第25%的值,第2个四分位(Q2)是第50%的值(即中位数),第3个四分位(Q3)是第75%的值,第4个四分位(Q4)即是最大值。(d) 众数(Mode)众数是指统计资料中出现之次数最频繁的观测值。(e) 截尾平均数(Trimmed Mean)-奥运体操评分标准系考虑算术平均数容易受两端特别远离中心位置观测值的影响,有时不能确切描述观测值集中趋势。即截头去尾的方法,将Q1以下与Q3之上的观测值排除,再计算Q1与Q3之间的观测值的算术平均数。2.6.2离散趋势统计量 离散趋势统计量是用来测量所有
19、观测值偏离中心的程度-全距、四分位间距、平均绝对偏差、变异数与标准偏差、变异系数等(a) 全距(Range)Range = Max. Min.(b) 四分位间距(IQR, Inter-Quartile Range)四分位间距= Q3-Q1(c) 平均绝对偏差(MAD, Mean Absolute Deviation)MAD =| xi-|/n(d) 变异数与标准偏差(Variance and Standard Deviation) 若有N个母体观测值x1, x2, , xN,且母体平均值为,则母体变异数为2= (xi-)2/N, (xi-)2:Sum Square)对于样本数据 x1, x2,
20、 , xn,则样本变异数为S2= (xi-)2/(n-1), (xi-)2: 样本变异数S2使用(n-1)当分母的原因是,分子中(xi-)的自由度(DOF, Degree of Freedom)为(n-1)的关系。即n个项目(x1-),(xn-)中,只要知道其中的(n-1)项,则剩下的最后一项就固定了,因为(xi-)= 0。 变异数是取观测值与母体平均数差之平方和,所以变异数的单位与原观测值所用的单位不同。为取一致可将变异数的开平方根,则 称之母体标准偏差,作为对应之离散量。另样本标准偏差则相对为S。对于分组数据,假设数据分为m组共有n个观测值,令xi为第i组观测值之组中点,fi为该组观测值相
21、对应的次数, fi = n。则样本变异数为)2 fi/(n-1)(e) 变异数系数(CV, Coefficient of Variance )CV =(标准偏差/平均值)2.6.3 形状统计量 形状统计量系用量测一组资料对称与否,与分布形状峰度之高低-分别为偏态系数与峰态系数。(a) 偏态系数(Skewness)偏态系数(SK)是对数据分配偏往某一方的趋势(Tendency)。SK的值必介于 3与3之间。其定义: SK = 3(-Median)/S上图SK 0 ;Mean = Median = Mode 上图SK 0 (右偏或正偏);Mean Median Mode 上图SK 0 (左偏或负偏
22、);Mean Median Mode (b) 峰态系数(Kurtosis)峰态系数(K)是对资料分配峰度(Peakedness)的程度。K = (xi-)4/(xi-)22-3平 时 考 题1、装配零件之生产线,用塞规决定孔径是否合格,为(文字/属性/属量)数据。2、一群员工对生产线问题提出讨论之集体思考其要因,为(文字/属性/属量)数据。3、下列何者为计量值数据(1)密度(2)布匹之缺点数(3)某批产品中有2个不合格品(4)教室内共有20个学生。4、间断数据 连续数据(1)、电镀液的镍浓度(%) ( ) ( )(2)、铁线的强度 ( ) ( )(3)、请假人数 ( ) ( )(4)、机器故障
23、次数 ( ) ( )(5)、胶布的污点数 ( ) ( )(6)、MILSTD105抽样表 ( ) ( )(7)、某工厂每期意外事件 ( ) ( )(8)、钢球直径 ( ) ( )(9)、回收率 ( ) ( )5、XX管理学院举行全校统计学检定考试,其中工管系成绩的次数分配如下表,试求该系统计学检定考试之算术平均数。组限31-4041-5051-6061-7071-8081-9091-100次数117339206、某技术员用车床车制螺丝,要求其直径为10mm。10.29.99.810.410.09.59.29.610.710.510.8试求该100个螺丝之算术平均数、中位数等、四分位数、众数、截尾平均数、全距、四分位间距、变异数与标准偏差等。7、不合格品A类10件,B类3件,C类6件,D类2件,E类4件,绘制柏拉图,则于柏拉图内第三要项之累积不良比率( )。8、不良品A类10件,B类3件,C类6件,D类2件,E类4件,B类在百分比图中之%为( )。9、同上,扇形图A类之图
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1