统计学基础知识.docx-资源下载

统计学基础知识.docx

1、统计学基础知识、数据的特征值（一）数据的位置特征值1）平均值x如果从总体中抽取一个样本，得到一批数据 Xi, X2, X3.Xn,则样本的平均值 X为:1 nXX in i 1n-数据个数；Xi-第i个数据数; 刀-求和。2）中位数x有时，为减少计算，将数据 Xi , X2, X3.Xn按大小次序排列，用位居于正中的那个数或中间两个数的平均值（当数据为偶数时）表示数据的总体平均水平。4）众数在用频数分布表示测定值时，频数最多的值即为众数。若测定值按区间做频数分布时, 频数最多的区间代表值（一般取区间中值）也称众数。（二）数据的离散特征值1）极差R测定值中的最大值 Xmax与最小值Xmin之差

2、称为极差。通常 R用于个数n小于10的情况下，n大于10时，一般采用标准偏差 s表示。2）偏差平方和S _各测定值Xi与平均值X 之差称为偏差。各测定值的偏差平方和称为偏差平方和，简称平方和，用S表示。S =(X 1 X ) 2 ( X 2x ) 2.(X nx )n=(Xi X ) 2i 1n(Xi（三）变异系数以上反映数据离散程度的特征值，只反映产品质量的绝对波动大小。在工程实践中,量较大的产品，绝对误差一般较大，反之亦然。因此要考虑相对波动的大小，在统计技术上上式中c和卩为总体均值和总体标准差, 用样本标准差s和样本均值 x估计。当过程在受控状态下，且样本容差较大时,用变异系

3、数CV来表达:Ca、Cp、Cpk的计算过程准确度指数（Ca值）：表示过程特性中心位置的偏移程度，越小越好Ca=（样本平均值-规格中心值）/ （规格公差/2）等级A : |Ca|三12.5%表示作业员遵守作业规范，并达规格要求等级B : 12.5% |Ca|三25%表示必要时尽可能提升至 A级等级C: 25% |Ca|三50%表示作业员可能看错或未按标准作业，或须修改规格及作业标准。等级D : 50% |Ca|表示应采取紧急措施，全面整改可能影响之因素，必要时应停止生产过程精密度能力系数（Cp值）:表示过程特性分散的程度，值越大越集中。Cp=（规格上限-规格下限”（6X标准差）合格：1.33三

4、Cp表示能力足够警告：1.00三Cp 1.33表示能力无足够宽度，平均值稍有偏差时，不良率既会增加。不合格：Cp 1.00表示能力不足，有不合格品，须全数筛选，并设法缩小变异或整改规格公差。过程综合能力系数（Cpk值）:同时考虑偏移”程度及分散程度Cpk=（1-Ca） x Cp此系数为过程评价用系数，用于过程改善客户指定Cpk值时，欲达到此 Cpk值，可先探讨 Ca及Cp值：准确度”精密度”是否有适当能力一般客户是指定值多数为三 1.33; Cpk值三3.00时，表示过程能力已经足够了，继续维持即可；若想进一步改善，应考虑成本效益。Cp=(Ucl-Lsl)/6 8Cpku=(Uc I-

5、Xbar)/3 8 Cpkl=(Xbar-Lsl)/3 8 Cpk=min(Cpku : Cpkl)二、回归分析(1) 什么是回归分析回归分析是用来研究一个指标与几个变量间的相关关系的方法。设有两个变量X和y，前者为自变量，后者为因变量，并均为随机变量。当自变量 X变化时，丫会产生相应的变化，如果具有大量或较多的统计数据( x,yi)，则可以用数学方法找出两者之间的统计关系 y= f(x)，这种数学方法称为回归分析。当y= a+ bx时，称之为一元线性回归；当y= f(x)为非线性函数关系时，称之为非线性回归；当X变量不止1个，有几个时，即有(X1 , X2 , Xn),则y = f (

6、X1 , X2 , Xn)称之为多元回归。当有y= a+ bi x i + b2 X2+ + bn x n时，称之为多元线性回归，否则为多元非线性回归。回归分析可用于预测、质量控制等方面。(2) 一元线性回归方程的计算方法设一元线性回归方程的表达式为：y=a+bxbxyLxxLxxn(Xii 1X)2Lyyni 1y)2现在给出了 n对数据(Xi, yi ),要求根据这些数据去估计 a与b的值。则：a y bx其中Lxx:-X的离差平方和Lyy-y的离差平方和n _ _Lxy一X , y的离差成积之和 Lxy (xi x)(yi y)i 1三、统计过程控制基本概念Statistical P

7、rocess Co ntrol （SPC-统计过程控制）的概念是：应用统计技术对过程中的各个阶段进行评估和检察，保持过程处于可接受的和稳定的水平，以保证产品与服务满足要求的均匀性。这里的统计技术涉及到数理统计内容，但所应用的主要工具是控制图。SPC可以判断过程的异常，及时告警。但是不能告知此异常是什么因素引起的，发生于何处。20世纪80年代起，我国的张公绪先生提出 Statistical Process Diagnosis理论（SPD- 统计过程诊断）。20世纪90年代起又发展为 Statistical Process Adjustment （ SPA-统计过程调整）。三者循环关系

8、如下：SPC-告诉过程是否有异常SPD-告诉过程是否有异常，若异常，告知问题出在哪里SPA-告诉过程是否有异常，若异常，告知问题出在哪里，如何进行调整所以SPC是质量改进循环的首要步骤，应该熟练掌握运用。四、控制图的应用统计过程控制的主要工具是控制图（ SPC图）。控制图是将一个过程定期收集的样本数据按顺序描点绘制成曲线的一种技术，可以发现过程异常，是采取预防措施的重要手段。1984年日本名古屋工业大学调查了上百家中小型企业，发现平均每家企业采用 137张控制图。美国柯达一共应用了 35000张控制图。（一）控制图的原理当质量特性值x服从正态分布时，由两个参数决定分布曲线的位置与形状，即

9、平均值卩和标准差不论和b取什么值，产品质量特性值 x落在卩-3,口 +3 a 区间内的概率为99.73%。根据小概率事件可以忽略的原则，若变量 x超出3a范围，则认为过程存在异常。一个控制图有三条线：中心线，简称CL线。 CL= 卩上控制线，简称 UCL线。UCL=y +3a下控制线，简称 LCL线。LCL=卩-3 a将正态分布曲线图旋转 180度，即得到控制图。（二）如何利用控制图判断过程异常多数点子在土 1 a范围内（68%左右）,小部分点子在土 2 a和卩土 1 a之间（27%右），点子随机排列，是过程控制的理想状态。中心线一侧的点子明显比另一侧多，应考虑均值可能产生偏移。较多的

10、点子接近上下控制线，说明标准差已经变大。中心线一侧连续出现多个点子或点子连续上升 /下降，证明有系统因素干扰。点子按一定时间间隔呈周期性变化，可能工艺、环境等因素失控。（三）常规控制图（休哈特控制图）常规控制图即休哈特控制图，参见下表 “常规控制图”。常规控制图分布控制图代号控制图名称控制图界限备注正态分布（计量值）X R均值-极差控制图UCLx X A2RUCLr D4RLCLr d3R正态分布的参数与 b互相独立，控制正态分布需要分别控制与b, 故正态分布控制图都有两张控制图，前者控制卩，后者控制b。二项分布与泊松分布则并非如此。X s均值-标准差控制图UCL*

11、玄 A3SUCLs B4SLCLr B3-rX R中位数-极差控制图UCL 汰 X m3A2RUCLr D4RLCLr DRX Rs单值-移动极差控制图UCLx X 2.66RsUCL Rs 3.267RsLCLRs X 2.66Ri二项分布（计件值）P不合格品率控制图UCLp P 3/p(1 p)/ n左列两图可由通用不合格品数npr 图代替。np不合格品数控制图UCLnp nP 3 np(1 p)泊松分布（计点值）u单位不合格数控制图UCLu u 3 u/ n左列两图可由通用缺陷数cr图代替。c不合格数控制图UCLc c 3、；c五、过程能力分析、过程能力指数计算（一）

12、、过程能力分析过程能力（process capability ）指过程加工质量方面的能力，决定因素是人、机、料、法、测和环（即 5M1E），与公差无关。分析过程能力只能在稳态的基础上，即统计控制状态。过程能力决定于由偶因造成的总变差厂当过程处于稳态时，产品的计量质量特性值有99.73%在卩土 3 b范围内，即几乎全部产品的特性值包含在 6 b范围之内。故常用 6倍标准差（6c）表示过程能力，它的数值越小，表示过程能力越强。（二）、过程能力指数计算当产品质量特性分布的均值卩与公差中心 M重合时1、对于公差的上、下限都有要求时, 过程能力指数计算公式如下：T为公差，Tu为公差上限，Tl为公差

13、下限，?是质量特性总体标准差的估计值。在上述过程能力指数中， T反映对产品的技术要求（或客户对产品的要求），而b反映本企业过程加工的质量。比值 CP反映过程加工质量满足产品技术要求的程度。根据T与6 b的比值，可以得到下图所示三种典型的情况。 Cp值越大，表明加工质量越好，但对设备和人员的要求也越高，加工成本相应升高。当 Cp=1，似乎既满足要求也节约成本，但由于过程的波动，分布中心一有偏移，不合格品率就要增加，因此， Cp应取1。一般情况下，当Cp=1.33, T=8 b,整个分布基本上都在上下规范限度内，且留有变动空间。故 ISO8258: 1991 要求 Cp羽.33。况2 （WS3）

14、2、只对单侧公差限有规定时只规定上限时,C PL3只规定下限时,当产品质量特性分布的均值卩与公差中心 M有偏离时这种情况下，需要对无偏离 Cp乘上一个修正系数(1-K)。C 规定的公差 T Tu Tl Tu Tlp 过程变异度乔 6 6T有偏离情况下的过程能力指数是:过程能力指数与不合格品率的关系考虑过程能力指数与不合格品率的关系时，直接查正态分布表比较方便。当公差中心M与数据分布中心卩重合时，P 2 2 (3Cp)当公差中心M与数据分布中心有偏离时，P 2 3CP 1 K 3CP 1 K例：在无偏离情况下，求 Cp=0.7时的不合格品率 P。解答：P 2 2 (3Cp)Cp=0.7, 3

15、 Cp=2.1查“正态分布表”，得到 (2.1) 0.98214不合格品率为：P=2-2 x 0.98214=0.03572643.3 6 c控制方法6 b控制方法，即过程能力指数达到 2以上，不合格品率 0.08197316,几乎达到零缺陷。执行6 c需要多方面的专业技能和知识，包括： SPC、MSA、DOE、可靠度工程、FMEA、TQM、QFD、田口方法、ISO9000、质量成本 QCOST、数理统计、顾客满意、同步工程、价值工程、绿色设计等等。所用的工具可以是：SPC度量、分析、改进和监控过程的波动DOE/田口方法优化设计技术，通过 DOE，改进过程设计，使过程能力达到最优水平FME

16、A风险分析技术，辅助确定改进项目制定改进目标QFD顾客需求分析技术，辅助将顾客需求正确地转换为内部工作要求防错从根本上防止错误发生的方法平均值加减标准差表示的是什么标准差，标准差的平方是方差，方差就是为了统计这组数据偏离平均值的程度，也可以说是这组数据的稳定性。例如两个人打靶，A打6,7,8,9,10，平均值是8，方差就是（-2）A2+ （ -1）人2+0+1人2+2人2/5=2 ，标准差等于根号 2B打8,8,8,8,8，平均值是8，方差就是0 ,这样来说B的成绩更稳定。平均数加减标准差的范围内代表大概率事件，范围外代表小概率事件。用成绩为样本，则范围内的成绩为正常的大部分考生的

17、成绩，范围外的为特殊的少部分考生的成绩（包括特别好的和特别差的）。通常，一次考试的成绩都是成正态分布的，平均数加减标准差的范围内的成绩应该达到 85%以上。如果没有成正态分布，则说明试卷没有出好，出得太难或者太简单了。对某一个人所有考试的成绩看平均数和标准差就够了，对平均数加减标准差的分析没有多大意义。但是，某一个人在一段时间内某一特定科目的所有考试成绩又可以用平均数加减标准差来分析了。平均数只能显示总体情况，而标准差能够看出变异程度。标准差越大，数据越离散。比如以下两组数：a. 2 2 2 2 2 b.1 1 2 3 3 两组的均数相等，而 a组数据集中（向均数集中），b组

18、离散，a组标准差小于b组P值与a值的关系?P值（P value ）就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。a值是一个临界概率值。它表示在统计假设检验”中，用样本资料推断总体时，犯拒绝假设”错误的可能性大小。a越小，犯拒绝假设”的错误可能性越小。P是拒绝原假设时犯错误概率又或者说是如果你拒绝掉原假设实际上是在冤枉好人的概率”。不管怎么表达理解上都有点绕，所以你还是看例子吧。比如你做一个假设（nullhypothesis ）:你的女性朋友平均身高 2米，输入你统计的样本数据后，计算机给你返回的p值是0.03。这意味着如果你拒绝女性朋友平均身高2米”这个结论，犯错的概率是0.03，小于0.05 （人们一般认为拒绝一句话时犯错概率小于 0.05就可以放心大胆地拒绝了），这个时候你就可以拒绝原假设。如果计算机返回p值是0.9，那么你就会想，这说明拒绝原假设犯错概率高达 90%，那么我就不应该拒绝原假设，即你应该认为你的女性朋友平均身高就是 2米。至于什么是alpha呢，上面例子中0.05这个标准就是alpha值，这个标准是可以你自己人为改变的。=以下是补充内容

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？