统计学基础知识

时间:2022-06-18 11:40:04 浏览量:

 一、数据的特征值

 (一)数据的位置特征值 (一)数据的位置特征值

 1)平均值

 如果从总体中抽取一个样本,得到一批数据 x 1 ,x 2 ,x 3…. x n ,则样本的平均值 x 为:

  n-数据个数; x i -第 i 个数据数; ∑-求和。

 2)中位数

 有时,为减少计算,将数据 x 1 ,x 2 ,x 3…. x n 按大小次序排列,用位居于正中的那个数或中间两个数的平均值(当数据为偶数时)表示数据的总体平均水平。

 3)中值 M

 测定值中的最大值 x max 与最小值 x min 的平均值,用 M 表示。

 4)众数 在用频数分布表示测定值时,频数最多的值即为众数。若测定值按区间做频数分布时,频数最多的区间代表值(一般取区间中值)也称众数。

 (二)数据的离散特征值 (二)数据的离散特征值

 1)极差 R 测定值中的最大值 x max 与最小值 x min 之差称为极差。通常 R 用于个数 n 小于 10 的情况下,n 大于 10 时,一般采用标准偏差 s 表示。

 2)偏差平方和 S 各测定值 x i 与平均值

  之差称为偏差。各测定值的偏差平方和称为偏差平方和,简称平方和,用 S 表示。

  无偏方差 各个测定值的偏差平方和除以(n-1)后所得的值称为无偏方差(简称方差),用 s 2 表示:

 niixnx1_1~x2min maxx xM_x_xniix xn nSs12_2) (1112_2_22_1) ( ... ) ( ) ( x x x x x xn    niix x12_) (S =

 =

  标准偏差 s 方差 s 2 的平方根为标准偏差(简称标准差),用 s 表示:

  (三)变异系数 (三)变异系数

 以上反映数据离散程度的特征值,只反映产品质量的绝对波动大小。在工程实践中,测量较大的产品,绝对误差一般较大,反之亦然。因此要考虑相对波动的大小,在统计技术上用变异系数 CV 来表达:

  上式中σ和μ为总体均值和总体标准差,当过程在受控状态下,且样本容差较大时,可用样本标准差 s 和样本均值

  估计。

  niix xn nSs s12_2) (111_xsC V  _x

 Ca 、 Cp 、k Cpk 的计算

 过程准确度指数(a Ca 值):

 表示过 程特性中心位置的偏移程度,越小越好 Ca= (样本平均值- - 规格中心值)/ / (规格公差 /2 )

 等级 A:|Ca|≦12.5% 表示作业员遵守作业规范,并达规格要求 等级 B :

 12.5%< |Ca|≦25% 表示必要时尽可能提升至 A 级 等级 C:

 25%< |Ca|≦50% 表示作业员可能看错或未按标准作业,或须修改规格及作业标准。

 等级 D:

 50%< |Ca| 表示应采取紧急措施,全面整改可能影响之因素,必要时应停止生产 。

 过程精密度能力系数(p Cp 值):

 表示过程特性分散的程度,值越大越集中。

 Cp=( ( 规格上限- - 规格下限) )/ / (6 6 ×标准差)

 合格:1.33≦Cp 表示能力足够 警告:1.00 ≦ Cp< 1.33 表示能力无足够宽度,平均值稍有偏差时,不良率既会增加。

 不合格:

 Cp< 1.00 表示能力不足,有不合格品,须全数筛选,并设法缩小变异或整改规格公差。

 过程综合能力系数k (Cpk 值) ) :

 同时考虑 “ 偏移 ” 程度及 “ 分散程度 Cpk=(1- - Ca) × Cp 此系数为过程评价用系数,用于过程改善 客户指定 Cpk 值时,欲达到此 Cpk 值,可先探讨 Ca 及 Cp 值:“准确度”“精密度”是否有适当能力 一般客户是指定值多数为≧1.33;Cpk 值≧3.00 时,表示过程能力已经足够了,继续维持即可;若想进一步改善,应考虑成本效益。

 Cp=(Ucl-Lsl)/6δ Cpku=(Ucl-Xbar)/3δ Cpkl=(Xbar-Lsl)/3δ Cpk=min(Cpku : Cpkl)

 二、

 回归分析 ( ( 一) ) 什么是回归分析 回归分析是用来研究一个指标与几个变量间的相关关系的方法。

 设有两个变量x和y,前者为自变量,后者为因变量,并均为随机变量。当自变量X变化时,Y会产生相应的变化,如果具有大量或较多的统计数据(x i ,y i ),则可以用数学方法找出两者之间的统计关系y=f(x),这种数学方法称为回归分析。

 当y=a+bx时,称之为一元线性回归; 当y=f(x)为非线性函数关系时,称之为非线性回归; 当x变量不止1个,有几个时,即有(x 1 ,x 2 〃〃〃,x n ),则y=f(x 1 ,x 2 〃〃〃,x n )称之为多元回归。

 当有y=a+b 1

 x 1 +b 2

 x 2 +〃〃〃+b n

 x n 时,称之为多元线性回归,否则为多元非线性回归。

 回归分析可用于预测、质量控制等方面。

  ( ( 二) 一元线性回归方程的计算方法 设一元线性回归方程的表达式为: y=a+bx 现在给出了 n 对数据(x i , y i ),要求根据这些数据去估计 a 与 b 的值。则:

 其中 L xx: ----x 的离差平方和

  L yy ----y 的离差平方和

  L xy ----x,y 的离差成积之和

 2n1 i) Lxx x x i   (2n1 i) Lyy y y i   (x b y  axxxyLL b) y ) ( Lxyn1 iy x xi i   (

 三、

 统计过程控制基本概念

  Statistical Process Control(SPC ---统计过程控制)的概念是:应用统计技术对过程中的各个阶段进行评估和检察,保持过程处于可接受的和稳定的水平,以保证产品与服务满足要求的均匀性。

 这里的统计技术涉及到数理统计内容,但所应用的主要工具是控制图。

 SPC 可以判断过程的异常,及时告警。但是不能告知此异常是什么因素引起的,发生于何处。20 世纪 80 年代起,我国的张公绪先生提出 Statistical Process Diagnosis 理论(SPD---统计过程诊断)。20 世纪 90 年代起又发展为 Statistical Process Adjustment (SPA---统计过程调整)。三者循环关系如下:

 SPC---告诉过程是否有异常

 SPD---告诉过程是否有异常,若异常,告知问题出在哪里

 SPA---告诉过程是否有异常,若异常,告知问题出在哪里,如何进行调整 所以 SPC 是质量改进循环的首要步骤,应该熟练掌握运用。

 四、

 控制图的应用

  统计过程控制的主要工具是控制图(SPC 图)。控制图是将一个过程定期收集的样本数据按顺序描点绘制成曲线的一种技术,可以发现过程异常,是采取预防措施的重要手段。1984年日本名古屋工业大学调查了上百家中小型企业,发现平均每家企业采用 137 张控制图。美国柯达一共应用了 35000 张控制图。

 (一)控制图的原理 (一)控制图的原理

  当质量特性值 x 服从正态分布时,由两个参数决定分布曲线的位置与形状,即平均值μ和标准差σ。不论μ和σ取什么值,产品质量特性值 x 落在[μ-3σ,μ+3σ]区间内的概率为99.73%。根据小概率事件可以忽略的原则,若变量 x 超出 ±3σ范围,则认为过程存在异常。

 一个控制图有三条线:

 中心线,简称 CL 线。

  CL=μ

 上控制线,简称 UCL 线。

 UCL=μ+3σ

 下控制线,简称 LCL 线。

 LCL=μ-3σ 将正态分布曲线图旋转 180 度,即得到控制图。

  (二)如何利用控制图判断过程异常 制图判断过程异常

  多数点子在μ±1σ范围内(68%左右),小部分点子在μ±2σ和μ±1σ之间(27%左右),点子随机排列,是过程控制的理想状态。

 中心线一侧的点子明显比另一侧多,应考虑均值可能产生偏移。

 较多的点子接近上下控制线,说明标准差已经变大。

 中心线一侧连续出现多个点子或点子连续上升/下降,证明有系统因素干扰。

 点子按一定时间间隔呈周期性变化,可能工艺、环境等因素失控。

 (三)常规控制图(休哈特控制图)

 (三)常规控制图(休哈特控制图)

  常规控制图即休哈特控制图,参见下表“常规控制图”。

  常规控制图 

 分 布 控制图代号 控制图名称 控制图界限 备

  注

 正态分布(计量值)

 均值-极差控制图

 正态分布的参数μ与σ互相独立,控制 正 态 分 布需 要 分 别 控制μ与σ,故正态 分 布 控 制图 都 有 两 张控制图,前者控制μ,后者控制σ。

 二项分布与 泊 松 分 布则并非如此。

 均值-标准差控制图

  中位数-极差控制图

  单值-移动极差控制图

 二项分布(计件值)

 不合格品率控制图

 左 列 两 图可 由 通 用 不合格品数 npr图代替。

 不合格品数控制图

 泊松分布(计点值 )

 单位不合格数控制图

 左 列 两 图可 由 通 用 缺陷数 cr 图代替。

 不合格数控制图

  五、

 过程能力分析、过程能力指数计算 uR X s X s R X R X ~pnpcR D UCL R 4 R D LCL R 3 s A X UCL x 3  S s B UCL 4 R B LCL R 3 R A m X UCL X 2 3~ R D UCL R 4 R D LCL R 3 S X R X UCL 66 . 2  S R UCL S R 267 . 3 sR R X LCL S 66 . 2  n p p P UCL P / ) 1 ( 3   ) 1 ( 3 p p n P n UCL P n   n u u UCL u / 3  c c UCL c 3  R A X UCL x 2  

  (一)、过程能力分析

  过程能力(process capability)指过程加工质量方面的能力,决定因素是人、机、料、法、测和环(即 5M1E),与公差无关。分析过程能力只能在稳态的基础上,即统计控制状态。

  过程能力决定于由偶因造成的总变差σ,当过程处于稳态时,产品的计量质量特性值有99.73%在μ±3σ范围内,即几乎全部产品的特性值包含在 6σ范围之内。故常用 6 倍标准差(6σ)表示过程能力,它的数值越小,表示过程能力越强。

 (二)、过程能力指数计算 (二)、过程能力指数计算

  当产品质量特性分布的均值μ与公差中心 M M 重合时

  1、对于公差的上、下限都有要求时,

  过程能力指数计算公式如下:

 T 为公差, T U 为

 公差上限,T L 为公差下限,

 是质量特性总体标准差的估计值。

 在上述过程能力指数中,T 反映对产品的技术要求(或客户对产品的要求),而σ反映本企业过程加工的质量。比值 C P 反映过程加工质量满足产品技术要求的程度。

 根据 T 与 6σ的比值,可以得到下图所示三种典型的情况。C P 值越大,表明加工质量越好,但对设备和人员的要求也越高,加工成本相应升高。当 C P =1,似乎既满足要求也节约成本,但由于过程的波动,分布中心一有偏移,不合格品率就要增加,因此,C P 应取>1。一般情况下,当 C P =1.33,T=8σ,整个分布基本上都在上下规范限度内,且留有变动空间。故 ISO8258:1991 要求 C P ≥1.33。

  2、只对单侧公差限有规定时

 只规定上限时,

 只规定下限时,

  当产品质量特性分布的均值μ与公差中心 M M 有 偏离时

    ˆ 6 6 6L U L UPT T T T TC  过程变异度规定的公差 ˆ3UPUTC3LPLTC

 这种情况下,需要对无偏离 C P 乘上一个修正系数(1-K)。

  有偏离情况下的过程能力指数是:

 过程能力指数与不合格品率的关系 考虑过程能力指数与不合格品率的关系时,直接查@正态分布表比较方便。

 当公差中心 M 与数据分布中心μ重合时,

  当公差中心 M 与数据分布中心μ有偏离时,

  例:在无偏离情况下,求 C P =0.7 时的不合格品率 P。

 解答:

  C P =0.7,

 3 C P =2.1 查“正态分布表”,得到

 不合格品率为:

 P=2-2 x 0.98214=0.03572

 6 6 .4. 3.3

 6 σ控制方法 6σ控制方法,即过程能力指数达到 2 以上,不合格品率 0.0 8 197316, 几乎达到零缺陷。

 执行 6σ需要多方面的专业技能和知识,包括:SPC、MSA、DOE、可靠度工程、FMEA、TQM、QFD、田口方法、ISO9000、质量成本 QCOST、数理统计、顾客满意、同步工程、价值工程、绿色设计等等。

 所用的工具可以是:

  SPC 度量、分析、改进和监控过程的波动

  DOE/田口方法 优化设计技术,通过 DOE,改进过程设计,使过程能力达到最优水平

  FMEA 风险分析技术,辅助确定改进项目,制定改进目标

  QFD 顾客需求分析技术,辅助将顾客需求正确地转换为内部工作要求

  防错 从根本上防止错误发生的方法

  62) 1 (  TC K CP PK  ) 3 ( 2 2PC P      ˆ 6 6 6L U L UPT T T T TC  过程变异度规定的公差          K C K C PP P     1 3 1 3 2    ) 3 ( 2 2PC P     98214 . 0 ) 1 . 2 (  

 平均值加减标准差表示的是什么

 标准差,标准差的平方是方差,方差就是为了统计这组数据偏离平均值的程度,也可以说是这组数据的稳定性。

 例如两个人打靶,A 打 6,7,8,9,10,平均值是 8,方差就是[ (-2)^2+(-1)^2+0+1^2+2^2]/5=2,标准差等于根号 2 B 打 8,8,8,8,8,平均值是 8,方差就是 0,这样来说 B 的成绩更稳定。

 平均数加减标准差的范围内代表大概率事件,范围外代表小概率事件。用成绩为样本,则范围内的成绩为正常的大部分考生的成绩,范围外的为特殊的少部分考生的成绩(包括特别好的和特别差的)。通常,一次考试的成绩都是成正态分布的,平均数加减标准差的范围内的成绩应该达到 85%以上。如果没有成正态分布,则说明试卷没有出好,出得太难或者太简单了。对某一个人所有考试的成绩看平均数和标准差就够了,对平均数加减标准差的分析没有多大意义。但是,某一个人在一段时间内某一特定科目的所有考试成绩又可以用平均数加减标准差来分析了。

 平均数只能显示总体情况,而标准差能够看出变异程度。标准差越大,数据越离散。比如以下两组数:a. 2 2 2 2 2 b.1 1 2 3 3 两组的均数相等,而 a 组数据集中(向均数集中),b 组离散,a 组标准差小于 b 组

 P P 值与 α α 值的关系? P 值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。

 α 值是一个临界概率值。它表示在“统计假设检验”中,用样本资料推断总体时,犯拒绝“假设”错误的可能性大小。α 越小,犯拒绝“假设”的错误可能性越小。

 P 是“拒绝原假设时犯错误概率”又或者说是 “ 如果你拒绝掉原假设实际上是在冤枉好人的概率 ”。

 不管怎么表达理解上都有点绕,所以你还是看例子吧。比如你做一个假设( null hypothesis):你的女性朋友平均身高 2 米,输入你统计的样本数据后,计算机给你返回的 p 值是 0.03。这意味着如果你拒绝“女性朋友平均身高 2 米”这个结论,犯错的概率是 0.03,小于 0.05(人们一般认为拒绝一句话时犯错概率小于 0.05 就可以放心大胆地拒绝了),这个时候你就可以拒绝原假设。如果计算机返回 p 值是 0.9,那么你就会想,这说明拒绝原假设犯错概率高达 90%,那么我就不应该拒绝原假设,即你应该认为你的女性朋友平均身高就是 2 米。

 至于什么是 alpha 呢, 上面例子中 5 0.05 这个标准就是 a alpha 值,这个标准是可以你自己人为改变的。

 ==========================以下是补充内容===========================

相关热词搜索: 统计学 基础知识