药品数据统计分析与应用.docx

资源描述

药品数据统计分析与应用.docx

《药品数据统计分析与应用.docx》由会员分享，可在线阅读，更多相关《药品数据统计分析与应用.docx（58页珍藏版）》请在冰豆网上搜索。

药品数据统计分析与应用.docx

药品数据统计分析与应用

一、导言

1、我们面临大数据时代的挑战

数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素，人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。

一一麦肯锡

大数据时代已经降临，在商业、经济及其它领域中，决策将日益基于数据和分析而作出，项并非基于经验和直觉。

——《纽约时报》

2、数据是实施GMP管理的支持

数据是一各观测值，是实验、测量、观察、调查等活动中以数量的形式给出的结果。

数据分析是企业有目的地收集数据、分析数据，使之成为信息的过程，这一过程是在产品的整个生命周期的支持过程；是实施GMP管理的支持，是建立并实施高质量的药品质量体系的支持过程。

3、数据统计分析一一质量管理体系的支持过程

（1）数据是信息的载体；

（2）数据统计是数据转为信息的加工过程，统计技术是企业质量体系中的一个重要要素，分析数据，控制过程中的异常，坚持不懈地持续改进，提高产品质量，提升企业的核心竞争力。

4、数据是企业的无形资产

掌握现状

工序调节工序管理检查和评价分析和改进

二、数据分析的有关基础知识

1、数据分析的类型

描述性数据分析：

是对一组数据的各种特征的分析，以便描述测量样本的各种特征及其所代表的总体的特征；

推断性数据分析：

也叫探索性数据分析，是为了形成值得假设的检验而对数据进行分析的一种方法；验证性数据分析：

是对社会调查数据进行的一各统计分析。

通过因子间的关系是否符合研究者所设计的理论；

2、定量数据的分类

计数值数据：

不能连续取值的数据；

计量值数据：

可以连续取值的数据；差别：

当数值是百分率时，取决于给出数值的数学式分子，分子为计量值，则求得的百分率是计量值；如分子为计数值，求得的百分率虽不是整数提也属于计数植。

3、值得注意的概念

总体：

指所要研究的对象的全体；个体：

指组成总体的每一个基本单位；样本：

从总体中随机抽出的一部分样品，样本中所包含榈数目称为样本大小，又叫样本量，常用n表示;

4、数据的特征值

位置特征值：

子样平均值

差异特征量：

极差R=Xmax—Xmin

相对标准差

RSD二100%

|X|

［实例1］对气相层析的实验人员进行技术考核，进样10次，每次0.5ul，得色谱峰高（mm）为：

142.1147.0146.2145.2143.8146.2147.3150.3149.9151.8

X=146.98s=3.00RSD=2.04%

结论：

有经验的色谱工作人员很容易将RSD控制在1%以内，可认为该实验人员的技术还不够稳定，操作不

够熟练。

5、数据分析的基础

制药生产现场的数据是分析的基础，生产工序的稳定是收集可靠数据的前提，抓住生产现场的六大因素

是生产的关键。

6、数据分析的形式

算一算：

特征数

看一看：

动力变化

比一比：

统计值

找一找：

相关因素

7、数据分析的前处理（筛选）

数值的修约（GB/T8170-2008）

四舍六入五考虑，五后非零则进一，五后全零看五前，五前偶舍奇进一，不论数字多少位，都要一次修约成。

修约的位数：

试验运算中，应比规定的有效数字多保留一位数，后根据有效数字的修约进舍至规定有效位。

标准差一般按二位有效即可，最多保留小数点后二位。

数据筛选的方法

（1）按美国E•J鲍尔推荐的方法进行处理。

步骤如下：

1计算这群检测值的平均值；

2计算极差R;

3计算可疑值Xj与平均值之差的绝对值，再用极差R除，得出ti与规定附表的临界值比较，若ti

比表上的t值大，则应弃去此可疑值。

④附表如下：

抛弃无效测量的临界伸值

1.53

1.05

0.86

0.76

0.69

0.64

0.60

0.58

0.56

0.54

0.52

0.51

0.50

0.46

注:

用分式t=|Xi-不|/R计算t,如计算值超过表上的值时，则所调查的值是无效的，此概率约为0.95。

［实例2］某分析者对一样品检测，得：

93.3%93.3%93.4%93.4%93.3%94.0%，问：

第六个结果

有效吗？

第1步：

计算方法六个结果的平均值：

X=93.45%

第2步：

计算极差R=94.0=93.9=0.7

第3步：

计算可疑值与增均值之差的绝对值再用极差除：

t=|Xi-X|/R=（91.0-93.45）/0.7=0.79

第4步：

与临界值t=0.76（n=6）比较

ti=0.79>t=0.76，说明94.0%是一个离群数据，应舍弃。

（2）G—检验法（格鲁布斯法

步骤：

1算出包括可疑值在内的平均值；

2计算可疑值与平均值之差；

3算出包括可疑值在内的标准偏差；

4用标准偏差除可疑值与平均值之差得G值：

G」X|

5查G的临界值表，若计算的G值大于查到的值，就可把可疑值舍弃。

|94.0-93.45|G

0.27

2.04，

查表G（6，0.05）

=1.89，所以这个值应舍去。

Grubbs检验法的临界值

测定次数

置信界限

测定次数

置信界限

95%

99%

95%

99%

1.15

2.55

2.81

1.48

1.50

2.59

2.85

1.71

1.76

2.62

2.89

1.89

1.97

2.65

2.93

2.02

2.14

2.68

2.97

2.13

2.27

2.71

3.00

2.21

2.39

2.73

3.03

2.29

2.48

2.76

3.06

2.36

2.56

2.78

3.09

2.41

2.64

2.80

3.11

2.46

2.70

2.82

3.14

2.51

2.76

8、质量特性值的正态分布

"99一刑

10、产品质量波动

10.1正常波动：

同随机原因引起的产品质量波动，生产过程在控制中，呈稳定状态；

10.2异常波动：

同系统原因引起的产品质量波动；弓I起波动的原因5M1E:

人、机、料、法、环、测••…

生产过程在失控中，呈不稳定状态。

11、统计分析的两类错误和风险：

第一类错误：

把质量好的一批成品当作质量坏的一批成品去看待、处理的错误；a:

第一类错误的概率值，也叫第一类错误的风险率。

第二类错误：

把质量坏的一批成品当作质量好的一批成品去看待、处理的错误；

第二类错误的概率值，也叫第二类错误的风险率。

12、药品抽样检验的风险：

抽样检验是由样本的质量状况去推断总体的质量是要冒风险的。

12.1生产方风险（PR）:

对于给定的抽样方案，当批产品或过程质量水平（如不合格品率）为某一指定的可接收值（如可接受质量水平）时的拒收的概率，即把质量好的批产品判为不合格，用a表示。

12.2使用方风险（CR:

对于给的抽样方案，当批产品或过程质量水平为某一指定的不满意值（如极限质量水平）时的接收概率，即把质量差的批产品判为合格，使用方风险一般用3表示。

13、关于样本

13.1样本要有代表性：

要代表总体，如果做不到这一点，将导致对总体特性作出不良估计；13.2样本也会产生误差：

即使样本代表总体，但从样本得到的信息也会产生一定程度的误差，这种误差的大小可增大样本量来减小但却不能消除。

14百分比抽样的不科学性

在百分比抽样中，在相同的批不合格品率的情况下，产品批量越大，则批的接收概率越小，产品批量越

小，则批的接收率越大，即“大批量严，小批量宽”，不能正确鉴别批产品的质量水平，所以，这是一种不

科学的抽样检验方法，工业发达国家早已淘汰。

三、GMP实施中常用的数据分析工具

1、描述性统计技术

用来对统计数据进行整理和描述的技术。

主要有：

折线图、饼分图、因果图、树图、排列图。

2、推断性统计技术：

在统计数据描述的基础上立新功，对所反映的问题再进行分析解释和作出推断性结论的技术。

主要有：

控制图（分析用图）、回归分析、假设检验。

3、过程控制所用的技术：

下次试验、过程能力、控制图（控制用图）

4、常用质量分析图的应用

序号

名称

作用

折线图

直观地表现出数据的变化趋势

饼分图

表示一个系统中各部分所占比率

散点图

判断两个质量因素之间的相关性

因果图

分析原因与结果的关系，找到问题的原因

树图

对主题构成因素进行系统分析展开

排列图

寻找影响产品质量的主要冋题

控制图

判断生产过程是否异常及导致导常的因素

4.1、散点图：

又称相关图，是研究成对出现的两组相关为数据之间相关关系的简单图示技术。

用来发现、显示和确认两组相关数据之相关关系，并确定其预期关系。

表示随x增加，y随之明显减少的关系，称为强负相关，表明x与y关系密切

4.2因果图：

又名特性要因图，表示结果（特性）与原因（影响特性的要因）之影响情形或两者关系之图形。

定性寻找引发结果的原因。

4.3排列图：

又叫柏拉图。

它是将质量改进项目从最重要到最次要顺序排列而采用确定主导因素的一种图表。

100

100%

80%

柏拉图原理:

关键的小数,次要的多数。

60%

分析：

通常占总频数80%以上的

°项目是主要问题，占总频数10%

40%以上的项目是次要问题，余下的

占总频数10%左右的项目是更次20%要的一般问题。

0ABCDE

问题原因

4.4控制图：

是地过程质量特性值的数据进行分析和判断工序是否处于稳定状态所使用的带有控制界限的图。

从而监察过程是否处于控制状态的一种用统计方法设计的图。

4.4.1作用：

对生产过程进行监控发现异常，及时告警；

4.4.2控制图的种类：

分析用控制图

控制用控制图

4.4.3其结构：

中心线CL=X

上控制线UCL=X+3S

下控制线UCL=X-3S

4.4.4控制图——过程控制的核心手段

（1）分析用控制图

主要分析：

①所分析的过程是否处于统计控制状态；

②该过程的过程能力指数是否满足要求，达到技术稳态。

须将过程调整到技术稳态。

（2）控制用控制图：

当过程达到了所确定的状态后，才能将分析用控制图的控制线作为控制用限，进入日常管理后关键是保持所确定的状态。

（3）控制界限就是区分偶然波动与异常波动的科学界限。

［实例3］某制药厂生产xx链霉素x年x月的含量（%）控制如下表，分析本月的生产控制情况

批号

含量

97.24

97.31

97.67

97.80

97.89

97.96

97.06

97.90

移动极差RS

—

0.07

0.36

0.13

0.09

0.07

0.90

0.84

批号

含量

98.08

98.02

98.08

97.87

98.28

97.55

97.44

97.73

移动极差RS

0.18

0.06

0.21

0.41

0.73

0.11

0.29

批号

含量

97.72

97.46

97.62

98.27

98.31

98.46

98.02

98.11

移动极差RS

0.01

0.26

0.16

0.35

0.04

0.15

0.44

0.09

子样号

控制图：

minitab15

含量X的I-MR控制图

结论:

含量X的单值控制图检验结果

检验1。

1个点，距离中心线超过3.00个标准差。

检验岀下列点不合格：

检验5。

3点中有2点，距离中心线超过2个标准差（在中心线的同一侧）检验岀下列点不合格：

检验6。

5点中有4点，距离中心线超过1个标准差（在中心线的同一侧）检验岀下列点不合格：

含量X的MR控制图检验结果

检验1。

1个点，距离中心线超过3.00个标准差。

检验岀下列点不合格：

4.4.5控制图的判断有判稳和判异两种判断方法

4.4.6控制图判断的两类错误

第I类错误：

弃真概率a（虚发警报）

由于休哈特确定了3b原则，所以弃真概率a=0.0027，数值很小。

第H类错误：

取伪概率3（漏发警报）

由于a=0.0027数值很小，所以导致取伪概率3的数值很大。

4.4.7判断的概念

由于a=0.0027数值很小（虚发警报的概率很小）。

所以在控制图中打1点超界就判异，置信度达

99.73%，很可靠。

由于3数值很大（漏发警报的概率很大）。

所以，在控制图中打1点在界内就判稳，置信度很低，

不可靠。

但是3v1，所以连续打m点进行判稳，3总=3m数值很小，很可靠。

判稳准则

在控制图中连续打m点，界外点数wd时判稳

（1）m=25，dw0，即，25点不得出现一点在界外。

（2）m=35，dw1，即，35点允许出现一点在界外。

（3）m=100，dw2，即，100点允许出现两点在界外。

4.4.8判异准则的制定

4.4.8.1判异的理论基础是小概率事件原理”

小概率事件原理又称小概率事件不发生原理，其数学定义是：

事件A发生的概率很小（如0.01），现

经过一次或少数次试验，事件A居然发生了，就有理由认为A的发生是异常。

统计方法的应用是为捕捉异常先兆。

因此，在应用前应确定小概率a，小概率a实际是允许判断错误

的概率，称为风险度、风险概率、风险水平或显著水平。

根据被判断事物的重要度，a可取0.01、0.05、0.10

等。

与风险度a相对应的是置信度（1-a），又称为置信概率、置信水平。

由于风险度a不可能为0”，所以

置信度（1-a）不可能为100%。

448.2判异准则的制订步骤

（1）设定小概率a，休哈特早期设定的小概率a

1点子超界a=0.0027

2点子在界内排列不随机a=0.01，英国以没有作到等概率为由，一律a=0.01，休哈特后期设定的小

概率，一律a=0.0027。

（2）GB/T4091-2001idtISO8258:

1991标准制订的判断准则即为休哈特后期做制订。

充分设想过程中所发生

的各种事件，逐一计算其发生概率P。

（3）制订准则

若P>a判断过程正常；

若PWa判断过程异常，则该事件本身即为对过程异常的判断准则。

4.4.9判异准则

GB/T4091-2001ISO8258:

1991《常规控制图》标准给出八个判异的检验模式。

凡在控制图中出现八个

检验模式中任何一个时，即可判断过程异常。

在八个检验模式中，除第4个模式由蒙特卡罗试验（统计模拟试验）确定以外，其他7个模式均由概

率计算而确定。

控制图反映过程处于异常状态时，应区分是坏”的异常还是好”的异常。

坏异常质量分析找出原因将其消除

好异常质量分析找出原因将其巩固

控制图判异准则（过程异常的检验模式）

准则1:

一点落在A区以外

控制图中1点越出控制界限的概率为0.0027。

准则1是控制图判异准则中最为重要的检验模式。

准则1可以对分布参数卩的变化或分布参数（T的变化给出信号，变化越大给出信号的速度越快（时间周期越短）

准则1还可以对过程中的单个失控做出反应，如计算错误、测量误差大、原材料不合格、设备工装发生故障等。

控制图中1点落于中心线一侧的概率为0.50，则连续9点落于中心线同一侧的概率为0.509=0.00195,

准则2是对准则1的补充，以改进控制图的灵敏度。

准则2是为了检验分布中心线以下，则反应了参数

□的减小，若连续9点落于中心线以上，则反应了分布参数□的增大。

准则3:

连续6点递增或递减

控制图中连续6点递增或递减的发生概率为

P0.00138

准则3是针对分布参数卩（过程平均值）的趋势变化而设计的，它判定分布参数卩（过程平均值）的较小的

趋势变化的灵敏度比准则2要高（更为灵敏）。

过程中产生趋势变化的原因可能是刀具、工具的磨损、维修水平降低、操作人员技能的逐渐变化等，这种变

化往往会造成概率a也随之变化。

递增或递减显示了趋势的变化方向。

准则4由于并不限定点子落入哪个区域，因而不能由概率计算来决定。

准则4是通过蒙特卡罗试验（统

计模拟试验）所决定的。

准则4用于检验由于数据未分层（数据来源于两个总体，如轮流使用两台设备加工或由两位操作人员轮流进行操作）而引起的系统效应，准则4也可以检验过程中存在的周期性变化的异常。

准则5:

连续3点中有2点落在中心线同一侧的B区以外

2点落入中心线同一侧A区的概率为

P=0.02145=0.00046

3点中的2点可以是任何2点，至于第3点可以在任何处，甚至不存在。

准则5用于检验分布参数□（过程平均值）的变化，对于分布参数（T的变化的检验也很灵敏。

在控制图中，1点落入中心线同一侧C区以外的概率为

4点落在中心线同一侧C区以外的概率P=0.1574=0.0006

准则6与准则5的情况类似，第5点可以在任何处。

准则6是为了检验分布参数卩的变化，其对过程平均值偏移的检验是很灵敏的。

连续15点落在中心线两侧C区以内的概率为：

0.682615=0.00325

连续16点落在中心线两侧C区以内的概率为：

0.6826=0.0022

应注意出现准则7的现象可能有两种情况：

（1）由于分布参数b的减小，这是一种良好的异常，应进行质量

分析，找出原因将良好的状况加以巩固；

（2）不要轻易被这种良好的外貌”所迷惑。

应注意到可能是非随机性所致。

如：

数据的虚假、数据分层不

够以至控制图设计中的错误等。

只有排除了这些可能之后才能总结分析现场减小标准差b的先进经验。

连续8点在中心线两侧C区以外的概率为：

、88

（0.9973-0.6826）=0.3147=0.0001

出现准则8的现象可能是分布参数（7的显著增大，也有可能是数据分层不够，应认真分析。

素

控制界面系数K

均值偏移系数门

标准偏差变动系数

样本容量

变大

变小

变大

变小

变大

变小

变大

变小

0.0027

变大

无影响

变大

依其他量取一定值

变小

变大

变小

变大

1-P

变小

变大

变小

变大

变小

0.0046

变大

无影响

无影响|

无影响

甘

变大

依苴他量取一定值

变小

无变化

变小

变大

变小

变大

1-0

变小

变大

变小1

变大

变小

仏7L断

丘图

R图

异常判断

图形

4变n未变

告警

不告警

4变化

⑥O

。

变4未变

不告警

告警

0变化

□变。

增大

告警

“变化，。

变化

口不变。

减小

不告警

告警

o变化，*不变

U不变a个变

不告警

u、U均未变

四、正交试验设计

1、正交表

（2）3读为三因素二水平四次试验

试验号

列号

L9（3）4读为四因素三水平九次试验

试验号

列号

试验号

列号

三因素三水平试验的均衡分散立体图

正交设计就是从选优区全面试验点（水平组合）中挑选出有代表性的部分试验点（水平组合）来进行试验。

图10-1中标有试验号的九个“（，就是利用正交表L9（34）从27个试验点中挑选出来的9个试验点。

即:

（1）A1B1C1

（2）A2B1C2（3）A3B1C3

（4）A1B2C2（5）A2B2C3（6）A3B2C1

（7）A1B3C3（8）A2B3C1（9）A3B3C2

上述选择，保证了A因素的每个水平与B因素、C因素的各个水平在试验中各搭配一次。

对于A、B、C3

个因素来说，是在27个全面试验点中选择9个试验点，仅是全面试验的三分之一。

从图中可以看到，9个试验点在选优区中分布是均衡的，在立方体的每个平面上，都恰是3个试验点；

在立方体的每条线上也恰有一个试验点。

9个试验点均衡地分布于整个立方体内，有很强的代表性，能够比较全面地反映选优区内的基本情况。

由图可以看出，在立方体中，任一平面内都包含3个“（•）”任一直线上都包含1个“（•，'因此，

这些点代表性强，能够较好地反映全面试验的情况

2、试验方案设计:

3、试验结果分析:

4、实例1:

为提高山楂原料的利用率，研究酶法液化工艺制造山楂原汁，拟通过正交试验来寻找酶法液化的最佳工艺条件。

（1）明确试验目的，确定试验指标

对本试验而言，试验目的是为了提高山楂原料的利用率。

所以可以以液化率｛液化率=［（果肉重量-液化后残渣

重量）/果肉重量］x100%｝为试验指标，来评价液化工艺条件的好坏。

液化率越高，山楂原料利用率就越高。

试验设计前必须明确试验目的，即本次试验要解决什么问题。

试验目的确定后，对试验结果如何衡量，即需要确定出试验指标。

试验指标可为定量指标，如强度、硬度、产量、出品率、成本等；也可为定性指标如颜色、口感、光泽等。

一般为了便于试验结果的分析，定性指标可按相关的标准打分或模糊数学处理进行

展开阅读全文