1、药品数据统计分析与应用药品数据统计分析与应用一、 导言1、 我们面临大数据时代的挑战数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和 运用,预示着新一波生产率增长和消费者盈余浪潮的到来。一一麦肯锡大数据时代已经降临,在商业、经济及其它领域中,决策将日益基于数据和分析而作出,项并非基于经 验和直觉。纽约时报2、 数据是实施 GMP管理的支持数据是一各观测值,是实验、测量、观察、调查等活动中以数量的形式给出的结果。数据分析是企业有 目的地收集数据、分析数据,使之成为信息的过程,这一过程是在产品的整个生命周期的支持过程;是实施 GMP管理的支持,是建立并实施
2、高质量的药品质量体系的支持过程。3、 数据统计分析一一质量管理体系的支持过程(1)数据是信息的载体;(2 )数据统计是数据转为信息的加工过程,统计技术是企业质量体系中的一个重要要素,分析数据,控制 过程中的异常,坚持不懈地持续改进,提高产品质量,提升企业的核心竞争力。4、 数据是企业的无形资产掌握现状工序调节 工序管理 检查和评价 分析和改进二、 数据分析的有关基础知识1、 数据分析的类型描述性数据分析:是对一组数据的各种特征的分析,以便描述测量样本的各种特征及其所代表的总体的 特征;推断性数据分析:也叫探索性数据分析,是为了形成值得假设的检验而对数据进行分析的一种方法; 验证性数据分析:是对
3、社会调查数据进行的一各统计分析。通过因子间的关系是否符合研究者所设计的 理论;2、 定量数据的分类计数值数据:不能连续取值的数据;计量值数据:可以连续取值的数据; 差别:当数值是百分率时,取决于给出数值的数学式分子,分子为计量值,则求得的百分率是计量值; 如分子为计数值,求得的百分率虽不是整数提也属于计数植。3、 值得注意的概念总体:指所要研究的对象的全体; 个体:指组成总体的每一个基本单位; 样本:从总体中随机抽出的一部分样品, 样本中所包含榈数目称为样本大小, 又叫样本量,常用n表示;4、 数据的特征值位置特征值:子样平均值差异特征量:极差R=XmaxXmin相对标准差SRSD 二 10
4、0%|X|实例1对气相层析的实验人员进行技术考核,进样 10次,每次0.5ul,得色谱峰高(mm)为:142.1 147.0 146.2 145.2 143.8 146.2 147.3 150.3 149.9 151.8X =146.98 s=3.00 RSD=2.04%结论:有经验的色谱工作人员很容易将 RSD控制在1%以内,可认为该实验人员的技术还不够稳定,操作不够熟练。5、 数据分析的基础制药生产现场的数据是分析的基础,生产工序的稳定是收集可靠数据的前提,抓住生产现场的六大因素是生产的关键。6、 数据分析的形式算一算:特征数看一看:动力变化比一比:统计值找一找:相关因素7、数据分析的前处
5、理(筛选)数值的修约(GB/T8170-2008)四舍六入五考虑,五后非零则进一,五后全零看五前,五前偶舍奇进一,不论数字多少位,都要一次修约成。 修约的位数:试验运算中,应比规定的有效数字多保留一位数,后根据有效数字的修约进舍至规定有效 位。标准差一般按二位有效即可,最多保留小数点后二位。数据筛选的方法(1)按美国E J鲍尔推荐的方法进行处理。步骤如下:1计算这群检测值的平均值;2计算极差R;3计算可疑值Xj与平均值之差的绝对值,再用极差 R除,得出ti与规定附表的临界值比较,若 ti比表上的t值大,则应弃去此可疑值。附表如下:抛弃无效测量的临界伸值n34567891011121314152
6、0t1.531.050.860.760.690.640.600.580.560.540.520.510.500.46注:用分式t =| X i -不| / R计算t,如计算值超过表上的值时, 则所调查的值是无效的, 此概率约为0.95。,实例2某分析者对一样品检测,得:93.3% 93.3% 93.4% 93.4% 93.3% 94.0%,问:第六个结果有效吗?第1步:计算方法六个结果的平均值: X =93.45%第2步:计算极差 R=94.0=93.9=0.7第3步:计算可疑值与增均值之差的绝对值再用极差除: t =|Xi -X|/R = (91.0-93.45) /0.7=0.79第4步:
7、与临界值t=0.76 ( n=6)比较ti=0.79 t=0.76,说明94.0%是一个离群数据,应舍弃。(2)G检验法(格鲁布斯法步骤:1算出包括可疑值在内的平均值;2计算可疑值与平均值之差;3算出包括可疑值在内的标准偏差;4用标准偏差除可疑值与平均值之差得 G值:GX|S5查G的临界值表,若计算的 G值大于查到的值,就可把可疑值舍弃。|94.0 -93.45 | G0.272.04,查表 G( 6,0.05)= 1.89,所以这个值应舍去。Grubbs检验法的临界值测定次数置信界限测定次数置信界限95%99%95%99%31.151.15152.552.8141.481.50162.592
8、.8551.711.76172.622.8961.891.97182.652.9372.022.14192.682.9782.132.27202.713.0092.212.39212.733.03102.292.48222.763.06112.362.56232.783.09122.412.64242.803.11132.462.70252.823.14142.512.768、质量特性值的正态分布 99 一刑 10、 产品质量波动10.1正常波动:同随机原因引起的产品质量波动,生产过程在控制中,呈稳定状态;10.2异常波动:同系统原因引起的产品质量波动;弓I起波动的原因 5M1E :人、机、料
9、、法、环、测生产过程在失控中,呈不稳定状态。11、 统计分析的两类错误和风险:第一类错误:把质量好的一批成品当作质量坏的一批成品去看待、处理的错误; a :第一类错误的概率值,也叫第一类错误的风险率。第二类错误:把质量坏的一批成品当作质量好的一批成品去看待、处理的错误;3 :第二类错误的概率值,也叫第二类错误的风险率。12、 药品抽样检验的风险:抽样检验是由样本的质量状况去推断总体的质量是要冒风险的。12.1生产方风险(PR):对于给定的抽样方案,当批产品或过程质量水平(如不合格品率)为某一指定的可 接收值(如可接受质量水平)时的拒收的概率,即把质量好的批产品判为不合格,用 a表示。12.2使
10、用方风险(CR:对于给的抽样方案,当批产品或过程质量水平为某一指定的不满意值(如极限质量 水平)时的接收概率,即把质量差的批产品判为合格,使用方风险一般用 3表示。13、 关于样本13.1样本要有代表性:要代表总体,如果做不到这一点,将导致对总体特性作出不良估计; 13.2样本也会产生误差:即使样本代表总体,但从样本得到的信息也会产生一定程度的误差,这种误差的 大小可增大样本量来减小但却不能消除。14百分比抽样的不科学性在百分比抽样中,在相同的批不合格品率的情况下,产品批量越大,则批的接收概率越小,产品批量越小,则批的接收率越大,即“大批量严,小批量宽” ,不能正确鉴别批产品的质量水平,所以,
11、这是一种不科学的抽样检验方法,工业发达国家早已淘汰。三、GMP实施中常用的数据分析工具1、 描述性统计技术用来对统计数据进行整理和描述的技术。主要有:折线图、饼分图、因果图、树图、排列图。2、 推断性统计技术:在统计数据描述的基础上立新功,对所反映的问题再进行分析解释和作出推断性结论的技术。主要有: 控制图(分析用图)、回归分析、假设检验。3、 过程控制所用的技术:下次试验、过程能力、控制图(控制用图)4、 常用质量分析图的应用序号名称作用1折线图直观地表现出数据的变化趋势2饼分图表示一个系统中各部分所占比率3散点图判断两个质量因素之间的相关性4因果图分析原因与结果的关系,找到问题的原因5树图
12、对主题构成因素进行系统分析展开6排列图寻找影响产品质量的主要冋题7控制图判断生产过程是否异常及导致导常的因素4.1、散点图:又称相关图,是研究成对出现的两组相关为数据之间相关关系的简单图示技术。用来发现、显 示和确认两组相关数据之相关关系,并确定其预期关系。表示随x增加,y随之明显减少的 关系,称为强负相关,表明x与y 关系密切4.2因果图:又名特性要因图,表示结果(特性)与原因(影响特性的要因)之影响情形或两者关系之图形。 定性寻找引发结果的原因。4.3排列图:又叫柏拉图。它是将质量改进项目从最重要到最次要顺序排列而采用确定主导因素的一种图表。10080604020100%80%柏拉图原理:
13、关键的小数, 次要的多数。60%分析:通常占总频数 80%以上的 项目是主要问题,占总频数 10%40% 以上的项目是次要问题,余下的占总频数10%左右的项目是更次 20% 要的一般问题。0%0 A B C D E问题原因4.4控制图:是地过程质量特性值的数据进行分析和判断工序是否处于稳定状态所使用的带有控制界限的图。 从而监察过程是否处于控制状态的一种用统计方法设计的图。4.4.1作用:对生产过程进行监控发现异常,及时告警;4.4.2控制图的种类:分析用控制图控制用控制图4.4.3其结构:中心线 CL=X上控制线UCL= X +3S下控制线UCL= X -3S4.4.4控制图过程控制的核心手
14、段(1) 分析用控制图主要分析:所分析的过程是否处于统计控制状态;该过程的过程能力指数是否满足要求,达到技术稳态。须将过程调整到技术稳态。(2) 控制用控制图:当过程达到了所确定的状态后,才能将分析用控制图的控制线作为控制用限,进入日 常管理后关键是保持所确定的状态。(3)控制界限就是区分偶然波动与异常波动的科学界限。实例3某制药厂生产xx链霉素x年x月的含量( %)控制如下表,分析本月的生产控制情况批号12345678含量97.2497.3197.6797.8097.8997.9697.0697.90移动极差RS0.070.360.130.090.070.900.84批号9101112131
15、41516含量98.0898.0298.0897.8798.2897.5597.4497.73移动极差RS0.180.060.060.210.410.730.110.29批号1718192021222324含量97.7297.4697.6298.2798.3198.4698.0298.11移动极差RS0.010.260.160.350.040.150.440.09子样号控制图:minitab15含量X的I-MR 控制图结论:含量X的单值控制图检验结果检验1。1个点,距离中心线超过 3.00个标准差。检验岀下列点不合格:7检验5。3点中有2点,距离中心线超过 2个标准差(在中心线的同一侧) 检验
16、岀下列点不合格:2检验6。5点中有4点,距离中心线超过1个标准差(在中心线的同一侧) 检验岀下列点不合格:24含量X的MR控制图检验结果检验1。1个点,距离中心线超过 3.00个标准差。检验岀下列点不合格:74.4.5控制图的判断有判稳和判异两种判断方法4.4.6控制图判断的两类错误第I类错误:弃真概率 a (虚发警报)由于休哈特确定了 3 b原则,所以弃真概率 a =0.0027,数值很小。第H类错误:取伪概率 3 (漏发警报)由于a =0.0027数值很小,所以导致取伪概率 3的数值很大。4.4.7判断的概念由于a =0.0027数值很小(虚发警报的概率很小)。所以在控制图中打 1点超界就
17、判异,置信度达99.73%,很可靠。由于3数值很大(漏发警报的概率很大)。所以,在控制图中打 1点在界内就判稳,置信度很低,不可靠。但是3 v 1,所以连续打 m点进行判稳,3总=3 m数值很小,很可靠。判稳准则在控制图中连续打 m点,界外点数w d时判稳(1) m=25,d w 0,即,25点不得出现一点在界外。(2) m=35,d w 1,即,35点允许出现一点在界外。(3) m=100,d w2,即,100点允许出现两点在界外。4.4.8判异准则的制定4.4.8.1判异的理论基础是 小概率事件原理”小概率事件原理又称小概率事件不发生原理,其数学定义是:事件 A发生的概率很小(如 0.01
18、 ),现经过一次或少数次试验,事件 A居然发生了,就有理由认为 A的发生是异常。统计方法的应用是为捕捉异常先兆。因此,在应用前应确定小概率 a,小概率a实际是允许判断错误的概率,称为风险度、风险概率、风险水平或显著水平。根据被判断事物的重要度, a可取0.01、0.05、0.10等。与风险度a相对应的是置信度(1- a ),又称为置信概率、置信水平。由于风险度 a不可能为0”,所以 置信度(1- a )不可能为100%。448.2判异准则的制订步骤(1)设定小概率a,休哈特早期设定的小概率 a1点子超界a =0.00272点子在界内排列不随机 a =0.01,英国以没有作到等概率为由,一律 a
19、 =0.01,休哈特后期设定的小概率,一律 a =0.0027。(2) GB/T 4091-2001 idt ISO 8258:1991标准制订的判断准则即为休哈特后期做制订。 充分设想过程中所发生的各种事件,逐一计算其发生概率 P。(3 )制订准则若 P a 判断过程正常;若 PW a 判断过程异常,则该事件本身即为对过程异常的判断准则。4.4.9判异准则GB/T 4091-2001 ISO 8258 : 1991常规控制图标准给出八个判异的检验模式。 凡在控制图中出现八个检验模式中任何一个时,即可判断过程异常。在八个检验模式中,除第 4个模式由蒙特卡罗试验(统计模拟试验)确定以外,其他 7
20、个模式均由概率计算而确定。控制图反映过程处于异常状态时,应区分是 坏”的异常还是 好”的异常。坏异常 质量分析 找出原因 将其消除好异常 质量分析 找出原因 将其巩固控制图判异准则(过程异常的检验模式)准则1: 一点落在A区以外控制图中1点越出控制界限的概率为 0.0027。准则1是控制图判异准则中最为重要的检验模式。准则1可以对分布参数 卩的变化或分布参数(T的变化给出 信号,变化越大给出信号的速度越快(时间周期越短)准则1还可以对过程中的单个失控做出反应,如计算错误、 测量误差大、原材料不合格、设备工装发生故障等。控制图中1点落于中心线一侧的概率为 0.50,则连续 9点落于中心线同一侧的
21、概率为 0.509 =0.00195 ,准则2是对准则1的补充,以改进控制图的灵敏度。准则 2是为了检验分布中心线以下,则反应了参数的减小,若连续9点落于中心线以上,则反应了分布参数 的增大。准则3:连续6点递增或递减A 控制图中连续6点递增或递减的发生概率为1 1P 0.00138n! 6!准则3是针对分布参数 卩(过程平均值)的趋势变化而设计的,它判定分布参数 卩(过程平均值)的较小的趋势变化的灵敏度比准则 2要高(更为灵敏)。过程中产生趋势变化的原因可能是刀具、工具的磨损、维修水平降低、操作人员技能的逐渐变化等,这种变化往往会造成概率a也随之变化。递增或递减显示了趋势的变化方向。准则4由
22、于并不限定点子落入哪个区域,因而不能由概率计算来决定。准则 4是通过蒙特卡罗试验(统计模拟试验)所决定的。准则4用于检验由于数据未分层(数据来源于两个总体,如轮流使用两台设备加工或由两位操作人员轮 流进行操作)而引起的系统效应,准则 4也可以检验过程中存在的周期性变化的异常。准则5:连续3点中有2点落在中心线同一侧的 B区以外X X2点落入中心线同一侧 A区的概率为2P=0.02145 =0.000463点中的2点可以是任何2点,至于第3点可以在任何处,甚至不存在。 准则5用于检验分布参数 (过程平均值)的变化,对于分布参数 (T 的变化的检验也很灵敏。在控制图中,1点落入中心线同一侧 C区以
23、外的概率为4点落在中心线同一侧 C区以外的概率 P=0.1574=0.0006准则6与准则5的情况类似,第5点可以在任何处。准则6是为了检验分布参数 卩的变化,其对过程平均值偏移的检验是很灵敏的。连续15点落在中心线两侧 C区以内的概率为:0.682615=0.00325连续16点落在中心线两侧 C区以内的概率为:160.6826 =0.0022应注意出现准则7的现象可能有两种情况:(1)由于分布参数b的减小,这是一种良好的异常,应进行质量分析,找出原因将良好的状况加以巩固;(2 )不要轻易被这种良好的 外貌”所迷惑。应注意到可能是非随机性所致。如:数据的虚假、数据分层不够以至控制图设计中的错
24、误等。只有排除了这些可能之后才能总结分析现场减小标准差 b的先进经验。连续8点在中心线两侧 C区以外的概率为:, 、8 8(0.9973-0.6826) =0.3147 =0.0001出现准则8的现象可能是分布参数 (7的显著增大,也有可能是数据分层不够,应认真分析。素控制界面系数K均值偏移系数门标准偏差变动系数f样本容量n变大3变小变大变小变大变小变大变小Xa变小0.0027变大无影响无影响无影响P 1变大依其他量 取一定值变小变小变大变大变小变小变大1-P变小变大变大变小变小变大变大变小Ra变小0.0046变大无影响无影响|无影响甘变大依苴他量 取一定值变小无变化变小变大变小变大1-0变小
25、变大变大变小1变大变小仏7L断丘图R图异常判断图 形4变 n未变告警不告警4变化O。变 4未变不告警告警0变化变。增大告警告警“变化,。变化口不变。减小不告警告警o变化,*不变OU不变a个变不告警不告警u、U均未变四、正交试验设计1、正交表L4 (2) 3 读为三因素二水平四次试验试验号列号1231111221231224221L9 (3) 4 读为四因素三水平九次试验试验号列号1234111112122231333421235223162312731138322193321试验号列号123ABC1A1B1C12A1B2C23A1B3C34A2B1C25A2B2C26A2B3C17A3B1C3
26、8A3B2C19A3B3C2三因素三水平试验的均衡分散立体图正交设计就是从选优区全面试验点(水平组合)中挑选出有代表性的部分试验点(水平组合)来进行试验。图10-1中标有试验号的九个 “(,就是利用正交表 L9(34)从27个试验点中挑选出来的 9个试验点。即:(1)A1B1C1 (2)A2B1C2 (3)A3B1C3(4)A1B2C2 (5)A2B2C3 (6)A3B2C1(7)A1B3C3 (8)A2B3C1 (9)A3B3C2上述选择,保证了 A因素的每个水平与 B因素、C因素的各个水平在试验中各搭配一次。对于 A、B、C 3个因素来说,是在 27个全面试验点中选择 9个试验点,仅是全面
27、试验的三分之一。从图中可以看到,9个试验点在选优区中分布是均衡的,在立方体的每个平面上,都恰是 3个试验点;在立方体的每条线上也恰有一个试验点。9个试验点均衡地分布于整个立方体内 ,有很强的代表性, 能够比较全面地反映选优区内的基本情况。由图可以看出,在立方体中 ,任一平面内都包含 3个“() ”任一直线上都包含 1个“(,因此,这些点代表性强,能够较好地反映全面试验的情况2、试验方案设计:3、试验结果分析:4、实例1:为提高山楂原料的利用率,研究酶法液化工艺制造山楂原汁,拟通过正交试验来寻找酶法液化的 最佳工艺条件。(1) 明确试验目的,确定试验指标对本试验而言,试验目的是为了提高山楂原料的利用率。所以可以以液化率 液化率=(果肉重量-液化后残渣重量)/果肉重量x 100%为试验指标,来评价液化工艺条件的好坏。液化率越高,山楂原料利用率就越高。试验设计前必须明确试验目的,即本次试验要解决什么问题。试验目的确定后,对试验结果如何衡量,即需 要确定出试验指标。试验指标可为定量指标,如强度、硬度、产量、出品率、成本等;也可为定性指标如颜 色、口感、光泽等。一般为了便于试验结果的分析,定性指标可按相关的标准打分或模糊数学处理进行
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1