论工控生产系统的数据备份及系统灾难恢复方法.docx
《论工控生产系统的数据备份及系统灾难恢复方法.docx》由会员分享,可在线阅读,更多相关《论工控生产系统的数据备份及系统灾难恢复方法.docx(13页珍藏版)》请在冰豆网上搜索。
论工控生产系统的数据备份及系统灾难恢复方法
论工控生产系统的数据备份及系统灾难恢复方法
一、初识工控生产系统
工控机(IndustrialPersonalComputer,IPC)即工业控制计算机,与传统的办公用计算机不同,工控机采用专用的硬件设备,使用特殊的制造工艺而成。
在控制现场、路桥控制收费系统、医疗仪器、环境保护监测、通讯保障、智能交通管控系统、楼宇监控安防、语音呼叫中心、排队机、POS柜台收银机、数控机床、加油机、金融信息处理、石化数据采集处理、物探、野外便携作业、环保、军工、电力、铁路、高速公路、航天、地铁、智能楼宇、户外广告等诸多领域得到广泛的应用。
我们将从多个方面来认识工控机,以下将进行基础知识的介绍。
1.应用架构与部署方式
工控机从应用架构与部署方式来分,可分为单节点工控设备、集中管控型工控系统、混合型工控系统。
单节点工控设备只负责对单个生产环节进行控制,不与其它生产设备产生必然的数据联系。
例如,某机械生产机床设备配置一台工控机,并在前端配置LED按键式控制面板,生产工人通过前端LED面板的操作对生产设备进行参数的配置与调整,最后生产出预期的产品。
如下图所示(本文中图片或来自网络,以达到读者对所讲述内容深入理解,仅供参考):
如上图所示,这类工控机主要体现为数控机床等单节点设备。
集中管控型工控系统由一个主控端和多个子生产系统组成,主控端对子端工控机达到完全控制的目的。
由主控端下发指令到子端,子端严格按主控端下发的指令进行操作,操作完成后产生的数据再反馈到主控端以达成数据的收集等目标。
参考以下实际生产环境和拓扑示意图:
如上图所示,有两条生产线。
每条生产线都有一个主控端服务器对本产线的其它五个子节点进行完全控制。
这类工控系统的应用非常广泛,例如生产型企业、气象采集与预报系统、银行ATM系统、交通调度系统等多节点联合工作的环境。
混合型工控系统既可以完全集中式管控,同时每个子节点又可以独立操作。
2.硬件组成
工控系统与日常办公系统的硬件组成几乎相同,但是制造工艺不同。
工控机的制造在对温度、湿度、防辐射、防粉尘、散热、防震动、防腐蚀等方面有严格的生产规格和工艺。
因此,工控机的使用寿命相对于日常办公计算机会更长,更适合在恶劣的环境中运行。
下列图片所列出的工控机硬件实物图,仅供参考:
通常工控机的硬件组成包括:
主板:
工控机的主板与普通的计算机的主板从基础技术概念来看,几乎是相同的。
同样为了更稳定的运行,所采用的是工业级的标准来生产制造。
所以在稳定性方面有着很高的标准,同时定制化程度高。
CPU:
随着技术的发展与更新,目前大多数工控机采用的CPU与传统计算机的CPU的技术参数几乎相同。
但是从工作环境来讲,工控机的CPU需要更好的散热,所以大部分的工控机会将常见的CPU散热风扇改成金属散热型设备。
以占用更小的空间、更好的散热性、更稳定的运行。
内存:
与常见的内存没有本质的区别,但是在物理硬件的尺寸上设计更小化。
外存设备:
包括常见的模式硬盘、SSD硬盘、CF卡等。
输入、输出设备:
新型的输入、输出接口都采用USB接口,可连接常见的鼠标、键盘、USB存储设备、打印机等。
网络接口卡:
简称网卡,用于连接至网络。
目前大部分的工控机所配置的网卡还是RJ45接口的网卡,很少有配置光纤接口的网卡。
工控机不需要大量的数据传输,一般只配置RJ45接口的网卡。
3.操作系统
工控机的操作系统从产品提供商来分,分为Linux、Windows、Unix等三大类,目前主流的操作系统是Windows。
从类型来分,可分为常规嵌入式两类。
两种类型的操作系统均有应用。
从版本来分,又分为服务器类操作系统和工作站类操作系统。
大概整理如下:
WindowsXP
WindowsXPEmbedded
Windows7
Windows7Embedded
Windowsserver2003
Windowsserver2008
WindowsserverEmbedded
4.应用程序
各类工控机的不同,所研发和采用的应用程序也不尽相同。
此处对应用程序不做过多的讲述。
二、工控机数据与系统保护分析
5.数据重要VS系统重要
从这个角度来看,系统一定会比数据(此处所讲述的数据是指由操作系统或者应用程序所产生的数据,例如日志文件、生产过程中所产生的其它历史数据等)重要。
因为从数据的组成来看,数据其实对工控机的影响很小,数据的丢失可能会影响到历史数据的二次使用等问题。
但是如果操作系统或者应用程序出现问题导致生产受到影响,问题就非常严重了。
试想,一个生产节点或者一条生产线,因为工控机的宕机而导致不能继续生产,那就会影响到整体公司或者项目的运营。
例如生产型企业不能继续生产产品、银行ATM不能继续提供现金交易、监控系统不能及时获取影像资料、气象监控系统不能及时获取气象数据等。
6.硬件容易损坏
工控机的运行环境往往相对恶劣,对于硬件的损耗很严重。
特别是对于外置存储设备,例如磁盘、FT卡等。
如果这类存储设备损坏,将直接影响生产生活。
例如磁盘损坏,生产系统宕机。
需要产线维护工程师重新置换新的磁盘后,再部署操作系统、安装应用程序、配置应用程序等一系列复杂的操作。
整个RTO周期非常长,严重影响生产生活。
7.工控机应用程序复杂
工控机所携带的应用程序往往由工控机的产品提供商提供,应用程序不常见,切极为复杂。
一旦出现由软、硬件问题所引起的宕机出现后,用户方并不熟悉应用程序的再次部署。
这将会导致生产中断。
8.昂贵的费用
首先是工控机,这类设备往往价格昂贵。
用户大都不会置备一台冷备机作为灾难接管的策略。
其次是产品提供方的上门服务费用,如果需要原厂技术人员上门提供技术支持服务,需要与厂商协调时间、协调人员等一系列流程,这一定对生产生活有严重的滞后,而且用户需要更多的时间成本和金钱成本。
例如,需要某些产品提供商提供上门服务时,厂商的工程师从出家门的那一时刻起就会收取售后费用了。
三、对工控机的保护方案有哪些
9.冷备机
冷备机是最有效的解决方案之一,能够在线上工控机宕机后,快速更换后达到生产中断最小化的目标。
但是此方案也有不足:
首先是代价高,用户需要单独购买冷备机,这对于用户来说可能是一笔不小的投资。
其次是灵活性差,冷备机的应用程序的配置可能与宕机的工控机参数不匹配。
需要时间来调整工控机的工作参数以达到与生产相匹配。
另外还有存在风险,例如参数配置错误导致生产的产品不合格。
10.Ghost方案
此方案在很多用户中得到应用,但是这种方案有先天的不足。
Ghost方案有产品的兼容列表,超出列表的操作系统是不支持的。
换句话,不兼容的操作系统就没办法去做保护。
Ghost需要关机制作镜像,在制作操作系统镜像时,需要将目标工控机关机后操作,这会影响到生产。
Ghost在异构硬件平台,无法恢复镜像。
11.磁盘克隆
所谓磁盘克隆就是将现工控机的磁盘使用工具软件克隆到另一个磁盘上,当出现磁盘损坏时快速更换磁盘以达到将RTO时间尽量缩短的目标。
磁盘克隆虽然可减小RTO值,但是需要对源工控机关机才可以进行克隆,同样会影响生产。
同样,磁盘克隆技术不能异构环境中使用。
例如将现在磁盘在其它硬件平台上使用。
四、理想的工控机保护方案
12.工控机需要备份什么
关于这个话题,理想的解决方案是所有的数据尽在备份中。
如果一定要区分,那么一定是可用的系统优于实体数据。
就像我们前面提到的,可用的系统才是工控机最重要的。
所以,在对工控机的备份方案中,要将整个磁盘都置于备份计划中。
所谓整个磁盘,除我们日常所见的类似C盘、D盘等卷外,还应该包含系统的MBR。
所以磁盘镜像技术是最适合工控机的备份方案。
以下所有话题均在使用磁盘镜像备份的基础上进行。
13.在线热备份
为了保障生产不中断,所提供的备份方案应该使用在线备份方式,既不停机在线备份。
这种备份方式最大化的降低工控机的停机时间,不影响现在生产任务。
14.多种备份机制
可提供热备份、冷备份两种备份机制,在不可预期的环境中,可备份所有的兼容或不兼容的所有业务系统。
包含Windows、Linux、Unix等。
15.灾难发生后的系统快速恢复
当系统出现宕机事件后,需要快速的恢复系统到可工作状态,无论是操作系统、应用程序、或者是硬件所引起的宕机。
操作系统或者应用程序引起的宕机时,快速使用可引导媒体进入工控机,然后将已存在的备份存档恢复至当前工控机。
这样的恢复可将业务连续性保持最高状态,有效降低RTO时间。
由硬件引发的宕机,分两种情况。
一种情况是非存储设备,例如内存、主板等硬件损坏。
这种情况下只需要更换新的硬件既可,但这需要用户的足够可用的备件。
另一种情况是存储设备损坏,例如磁盘损坏。
此类情况只需要更换新的磁盘后,使用可引导媒体将原备份存档恢复至新的磁盘。
16.异机还原与系统迁移
工控机的软、硬件也是有生命周期的,在生命周期结束后有能力将现有工控机的系统整体迁移至新的硬件平台。
降低迁移的时间、资金成本。
同时,对于损坏的工控机,有能力将现有系统通过异机还原能力,迁移至新的硬件平台,保障业务连续性最大化,RTO参数最小化。
五、Acronis到底能对工控干点啥
一看标题是不是有点蒙圈?
Acronis不是个备份软件嘛,能做备份,能恢复。
这点事地球人都知道,难道还能整出啥花样来不成。
让我想想,Acronis可以把损坏的硬盘给还原成新的?
不对,不对。
。
Acronis是个软件,不是大师兄,没这个法力;难道是硬盘数据修复?
也不对啊,老五天天唠叨说工控机最重要的是系统呀,把文件抢救回来也是然并卵啊&……%¥#@太伤神了,这么专业的事还是问问老五吧。
老五说,Acronis可以将工控系统的RTO时间缩短至2分钟以内!
怎么做到的呢?
这要归功于Acronis的Anydata引擎,这个东西老厉害了,就像一个超级无敌的变形金刚。
看到老五前面的文档的同学可能还记得,Acronis最厉害的就是磁盘镜像,而且目前在业界还没有哪家的技术可以与之比拟。
啥叫磁盘镜像,说简单点就是整个磁盘的所有的所有全部打包成一个文件。
注意这个所有也包含了MBR这个计算机引导信息在里面。
在工控领域具体怎么玩呢,咱们接着往下看,下面全是干货。
让RTO等于0
这种方式对于RTO时间的要求非常严格的用户非常适用。
说到RTO为0,其实只是理论说法。
也就是从Acronis的角度来考虑的。
从用户的角度来看,这个时间基本可以控制在2分钟以内。
流程如下示意图:
这种方式的流程如下:
1、备份:
采用热备份方式,先将整个工控的磁盘镜像出来。
注意在备份的时候,一定是工控机运行正常的时候。
这叫积谷防饥。
2、恢复:
这里所说的恢复,并不是恢复到原机上,而是恢复到一块新的备用硬盘上。
恢复完成后,作为备件存放。
在这里可能有人会有疑问,恢复到新的硬盘上,这个怎么操作呢。
其实很简单了。
操作如下:
a)在一台空闲的计算机上安装Acronis的代理程序,并将备份存档存放在此计算机上。
b)计算机外接一个USB转换SATA、IDE的转换器
c)将新的可用硬盘外接至此转换器上
d)运行Acronis的恢复操作,将备份恢复至新的硬盘上。
3、灾难快速处理:
当工控机硬盘损坏时,关机更换步骤2中的备份硬盘,更换完成后开机进入工作模式。
Over,大家可以算一下这样的一个灾难接管时间大概是多长时间。
基本上两分钟内可以搞定吧,一分钟更换硬盘,一分钟开机时间。
让RTO时间等于网络传输速度和磁盘性能
这种系统灾难拯救方式是通过网络方式,而非本地方式恢复。
当工控硬盘损坏,更换新的硬盘后从网络引导,然后从网络存储位置将原备份存档恢复至本地新硬盘上。
恢复完成后,重启工控机进入正常工产模式。
架构示意如下图:
这种方式的系统灾难恢复,需要考虑网络带宽和磁盘性能。
因为这两个参数决定了系统恢复的速度,也就是RTO时间。
不知道以上两种方案是否能满足了大部分工控用户的需求,如果你有更好的方案也可以@老五,让大家有更多的玩法可以快速解决问题。
再看以上介绍的Acronis方案有啥优、缺点。
先说优点吧,我觉得是几方面了
17.在线热备份,无停机时间
Acronis的磁盘镜像备份,使用在线备份方式,既热备份方式。
也就是说,工控机该生产生产,该干嘛干嘛。
Acronis在后台就把系统给备份了。
方案相比Ghost、磁盘克隆等方式,节省了不必要的停机时间。
18.在线热备份,无停机时间生产快速恢复
除了冷备机、Raid方案后,在软件解决方案方面还没有听说或遇到过比Acronis的这种系统恢复方式更快的。
恕老五孤陋了,求原谅。
。
。
2分钟的RTO时间非常适合广大的制造生产型用户群体。
这部分用户中,大部分都接受的宕机时间半小时左右。
而Acronis的2分钟方案绝对称得上飞一般的速度了。
有人会问了,能不能将RTO时间降到0?
可以,只要你能把换硬盘的时间降到0,Acronis就可以!
19.更经济、更有效
所谓经济性更好,大家可以算一笔账就清楚了。
例如:
停机1小时不能生产,对生产的影响折合现金是多少;停止生产所造成的间接成本是多少,包括人力成本、资源占用等方方面面;恢复系统需要花费的成本等。
这其实是一笔非常可观的成本额。
而采购Acronis软件许可所需要的投资与上述加减法,很容易的得到了成本方面的投资占比。
所以老五说,Acronis的方案更具经济性,且安全有效。
本期的工控方案的话题,就聊到这了。
有更多问题想和老五沟通,请扫下面的码,加微信接着聊!