网络预警系统产品技术白皮书.docx
《网络预警系统产品技术白皮书.docx》由会员分享,可在线阅读,更多相关《网络预警系统产品技术白皮书.docx(26页珍藏版)》请在冰豆网上搜索。
网络预警系统产品技术白皮书
IP网络运维经管系统
为企业的网络和关键应用保驾护航
“网络预警”系统产品技术
白皮书
嘉锐世新科技(北京)有限公司
1、概述
“网络”的迅速发展已经成为人们办公、日常生活中不可缺少的一部分,一旦网络出现问题将导致无法正常办公,甚至网站内容被篡改等将产生不良影响等。
网络机房,作为企业或政府“网络心脏”,网络机房的重要性越来越被信息部门重视,在以往的建设中网络中心领导注重外网的攻击,内网的经管等部分,设立防火墙,上网行为经管等设备保证网络的正常运行,往往忽视了网络运维中的网络预警。
预警,听到这个名词大多会理解为,消防、公安、天气、山体滑坡等,非专业人士很少人知道网络也可以“预警”,网络预警是建立在正常网络运行状态下所占用的网络带宽,CPU的使用率、温度,内存的使用率等,根据常规值设定阀值,一但产生大的变化超过阀值将产生报警,自动通知网络经管人员,及时准确的定位到某台设备、某个端口出现故障,网络经管人员免去繁琐的检查工作,一免影响网络的正常运行。
现在市场上以有众多的网络预警产品,各家都有相应的优缺点,我公司所提供的产品相比其他家的优势为:
1.专业硬件系统,没有纯软件产品的部署和维护烦恼;
集网络设备、服务器、应用系统监控经管、机房环境监控、内网流量分析经管于一身,不需单独投资各个系统;
2.网络日志服务子系统,可收集所有网络设备的运行log,易于查询,永久保存;
3.独创的集成VPN功能,轻松监控和经管远端局域网内的服务器;
4.监控历史记录、性能曲线、报表等非常详尽;
5.全中文web经管方式,智能式向导配置,更易于使用和符合国内网络经管人员使用习惯;
6.独创远程协助功能,轻松获取专业技术服务;
7.同比其它的国际品牌有较高的性价比。
2、“网络预警”产品结构及主要功能
“网络预警”系统由IP网络监控报警主系统和流量分析经管、VPN和防火墙、日志储存服务等多个子系统组成。
系统以实用设计为原则,运行于安全可靠的Linux操作系统,采用多层高性能架构设计,可经管上万个监控对象。
采用中文WEB架构,全面支持SNMP、WMI和IPMI协议,提供昂贵的高端网管产品才具有的丰富功能,操作简单,是追求实用和高性价比的企业用户、政府、事业单位以及IDC服务提供商为用户提供增值服务的首选产品。
IP网络监控预警主系统
IP网络监控预警主系统为用户提供对IP网络中线路、网络设备和服务器,及运行其中的关键应用服务进行监控,结合温湿度传感设备对机房的温湿度进行监控,预知故障及提供声音、图象、手机短信、电子邮件等方式的即时报警。
流量分析子系统
流量分析子系统可以提供网络流量和性能分析、故障诊断等高级功能,让用户对自己的网络状况了如指掌。
VPN和防火墙子系统
VPN和防火墙子系统可以让远端的服务器(windows和Linux系统)跟“网络预警”系统建立基于SSL协议的加密通道,实现对远端的服务器进行安全有效的监控经管,而不管服务器是否位于远端的局域网内。
经管员也可以通过授权,在互联网的任何地方通过VPN隧道隧道安全的对“网络预警”系统进行经管,或者直接控制经管远端的服务器。
同时,通过防火墙功能,可以控制经管员VPN接入后的可访问的目标服务器和具体权限。
日志储存服务子系统
日志储存服务子系统可以通过syslog协议接收和储存被监控的网络设备、服务器等日志信息,并提供对储存日志信息按设备名、程序模块(Facility)、日志等级(Severity、Level)等进行查询和经管。
同时,可以设置监控包含特定关键字的日志信息,实现手机短信、电子邮件等报警。
2.1IP网络监控预警主要功能:
1)监控和经管Cisco/Juniper/Fortinet/Watchguard/Sonicwall/H3C/HUAWEI/联想网御/天融信/深信服/安达通等著名品牌的路由器、交换机和防火墙网络设备(CPU、内存、接口流量);
2)监控和经管IBM、DELL、HP、SUN、联想、浪潮、方正、同方等服务器的硬件状态(温度、风扇转速)、实现远程开关机;
3)监控和经管Windows、Linux等操作系统的运行状态(CPU、内存、磁盘);
4)监控专网(DDN专线、VPN隧道)的质量(可用性、丢包率、延时);
5)监控和经管SQLServer/MYSQL/Oracle等主流数据库、ExchangeServer、IIS、MediaServer、TerminalServer等应用服务;
6)监控服务器上运行的HTTP、FTP、SMTP、POP3等所有应用服务;
7)监控服务器上文件和目录是否被修改;
8)监控机房内温度和湿度等环境参数;
9)监控机房UPS不间断电源状态;
10)网络流量分析子系统,可分析内网流量情况,对内网故障进行专家级的诊断,迅速定位内网故障,如发现arp欺骗、感染蠕虫病毒、进行大量下载上传(BT、电驴、迅雷等)等行为,定位有问题的计算机;
11)网络日志服务子系统,可收集所有网络设备的运行log,易于查询,永久保存;
12)独创的集成VPN功能,可通过VPN隧道轻松监控和经管远端局域网内的服务器;
13)全面支持SNMPv1,v2,v3、WMI、IPMI协议,以及特定的FS协议;
14)监控到故障,通过手机短信、电子邮件、发出报警声音和监控屏幕警告等方式通知经管员。
15)全中文web经管方式,智能式向导配置,更易于使用和符合国内网络经管人员使用习惯;
16)超强数据引擎,监控历史记录、性能曲线、报表等非常详尽,可查询10年或更长时间监控记录;
17)独创远程协助功能,轻松获取专业技术服务。
“网络预警”系统通过专门设计的硬件和经过优化的操作系统、监控软件高度集成,对比于用户使用软件产品,具有更高的稳定可靠性,并且易于部署和维护。
2.2子系统及功能模块说明:
2.2.1流量分析子系统
“流量分析子系统”,用于提供网络流量和性能分析、故障诊断等。
子系统名称
详细描述
流量分析系统
监控企业网络出口总流量和整体IP协议分布情况
监控每台计算机整体流量统计情况、当前占用带宽的情况、访问应用协议的情况、当前会话情况等等
发现网络内存在的arp欺骗问题、攻击和被攻击问题、发现可能有蠕虫病毒的计算机、发现使用bt或者其他工具进行大量下载和上传而影响网络其他用户正常使用互联网的计算机等
监控内部网络计算机之间、计算机和服务器之间的流量。
(需交换机支持)
2.2.2功能模块介绍
模块名称
详细描述
基本功能
ICMP探测:
ping延时、丢包率
网络设备探测:
接口流量、接口错误包、CPU、内存、会话数
应用服务探测:
HTTP、HTTPS、FTP、Telnet、FTP、ICMP、IMAP、Mysql、Pop3、SMTP和任意TCP端口上的应用服务
服务器探测(Windows操作系统):
CPU、内存、储存器、储存器I/O操作、打印队列、网络接口流量、接口错误包
服务器探测(Linux操作系统):
CPU、内存、储存器、系统负载、网络接口流量、接口错误包
VPN
提供远程windows和linux系统的VPN接入服务,基于SSL协议。
模块包含VPN接入服务端和证书经管两部分。
FireWall
包过滤防火墙模块,根据数据包的源和目的IP地址、IP协议、源和目的端口对进出系统、VPN隧道的数据包进行控制。
URL
监控指定的URL,支持虚拟主机、用户认证、SSL,访问延时、内容匹配、页面文件大小检查、页面文件修改时间检查
UPS
监控UPS容量、温度、输入电压、输入频率、输出电压、输出频率、输出负载、输出电流
WindowsIISserver
监控WindowsIIS服务所有或者指定虚拟主机的接收和发送流量、总流量、当前总并发连接数、最大并发连接数、当前非匿名用户并发连接数、每秒GET请求、每秒POST请求、NotFound错误的总数
WindowsMediaserver
监控WindowsMedia服务当前总并发连接数
WindowsSQLServer
GeneralStatistics对象UserConnections计数器探测:
当前与SQLServer连接的用户数。
Transactions对象Transactions计数器探测:
监视数据库引擎实例中每秒产生新的事务的数量
MemoryManager对象MemoryGrantsPending计数器探测:
监视等待工作空间内存授权的进程总数
Databases对象PercentLogUsed计数器探测:
监视日志中已用空间所占的百分比
Databases对象LogGrowths计数器探测:
监视数据库事务日志增长的总次数
Locks对象LockWaitTime(ms)计数器探测:
锁在最后一秒内的总等待时间(毫秒)。
Locks对象LockWaits/sec计数器探测:
每秒要求调用者等待的锁请求数
Locks对象NumberofDeadlocks/sec计数器探测:
每秒导致死锁的锁请求数
Latches对象LatchWaits/sec计数器探测:
未能立即授予的闩锁请求数
AccessMethods对象FullScans/sec计数器探测:
每秒不受限制的完全扫描数。
这些扫描可以是基表扫描,也可以是全文索引扫描
BufferManager对象BufferCacheHitRatio计数器探测:
在缓冲区高速缓存中找到而不需要从磁盘中读取的页的百分比。
该比率是缓存命中总次数与过去几千页访问以来的缓存查找总次数之比。
经过很长时间后,该比率的变化很小。
由于从缓存中读取数据比从磁盘中读取数据的开销小得多,一般希望该比率高一些。
通常,可以通过增加SQLServer的可用内存量来提高缓冲区高速缓存命中率
WindowsExchangeServer
MailboxSendQueueSize探测:
指示邮箱存储的发送队列中的邮件数。
*发送队列大小应始终小于500。
MailboxReceiveQueueSize探测:
指示邮箱存储的接收队列中的邮件数。
*接收队列大小应始终小于500。
PublicSendQueueSize探测:
指示公用文件夹的发送队列中的邮件数。
*在没有已启用邮件的公用文件夹的服务器中,该值应低于10。
否则,应始终低于500。
PublicReceiveQueueSize探测:
指示公用文件夹的接收队列中的邮件数。
*它应始终低于500。
WorkQueueLength探测:
工作队列中未完成的邮件数。
它表示还没有被MTA处理完的邮件数。
Mysqlserver
Mysql服务接收和发送流量
每个探测周期,触发的连接数,触发的createdb命令、dropdb命令、select命令、insert命令、update命令、delete命令次数
由于客户端的异常中断产生的失败连接数、失败的尝试连接次数、从服务器启动开始到目前为止的最大连接数、Select指令造成数据库需要进行多个数据表进行Join操作的次数
WindowsTerminalserver
Windows终端服务当前总会话数、活动的会话数、非活动会话数
WindowsProcesses
Windows操作系统当前运行进程、指定进程运行的数目
WindowsServices
Windows操作系统当前运行的服务
Citrixserver
Citrix服务当前总并发连接数
IPMI
针对支持IPMI的服务器。
在服务器的BIOS里设置IPMI支持后,实现对风扇转速、温度、CMOS电池容量等监控(不需服务器上安装的操作系统支持)
Dell服务器
针对dell服务器,在服务器操作系统上增加Openmanager支持,通过SNMP实现对风扇转速、温度、磁盘状态、服务器总运行状态的监控
文件防篡改
针对windows和linux操作系统的目录和文件探测:
目录文件增加和删除、目录文件内容修改、文件内容修改
环境监控
结合LTM8950(D)以太网温湿度传感器,监控特定地点的温度和湿度。
2.2.3功能特点
1)网络线路监控经管
监控企业上网线路、DDN和VPN专网的流量、延时、丢包率等情况,提前发现线路问题,及时定位引起问题的原因和对异常情况进行处理。
网络经管员通过线路流量性能报告、丢包率和延时报告以及网络设备端口错误包情况等指标来评估线路带宽使用率、质量等,同时可以预先了解企业对线路带宽的整体需求,规划额外的容量。
线路延时和丢包历史曲线图
2)网络设备监控经管
监控和经管Cisco/Juniper/Fortinet/Watchguard/Sonicwall/H3C/HUAWEI/联想网御/天融信/深信服/安达通等著名品牌的路由器、交换机和防火墙网络设备,包括设备接口流量、接口错误包等性能指标,设备CPU负载、内存使用量、并发会话数等运行状态参数。
网络经管员能通过对网络设备的监控可提前预知网络设备潜在的故障或者异常流量对设备造成的影响,提前发现问题,及时定位引起问题的原因和对异常情况进行处理,避免故障的发生或将影响减少到最低。
网络设备监控内容列表
Cisco路由器、Junpier防火墙等
Cisco、H3C交换机设备等
3)服务器监控经管
硬件状态监控:
监控和经管IBM、DELL、HP、SUN、联想、浪潮、方正、同方等服务器的硬件状态,,如风扇转速、温度、电压和CMOS电池容量等(需服务器支持IPMI),并实现远程开关机。
性能监控:
无论服务器上运行的是Unix、Linux或Windows操作系统,都可以监控服务器上的CPU负载、内存和磁盘使用量,网络接口流量、接口错误包等性能指标和运行状态参数。
应用服务监控:
对服务器上运行的HTTP、HTTPS、FTP、Telnet、FTP、ICMP、IMAP、Mysql、Pop3、SMTP和任意TCP端口上的应用服务进行监控,通过服务器的响应速度来提前预知服务异常和可能存在攻击。
目录及文件监控:
通过独创的目录、文件内容检查技术,确保服务器上的如web网站的内容等在受到黑客威胁,文件内容被修改、增加文件或者删除文件时能迅速通知经管员,让经管员能及时处理,避免造成跟企业声誉等有关的影响。
针对windows服务器的监控:
通过对WMI的支持,可监控windows服务器的事件日志、MSExchangeServer、SQLServer、LDAP、IIS、MediaServer、TerminalServer等服务的可用性。
应用服务监控列表
应用服务响应速度历史曲线
IBM、DELL、HP、联想、浪潮、方正等服务器
4)Web网站监控
对企业关键应用WEB网站,通过URL探测对页面的内容匹配、页面文件大小检查、页面文件修改时间检查的技术手段,并通过特有的目录、文件检查技术,确保web网站受到黑客威胁,文件内容被修改、增加文件或者删除文件时能迅速通知经管员。
5)UPS监控
通过SNMP协议监控UPS的容量、温度、输入电压、输入频率、输出电压、输出频率、输出负载、输出电流等。
(需要UPS支持SNMP)
UPS不间断电源
6)环境监控
通过将专门的FS环境温湿度监测器安装在机房或者其他需要实时监控环境温度和湿度的地方,用网线将检测器连接到网络中,通过特有的协议实现网管系统获得机柜、计算机机房及数据中心的环境温度、湿度等的监控。
2.2.4网络流量性能分析和故障诊断
通过抓取内部网络访问互联网的流量(或者特定的流量,如总部到分支的专线的流量),可以监控网络出口总流量和整体IP协议分布情况,每台计算机整体流量统计情况、当前占用带宽的情况、访问应用协议的情况、当前会话情况等等,发现网络内存在的arp欺骗问题、攻击和被攻击问题、发现可能有蠕虫病毒的计算机、发现使用bt或者其他工具进行大量下载和上传而影响网络其他用户正常使用互联网的计算机等。
同时,如果内部交换机支持,还可以监控内部网络计算机之间、计算机和服务器之间的流量。
网络整体流量
各计算机实时占用带宽情况
计算机当前会话情况
1)告警经管
“网络预警”系统通过事前的运维经管,主动反映网络故障隐患,让经管员对网络和服务器的经管工作由被动经管变为主动经管,真正实现无人值守的网络运维经管。
系统支持多种报警方式,包括图形界面、声音、电子邮件、手机短信等,主动告知网络经管员网络中可能存在的故障隐患点,实现网络的无人值守。
经管员可以自行设定对不同目标的监控设定相应的告警方式,并且可以设定不同目标的告警信息通知到不同的联系人,设定发送通知的时间等。
高度汇总的告警信息页面
2)故障经管
系统支持对特定监控目标在某时间段内暂停监控,比如设备和服务器维护时间,或者停止对目标的监控,停止发送报警通知信息,对故障进行确认操作和添加注释到知识库等。
系统具备智能报警判断技术,能根据所有监控目标的总的健康度来智能的确定报警通知是否发送,确保报警的准确性。
3)自设动作
系统具有强大的网管功能。
对网络设备、服务器及关键应用服务的监控,经管员能进行自设在发现故障时执行的动作。
包括在网络设备上执行任何命令,比如关闭网络端口、改变路由等;在服务器上重启关键应用服务,甚至是关闭或者重启服务器等。
4)自定义监控拓扑图
系统同时支持自动生成和自定义监控网络拓扑图。
可以导入区域地图、网络拓扑图甚至是真实的机房、机柜、网络设备面板等图片,可将监控目标的故障直观的展示在拓扑图中。
并且可以通过多级网络拓扑图来体现多区域网络。
企业网络区域监控图
企业总公司网络监控图
机柜监控图
5)系统经管
全中文web经管方式,支持从任何地方访问经管,智能式向导配置,更易于使用和符合国内网络经管人员使用习惯。
独创“远程协助”功能,轻松获取专业技术服务。
具有细致的帐号权限经管能力,IDC服务提供商可以通过运营商系列产品,为大量用户提供增值业务。
系统支持自动升级或者Web方式手动升级,可将配置和历史数据进行备份,用于永久保留。
6)大规模部署
运营商系列产品通过专门设计的硬件和经过优化的操作系统、监控系统高度集成,支持分布式部署和集群部署,在支持大容量监控目标前提下具有最高的稳定可靠性。
7)历史报告
系统提供详尽的报警记录和通知信息发送记录,并且提供详尽的性能曲线、可用性趋势图和分析表,报警柱状图和分析表等。
3、系统优势
“网络预警”系统主要优势为:
1.专业硬件系统,没有纯软件产品的部署和维护烦恼
2.性价比高,比市面上同类产品价格低50%以上
3.基于稳定可靠的Linux操作系统,性能优越,运行更稳定,最多能监控上万个服务
4.全中文web经管方式,智能式向导配置,更易于使用和符合国内网络经管人员使用习惯
5.远程经管,随时随地查看网络运行情况
6.支持手机短信、邮件、声音和图像报警及自定制报警方式
7.细致帐号权限经管功能,适合运营商为用户提供增值服务
8.集网络设备、服务器、应用系统监控经管、机房环境监控、内网流量分析经管、网络日志服务器、VPN功能于一身,不需单独投资各个系统
9.全面支持SNMPv1,v2,v3、IPMI(注1)、WMI协议(注2)以及特定的FS协议;
10.特有服务器目录和文件监控技术
11.特有自设动作网管功能,可在网络设备、服务器上执行指定操作
12.具备智能报警判断技术,报警信息及时精确
13.超强数据引擎,监控历史记录、性能曲线、报表等非常详尽,可查询10年或更长时间监控记录
14.独创远程协助功能,轻松获取专业技术服务
15.对不同用户需求可提供差异化的一对一服务
名词解释:
1、IPMI:
IPMI(IntelligentPlatformManagementInterface)即智能平台经管接口是英特尔等公司提出的,HP、Dell、NEC等业界巨头共同参与研发,使硬件经管具备“智能”的新一代通用接口规范。
用户可以利用IPMI监视服务器的物理特征,如各部件的温度、电压、电扇工作状态、电源供应以及机箱入侵等。
IPMI最大的优势在于它是独立于CPU、BIOS和OS的,所以用户无论在开机还是关机的状态下,只要接通电源就可以实现对服务器的监控。
2、WMI:
WMI是一项核心的Windows经管技术,WMI作为一种规范和基础结构,通过它可以访问、配置、经管和监视几乎所有的Windows资源,比如用户可以在远程计算机器上启动一个进程;设定一个在特定日期和时间运行的进程;远程启动计算机;获得本地或远程计算机的已安装程序列表;查询本地或远程计算机的Windows事件日志等等。
4、重点案例
4.1企业案例
企业案例1:
美联物业代理(深圳)有限公司总部在深圳,深圳、北京、上海、广州都有分公司,各分公司所属区域都有大量的分店。
公司应用系统服务器分布在总部和各分公司的信息中心,总部、分公司和分店通过VPN设备组成虚拟专网。
美联物业为地产中介服务型公司,其业务对网络信息化依赖程度非常高,对于可能出现的网络、服务器及关键应用服务故障,要求能预知或及时发现,迅速处理,将故障对业务的影响减少到最低。
Michal是公司总部的网络主管,负责经管和维护整个公司的信息网络。
由于VPN设备故障或者Internet线路的原因,门店到分公司、分公司到总部的网络经常会出现丢包、延时大甚至是中断等故障。
Michal下属有多个网管,每天都忙于接听报障电话,为定位和排除各种故障弄得焦头烂额。
Michal也经常被上级埋怨处理问题的时间长,对业务影响大。
Michal觉得自己无法掌握网络的状况,时刻担心有故障发生而不能提前或者及时发现,影响公司业务,造成巨大经济损失。
Michal经过详细调研后,确定使用网络预警产品。
他将网络预警系统部署在总部信息中心,实现了对整个VPN专网、所有网络设备、所有服务器以及服务器上运行的的所有关键应用服务进行了监控,被动局面完全被扭转。
事件一:
值班人员通过监控室上的监控屏幕得到了预警通知,总部连接互联网的专线有丢包,延时也突然增大。
Michal正在在家里休息,手机收到了上面事件的预警短信。
他马上通过电话让值班人员联系电信运营商检查上网专线。
很快,问题解决了,公司业务没有受到任何影响。
上级见到Michal的针对此事的简报后,对他的工作和对问题的相应速度赞不绝口。
事件二:
Michal中午正在外面用餐,手机收到一条预警短信,提示深圳地区一分店VPN设备的流量和并发数目异常,超出设定的阀值。
5分钟后,同事Andy给Michal来电话,称发现分店里面有一台文员使用的计算机感染了蠕虫病毒,对网络造成了影响,问题已经处理完成。
这时,Michal的手机又响了,监控系统发来一个通知短信,提示故障已经恢复。
Michal微笑继续享受香浓的咖啡。
企业案例2:
同洲集团下属子公司龙视传媒,主要面向国外华人提供IPTV业务。
运营所使用的服务器托管在经营业务的各个国家的IDC机房。
节目制作中心在深圳总部,通过DDN专线跟各国托管的服务器进行互联,传输制作好的节目到运营服务器上。
1.对总部和国外机房里的所有服务器的硬件状态进行监控,包括风扇转速、电源电压、温度等,当出现紧急状况是,网管系统可以自动关闭运行异常的服务器;
2.对所有服务器的CPU负载、内存