运维管理系统需求说明书Word文档下载推荐.docx
《运维管理系统需求说明书Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《运维管理系统需求说明书Word文档下载推荐.docx(31页珍藏版)》请在冰豆网上搜索。
大表数据量
alert文件报错
job失败
编译失败。
性能优化:
把上面的指标综合一下;
虚拟机和服务整体预警:
汇总超过阀值的指标。
2.1业务需求
2.1.1数据管理
1.功能描述
该模块用于收集系统所需的数据。
数据,一般是指位于设备上的数据,比如位于服务器操作系统上的文件。
数据定义:
定义需要收集的数据类型。
认证管理:
为了访问受管设备或资源,一般是需要认证的,比如用户名、密码
数据路径:
定义该数据所在的路径,以确保程序可以找到所需的数据。
该路径,是作为抓取程序的输入参数使用。
资料库管理:
定义资料库位置,收集的数据先放到磁盘上,然后再解析入数据库,在数据库里存放引用关系。
解析入库:
对于存放在资料库里指定目录的文件,解析文件,进入数据库,该解析过程通常由调度程序发起调用,也可以手工发起。
2.业务处理流程
总体的步骤如下图所示:
抓取服务,是通过网络读取文件的过程;
存储服务,是往指定的磁盘目录存放文件的过程;
解析入库,是解析指定目录的磁盘文件,将数据保存进数据库的过程;
数据应用,是对数据库中的文件查询和统计。
3.界面展现及输入输出
认证管理:
主机名称
用途
资源类型
认证方式
用户名
密码
haltpxzgqdyy01
征管前端应用
虚拟机(OLE5.9)
密码,ssh
root
ovsroot
haltpxzgmhweb01
工作门户
BS设计
haltpxzgapp01
征管核心
定时任务
受管主机文件路径管理:
文件标记
文件名和路径
主机hostname
主机IP
文件属性
UUID
/proc/cupinfo
147.12.184.11
文本文件
/sys/config/network
调度路线:
调度名称
调度文件
调度方式
GetHaltElX3-2
周期性自动调用
这里的调度文件,引用“受管主机文件路径管理”中定义的文件。
资料库文件路径管理:
资料库
源文件和路径
是否已入库
[日期]/proc/cupinfo
已解析入库
[日期]/sys/config/network
/data/20141120/proc/cpuinfo
解析管理:
是否已解析
解析时间
是否有异常
入库位置
4.相关表操作
5.特殊要求说明
2.1.2资源监控
资源分类定义:
要管理的资源是多种多样的,比如:
虚拟机、防火墙、交换机、中间件、数据库、应用程序等等。
资源属性定义:
资源的属性,是和具体的资源分类相关的,比如,资源类型为虚拟机的资源属性有:
是否启动、OS版本、cpu信息、内存信息、存储信息、hostname、ip地址等等;
资源类型为中间件的资源属性有:
是否启动、是否有异常报错、占用内存数量、连接池数量等等。
指令管理:
对资源的探测、查询是需要OS级或网络级指令的,或者需要产品接口,这里定义这些指令。
资源要先定义后使用,先定义类型,再定义属性
虚拟机的可用性,用ping和ssh来探测,算法是先ping,再ssh探测,都通的,认为可用性正常。
虚拟机的配置,读取文件/proc/cpus
资源定义:
暂时先留着
虚拟机可用性展示:
条件:
时间:
当前(默认),取样时刻列表
IP地址
所在位置
可用性
ELX3-2
147.12.184.12
147.12.184.13
数据来源:
这是一个字典表,需要先录入(增、删、改),"
可用性"
是用ping和ssh进行探测得到的结果。
可用的定义:
ping成功andssh成功
不可用定义:
ssh失败(timeout(20S)orconnectionrefused)
虚拟机配置展示:
CPU
内存
交换分区
空间
4C
16G
df-h
数据来源:
1.前三列字段,取上图录入过的数据
2.cpu的获取命令:
(linux)
grep'
processor'
/proc/cpuinfo|sort-u|wc-l
[root@localhost~]#grep'
2
3.内存和交换分区大小的获取命令:
cat/proc/meminfo
取MemTotal的值
取SwapTotal
[root@localhost~]#cat/proc/meminfo
MemTotal:
12330652kB
MemFree:
1029984kB
Buffers:
297228kB
Cached:
10298352kB
SwapCached:
0kB
Active:
8830664kB
Inactive:
2045620kB
Active(anon):
5379076kB
Inactive(anon):
1173052kB
Active(file):
3451588kB
Inactive(file):
872568kB
Unevictable:
Mlocked:
SwapTotal:
10239992kB
SwapFree:
Dirty:
28kB
Writeback:
AnonPages:
280696kB
Mapped:
4763068kB
Shmem:
6271432kB
Slab:
234100kB
SReclaimable:
198384kB
SUnreclaim:
35716kB
KernelStack:
2248kB
PageTables:
81376kB
NFS_Unstable:
Bounce:
WritebackTmp:
CommitLimit:
16405316kB
Committed_AS:
7459572kB
VmallocTotal:
34359738367kB
VmallocUsed:
305100kB
VmallocChunk:
34359429916kB
HardwareCorrupted:
AnonHugePages:
75776kB
HugePages_Total:
0
HugePages_Free:
HugePages_Rsvd:
HugePages_Surp:
Hugepagesize:
2048kB
DirectMap4k:
10240kB
DirectMap2M:
12572672kB
[root@localhost~]#
空间列,显示df-h的信息
[root@localhost~]#df-h
FilesystemSizeUsedAvailUse%Mountedon
/dev/mapper/VolGroup-LogVol0149G11G36G23%/
tmpfs12G6.0G6.1G50%/dev/shm
/dev/sda1194M35M150M19%/boot
/dev/mapper/VolGroup-LogVol02238G18G208G8%/u01
存储空间展示:
(先不做)
存储分区
限额
已用空间
已用占比
被挂载的虚拟机
/export/chinasoft/ycs
400G
200G
50%
/export/digitalchina/ycs
300G
66%
/export/zc/ycs
150G
75%
该表与上表类似,从存储角度说明一个分区的挂载情况,这里是指共享存储。
进程展示:
(当用户发起查看请求时获取,暂时不存放历史数据,暂时可以不放数据库中)
UID
所在主机
PID
描述文本
weblogic
2157
apache
24532
22312
ps-ef的文本
[root@localhost~]#ps-ef
UIDPIDPPIDCSTIMETTYTIMECMD
root100Sep28?
00:
03:
39/sbin/init
root200Sep28?
00:
00[kthreadd]
root320Sep28?
02[migration/0]
root420Sep28?
01:
13[ksoftirqd/0]
root520Sep28?
00[migration/0]
root620Sep28?
11[watchdog/0]
进程名称:
UID
描述文本:
CMD
2.1.3性能管理
性能分类定义:
硬件性能、OS性能、网络性能、存储性能、中间件性能、数据库性能
整体的思路是:
1周期性向所有受控机器发送OS命令,执行后获得命令的输出;
2.解析存放到数据库中;
3.然后是相应的统计查询。
执行的命令是:
top
查看进程活动状态以及一些系统状况
vmstat
查看系统状态、硬件和系统信息等
iostat
查看CPU负载,硬盘状况
sar
综合工具,查看系统状况
mpstat
查看多处理器状况
netstat
查看网络状况
iptraf
实时网络状况监测
tcpdump
抓取网络数据包,详细分析
mpstat
tcptrace
数据包分析工具
netperf
网络带宽工具
dstat
综合工具,综合了vmstat,iostat,ifstat,netstat等多个信息
2.1.4故障管理
2.1.5调度管理
类似于操作系统的计划任务,这里管理服务的调度情况。
调度,为了性能上的考虑,目前可采用多线程调度,将来会支持分布式调度。
调度的内容是:
第一:
OS命令
第二:
要执行的主机列表
第三:
时间周期
2.1.6操作管理
数据库运行监控
1.概况:
查询条件:
关键字(按主机、实例名、ip等查询)
(显示结果:
)
说明:
上图中,第一行,"
数据库实例"
修改为数据库实例:
XXX,所做主机hostname:
XXX,IP地址:
XXX
第二行,主目录。
。
等等去掉这行
SQL相应时间,这块去掉。
注意:
因为有多个实例,这里显示的是查询出来指定的一个。
初始化进入页面,取一个核心的数据库,这个是要定义的。
2.实例和监听器状态:
实例名称
所在主机hostname
orcl
hadszzzd
qypt
..
...
3.集群状态:
集群XXX:
Name
Type
Target
State
Host
ora....B1.instapplication
ONLINE
rac1
ora....B2.instapplication
rac2
ora.RACDB.db
application
ora....DB1.srvapplication
ora....DB2.srvapplication
ora.....taf.csapplication
ora....SM1.asmapplication
ora....C1.lsnrapplication
ora.rac1.gsd
ora.rac1.ons
ora.rac1.vip
ora....SM2.asmapplication
ora....C2.lsnrapplication
ora.rac2.gsd
ora.rac2.ons
ora.rac2.vip
4.压力状况:
2015年1月15日,数据库实例:
时间
平均活动会话数
日志切换次数
磁盘IO数
平均cpu占比
10:
00
10
20
30
40
有几个实例显示几个。
5.参数情况:
把上面的一些图标去掉:
第一行:
显示SQL、还原、应用,去掉这行
第二行:
当前、SPFILE去掉
保存到文件等等,都去掉。
6归档情况
所在主机和IP
归档模式
归档目录
最早日志序号
当前日志序号
7rman备份情况
备份方式
备份结果
备份历史
备份大小
备份速度
实现情况参考:
8.表空间使用情况
实例XXX,所在主机hotsname:
xxx
说明:
这个表是个大列表,有10个实例,显示10个上图的列表。
数据文件状态:
这个表是点上面的表空间钻取过来的表,增加一列,“自动扩展”
9.性能不良的SQL:
时间起止:
主机:
实例名:
用户名:
序号
用户
SQL语句
平均执行时间
最长执行时间
最短执行时间
执行次数
1
3
4
5
10.未使用的索引:
索引名称
索引语句
所在的表
11.大表数据量分布:
表名
数据量
是否分区表
12预警中心
预警类别
预警信息
预警时间
操作系统运行监控
1.操作系统可用性
关键字:
2.压力情况
主机名
cpu平均运行队列数
cpu平均阻塞进程数
Cpu平均使用率
Cpu最大/最小使用率
平均内存剩余
内存最大/最小剩余
平均内存剩余率
IOPS平均值
IOPS最大/最小值
3.空间使用情况
文件系统名称:
(显示结