运维管理系统需求说明书Word文档下载推荐.docx
《运维管理系统需求说明书Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《运维管理系统需求说明书Word文档下载推荐.docx(29页珍藏版)》请在冰豆网上搜索。
性能优化:
把上面的指标综合一下;
虚拟机和服务整体预警:
汇总超过阀值的指标.
1业务需求
2.1。
1数据管理
1.功能描述
该模块用于收集系统所需的数据。
数据,一般是指位于设备上的数据,比如位于服务器操作系统上的文件.
数据定义:
定义需要收集的数据类型。
认证管理:
为了访问受管设备或资源,一般是需要认证的,比如用户名、密码
数据路径:
定义该数据所在的路径,以确保程序可以找到所需的数据。
该路径,是作为抓取程序的输入参数使用。
资料库管理:
定义资料库位置,收集的数据先放到磁盘上,然后再解析入数据库,在数据库里存放引用关系。
解析入库:
对于存放在资料库里指定目录的文件,解析文件,进入数据库,该解析过程通常由调度程序发起调用,也可以手工发起。
业务处理流程
总体的步骤如下图所示:
抓取服务,是通过网络读取文件的过程;
存储服务,是往指定的磁盘目录存放文件的过程;
解析入库,是解析指定目录的磁盘文件,将数据保存进数据库的过程;
数据应用,是对数据库中的文件查询和统计。
3。
界面展现及输入输出
认证管理:
主机名称
用途
资源类型
认证方式
用户名
密码
haltpxzgqdyy01
征管前端应用
虚拟机(OLE5.9)
密码,ssh
root
ovsroot
haltpxzgmhweb01
工作门户
BS设计
密码,ssh
haltpxzgapp01
征管核心
定时任务
受管主机文件路径管理:
文件标记
文件名和路径
主机hostname
主机IP
文件属性
UUID
/proc/cupinfo
147。
12。
184。
11
文本文件
/sys/config/network
12.184。
147.12.184.11
调度路线:
调度名称
调度文件
调度方式
GetHaltElX3—2
周期性自动调用
GetHaltElX3-2
这里的调度文件,引用“受管主机文件路径管理”中定义的文件.
资料库文件路径管理:
资料库
源文件和路径
是否已入库
[日期]/proc/cupinfo
已解析入库
[日期]/sys/config/network
/data/20141120/proc/cpuinfo
解析管理:
是否已解析
解析时间
是否有异常
入库位置
[日期]/proc/cupinfo
[日期]/sys/config/network
4.相关表操作
5。
特殊要求说明
2资源监控
资源分类定义:
要管理的资源是多种多样的,比如:
虚拟机、防火墙、交换机、中间件、数据库、应用程序等等。
资源属性定义:
资源的属性,是和具体的资源分类相关的,比如,资源类型为虚拟机的资源属性有:
是否启动、OS版本、cpu信息、内存信息、存储信息、hostname、ip地址等等;
资源类型为中间件的资源属性有:
是否启动、是否有异常报错、占用内存数量、连接池数量等等.
指令管理:
对资源的探测、查询是需要OS级或网络级指令的,或者需要产品接口,这里定义这些指令。
2.业务处理流程
资源要先定义后使用,先定义类型,再定义属性
虚拟机的可用性,用ping和ssh来探测,算法是先ping,再ssh探测,都通的,认为可用性正常。
虚拟机的配置,读取文件/proc/cpus
资源定义:
暂时先留着
虚拟机可用性展示:
条件:
时间:
当前(默认),取样时刻列表
IP地址
所在位置
可用性
12.184.11
ELX3—2
184.12
虚拟机(OLE5。
9)
147.12.184。
13
数据来源:
这是一个字典表,需要先录入(增、删、改),"
可用性”是用ping和ssh进行探测得到的结果。
可用的定义:
ping成功andssh成功
不可用定义:
ssh失败(timeout(20S)orconnectionrefused)
虚拟机配置展示:
CPU
内存
交换分区
空间
4C
16G
df—h
df-h
数据来源:
前三列字段,取上图录入过的数据
2.cpu的获取命令:
(linux)
grep’processor'
/proc/cpuinfo|sort—u|wc—l
[root@localhost~]#grep'
processor’/proc/cpuinfo|sort-u|wc-l
2
内存和交换分区大小的获取命令:
cat/proc/meminfo
取MemTotal的值
取SwapTotal
[root@localhost~]#cat/proc/meminfo
MemTotal:
12330652kB
MemFree:
1029984kB
Buffers:
297228kB
Cached:
10298352kB
SwapCached:
0kB
Active:
8830664kB
Inactive:
2045620kB
Active(anon):
5379076kB
Inactive(anon):
1173052kB
Active(file):
3451588kB
Inactive(file):
872568kB
Unevictable:
Mlocked:
SwapTotal:
10239992kB
SwapFree:
Dirty:
28kB
Writeback:
AnonPages:
280696kB
Mapped:
4763068kB
Shmem:
6271432kB
Slab:
234100kB
SReclaimable:
198384kB
SUnreclaim:
35716kB
KernelStack:
2248kB
PageTables:
81376kB
NFS_Unstable:
Bounce:
WritebackTmp:
CommitLimit:
16405316kB
Committed_AS:
7459572kB
VmallocTotal:
34359738367kB
VmallocUsed:
305100kB
VmallocChunk:
34359429916kB
HardwareCorrupted:
AnonHugePages:
75776kB
HugePages_Total:
0
HugePages_Free:
HugePages_Rsvd:
HugePages_Surp:
Hugepagesize:
2048kB
DirectMap4k:
10240kB
DirectMap2M:
12572672kB
[root@localhost~]#
空间列,显示df—h的信息
[root@localhost~]#df-h
FilesystemSizeUsedAvailUse%Mountedon
/dev/mapper/VolGroup—LogVol0149G11G36G23%/
tmpfs12G6。
0G6。
1G50%/dev/shm
/dev/sda1194M35M150M19%/boot
/dev/mapper/VolGroup-LogVol02238G18G208G8%/u01
存储空间展示:
(先不做)
存储分区
限额
已用空间
已用占比
被挂载的虚拟机
/export/chinasoft/ycs
400G
200G
50%
/export/digitalchina/ycs
300G
66%
/export/zc/ycs
150G
75%
该表与上表类似,从存储角度说明一个分区的挂载情况,这里是指共享存储。
进程展示:
(当用户发起查看请求时获取,暂时不存放历史数据,暂时可以不放数据库中)
UID
所在主机
PID
描述文本
weblogic
2157
apache
24532
22312
ps—ef的文本
[root@localhost~]#ps—ef
UIDPIDPPIDCSTIMETTYTIMECMD
root100Sep28?
00:
03:
39/sbin/init
root200Sep28?
00:
00:
00[kthreadd]
root320Sep28?
02[migration/0]
root420Sep28?
01:
13[ksoftirqd/0]
root520Sep28?
00:
00[migration/0]
root620Sep28?
11[watchdog/0]
进程名称:
UID
描述文本:
CMD
4。
相关表操作
5.特殊要求说明
1.3性能管理
功能描述
性能分类定义:
硬件性能、OS性能、网络性能、存储性能、中间件性能、数据库性能
整体的思路是:
1周期性向所有受控机器发送OS命令,执行后获得命令的输出;
解析存放到数据库中;
3.然后是相应的统计查询。
执行的命令是:
top
查看进程活动状态以及一些系统状况
vmstat
查看系统状态、硬件和系统信息等
iostat
查看CPU负载,硬盘状况
sar
综合工具,查看系统状况
mpstat
查看多处理器状况
netstat
查看网络状况
iptraf
实时网络状况监测
tcpdump
抓取网络数据包,详细分析
mpstat
tcptrace
数据包分析工具
netperf
网络带宽工具
dstat
综合工具,综合了vmstat,iostat,ifstat,netstat等多个信息
3.界面展现及输入输出
2.1.4故障管理
5调度管理
类似于操作系统的计划任务,这里管理服务的调度情况。
调度,为了性能上的考虑,目前可采用多线程调度,将来会支持分布式调度.
调度的内容是:
第一:
OS命令
第二:
要执行的主机列表
第三:
时间周期
1.6操作管理
数据库运行监控
1.概况:
查询条件:
关键字(按主机、实例名、ip等查询)
(显示结果:
)
说明:
上图中,第一行,"
数据库实例”修改为数据库实例:
XXX,所做主机hostname:
XXX,IP地址:
XXX
第二行,主目录。
.。
等等去掉这行
SQL相应时间,这块去掉.
注意:
因为有多个实例,这里显示的是查询出来指定的一个.初始化进入页面,取一个核心的数据库,这个是要定义的。
2.实例和监听器状态:
实例名称
所在主机hostname
orcl
hadszzzd
qypt
..
...
。
3.集群状态:
集群XXX:
Name
Type
Target
State
Host
ora....B1。
instapplication
ONLINE
rac1
ora.。
B2.instapplication
rac2
ora。
RACDB。
db
application
..。
DB1。
srvapplication
..DB2。
ora..。
.taf.csapplication
ora....SM1.asmapplication
...C1。
lsnrapplication
ora.rac1.gsd
rac1.ons
ora.rac1。
vip
ora....SM2。
asmapplication
C2.lsnrapplication
rac2。
gsd
ons
ora.rac2。
4.压力状况:
2015年1月15日,数据库实例:
XXX,IP地址:
时间
平均活动会话数
日志切换次数
磁盘IO数
平均cpu占比
10:
00
10:
10
20
30
40
有几个实例显示几个.
5.参数情况:
把上面的一些图标去掉:
第一行:
显示SQL、还原、应用,去掉这行
第二行:
当前、SPFILE去掉
保存到文件等等,都去掉.
6归档情况
所在主机和IP
归档模式
归档目录
最早日志序号
当前日志序号
.
7rman备份情况
备份方式
备份结果
备份历史
备份大小
备份速度
实现情况参考:
http:
//
8。
表空间使用情况
实例XXX,所在主机hotsname:
xxx
这个表是个大列表,有10个实例,显示10个上图的列表。
数据文件状态:
这个表是点上面的表空间钻取过来的表,增加一列,“自动扩展"
9。
性能不良的SQL:
时间起止:
主机:
实例名:
用户名:
序号
用户
SQL语句
平均执行时间
最长执行时间
最短执行时间
执行次数
1
3
4
5
10.未使用的索引:
实例名:
索引名称
索引语句
所在的表
11.大表数据量分布:
主机:
用户名:
表名
数据量
是否分区表
12预警中心
预警类别
预警信息
预警时间
操作系统运行监控
1.操作系统可用性
查询条件:
关键字:
压力情况
主机名
cpu平均运行队列数
cpu平均阻塞进程数
Cpu平均使用率
Cpu最大/最小使用率
平均内存剩余
内存最大/最小剩余
平均内存剩余率
IOPS平均值
IOPS最大/最小值
文件系统名称:
(显示结果:
文件系统
未用空间
使用率