350 likes | 615 Views
Aleph 系统运行状态监控. 周磊 以色列艾利贝斯有限公司 北京代表处 2014 年 6 月. 提纲. 常用 unix 命令 Aleph 系统运行状态监控 常见问题处理 服务器日常维护. 提纲. 常用 unix 命令 Aleph 系统运行状态监控 常见问题处理 服务器日常维护. 常用 unix 命令. 操作系统相关 uname -a 操作系统版本 w 查看服务器登录信息和负荷 top 查看服务器运行状态 df -h 查看空间占用情况 du -sh 查看当前目录空间占用情况 ps -ef 查看进程
E N D
Aleph系统运行状态监控 周磊 以色列艾利贝斯有限公司北京代表处 2014年6月
提纲 • 常用unix命令 • Aleph系统运行状态监控 • 常见问题处理 • 服务器日常维护
提纲 • 常用unix命令 • Aleph系统运行状态监控 • 常见问题处理 • 服务器日常维护
常用unix命令 • 操作系统相关 • uname -a 操作系统版本 • w 查看服务器登录信息和负荷 • top 查看服务器运行状态 • df -h 查看空间占用情况 • du -sh 查看当前目录空间占用情况 • ps -ef 查看进程 • mpstat/prstat/iostat 查看cpu/进程/io情况
常用unix命令 • 文件处理 • cat 查看文件 • more 分屏查看文件 • head -n 查看文件的前n行 • tail -n 查看文件的后n行 • find 查找文件 • diff 对比两个文件/目录
常用unix命令 • 行编辑器 • cut -c10-15 截取第10-15字节 • grep 过滤出匹配上的行 • egrep 按正则表达式过滤出匹配上的行 • sed 行编辑器:过滤、替换、删除等 • wc -l 查看行数 • sort 排序 • uniq 去重
提纲 • 常用unix命令 • Aleph系统运行状态监控 • 常见问题处理 • 服务器日常维护
Aleph系统运行状态监控 • 查看license • 查看pc_server/www_server 运行状态 • 查看pc_server/www_server日志 • 查看apache日志 • 查看aleph常用进程 • 查看oracle表空间 • 常用日志文件
查看 license 使用情况 • util y 11 1
查看Aleph server • 监控 util w 1 1 端口 服务类型 启动时间 状态
查看Aleph server • 循环查看服务运行状态: • server_monitor -tl WWW/PC • ctrl c 中断
查看server日志 • cd $LOGDIR • more pc_server_6991.log
查看server日志 • 查出消耗时间超过10秒的进程。 • grep ELAPSED-TIME pc_server_6991.log
查看WWW Server日志 • cd $LOGDIR
查看apache日志 • apcl 直接进入apache目录。 • 查看某一天的日志 grep '26/Jun/2014' access_log |more grep '26/Jun/2014' access_log > access_log.20140626 • 查看某一天日志的行数 grep '26/Jun/2014' access_log |wc –l • 查看某一天访问最多的ip grep '26/Jun/2014' access_log | awk '{print $1}' | sort | uniq -c | sort -nr | head
查看aleph进程 • ps -fu aleph 以下为有效进程 pc_server www_server sip2_server ncip_server z39_server z39_gate ue_01 ue_11 ue_21 lib_batch jobd httpd java yaz
查看oracle表空间 • util o 14 8 • TSnD 数据 • TSnX 索引
提纲 • 常用unix命令 • Aleph系统运行状态监控 • 常见问题处理 • 服务器日常维护
查看访问服务器的IP • last |more
网络无法访问 • 测试网络访问是否正常 • Windows开始菜单,运行,输入cmd • telnet 服务器地址 端口号, • 如下图,端口都没开放,可能是网络问题,也可能是弄错了ip,或服务没启动 • 如果能链接上,会提示输入信息,可以用ctrl ] 再quit退出
服务器空间查看 • df -h • du -sh • linux下可以用ls -lS 来按文件大小排序
查看问题进程的方法 • 如果工作人员反映服务器响应慢 • 首先查看aleph服务状态(server_monitor),看是busy还是free • 用w 命令查看服务器负荷 • top/prstat命令查看最耗资源的进程 • ps -ef |grep 19725 • kill 19725
查看oracle进程对应的sql • 先用前面的方法找出问题进程,如果是oracle相关进程,可以查看这个进程对应的sql,如进程号为29425 • 具体查看 $lcl_proc/check_oracle_pid.sql
查看oracle锁死进程 • 问题:自定义批处理服务无结果,现象是tmptable表无法访问 sqlplus /nolog conn aleph_dba/aleph_dba as sysdba select b.sid||','||b.serial#,a.OBJECT_ID,a.ORACLE_USERNAME,a.OS_USER_NAME,a.PROCESS,a.LOCKED_MODE,b.process from v$locked_object a,v$session b where a.session_id = b.sid(+); alter system kill session '455,6930';
查看oracle进程数 • 问题:oracle进程/session数过多,无法登录 • 查看最大进程数定义 • 通过listener访问数据库的进程 ps -fu oracle |grep LOCAL |wc -l • 如有问题,可暂停/重启tomcat和sip2服务
提纲 • 常用unix命令 • Aleph系统运行状态监控 • 常见问题处理 • 服务器日常维护
系统日常维护 • 服务器维护 • 数据备份与数据安全 • Aleph应用状况
服务器日常维护 • 服务器硬件设备的维护 • 操作系统的维护 • 系统日志 • 服务补丁 • 运行状态 • 一些统计 • ……
数据库日常维护 • 数据库运行状态 • 警告日志 • 数据表空间 • 连接情况 • 检查数据文件状态 • 数据备份 • 控制文件备份 • 数据文件备份 : 建议至少每月检查一次 • 恢复测试 : 建议每年至少做两次恢复试验
Aleph的日常维护 • 进程管理 • license监控 • 服务日志、apache日志中的错误信息 • 定期作业是否正常完成 • 邮件通知是否正常 • 临时文件的清理 • 服务启停 • 系统监控日志
Aleph的日常维护 • 数据备份 • 参数表、应用程序的备份 • 不同服务器之间参数程序的同步 • 重建索引,建议每隔3-6个月,重建书目索引