DBA日常工作总结(转载)

时间：2010-09-16 来源：soaringdream

ORACLE数据库管理员应按如下方式对ORACLE数据库系统做定期监控：
　　(1). 每天对ORACLE数据库的运行状态,日志文件,备份情况,数据
　　
　　库的空间使用情况,系统资源的使用情况进行检查,发现并解决问题。
　　
　　(2). 每周对数据库对象的空间扩展情况,数据的增长情况进行监控,对数据库做健康检查,对数据库对象的状态做检查。
　　
　　(3). 每月对表和索引等进行Analyze,检查表空间碎片,寻找数据库性能调整的机会,进行数据库性能调整,提出下一步空间管理计划。对ORACLE数据库状态进行一次全面检查。
　　
　　每天的工作
　　
　　(1).确认所有的INSTANCE状态正常登陆到所有数据库或例程,检测ORACLE后台进程:
　　
　　$ps –ef|grep ora
　　
　　(2). 检查文件系统的使用（剩余空间）。如果文件系统的剩余空间小于20%，需删除不用的文件以释放空间。
　　
　　$df –k
　　
　　(3). 检查日志文件和trace文件记录alert和trace文件中的错误。
　　
　　连接到每个需管理的系统
　　
　　? 使用’telnet’
　　
　　? 对每个数据库,cd 到bdump目录,通常是$ORACLE_BASE/<SID>/bdump
　　
　　? 使用 Unix ‘tail’命令来查看alert_<SID>.log文件
　　
　　? 如果发现任何新的ORA- 错误,记录并解决
　　
　　(4). 检查数据库当日备份的有效性。
　　
　　对RMAN备份方式:
　　
　　检查第三方备份工具的备份日志以确定备份是否成功
　　
　　对EXPORT备份方式:
　　
　　检查exp日志文件以确定备份是否成功
　　
　　对其他备份方式:
　　
　　检查相应的日志文件
　　
　　(5). 检查数据文件的状态记录状态不是“online”的数据文件，并做恢复。
　　
　　Select file_name from dba_data_files where status=’OFFLINE’
　　
　　(6). 检查表空间的使用情况
　　
　　SELECT tablespace_name, max_m, count_blocks free_blk_cnt, sum_free_m,to_char(100*sum_free_m/sum_m, '99.99') || '%' AS pct_free
　　
　　FROM ( SELECT tablespace_name,sum(bytes)/1024/1024 AS sum_m FROM dba_data_files GROUP BY tablespace_name),
　　
　　( SELECT tablespace_name AS fs_ts_name, max(bytes)/1024/1024 AS max_m, count(blocks) AS count_blocks, sum(bytes/1024/1024) AS sum_free_m FROM dba_free_space GROUP BY tablespace_name )
　　
　　WHERE tablespace_name = fs_ts_name
　　
　　(7). 检查剩余表空间
　　
　　SELECT tablespace_name, sum ( blocks ) as free_blk ,
　　
　　trunc ( sum ( bytes ) /(1024*1024) ) as free_m,
　　
　　max ( bytes ) / (1024) as big_chunk_k, count (*) as num_chunks
　　
　　FROM dba_free_space GROUP BY tablespace_name;
　　
　　(8). 监控数据库性能
　　
　　运行 bstat/estat生成系统报告
　　
　　或者使用statspack收集统计数据
　　
　　(9). 检查数据库性能，记录数据库的cpu使用、IO、buffer命中率等等
　　
　　使用 vmstat,iostat,glance,top等命令
　　
　　(10). 日常出现问题的处理。
　　
　　每周的工作
　　
　　(1). 控数据库对象的空间扩展情况
　　
　　根据本周每天的检查情况找到空间扩展很快的数据库对象, 并采取相应的措施
　　
　　-- 删除历史数据
　　
　　--- 扩表空间
　　
　　alter tablespace <name> add datafile ‘<file>’ size <size>
　　
　　--- 调整数据对象的存储参数
　　
　　next extent
　　
　　pct_increase
　　
　　(2). 监控数据量的增长情况
　　
　　根据本周每天的检查情况找到记录数量增长很快的数据库对象,并采取相应的措施
　　
　　-- 删除历史数据
　　
　　--- 扩表空间
　　
　　alter tablespace <name> add datafile ‘<file>’ size <size>
　　
　　 (3). 系统健康检查
　　
　　检查以下内容:
　　
　　init<sid>.ora
　　
　　controlfile
　　
　　redo log file
　　
　　archiving
　　
　　sort area size
　　
　　tablespace(system,temporary,tablespace fragment)
　　
　　datafiles(autoextend,location)
　　
　　 object(number of extent,next extent,index)
　　
　　rollback segment
　　
　　logging &tracing(alert.log,max_dump_file_size,sqlnet)
　　
　　(4). 检查无效的数据库对象
　　
　　SELECT owner, object_name, object_type FROM dba_objects
　　
　　WHERE status=’INVALID’。
　　
　　(5). 检查不起作用的约束
　　
　　SELECT owner, constraint_name, table_name,
　　
　　constraint_type, status
　　
　　FROM dba_constraints
　　
　　 WHERE status = 'DISABLED’ AND constraint_type = 'P'
　　
　　(6). 检查无效的trigger
　　
　　SELECT owner, trigger_name, table_name, status
　　
　　FROM dba_triggers
　　
　　WHERE status = 'DISABLED’
　　
　　每月的工作
　　
　　(1). Analyze Tables/Indexes/Cluster
　　
　　 analyze table <name> estimate statistics sample 50 percent;
　　
　　(2). 检查表空间碎片
　　
　　根据本月每周的检查分析数据库碎片情况,找到相应的解决方法
　　
　　(3). 寻找数据库性能调整的机会
　　
　　比较每天对数据库性能的监控报告,确定是否有必要对数据库性能进行调整
　　
　　 (4). 数据库性能调整
　　
　　如有必要,进行性能调整
　　
　　(5). 提出下一步空间管理计划
　　
　　根据每周的监控,提出空间管理的改进方法
　　
　　Oracle DBA 日常管理
　　
　　目的：这篇文档有很详细的资料记录着对一个甚至更多的ORACLE 数据库每天的，每月的，每年的运行的状态的结果及检查的结果，在文档的附录中你将会看到所有检查，修改的SQL和PL/SQL 代码。
　　
　　一．日维护过程
　　A．查看所有的实例是否已起
　　
　　确定数据库是可用的，把每个实例写入日志并且运行日报告或是运行测试文件。当然有一些操作我们是希望它能自动运行的。
　　
　　可选择执行：用ORACLE 管理器中的‘PROBE’事件来查看
　　
　　B．查找新的警告日志文件
　　
　　1. 联接每一个操作管理系统
　　
　　2. 使用‘TELNET’或是可比较程序
　　
　　3. 对每一个管理实例，经常的执行$ORACLE_BASE/<SID>/bdump 操作，并使其能回退到控制数据库的SID。
　　
　　4. 在提示下，使用UNIX 中的‘TAIL’命令查看alert_<SID>.log，或是用其他方式检查文件中最近时期的警告日志
　　
　　5. 如果以前出现过的一些ORA_ERRORS 又出现，将它记录到数据库恢复日志中并且仔细的研究它们，这个数据库恢复日志在〈FILE〉中
　　
　　C．查看DBSNMP 的运行情况
　　
　　检查每个被管理机器的‘DBSNMP’进程并将它们记录到日志中。
　　
　　在UNIX 中，在命令行中，键入ps –ef | grep dbsnmp,将回看到2 个DBSNMP 进程在运行。如果没有，重启DBSNMP。
　　
　　D．查数据库备份是否成功
　　
　　E．检查备份的磁带文档是否成功
　　
　　F．检查对合理的性能来说是否有足够的资源
　　
　　1. 检查在表空间中有没有剩余空间。
　　
　　对每一个实例来说，检查在表空间中是否存在有剩余空间来满足当天的预期的需要。当数据库中已有的数据是稳定的，数据日增长的平均数也是可以计算出来，最小的剩余空间至少要能满足每天数据的增长。
　　
　　A）运行‘FREE.SQL’来检查表空间的剩余空间。
　　
　　B）运行‘SPACE.SQL’来检查表空间中的剩余空间百分率
　　
　　2. 检查回滚段
　　
　　回滚段的状态一般是在线的，除了一些为复杂工作准备的专用段，它一般状态是离线的。
　　
　　a) 每个数据库都有一个回滚段名字的列表。
　　
　　b) 你可以用V$ROLLSTAT 来查询在线或是离线的回滚段的现在状态.
　　
　　c) 对于所有回滚段的存储参数及名字，可用DBA_ROLLBACK_SEGS 来查询。但是它不如V$ROLLSTAT 准确。
　　
　　3. 识别出一些过分的增长
　　
　　查看数据库中超出资源或是增长速度过大的段，这些段的存储参数需要调整。
　　
　　a）收集日数据大小的信息，可以用‘ANALYZE5PCT.SQL’。如果你收集的是每晚的信息，则可跳过这一步。
　　
　　b）检查当前的范围，可用‘NR.EXTENTS.SQL’。
　　
　　c）查询当前表的大小信息。
　　
　　d）查询当前索引大小的信息。
　　
　　e）查询增长趋势。
　　
　　4. 确定空间的范围。
　　
　　如果范围空间对象的NEXT_EXTENT 比表空间所能提供的最大范围还要大，那么这将影响数据库的运行。如果我们找到了这个目标，可以用‘ALTER TABLESPACE COALESCE’调查它的位置，或加另外的数据文件。
　　
　　A）运行 ‘SPACEBOUND.SQL’。如果都是正常的，将不返回任何行。
　　
　　5. 回顾CPU，内存，网络，硬件资源论点的过程