Oracle中的AWR,全称为AutomaticWorkloadRepository,自动负载信息库。它收集关于特定数据库的操作统计信息和其他统计信息,Oracle以固定的时间间隔(默认为1个小时)为其所有重要的统计信息和负载信息执行一次快照,并将快照存放入AWR中。这些信息在AWR中保留指定的时间(默认为1周),然后执行删除。执行快照的频率和保持时间都是可以自定义的。
AWR的引入,为我们分析数据库提供了非常好的便利条件(这方面MySQL就相差了太多)。曾经有这样的一个比喻——“一个系统,就像是一个黑暗的大房间,系统收集的统计信息,就如同放置在房间不同位置的蜡烛,用于照亮这个黑暗大房间。Oracle,恰到好处地放置了足够的蜡烛(AWR),房间中只有极少的烛光未覆盖之处,性能瓶颈就容易定位。而对于蜡烛较少或是没有蜡烛的系统,性能优化就如同黑暗中的舞者。”
那如何解读AWR的数据呢?Oracle本身提供了一些报告,方便进行查看、分析。下面就针对最为常见的一种报告——《AWR数据库报告》进行说明。希望通过这篇文章,能方便大家更好地利用AWR,方便进行分析工作。
一、MAIN
1DatabaseInformation
2SnapshotInformation
(1)Sessions
表示采集实例连接的会话数。这个数可以帮助我们了解数据库的并发用户数大概的情况。这个数值对于我们判断数据库的类型有帮助。
(2)Cursors/session
每个会话平均打开的游标数。
(3)Elapsed
通过Elapsed/DBTime比较,反映出数据库的繁忙程度。如果DBTime>>Elapsed,则说明数据库很忙。
(4)DBTime
表示用户操作花费的时间,包括CPU时间和等待事件。通常同时这个数值判读数据库的负载情况。
具体含义
dbtime=cputime+waittime(不包含空闲等待)(非后台进程)*dbtime就是记录的服务器花在数据库运算(非后台进程)和等待(非空闲等待)上的时间。对应于V$SESSION的elapsed_time字段累积。
"合集数据"
需要注意的是AWR是一个数据合集。比如在1分钟之内,1个用户等待了30秒钟,那么10个用户等待事件就是300秒。CPU时间也是一样,在1分钟之内,1个CPU处理30秒钟,那么4个CPU就是120秒。这些时间都是以累积的方式记录在AWR当中的。
示例
DBCPU——这是一个用于衡量CPU的使用率的重要指标。假设系统有N个CPU,那么如果CPU全忙的话,一秒钟内的DBCPU就是N秒。除了利用CPU进行计算外,数据库还会利用其它计算资源,如网
络、硬盘、内存等等,这些对资源的利用同样可以利用时间进行度量。假设系统有M个session在运行,同一时刻有的session可能在利用CPU,有的session可能在访问硬盘,那么在一秒钟内,所有session的时间加起来就可以表征系统在这一秒内的繁忙程度。一般的,这个和的最大值应该为M。这其实就是Oracle提供的另一个重要指标:DBtime,它用以衡量前端进程所消耗的总时间。
对除CPU以后的计算资源的访问,Oracle用等待事件进行描述。同样地,和CPU可分为前台消耗CPU和后台消耗CPU一样,等待事件也可以分为前台等待事件和后台等待事件。DBTime一般的应该等于"DBCPU+前台等待事件所消耗时间"的总和。等待时间通过v$system_event视图进行统计,DBTime和DBCPU则是通过同一个视图,即v$sys_time_model进行统计。
--"LoadProfile"中关于DBTime的描述
*这个系统的CPU个数是8,因此我们可以知道前台进程用了系统CPU的7.1/8=88.75%。DBTime/s为11.7,可以看出这个系统是CPU非常繁忙的。里面CPU占了7.1,则其它前台等待事件占了11.7–7.1=4.6WaitTime/s。DBTime占DBCPU的比重:7.1/11.7=60.68%
--"Top5TimedEvents"中关于DBCPU的描述
按照CPU/等待事件占DBTime的比例大小,这里列出了Top5。如果一个工作负载是CPU繁忙型的话,那么在这里应该可以看到DBCPU的影子。
*注意到,我们刚刚已经算出了DBCPU的%DBtime,60%。其它的externaltableread、directpathwrite、PXDeq:readcredit、PXDeq:SlaveSessionStats这些就是占比重40的等待事件里的Top4了。
--"Top5TimedForegroundEvents"的局限性
再研究下这个Top5TimedForegroundEvents,如果先不看LoadProfile,是不能计算出一个CPU-Bound的工作负载。要知道系统CPU的繁忙程序,还要知道这个AWR所基于两个snapshot的时间间隔,还要知道系统CPU的个数。要不系统可以是一个很IDLE的系统呢。记住CPU利用率=DBCPU/(CPU_COUNT*ElapsedTIME)。这个Top5给我们的信息只是这个工作负载应该是并行查询,从外部表读取数据,并用insertappend的方式写入磁盘,同时,主要时间耗费在CPU的运算上。
--解读"DBTime">"DBCPU"+"前台等待事件所消耗时间"——进程排队时间
上面提到,DBTime一般的应该等于DBCPU+前台等待事件所消耗时间的总和。在下面有对这三个值的统计:
DBCPU=6474.65
DBTIME=10711.2
FGWaitTime=1182.63
明显的,DBCPU+FGWaitTime