如何使用AWR报告来诊断数据库性能问题

如何主动避免问题发生及做好诊断信息的收集

有些问题是无法预见的,但大部分其它的问题如果及早发现一些征兆其实是可以避免的。同时,如果问题确实发生了,那么收集问题发生时的信息就非常重要。有关于如何主动避免问题及诊断信息的收集.
对于数据库整体的性能问题,AWR的报告是一个非常有用的诊断工具。
 一般来说,当检测到性能问题时,我们会收集覆盖了发生问题的时间段的AWR报告-但是最好只收集覆盖1个小时时间段的AWR报告-如果时间过长,那么AWR报告就不能很好的反映出问题所在。还应该收集一份没有性能问题的时间段的AWR报告,作为一个参照物来对比有问题的时间段的AWR报告。这两个AWR报告的时间段应该是一致的,比如都是半个小时的,或者都是一个小时的。 


 
Interpretation

在处理性能问题时,我们最关注的是数据库正在等待什么。
 当进程因为某些原因不能进行操作时,它需要等待。花费时间最多的等待事件是我们最需要关注的,因为降低它,我们能够获得最大的好处。
AWR报告中的"Top 5 Timed Events"部分就提供了这样的信息,可以让我们只关注主要的问题。
• 
Top 5 Timed Events
正如前面提到的,"Top 5 Timed Events"是AWR报告中最重要的部分。它指出了数据库的sessions花费时间最多的等待事件,如下:

Top 5 Timed Events                                        Avg %Total

~~~~~~~~~~~~~~~~~~                                        wait  Call

Event                                Waits    Time (s)  (ms)  Time Wait Class

------------------------------ ------------ ----------- ------ ------ ----------

db file scattered read          10,152,564      81,327      8  29.6  User I/O

db file sequential read          10,327,231      75,878      7  27.6  User I/O

CPU time                                        56,207          20.5

read by other session            4,397,330      33,455      8  12.2  User I/O

PX Deq Credit: send blkd            31,398      26,576    846    9.7      Other

        -------------------------------------------------------------


Top 5 Events部分包含了一些跟Events(事件)相关的信息。它记录了这期间遇到的等待的总次数,等待所花费的总时间,每次等待的平均时间;这一部分是按照每个Event占总体call time的百分比来进行排序的。

 根 据Top 5 Events部分的信息的不同,接下来我们需要检查AWR报告的其他部分,来验证发现的问题或者做定量分析。等待事件需要根据报告期的持续时间和当时数据 库中的并发用户数进行评估。如:10分钟内1000万次的等待事件比10个小时内的1000万等待更有问题;10个用户引起的1000万次的等待事件比 10,000个用户引起的相同的等待要更有问题。

 就像上面的例子,将近60%的时间是在等待IO相关的事件。

• 事件"db file scattered read"一般表明正在做由全表扫描或者index fast full scan引起的多块读。
• 事件"db file sequential read"一般是由不能做多块读的操作引起的单块读(如读索引)

 其他20%的时间是花在使用或等待CPU time上。过高的CPU使用经常是性能不佳的SQL引起的(或者这些SQL有可能用更少的资源完成同样的操作);对于这样的SQL,过多的IO操作也是一个症状。关于CPU使用方面,我们会在之后讨论。

 在以上基础上,我们将调查是否这个等待事件是有问题的。若有问题,解决它;若是正常的,检查下个等待事件。

 过多的IO相关的等待一般会有两个主要的原因:

• 数据库做了太多的读操作
• 每次的IO读操作都很慢
Top 5 Events部分的显示的信息会帮助我们检查:

• 是否数据库做了大量的读操作:
 上面的图显示了在这段时间里两类读操作都分别大于1000万,这些操作是否过多取决于报告的时间是1小时或1分钟。我们可以检查AWR报告的elapsed time如果这些读操作确实是太多了,接下来我们需要检查AWR报告中 SQL Statistics 部分的信息,因为读操作都是由SQL语句发起的。
• 是否是每次的IO读操作都很慢:
 上面的图显示了在这段时间里两类读操作平均的等待时间是小于8ms的
 至于8ms是快还是慢取决于底层的硬件设备;一般来讲小于20ms的都可以认为是可以接受的。

 我们还可以在AWR报告"Tablespace IO Stats"部分得到更详细的信息

Tablespace IO Stats                      DB/Inst: VMWREP/VMWREP  Snaps: 1-15

-> ordered by IOs (Reads + Writes) desc

 

Tablespace

------------------------------

                Av      Av    Av                      Av    Buffer Av Buf

        Reads Reads/s Rd(ms) Blks/Rd      Writes Writes/s      Waits Wt(ms)

-------------- ------- ------ ------- ------------ -------- ---------- ------

TS_TX_DATA

  14,246,367    283    7.6    4.6  145,263,880    2,883  3,844,161    8.3

USER

      204,834      4  10.7    1.0  17,849,021      354    15,249    9.8

UNDOTS1

      19,725      0    3.0    1.0  10,064,086      200      1,964    4.9

AE_TS

    4,287,567      85    5.4    6.7          932        0    465,793    3.7

TEMP

    2,022,883      40    0.0    5.8      878,049      17          0    0.0

UNDOTS3

    1,310,493      26    4.6    1.0      941,675      19        43    0.0

TS_TX_IDX

    1,884,478      37    7.3    1.0      23,695        0    73,703    8.3

>SYSAUX

      346,094      7    5.6    3.9      112,744        2          0    0.0

SYSTEM

    101,771      2    7.9    3.5      25,098        0        653    2.7

如上图,我们关心Av Rd(ms)的指标。如果它高于20ms并且同时有很多读操作的,我们可能要开始从OS的角度调查是否有潜在的IO问题。

相关推荐