Rhel 7 pcs 实现oracle 12c高可用
作者:田逸(v**x:formyz)
需求描述
两节点物理服务器,外挂虚拟化后的共享存储(两台存储设备),存储通过多路径与物理服务器直接连接。
网络划分为三个:数据网络、心跳网络及管理网络(远程控制卡)。
工具组件包括:rhel 7系统,pcsd工具包(包括corosync等),oracle数据库。
高可用HA资源包括:虚拟网络地址(vip)、oracle监听器、逻辑卷资源(LVM)、文件系统(filesystem)、oracle数据库实例。
实施步骤
硬件上架?部署系统?存储准备?安装pacemaker ?安装oracle数据库?配置监控器?配置oracle命名服务?配置pcs高可用?创建数据库实例?模拟故障?验收
硬件上架
? 本机硬盘到位,线缆连接到位,包括网线、共享存储连接卡及连接线,心跳网络连接到位,管理网络连接到位。
? 安装介质到位:包括redhat 系统盘或者iso文件,oracle安装介质,授权许可。
? 安装所需的软件源,最好是能联网,安装好pcs及oracle以后,再接入正式生成网络。如条件不具备,则用iso挂接本地,做yum源。
部署系统
? 设置好服务器的远程控制卡网络。
? 按要求分区并分配容量。
? 配置好网络。本案分两个网络:数据网络及心跳网络,并且需要两两绑定,用工具nmtui进行操作,不会犯输入上的低级错误。
? 关闭防火墙systemctl disable firewalld && systemctl stop firewalld
? 关闭selinux
? 修改文件/etc/hosts,映射主机别名
存储准备--挂接存储及创建逻辑卷
安装iscsi连接器
识别共享设备块
两台设备执行:
(1) 创建物理卷pvcreate /dev/sdc
(2) 创建物理卷组 vgcreate vgdb /dev/sdc
任意设备执行(只在一个节点执行一次):
(1) 创建逻辑卷lvcreate -n dblv -l 100%VG vgdb
(2) 创建文件系统 mkfs.xfs /dev/mapper/vgdb-dblv
(3) 挂接文件系统 mount /dev/mapper/vgdb-dblv /oradata/
(4) 另一设备检验逻辑卷 lvscan
(5) 两节点修改lvm.conf,把系统的卷排除在外。
(6) 两节点执行 dracut -H -f /boot/initramfs-$(uname -r).img $(uname -r)
安装pacemaker
? 准备yum源或者服务器连接到互联网。
? 执行安装 yum install pcs fence-agents-all。
? 配置pcs服务开机自启动 systemctl enable pcsd.
安装oralce数据库软件(不创建数据库)
? 准备好安装介质,并把其复制到服务器的相关目录,解包后待用;
? 准备环境变量等所需配置的脚本,并给予执行权限;
? 执行该脚本,校验之;
? 安装并启用vnc服务;
? Vnc客户端连接到系统;
? 把oracle 安装目录拷贝到/home/oracle并执行chown –R oracle:oinstall /home/oracle
? 执行 xhost + 授权;
-------------------以上是root用户----------------------------
? 切换用户到oracle:su – oracle
? 设置环境变量display: export DISPLAY=:1(这个值一定要与vncserver启动的输出值相匹配);
? 进入安装软件目录 cd database,执行脚本./runInstaller ,调出图形界面后,照提示进行下一步,直到安装完成。
listener监听器准备
(1) 两台设备都执行netca 创建监听器
(2) 修改两台设备的监听器文件/u01/app/oracle/product/12.2.0/network/admin/listener.ora,使HOST的值为vip。
(3) 暂时不要启动监听器,因为vip没有被自动设置到系统。如果需要验证,修改HOST的值为本机地址或者主机别名。
Oracle网络命名配置
(1) 两台服务器继续执行指令 netca ,鼠标选取第三个单选项—本地网络服务命名。
(2) 确保两台设备的命名地址为vip。
配置pcs高可用
? 启动pcs服务。执行命令 systemctl start pcsd (前边配置了开启启动,因此重启系统就不需要再执行此命令;另外corosync服务也不需要手动去启动,pcs会自动处理)。
? 设置pcs用户hacluster密码。Passwd hacluster (hacluster账号是安装pacemaker时自动生成的,可以把两台服务器的hacluster账号设置成同样的密码,也可以不一样)。
---------------------------以上操作要在两台物理机上分别进行--------------
? 验证用户。在任一服务器执行 pcs cluster auth ora101 ora102 按提示输入上述步骤设定的密码,完成验证。
? 浏览器访问任一服务器的地址,pcs的端口号为:2224,输入用户名hackuster及密码。
(1) 创建集群,填写相应的信息。
等待几秒钟,创建好集群。
鼠标点链接“my-cls01”,查看更多的信息。
鼠标选点链接“ora102”,也可以看到其上运行的服务(pacemaker等),这个时候,我们可以返回到系统命令行,查看corosync服务是否启动,配置文件是否自动生成。没创建集群之前,corosync配置文件不存在的,只有个例子文件corosync.conf.example。
(2) 按如下顺序添加资源及组
- 添加虚拟ip(vip)
创建好vip以后,其状态可能为blocked状态,需要先禁止掉stonish。进入任一服务器系统,执行命令行 pcs property set stonith-enabled=false 。 - 添加资源组。如果是两个或者两个以上的资源组,系统会自动分配这些组到不同的服务器,以达到充分利用资源的目的。
把资源vip归于db_grp资源组。 - 有了vip资源并生效以后,就可以启动oracle监听器(监听器依赖于vip)。切换到命令行模式(只在有vip启动的服务器上),执行如下命令启用及验证oracle监听器。
[ pcsd]# su - oracle
Last login: Fri May 29 03:19:28 EDT 2020
[ ~]$ lsnrctl start
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 07:19:12
Copyright (c) 1991, 2016, Oracle. All rights reserved.
Starting /u01/app/oracle/product/12.2.0/bin/tnslsnr: please wait...
TNSLSNR for Linux: Version 12.2.0.1.0 - Production
System parameter file is /u01/app/oracle/product/12.2.0/network/admin/listener.ora
Log messages written to /u01/app/oracle/diag/tnslsnr/ora101/listener/alert/log.xml
Listening on: (DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=172.16.35.66)(PORT=1521)))
Listening on: (DESCRIPTION=(ADDRESS=(PROTOCOL=ipc)(KEY=EXTPROC1521)))
Connecting to (DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=172.16.35.66)(PORT=1521)))
STATUS of the LISTENER
Alias LISTENER
Version TNSLSNR for Linux: Version 12.2.0.1.0 - Production
Start Date 29-MAY-2020 07:19:12
Uptime 0 days 0 hr. 0 min. 0 sec
Trace Level off
Security ON: Local OS Authentication
SNMP OFF
Listener Parameter File /u01/app/oracle/product/12.2.0/network/admin/listener.ora
Listener Log File /u01/app/oracle/diag/tnslsnr/ora101/listener/alert/log.xml
Listening Endpoints Summary...
(DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=172.16.35.66)(PORT=1521)))
(DESCRIPTION=(ADDRESS=(PROTOCOL=ipc)(KEY=EXTPROC1521)))
The listener supports no services
The command completed successfully
[ ~]$ lsnrctl status
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 07:19:37
Copyright (c) 1991, 2016, Oracle. All rights reserved.
Connecting to (DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=172.16.35.66)(PORT=1521)))
STATUS of the LISTENER
Alias LISTENER
Version TNSLSNR for Linux: Version 12.2.0.1.0 - Production
Start Date 29-MAY-2020 07:19:12
Uptime 0 days 0 hr. 0 min. 24 sec
Trace Level off
Security ON: Local OS Authentication
SNMP OFF
Listener Parameter File /u01/app/oracle/product/12.2.0/network/admin/listener.ora
Listener Log File /u01/app/oracle/diag/tnslsnr/ora101/listener/alert/log.xml
Listening Endpoints Summary...
(DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=172.16.35.66)(PORT=1521)))
(DESCRIPTION=(ADDRESS=(PROTOCOL=ipc)(KEY=EXTPROC1521)))
The listener supports no services
The command completed successfully
- 创建监听器资源,内容一定要填写正确,要与oracle用户.bash_profile里边定义的相一致,否则监听器不能被正确创建。
tsn_amin那一行,填写的是ORACLE_HOME/network/admin,也就是监听器配置文件及本地命名服务配置文件所在的路径。
如果创建成功,此资源的状态应该为绿色的“running”,并运行于有vip存在的节点。 - 创建逻辑LVM卷资源。此资源是创建文件系统及创建数据库所必须的前提条件,前边的步骤,已经对共享文件块做了挂接及文件系统的创建,现在需要把文件挂接卸载掉。先用df查看是否被挂接,如果挂接,用umount 处理。这里再在登录任一服务器,在命令行执行vgscan查看共享卷组的名称,在web界面添加LVM资源的时候需要这个值。继续回到浏览器管理界面,进行LVM资源添加,使其在组db_grp之下。
注意:exclusive的默认值为false,需要改成true,不然逻辑卷组会一直处于非激活状态。
创建成功后,运行资源组的服务器上,再执行指令 lvscan ,逻辑卷的状态为ACTIVE,而另外一台服务器的状态则继续为inactive。 - 创建文件系统资源。文件系统以来于逻辑卷资源,必须在LVM卷正常的情况下,再进行这个步骤才是有效的方法。
创建完文件系统资源,除了页面上看见此资源状态为绿色的“running”外,还可以登录运行资源组的系统,执行指令df –h 查看文件系统是否被自动挂接到目录。
接下来要暂时中断资源的创建,而转向创建数据库。因为共享的文件系统(实际被运行资源的主机独占)已经挂接,oracle数据库的相关文件,就要在其上生成即创建。等到数据库创建完毕,实例成功启动,再回到web管理界面进行oracle数据库资源的创建。
创建数据库
? 确保shm的值大于等于2G。如果不是,则执行下列步骤改变其值。
(1) 在 /etc/fstab文件添加一行
tmpfs /dev/shm tmpfs defaults,size=2048M 0 0
(2) 执行命令重新挂载 mount -o remount /dev/shm
(3) 执行 df –h验证其正确性。
? 用vnc客户端登录到运行资源组的服务器(就是有vip,挂接文件系统到目录/oradata的这个系统),跟前边安装oracle软件一样,切换到用户oracle,设置好环境变量DISPLAY=:1,执行数据库助手执行 dbca,片刻就弹出配置图形界面,按提示输入相关信息。需要注意的是,数据库文件位置要选(或者填)共享文件系统挂节点/oradata,快闪恢复区(FRA)也要填写在/oradata目录,如下图所示。
创建过程需要用root执行一个脚本,照着做就好。创建完毕,试着启动一下实例,看是否正常。
? 创建数据库实例资源。前边的步骤已经正确无误的创建了数据库,并且可以正常启动实例。关闭该实例,待创建好oracle实例资源后,pcs应该正常拉起oracle实例自动启动。
特别需要注意资源组(Resource Group)顺序问题,它必须在文件系统挂接以后才可以往下进行。如果创建数据库资源出错,多半是选项参数部分输入错误,仔细核对就行了。创建成功以后,运行状态如下图:
左侧框中,只有全部是蓝色才为正常,不正常一定是红色!!!那么oracle数据库实例真的起来了么?登录系统,验证一下。
Oracle进程有了,再看连接情况。
故障模拟
? 监听器故障模拟,分监听器停止与监听器启动不了两种情况。
? 监听器停止。登录运行资源组的服务器系统,用如下命令进行操作:
[ ~]# su - oracle
Last login: Fri May 29 22:31:52 EDT 2020
[ ~]$ lsnrctl stop
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 22:32:10
Copyright (c) 1991, 2016, Oracle. All rights reserved.
Connecting to (DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=172.16.35.66)(PORT=1521)))
The command completed successfully
[ ~]$ lsnrctl status
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 22:32:15
Copyright (c) 1991, 2016, Oracle. All rights reserved.
Connecting to (DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=172.16.35.66)(PORT=1521)))
TNS-12541: TNS:no listener
TNS-12560: TNS:protocol adapter error
TNS-00511: No listener
Linux Error: 111: Connection refused
Connecting to (DESCRIPTION=(ADDRESS=(PROTOCOL=IPC)(KEY=EXTPROC1521)))
TNS-12541: TNS:no listener
TNS-12560: TNS:protocol adapter error
TNS-00511: No listener
Linux Error: 2: No such file or directory
监听器确实停止了,但并没有发生资源漂移。
等待片刻以后,监听器会又在原服务器自动启动。
? 停止监听器,并故意修改监听器配置,使其不能被正常启动。
改完后,停止监听器,pcs现在应该无法重启监听器。甚至于,手工启动也不行。
[ ~]$ lsnrctl start
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 23:05:56
Copyright (c) 1991, 2016, Oracle. All rights reserved.
Starting /u01/app/oracle/product/12.2.0/bin/tnslsnr: please wait...
TNSLSNR for Linux: Version 12.2.0.1.0 - Production
System parameter file is /u01/app/oracle/product/12.2.0/network/admin/listener.ora
Log messages written to /u01/app/oracle/diag/tnslsnr/ora101/listener/alert/log.xml
Error listening on: (DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=172.16.35.166)(PORT=1521)))
TNS-12545: Connect failed because target host or object does not exist
TNS-12560: TNS:protocol adapter error
TNS-00515: Connect failed because target host or object does not exist
Linux Error: 99: Cannot assign requested address
Listener failed to start. See the error message(s) above...
现在,我们再来看集群的状态,发现资源组发生了转移,漂移到另一台服务器上去了。
再把修改过的监听器配置恢复回来,手动启动监听器,提示不能被正确的验证。
? 数据库实例故障模拟,也可分停止实例及破坏导致实例不能连接两种情形。
? 停止数据库实例,观察是否能够被pcs重新启动。
数秒中以后,数据库实例又会在这个服务器自动启动。
? 修改运行资源组所在服务器的oracle环境变量文件 .bash_profile,使数据库实例不能被正常连接。
实例关闭以后,尝试用手工启动实例(自动起不来),应该不会成功。
数据库实例被停止以后,pcs会去尝试数次重启oracle,不像监听器那么迅速就实现了资源的漂移。
由此可知,修改oracle环境变量并不能造成orace实例启动,要使数据库实例不能启动,可以破坏掉数据库参数文件达到目的,这里就不再尝试。
? 模拟服务器死机故障
登录运行资源组的服务器,直接关机,再另一台服务器上执行指令查看运行状态。
目前,资源都在节点ora102上运行,那么我们就把节点ora102系统关机。
完全关闭以后,资源全部漂移到另外一个节点ora101,我们从命令行及web页面分别验证一下。
(1) 命令行查看状态:
(2) Web管理界面查看状态:
其他相关
? 配置存储位置,在文件/var/lib/pacemaker/cib/cib.xml 中。
? 主要日志文件:/var/log/pcsd/pcsd.log。
? 集群同步文件:/etc/corosync/corosync.conf