一、DRBD简介
DRBD的全称为:Distributed ReplicatedBlock Device(DRBD)分布式块设备复制,DRBD是由内核模块和相关脚本而构成,用以构建高可用性的集群。其实现方式是通过网络来镜像整个设备。你可以把它看作是一种网络RAID。它允许用户在远程机器上建立一个本地块设备的实时镜像。
二、DRBD是如何工作的呢?
(DRBD Primary)负责接收数据,把数据写到本地磁盘并发送给另一台主机(DRBD Secondary)。另一个主机再将数据存到自己的磁盘中。目前,DRBD每次只允许对一个节点进行读写访问,但这对于通常的故障切换高可用集群来说已经足够用了。有可能以后的版本支持两个节点进行读写存取。
三、DRBD与HA的关系
一个DRBD系统由两个节点构成,与HA集群类似,也有主节点和备用节点之分,在带有主要设备的节点上,应用程序和操作系统可以运行和访问DRBD设备(/dev/drbd*)。在主节点写入的数据通过DRBD设备存储到主节点的磁盘设备中,同时,这个数据也会自动发送到备用节点对应的DRBD设备,最终写入备用节点的磁盘设备上,在备用节点上,DRBD只是将数据从DRBD设备写入到备用节点的磁盘中。现在大部分的高可用性集群都会使用共享存储,而DRBD也可以作为一个共享存储设备,使用DRBD不需要太多的硬件的投资。因为它在TCP/IP网络中运行,所以,利用DRBD作为共享存储设备,要节约很多成本,因为价格要比专用的存储网络便宜很多;其性能与稳定性方面也不错
四、DRBD复制模式
协议A:
异步复制协议。一旦本地磁盘写入已经完成,数据包已在发送队列中,则写被认为是完成的。在一个节点发生故障时,可能发生数据丢失,因为被写入到远程节点上的数据可能仍在发送队列。尽管,在故障转移节点上的数据是一致的,但没有及时更新。这通常是用于地理上分开的节点
协议B:
内存同步(半同步)复制协议。一旦本地磁盘写入已完成且复制数据包达到了对等节点则认为写在主节点上被认为是完成的。数据丢失可能发生在参加的两个节点同时故障的情况下,因为在传输中的数据可能不会被提交到磁盘
协议C:
同步复制协议。只有在本地和远程节点的磁盘已经确认了写操作完成,写才被认为完成。没有任何数据丢失,所以这是一个群集节点的流行模式,但I / O吞吐量依赖于网络带宽
一般使用协议C,但选择C协议将影响流量,从而影响网络时延。为了数据可靠性,我们在生产环境使用时须慎重选项使用哪一种协议
四、 DRBD工作原理图
DRBD是linux的内核的存储层中的一个分布式存储系统,可用使用DRBD在两台Linux服务器之间共享块设备,共享文件系统和数据。类似于一个网络RAID-1的功能,如图所示:
五、环境介绍及安装前准备
环境介绍:
系统版本:CentOS 6.4_x86_64
DRBD软件:drbd-8.4.3-33.el6.x86_64 drbd-kmdl-2.6.32-358.el6-8.4.3-33.el6.x86_64 下载地址
注意:这里两个软件的版本必须使用一致,而drbd-kmdl的版本要与当前系统的版本相对应,当然在实际应用中需要根据自己的系统平台下载符合需要的软件版本;查看系统版本 “uname -r”
安装前准备:
1.每个节点的主机名称须跟”uname -n”命令的执行结果一样
1 2 3 4 5 6 7
| sed -i 's@\(HOSTNAME=\).*@\1nod1.allen.com@g' /etc/sysconfig/network hostname nod1.allen.com sed -i 's@\(HOSTNAME=\).*@\1nod2.allen.com@g' /etc/sysconfig/network hostname nod2.allen.com 注释:修改文件须重启系统生效,这里先修改文件然后执行命令修改主机名称可以不用重启
|
2.两个节点的主机名称和对应的IP地址可以正常解析
1 2 3 4 5
| cat > /etc/hosts << EOF 192.168.137.225 nod1.allen.com nod1 192.168.137.222 nod2.allen.com nod2 EOF
|
3.配置epel的yum源 下载并安装
1 2
| rpm -ivh epel-release-6-8.noarch.rpm
|
4.需要为两个节点分别提供大小相同的分区
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
| [root@nod1 ~] Command (m for help): n Command action e extended p primary partition (1-4) p Partition number (1-4): 3 First cylinder (7859-15665, default 7859): Using default value 7859 Last cylinder, +cylinders or +size{K,M,G} (7859-15665, default 15665): +2G Command (m for help): w [root@nod1 ~] [root@nod1 ~] major minor 8 0 125829120 sda 8 1 204800 sda1 8 2 62914560 sda2 253 0 20971520 dm-0 253 1 2097152 dm-1 253 2 10485760 dm-2 253 3 20971520 dm-3 [root@nod1 ~]
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
| [root@nod2 ~] Command (m for help): n Command action e extended p primary partition (1-4) p Partition number (1-4): 3 First cylinder (7859-15665, default 7859): Using default value 7859 Last cylinder, +cylinders or +size{K,M,G} (7859-15665, default 15665): +2G Command (m for help): w [root@nod2 ~] [root@nod2 ~] major minor 8 0 125829120 sda 8 1 204800 sda1 8 2 62914560 sda2 253 0 20971520 dm-0 253 1 2097152 dm-1 253 2 10485760 dm-2 253 3 20971520 dm-3 [root@nod2 ~]
|
六、安装并配置DRBD
1.在NOD1与NOD2节点上安装DRBD软件包
1 2 3 4 5 6 7 8
| [root@nod1 ~] drbd-8.4.3-33.el6.x86_64.rpm drbd-kmdl-2.6.32-358.el6-8.4.3-33.el6.x86_64.rpm [root@nod1 ~] [root@nod2 ~] drbd-8.4.3-33.el6.x86_64.rpm drbd-kmdl-2.6.32-358.el6-8.4.3-33.el6.x86_64.rpm [root@nod2 ~]
|
2.查看DRBD配置文件
1 2 3 4 5 6 7 8 9 10
| ll /etc/drbd.conf;ll /etc/drbd.d/ -rw-r--r-- 1 root root 133 May 14 21:12 /etc/drbd.conf total 4 -rw-r--r-- 1 root root 1836 May 14 21:12 global_common.conf cat /etc/drbd.conf include "drbd.d/global_common.conf"; include "drbd.d/*.res";
|
3.修改配置文件如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
| [root@nod1 ~] global { usage-count no; } common { protocol C; handlers { pri-on-incon-degr "/usr/lib/drbd/notify-pri-on-incon-degr.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f"; pri-lost-after-sb "/usr/lib/drbd/notify-pri-lost-after-sb.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f"; local-io-error "/usr/lib/drbd/notify-io-error.sh; /usr/lib/drbd/notify-emergency-shutdown.sh; echo o > /proc/sysrq-trigger ; halt -f"; } startup { } options { } disk { on-io-error detach; } net { cram-hmac-alg "sha1"; shared-secret "allendrbd"; } syncer { rate 1024M; } }
|
注释: on-io-error 策略可能为以下选项之一
detach 分离:这是默认和推荐的选项,如果在节点上发生底层的硬盘I/O错误,它会将设备运行在Diskless无盘模式下
pass_on:DRBD会将I/O错误报告到上层,在主节点上,它会将其报告给挂载的文件系统,但是在此节点上就往往忽略(因此此节点上没有可以报告的上层)
-local-in-error:调用本地磁盘I/O处理程序定义的命令;这需要有相应的local-io-error调用的资源处理程序处理错误的命令;这就给管理员有足够自由的权力命令命令或是脚本调用local-io-error处理I/O错误
4.添加资源文件:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
| [root@nod1 ~] resource drbd { on nod1.allen.com { device /dev/drbd0; disk /dev/sda3; address 192.168.137.225:7789; meta-disk internal; } on nod2.allen.com { device /dev/drbd0; disk /dev/sda3; address 192.168.137.222:7789; meta-disk internal; } }
|
5.将配置文件为NOD2提供一份
1 2 3 4 5 6 7 8
| [root@nod1 ~] The authenticity of host 'nod2 (192.168.137.222)' can't be established. RSA key fingerprint is 29:d3:28:85:20:a1:1f:2a:11:e5:88:cd:25:d0:95:c7. Are you sure you want to continue connecting (yes/no)? yes Warning: Permanently added 'nod2' (RSA) to the list of known hosts. root@nod2's password: global_common.conf 100% 1943 1.9KB/s 00:00 drbd.res 100% 318 0.3KB/s 00:00
|
6.初始化资源并启动服务
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
| [root@nod1 ~] Writing meta data... initializing activity log NOT initializing bitmap lk_bdev_save(/var/lib/drbd/drbd-minor-0.lkbd) failed: No such file or directory New drbd meta data block successfully created. lk_bdev_save(/var/lib/drbd/drbd-minor-0.lkbd) failed: No such file or directory [root@nod1 ~] Starting DRBD resources: [ create res: drbd prepare disk: drbd adjust disk: drbd adjust net: drbd ] .......... *************************************************************** DRBD's startup script waits for the peer node(s) to appear. - In case this node was already a degraded cluster before the reboot the timeout is 0 seconds. [degr-wfc-timeout] - If the peer was available before the reboot the timeout will expire after 0 seconds. [wfc-timeout] (These values are for resource 'drbd'; 0 sec -> wait forever) To abort waiting enter 'yes' [ 12]: yes ######查看监听端口 [root@nod1 ~]# ss -tanl |grep 7789 LISTEN 0 5 192.168.137.225:7789 *:*
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
| [root@nod2 ~] Writing meta data... initializing activity log NOT initializing bitmap lk_bdev_save(/var/lib/drbd/drbd-minor-0.lkbd) failed: No such file or directory New drbd meta data block successfully created. lk_bdev_save(/var/lib/drbd/drbd-minor-0.lkbd) failed: No such file or directory [root@nod2 ~] Starting DRBD resources: [ create res: drbd prepare disk: drbd adjust disk: drbd adjust net: drbd ] [root@nod2 ~] tcp 0 0 192.168.137.222:42345 192.168.137.225:7789 ESTABLISHED - tcp 0 0 192.168.137.222:7789 192.168.137.225:42325 ESTABLISHED - [root@nod2 ~] 0:drbd/0 Connected Secondary/Secondary Inconsistent/Inconsistent C r-----
|
7.资源的连接状态详细介绍
如何查看资源连接状态?
资源的连接状态;一个资源可能有以下连接状态中的一种
- StandAlone 独立的:网络配置不可用;资源还没有被连接或是被管理断开(使用 drbdadm disconnect 命令),或是由于出现认证失败或是脑裂的情况
- Disconnecting 断开:断开只是临时状态,下一个状态是StandAlone独立的
- Unconnected 悬空:是尝试连接前的临时状态,可能下一个状态为WFconnection和WFReportParams
- Timeout 超时:与对等节点连接超时,也是临时状态,下一个状态为Unconected悬空
- BrokerPipe:与对等节点连接丢失,也是临时状态,下一个状态为Unconected悬空
- NetworkFailure:与对等节点推动连接后的临时状态,下一个状态为Unconected悬空
- ProtocolError:与对等节点推动连接后的临时状态,下一个状态为Unconected悬空
- TearDown 拆解:临时状态,对等节点关闭,下一个状态为Unconected悬空
- WFConnection:等待和对等节点建立网络连接
- WFReportParams:已经建立TCP连接,本节点等待从对等节点传来的第一个网络包
- Connected 连接:DRBD已经建立连接,数据镜像现在可用,节点处于正常状态
- StartingSyncS:完全同步,有管理员发起的刚刚开始同步,未来可能的状态为SyncSource或PausedSyncS
- StartingSyncT:完全同步,有管理员发起的刚刚开始同步,下一状态为WFSyncUUID
- WFBitMapS:部分同步刚刚开始,下一步可能的状态为SyncSource或PausedSyncS
- WFBitMapT:部分同步刚刚开始,下一步可能的状态为WFSyncUUID
- WFSyncUUID:同步即将开始,下一步可能的状态为SyncTarget或PausedSyncT
- SyncSource:以本节点为同步源的同步正在进行
- SyncTarget:以本节点为同步目标的同步正在进行
- PausedSyncS:以本地节点是一个持续同步的源,但是目前同步已经暂停,可能是因为另外一个同步正在进行或是使用命令(drbdadm pause-sync)暂停了同步
- PausedSyncT:以本地节点为持续同步的目标,但是目前同步已经暂停,这可以是因为另外一个同步正在进行或是使用命令(drbdadm pause-sync)暂停了同步
- VerifyS:以本地节点为验证源的线上设备验证正在执行
- VerifyT:以本地节点为验证目标的线上设备验证正在执行
资源角色
查看资源角色命令
1 2 3 4 5 6 7
| [root@nod1 ~] Secondary/Secondary [root@nod1 ~] version: 8.4.3 (api:1/proto:86-101) GIT-hash: 89a294209144b68adb3ee85a73221f964d3ee515 build by gardner@, 2013-05-27 04:30:21 0: cs:Connected ro:Secondary/Secondary ds:Inconsistent/Inconsistent C r----- ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:2103412
|
注释:
- Parimary 主:资源目前为主,并且可能正在被读取或写入,如果不是双主只会出现在两个节点中的其中一个节点上
- Secondary 次:资源目前为次,正常接收对等节点的更新
- Unknown 未知:资源角色目前未知,本地的资源不会出现这种状态
硬盘状态
查看硬盘状态命令
1 2
| [root@nod1 ~] Inconsistent/Inconsistent
|
本地和对等节点的硬盘有可能为下列状态之一:
- Diskless 无盘:本地没有块设备分配给DRBD使用,这表示没有可用的设备,或者使用drbdadm命令手工分离或是底层的I/O错误导致自动分离
- Attaching:读取无数据时候的瞬间状态
- Failed 失败:本地块设备报告I/O错误的下一个状态,其下一个状态为Diskless无盘
- Negotiating:在已经连接的DRBD设置进行Attach读取无数据前的瞬间状态
- Inconsistent:数据是不一致的,在两个节点上(初始的完全同步前)这种状态出现后立即创建一个新的资源。此外,在同步期间(同步目标)在一个节点上出现这种状态
- Outdated:数据资源是一致的,但是已经过时
- DUnknown:当对等节点网络连接不可用时出现这种状态
- Consistent:一个没有连接的节点数据一致,当建立连接时,它决定数据是UpToDate或是Outdated
- UpToDate:一致的最新的数据状态,这个状态为正常状态
启用和禁用资源
1 2 3 4
| drbdadm up <resource> drbdadm down <resource>
|
注释:
- resource:为资源名称;当然也可以使用all表示[停用|启用]所有资源
升级和降级资源
1 2 3 4
| drbdadm primary <resource> drbdadm secondary <resource>
|
注释:在单主模式下的DRBD,两个节点同时处于连接状态,任何一个节点都可以在特定的时间内变成主;但两个节点中只能一为主,如果已经有一个主,需先降级才可能升级;在双主模式下没有这个限制
8.初始化设备同步
选择一个初始同步源;如果是新初始化的或是空盘,这个选择可以是任意的,但是如果其中的一个节点已经在使用并包含有用的数据,那么选择同步源是至关重要的;如果选错了初始化同步方向,就会造成数据丢失,因此需要十分小心
启动初始化完全同步,这一步只能在初始化资源配置的一个节点上进行,并作为同步源选择的节点上;命令如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
| [root@nod1 ~] [root@nod1 ~] version: 8.4.3 (api:1/proto:86-101) GIT-hash: 89a294209144b68adb3ee85a73221f964d3ee515 build by gardner@, 2013-05-27 04:30:21 0: cs:SyncSource ro:Primary/Secondary ds:UpToDate/Inconsistent C r---n- ns:1897624 nr:0 dw:0 dr:1901216 al:0 bm:115 lo:0 pe:3 ua:3 ap:0 ep:1 wo:f oos:207988 [=================>..] sync'ed: 90.3% (207988/2103412)K finish: 0:00:07 speed: 26,792 (27,076) K/sec ######当同步完成时如以下状态 version: 8.4.3 (api:1/proto:86-101) GIT-hash: 89a294209144b68adb3ee85a73221f964d3ee515 build by gardner@, 2013-05-27 04:30:21 0: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r----- ns:2103412 nr:0 dw:0 dr:2104084 al:0 bm:129 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0 注释: drbd:为资源名称 ######查看同步进度也可使用以下命令 drbd-overview
|
9.创建文件系统
文件系统只能挂载在主(Primary)节点上,因此在设置好主节点后才可以对DRBD设备进行格式化操作
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
| [root@nod1 ~] [root@nod1 ~] [root@nod1 ~] /dev/drbd0 on /mnt type ext4 (rw) 注释: "/dev/drbd0"为资源中定义已定义的资源名称 [root@nod1 ~] 0:drbd/0 Connected Primary/Secondary UpToDate/UpToDate C r----- 注释: Primary:当前节点为主;在前面为当前节点 Secondary:备用节点为次
|
在挂载目录中创建一个测试文件并卸载;然后
1 2 3 4 5
| [root@nod1 ~] [root@nod1 ~] lost+found test [root@nod1 ~]
|
切换主备节点
1 2 3 4 5 6 7 8 9 10
| [root@nod1 ~] [root@nod1 ~] 0:drbd/0 Connected Secondary/Secondary UpToDate/UpToDate C r----- [root@nod2 ~] [root@nod2 ~] 0:drbd/0 Connected Primary/Secondary UpToDate/UpToDate C r-----
|
挂载设备并验证文件是否存在
1 2 3
| [root@nod2 ~] [root@nod2 ~] lost+found test
|
七、DRBD脑裂的模拟及修复
注释:我们还接着上面的实验继续进行,现在NOD2为主节点而NOD1为备节点
1。断开主(parmary)节点
关机、断开网络或重新配置其他的IP都可以;这里选择的是断开网络
2.查看两节点状态
1 2 3 4 5
| [root@nod2 ~] 0:drbd/0 WFConnection Primary/Unknown UpToDate/DUnknown C r----- /mnt ext4 2.0G 68M 1.9G 4% [root@nod1 ~] 0:drbd/0 StandAlone Secondary/Unknown UpToDate/DUnknown r-----
|
3.将NOD1节点升级为主(primary)节点并挂载资源
1 2 3 4 5 6
| [root@nod1 ~] [root@nod1 ~] 0:drbd/0 StandAlone Primary/Unknown UpToDate/DUnknown r----- [root@nod1 ~] [root@nod1 ~] /dev/drbd0 on /mnt type ext4 (rw)
|
4.假如原来的主(primary)节点修复好重新上线了,这时出现了脑裂情况
1 2 3 4 5 6 7 8 9 10 11 12 13
| [root@nod2 ~] Sep 19 01:56:06 nod2 kernel: d-con drbd: Terminating drbd_a_drbd Sep 19 01:56:06 nod2 kernel: block drbd0: helper command: /sbin/drbdadm initial-split-brain minor-0 exit code 0 (0x0) Sep 19 01:56:06 nod2 kernel: block drbd0: Split-Brain detected but unresolved, dropping connection! Sep 19 01:56:06 nod2 kernel: block drbd0: helper command: /sbin/drbdadm split-brain minor-0 Sep 19 01:56:06 nod2 kernel: block drbd0: helper command: /sbin/drbdadm split-brain minor-0 exit code 0 (0x0) Sep 19 01:56:06 nod2 kernel: d-con drbd: conn( NetworkFailure -> Disconnecting ) Sep 19 01:56:06 nod2 kernel: d-con drbd: error receiving ReportState, e: -5 l: 0! Sep 19 01:56:06 nod2 kernel: d-con drbd: Connection closed Sep 19 01:56:06 nod2 kernel: d-con drbd: conn( Disconnecting -> StandAlone ) Sep 19 01:56:06 nod2 kernel: d-con drbd: receiver terminated Sep 19 01:56:06 nod2 kernel: d-con drbd: Terminating drbd_r_drbd Sep 19 01:56:18 nod2 kernel: block drbd0: role( Primary -> Secondary )
|
5.再次查看两节点的状态
1 2 3 4
| [root@nod1 ~] Primary/Unknown [root@nod2 ~] Primary/Unknown
|
6.查看NOD1与NOD2连接状态
1 2 3 4 5
| [root@nod1 ~] 0:drbd/0 StandAlone Primary/Unknown UpToDate/DUnknown r----- /mnt ext4 2.0G 68M 1.9G 4% [root@nod2 ~] 0:drbd/0 WFConnection Primary/Unknown UpToDate/DUnknown C r----- /mnt ext4 2.0G 68M 1.9G 4%
|
7.查看DRBD的服务状态
1 2 3 4 5 6 7 8 9 10 11 12
| [root@nod1 ~] drbd driver loaded OK; device status: version: 8.4.3 (api:1/proto:86-101) GIT-hash: 89a294209144b68adb3ee85a73221f964d3ee515 build by gardner@, 2013-05-27 04:30:21 m:res cs ro ds p mounted fstype 0:drbd StandAlone Primary/Unknown UpToDate/DUnknown r----- ext4 [root@nod2 ~] drbd driver loaded OK; device status: version: 8.4.3 (api:1/proto:86-101) GIT-hash: 89a294209144b68adb3ee85a73221f964d3ee515 build by gardner@, 2013-05-27 04:30:21 m:res cs ro ds p mounted fstype 0:drbd WFConnection Primary/Unknown UpToDate/DUnknown C /mnt ext4
|
8.在NOD1备用节点处理办法
1 2 3 4 5 6 7 8 9 10 11 12 13
| [root@nod1 ~] [root@nod1 ~] drbd: Failure: (162) Invalid configuration request additional info from kernel: unknown connection Command 'drbdsetup disconnect ipv4:192.168.137.225:7789 ipv4:192.168.137.222:7789' terminated with exit code 10 [root@nod1 ~] [root@nod1 ~] 0:drbd/0 StandAlone Secondary/Unknown UpToDate/DUnknown r----- [root@nod1 ~] [root@nod1 ~] 0:drbd/0 WFConnection Secondary/Unknown UpToDate/DUnknown C r-----
|
9.需要在NOD2节点上重新建立连接资源
1 2 3 4 5 6 7
| [root@nod2 ~] [root@nod2 ~] 0:drbd/0 Connected Primary/Secondary UpToDate/UpToDate C r----- /mnt ext4 2.0G 68M 1.9G 4% [root@nod1 ~] 0:drbd/0 Connected Secondary/Primary UpToDate/UpToDate C r-----
|
注意:特别提醒,如果是单主模式,资源只能在主(Primary)节点上挂载使用,而且不建议手动切换主备节点
到此DRBD的安装配置及故障修复已结束,DRBD的双主模式一般情况不会用到,这里也不再介绍双主模式的配置