A. 什么是双机热备份
从广义上讲,就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。
双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题。但在实际应用中,可能会出现多台服务器的情况,即服务器集群。集群软件的异同)
双机热备一般情况下需要有共享的存储设备。但某些情况下也可以使用两台独立的服务器。
实现双机热备,需要通过专业的集群软件或双机软件。
从狭义上讲,双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过软件诊测(一般是通过心跳诊断)将 standby机器激活,保证应用在短时间内完全恢复正常使用。
决定是否使用双机热备,正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度,以此决定是否使用双机热备。即,你的用户能容忍多长时间恢复服务,如果服务不能恢复会造成多大的影响。
在考虑双机热备时,需要注意,一般意义上的双机热备都会有一个切换过程,这个切换过程可能是一分钟左右。在切换过程中,服务是有可能短时间中断的。 但是,当切换完成后,服务将正常恢复。因此,双机热备不是无缝、不中断的,但它能够保证在出现系统故障时,能够很快恢复正常的服务,业务不致受到影响。而 如果没有双机热备,则一旦出现服务器故障,可能会出现几个小时的服务中断,对业务的影响就可能会很严重。
另有一点需要强调,即服务器的故障与交换机、存储设备的故障不同,其概念要高得多。原因在于服务器是比交换机、存储设备复杂得多的设备,同时也是既包括硬 件、也包括操作系统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断,而且软件方面的问题也可能导致服务器不能正常工作。
还应指出的是,一些其他的防护措施如磁盘阵列(RAID)、数据备份虽然是非常重要的,但却不能代替双机热备的作用。
双机热备份与数据备份的关系
应该说RAID和数据备份都是很重要的。但是,RAID技术只能解决硬盘的问题,备份只能解决系统出现问题后的恢复。而一旦服务器本身出现问题,不论是设 备的硬件问题还是软件系统的问题,都会造成服务的中断。因此,RAID及数据备份技术不能解决避免服务中断的问题。对于需要持续可靠地提供应用服务的系 统,双机还是非常重要的。只要想一想,如果你的服务器坏了,你要用多少时间将其恢复到能正常工作,你的用户能容忍多长的恢复时间就能理解双机的重要性了。
从另外一个方面,RAID以及磁带备份也是非常需要的。对于RAID而言,可以以很低的成本大大提高系统的可靠性,而且其复杂程度远远低于双机。因为毕竟 硬盘是系统中机械操作最频繁、易损率最高的部件,如果采用RAID,就可以使出现故障的系统很容易修复,也减少服务器停机进行切换的次数。
双机热备的实现模式
双机热备有两种实现模式,一种是基于共享的存储设备的方式,另一种是没有共享的存储设备的方式,一般称为纯软件方式。
基于存储共享的双机热备是双机热备的最标准方案。
对于这种方式,采用两台服务器,使用共享的存储设备(磁盘阵列柜或存储区域网SAN)。两台服务器可以采用互备、主从、并行等不同的方式。在工作过程中,两台服务器将以一个虚拟的IP地址对外提供服务,依工作方式的不同,将服务请求发送给其中一台服务器承担。同时,服务器通过心跳线(目前往往采用建立私有网络的方式)侦测另一台服务器的工作状况。当一台服务器出现故障时,另一台服务器根据心跳侦测的情况做出判断,并进行切换,接管服务。对于用户而言,这一过程是全自动的,在很短时间内完成,从而对业务不会造成影响。由于使用共享的存储设备,因此两台服务器使用的实际上是一样的数据,由双机或集群软件对其进行管理。
对于纯软件的方式,则是通过支持镜像的双机软件,将数据可以实时复制到另一台服务器上,这样同样的数据就在两台服务器上各存在一份,如果一台服务器出现故障,可以及时切换到另一台服务器。
纯软件方式还有另外一种情况,即服务器只是提供应用服务,而并不保存数据(比如只进行某些计算,做为应用服务器使用)。这种情况下同样也不需要使用共享的存储设备,而可以直接使用双机或集群软件即可。但这种情况其实与镜像无关,只不过是标准的双机热备的一种小的变化。
双机热备、双机互备与双机双工的区别
双机热备即是目前通常所说的active/standby方式,服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。当active服务器出现故障的时候,通过软件诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常使用。
双机互备,在双机热备的基础上,两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性。这种方式实际上是双机热备的一种应用。它避免了两个应用使用四台服务器分别实现双机热备。
双机双工,两台或多台服务器均为活动,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份。需要利用磁盘柜存储技术(最好采用san)。对于数据库服务而言,它同时需要数据库软件的支持,是比较复杂的。
B. 双机热备典型组网分析
设备的业务接口工作在三层,上下行连接交换机的组网。
如图1所示,FW的上、下行业务接口工作在三层,分别与二层交换机直连。
此组网既可以用于主备备份方式,又可以用于负载分担方式的双机热备。
1.1.1.1主备备份
图1 业务接口工作在三层,上下行连接交换机的主备备份组网
如图1所示,在FW_A的业务接口上配置VRRP备份组,并将其状态设置为Active。在FW_B的业务接口上配置VRRP备份组,并将其状态设置为Standby。将内网PC的网关设置为VRRP备份组的虚拟IP地址。
正常情况下,网络运行情况分析如下:
1. PC将用于请求网关地址(VRRP备份组1地址)对应MAC地址的ARP报文发送给交换机。交换机在网络中广播此ARP报文。
2. 只有VRRP备份组状态为Active的设备FW_A才会应答此ARP报文,反馈VRRP备份组1的虚拟MAC地址。
3. 交换机会记录VRRP备份组1的虚拟MAC地址与端口Eth0/0/1的关系,然后将此虚拟MAC地址发送给PC。
4. PC将业务报文发送给交换机,业务报文的目的MAC地址为VRRP备份组1的虚拟MAC地址。
5. 交换机根据记录的MAC地址与端口的关系,将报文从端口Eth0/0/1转发,发送给FW_A。
这样在正常情况下,内网PC发出的流量就都通过主用设备FW_A转发了。
图2 发生故障后
如图2所示,当FW_A发生故障后,网络运行情况分析如下:
1. 当FW_A的业务接口故障时,FW_A切换成备用设备,FW_B成为主用设备。
2. 新主用设备FW_B会对外发送免费ARP报文后,报文中包含VRRP备份组的虚拟IP地址和虚拟MAC地址。
3. 交换机收到免费ARP报文后会更新MAC地址与端口的对应关系(将VRRP备份组1的虚拟MAC地址与端口Eth0/0/2对应)。
4. 当PC将业务报文发送给交换机时,报文将从交换机的端口Eth0/0/2转发,发送给FW_B。
这样在FW_A故障时,内网PC发出的流量就都通过新主用设备FW_B转发了。
1.1.1.2负载分担
如图3所示,按照如下配置部署负载分担组网:
· 在FW_A的GE1/0/1上配置VRRP备份组1,并将其状态设置为Active;配置VRRP备份组2,并将其状态设置为Standby。
· 在FW_B的GE1/0/1上配置VRRP备份组1,并将其状态设置为Standby;配置VRRP备份组2,并将其状态设置为Active。
· 将内网一部分PC的网关设置为VRRP备份组1的虚拟IP地址,另一部分PC的网关设置为VRRP备份组2的虚拟IP地址。
· 在FW_A的GE1/0/3上配置VRRP备份组3,并将其状态设置为Active;配置VRRP备份组4,并将其状态设置为Standby。
· 在FW_B的GE1/0/3上配置VRRP备份组3,并将其状态设置为Standby;配置VRRP备份组4,并将其状态设置为Active。
· 在Router上配置两条静态路由,下一跳分别为VRRP备份组3的虚拟IP地址和VRRP备份组4的虚拟IP地址。
回来的报文什么情况?所有回的报文只能走其中一台防火墙,必须使防火墙会话快速备份。
这样正常情况下,FW_A的接口GE1/0/1转发下一跳为VRRP备份组1的虚拟IP地址的报文,FW_B的接口GE1/0/1转发下一跳为VRRP备份组2的虚拟IP地址的报文。一部分PC的流量通过FW_A转发,另一部分PC的流量通过FW_B转发,形成负载分担。
图3 业务接口工作在三层,上下行连接交换机的负载分担组网
C. 双机热备的原理及应该注意哪些问题!
问:能解释一下什么是双机热备吗? 答:所谓双机热备,就是将中心服务器安装成互为备份的两台服务器,并且在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会迅速的自动启动并运行(一般为2分钟左右),从而保证整个网络系统的正常运行!双机热备的工作机制实际上是为整个网络系统的中心服务器提供了一种故障自动恢复能力。 问:什么时候需要双机热备呢? 答:这个问题其实比较简单,一般服务器要长年累月的工作,其备份工作就绝对少不了。所以,决定是否使用双机热备,笔者觉得应首先对系统的重要性,以及终端用户对服务中断的容忍程度进行考虑,然后再来决定是否使用双机热备。比如网络中的用户最多能容忍多长时间恢复服务?如果服务不能很快恢复会造成什么样的后果等等。 问:已经采取了RAID技术和数据备份技术,还有必要做双机热备吗? 答:这其实没有个明确的区分,RAID和数据备份都同等重要!数据备份只能解决系统出现问题后的恢复;而RAID技术,以笔者的使用经验来看又只能解决硬盘的问题。我们知道,当服务器本身出现问题时,不论是设备的硬件问题还是软件系统的问题,都会造成服务的中断,而RAID及数据备份技术恰恰就不能解决避免服务中断的问题。所以,对于高安全需求、持续可靠的提供应用服务的网络系统来说,双机热备还是非常重要的。其实我们可以这样想:如果你的服务器坏了,你要用多少时间将其恢复到能正常工作?这样你就能理解双机热备的重要性了! 问:双机热备方案与集群的区别? 答:从概念上来讲,双机热备属于集群中的一种。集群一般包括两类:一类是纯应用服务器的集群,即各个应用服务器都访问统一的数据库服务器,但彼些并不需要文件共享存储等,这种集群是比较简单的。另一类是数据库服务器的双机热备,这种双机热备实现,一般是两台服务器同时使用共享的存储设备,并且在普遍的情况下,均采取主、备的方式(也有高端的系统采用并行的方式,即两台服务器同时提供服务)。 问:数据库服务如何使用双机热备? 答:通过软件方式实现双机热备。即不采用共享的存储设备,而是本机数据可以直接在多台主机间流动。显而易见,此种方式最大的优点就是节约了昂贵的存储设备投资,而其缺点也不难发现:会产生数据的前后不一致、或者会影响数据库读取的速度。我们看看这样一个例子:如果在服务中断时切换到备份服务器,则可能有少量已经在主机完成的事务在备机上尚未实现。而与备份数据的恢复不同,备机启动后,后面的操作已经进行,因此丢失的数据包要找回就相当难。故此种方式适用于对于丢失少量数据不是非常敏感的系统。在这儿提一下标准的解决方法,即基于共享存储设备和双机软件实现双机热备。它可以在无人值守的情况下提供快速的切换,并且不会有数据丢失现象,而购买存储设备等投资也会比较高。 问:如何选择与实施双机热备的配置方案? 答:1.以应用为主导,进行认真的分析。以高可用性为宗旨。
D. 双机热备的方案
组成双机热备的方案主要的三种方式分别为:基于共享存储(磁盘阵列)的方式,全冗余方式和复制方式。
基于共享存储(磁盘阵列)的方式
共享存储方式主要通过磁盘阵列提供切换后,对数据完整性和连续性的保障。用户数据一般会放在磁盘阵列上,当主机宕机后,备机继续从磁盘阵列上取得原有数据。如下图所示这种方式因为使用一台存储设备,往往被业内人士称为磁盘单点故障。但一般来讲存储的安全性较高。所以如果忽略存储设备故障的情况下,这种方式也是业内采用最多的热备方式。
全冗余方式
全冗余方式就是双机双存储,基于单台存储的传统双机热备方式,确实存在存储单点故障的情况,为实现存储冗余,存储高可用也已经越来越多的被用户接受。我们从理解上可以看出,双机热备最早是为解决服务器的计划性停机与非计划性宕机的解决方案,但是我们无法实现存储的计划性停机与非计划性宕机带来的服务器停机,而存储作为双机热备中唯一存储数据的设备,它一旦发生故障往往会造成双机热备系统全面崩溃。
随着科技的进步,云存储,云计算发展,对于存储热备已经进入了成熟及快速发展阶段,双机热备也随着技术的进步,进入到了没有单点故障的全冗余双机热备方式。如图:
这种方式的特点在于:
1、存储之间的数据复制不经过网络,而是由存储之间进行复制。
2、两个存储之间的复制是完全实时的,不存在任何时间延时。
3、主备存储之间的切换时间小于500ms,以确保系统存储时不产生延时。
4、硬盘盘符及分区不因为主备存储之间的切换而改变。
5、服务器的切换,不影响存储之间的初始化,增量同步及数据复制。
6、某一存储设备的计划性停机,不影响整个服务器双机热备系统的工作。
7、存储设备之间使用重复数据删除技术,完成增量同步工作。
8、真正的7X24小时或切换的全冗余方案。
复制方式
这种方式主要利用数据的同步方式,保证主备服务器的数据一致性。
基于数据复制的方式有多种方法,其性能和安全也不尽相同,其主要方法有以下几种:
A、单纯的文件方式的拷贝不适用于数据库等应用,因为打开的文件是不能被复制的,如果要复制必须将数据库关闭,这显然是不可以的。以文件方式的复制主要适用于WEB页的更新,FTP上传应用,对主备机数据完整性,连续性要求不高的情况下使用。
B、利用数据库所带有复制功能,比如SQLServer2000或2005所带的定阅复制,这种方式用户要根据自己的应用小心使用,原因主要是:
(1)SQLServer的定阅复制会在用户表上增加字段,对那些应用软件编程要求较高,如果在应用软件端书写时未明确指定字段的用户,而使用此功能会造成应用程序无法正常工作。
(2)数据滞留,这个限制怕也是最要命的,因为SQLServer在数据传输过程中数据并非实时的到达主备机,而是数据先写到主机,再写到备机,如此一来,备机的数据往往来不及更新,此时如果发生切换,备机的数据将不完整,也不连续,如果用户发现已写入的数据在备机找不到,重新写入的话,则主机修复后,就会发生主备机数据严重冲突,数据库会乱掉。
(3)复杂应用切莫使用定阅复制来做双机热备,包括数据结构中存储过程的处理,触发器和序列,一旦发生冲突,修改起来非常麻烦。
(4)服务器性能降低,对于大一点的数据库,SQLServer2000或2005所带的定阅复制会造成服务器数据库运行缓慢。
总之SQLServer2000或2005所带的定阅复制主要还是应用于数据快照服务,切莫用他来做双机热备中的数据同步。
C:硬盘数据拦截,目前国际国内,比较成熟的双机热备软件通常会使用硬盘数据拦截的技术,通常称为镜像软件即Mirror软件,这种技术当前已非常成熟,拦截的方式也不尽相同。
(1)分区拦截技术,以Pluswell热备份产品为例,他采用的是一种分区硬盘扇区拦截的技术,通过驱动级的拦截方式,将数据写往硬盘的数据提取,并首先写到备用服务器,以保证备用服务器的数据最新,然后再将数据回写到主机硬盘。这种方式将绝对保证,主备机数据库的数据完全一致,无论发生哪种切换,都能保证数据库的完整性与连续性。由于采用分区拦截技术,所以用户可以根据需要在一块硬盘上划分适合大小的分区来完成数据同步工作。
(2)硬盘拦截技术,以Symantec的Co-Standby为例,也是一种有效的硬盘拦截软件,他的拦截主要基于一整块硬盘,往往在硬盘初始化时需要消耗大量的时间。
双机热备中需要指出的几个概念

E. 什么是双机热备和集群
双机热备这一概念包括了广义与狭义两种意义。
从广义上讲,双机热备</B>(双机容错)就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务
双机热备</B>由备用的服务器解决了在主服务器故障时服务不中断的问题。但在实际应用中,可能会出现多台服务器的情况,即服务器集群
双机热备</B>一般情况下需要有共享的存储设备。但某些情况下也可以使用两台独立的服务器
实现双机热备</B>,需要通过专业的集群软件或双机软件
从狭义上讲,双机热备</B>特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过双机软件的诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常使用
F. 冗余和双机热备有什么区别
冗余:指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间。
双机热备:就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。
从概念上看冗余的范围更大,可以包括整个系统或系统的一部分,而双机热备只对服务器或cpu冗余。
在上位机服务器方面就是一个概念了。
G. 各位好,我想做一个双机热备份,请教大家需要的软硬件设备都是什么
我这里有一个双机方案文档 你可以参考下
IBM x3650 DS3200 双机热备方案
IBM X3650服务器+DS3200 SAS 磁盘柜双机热备方案
双机热备方案所需软硬件清单如下:
1、IBM X3650 服务器2台(具体配置根据需求选配)
2、IBM DS3200 磁盘柜一台(单控制器,单SAS 接口)
3、SAS HBA 卡2块(每台服务器各加一块)
4、双机模块(子卡)一块
5、SAS 连接线2条
6、双机热备软件(ROSE HA OR LIFEKEEPER )一套
DS3200/DS3400安装心得及技巧
这应该是网络上第一篇关于IBM System Storage DS3200和DS3400产品安装的非官方性文章,希望可以对大家的工作中带来帮助。
作为DS400产品的更新型号,DS3200和DS3400提供了更强的性能及灵活性,相信会成为今后一两年内的IBM低端存储产品的首选。
DS3200和DS3400均出自于LSI公司的Engenio系统(DS4000系列的大部分产品也是由Engenio为IBM协议设计及生产,去年Engenio被LSI收购)。所以设计思想和结构与DS400(Adapter公司设计)会有较大的不同,管理方式也会与DS4000系列较为接近。
DS3000系列均需要在自身上安装不少于4个硬盘。建议先装上硬盘再上电开机。
DS3000系列提供与DS4000系列类似的带内和带外两种管理方法,带外管理的默认IP地址也与DS4000一样,控制器A为192.168.128.101,控制器B为192.168.128.102。
本人比较喜欢采用带外管理,将本本网卡设至192.168.128网段后,可以ping通即可。管理口长时间未起用时需要若干分钟的时候等待管理接口工作。
在本本上安装DS3000 Storage Manager(随机附带),注意该SM与DS4000上的Storage Manager为不同程序,不可替换使用。甚至不能在一台机器上共存。
打开Storage Manager后,首先需要发现设备,可以ping通控制器后,发现工作会非常容易。
双击发现的设备就可以进入该设备的管理界面,学名叫Subsystem Management。
Subsystem Management分为5个大项,Summary,Configure,Modify,Tools,Support。
常规的操作这里不再详述,如果你装过DS4000产品,应该对配置方法不会感到陌生。
当然Storage Manager里只提供一些常规功能,在遇到问题的时候,比如需要重置手动清零时在该程序里无法完成的,所以与DS4000产品一样,提供了Script的方式,运行Script有两种方法。方法一:在DS3000 Storage Manager 的Enterprise Manager界面里右击单击所找到的设备,选择Execute Script。方法二,在c:\program files\IBM_ds3000\client\里找到smcli.exe程序,使用smcli ip-address -c "commandline;"的方式执行。
DS3200和DS3400都会有单控和双控两种机型。如果您购买的是单控的型号,而在安装时发现系统有类似找不到第二个控制器的电池,冗余路径丢失的错误,那是由于未将系统设置成单控工作模式所引起的,遇到这种方法,可以在Execute Script窗口下键入:
set storageSubsystem rendancyMode=simplex;
然后,选择Tools菜单下的Execute only来执行。
如果遇到需要重置系统设置的需要也可以在同样的窗口下执行:
clear storageSubsystem configuration / eventlog等。
当然如果大家有兴趣也可以进一步借助该系统了解一下更多的命令功能,相信会对进一步masting该设备有更好的帮助。
最后提供一些DS3000系列做配置时的注意事项:
1. 所有的3000系列产品,包括EXP3000、DS3200、DS3400使用时,至少配置4块硬盘才可使用
2. EXP3000只能与一台服务器连接,不能连接两台服务器,所以也不支持微软的双机MSCS
3. 与EXP3000连接的卡只能用MegaRAID PCI-e卡 (39R8850)
4. IBM system x3650自带的SAS接口是为连接SAS磁带机准备,不能与EXP3000连接。(理论上可以,但IBM不予支持)
5. 服务器与EXP3000的连接线为3m MegaRAID SAS Cable 39R6471
6. EXP3000与EXP3000扩展式的连线为SAS Cable 1m的39R6529和3m的39R6531,不可与MegaRAID线混用
7. 服务器与DS3200连接的卡只能用SAS HBA PCI-e 卡 25R8060,连接线是1m的39R6529与3m的39R6531
8. DS3200每个控制器上只带一个SAS主机端口,但通过一个SAS 2-Port Daughter Card 39R6509 可以使每个控制器增加至3个端口
9. DS3200默认带4分区license 不带flash和volume功能,要升级分区,flash及volume的功能需先购买39R6540 DS3200 Software Feature Pack,然后再购买相应的功能包,也就是说39R6540是购买后续升级功能的前提。
10. 服务器与DS3400的连接可以用任何标准的4Gb HBA卡,连接线就是标准的FC cable,但请注意在DS3400上需要选配4GB的SFP
11. DS3400每个控制器上带2个主机接口,没有扩充选择
12. DS3400默认带2分区License 不带flash和volume功能,要升级分区 flash及volume的功能需要先购买42C2143 DS3400 Software Feature Pack,然后再购买相应的功能包,也就是说42C2143是购买后续升级功能的前提,与DS3200的升级方法相同,但产品号不同。
方案组成:
本方案由IBM X3650服务器两台,DS3200磁盘柜一台,ROSE HA软件一套组成实现。
工作原理:
RoseHA双机系统的两台服务器(主机)都与磁盘阵列(共享存储)系统直接连接,用户的操作系统、应用软件和RoseHA高可用软件分别安装在两台主机的内部存储(硬盘)上,数据库等共享数据存放在存储系统上,两台主机之间通过私用心跳网络连接。系统主机开始工作后,RoseHA软件开始监控系统,通过私用网络传递的心跳信息,每台主机上的RoseHA软件随时监控另一台主机的状态。当工作主机发生故障时,心跳信息就会产生变化,这种变化可以通过私用网络传递到备份机的RoseHA软件。之后,RoseHA就会控制系统进行服务切换,备份机启动和工作主机一样的应用程序,接管工作主机的工作(包括提供TCP/IP网络服务、文件共享、数据库等服务),并进行报警提示管理人员对故障主机进行维护。当维护完毕后,RoseHA可以自动或手动地将切换回原先的工作主机。也可以选择不切换,此时维修好的主机就作为备份机,双机系统继续工作。
解决方案优点:
l 对服务器硬件配置要求不高,可以根据应用情况采用不同型号或配置。
l 系统切换时间短,最大程度减少业务中断的影响。
l 切换过程对应用程序无影响,无需重新启动或登录,做到无人值守。
l 系统效率高,系统中数据读写、管理及容错由磁盘阵列来完成。而系统服务器故障监控切换处理由HA软件来完成。双机监控依靠RS232线路或专用100/1000M自适应网卡线路,既不占用主机CPU资源也不占用基础业务网络带宽,是RoseHA的特色功能,在实际的应用中得到用户的一致好评。
l 支持丰富的应用配置,譬如:Oracle,SQLServer,Sybase,Exchange 等。
l 硬件可采用机架式结构,便于维护管理。
H. 双机热备份的原理
双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜(也可没有,而是在各自的服务器中采取RAID卡)及相应的双机热备份软件组成。
在这个容错方案中,操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据是通过磁盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。
双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号停止表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳” 信号,则系统的高可用性管理软件认为主机系统发生故障,主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。
双机热备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。

I. CISCO 3560 双机热备
LZ是指interface track和preempt?
最好都配,interface track的作用是监控你的上联出口,如果不做,HSRP将无法发现链路中断的问题,因为交换机本身是正常的,所以不会做切换,这个特性基本是必配的。
至于preempt,一般也要配,因为我们一般都是双机互备,什么叫双机互备呢?就是说一台交换机做一部分网段的主网关,另一台交换机做另外一部分网段的主网关,并且互相备份,这样做的好处是两台设备都会承担一部分流量处理工作,整个网络的利用率比较高,不会出现一台设备空跑的情况。那么在这种情况下,如果不配preempt,一旦某台设备坏掉,则所有网段的流量将会走另一台,这个是没问题的。但是当坏掉的设备恢复后,将无法夺回原本的地位,所有流量仍然走另一台设备,这样的话整个网络利用率就不高。
明白了吗?
J. 关于交换机双机热备的问题,现象为终端可以ping通主机,但ping不通备机。
不是这样理解的。
正常情况下,热备份组内的所有设备应该都要正常工作,都可以ping通。
只不过只有一台是ACTIVE的状态(主机),另外一台是STANDBY的状态(备机)。他们之间是通过优先级PRIORITY值竞选出来的,PRIORITY值大的被选举为主机,处于ACTIVE的状态,负责转发流量。;RIORITY值相同,则IP地址大的交换机为ACTIVE。
如果备机ping不通,则两台交换机之间的选举工作就无法实现,热备份组就无法工作。
你在这里还要清楚的一件事情就是,不管是主机还是备机,都不是用接口的IP地址来为用户提供网关服务的,而是用热备份组的虚拟IP地址来做网关。同一个热备份组的虚拟IP都必须一样,这样对用户来说才是透明的。也就是说,不管哪台交换机处于ACTIVE的状态,用户的网关都不变,这才是热备份的精髓。
小结:正常情况下,主机、备机的IP地址,以及热备份组的虚拟IP地址都应该可以ping通,如果有某一个IP地址ping不同,就是有故障的。(当然,对用户来说,也许还可以上网,只是热备份组的工作不正常了)
希望对你有帮助。