高可用性指南:VMware高可用性之最佳实践(二)

日期: 2011-05-16 作者:Elias Khnaser翻译:张瀚文 来源:TechTarget中国 英文

主机隔离 网络中有种脑分裂的现象,即ESX/ESXi主机停止从其它集群中接受心跳信号。心跳信号在vSphere4.0中每秒询问一次,或在vSphere4.1中每10秒询问一次。如果某个响应未被接收到,集群系统认为该ESX/ESXi主机发生故障。在这种情况发生时,ESX/ESXi主机在其管理界面中丢失网络连接。

该主机可能仍在线运行,而虚拟机可能由于使用不同的网络接口,亦未受影响。然而,vSphere需在其确认某台主机确实发生故障时采取措施。就这点而言,会有创建主机隔离响应。主机隔离响应是高可用性处理ESX/ESXi主机丢失网络连接所采用的一种方式。

你可以在主机隔离的情况下控制虚拟机响应方式。进……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

主机隔离

网络中有种脑分裂的现象,即ESX/ESXi主机停止从其它集群中接受心跳信号。心跳信号在vSphere4.0中每秒询问一次,或在vSphere4.1中每10秒询问一次。如果某个响应未被接收到,集群系统认为该ESX/ESXi主机发生故障。在这种情况发生时,ESX/ESXi主机在其管理界面中丢失网络连接。该主机可能仍在线运行,而虚拟机可能由于使用不同的网络接口,亦未受影响。然而,vSphere需在其确认某台主机确实发生故障时采取措施。就这点而言,会有创建主机隔离响应。主机隔离响应是高可用性处理ESX/ESXi主机丢失网络连接所采用的一种方式。

你可以在主机隔离的情况下控制虚拟机响应方式。进入虚拟机隔离响应界面,右击出现问题的集群并点击编辑设置。这样你可以在左面面板中VMware高可用性版面下点击虚拟主机选项。你可以通过设置相应的主机隔离响应选项控制集群组选项。这适用于该主机上的所有虚拟机。这就是说,你可以通过在虚拟机级别定义不同的响应方式来经常重新定义集群设置。

如下图4所示,你的隔离响应选项有以下这些:

保留上电:如标签所示,该设置意味着在主机隔离时,虚拟机仍保持上电状态。

下电:该设置规定在隔离发生后,虚拟机下电。这时物理上的下电。

关闭:该设置规定在隔离发生后,虚拟机使用VMware工具正常关闭。如果该任务在5分钟内不能成功完成,下电操作马上实行。如果VMware工具未被安装,则立刻执行下电操作。

应用集群设置:该设置将任务转交至图4之前的窗口显示的集群组设置。

虚拟机特定的隔离策略

图4:虚拟机特定的隔离策略

发生隔离事件并不一定意味着主机宕机。由于各虚拟机可能配置不同的网络接口卡并连接不同的网络环境,他们可能仍正常工作;因此你必须在设置隔离优先级时考虑到这一点。当主机隔离后,其仅仅意味着服务控制台不能和集群内的其它ESX/ESXi主机进行通讯。

虚拟机恢复优先级

当所有的虚拟机同一时刻发生故障时,你的高可用性集群可能无法完全容错,你必须设置各虚拟机的恢复优先级。优先级设置表示哪些虚拟机需要第一时刻进行重新启动,而哪些虚拟机在紧急状况发生时并不如此重要,急于恢复。这些选项的设置页面和之前章节提到的隔离响应页面相同。你可以配置集群组设置,对受影响主机上的所有虚拟机都适用,或者你也可以在虚拟机级别重新配置集群设置。

你可以按如下方式设置一个虚拟机的重新启动优先级:

高:设置高优先级的虚拟机会第一时刻重新启动。

中:默认设置。

低:设置低优先级的虚拟机会在最后重新启动。

使用集群设置:虚拟机基于集群级别设置参数进行重新启动的方式参见下图。

关闭:虚拟机不重新上电启动。

优先级的设置需要取决于各虚拟机的重要性。换句话说,你可能希望重新启动域控制器而非打印服务器。优先级越高的虚拟机会越先启动。当紧急情况发生,部分虚拟机可以根据需要下电以预留出资源。

MSCS集群

集群的主要目的在于确保关键业务系统在任意时刻以任意代价保持业务在线状态。和物理主机的集群相似,虚拟机同样可以根据以下三种情景需要配置ESX集群。

单一黑盒集群:在这种场景下,在同一台ESX/ESXi主机上运行所有虚拟机集群。你可能会马上想到这台ESX/ESXi就是一个单一故障点。正如其所连接的共享存储,在这一场景下你可以将虚拟磁盘作为共享存储使用,或者你可以在虚拟兼容模式下使用原始设备映射功能。(RDM)

跨主机集群:在这种情景模式下,各集群节点(虚拟机作为集群的各个成员)分布在多台ESX/ESXi主机上,凭借所有构成集群的节点可以访问同一存储,因此假如某台虚拟机发生故障,其余的可以继续其工作并访问相同的数据。这一场景创建了一个理想的集群环境,消除了单点故障。共享存储在这种场景下是必要的,并且一定要是光纤通道SAN架构。你同事必须使用物理上的原始设备映射或虚拟兼容性模式,因为虚拟磁盘在共享存储中无法配置。这样当有虚拟机发生故障时,组成集群的各节点可以访问同一存储,另一台可以继续其工作,访问相同的数据。

物理服务器到虚拟服务器集群:在这一场景下,集群中的一个成员是虚拟服务器,另一个却是物理服务器。这种场景下共享存储是一项先决条件,并且必须在物理兼容模式下配置原始设备映射。

无论你何时配置一个集群解决方案,你都需要解决共享存储的问题,共享存储可以允许多路主机或虚拟机访问同一数据。vSphere提供以下各种可以提供共享存储的方式:

虚拟磁盘:仅在你配置单一黑盒集群时——换句话说,只有在虚拟机都在一台ESX/ESXi主机时,你可以使用虚拟磁盘作为共享存储区域。

物理兼容模式下的原始设备映射:该模式使你可以将物理LUN直接和一个虚拟机或物理服务器连接。该模式会防治你使用快照等功能,当集群中一台设备是物理服务器而另一台是虚拟机时,这种模式是一种理想的选择。

虚拟兼容模式下的原始设备映射:该模式使你可以将物理LUN直接和一个虚拟机或物理服务器连接。该模式下你运行在VMFS上的虚拟磁盘都可以进行快照和高级文件锁定等操作。磁盘通过Hypervisor管理程序进行访问操作,当配置跨主机的集群,你需要让虚拟机都访问同一存储时,这种方式是非常理想的选择。

在本篇中,所提及的VMware支持的集群服务仅有Microsoft集群服务(MSCS)。你可以参考VMware白皮书《故障切换集群和Microsoft集群服务器安装手册》

VMware Fault Tolerance

VMware Fault Tolerance(FT)是VMware开发的虚拟机集群的另一种形式,针对要求完全在线的关键业务系统。FT中非常重要的一个特征是其非常易于部署。FT是一个可以激活的复选框。相较于传统的集群要求特定配置和实例连线,FT简单而且功能强大。

FT如何工作?

当使用FT保护虚拟机时,FT会创建一个副虚拟机和原虚拟机同步。FT同步地在主虚拟机和副虚拟机同时写入数据。每次作业都写两次。如果你在主虚拟机上点击开始菜单时,在副虚拟机上的开始菜单同样被点击。FT的作用在于同时同步两个虚拟机。

如果受保护的虚拟机发生宕机情况,副虚拟机马上接管其工作,使用其标识和IP地址,不间断地继续提供服务。这个新的受保护的虚拟机再会创建另一个副虚拟机开始下一轮保护。

用一个实例加以说明:如果你希望保护Exchange服务器,你可以启用FT功能。如果出现一些情况,装载受保护的虚拟机的ESX/ESXi主机发生故障,副虚拟机马上接手工作,期间没有任何服务中断。

下表概括了高可用性和集群技术的区别并列出各自的限制,其中集群技术必须和vSphere配合使用。

vSphere高可用性和集群支持列表

  高可用性 FT MSCS
可用性类别 高可用性 容错 容错
宕机时间 有宕机时间 无宕机时间 无宕机时间
支持的操作系统 所有 所有 仅Microsoft支持的操作系统
支持类型 均支持 支持ESX 支持硬件
硬件 硬件 处理器支持FT的硬件 仅Microsoft支持
使用场景 对所有虚拟机的高可用性 对关键虚拟机的容错 关键应用的容错

Fault Tolerance要求

Fault Tolerance和其它企业级特性并无不同,在其正常而有效地工作之前,需要有一些相应的先决条件需要满足。这些条件在以下列举出,并根据所需特定的最小要求分布在各不同类别中。

主机要求:

FT兼容处理器。点击此VMware KB 条款以获取更多信息。

BIOS固件中激活硬件虚拟化。

各主机处理器时钟频率在400MHz内。

虚拟机要求:

虚拟机必须归属在支持的共享存储上(FC,iSCSI和NFS)

虚拟机必须运行在支持的操作系统上。

虚拟机必须存储在VMDK或虚拟RDM上。

虚拟机不支持VMDK自动精简配置功能,并必须使用Eagerzeroedthick虚拟磁盘。

虚拟机不能配置超过1个vCPU。

集群要求:

所有的ESX/ESXi主机的版本和补丁必须一致。

所有的ESX/ESXi主机必须能够访问虚拟机数据存储和网络。

VMware高可用性必须在集群上激活。

各主机必须有vMotion和FT Logging NIC配置。

主机验证检测必须激活。

除了检测处理器和FT的兼容性以外,还应当检测服务器厂商和型号和FT是否兼容,可以参考VMware硬件兼容性列表(HCL)。

虽然FT是一个非常不错的集群解决方案,还是应当指出它也有一定的局限性。举例来讲,FT虚拟机不支持快照,同样也不支持Storage vMotioned。事实上,这些虚拟机会自动地标记为DRS关闭并不能参与任何动态资源负载均衡。

如何激活FT

激活FT并不复杂,不过还是涉及到一些个别的参数设置。以下设置是FT正常工作之前需要进行配置的。

激活主机认证检测:为确保该设置激活,你可以登录vCenter服务器,点击文件菜单中的管理按钮,并点击vCenter Server Settings。在左边的栏目中,点击SSL设置后点击vCenter Requires Verified Host SSL Certificates复选框.

配置主机网络:FT网络配置较为容易,和vMotion的配置步骤一样,除了不要点击vMotion复选框,如下图5点击Fault Tolerance Logging复选框。

开启/关闭FT:一旦你完成了上述步骤,你可以开启或关闭虚拟机的FT功能。其步骤同样简单:找到你希望保护的虚拟机,右击后选择Fault Tolerance,打开Fault Tolerance功能。

FT端口组设置

图5:FT端口组设置

虽然FT是第一代集群技术,但其功能优秀,简化了传统安装、配置和维护集群方式过于复杂的步骤。从确保在线时间,提供无缝的故障切换角度来讲,FT着实是项卓越的技术。

相关推荐

  • 如何应用VMware高可用性

    VMware在VI3版本中引入了高可用性特性,以防在物理主机发生故障时保护上层的虚拟机。当物理主机发生故障,虚拟机会在该集群中的其它主机上自动重新启动。

  • 高可用性指南:VMware高可用性之最佳实践(一)

    VMware高可用性工具可以在虚拟化环境中消除所需的备用软硬件。VMware高可用性常用于改善可靠性,降低整个虚拟环境的宕机时间,并改善灾难恢复和业务连续性系统。