当前位置: 首页 > 图文教程 > 操作系统 > Unix/Linux > 安装大型Linux 集群: 简介和硬件配置

Unix/Linux
Linux 备份 恢复方法
Linux玩CS反恐精英的方法
在一个ISO镜像中集成多个不同的linux发行版,可刻盘,可引导
Linux 快捷键使用
Linux DHCP 服务器配置方法介绍
Linux 22端口的修改方法
Linux 记录会话过程的命令
Linux 后台执行程序如何操作?
linux Wget命令来浏览网页的方法
Linux tail命令的巧妙应用
Wine 中文存在很多的乱码怎么解决方法
linux 新手教程之创建锁文件的方法
配置Linux 保证其系统的安全
Linux DHCP协议实现过程
Linux系统下破解SAM密码
linux/unix vi 编辑器用法详解
Linux 误删文件的解决方法
Linux系统下的历史记录删除方法
Red Hat Linux 安全设置指南
Linux基本命令-注销、关机、重启

Unix/Linux 中的 安装大型Linux 集群: 简介和硬件配置


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-11-01   浏览: 88 ::
收藏到网摘: n/a

    用许多分离的硬件和软件,包括 IBM® System x®(TM)和 IBM® TotalStorage® systems 创建工作的 Linux® 集群。本文是共分多部分的系列教程的第一部分,介绍了硬件配置,包括理解架构、规划逻辑网络设计、设置终端服务器以及更新固件等内容。

大型 Linux 集群系列简介

    本文是介绍安装和设置大型集群系列文章的第一篇。该系列文章的目的是把分散在公共领域不同地方的、用各种硬件和软件创建工作的 Linux 集群的过程所需要的信息,集中在一个地方。但是,这些文章并不打算介绍关于设计一个完整的新的大型 Linux 集群所需的基础知识。请参阅 参考资料 下的参考资料和红皮书获得一般性的架构指南。

    本系列的前两部分介绍集群的安装,概述了使用 IBM 系统管理软件 —— 集群系统管理(Cluster Systems Management,CSM)进行的硬件配置和安装。第一篇文章直切主题,介绍了硬件配置过程。第二篇文章介绍管理服务器的配置和节点安装。本系列后续文章将介绍集群的存储后端,包括存储硬件配置以及 IBM 共享文件系统 —— 通用并行文件系统(General Parallel File System,GPFS)的安装和配置。

    这个系列可供系统架构师和系统工程师在使用 IBM eServer 集群 1350 框架规划和实现 Linux 集群时使用。(请参阅 参考资料)。出于培训目的,正常集群操作中的一些内容可能还与集群管理员有关。

第 1 部分:集群的通用架构

在采取任何配置步骤之前,一个良好的设计至关重要。设计分为两个部分:

  • 物理设计
    • 每种机架类型的机架布局(例如,管理机架和计算机架)
    • 机房设计:在安装和生产期间(如果两者不同)应当如何布置机架
    • 机架间的连接图(用于网络、电源、控制台访问等等)
    • 机架内的电缆连接(用于存储、终端服务器等等)
  • 逻辑设计
    • 网络设计包括:IP 地址范围、子网配置、计算机命名规范等等
    • CSM 配置,包括:定制脚本位置、硬件设置、监视需求
    • 操作系统需求、定制包列表、系统配置选项
    • 存储布局,包括文件系统布局、分区、复制等等

    示例集群(请参阅图 1)完全由基于 Intel® 或 AMD 的 IBM Systems 计算机以及附加的 TotalStorage 子系统构成(关于这些系统的更多信息,请参阅 参考资料。)为简单起见,用千兆铜线以太网电缆提供集群的内部连接。电缆在多数情况下可以用 bonded/port-channeled/etherchannel 链接提高机架间的带宽,从而提供良好的传输速率 在这里插入自己喜欢的中继项 。

    网络拓扑采用星形结构,所有机架向后连接到管理机架的主交换机。示例集群使用三个网络:一个用于管理/数据(计算网络),一个用于集群文件系统(存储网络),一个用于管理性设备的管理。前两个网络是普通的 IP 网络。多数任务使用计算机网络,包括进程间通信(例如 MPI)和集群管理。存储网络专门用于集群文件系统的通信和访问。


图 1. 集群架构图 

示例集群的一些额外设计和布局细节包括:

  • 管理服务器—— 管理服务器的功能可以放在一台服务器或多台服务器上。在单台服务器环境中,管理服务器以独立模式运行。也可以设置高可用性管理服务器。可以使用 CSM 高可用性(HA)软件在两台服务器之间进行 “心跳测试”,在发生故障情况时管理服务器之间的动态故障屏蔽。引入额外管理服务器的另一种可行方法是:当 HA 在环境中不重要的时候,使用复制设置。在这种情况下,可以把管理服务器的数据备份到其他活动系统,可以通过手动设置将备份系统联机以便接管管理工作(如果有必要的话)。在 图 1 中,管理网络连接用红色显示。管理服务器是 CSM 服务器,它使用 CSM 功能专门控制集群:负责系统安装、监视、维护和其他任务。在这个集群中,只有一台管理服务器。

  • 存储服务器和磁盘 —— 可以用多种机制把多台存储服务器连接到基于磁盘的后端。可以用光纤、铜缆或结合使用二者,直接把存储器连接到集群,或者通过存储区域网络(SAN)交换机连接(请参阅 图 1)。这些服务器为集群中的其他服务器提供共享的存储访问。如果需要数据备份,请用额外的铜缆或光纤链路把备份设备连接到存储服务器。对于示例集群,存储的备份端是个单一实体,提供了跨集群的共享文件系统访问。本系列的下一篇文章介绍存储硬件和集群文件系统设置、配置和实现的细节。

  • 用户节点 —— 理想情况下,集群的计算机节点不应该