고가용성 클러스터(High-availability cluster, HA 클러스터, 장애 조치 클러스터)는 가동 중지 시간을 최소화하면서 안정적으로 활용할 수 있는 서버 응용 프로그램을 지원하는 컴퓨터 그룹이다. 고가용성 소프트웨어를 사용하여 시스템 구성 요소에 오류가 발생하는 경우 지속적인 서비스를 제공하는 그룹 또는 클러스터의 중복 컴퓨터를 활용하는 방식으로 작동한다. 클러스터링이 없으면 특정 응용 프로그램을 실행하는 서버가 충돌하는 경우 충돌한 서버가 수정될 때까지 응용 프로그램을 사용할 수 없다. HA 클러스터링은 하드웨어/소프트웨어 오류를 감지하고 관리자 개입 없이 다른 시스템에서 애플리케이션을 즉시 다시 시작하는 프로세스(장애 극복 기능이라고 함)를 통해 이러한 상황을 해결한다. 이 프로세스의 일부로 클러스터링 소프트웨어는 애플리케이션을 시작하기 전에 노드를 구성할 수 있다. 예를 들어, 적절한 파일 시스템을 가져와서 마운트해야 하고, 네트워크 하드웨어를 구성해야 하며, 일부 지원 애플리케이션도 실행해야 할 수 있다.
HA 클러스터는 중요한 데이터베이스, 네트워크에서의 파일 공유, 비즈니스 애플리케이션, 전자 상거래 웹사이트와 같은 고객 서비스에 사용되는 경우가 많다. HA 클러스터 구현에서는 단일 장애 지점을 제거하기 위해 클러스터에 중복성을 구축하려고 시도한다. 여기에는 여러 네트워크 연결 및 저장 영역 네트워크를 통해 중복적으로 연결된 데이터 저장소가 포함된다.
HA 클러스터는 일반적으로 클러스터에 있는 각 노드의 상태를 모니터링하는 데 사용되는 하트비트(heartbeat) 개인 네트워크 연결을 사용한다. 모든 클러스터링 소프트웨어가 처리할 수 있어야 하는 미묘하지만 심각한 조건 중 하나는 분할 브레인이다. 이는 모든 개인 링크가 동시에 다운되지만 클러스터 노드는 여전히 실행 중인 경우 발생한다. 이런 일이 발생하면 클러스터의 각 노드는 다른 모든 노드가 다운되었다고 잘못 판단하고 다른 노드가 아직 실행 중인 서비스를 시작하려고 시도할 수 있다. 서비스 인스턴스가 중복되면 공유 저장소의 데이터가 손상될 수 있다.
HA 클러스터는 이 시나리오를 방지하기 위해 쿼럼(quorum) 감시 스토리지(로컬 또는 클라우드)를 사용하는 경우도 많다. 분할된 클러스터의 두 부분 간에 감시 장치를 공유할 수 없으므로 모든 클러스터 구성원이 서로 통신할 수 없는 경우(예: 하트비트 실패) 구성원이 감시에 액세스할 수 없으면 활성화될 수 없다.
같이 보기