Systemy Wysokiej Dostępności (HA)

Wyobraźmy sobie niedużą firmę produkcyjna z niedużym systemem do planowani i przygotowania produkcji oraz zarządzania gospodarką materiałową. Firma ma także niewielki sklep internetowy. Oba systemy obsługuje ten sam serwer, całkiem dobrze skonfigurowany, z markowymi zasilaczami i wysokiej jakości dyskami twardymi. Funkcjonowanie jest zatem bardzo silnie uzależnione od niezawodności serwera, sieci LAN, samego oprogramowania oraz łącza internetowego. Postawmy pytanie, co się stanie, jeśli w serwerze zepsuje się płyta główna, procesor, pamięć albo padną na raz dwa dyski?

Owszem, prawdopodobieństwo takiego wypadku jest minimalne, ale nie jest to niemożliwe. A taka awaria oznacza wyłączenie serwera i oczekiwanie na przyjazd serwisu. W najlepszym razie to kilka godzin przestoju w dostępności aplikacji i systemów. Czy firma może sobie na taką przerwę pozwolić? Jeżeli tak, nie ma problemu. Ale co się dzieje, kiedy koszty przestoju znacząco przewyższają wartość kilku serwerów i całego oprogramowania? Nie wspomniawszy o uszczerbku na wizerunku niedziałającej firmy.

W najprostszym przypadku do zbudowania rozwiązanie HA wystarczy klaster dwóch serwerów oraz macierz dyskowa. Najogólniej mówiąc serwery pracują w taki sposób, że gdy jeden ulegnie awarii, jego rolę przejmuje drugi.
Zagłębiając się nieco w aspekty techniczne, w normalnym stanie oba serwery pracują jako hosty dla maszyn wirtualnych:
• wszystkie maszyny wirtualne mają dane na współdzielonej macierzy dyskowej
• macierz ma podwójny kontroler będący zabezpieczeniem na wypadek awarii,
• mechanizmy równoważenia obciążenia (load balancing) dbają o równomierne wykorzystanie zasobów sprzętowych obu hostów. W razie potrzeby maszyny wirtualne mogą być automatycznie migrowane pomiędzy hostami bez przerywania pracy.

Gdyby zdarzyła się jakaś katastrofa albo została wykryta awaria aplikacji, maszyny wirtualnej bądź też całego hosta, system podejmuje odpowiednie działania tak, aby jak najszybciej przywrócić działanie maszyn wirtualnych i aplikacji. Zależnie od sytuacji następuje albo przeniesienie maszyn wirtualnych, albo uruchomienie ich kopii. Odbywa się to praktycznie niezauważalnie dla użytkowników, dzięki temu, że pliki maszyn wirtualnych znajdują się na współdzielonej między dwa serwery fizyczne macierzy dyskowej. Dyski w macierzy są skonfigurowane w optymalnym wariancie RAID, jako zabezpieczenie na wypadek awarii. Aby podnieść poziom niezawodności, warto macierz wyposażyć w dwa kontrolery. Wybór rodzaju interfejsu pomiędzy serwerami a macierzą zależy od wymagań co do szybkości transferu danych oraz budżetu, jaki jest do dyspozycji.

Podjęcie decyzji o modernizacji lub budowie elementów infrastruktury IT, aby była ona wysokiej dostępności wydaje się proste – szacujemy koszty przestojów wywołanych awarią któregoś z systemów informatycznych i porównujemy to z kosztami przebudowy w klasie wysokiej dostępności.

Czasami jednak trudno jest oszacować ile kosztuje zatrzymanie konkretnej aplikacji na godzinę, lub utrata danych z kilku dni. Często w budowaniu świadomości pomaga poważna awaria – nie należy jednak uczyć się na własnych błędach. Zdecydowanie taniej i lepiej skorzystać z cudzych błędów. Wystarczy sięgnąć po prasę branżową i poczytać – awarie się zdarzają, często poważne, a brak zabezpieczeń prowadzi nawet do zapaści i bankructwa firmy.

Od czego rozpocząć?

Punkt startowy to określenie, które systemy i procesy są naprawdę ważne dla firmy i jaka jest cena za godzinę przestoju lub ryzyka utraty danych. Prawnicy z Advatechu służa pomocą w kategoryzacji w oparciu o obowiązujące prawo i rekomendacje branżowe. Pomogą także w określeniu odpowiednich RPO – Recovery Point Objective i RTO – Recovery Time Objective oraz zaproponują odpowiednie scenariusze. RPO to dopuszczalny albo tolerowany czas, w którym można się obejść bez danych biznesowych, który nie spowoduje znaczących strat w biznesie. Na przykład bez dostępu do baz danych, które zbierają informacje finansowe. RTO to maksymalny czas w jakim systemy lub usługi powinny zostać przywrócone do działania. Jak się można spodziewać, im lepsze rozwiązanie, tym drożej. Na szczęście nie wszystkie dane muszą być chronione w równym stopniu. Kompleksowa analiza procesów i infrastruktury technicznej daje solidne podstawy do wyboru optymalnego wariantu inwestycji w rozwiązanie High Availability..

Dostępne metody zwiększania dostępności

Istnieje wiele metod zwiększenia niezawodności w dostępie do danych oraz ich ochrony przed utratą lub nieuprawnioną modyfikacją. Do wyboru jest cała gama produktów, od najprostszych, aż po najbardziej wyrafinowane i nowoczesne, a przez to drogie i trudne we wdrożeniu. W tym wypadku jednak wysoka cena jest pojęciem względnym – wszystko zależy od kosztów przestoju.

Konsultanci z Advatechu, w zależności od sytuacji i potrzeb klienta, mogą zaproponować budowę klastrów z rozbudowanymi mechanizmami replikacji, budowę lub wynajęcie zapasowego centrum przetwarzania, zastosowanie aplikacji w chmurze, wirtualizację lub użycie architektury rozproszonej. Na pewno okażą się pomocne zaawansowane rozwiązania hiperkonwergentne (HCI – Hyper-Converged Infrastructure) , czyli integrujące serwery, pamięci masowe oraz urządzenia sieciowe w jednym kompaktowym urządzeniu oraz odpowiednie systemy automatyzujące niezbędne działania naprawcze w czasie awarii.
Skupiając się na wysokiej dostępności nie można zapominać o regularnym wykonywaniu kopii zapasowych na dyskach, deduplikacji oraz utrzymywaniu w sprawności urządzeń taśmowych. Dla szczególnie wymagających warto utworzyć wielowarstwowy cache, który zamaskuje przed wymagającym klientem końcowym każdy problem ze źródłem danych.

Warto skorzystać z wiedzy i doświadczenia zespołu inżynierów i informatyków Advatech, którzy pomogą wdrożyć rozwiązanie High Availability i podpowiedzą, jak to zrobić najlepiej:
• przeanalizują potrzeby firmy,
• spośród dostępnych rozwiązań wybiorą to optymalne w konkretnej sytuacji,
• zaprojektują system uwzględniając wymagania w zakresie bezpieczeństwa i dostępności,
• dostarczą niezbędny sprzęt i oprogramowanie,
• wdrożą i uruchomią zaplanowane urządzenia , systemy i procedury,
• będą opiekować się rozwiązaniem, jeżeli taka będzie decyzja klienta.