Dowiedz się o awarii swojego serwisu przed twoimi klientami. Witryna WWW jest podstawowym narzędziem biznesu w internecie, ale spełnia swą funkcję tylko wtedy, gdy jest dostępna dla użytkowników. Każda przerwa w pracy oznacza utracone zyski oraz może prowadzić do odpływu klientów. Dlatego istotne jest szybkie wykrycie problemu.
Zanim dowiemy się o wystąpieniu usterki, musi upłynąć pewien czas. Zazwyczaj wynosi on 1-2 godziny w dzień oraz 5-6 godzin w nocy. Okres ten możemy skrócić do kilku minut, jeśli skorzystamy z oferty firmy zajmującej się profesjonalnie badaniem stanu serwerów internetowych. W ramach usługi monitoringu nasz serwer będzie sprawdzany w równych odstępach czasu (mamy do wyboru kilka predefiniowanych częstotliwości z przedziału 1-60 minut). Kiedy tylko stacja monitorująca wykryje problemy z pracą naszego serwisu, natychmiast wyśle powiadomienie do wybranej osoby.
Monitoring zewnętrzny – czy warto z niego korzystać?
Wewnętrzny monitoring może informować o kłopotach z siecią firmową oraz o problemach z łączem do internetu, nie jest jednak w stanie sprawdzić, czy zdalne połączenia potrafią uzyskać dostęp do serwisu (np. poprzez nieprawidłowo skonfigurowany firewall).
Ponieważ zewnętrzny monitoring przeprowadza badanie spoza infrastruktury firmy hostingowej (w ten sam sposób, w który użytkownicy uzyskują dostęp do serwera), daje gwarancję, że serwis jest dostępny dla świata zewnętrznego.
Zlecenie monitoringu firmie zewnętrznej daje jeszcze jedną korzyść. Ponieważ sieć monitorująca składa się z kilku lub kilkunastu stacji rozrzuconych po całym świecie, otrzymujemy szczegółowe informacje na temat dostępności serwisu z różnych węzłów internetu.
Stosowanie wielu serwerów monitorujących umożliwia także eliminację fałszywych alarmów powodowanych przez lokalne przerwy w komunikacji – kiedy nastąpi wykrycie błędu przez jedną ze stacji, system uruchamia procedurę testową z pozostałych lokalizacji. Wszczęcie alarmu następuje dopiero wtedy, gdy wszystkie testy potwierdzą brak dostępu do serwisu.
Powiadamianie o awarii
Kiedy stacja monitorująca wykryje nieprawidłowości w pracy serwisu, wysyła komunikat alarmowy do osób, które będą w stanie zająć się rozwiązaniem problemu. Dlatego przed uruchomieniem usługi musimy zdefiniować listę kontaktów, które będą informowane o wystąpieniu usterki. Maksymalna liczba powiadamianych osób oraz dostępne metody komunikacji różnią się w zależności od usługodawcy oraz od wykupionej opcji.
Podstawową formą kontaktu jest e-mail (tę opcję oferują wszystkie firmy monitorujące). Wiadomość może zostać również wysłana na telefon komórkowy lub pager, ale za to trzeba dodatkowo zapłacić. Rzadziej spotyka się wysyłanie powiadomień za pośrednictwem komunikatorów internetowych oraz automatyczne połączenia telefoniczne informujące o źródle alarmu.
Przesłana wiadomość zawiera zazwyczaj nazwę hosta, rodzaj błędu oraz czas jego wystąpienia. Czasami możemy samodzielnie określić jakie informacje mają się pojawiać w otrzymywanych komunikatach. Inne opcje konfiguracyjne pozwalają ustawić ponawianie powiadamiania co pewien czas, aż do momentu, gdy ustanie stan alarmu lub gdy któryś z kontaktów wyśle potwierdzenie otrzymania wiadomości. Z kolei dla osób, które chcą być informowane o problemach tylko w pewnych okresach dnia lub tygodnia można zdefiniować przedziały czasu, w których powiadamianie będzie wyłączone.
Techniki testujące – jak to działa
Najprostszy test dostępności polega na wysłaniu do serwera komunikatu kontrolnego ICMP (Ping). Jeśli komputer odpowie, to znaczy, że jest uruchomiony. Takie badanie nie daje jednak gwarancji, że działające na serwerze aplikacje funkcjonują prawidłowo. Dlatego dodatkowo sprawdza się komputery pod kątem konkretnych usług.
W przypadku serwera WWW badanie sprowadza się do nawiązania z nim połączenia, wysłania prostego zapytania, a następnie sprawdzenia otrzymanej odpowiedzi. Jeśli kod odpowiedzi wynosi 200 (OK), 301 (przekierowanie trwałe), 302 (przekierowanie), 401 (brak autoryzacji) lub 403 (dostęp zabroniony), to przyjmuje się, że serwer działa prawidłowo. W podobny sposób weryfikuje się działanie usług FTP, telnet, DNS, SMTP itd.
Inna technika polega na pobraniu z serwera konkretnego pliku (najczęściej strony WWW). Pozwala to badać dostępność poszczególnych elementów serwisu, jak również zabezpieczyć się przed nieautoryzowaną zmianą zawartości strony (np. przez wirusy lub hakerów).
W tym celu stacja monitorującą przechowuje kopię badanej strony (lub jej sumę kontrolną) i podczas każdego badania porównuje ją z pobraną wersją. Metoda ta nie może być jednak stosowana w przypadku stron tworzonych dynamicznie, gdyż ich treść ulega zmianie podczas każdej odsłony. W takim przypadku można monitorować stronę pod kątem występowania wybranych słów kluczowych, których brak spowoduje uruchomienie alarmu.
Obok serwerów WWW często testuje się również serwery pocztowe. Najczęściej sprowadza się to do próby nawiązania połączenia za pośrednictwem odpowiedniego portu. Takie rozwiązanie pozwala określić czy serwer działa, ale nie sprawdza czy wiadomości pocztowe są przetwarzane prawidłowo. Aby dokładnie zbadać działanie serwera i jego podsystemów (ochrona antywirusowa, filtrowanie wiadomości itp.), system monitorujący wysyła wiadomość testową.
Wiadomość może zostać przesłana na jeden z adresów pocztowych już funkcjonujących na serwerze, chociaż zalecane jest stworzenie specjalnego konta przeznaczonego wyłącznie dla obsługi maili testowych. Istotne jest, aby docelowe konto pocztowe miało włączoną opcję automatycznego wysyłania odpowiedzi (autoresponder). Gdy serwer otrzyma wiadomość kontrolną, odeśle ją z powrotem do stacji monitorującej.
Jedną z podstawowych zalet obecności w internecie jest możliwość prezentowania swojej oferty 24 godziny na dobę, 7 dni tygodniu. Brak dostępu do serwisu oznacza utratę tej korzyści. Ponieważ prawidłowo funkcjonujący serwis stanowi istotny element budowania przewagi konkurencyjnej w sieci, dlatego należy upewnić się, że wszystkie elementy witryny działają poprawnie.
Jeśli nasza witryna jest dostępna przez 99% czasu, to i tak przez 7 godzin miesięcznie jest nieosiągalna dla klientów. Użytkownicy zniechęceni brakiem obsługi mogą ponownie się już nie pojawić. Zapewnienie ciągłości pracy jest więc niezmiernie ważne, gdyż inwestowanie w usługi z których nie można korzystać nie ma sensu.
Przerwy w pracy serwisów internetowych
Planowane
Do tej kategorii zaliczamy przestoje niezbędne do dokonania modyfikacji w systemie (upgrade oprogramowania, rekonfiguracja serwera, instalacja nowej usługi itp.) lub zmiany zawartości serwisu (np. aktualizacja bazy danych). Planując taką przerwę należy dokonać analizy rozkładu obciążenia witryny i wybrać czas, kiedy niedostępność usługi spowoduje najmniejsze zakłócenia w pracy.
Częściowo planowane
Są to przerwy wymuszane przez dostawców sprzętu lub oprogramowania. Na przykład producent programu udostępnia patcha, który powinien zostać jak najszybciej zainstalowany, aby załatać dziurę w systemie. O konieczności przestoju decyduje więc producent, ale dokładny moment przerwy wybiera obsługa serwisu.
Nieplanowane
W tej grupie znajdują się wszystkie zdarzenia powodujące niespodziewane przestoje w pracy systemu. Najczęściej są to awarie sprzętu lub oprogramowania, błędy popełniane przez administratorów, ataki na system, akty sabotażu, klęski żywiołowe. Jest to najbardziej destrukcyjny rodzaj przerw, gdyż brak wiedzy o momencie wystąpienia i rodzaju usterki ogranicza możliwość odpowiedniego zabezpieczenia serwisu.
Dostępność to nie wszystko
Prawidłowe funkcjonowanie serwisu nie gwarantuje jeszcze właściwej obsługi użytkowników. Zbyt wolne działanie serwera (np. w skutek dużej liczby odwiedzin) może sprawić, że korzystanie z witryny zostanie bardzo utrudnione lub wręcz uniemożliwione.
Dlatego obok sprawdzania dostępności warto również mierzyć czas jaki zabiera witrynie udzielenie odpowiedzi na zapytanie stacji monitorującej. Czas odpowiedzi jest mierzony od momentu zainicjowania połączenia do momentu odebrania pierwszego bajtu.
Wydajność serwisu można również określić na podstawie czasu potrzebnego na ściągnięcie konkretnej strony WWW. W ramach testu odczytywany jest tylko kod HTML bądź też pobierana jest cała zawartość strony (kod HTML + grafika, zewnętrzne arkusze stylów, animacje Flash itp.).
Konfigurując usługę monitorowania wydajności należy pamiętać o zdefiniowaniu progu (np. 10 sekund) określającego oczekiwany czas odczytu strony. Jego przekroczenie spowoduje automatyczne wysłanie powiadomienia o problemach z wydajnością serwera.
Uptime i downtime
Podstawowymi wskaźnikami określającymi niezawodność systemu komputerowego są: czas prawidłowej pracy komputera (uptime) oraz okres, przez który komputer nie pracował (downtime). Poniżej przedstawiony jest miesięczny czas przestoju w zależności od wartości wskaźnika uptime.
Uptime (%) a miesięcznie Downtime:
- 95 – 36 godzin 36 minut
- 99 – 7 godzin 19 minut
- 99,9 – 43 minuty 55 sekund
- 99,99 – 4 minuty 24 sekundy