Monitoring-Ansätze in der IT

Im Application Support ist zum Ende einer jeden größeren Störung eine der meist gestellten Fragen: „Wie hätten wir diese Störung verhindern können?“

Ziel des Monitorings

“If you can’t measure it, you can’t manage it.” Dieser Leitsatz ist gerade im Rahmen von Service Level Agreements von essenzieller Bedeutung. Ein gut konzipiertes Monitoring ermöglicht es, Transparenz in der eigenen IT zu schaffen und so allen bekannten Service Stakeholdern den sofortigen Status der IT-Services zu vermitteln. Das kann über die unterschiedlichsten Applikationen stattfinden.

Ein Ziel des Monitorings ist die Ermittlung der Ursachen, die Eigenschaften außerhalb gewünschter Bereiche erzeugen. Dabei dient das Monitoring dazu

die Ursache des Problems zu identifizieren und zu lokalisieren,
das Problem so frühzeitig zu erkennen und es zu beseitigen, bevor Auswirkungen auf das Business entstehen,
durch Knowhow-Gewinn die Früherkennung zukünftiger Probleme und deren Vermeidung zu stärken.

SAP Solution Manager Schulung

In dieser SAP Solution Manager Schulung vermitteln wir Ihnen die Funktionsweise des SAP Solution Managers. Sie erhalten das nötige Know-how, um selbst die Einführung des SAP SolMan durchzuführen.

Schulung ansehen

Funktioniert ein System innerhalb der erwarteten Parameter, kann ein Monitoring beispielsweise auch zur Planung der zukünftigen Nutzung herangezogen werden. Hat etwa ein Onlineshop über ein ganzes Jahr hinweg nur 50 Prozent seiner CPU genutzt, lässt sich eventuell ein physikalischer Server anderweitig einplanen. Das Gleiche gilt auch für andere Hardware-Parameter wie Festplatten- oder Arbeitsspeicher.

Ein Praxisbeispiel:

Ganz plötzlich kommt es zu einem alarmierenden Anruf aus dem Fachbereich. Dieser beschwert sich über den langsamen bzw. unterbrochenen Versand von E-Mails. Nachdem die Störung im Tickettool erstellt und erste Analysen gestartet wurden, meldet sich der Fachbereich und sagt, dass das Empfangen von geschäftskritischen Mails nun überhaupt nicht mehr funktioniert und ein hoher monetärer Verlust droht, wenn das System nicht sofort gesetzt wird. Nachdem der Second- und Third-Level-Support in die Analyse integriert wurden, stellt sich heraus, dass die Festplatten auf dem virtuellen Exchange Server vollgelaufen sind und das Sichern sowie Erstellen von neuen Mails nicht möglich ist.

Die hier beschriebene Situation ist ein Paradebeispiel für eine Störung, die schon vor der Entstehung hätte verhindert werden können. Ein ausgearbeitetes Monitoring-Konzept, das sämtliche für den Geschäftsprozess kritischen Configuration Items (CIs) überwacht, hätte mit Hilfe eines einfachen Monitors mit E-Mail-Alarmierung verhindern können, dass der genutzte Service an dieser Stelle komplett ausfällt. Eine Mail hätte bspw. bei einer Festplattenauslastung von 70% alarmiert, dass der Speichersituation noch 5 Tage ausreicht und die jeweiligen Abteilungen wären informiert und hätten schnell reagieren und handeln können.

Durch eine gut durchdachte und proaktive Monitoring-Strategie können beinahe alle Bereiche der IT überwacht, aufkommende Störungen frühzeitig erkannt und die notwendigen Stellen automatisch informiert werden, um die Auswirkung für die Kunden möglichst gering zu halten.

Aufgrund der frühen Hinweise werden Ihre IT-Mitarbeiter nicht mehr in die Analyse von vermeidbaren Störungen gebunden und stehen für die Lösung anderer Probleme zur Verfügung. So kann die freigewordene Zeit in die Weiterentwicklung des Monitoring-Konzeptes oder sonstige Aufgaben fließen.

Monitoring-Ansätze

Grundlegend gibt es im Monitoring- und Alerting-Konzept unterschiedliche Ebenen, die jeweils geplant werden müssen. Dabei hat sich als Best Practice eine Mischung aus End-to-End-Monitoring und Single-Point-Observing herausgestellt.

End-to-End-Monitoring

Das End-to-End-Monitoring überwacht hierbei einen IT-Prozess, der den Fachbereichen zur Verfügung gestellt wird. Die einzelnen Prozessschritte werden dabei von verschiedenen Applikationen, Infrastrukturen und Plattformen unterstützt. Um ein gutes Monitoring entlang des kompletten IT-Services einzubinden, muss jeder Bereich bei sich Fehlerschwerpunkte ermitteln und Schwellwerte definieren, die im Bereich Alerting sinnvoll sind. Wichtig ist, dass nicht nur das Erkennen und Alarmieren geplant und implementiert wird, sondern auch das schnelle Lösen, falls ein Problem erkannt wurde.

Single-Point-Observing

Beim Single-Point-Observing werden gezielt einzelne CIs (bspw. ein Webservice oder ein physikalischer Server) überwacht. Im Gegensatz zum End-to-End-Monitoring wird hierbei keine Interaktion mit anderen CIs betrachtet oder simuliert – das Element wird abgeschlossen und für sich betrachtet.

Kombination beider Ansätze

Die Kombination aus End-to-End-Monitoring und Single-Point-Observing ermöglicht eine schnelle Identifikation von Fehlerursachen. Beim Alerting auf einen kritischen Geschäftsprozess kann bspw. im Rahmen des End-to-End Monitorings festgestellt werden, dass der Schritt „Auftragsdaten per Mail versenden“ nicht funktioniert hat. Diesem Prozessschritt sind diverse CIs zugeordnet, unter anderem auch ein Exchange Server, über den der Mailversand erfolgen soll. Im Single-Point-Observing des Exchange Servers kann nun festgestellt werden, dass der Festplattenspeicher vollgelaufen ist – was vermutlich die Ursache für die Probleme im darüberliegenden Geschäftsprozess erklärt.

Andersherum kann jedoch auch ein Alerting aus dem Single-Point-Observing auf den drohenden Ausfall eines Geschäftsprozesses hinweisen. Eine Alarmierung bei 80-prozentiger Füllung der Festplatte des Exchange Servers kann durch die Verknüpfung zum End-to-End-Monitoring auch eine Warnung für den Geschäftsprozess „Auftragsdaten per Mail versenden“ erzeugen. So ist direkt ersichtlich, dass ohne ein schnelles Eingreifen in diesem Fall, größere Auswirkungen zu befürchten sind.

Monitoring zusammengefasst

Intelligentes Monitoring erlaubt es, Störungen zu beheben, bevor es zu Ausfällen kommt. So kann der Einsatz des Personals optimiert und präziser gesteuert werden. Neben einem durchdachten Monitoring spielt jedoch auch ein darauf abgestimmtes Alerting eine entscheidende Rolle. Einer der wichtigsten Erfolgsfaktoren für Monitoring und Alerting ist hierbei Falschmeldungen nach Möglichkeit zu vermeiden – Monitore, die immer wieder ohne Grund anschlagen, verlieren schnell ihre „Glaubwürdigkeit“. In wirklichen Fehlerfällen werden ihre Meldungen dann häufig nicht beachtet.

Hat ein Monitor begründet angeschlagen und wurden der jeweilige Fachbereich sowie die zuständigen IT-Bereiche alarmiert, bedarf es einer schnellen Entstörung, daher ist die Fehlerdefinition immer mit Workarounds oder Solutions zu verknüpfen. So werden gestörte Services schnell bereinigt und die Verfügbarkeit ist stets gewährt.

Auch wenn der initiale Aufwand für die Erstellung und Etablierung eines Monitoring- und Alerting-Konzeptes hoch scheint, so überwiegen die Vorteile eines gut durchdachten und proaktiven Monitorings diese Kosten doch bei weitem. Denn jede vermiedene Störung führt zu einer höheren Akzeptanz der eingesetzten IT-Lösungen und zu einer besseren Performance des Business.

Websession: Monitoring

Sollten Sie Fragen zum Monotoring haben, dann vereinbaren Sie eine kostenlose Websession mit uns. Ich freue mich auf den Austausch mit Ihnen.

Einführung und Best Practices

Sie haben Fragen zum Monitoring und benötigen Unterstützung bei der Umsetzung? Profitieren Sie von den Best Practices unserer erfahrenen mindsquare-Berater und vereinbaren Sie ein Beratungsgespräch.

Weiterführende Links

Künstliche Intelligenz

Monitoring

Tobias Harmes

Inhaltsverzeichnis