Site Reliability Engineering: der Autopilot in der Cloud

07.09.2023

.intro-cta > .cta-image > .image-wrapper { padding: 0px 0 10px; } .intro-cta > .cta-image > .image-wrapper img { width: 220px; max-width: 220px; }
insightsPageview({ aktuelles_topic: 'Site Reliability Engineering: der Autopilot in der Cloud', aktuelles_category: 'publikationen', aktuelles_date: '07.09.2023' })
.cover-image { background-position: center center; background-image: url('/.imaging/mte/ergon-theme/1880/dam/ergon/News-und-Artikel/2023/smart-insights/site-reliability-engineering/header_sre_2400x1800.jpg/jcr:content/ki-kunst-stellt-site-reliability-engineering-dar.jpg'); } @media (max-width: 985px) { .cover-image { background-position: center center; } }

Dieser Beitrag ist erschienen im Ergon Magazin SMART insights 2023. Magazin kostenlos bestellen.

Skalierbar und zuverlässig: Mit Site Reliability Engineering (SRE) automatisieren Unternehmen den IT-Betrieb. So können sie schnell und flexibel auf neue Business-Anforderungen reagieren.

Kann sich Ihr Unternehmen Unkosten von über 100 000 US-Dollar leisten? Immer mehr Unternehmen sind von unerwarteten IT-Ausfällen betroffen – und die Folgekosten steigen laufend. Gemäss dem jährlichen «Outage Analysis Report» des US-amerikanischen Uptime Institute haben im Jahr 2019 39 Prozent der befragten Unternehmen über 100 000 US-Dollar für einen Ausfall bezahlt. 2022 waren es bereits über 60 Prozent. 15 Prozent der betroffenen Unternehmen beklagten gar Kosten von über einer Million US-Dollar. Die häufigsten Gründe für Ausfälle waren Probleme mit der Energieversorgung oder dem Netzwerk – oder der Faktor Mensch war im Spiel. Für die Studie hat das Institut über 1000 IT-Fachleute und Betreiber von Rechenzentren befragt.

Das Digitalgeschäft verzeiht keine Fehler

Software bestimmt unsere Welt. Darum verwundert es nicht, dass die absolute Zahl der IT-Ausfälle steigt. Software ist nicht statisch; sie gleicht eher einem lebenden Organismus, der sich stetig an seine Umgebung anpasst. Updates und Wartungsarbeiten, verändertes User-Verhalten oder neue Features bei der Konkurrenz: Immer wieder stehen neue Anforderungen an. Ein lebender Organismus reagiert flexibel auf Veränderungen und kann sich meist gut an veränderte Situationen anpassen. Die Technik ist hier oft noch nicht ganz so weit.

Heute betreiben die meisten Unternehmen mindestens Teile ihres Geschäftes in der Cloud. Das erhöht die Anforderungen an die Skalierbarkeit und die Zuverlässigkeit der IT-Systeme. Diese sind zudem immer komplexer und womöglich weltweit verteilt. Nicht zuletzt prägt das Onlinegeschäft die Erwartungshaltung der Kundinnen und Kunden: 24/7 mit einer Vielzahl von Services verfügbar zu sein, scheint Pflicht, wenn ein Unternehmen im Wettbewerb bestehen will. Um diesem Anspruch gerecht zu werden, vor allem in der Cloud, setzen sich Unternehmen vermehrt mit Site Reliability Engineering (SRE) auseinander. Die Grundidee: Dank Software Engineering lassen sich Systeme weitgehend automatisiert betreiben und ausfallsicher gestalten.

Daniel Zeiter von Ergon Informatik

«Ein automatisierter IT-Betrieb erfordert Software-Ingenieur:innen.»

Daniel Zeiter Head of Technology, Ergon

Schneller, zuverlässiger, sicherer

Im klassischen IT-Betrieb arbeitet das Incident Management die Folgen neuer Releases ab. Ist ein Problem gelöst, ist der Vorfall abgeschlossen. Diese Arbeiten erfolgen meist manuell und anhand von Checklisten. Gerade wenn die Zuständigkeiten nicht sauber definiert sind, entstehen Probleme. SRE standardisiert und automatisiert diese Aufgaben. Entsprechende Codes und Regeln bringen die einzelnen Arbeitsschritte in eine maschinenlesbare Form. Diese löst fehleranfällige manuelle Prozesse ab und dient zugleich als Dokumentation.

Besondere Bedeutung gewinnt SRE in Cloud-nativen Umgebungen. Dort stösst die traditionelle Herangehensweise der klassischen IT-Administration rasch an ihre Grenzen. Denn Cloud-Lösungen sind oft technisch komplex. Veränderungen bei Infrastruktur, Plattform, Applikationen oder Services begünstigen Fehler und Ausfälle. Hier bietet es sich an, Infrastruktur als Code (IaC) zu nutzen: Gezielt geschriebener Code löst manuelle Prozesse ab und erreicht so ein neues Niveau der Automatisierung. In Verbindung mit SRE macht die Cloud Unternehmen technisch und organisatorisch flexibel. Das fördert rasches Wachstum: Neue Businessanforderungen lassen sich dank SRE schneller umsetzen.

Automatisieren statt manuell eingreifen

Mit SRE entsteht ein hochverfügbares System, das sich mit minimalen manuellen Eingriffen betreiben lässt. Google hat einst die Devise herausgegeben, dass IT-Betriebsteams die Hälfte ihrer Arbeitszeit für die Automatisierung aufwenden sollen. Bei Ergon steht dieser Anspruch inzwischen eher bei 60 bis 80 Prozent, denn es gibt mittlerweile bessere Tools und Services. Ein Beispiel sind einfach integrierbare Monitoring und Alerting Services. Wer diese Tools und Services bereits im Einsatz hat, kann sie mit geringem Aufwand für weitere Szenarien einsetzen.

Was lässt sich sinnvoll automatisieren? Die Antwort hängt vom System und von den Anforderungen ab. Naheliegend sind repetitive Arbeiten. Zum Beispiel verhindert ein automatisiertes, regelbasiertes Monitoring, dass Festplatten volllaufen: Es stösst proaktiv eine Datenmigration an oder löscht rechtzeitig überflüssige Dateien. Installation und Rollback neuer Releases lassen sich ebenfalls automatisieren. Neben Routinearbeiten lohnt sich auch die Automatisierung kritischer Aufgaben. Hierzu gehört zum Beispiel das Erstellen von Back-ups oder deren Einspielen nach einem Datenverlust. Gerade Letzteres ist in vielen Unternehmen keine alltägliche Praxis; die notwendigen Prozessschritte sind den Betriebsteams weniger vertraut. Das eingangs erwähnte Uptime Institute weist darauf hin, dass menschliche Fehler meist eine Folge der unzureichenden Umsetzung von definierten Massnahmen sind. Dies lässt sich durch eine Automatisierung elegant ausschliessen.

SRE verbessert auch das proaktive und automatisierte Überwachen von Services. Mit proaktiven Verteidigungsstrategien können Unternehmen dank SRE das Risiko von Sicherheitsvorfällen verringern. Dazu gehören die kontinuierliche Überwachung und Analyse von Sicherheitsdaten, um Schwachstellen zu erkennen und zu beheben, bevor sie ausgenutzt werden. Ein gutes Beispiel sind Monitoringsysteme: SRE-Teams definieren, was überwacht werden soll, und implementieren entsprechende Lösungen im Code. So lassen sich Fehler früh erkennen und beheben, ohne dass die Endnutzer:innen je etwas davon mitkriegen.

Laura Graf von Ergon Informatik

«Site Reliability Engineering macht den Cloud-Betrieb langfristig effizient.»

Laura Graf Consultant, Ergon

Interdisziplinäre Teams

Bei der Software-Entwicklung sind meist viele Parteien involviert: Zu den internen Betriebs- und Entwicklungsteams kommen oft externe Partner hinzu. Dabei Entwicklung und Betrieb als isolierte Parteien zu betrachten, birgt die Gefahr eines Silodenkens. SRE schafft eine Brücke zwischen den unterschiedlichen Zielbildern: schnell neue Features zu entwickeln auf der einen Seite, die Software sicher und stabil zu halten auf der anderen. Der ideale IT-Betrieb ist dank SRE durch Code verwaltet, den Software-Ingenieur:innen bereits während der Entwicklung schreiben. So kommen Entwicklung und Betrieb aus einer Hand. Das schafft ein effizientes und ausfallsicheres Systemmanagement.

Klare Ziele festlegen

Eine kurze Ausfallzeit definiert nicht automatisch den Wert eines Systems für seine Nutzer:innen. Denn je höher das vereinbarte Service-Level, desto länger wird die Freigabezeit von Releases – und desto höher fällt entsprechend das benötigte Budget aus. Hundertprozentige Verfügbarkeit ist darum selten das richtige Ziel. Wichtig ist es, die Sicht der Nutzer:innen im Blick zu haben. Was diese als zuverlässig wahrnehmen, lässt sich auf Basis der Nachfrage, des Konkurrenzangebots und des Benchmarks identifizieren. Die Business- und Engineering-Teams erarbeiten gemeinsam, welches Service-Level die optimale Balance zwischen Geschäftsnutzen und Kosten bringt. Das SRE-Team definiert diese Balance innerhalb von Service-Level-Agreements mit messbaren Zielen. Es legt auch fest, mit welchen Massnahmen diese erreicht werden – und reagiert schnell, wenn es nicht nach Plan läuft.

SRE stärkt Business und IT

SRE wirkt sich auf das gesamte Unternehmen positiv aus. Nimmt die Qualität des IT-Betriebs zu, reduziert das die Fehlerzahl und den Aufwand für die Fehlersuche. Ist die Verantwortlichkeit gebündelt, gibt es kein Zuständigkeitspingpong mehr – und entsprechend weniger Störungen oder Ausfälle und eine schnellere Reaktionszeit. Gemäss der Boston Consulting Group sind dank SRE die IT-Ausfallzeiten in Unternehmen um 10 bis 30 Prozent gesunken. Die Leistungsfähigkeit ist um 10 bis 15 Prozent gestiegen und die Software-Entwicklung zwei- bis fünfmal schneller als zuvor erfolgt. SRE macht Unternehmen also effizienter – eine Investition, die sich lohnt. Die gute Customer Experience trägt zudem zur langfristigen Kundenbindung bei. Auf der kulturellen Seite begünstigt der Ansatz Innovation und die Bereitschaft für Veränderung.

Im Jahr 2027 werden laut dem Beratungsunternehmen Gartner 75 Prozent der Unternehmen weltweit SRE-Prinzipien anwenden. Schon heute sollte SRE von Beginn an Teil der Strategie sein. So lässt sich das IT-Team entsprechend zusammenstellen. Zwar ist es auch nach dem Wechsel in die Cloud nicht zu spät für die Automatisierung des IT-Betriebs. Kulturell entsteht dabei aber meist ein grösserer Aufwand: SRE ist darauf ausgerichtet, die Engineering- und Operations-Teams näher zusammenzubringen und – wo sinnvoll – zu vereinen. Dies erfordert intensive Kooperation, gegenseitiges Vertrauen und Verständnis.

Mit der gemeinsamen Einsicht, dass es auch beim Betrieb um Software geht, ist Zuverlässigkeit keine Bürde mehr. Sie wird zum Wettbewerbsvorteil – und zu einem wichtigen Feature, das jede Software heutzutage braucht. Vor allem auf ihrem Weg in die Cloud sollten Unternehmen darum auf SRE als wirksamen Autopiloten setzen.

Site Reliability Engineering kurz und bündig

Durch SRE kommen Methoden und Grundsätze des Software Engineering im IT-Betrieb und in der Infrastruktur zur Anwendung. Ziel von dedizierten SRE-Spezialist:innen oder SRE-Teams ist es, hochzuverlässige und skalierbare Software-Systeme zu schaffen. SRE wird häufig als Ausprägung von DevOps verstanden. Ähnlich der DevOps-Vorgehensweise verknüpft SRE Entwicklungs- und Betriebsteams eng miteinander und stellt eine effiziente Entwicklung in Einklang mit Betriebsstabilität sicher. DevOps zielt auf Qualität und Geschwindigkeit in der Entwicklung und der Auslieferung ab. Für SRE steht die Zuverlässigkeit eines Systems für die Kundinnen und Kunden im Zentrum.

Lust auf mehr?

Digitalisierungs­vorhaben
Zukunftsmacher:innen
Tech-Trends

Jetzt bestellen .article-cta > .article-cta-wrapper > .cta-content > .cta-link::after { background-image: url(/.resources/ergon/themes/ergon-theme/images/icon_arrow_long.svg);}
.article-cta > .article-cta-wrapper > .cta-image { margin-top: -85px; margin-bottom: -140px; } @media (max-width: 985px) { .article-cta > .article-cta-wrapper { grid-template-columns: 1fr; } .article-cta > .article-cta-wrapper > .cta-image { margin-top: -25px; margin-bottom: -100px; margin-left: -20px; } } @media (min-width: 985px) { .article-cta > .article-cta-wrapper { grid-template-columns: 1fr 1fr; } }