5 Säulen der Datenintegration für eine 360°-Sicht
Denn ein reibungsloser, schneller Fluss von Daten aus verschiedenen Quellen zu einer zentralen Destination ist hierfür entscheidend, oft aber schwer oder nur mit viel Aufwand zu realisieren.
Jede Interaktion, die ein Kunde mit dem Unternehmen hat – ob per Mail oder Telefon, im Online-Shop oder auf Social Media – muss erfasst werden, um eine 360°-Sicht auf den Kunden zu erzielen, wie sie für hochgradig personalisierte Erlebnisse und eine verbesserte Kundenbindung nötig ist. Damit aus diesen Daten jedoch tatsächlich Erkenntnisse gewonnen werden können, müssen sie zentral verfügbar, zugänglich sowie zuverlässig sein.
Es ist jedoch eine komplexe Herausforderung, den reibungslosen und schnellen Fluss all dieser Daten von der Quelle zu einem zentralen Zielort zu gewährleisten. Denn die hierfür nötigen Datenpipelines zu erstellen, erfordert in der Regel einen erheblichen Zeit- und Arbeitsaufwand und damit Kosten.
Ein Data Engineer braucht oft Wochen oder sogar Monate, um einen einzigen Konnektor zu erstellen, der eine Datenquelle mit einem Ziel, z. B. einem Data Warehouse oder Data Lake, verbindet. Üblicherweise wird jedoch nicht nur ein Konnektor, sondern Dutzende benötigt. Das heißt: Es dauert Monate, bis die Daten aus allen erforderlichen Quellen zentralisiert werden können. Sind die Konnektoren konfiguriert, müssen Schemata und Tabellen meist einzeln manuell eingerichtet werden, sodass die Daten auch im gewünschten Format ankommen.
Steht diese initiale Architektur, wird der Aufwand kaum geringer: Der Code und die Systeminfrastruktur müssen kontinuierlich gepflegt werden. Mit jeder Aktualisierung der API oder der Datenstrukturen einer Quelle müssen die API-Endpunkte und -Felder angepasst werden. Dies bindet wertvolle Ressourcen des Data-Engineering-Teams. Laut einer umfangreichen Studie von Wakefield Research von 2021 verbringen Data Engineers durchschnittlich 44 % ihrer Zeit mit der Wartung von Datenpipelines – Zeit, die besser für strategische Aufgaben genutzt werden könnte.
Eine verwaltete Plattform befähigt Unternehmen, Änderungen in ihrer Dateninfrastruktur zu überwachen und darauf zu reagieren, ohne dass viele manuelle Eingriffe erforderlich sind.
Dabei sollten Unternehmen jedoch darauf achten, ihre Dateninfrastruktur auf fünf Säulen zu stellen:
1. Zuverlässigkeit
Ein proaktives Monitoring von API-Ausfällen erleichtert es, mit API-Änderungen umzugehen. Idempotenz – die Fähigkeit, dieselbe Operation mehrfach mit denselben Daten auszuführen und stets dasselbe Ergebnis zu erzielen – verhindert die Erstellung von Duplikaten im Falle einer fehlgeschlagenen Datensynchronisierung. Das gibt Entscheidungsträgern immer volles Vertrauen in ihre Daten – die Voraussetzung für jede datengetriebene Entscheidung.
2. Kontrolle und Governance
Ein Data Catalog – ein Inventar der Datenbestände im Unternehmen – ist ein wesentlicher erster Schritt in Richtung Kontrolle und Governance. Obwohl Data Catalogs nicht einfach zu implementieren sind, führen sie langfristig zu erheblichen Kosteneinsparungen.
Das liegt daran, dass nicht selten zwei Datenpipelines dieselbe Funktion erfüllen oder zwei Berichte dieselben Informationen liefern. Denn verschiedene Teams nutzen oft ihre eigenen Datenwerkzeuge und -systeme. Mit einem Data Catalog lässt sich dies bewerten.
Zudem bietet ein Data Catalog Sicherheits- und Rechtsteams die nötige Transparenz für Audits. Er muss jedoch mit einer fein abgestuften Zugriffskontrolle kombiniert werden, die von Anfang an eingerichtet werden muss. Sie bietet Skalierbarkeit und gleichzeitig Kontrolle darüber, was in der Dateninfrastruktur geschieht.
3. Überwachbarkeit
Metadaten sind das A und O, wenn es um die Möglichkeit zur Überwachung der Datenplattform geht. Idealerweise sollten die Metadaten automatisch an den Data Catalog gesendet werden, um Audits des Datenzugriffs und -handlings zu vereinfachen. Damit werden auch Änderungen sichtbar, zum Beispiel welcher Bericht oder welches Team betroffen ist, wenn eine Datenpipeline beschädigt ist.
Monitoring und Alarmierungen hinsichtlich Datenintegration und Status sind selbstverständlich wesentliche Bestandteile der Überwachung. Jedoch sollte das zentrale Data Team auch über die notwendigen Werkzeuge verfügen, um in Echtzeit darüber informiert zu sein, was die einzelnen Teams mit den Daten des Unternehmens tun.
Diese Ebene der Überwachung ist entscheidend, um Teams die Konfiguration und Bereitstellung eigener Datenkonnektoren zu ermöglichen und gleichzeitig eine effektive Prüfbarkeit sicherzustellen. Denn so lässt sich erkennen, was sich geändert hat, wer worauf Zugriff hat und ob jemand beispielsweise eine Spalte zu einer Pipeline hinzugefügt hat. Idealerweise liefert das Beobachtungstool all das in einem Dashboard.
4. Skalierbarkeit
Sind die ersten drei Säulen implementiert, muss sich die Dateninfrastruktur skalieren lassen, ohne instabil zu werden. Automatisierung und Standardisierung sind hier von grundlegend – insbesondere beim Onboarding. Ein neuer Benutzer, der ins Unternehmen kommt, sollte automatisch auf alle Daten zugreifen können, die sein Team verwendet. Dies hat zur Folge, dass neue Benutzer nicht jedes Mal ein Support-Ticket erstellen, wenn sie Zugriff auf ein bestimmtes Tool benötigen. Ebenso sollte die Deaktivierung von Benutzern auf allen Plattformen konsolidiert und automatisiert werden.
Workflow-Vorlagen sind ein weiterer wichtiger Bestandteil der Skalierbarkeit. Sie schränken den Zugriff auf Daten, Dashboards und Verwaltungssysteme sowie deren Nutzung ein und gestatten so eine schnelle, aber kontrollierbare Einarbeitung von neuem Personal. Dies lässt sich in Code umsetzen, sodass skaliert werden kann, ohne überwachen zu müssen, was jeder Mitarbeitende tut.
5. Expertise
Expertise ist die entscheidende fünfte Säule einer soliden Dateninfrastruktur. Um sicherzustellen, dass die notwendigen Fähigkeiten für eine 360°-Sicht im Unternehmen vorhanden sind, gilt es, zunächst die Kompetenzen des aktuellen Teams zu bewerten. An den Stellen, an denen noch Lücken bestehen, muss das Team durch Schulungen und / oder Neueinstellungen fit gemacht werden.
Diese Fachkompetenz muss Hand in Hand gehen mit einer Datenkultur, einem gemeinsamen Werteverständnis und einem Verhalten, das die Nutzung von Daten zur Verbesserung der Entscheidungsfindung und der Geschäftsergebnisse schätzt und Priorität einräumt.
Es hat sich auch bewährt, „Daten-Champions“ in allen Teams des Unternehmens zu haben. Sie können dabei helfen, die Priorisierung der Datennutzung zu vermitteln, Schulungen durchzuführen und Verständnis für Probleme zu schaffen.
Fazit
Eine auf diesen fünf Säulen basierende Dateninfrastruktur erlaubt die Skalierung der Datennutzung für eine 360°-Sicht auf Kunden – und damit optimierte Kundenerlebnisse und Geschäftsergebnisse.