Heidelberg, 09.11.2023

Datenintegration: Data Warehouse, Data Lake, Data Federation und Co. im Fokus

Data Warehouse, Data Lake, Data Federation, Enterprise Application Integration: Wer sich mit Datenmanagement und Datenintegration beschäftigt, kommt an diesen vier Konzepten nicht vorbei. Aber was genau steckt hinter den Modellen? Wie hängen sie zusammen? Wo liegen Unterschiede und wo Gemeinsamkeiten? Welche Vor- und Nachteile gehen mit ihnen einher? Wir bringen Licht ins Dunkel.

Data Lake – flexible Speicherung von Rohdaten

Data Lakes dienen der Speicherung von großen Datenmengen. In einem Data Lake können Daten unterschiedlichster Art und aus verschiedenen Quellen abgelegt werden. Ein Data Lake kann also sowohl verarbeitete (strukturierte) als auch unverarbeitete (unstrukturierte) Daten beinhalten. Da sämtliche Daten in ihrem unverarbeiteten Format abgelegt werden, können große Rohdatenmengen für spätere Analysen gespeichert werden – ohne dass im Vorfeld ein Datenbanksystem aufwendig vorbereitet werden müsste. Ein Data Lake bietet dabei ein Höchstmaß an Flexibilität. Die leicht formbaren Daten können für unterschiedlichste Zwecke genutzt werden – insbesondere für maschinelles Lernen. Allerdings erfordern Data Lakes zusätzliche Hardware und der Aufwand für die Datenpflege ist hoch. Data Lakes bedeuten daher zusätzliche Kosten.

Data Warehouse – Speicherung strukturierter Daten

Auch ein Data Warehouse ist eine zentrale Datenbank zur Speicherung von großen Datenmengen. Dabei werden die aus verschiedenen Quellen stammenden Daten strukturiert, aufbereitet und ggf. analysiert zur Verfügung gestellt. Diese Datenharmonisierung erlaubt es, die Daten eines Data Warehouses direkt zu Zwecken der Business-Intelligence (BI) zu nutzen – und damit in Erkenntnisse umzuwandeln, die direkt von Mitarbeitern genutzt werden können. Im Vergleich zum Data Lake ist ein Data Warehouse durch die Strukturierung der Daten aber weniger flexibel. Data Lake und Data Warehouse müssen nicht als Alternativen gesehen werden, sondern können sich wechselseitig ergänzen. Das Konzept des Data Lakehouses unterstützt dabei, Prozesse zu digitalisieren und einen direkten Zugriff auf Daten zu erlauben. Es kombiniert die Flexibilität eines Data Lakes mit den schnellen, kontextbezogenen Analysemöglichkeiten eines Data Warehouses.

Data Federation – die virtuelle Datenbank

Im Rahmen einer Data Federation werden Daten aus verschiedenen Quellen (z.B. unter anderen auch aus Data Lakes und Data Warehouses) verlinkt und als ein gemeinsames Datenmodell verteilter Systeme präsentiert, ohne dass die Daten hierfür kopiert, synchronisiert oder migriert werden müssen. Die Daten selbst bleiben unverändert in ihrer Quelle oder dort, wo sie entstehen. Der Vorteil liegt darin, dass Nutzer die Daten so verwenden können, als lägen sie in einer einzigen Quelle. Insbesondere mit XSPHERE ist Data Federation eine optimale Alternative. XSPHERE kann einfach installiert werden (ohne Implementierungsprojekt) und ist einfach zu bedienen. Es erfordert keine Datenpflege, da die Links neuen Versionen folgen. Das heißt: Sie haben die Garantie, mit aktuellen Daten zu arbeiten. Gesetzte Links sind automatisch bidirektional nutzbar und es ist keine zusätzliche Hardware erforderlich. Sie profitieren also von einem sofortigen Mehrwert.

Enterprise Application Integration (EAI) – Geschäftsfunktionen unternehmensweit integrieren

Auch die Enterprise Application Integration (EAI) wird im Zusammenhang mit Datenintegration häufig genannt. Das Konzept zielt durch verschiedene Ansätze darauf ab, heterogene und autonome Systeme und Unternehmensanwendungen nahtlos zu integrieren. Auf diese Weise wird der Informationsfluss im Unternehmen erleichtert und die Prozesseffizienz erhöht. So kann EAI genutzt werden, um Daten aus verschiedenen Systemen in Data Warehouses oder die Umgebung einer Data Federation zu integrieren.