Was sind data lakes?

Gefragt von: Herr Prof. Dr. Oskar Wendt MBA.  |  Letzte Aktualisierung: 29. Juli 2021
sternezahl: 4.2/5 (12 sternebewertungen)

Ein Data Lake ist in der Wirtschaftsinformatik ein System oder ein Repository von Daten, die im Rohdatenformat gespeichert sind, normalerweise Blobs oder Dateien.

Ist Hadoop ein Data Lake?

Hadoop wird am häufigsten mit Data Lakes in Verbindung gebracht. Ein Hadoop-Cluster aus verteilten Servern löst das Problem, große Datenmengen zu speichern. Das Herzstück von Hadoop ist seine Speicherebene namens HDFS (Hadoop Distributed File System), die Daten über mehrere Server hinweg speichert und repliziert.

Wann Data Lake?

Der Data Lake muss bestimmte Grundfunktionen bieten, um die Anforderungen der auf den Informationen aufsetzenden Anwendungen zu erfüllen. Die unterschiedlichsten Daten und Datenformate, egal ob strukturiert oder unstrukturiert, müssen sich im Data Lake ablegen lassen.

Was ist ein Datensee?

Ein Data Lake, Datensee, dient der Speicherung großer und größter Datenmengen, wobei die Daten zuerst im Rohformat in einem Repository gespeichert werden. ... Ebenso wie Data Warehouses können in Data Lakes große Datenmengen gespeichert werden.

Wie kann verhindert werden dass aus einem Data Lake ein Data Swamp wird?

Für die gezielte Filterung der Datenmenge bietet sich zudem die Einrichtung einer Suchmaschine an. Damit diese effektiv genutzt werden kann, müssen allerdings alle Daten mit Identifiern und aussagekräftigen Metadaten-Tags versehen werden. Diese Maßnahmen verhindern auch, dass der Data Lake zu einem Data Swamp verkommt.

What is a Data Lake?

35 verwandte Fragen gefunden