mindsquare.de durchsuchen

Azure Databricks

Sie brauchen einen Azure Databricks Berater und/oder möchten, dass wir Ihnen unser Angebot in diesem Umfeld vorstellen?

Max-Ludwig Stadler
19. August 2019

Azure Databricks ist ein Analysedienst für die Azure-Cloud-Plattform, der auf Apache Spark basiert. Die Lösung ist interessant für alle jene, die in ihrem Unternehmen auf die Cloud-Datenbanken von Azure setzen. Das Analysetool Databricks arbeitet schnell und zuverlässig und liefert auch aus großen Datenbeständen die gewünschten Ergebnisse.

Was ist Azure Databricks?

Databricks ist ein leistungsstarkes Tool für die Analyse von Inhalten in Datenbanken. Für moderne Unternehmen gehört es zu den täglichen Aufgaben, die ständig wachsenden Datenbestände zu verwalten und sinnvoll auszuwerten. Dafür kommen verschiedene Softwareprogramme zum Einsatz, die in der Regel auf die jeweilige Datenbankumgebung hin optimiert sind. Viele Unternehmen speichern ihre Daten in der Cloud, Microsoft ist hier mit Azure einer der größten Anbieter. Azure richtet sich dabei mit seinem Angebot vor allem an Softwareentwickler. Zu den verfügbaren Diensten gehören zum Beispiel SQP Azure oder AppFabric. Die Datenbanken werden in der Cloud eingerichtet und netzbasiert zur Verfügung gestellt. Databricks ist speziell auf diese Datenbanken zugeschnitten und erlaubt schnelle und aussagekräftige Datenanalysen. Databricks basiert auf dem beliebten und weit verbreiteten Apache Spark. Tatsächlich sind an der Entwicklung von Databricks Entwickler von Apache Spark beteiligt.

Unser E-Book zum Thema Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

E-Book: Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

In unserem E-Book erfahren Sie die wichtigsten Inhalte rund um das Thema künstliche Intelligenz & wie Sie davon profitieren können!

Features

Databricks setzt auf eine einfache Handhabung und eine hohe Geschwindigkeit der Datenverarbeitung. Zudem ist das Tool kollaborativ und für die Analyse im Bereich Big Data geeignet. Wer Databricks einsetzt, erhält die Möglichkeit, Analyseplattformen schnell zu erstellen. Ist Databricks erst einmal in Azure eingerichtet, hat der Anwender nicht nur Zugriff auf die Big-Data-Funktionen von Databricks. Alle anderen Funktionen von Azure stehen ihm für seine Arbeit ebenfalls zur Verfügung. Das ist einer der Vorzüge, wenn Databricks als Analyseplattform innerhalb von Azure eingerichtet wird. Zu den weiteren Features gehört die Clusterskalierung. Das erleichtert den Umgang mit Big Data beziehungsweise ermöglicht diesen erst.

Mit Databricks lassen sich verschiedene Erkenntnisse aus den eigenen Daten gewinnen. Das Tool erlaubt die Erstellung von mächtigen KI-Lösungen. Mit Databricks lassen sich viele Modernisierungen im Data Warehouse vornehmen. Dazu gehört die Kombination von Daten verschiedenen Umfangs. Das Analysedashboard und die Betriebsberichte lassen sich nutzen, um Erkenntnisse aus diesen Daten zu gewinnen. Mittels Azure Data Factory lässt sich die Verschiebung von Daten im Data Warehouse automatisieren. Databricks hilft dabei, die mit Azure Data Lake Storage geladenen Daten zu visualisieren und im Azure SQL Data Warehouse verfügbar zu machen. Databricks befindet sich im ständigen Austausch mit dem Lake Storage und kann die Daten zum Beispiel bereinigen oder transformieren.

Das Zusammenarbeiten verschiedener Experten unterstützt Databricks durch die Bereitstellung eines gemeinsamen Arbeitsbereichs. Dieser interaktive Arbeitsbereich ist zum Beispiel mit Notebookfunktionen ausgestattet und unterstützt viele beliebte Sprachen. Der Data Scientist, der Data Engineer und der Business Analyst sollen sich hier gleichermaßen wohlfühlen.

Wer mit Databricks arbeitet, der nutzt stets die aktuelle Version von Apache Spark. Microsoft kümmert sich im Rahmen der Bereitstellung unter Azure darum, dass immer alle Features des aktuellen Spark zur Verfügung stehen.

Funktion/Architektur hinter Databricks

Spark SQL & DataFrames

Grundsätzlich sind alle Funktionen aus Apache Spark auch in Databricks integriert. Damit hat der Anwender Zugriff auf alle Open-Source-Funktionen, die er auch in einem Spark-Cluster finden würde. Die wichtigsten davon sind Spark SQL und DataFrames. Spark SQL ermöglicht die einfache Durchführung von SQL-Anfragen wie etwa Selektionen oder Projektionen. DataFrames ermöglicht die Verwendung strukturierter Daten in Databricks und organisiert verteilt gesammelte Daten in Spalten. Grundsätzlich kann damit gesagt werden, dass sich Databricks hinsichtlich seines Aufbaus und seiner Architektur eng an Spark orientiert. Das wird auch bei der Betrachtung der verschiedenen Komponenten deutlich, die für die Erstellung von Modellen im Bereich maschinelles Lernen vorhanden sind. Besonders stark ist Databricks nämlich im Bereich Machine-Learning für Big Data aufgestellt. Der Anwender kann den Azure Machine Learning Service nutzen, um seine Modelle zu verwalten, zu überwachen und zu aktualisieren. Machine-Learning-Experimente lassen sich zentral registrieren.

In diesem Webinar gebe ich Ihnen einen Überblick zum Thema maschinelles Lernen.

Azure Active Directory

Databricks bietet weiterhin viele Funktionen im Bereich Sicherheit und Compliance. Beim Umgang mit unternehmenssensiblen Daten stellt sich immer die Frage, wer darauf überhaupt Zugriff haben darf und in welchem Umfang. Databricks nutzt dafür Azure Active Directory, um eine rollenbasierte Zugriffssteuerung zu ermöglichen. Zudem lassen sich virtuelle Netzwerke konfigurieren, die eine sichere Architektur bieten, ohne dass Abstriche bei der Compliance gemacht werden müssten.

Das Ökosystem von Databricks

Alles, was für den Aufbau eines Clusters in Apache Spark gilt, gilt auch für Databricks. So gehört zum Ökosystem neben Spark SQL und DataFrames auch das Streaming für die Echtzeitdatenverarbeitung und -analyse. Eine Integration für HDFS, Flume und Kafka ist vorhanden. HDFS ist ein Dateisystem mit hoher Fehlertoleranz, das im Bereich von Big Data seine Vorzüge besitzt. Bekannt ist dieses Dateisystem zum Beispiel von Apache Hadoop. MLib ist die Bibliothek für das Machine-Learning und GraphX ist für die Datenuntersuchung in Form von Diagrammen und Diagrammberechnungen zuständig. Die Spark Core-API schließlich bietet die Unterstützung für viele gängige Sprachen wie SQL, R, Python Scala und Java. Hier sollten sich also Entwickler mit unterschiedlichem Hintergrund schnell zurechtfinden.

Die Apache Spark-Cluster werden dabei vollständig in der Cloud verwaltet. Die Cluster lassen sich nicht nur schnell erstellen, per REST-APIs sind diese auch programmsteuerbar.

Komponenten

Der wesentliche Grund, warum sich viele Entwickler den Einsatz von Databricks in Azure wünschen, ist der Zugriff auf die vielfältigen KI-Funktionen von Spark. Durch die Erstellung eigener Modelle lassen sich häufig erhebliche Effizienzsteigerungen gerade im Umgang mit großen Datenbeständen erreichen. Zudem bietet der Einsatz von KI häufig neue Möglichkeiten der Einsicht in die vorhandenen Daten.

MLflow, Runtime für ML & Delta

Databricks setzt sich in Hinblick auf seine KI-Fähigkeiten dabei im Wesentlichen aus den drei Komponenten MLflow, Runtime für ML und Delta zusammen. Alle diese Komponenten dienen der Verbesserung der Zusammenarbeit zwischen den Technikern und Analytikern. MLflow bietet zum Beispiel ein Framework für Projekte, die maschinelles Lernen nutzen möchten. Die erstellten Modelle lasen sich in einem austauschbaren Format speichern. Das erleichtert die Übertragung auf eine andere Plattform. Databricks Runtime für ML wiederum soll den Umgang mit den Trainingsdaten verbessern. Je mehr Trainingsleistung erbracht wurde, desto stärker ist das Modell. Komplexe Daten bringen es jedoch mit sich, dass die Trainings immer mehr Zeit in Anspruch nehmen. Databricks Runtime for ML dient dazu, die Trainingszeiten zu verkürzen. Dazu kommt mit der Runtime zum Beispiel die Nutzung von GPUs hinzu, wie sie von Herstellern wie Nvidia zur Verfügung gestellt werden. Databricks orientiert sich damit wiederum an Hadoop, das einen ähnlichen Weg geht, um die KI-Leistung zu verbessern. Die erstellten Modelle können dank Databricks Runtime mit noch mehr Daten gefüttert werden. Die Modelle lassen sich dann auf einer Unified Analytics Platform zur Verfügung stellen.

Azure Databricks

Databricks Delta

Als dritte Komponente kommt Databricks Delta hinzu. Um die Daten überhaupt mithilfe von KI analysieren zu können, ist häufig eine sehr aufwendige Datenvorbereitung erforderlich. Diese soll mit Databricks Delta vereinfacht werden. Ein solches Delta-Modul ist auch in Spark integriert und sorgt für eine hohe Transaktionsintegrität, niedrige Latenzen und eine hohe Performance, die sich jederzeit skalieren lässt. In Streaming-Systemen wie den Cloud-Speichern soll das für eine höhere Datenqualität und einen höheren Datendurchsatz sorgen.

Möglichkeiten

Alle in der Praxis häufig vorkommenden Big Data Use Cases vereint Databricks auf einer einzelnen Plattform. Damit entfällt die Notwendigkeit, verschiedene Dienste miteinander verbinden zu müssen. Das ist häufig sehr zeitaufwendig und nicht alle Unternehmen möchten die entsprechenden Ressourcen hierfür zur Verfügung stellen. Auch die Wartung der Plattform gelingt damit einfacher. Zu den fortschrittlichen Möglichkeiten von Databricks gehört auch die Nutzung von Machine Learning. Für die Datenanalyse lassen sich Ansätze aus dem Bereich des Maschinenlernens verwenden, um größere Datensätze noch schneller und effizienter verarbeiten zu können. Viele wichtige maschinelle Lernbibliotheken sind bereits in Databricks integriert. Zudem besteht eine Kompatibilität mit weiteren Lernframeworks, die in der Praxis ein hohes Ansehen genießen. Dazu gehören zum Beispiel TensorFlow oder XGBoost.

Vor- und Nachteile

Der Vorteil bei der Nutzung von Databricks besteht darin, dass das Analyseframework auf dem seit vielen Jahren verfügbaren Spark von Apache basiert. Diese Analyseumgebung konnte ihre Zuverlässigkeit bereits vielfach unter Beweis stellen und stellt eine bewährte Lösung für die Datenanalyse dar. Nutzer von Azure können davon dank Databricks profitieren. Databricks ist so angelegt, dass es sich mit nur einem Klick in Azure integrieren lässt. Zudem sorgt Microsoft dafür, dass alle neuen Funktionen, die in Apache Spark integriert werden, ihre Implementierung auch in Databricks zeitnah finden. Grundsätzlich trägt die Analyseplattform Databricks dazu bei, Mitarbeiter und Experten aus verschiedenen Bereichen zusammenzuführen. Für alle wird ein gemeinsamer Arbeitsbereich geschaffen, der die Produktivität durch Austausch steigern kann. Es ist nicht mehr erforderlich, verschiedene Tools oder Dienste mühsam miteinander verbinden zu müssen.

Die Nutzung von Spark in der aktuellen Version stellt sicher, dass sich jederzeit eine nahtlose Integration mit Open-Source-Bibliotheken durchführen lässt. Das Angebot entsprechender Bibliotheken ist besonders groß, da bereits seit Jahren für Spark entwickelt wurde. Nutzer von Azure haben nun Zugriff auf diese Bibliotheken und können sie für ihre Arbeit nutzen.

Per Spinup lassen sich Cluster schnell erstellen. Diese lassen sich nach der Einrichtung nach Bedarf konfigurieren und optimieren für eine hohe Zuverlässigkeit und Leistung. Damit steht der Spark-Umgebung immer genügend Leistung zur Verfügung. Zudem lassen sich die Umgebungen automatisch skalieren und auch wieder beenden, um die Kosten zu senken.

Als Nachteilig erweist sich bei Databricks für einige Anwender vor allem die enge Verzahnung mit Azure. Eine Nutzung ist für andere Datenbankendienste bzw. im Rahmen anderer Cloudangebote nicht vorgesehen. Wer Databricks nutzen möchte, muss sich also in das Ökosystem von Azure begeben. Das stellt allerdings sogar einen Vorteil dar, falls das Unternehmen bereits mit Microsoft zusammenarbeitet und auf Azure setzt.

Max Luwig Stadler von mindsquare

Websession: Azure Databricks

Sie haben Fragen zu Azure Databricks? Vereinbaren Sie eine kostenlose Websession mit uns. Ich freue mich auf den Austausch mit Ihnen.

Azure Databricks – für wen gedacht?

Wer in seinem Unternehmen Azur von Microsoft einsetzt, für den ist Databricks interessant. Relevant ist das Analysetool zudem für alle, die so schnell wie möglich in Apache Spark einsteigen möchten. Bereits bestehende Teams können ihr Wissen in der Regel einfach auf Databricks übertragen. Damit fällt die Lernkurve flach aus und ein produktiver Einsatz ist schnell möglich. Und es entfällt die Notwendigkeit für Schulungen des alten Personals und es müssen keine neuen Mitarbeiter eingestellt werden. Databricks ist daher auch eine insgesamt kostengünstige Lösung und richtet sich an Unternehmen, die mit einem engen Budget arbeiten müssen. Zudem ist der Einsatz von Databricks dann sinnvoll, wenn mit Datenbanken wie SQL, Scala oder Python gearbeitet wird. Databricks unterstützt nämlich für diese und weitere Datenbanken die Datenabfrage, die Datenanalyse und die Verarbeitung der Daten.

Fazit

Databricks stellt eine interessante Lösung für verschiedene Anwendungen in der Datenanalyse im Bereich Big Data dar. Das Tool nutzt alle Möglichkeiten von Azure und erweitert diese um das reiche Funktionsangebot von Apache Spark. Wer auf Databricks umsteigt, riskiert dabei nur wenig, denn Spark ist seit vielen Jahren erfolgreich im Einsatz. Unternehmen müssen also ihre gewohnte Azure-Umgebung nicht verlassen und können dennoch von allen Vorteilen dieser Apache-Anwendung profitieren. Gerade auch unter Kostengesichtspunkten ist die Lösung interessant, da mit dem Einsatz dieser neuen Analyseplattform in der Regel keine neuen Mitarbeiter eingestellt werden müssen. Wer bereits auf Azure setzt, erhält mit Databricks eine Analyseumgebung mit extrem niedrigen Einstiegshürden.

Verwandte Know-Hows

ChatGPT (Conversational Generative Pre-training Transformer) ist ein natürliches Sprachverarbeitungsmodell (NLP), entwickelt von OpenAI. Es basiert auf der Transformer-Modellarchitektur und ist darauf trainiert, natürliche Sprache zu generieren. ChatGPT kann verwendet werden, […]
Amazon Web Services (AWS) ist ein auf Cloud-Dienstleistungen spezialisiertes Tochterunternehmen von Amazon, das seinen Kunden Rechenleistung, Datenbankspeicher, Inhaltsbereitstellung und andere Funktionen zum Aufbau anspruchsvoller Anwendungen bietet. Heute gilt AWS als […]
Deep Learning bedeutet auf Deutsch „tiefgehendes Lernen“ und bezeichnet einen Teilbereich des maschinellen Lernens (Machine Learning). Die Lernmethode basiert auf großen Datenmengen, die durch künstliche, neuronale Netze verarbeitet werden und so der Informationsgewinnung dienen. Deep Learning ist z. […]

Passende Angebote zum Thema

Mobile Datenerfassung (MDE) scheint auf den ersten Blick ein simples Thema zu sein: Scanner beschaffen, mobile Anwendung bzw. Transaktion erstellen, auf dem Gerät installieren und – fertig. Ist es wirklich […]
Hand aufs Herz: Wie gehen Sie bei der Anwendungs-Entwicklung vor? Haben Sie immer die Endanwender im Fokus? Sollten Sie, denn diese müssen letztendlich mit der neuen Anwendung arbeiten können – […]
Unser Prozess Analyse und Scoping Workshop ist das Ideale Mittel zum erkennen von Abhängigkeiten über mehrere Systeme und bietet eine solide Grundlage zum planen von erfolgreichen Projekten. Eine professionelle und […]
Kontakt aufnehmen
Ansprechpartner
Laura Feldkamp mindsquare Kundenservice
Laura Feldkamp Kundenservice