mindsquare.de durchsuchen

Q-Learning

Philipp Schurr
6. Juni 2025

Q-Learning ist ein Teilgebiet des maschinellen Lernens und eine beliebte Methode aus dem Bereich des Reinforcement Learnings (verstärkendes Lernen). Programme sollen dabei selbständig lernen Aufgaben durch Ausprobieren zu lösen. Der Hauptunterschied zu anderen Lernmethoden besteht darin, dass Q-Learning keine vollständige Kenntnis des Umgebungsmodells benötigt. Stattdessen lernt es durch Interaktion mit der Umgebung und zählt dadurch zu den model-free Reinforcement-Learning-Algorithmen.

Grundlagen des Q-Learning

Die Grundidee ist einfach: Ein Computerprogramm – der sogenannte Agent – lernt durch Ausprobieren. Es probiert verschiedene Handlungen aus, bekommt dafür positives oder negatives Feedback (eine Belohnung oder Strafe) und verbessert so Schritt für Schritt sein Verhalten.

Wie funktioniert das Prinzip?

Man kann sich das Ganze wie ein Spiel vorstellen:

  1. Der Agent befindet sich in einem bestimmten Zustand.
  2. Er entscheidet sich für eine Aktion – also einen nächsten Schritt.
  3. Die Umgebung reagiert darauf: Der Zustand verändert sich, und der Agent erhält eine Belohnung (z. B. +10 Punkte) oder eine Strafe (z. B. –5 Punkte).
  4. Daraus lernt der Agent, was gut war – und was nicht.

Ziel ist es, langfristig möglichst viele Belohnungen zu bekommen. Der Agent will also lernen, welche Handlungen ihn zum Erfolg führen.

Wir begleiten Sie Schritt für Schritt zur erfolgreichen Integration eines maßgeschneiderten AI-Agenten in Ihre Unternehmensprozesse.

Die Q-Tabelle – das Gedächtnis des Agenten

Die Q-Tabelle ist das Herzstück des Q-Learnings. Sie speichert die sogenannten Q-Werte, die anzeigen, welche Aktion in welchem Zustand gut funktioniert hat.

Die Q-Werte helfen dem Agenten dabei nach und nach ein Wissensnetz aufzubauen. Die Tabelle wird dabei während des Lernprozesses immer weiter aktualisiert, basierend auf den Belohnungen und Strafen.

So ermöglicht die Q-Tabelle dem Agenten:

  • Entscheidungen zu treffen: Der Agent wählt immer die Aktion mit dem höchsten Q-Wert in einem Zustand.
  • Zu lernen: Der Agent passt die Q-Werte an, um aus Fehlern zu lernen und die besten Wege zu finden.
  • Effizient zu handeln: Sobald die Tabelle vollständig ist, kennt der Agent die optimale Strategie.

Während des Q-Learnings aktualisiert sich die Q-Tabelle also kontinuierlich mit jeder Aktion, die der Agent ausführt. Dieser Prozess wiederholt sich dann so lange, bis ein festgelegter Endzustand erreicht wird. Nach Abschluss dieses Lernprozesses kann der Agent bereits mit den zuvor erlernten Q-Werten aus der Tabelle starten, wodurch er zunehmend bessere Entscheidungen trifft.

Wir fassen also zusammen:

  • Der Agent lernt aus Erfahrung, nicht durch Vorgaben.
  • Gute Entscheidungen führen zu mehr Belohnung – das merkt er sich.
  • Schlechte Entscheidungen korrigiert er im Laufe der Zeit.

Erweiterungen des Q-Learnings

Obwohl das klassische Q-Learning eine leistungsstarke Methode im Reinforcement Learning ist, stößt es bei komplexen Problemen mit hohen Dimensionen oder unvorhersehbaren Übergangsfunktionen an seine Grenzen. Daher entwickelten sich im Laufe der Zeit Erweiterungen des Q-Learnings, um ebendiese Herausforderungen zu bewältigen. Dazu einmal drei gängige Varianten:

Deep Q-Learning

Q-Learning scheitert bei großen oder kontinuierlichen Zustandsräumen oft, da das Speichern und Aktualisieren einer Q-Tabelle unpraktisch wird. Deep Q-Learning verwendet daher neuronale Netze, um sich an die Q-Werte anzunähern, wodurch der Algorithmus auch bei hochdimensionalen Zustandsräumen effizient arbeiten kann.

Double Q-Learning

Das klassische Q-Learning neigt dazu, Q-Werte zu überschätzen, da die gleiche Q-Tabelle sowohl für die Aktionsauswahl als auch für die Bewertung verwendet wird. Das Double Q-Learning trennt die Aktionsauswahl und die Bewertung der Aktionen in zwei unterschiedliche Q-Schätzungen, was zu stabileren und genaueren Werten führt.

Nash Q-Learning

Klassisches Q-Learning ist für Mehrspielerumgebungen dahingehend ungeeignet, da es keine Strategien berücksichtigt, bei denen mehrere Agenten strategisch interagieren. Nash Q-Learning nutzt Konzepte aus der Spieltheorie, wie das Nash-Gleichgewicht, um Agenten Entscheidungen treffen zu lassen, die ihre Strategien an die Aktionen anderer Agenten anpassen.

Webinar: Von der KI-Vision zur realen Umsetzung
In diesem Webinar erwartet Sie eine praxisorientierte Einführung, wie Sie Ihre KI-Transformation erfolgreich umsetzen können.

Vor- und Nachteile

Q-Learning bringt viele Vorteile mit sich:

  • Model-Free Algorithmus: Es ist kein vordefiniertes Modell der Umgebung erforderlich und daher eignet es sich für komplexe oder unbekannte Umgebungen.
  • Effektiv in stochastischen Umgebungen: Es erweist sich als robust gegenüber Zufälligkeiten und Unsicherheiten in der Umgebung.
  • Einfache Implementierung: Es ist leicht verständlich und mit minimalen theoretischen Voraussetzungen umsetzbar.
  • Konvergenz: Es garantiert langfristig die Annäherung zu einer optimalen Strategie, wenn ausreichend Zeit gegeben ist.

Ebenso gilt es einige Nachteile zu bedenken:

  • Langsame Konvergenz: Es kann bei komplexen Aufgaben viele Episoden benötigen, um optimale Ergebnisse zu erzielen.
  • Unpraktisch bei großen Zustandsräumen: Ein hoher Speicherbedarf und Ineffizienz bei wachsenden oder kontinuierlichen Zustandsräumen.
  • Exploration-Exploitation-Problematik: Schwieriges Gleichgewicht zwischen der Erkundung neuer Optionen und der Nutzung bestehender Kenntnisse.
  • Empfindlichkeit gegenüber Hyperparametern: Das Modell reagiert empfindlich auf bestimmte Einstellungen wie die Lernrate, den Abzinsungsfaktor und die Entdeckungsrate. Wenn diese Werte nicht gut ausgewählt sind, kann das Modell schlechter funktionieren.

Einsatzbereiche

Q-Learning wird in Situationen genutzt, in denen ein Computer Schritt für Schritt lernen muss, wie er sich am besten verhält – besonders in sich verändernden Umgebungen. Zum Beispiel: um den besten Weg für Roboter oder selbstfahrende Autos zu finden, kluge Spielfiguren in Computerspielen zu entwickeln, Ressourcen im Gesundheitsbereich gut zu verteilen oder um im Handel Geld zu verdienen.

E-Book Use Cases KI in Unternehmen

NEU: E-Book: 40 Use Cases von KI in Unternehmen

In diesem kostenlosen E-Book finden Sie konkrete Beispiele, wie KI in den verschiedensten Abteilungen eines Unternehmens Mehrwert schaffen kann.

Fazit

Q-Learning ist eine mächtige und flexible Technik des Reinforcement Learnings, die es einem Agenten ermöglicht, optimale Entscheidungen in komplexen Umgebungen zu treffen. Es bleibt damit aufgrund seiner Einfachheit und auch seiner Erweiterbarkeit ein grundlegendes Werkzeug im Bereich der künstlichen Intelligenz.

FAQ

Was ist Q-Learning?

Q-Learning ist ein Lernverfahren, bei dem ein Computer (Agent) lernt, in einer Umgebung die besten Entscheidungen zu treffen, damit er auf Dauer möglichst viele Belohnungen bekommt.

Was ist eine Q-Tabelle?

Eine Q-Tabelle ist eine strukturierte Tabelle, in der für jeden Zustand und jede mögliche Aktion die geschätzte Belohnung (Q-Wert) gespeichert wird, die der Agent durch diese Aktion im jeweiligen Zustand erwartet.

Wieso gibt es Erweiterungen des Q-Learnings?

Es gibt verschiedene Erweiterungen des Q-Learnings, um spezifische Probleme zu lösen, wie z. B. die langsame Konvergenz, Überbewertung von Q-Werten oder die Anpassung an komplexe und dynamische Umgebungen.

Wer kann mir beim Thema Q-Learning helfen?

Wenn Sie Unterstützung zum Thema Q-Learning benötigen, stehen Ihnen die Experten der mindsquare AG zur Verfügung. Unsere Berater helfen Ihnen, Ihre Fragen zu beantworten, das passende Tool für Ihr Unternehmen zu finden und es optimal einzusetzen. Vereinbaren Sie gern ein unverbindliches Beratungsgespräch, um Ihre spezifischen Anforderungen zu besprechen.

Verwandte Knowhows

End-to-End-Learning ist ein innovativer Ansatz im maschinellen Lernen, der die Art und Weise verändert, wie KI-Systeme Aufgaben lösen. Statt auf Zwischenstufen oder manuelle Eingriffe angewiesen zu sein, ermöglicht dieser Ansatz […]
Von Recruiting über Controlling bis zum Kundenservice: Künstliche Intelligenz (KI) ist aus der Unternehmenswelt nicht mehr wegzudenken. Sie automatisiert Prozesse, unterstützt bei der Entscheidungsfindung und eröffnet neue Geschäftschancen. Doch je […]
TensorFlow ist eine der bekanntesten Open-Source-Plattformen für maschinelles Lernen (ML) und künstliche Intelligenz (KI). Entwickelt von Google, bietet TensorFlow leistungsstarke Tools, um Modelle für verschiedene Anwendungen wie Bilderkennung, Sprachverarbeitung und […]

Passende Angebote

Bei unserem KI-Hackathon zeigen wir Ihnen und Ihrer IT-Abteilung, welche Möglichkeiten KI schon heute für Ihr Unternehmen bereithält.
Bei unserem KI Aufbruchsevent lernen Sie und Ihr Team den optimalen und effizientesten Umgang mit den bekanntesten generativen KI-Tools.

Beratung und Unterstützung für die Unternehmens-IT

  • Individualentwicklung für SAP und Salesforce
  • SAP S/4HANA-Strategieentwicklung, Einführung, Migration
  • Mobile App Komplettlösungen – von der Idee über die Entwicklung und Einführung bis zum Betrieb, für SAP Fiori und Salesforce Lightning
  • Automatisierung von Prozessen durch Schnittstellen, künstliche Intelligenz (KI) und Robotic Process Automation (RPA)
  • Beratung, Entwicklung, Einführung
  • Formular- und Outputmanagement, E-Rechnung & SAP DRC
  • SAP Archivierung und SAP ILM
  • SAP Basis & Security, Enterprise IT-Security & Datenschutz
  • SAP BI & Analytics
  • Low Code / No Code – Lösungen

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Personal / HR

  • Knowhow in Personalprozessen und IT-Technologien verbinden
  • HR-Berater, die IT-ler und Personaler in einer Person sind
  • Beratung zu HR IT Landschafts- & Roadmap sowie HR Software Auswahl
  • Beratung und Entwicklung im SAP HCM, SuccessFactors und der SAP Business Technology Platform
  • HCM for S/4HANA (H4S4) Migration & Support
  • Als Advisory Partner Plattform und Prozessberatung in Workday
  • Mobile Development mit SAP Fiori, SAPUI5, HTML5 und JavaScript
  • Marktführer im Bereich ESS/MSS

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Produktion & Logistik

  • Optimierung und Digitalisierung von Produktions- und Logistikprozessen sowie Einkaufs- und Vertriebsprozessen
  • Einführung mobiler Datenerfassung in Produktion, Lager und Instandhaltung
  • Umfassendes Knowhow in den SAP-Modulen LO, MM, SD, WM, PM und CCS/CCM
  • Modul-Beratung & Einführung, Entwicklung individueller (mobiler) Anwendungen
  • Beratung und Entwicklung in der SAP Freischaltungsabwicklung (SAP WCM, eWCM)
  • Optimierung sämtlicher Prozesse im Bereich der nachträglichen Vergütung (Bonus)

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Vertrieb & Service

  • Vertriebs- & Service-Prozesse auf Basis von Salesforce
  • Beratung, Einführung und Entwicklung für Salesforce-Lösungen: Sales Cloud, Service Cloud, Marketing Cloud inkl. Account Engagement (ehem. Pardot)
  • Salesforce Customizing: Individuelle Lösungen in Salesforce, u.a. für Chemie-Branche
  • Betriebsunterstützung und Service für Salesforce-Kunden
  • Schnittstellen-Entwicklung, besondere Expertise SAP – Salesforce Integration

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

msDevSupport

Service / Development Support

  • fester, eingearbeiteter Ansprechpartner als Koordinator
  • kontinuierliche Weiterentwicklung und Digitalisierung Ihres Unternehmens, z.B. Fehlerbehebung, Updates, neue Features implementieren
  • kleinere Entwicklungen realisieren, die kein Projektmanagement erfordern
  • günstige Abrechnungen pro h
  • sehr einfache und schnelle Beauftragung auf Zuruf
  • ständige Verfügbarkeit: (Teil-)Ressourcen geblockt für Sie
  • kurze Reaktionszeiten 2 – 24h
  • Wir halten Wissen vor und stellen Stellvertretung sicher

msSolution

Projekte

  • Projektleitung und Steering inklusive Qualitätssicherung
  • „Wir machen Ihr fachliches Problem zu unserem.“
  • mindsquare steuert IT-Experten selbst
  • Abrechnung pro Tag
  • Längerer Angebots- und Beauftragungsprozess
  • Lieferzeit 6 – 12 Wochen ab Auftragseingang
  • Zum Auftragsende Transition zu einem Service & Support notwendig, um schnell helfen zu können

msPeople

IT-Experten auf Zeit

  • Wir lösen Ihren personellen Engpass, z.B. liefern von IT-Experten für Ihr laufendes Projekt
  • Breites Experten-Netzwerk für praktisch jedes Thema und Budget:
  • interne festangestellte mindsquare Mitarbeiter:innen
  • externe Experten aus unserem Netzwerk von 27.000 Freiberufler:innen aus Deutschland
  • externe Experten im Nearshoring mit derzeit 37 Partnern
  • Verbindliches Buchen der Experten in einem definierten Zeitraum an festen Tagen
  • Ohne Projektleitung und Steering, Sie steuern die Experten
  • Lieferzeit in der Regel 2 – 6 Wochen
  • Nach Auftragsende KEIN Vorhalten von Experten und Knowhow
Kontakt aufnehmen
Ansprechpartner
Laura Feldkamp mindsquare Kundenservice
Laura Feldkamp Kundenservice