mindsquare.de durchsuchen

Q-Learning

Philipp Schurr
6. Juni 2025

Q-Learning ist ein Teilgebiet des maschinellen Lernens und eine beliebte Methode aus dem Bereich des Reinforcement Learnings (verstärkendes Lernen). Programme sollen dabei selbständig lernen Aufgaben durch Ausprobieren zu lösen. Der Hauptunterschied zu anderen Lernmethoden besteht darin, dass Q-Learning keine vollständige Kenntnis des Umgebungsmodells benötigt. Stattdessen lernt es durch Interaktion mit der Umgebung und zählt dadurch zu den model-free Reinforcement-Learning-Algorithmen.

Grundlagen des Q-Learning

Die Grundidee ist einfach: Ein Computerprogramm – der sogenannte Agent – lernt durch Ausprobieren. Es probiert verschiedene Handlungen aus, bekommt dafür positives oder negatives Feedback (eine Belohnung oder Strafe) und verbessert so Schritt für Schritt sein Verhalten.

Wie funktioniert das Prinzip?

Man kann sich das Ganze wie ein Spiel vorstellen:

  1. Der Agent befindet sich in einem bestimmten Zustand.
  2. Er entscheidet sich für eine Aktion – also einen nächsten Schritt.
  3. Die Umgebung reagiert darauf: Der Zustand verändert sich, und der Agent erhält eine Belohnung (z. B. +10 Punkte) oder eine Strafe (z. B. –5 Punkte).
  4. Daraus lernt der Agent, was gut war – und was nicht.

Ziel ist es, langfristig möglichst viele Belohnungen zu bekommen. Der Agent will also lernen, welche Handlungen ihn zum Erfolg führen.

Die Q-Tabelle – das Gedächtnis des Agenten

Die Q-Tabelle ist das Herzstück des Q-Learnings. Sie speichert die sogenannten Q-Werte, die anzeigen, welche Aktion in welchem Zustand gut funktioniert hat.

Die Q-Werte helfen dem Agenten dabei nach und nach ein Wissensnetz aufzubauen. Die Tabelle wird dabei während des Lernprozesses immer weiter aktualisiert, basierend auf den Belohnungen und Strafen.

So ermöglicht die Q-Tabelle dem Agenten:

  • Entscheidungen zu treffen: Der Agent wählt immer die Aktion mit dem höchsten Q-Wert in einem Zustand.
  • Zu lernen: Der Agent passt die Q-Werte an, um aus Fehlern zu lernen und die besten Wege zu finden.
  • Effizient zu handeln: Sobald die Tabelle vollständig ist, kennt der Agent die optimale Strategie.

Während des Q-Learnings aktualisiert sich die Q-Tabelle also kontinuierlich mit jeder Aktion, die der Agent ausführt. Dieser Prozess wiederholt sich dann so lange, bis ein festgelegter Endzustand erreicht wird. Nach Abschluss dieses Lernprozesses kann der Agent bereits mit den zuvor erlernten Q-Werten aus der Tabelle starten, wodurch er zunehmend bessere Entscheidungen trifft.

E-Book: KI im Mittelstand

E-Book: KI im Mittelstand

In diesem E-Book erfahren Sie, wie Sie KI in Ihrem Unternehmen einsetzen können.

Wir fassen also zusammen:

  • Der Agent lernt aus Erfahrung, nicht durch Vorgaben.
  • Gute Entscheidungen führen zu mehr Belohnung – das merkt er sich.
  • Schlechte Entscheidungen korrigiert er im Laufe der Zeit.

Erweiterungen des Q-Learnings

Obwohl das klassische Q-Learning eine leistungsstarke Methode im Reinforcement Learning ist, stößt es bei komplexen Problemen mit hohen Dimensionen oder unvorhersehbaren Übergangsfunktionen an seine Grenzen. Daher entwickelten sich im Laufe der Zeit Erweiterungen des Q-Learnings, um ebendiese Herausforderungen zu bewältigen. Dazu einmal drei gängige Varianten:

Deep Q-Learning

Q-Learning scheitert bei großen oder kontinuierlichen Zustandsräumen oft, da das Speichern und Aktualisieren einer Q-Tabelle unpraktisch wird. Deep Q-Learning verwendet daher neuronale Netze, um sich an die Q-Werte anzunähern, wodurch der Algorithmus auch bei hochdimensionalen Zustandsräumen effizient arbeiten kann.

Double Q-Learning

Das klassische Q-Learning neigt dazu, Q-Werte zu überschätzen, da die gleiche Q-Tabelle sowohl für die Aktionsauswahl als auch für die Bewertung verwendet wird. Das Double Q-Learning trennt die Aktionsauswahl und die Bewertung der Aktionen in zwei unterschiedliche Q-Schätzungen, was zu stabileren und genaueren Werten führt.

Nash Q-Learning

Klassisches Q-Learning ist für Mehrspielerumgebungen dahingehend ungeeignet, da es keine Strategien berücksichtigt, bei denen mehrere Agenten strategisch interagieren. Nash Q-Learning nutzt Konzepte aus der Spieltheorie, wie das Nash-Gleichgewicht, um Agenten Entscheidungen treffen zu lassen, die ihre Strategien an die Aktionen anderer Agenten anpassen.

Künstliche Intelligenz Webinar
Sie möchten gerne mehr zum Thema Künstliche Intelligenz erfahren und wie Ihr Unternehmen davon profitieren kann? In unserem Webinar fassen wir Ihnen die wichtigsten Aspekte zusammen!

Vor- und Nachteile

Q-Learning bringt viele Vorteile mit sich:

  • Model-Free Algorithmus: Es ist kein vordefiniertes Modell der Umgebung erforderlich und daher eignet es sich für komplexe oder unbekannte Umgebungen.
  • Effektiv in stochastischen Umgebungen: Es erweist sich als robust gegenüber Zufälligkeiten und Unsicherheiten in der Umgebung.
  • Einfache Implementierung: Es ist leicht verständlich und mit minimalen theoretischen Voraussetzungen umsetzbar.
  • Konvergenz: Es garantiert langfristig die Annäherung zu einer optimalen Strategie, wenn ausreichend Zeit gegeben ist.

Ebenso gilt es einige Nachteile zu bedenken:

  • Langsame Konvergenz: Es kann bei komplexen Aufgaben viele Episoden benötigen, um optimale Ergebnisse zu erzielen.
  • Unpraktisch bei großen Zustandsräumen: Ein hoher Speicherbedarf und Ineffizienz bei wachsenden oder kontinuierlichen Zustandsräumen.
  • Exploration-Exploitation-Problematik: Schwieriges Gleichgewicht zwischen der Erkundung neuer Optionen und der Nutzung bestehender Kenntnisse.
  • Empfindlichkeit gegenüber Hyperparametern: Das Modell reagiert empfindlich auf bestimmte Einstellungen wie die Lernrate, den Abzinsungsfaktor und die Entdeckungsrate. Wenn diese Werte nicht gut ausgewählt sind, kann das Modell schlechter funktionieren.

Einsatzbereiche

Q-Learning wird in Situationen genutzt, in denen ein Computer Schritt für Schritt lernen muss, wie er sich am besten verhält – besonders in sich verändernden Umgebungen. Zum Beispiel: um den besten Weg für Roboter oder selbstfahrende Autos zu finden, kluge Spielfiguren in Computerspielen zu entwickeln, Ressourcen im Gesundheitsbereich gut zu verteilen oder um im Handel Geld zu verdienen.

Fazit

Q-Learning ist eine mächtige und flexible Technik des Reinforcement Learnings, die es einem Agenten ermöglicht, optimale Entscheidungen in komplexen Umgebungen zu treffen. Es bleibt damit aufgrund seiner Einfachheit und auch seiner Erweiterbarkeit ein grundlegendes Werkzeug im Bereich der künstlichen Intelligenz.

FAQ

Was ist Q-Learning?

Q-Learning ist ein Lernverfahren, bei dem ein Computer (Agent) lernt, in einer Umgebung die besten Entscheidungen zu treffen, damit er auf Dauer möglichst viele Belohnungen bekommt.

Was ist eine Q-Tabelle?

Eine Q-Tabelle ist eine strukturierte Tabelle, in der für jeden Zustand und jede mögliche Aktion die geschätzte Belohnung (Q-Wert) gespeichert wird, die der Agent durch diese Aktion im jeweiligen Zustand erwartet.

Wieso gibt es Erweiterungen des Q-Learnings?

Es gibt verschiedene Erweiterungen des Q-Learnings, um spezifische Probleme zu lösen, wie z. B. die langsame Konvergenz, Überbewertung von Q-Werten oder die Anpassung an komplexe und dynamische Umgebungen.

Wer kann mir beim Thema Q-Learning helfen?

Wenn Sie Unterstützung zum Thema Q-Learning benötigen, stehen Ihnen die Experten der mindsquare AG zur Verfügung. Unsere Berater helfen Ihnen, Ihre Fragen zu beantworten, das passende Tool für Ihr Unternehmen zu finden und es optimal einzusetzen. Vereinbaren Sie gern ein unverbindliches Beratungsgespräch, um Ihre spezifischen Anforderungen zu besprechen.

Verwandte Knowhows

Mit Conversational AI bietet SAP eine Komplettlösung, die das intuitive konzipieren, trainieren und implementieren von Chatbots ermöglicht. Durch die nahtlose Anknüpfung der Bot-Building-Plattform an die bestehende Infrastrukturen können Unternehmen mit […]
Die künstliche Intelligenz hat in den letzten Jahren bemerkenswerte Fortschritte erzielt und ist in vielen Bereichen unseres Lebens präsent. Eine der vielversprechendsten Entwicklungen sind Self-Learning Models. Diese Systeme haben das […]
Die Clusteranalyse ist eine bewährte Methode zur Gruppierung von Daten und wird in vielen Bereichen der Wirtschaft, Wissenschaft und Technologie eingesetzt. Sie ermöglicht es, große Datenmengen zu analysieren und ähnliche […]

Passende Angebote

In wenigen Wochen entwickeln wir gemeinsam maßgeschneiderte KI-Lösungen, die Ihre Wettbewerbsfähigkeit stärken und Ihr Unternehmen zukunftssicher machen.
Bei unserem KI-Hackathon zeigen wir Ihnen und Ihrer IT-Abteilung, welche Möglichkeiten KI schon heute für Ihr Unternehmen bereithält.
Bei unserem KI Aufbruchsevent lernen Sie und Ihr Team den optimalen und effizientesten Umgang mit den bekanntesten generativen KI-Tools.

Beratung und Unterstützung für die Unternehmens-IT

  • Individualentwicklung für SAP und Salesforce
  • SAP S/4HANA-Strategieentwicklung, Einführung, Migration
  • Mobile App Komplettlösungen – von der Idee über die Entwicklung und Einführung bis zum Betrieb, für SAP Fiori und Salesforce Lightning
  • Automatisierung von Prozessen durch Schnittstellen, künstliche Intelligenz (KI) und Robotic Process Automation (RPA)
  • Beratung, Entwicklung, Einführung
  • Formular- und Outputmanagement, E-Rechnung & SAP DRC
  • SAP Archivierung und SAP ILM
  • SAP Basis & Security, Enterprise IT-Security & Datenschutz
  • SAP BI & Analytics
  • Low Code / No Code – Lösungen

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Personal / HR

  • Knowhow in Personalprozessen und IT-Technologien verbinden
  • HR-Berater, die IT-ler und Personaler in einer Person sind
  • Beratung zu HR IT Landschafts- & Roadmap sowie HR Software Auswahl
  • Beratung und Entwicklung im SAP HCM, SuccessFactors und der SAP Business Technology Platform
  • HCM for S/4HANA (H4S4) Migration & Support
  • Als Advisory Partner Plattform und Prozessberatung in Workday
  • Mobile Development mit SAP Fiori, SAPUI5, HTML5 und JavaScript
  • Marktführer im Bereich ESS/MSS

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Produktion & Logistik

  • Optimierung und Digitalisierung von Produktions- und Logistikprozessen sowie Einkaufs- und Vertriebsprozessen
  • Einführung mobiler Datenerfassung in Produktion, Lager und Instandhaltung
  • Umfassendes Knowhow in den SAP-Modulen LO, MM, SD, WM, PM und CCS/CCM
  • Modul-Beratung & Einführung, Entwicklung individueller (mobiler) Anwendungen
  • Beratung und Entwicklung in der SAP Freischaltungsabwicklung (SAP WCM, eWCM)
  • Optimierung sämtlicher Prozesse im Bereich der nachträglichen Vergütung (Bonus)

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Vertrieb & Service

  • Vertriebs- & Service-Prozesse auf Basis von Salesforce
  • Beratung, Einführung und Entwicklung für Salesforce-Lösungen: Sales Cloud, Service Cloud, Marketing Cloud inkl. Account Engagement (ehem. Pardot)
  • Salesforce Customizing: Individuelle Lösungen in Salesforce, u.a. für Chemie-Branche
  • Betriebsunterstützung und Service für Salesforce-Kunden
  • Schnittstellen-Entwicklung, besondere Expertise SAP – Salesforce Integration

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

msDevSupport

Service / Development Support

  • fester, eingearbeiteter Ansprechpartner als Koordinator
  • kontinuierliche Weiterentwicklung und Digitalisierung Ihres Unternehmens, z.B. Fehlerbehebung, Updates, neue Features implementieren
  • kleinere Entwicklungen realisieren, die kein Projektmanagement erfordern
  • günstige Abrechnungen pro h
  • sehr einfache und schnelle Beauftragung auf Zuruf
  • ständige Verfügbarkeit: (Teil-)Ressourcen geblockt für Sie
  • kurze Reaktionszeiten 2 – 24h
  • Wir halten Wissen vor und stellen Stellvertretung sicher

msSolution

Projekte

  • Projektleitung und Steering inklusive Qualitätssicherung
  • „Wir machen Ihr fachliches Problem zu unserem.“
  • mindsquare steuert IT-Experten selbst
  • Abrechnung pro Tag
  • Längerer Angebots- und Beauftragungsprozess
  • Lieferzeit 6 – 12 Wochen ab Auftragseingang
  • Zum Auftragsende Transition zu einem Service & Support notwendig, um schnell helfen zu können

msPeople

IT-Experten auf Zeit

  • Wir lösen Ihren personellen Engpass, z.B. liefern von IT-Experten für Ihr laufendes Projekt
  • Breites Experten-Netzwerk für praktisch jedes Thema und Budget:
  • interne festangestellte mindsquare Mitarbeiter:innen
  • externe Experten aus unserem Netzwerk von 27.000 Freiberufler:innen aus Deutschland
  • externe Experten im Nearshoring mit derzeit 37 Partnern
  • Verbindliches Buchen der Experten in einem definierten Zeitraum an festen Tagen
  • Ohne Projektleitung und Steering, Sie steuern die Experten
  • Lieferzeit in der Regel 2 – 6 Wochen
  • Nach Auftragsende KEIN Vorhalten von Experten und Knowhow
Kontakt aufnehmen
Ansprechpartner
Laura Feldkamp mindsquare Kundenservice
Laura Feldkamp Kundenservice