Von Joannes Vermorel, Januar 2018Kreuzentropie wird als Metrik häufig zur Darstellung der Genauigkeit einer probabilistischen Vorhersage benutzt. Das Konzept der Kreuzentropie ist eng mit der Maximum-Likelihood-Methode verwandt. Dabei ist die Kreuzentropie für moderne Prognosesysteme ausschlaggebend, da sie zur Bereitstellung anspruchsvollerer Prognosen, sogar für alternative Metriken, beiträgt. Die Lieferkette misst der Kreuzentropie eine besondere Bedeutung bei, da hiermit Schätzungen von Modellen unterstützt werden, die seltene Ereignisse - oftmals die teuersten - besonders gut erfassen. Grundlage für diese Metrik sind die Ansätze einfacherer Kennzahlen für Genauigkeit, wie die mittlere quadratische Abweichung oder der mittlere absolute prozentuale Fehler.
Frequentistischer vs. bayesscher Wahrscheinlichkeitsbegriff
Eine gewöhnliche Perspektive in der Statistik stützt sich auf den frequentistischen Wahrscheinlichkeitsbegriff. Aus der frequentistischen Perspektive, sollten Messungen oftmals wiederholt werden, um das Vorkommen eines bestimmten Ereignisses zu zählen und somit quantitativ zu erfassen. Somit kann laut diesem Ansatz die Häufigkeit, also die Wahrscheinlichkeit für das Eintreten des Ereignisses, geschätzt werden. Da über mehrere Experimente die Häufigkeit konvergiert, kann die Wahrscheinlichkeit genauer geschätzt werden.
Die Kreuzentropie geht von der Perspektive des Bayesschen Wahrscheinlichkeitsbegriffes aus. Bei der bayesschen Perspektive ist die Herangehensweise umgekehrt. Zum Verständnis eines ungewissen Ereignisses, geht man bei dem Bayesschen Modell von einem Modell aus, das bereits eine Schätzung für die Eintrittswahrscheinlichkeit des Ereignisses bietet. Dann wird durch wiederholte Beobachtungen bewertet, wie gut das Modell im Vergleich zu den tatsächlich eintretenden Ereignissen abschneidet. Desto öfters das Ereignis eintritt, umso höher wird die (Un-)Angemessenheit des Modells.
Sowohl die frequentistische, als auch die Bayessche Perspektive sind gültige und nützliche Ansätze. Da im Kontext der Lieferkette die Erfassung von Beobachtungen teuer und etwas unflexibel ist - Unternehmen haben schließlich wenig Einfluss auf die Bestellung von Produkten -, ist der Bayessche Ansatz oft praktischer.
Die Einsicht der Kreuzentropie
Bevor in die algebraische Formulierung der Kreuzentropie eingegangen wird, versuchen wir, ihre Grundlagen zu veranschaulichen. Gehen wir davon aus, dass uns ein probabilistisches Modell - im Weiteren
Modell - vorliegt, dass die Vergangenheit erklären und die Zukunft prognostizieren soll. Für jede Beobachtung in der Vergangenheit bietet das Modell eine Schätzung der Wahrscheinlichkeit dafür, dass die Beobachtung so eintreten sollte, wie es geschah. Obwohl die Erstellung eines Modells, dass alle vergangenen Beobachtungen speichert und ihnen eine Wahrscheinlichkeit gleich 1 zuordnet, möglich ist, würde ein solches Modell keine Information bezüglich der Zukunft bieten. Daher nähert sich ein
interessantes Modell der Vergangenheit und bietet somit Wahrscheinlichkeiten unter 1 für vergangene Ereignisse.
Durch den Bayesschen Ansatz kann die Wahrscheinlichkeit, die das Modell für alle Beobachtungen generiert hätte, bewertet werden. Geht man zusätzlich noch davon aus, dass alle Beobachtungen unabhängige IID, unabhängig und identisch verteilt sind, ergibt sich die Wahrscheinlichkeit, die dieses Modell für die gesamten Beobachtungen ergeben hätte, aus allen Wahrscheinlichkeiten, die das Modell für jede vergangene Beobachtung geschätzt hätte.
Das mathematische Produkt von tausenden Variablen liegt gewöhnlich unter 0,5, wenn man davon ausgeht, dass das Ereignis mit einer ziemlichen Ungewissheit verbunden ist - sodass sich eine unglaublich kleine Zahl ergeben kann. So könnte man sich sogar bei einem hervorragenden Modell zur Bedarfsanalyse fragen, wie groß die Genauigkeit ist, dass es alle in einem Jahr beobachteten Umsatzdaten im Unternehmen richtig prognostiziert. Auch wenn die Schätzung dieser Zahl nicht trivial ist, könnte diese Zahl offensichtlich überraschend klein sein.
Um dieses numerische Problem, das als arithmetischer Unterlauf bekannt ist, zu lindern, wird auf Logarithmen zurückgegriffen. Grundsätzlich können Logarithmen zur Umwandlung von Produkten in Summen eingesetzt werden, wodurch das Unterlauf-Problem behandelt werden kann.
Formale Definition der Kreuzentropie
Für zwei diskrete Zufallsvariablen $p$ und $q$, wird die Kreuzentropie wie folgt definiert:
$$H(p, q) = -\sum_x p(x)\, \log q(x). \!$$
Diese Definition ist nicht symmetrisch. $P$ ist als „wahre“ Verteilung gedacht, die nur teilweise beobachtet wird, während $Q$ als „unnatürliche“ Verteilung, die aus einem erstellten statistischen Modell stammt.
In der Informationstheorie, kann die Kreuzentropie als die erwartete Länge in Bits zur Verschlüsselung von Botschaften interpretiert werden, wenn $Q$ statt $P$ benutzt wird. Diese Perspektive geht über das Ziel des vorliegenden Texts hinaus und hat für die Lieferkette keine erstrangige Bedeutung.
In der Praxis wird die Kreuzentropie, da $P$ unbekannt ist, empirisch aus Beobachtungen geschätzt, indem davon ausgegangen wird, dass alle gesammelten Beobachtungen dieselbe Wahrscheinlichkeit besitzen, also $p(x)=1/N$ wobei $N$ die Anzahl der Beobachtungen darstellt.
$$H(q) = - \frac{1}{N} \sum_x \log q(x). \!$$
Interessanterweise ist diese Formel mit der durchschnittlichen Log-Likehood-Funktion identisch. Somit ist die Optimierung der Kreuzentropie und die der Log-Likelihood im Wesentlichen gleich, sowohl vom Konzept her, wie auch numerisch.
Kreuzentropie - eine überlegene Lösung
Von den 1990ern bis Anfang 2010 waren sich Statisten darüber einig, dass zur Optimierung - aus einer rein numerischen Perspektive - einer bestimmten Kennzahl, etwa den MAPE (Mittlerer absoluter prozentualer Fehler) ein auf diese Kennzahl abgestimmter Optimierungsalgorithmus erzeugt werden müsse. Ein kritischer und gleichzeitig kontraintuitiver Einblick aus Deep Learning ist, dass die damalige Ansicht nicht stimmte. Die numerische Optimierung stellt ein schwieriges Problem dar und die meisten Kennzahlen sind nicht für eine effiziente, umfassende, numerische Optimierung geeignet. Auch aus dem Data Science Bereich ist man seitdem Schluss gekommen, dass alle Probleme bei Prognosen/Vorhersagen eigentlich auf nummerische Optimierungsprobleme zurückgehen.
Fazit für die Lieferkette: Auch bei Zielen wie etwa der Optimierung von Prognosekennzahlen wie MAPE oder MSE (mittlere quadratische Abweichung), ist in der Praxis die Optimierung der Kreuzentropie effizienter. Bei Lokad haben wir 2017 diesen Ansatz mit einer Vielzahl an empirischen Daten belegt. Noch überraschender ist, dass die Kreuzentropie noch besser als CRPS (continuous-ranked probability score), einer weiteren Kennzahl für die probabilistische Genauigkeit, abschneidet, auch wenn die entstehenden Modelle letztendlich mit CRPS verglichen werden.
Noch ist unklar, weshalb Kreuzentropie eine so hervorragende Kennzahl für die nummerische Optimierung darstellt.
Ian Goodfellow et all nennen als eines der überzeugenderen Argumente hierzu, dass Kreuzentropie sehr große Gradientenwerte bietet, die besonders für Gradientenverfahren zutrifft - genau diese stellen die erfolgreichste Methode zur umfassenden Optimierung dar, die zurzeit verfügbar ist.
CRPS vs. Kreuzentropie
Was die Lieferkette betrifft, ist die Leistung der Kreuzentropie als Kennzahl für probabilistische Vorhersagen der CRPS deutlich überlegen. Dies liegt an dem Fokus der Kreuzentropie auf seltene Ereignisse. Gehen wir von einem Bedarfsmodell aus mit einem Mittelwert bei 1000 Einheiten und einer Verteilung, die gänzlich im Segment von 990-1010 liegt. Weiterhin wird angenommen, dass die nächste Menge, die für den Bedarf beobachtet wird, 1011 ist.
Laut CRPS ist das Modell ziemlich gut, da der beobachtete Bedarf nur 10 Einheiten von der Mittelwertprognose liegt. Im Gegensatz dazu, sieht die Kreuzentropie einen unendlichen Fehler im Modell: Die Prognose des Modells lautete, dass die Beobachtung eines Bedarfs von 1011 Einheiten eine Wahrscheinlichkeit von Null aufwies – eine sehr starke Aussage –, die letztendlich faktisch nicht stimmte, wie vom beobachteten Bedarf von 1011 Einheiten bewiesen wurde.
Die Neigung von CRPS, Modelle mit absurden Behauptungen wie
Ereignis XY wird nie eintreten zu bevorzugen, obwohl es dann doch geschieht, erklärt größtenteils, warum aus der Sicht der Lieferkette, die Kreuzentropie bessere Ergebnisse bietet. Bei der Kreuzentropie werden Modelle bevorzugt, die nicht von unwahrscheinlichen Ereignissen „überrumpelt“ werden. Denn bei Lieferketten tritt das Unwahrscheinliche tatsächlich manchmal ein und ohne die entsprechende Vorbereitung kann dies mit erheblichen Kosten verbunden sein.