Das breite Feld des maschinellen Lernens (ML) bietet eine Vielzahl von Techniken und Methoden, die zahlreiche Situationen abdecken. Die Supply Chain hingegen bringt ihre eigenen spezifischen Datenausforderungen mit sich, und manchmal profitieren Aspekte, die von Supply Chain-Experten als “grundlegend” angesehen werden könnten, nicht von zufriedenstellenden ML-Instrumenten - zumindest nach unseren Maßstäben. So war es auch bei den kategorialen Variablen, die in der Supply Chain allgegenwärtig sind - zum Beispiel zur Darstellung von Produktkategorien, Herkunftsländern, Zahlungsmethoden usw. Daher haben wir uns entschlossen, den Begriff der kategorialen Variablen aus einer Perspektive des differenzierbaren Programmierens neu zu betrachten.

Stochastischer Gradientenabstieg mit Gradientenschätzer für kategoriale Merkmale

In der Supply Chain fehlen kategoriale Variablen häufig nicht, weil die Daten nicht bekannt sind, sondern weil die Kategorisierung selbst nicht immer sinnvoll ist. Zum Beispiel ist der Schnitt (gerade / eng / schlank usw.) auf Hosen anwendbar, aber nicht auf Gürtel. Daher mag der Unterschied zwischen “fehlenden Daten” und “nicht anwendbaren Daten” subtil erscheinen, ist aber dennoch wichtig. Es handelt sich um die Art von Unterscheidung, die ein gut verhaltenes Modell von einem seltsam verhaltenen Modell unterscheidet.

Der folgende Artikel stellt einen Beitrag von Paul Peseux (Lokad), Victor Nicollet (Lokad), Maxime Berar (Litis) und Thierry Paquet (Litis) dar.

Titel: Stochastischer Gradientenabstieg mit Gradientenschätzer für kategoriale Merkmale

Autoren: Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet

Zusammenfassung: Kategoriale Daten sind in Schlüsselbereichen wie Gesundheit oder Supply Chain vorhanden und erfordern eine spezifische Behandlung. Um aktuelle maschinelle Lernmodelle auf solche Daten anzuwenden, ist eine Codierung erforderlich. Um interpretierbare Modelle zu erstellen, ist die One-Hot-Codierung immer noch eine sehr gute Lösung, aber eine solche Codierung erzeugt spärliche Daten. Gradientenschätzer sind nicht für spärliche Daten geeignet: Der Gradient wird hauptsächlich als Null betrachtet, obwohl er nicht immer existiert. Daher wird ein neuer Gradientenschätzer vorgestellt. Wir zeigen, was dieser Schätzer theoretisch minimiert und zeigen seine Effizienz auf verschiedenen Datensätzen mit mehreren Modellarchitekturen. Dieser neue Schätzer erzielt unter ähnlichen Einstellungen bessere Ergebnisse als gängige Schätzer. Ein realer Einzelhandelsdatensatz wird ebenfalls nach Anonymisierung veröffentlicht. Insgesamt zielt dieser Artikel darauf ab, kategoriale Daten gründlich zu berücksichtigen und Modelle und Optimierer an diese Schlüsselfunktionen anzupassen.

Den Artikel herunterladen (PDF)