Stochastischer Gradientenabstieg mit Gradienten-Schätzer für kategoriale Merkmale
Das breite Feld des maschinellen Lernens (ML) bietet eine Vielzahl von Techniken und Methoden, die zahlreiche Situationen abdecken. supply chain hingegen bringt seine eigenen spezifischen Datenherausforderungen mit sich, und manchmal profitieren Aspekte, die als „grundlegend“ von supply chain-Praktikern angesehen werden, nicht von zufriedenstellenden ML-Instrumenten – zumindest nach unseren Maßstäben. So war es beispielsweise bei kategorialen Variablen, die in supply chain allgegenwärtig sind – etwa zur Darstellung von Produktkategorien, Herkunftsländern, Zahlungsmethoden usw. Daher haben sich einige von uns entschlossen, den Begriff der kategorialen Variablen aus der Perspektive des differenzierbaren Programmierens erneut zu betrachten.

In supply chain fehlen kategoriale Variablen häufig, nicht weil die Daten nicht bekannt sind, sondern weil die Kategorisierung an sich nicht immer Sinn macht. Zum Beispiel gilt der Schnitt (straight / skinny / slim / etc.) für Hosen, aber nicht für Gürtel. Daher mag die Unterscheidung zwischen „fehlenden Daten“ und „nicht anwendbaren Daten“ subtil erscheinen, ist jedoch dennoch wichtig. Es ist die Art von Unterscheidung, die ein gut arbeitendes Modell von einem merkwürdig arbeitenden Modell unterscheidet.
Das nachfolgende Paper präsentiert einen Beitrag von Paul Peseux (Lokad), Victor Nicollet (Lokad), Maxime Berar (Litis) und Thierry Paquet (Litis).
Title: Stochastischer Gradientenabstieg mit Gradienten-Schätzer für kategoriale Merkmale
Authors: Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet
Abstract: Kategoriale Daten sind in wichtigen Bereichen wie Gesundheit oder supply chain präsent, und diese Daten erfordern eine spezifische Behandlung. Um aktuelle Modelle des maschinellen Lernens auf solche Daten anzuwenden, ist eine Kodierung erforderlich. Um interpretierbare Modelle zu erstellen, ist One-Hot-Kodierung immer noch eine sehr gute Lösung, allerdings führt diese Kodierung zu spärlichen Daten. Gradienten-Schätzer eignen sich nicht für spärliche Daten: Der Gradient wird hauptsächlich als null betrachtet, während er einfach nicht immer existiert, weshalb ein neuartiger Gradienten-Schätzer eingeführt wird. Wir zeigen, was dieser Schätzer theoretisch minimiert, und demonstrieren seine Effizienz an verschiedenen Datensätzen mit unterschiedlichen Modellarchitekturen. Dieser neue Schätzer schneidet unter ähnlichen Bedingungen besser ab als gängige Schätzer. Außerdem wird ein realer Einzelhandels-Datensatz nach der Anonymisierung veröffentlicht. Insgesamt ist es das Ziel dieses Papers, kategoriale Daten gründlich zu betrachten und Modelle sowie Optimierer an diese Schlüsselfaktoren anzupassen.