In der komplexen Welt des Supply Chain Managements ist relationale Daten die Königsdisziplin. ERPs, WMS, PMS und andere in der Supply Chain allgegenwärtige Softwaretools arbeiten auf relationalen Datenbanken, die alles von Lagerbeständen bis zu Lieferantenbeziehungen verfolgen. Relationale Daten bestehen aus einer Reihe von miteinander verbundenen Tabellen, die jeweils mit Informationen gefüllt sind. Wenn es jedoch um maschinelles Lernen und mathematische Optimierung geht, werden relationale Daten oft von einfacheren Formen wie Vektoren, Sequenzen und Graphen überschattet.

Relationale Daten bieten aufgrund ihrer reichen Komplexität eine tiefere, nuanciertere Sicht auf die Abläufe als ihre einfacheren Gegenstücke (die oben genannten Vektoren, Sequenzen und Graphen). Dennoch haben die meisten Unternehmenssoftware-Tools Schwierigkeiten, Daten in ihrer relationalen Form effektiv zu nutzen. Das Ergebnis? Ein erzwungener Versuch, relationale Daten in Werkzeuge zu pressen, die für einfachere Modelle entwickelt wurden. Diese Diskrepanz behindert Unternehmen, ähnlich wie wenn man beim Golf einen Hockeyschläger verwendet - theoretisch machbar, aber weit entfernt von der optimalen Verbindung von Werkzeug und Zweck.

Mit dem festen Willen, diesen blinden Fleck zu untersuchen, begann Paul Peseux vor einigen Jahren seine Doktorarbeit bei Lokad mit dem Ziel, relationale Daten sowohl für Lern- als auch für Optimierungszwecke zu einer erstklassigen Ressource zu machen. Seine Forschungsarbeit führte zu einer Reihe bemerkenswerter Verbesserungen unserer differenzierbaren Programmierung innerhalb von Envision - Lokads DSL (domänenspezifische Programmiersprache), die sich auf die Optimierung der Supply Chain konzentriert. Pauls beeindruckende Ergebnisse werden nun in der Produktion eingesetzt und sind in den autodiff Fähigkeiten der DSL vergraben.

Autor: Paul Peseux

Datum: September 2023

Schema des Envision-Pipelines zur Differenzierung relationaler Abfragen.

Abbildung 1: Beschreibung der bei Lokad implementierten Pipeline.

Zusammenfassung:

Diese Doktorarbeit mit dem Titel präsentiert drei Beiträge zum Bereich der differenzierbaren Programmierung mit Fokus auf relationalen Daten. Relationale Daten sind in Branchen wie Gesundheitswesen und Supply Chain weit verbreitet, wo Daten oft in strukturierten Tabellen oder Datenbanken organisiert sind. Traditionelle maschinelle Lernansätze haben Schwierigkeiten im Umgang mit relationalen Daten, während White-Box-Maschinenlernmodelle besser geeignet sind, aber schwierig zu entwickeln sind.

Die differenzierbare Programmierung bietet eine mögliche Lösung, indem Abfragen auf relationalen Datenbanken als differenzierbare Programme behandelt werden, was die Entwicklung von White-Box-Maschinenlernmodellen ermöglicht, die direkt über relationale Daten nachdenken können. Das Hauptziel dieser Forschung ist es, die Anwendung von maschinellem Lernen auf relationale Daten mithilfe von differenzierbaren Programmierungstechniken zu erforschen.

Der erste Beitrag der Arbeit führt eine differenzierbare Schicht in relationale Programmiersprachen ein, sowohl theoretisch als auch praktisch. Die Programmiersprache Adsl wurde entwickelt, um Differenzierung durchzuführen und relationale Operationen einer Abfrage zu transkribieren. Die domänenspezifische Sprache Envision wurde um differenzierbare Programmierfähigkeiten erweitert, was die Entwicklung von Modellen ermöglicht, die relationale Daten in einer nativen relationalen Programmierspracheumgebung nutzen.

Der zweite Beitrag entwickelt einen neuartigen Gradientenschätzer namens GCE, der für kategoriale Merkmale überrepräsentiert in relationalen Daten entwickelt wurde. GCE hat sich als nützlich für verschiedene kategoriale Datensätze und Modelle erwiesen und wurde für Deep Learning Modelle implementiert. GCE ist auch als nativer Gradientenschätzer in der differenzierbaren Programmierungsschicht von Envision integriert, was durch den ersten Beitrag dieser Arbeit ermöglicht wird.

Der dritte Beitrag entwickelt einen generalisierten Gradientenschätzer namens Stochastic Path Automatic Differentiation (SPAD), der seine Stochastizität aus der Code-Zerlegung ableitet. SPAD führt die Idee ein, einen Teil des Gradienten rückwärts zu propagieren, um den Speicherverbrauch während der Parameteraktualisierung zu reduzieren. Die Implementierung dieses Gradientenschätzungszugangs wird durch die Designentscheidungen während der Differentiation von Adsl ermöglicht.

Diese Forschung hat bedeutende Auswirkungen auf Branchen, die auf relationale Daten angewiesen sind, und ermöglicht neue Erkenntnisse und Verbesserungen der Entscheidungsfindung durch die Anwendung von White-Box-Machine-Learning-Modellen auf relationale Daten mithilfe differenzierbarer Programmierungstechniken.

Jury:

Die Verteidigung fand vor einer Jury statt, bestehend aus:

  • Thierry Paquet, Universitätsprofessor (Universität Rouen Normandie), Doktorvater.
  • Maxime Berar, Dozent (Universität Rouen Normandie), Mitbetreuer der Arbeit.
  • Romain Raveaux, Dozent (Universität Tours), Gutachter.
  • Thierry Artières, Universitätsprofessor (ECM / LIS - AMU - CNRS), Gutachter.
  • Cécilia Zanni-Merk, Universitätsprofessorin (INSA Rouen Normandie), Prüferin.
  • Laurent Wendling, Universitätsprofessor (Paris Cité University), Prüfer.
  • Victor Nicolet, CTO von Lokad, Berater.

Die Arbeit herunterladen (PDF)