Die unvernünftige Effektivität des stochastischen Gradientenabstiegs (SGD) ist wahrscheinlich die wichtigste Erkenntnis im Bereich des maschinellen Lernens der 2010er Jahre. SGD treibt nahezu alle aktuellen Durchbrüche im maschinellen Lernen an. Konzeptionell ist SGD bemerkenswert einfach: Verarbeiten Sie Ihren Datensatz Punkt für Punkt und verschieben Sie für jeden Punkt die Modellparameter in die Richtung, die durch diesen Punkt gegeben ist. In technischeren Begriffen wird die “Richtung” als Gradient angegeben und das “Verschieben” beinhaltet einen kleinen Skalierungskoeffizienten, der in der Regel als Lernrate bezeichnet wird.

Während die SGD-Technik auf die 1950er Jahre zurückgeht, blieb sie bis zum Aufkommen des Deep Learning größtenteils eine obskure und wenig genutzte Technik. Die Gründe, warum diese Technik funktioniert, waren nicht klar und sind zum Teil immer noch nicht klar. Da das Ziel darin besteht, den Modellfehler auf dem gesamten Datensatz zu minimieren, ist es nicht offensichtlich, dass das Auswählen von Punkten in strikter Isolation etwas anderes als numerischen Müll liefern sollte.

Heutzutage ist im Allgemeinen bekannt, dass die Effektivität von SGD - also warum es funktioniert - auf zwei Faktoren zurückzuführen ist. Erstens ist der durch SGD erhaltene Gradient sehr rauschig - jeder Schritt betrachtet einen einzelnen Datenpunkt -, aber dieser Gradient ist sehr kostengünstig. Es stellt sich heraus, dass bei einem gegebenen Budget an Rechenressourcen die Anwendung zahlreicher Gradientenaktualisierungen geringer Qualität die Anwendung einer einzigen Gradientenaktualisierung hoher Qualität bei weitem übertrifft. Zweitens helfen die rauschigen Aktualisierungen selbst dem Modell, die großen Plateaus der numerischen Gleichgültigkeit zu verlassen, die in höheren Dimensionen existieren. Tatsächlich besteht in höheren Dimensionen der Kern der Optimierung nicht darin, wie lange angenommen, lokale Minima zu verlassen, sondern lokale Plateaus zu verlassen - Bereiche, in denen der Verlust sehr wenig variiert.

Ein abstraktes Bild und eine Abbildung aus einem Artikel mit dem Titel Selective Path Automatic Differentiation: Beyond Uniform Distribution on Backpropagation Dropout.

Einige von uns, darunter Paul Peseux und Victor Nicollet, haben beschlossen, diese Ideen weiterzuentwickeln. Wenn SGD durch den Austausch von Gradientenqualität gegen Recheneffizienz funktioniert, was ist dann mit einer Teilpunkt-Gradienten, die noch billiger zu berechnen, aber noch rauschiger ist? Genau das wurde mit der selektiven Pfad-Automatischen Differentiation (SPAD) gemacht. SPAD überdenkt einen der Grundpfeiler des modernen maschinellen Lernparadigmas mit einer Wendung: Ein Datenpunkt kann gradientenweise durch seine Auswertungspfade “aufgeteilt” werden.

Das unten stehende Papier präsentiert einen Beitrag von Paul Peseux (Lokad), Victor Nicollet (Lokad), Maxime Berar (Litis) und Thierry Paquet (Litis).


Titel: Selective Path Automatic Differentiation: Beyond Uniform Distribution on Backpropagation Dropout

Autoren: Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet

Zusammenfassung: Dieses Papier stellt Selective Path Automatic Differentiation (SPAD) vor, einen neuartigen Ansatz zur Reduzierung des Speicherverbrauchs und zur Minderung der Überanpassung in gradientenbasierten Modellen für eingebettete künstliche Intelligenz. SPAD erweitert die bestehende Randomized Automatic Differentiation, die von Oktay et al. vorgeschlagen wurde und zufällige Pfade durch den Backpropagation-Graphen mit Matrixinjektion zeichnet, indem alternative Wahrscheinlichkeitsverteilungen auf dem Backpropagation-Graphen ermöglicht werden, wodurch die Lernleistung und das Speichermanagement verbessert werden. In einer bestimmten Iteration bewertet und rangiert SPAD mehrere Pfade innerhalb des Backpropagation-Graphen. In den folgenden Iterationen folgt es bevorzugt diesen höher bewerteten Pfaden. Diese Arbeit präsentiert auch eine kompilationsbasierte Technik, die modellunabhängigen Zugriff auf zufällige Pfade ermöglicht und eine Verallgemeinerung über verschiedene Modellarchitekturen hinweg gewährleistet, die nicht auf tiefe Modelle beschränkt sind. Experimentelle Bewertungen, die über verschiedene Optimierungsfunktionen durchgeführt wurden, zeigen eine verbesserte Minimierungsleistung bei Verwendung von SPAD. Darüber hinaus mindern tiefe Lernexperimente mit SPAD nachweislich die Überanpassung und bieten Vorteile, die denen traditioneller Dropout-Methoden ähneln, jedoch mit einer gleichzeitigen Verringerung des Speicherverbrauchs. Wir schließen mit einer Diskussion der einzigartigen Stochastizitätsimplikationen unserer Arbeit und des Potenzials, andere stochastische Techniken auf dem Gebiet zu ergänzen.

Das Papier herunterladen (PDF)