大規模リレーショナルデータの最適化のための差分可能プログラミング
複雑な 供給チェーン管理 の世界では、リレーショナルデータが王様です。ERPs、WMS、PMS など、供給チェーンに欠かせないその他のソフトウェアツールは、在庫レベルからサプライヤーとの関係までを追跡するリレーショナルデータベース上で動作します。リレーショナルデータは、豊富な情報を含む相互に接続されたテーブル群で構成されます。しかし、機械学習や数理最適化となると、リレーショナルデータは、ベクトル、シーケンス、グラフといったより単純な形式に比べてしばしば影に隠れてしまいます。
リレーショナルデータは、その豊かな複雑性により、前述の単純なベクトル、シーケンス、グラフよりも業務の深く微妙な側面を提供します。しかし、多くの エンタープライズソフトウェア はリレーショナルデータを効果的に活用するのに苦労しています。その結果、まるで四角いくさびを丸い穴に無理やりはめ込むかのように、リレーショナルデータを単純なモデル用に設計されたツールに無理に適合させようとするのです。このミスマッチは、ゴルフにホッケースティックを使うようなもので、理論上は可能でも、ツールと目的との最適な組み合わせからは程遠いものです。
この盲点を解明する決意から、数年前、Paul Peseux は学習と最適化の両面でリレーショナルデータを一流の存在に押し上げるため、Lokad で博士課程に進みました。彼の研究活動は、当社の 差分可能プログラミング バックエンドに一連の顕著な改善をもたらし、それが Envision 内に組み込まれました。Envision は供給チェーン最適化に特化した Lokad の DSL(ドメイン固有プログラミング言語)です。Paul の印象的な成果は現在、本稼働しており、通常は DSL の autodiff 機能の中に埋もれています。
著者: Paul Peseux
日付: “2023年9月”

概要:
この博士論文は、リレーショナルデータに焦点を当てた差分可能プログラミングの分野に対し、3 つの貢献を行っています。リレーショナルデータは、医療や供給チェーンなどの業界で広く利用され、しばしば構造化されたテーブルやデータベースに整理されています。従来の機械学習手法はリレーショナルデータの扱いに苦労する一方、ホワイトボックス機械学習モデルは適しているものの、その開発は困難です。
差分可能プログラミングは、リレーショナルデータベース上のクエリを微分可能なプログラムとして扱うことで、リレーショナルデータについて直接推論できるホワイトボックス機械学習モデルの開発を可能にする潜在的な解決策を提供します。本研究の主目的は、差分可能プログラミングの手法を用いてリレーショナルデータに機械学習を適用する可能性を探ることにあります。
論文の第一の貢献は、理論的にも実践的にもリレーショナルプログラミング言語に差分可能な層を導入した点にあります。クエリのリレーショナルな操作を微分および記述するために、ADSL というプログラミング言語が作成されました。ドメイン固有言語である Envision は、差分可能プログラミングの機能を拡張され、ネイティブなリレーショナルプログラミング環境でリレーショナルデータを活用するモデルの開発を可能にしました。
論文の第二の貢献は、リレーショナルデータで表現されるカテゴリカル特徴に対応するために設計された、新たな勾配推定器 GCE を開発したことです。GCE は様々なカテゴリカルなデータセットやモデルで有用であることが実証され、ディープラーニングモデルにも実装されました。さらに、GCE は本論文の第一の貢献によって実現された Envision の差分可能プログラミング層におけるネイティブな勾配推定器として統合されています。
論文の第三の貢献は、コードの分解からその確率性を導出する一般化勾配推定器、Stochastic Path Automatic Differentiation (SPAD) を開発した点です。SPAD は、パラメータ更新時のメモリ消費を削減するために、勾配の一部を逆伝播させるという考え方を導入しています。この勾配推定手法の実装は、ADSL の微分処理における設計上の決定によって可能となりました。
本研究は、リレーショナルデータに依存する業界にとって大きな意味を持ち、差分可能プログラミング技法を用いてリレーショナルデータにホワイトボックス機械学習モデルを適用することで、新たな洞察を切り開き、意思決定の改善に寄与します。
審査委員:
防衛審査は、以下のメンバーから構成される審査委員会の前で行われました:
- Thierry Paquet, 大学教授(ルーアン・ノルマンディー大学)、論文指導教官。
- Maxime Berar, 講師(ルーアン・ノルマンディー大学)、共同指導教官。
- Romain Raveaux, 講師(トゥール大学)、報告者。
- Thierry Artières, 大学教授(ECM / LIS – AMU – CNRS)、報告者。
- Cécilia Zanni-Merk, 大学教授(INSA Rouen Normandie)、審査員。
- Laurent Wendling, 大学教授(Paris Cité University)、審査員。
- Victor Nicolet, Lokad CTO、アドバイザー。