370 likes | 586 Views
大規模凸計画問題に対する勾配法. 京都大学大学院情報学研究科 山下信雄. 最適化の研究者の立場 (?). 応用のことはよくわからない. ⇒ より広いクラスの問題に適用できる アルゴリズムの枠組みの開発 ( Bregman 距離 の導入) より緩い条件での収束性の証明 ( 局所的エラーバウンド性 の元での解析 ). アウトライン. 考える問題 ( Structured Convex Optimization ) 準備 Bregman 距離, Bregman divergence 局所的エラーバウンド
E N D
大規模凸計画問題に対する勾配法 京都大学大学院情報学研究科 山下信雄
最適化の研究者の立場(?) 応用のことはよくわからない. ⇒ • より広いクラスの問題に適用できる アルゴリズムの枠組みの開発 (Bregman距離の導入) • より緩い条件での収束性の証明 (局所的エラーバウンド性の元での解析)
アウトライン • 考える問題(Structured Convex Optimization) • 準備 • Bregman距離,Bregman divergence • 局所的エラーバウンド • 近接勾配法(Proximal Gradient method) • 近接勾配法とその収束性 • 近接勾配法の実装 • 近接勾配法の高速化 • 工夫 • Bregman距離による工夫 • 局所的エラーバウンドによる工夫 • まとめ
考える問題:構造を持った凸計画問題(structured convex optimization, composite convex optimization) • 目的関数は • * hは微分可能の凸関数 • * Pは特殊な形(構造)の凸関数 • 例: lasso , group lasso • 標示関数
問題例1 L1正則化問題 * g は強凸関数
問題例2 単体制約をもつ凸計画問題 ただし, は単体制約: *単体制約は単体の直積に一般化できる. 応用 ・条件付最大エントロピーモデル [Collins, Globerson, Carreras, Bartlett, 2007] ・CTの画像復元 [Ben-Tal, Margalit, Nemirovski, 2001]
問題例 ハードマージンSVM ただし,
アウトライン • 考える問題(Structured Convex Optimization) • 準備 • Bregman距離,Bregman divergence • 局所的エラーバウンド • 近接勾配法(Proximal Gradient method) • 近接勾配法とその収束性 • 近接勾配法の実装 • 近接勾配法の高速化 • 工夫 • Bregman距離による工夫 • 局所的エラーバウンドによる工夫 • まとめ
Bregman距離(Bregman divergence) を微分可能な(狭義)凸関数とする. Bregman関数 性質1: 性質2: 例1: のとき 例2: のとき 距離のようなもの
(局所的)エラーバウンド ある問題の解集合を とする. 次の条件を満たす定数 が存在するとき 関数 を局所的エラーバウンドという. (i) (ii) 応用: ・ 収束率の解析(強凸性などのかわり) ・ 安定性の解析 ・ 有効制約の同定
局所的エラーバウンドの例 線形システム: [Hoffman, 1952] L1正則化問題: [Tseng, 2010] ただし は, から近接勾配法による反復点
アウトライン • 考える問題(Structured Convex Optimization) • 準備 • Bregman距離,Bregman divergence • 局所的エラーバウンド • 近接勾配法(Proximal Gradient method) • 近接勾配法とその収束性 • 近接勾配法の実装 • 近接勾配法の高速化 • 工夫 • Bregman距離による工夫 • 局所的エラーバウンドによる工夫 • まとめ
近接勾配法=近接点法+勾配法 近接点法 [Rockarfellar 1976] [Censor, Zenios 1992], etc • 解が唯一でなくても ある局所的エラーバウンド性のもとで超一次収束 • [Luque, 1984] • 部分問題は非線形計画 劣勾配法(Mirror Descent法) [Nemirovsky, Yudin, 1983] • 実装が簡単 • f が微分不可能なとき, とする必要があるため, • 収束が著しく遅くなる.
近接勾配法 特別な構造: *hは微分可能 *Pは微分不可能でもよいが特殊な構造 Pの構造を利用 hに対して勾配法,Pに対して近接点法を適用
近接勾配法の収束性(1) 定理1 最適解 が存在するとする. が成り立つとき が係数Lのリプシッツ連続で が係数 の強凸関数であれば, とすれば仮定は成り立つ. 反復回数は 注: がリプシッツ連続でなくても成り立つことがある.
近接勾配法の収束性(2) 定理2 定理1の仮定が成り立つとする. 次の局所的エラーバウンド性が成り立つとする. このとき, は 0 に一次収束する. 局所的エラーバウンド性は成り立つ十分条件: • hが強凸関数 • L1正則化問題
近接勾配法の実装 • 近接勾配法は よい収束性を持っている. • 部分問題: をいかに効率よく解くかが重要となる. Key *Bregman距離の選択 *Pの構造を利用した計算法の開発
実装例1:L1正則化問題 Bregman距離に を用いると [部分問題] Iterative Shrinkage Threshold Algorithm (ISTA)
実装例2単体制約つき凸計画問題 [部分問題] としたBregman距離を用いると Exponentiated Gradient Algorithm (EG)
実装例3ハードマージンSVM [部分問題] としたBregman距離を用いると 部分問題のKKT条件は *hは凸2次関数 *Pはクラス+1の集合 *Nはクラス-1の集合
実装例3ハードマージンSVM O(n) で計算可能
近接勾配法の高速化 近接勾配法の大域的な反復回数は それまでの反復の情報を利用すると に高速化できる.
高速化手法1[Nesterov, 1983], [Beck, Teboulle, 2009] を更新 ISTA Fast ISTA (FISTA) Beck and Teboulle, A fast iterative shrinkage-thresholding algorithm for linear inverse problems SIAM Journal on Imaging Sciences, 2009. 高速化
アルゴリズムの関係 近接勾配法 ISTA Pが標示関数 近接点法 射影勾配法 Mirror Descent 法 高速化法 FISTA EG法 高速化EG法 X.Zhang, A. Saha, S. V. N. Vishwanathan, “Accelerated Training of Max-Margin Markov Networks with Kernels”, Algorithmic Learning Theory (ALT), 2011
アウトライン • 考える問題(Structured Convex Optimization) • 準備 • Bregman距離,Bregman divergence • 局所的エラーバウンド • 近接勾配法(Proximal Gradient method) • 近接勾配法とその収束性 • 近接勾配法の実装 • 近接勾配法の高速化 • 工夫 • Bregman距離による工夫 • 局所的エラーバウンドによる工夫 • まとめ
問題に特化した工夫 実用的な工夫 • 前処理 (スケーリング) • ステップ幅の調整 (非単調直線探索) • 分割法との融合 これまでに紹介した手法,ISTA,FISTAやEG法は Pの構造を利用 関数 h の性質や最適解の構造(スパース性など) の利用を考える
工夫1関数h に適したBregman距離の選択 もし としたら, とした部分問題の目的関数は Bregman距離は 部分問題は元の問題と同じになる!!
Bregman距離の選択例 なるべく となるように選ぶ 例1: 単体制約をもつ凸計画問題 例2: 成分(ブロック)ごとのスケーリング Dはブロック対角
工夫2: 分割法 一部の成分を に固定した部分問題を解く解法 ここで • は固定する成分の添え字の集合 例: ガウス-ザイデル法 Coordinate gradient descent 法 SVMのSequential Minimal Optimization 法
解の性質を利用した の選択 [L1-L2最適化] 例: もし, が分かれば,線形方程式になる.( は最適解のひとつ.) となるように を構成できれば, としても解が求まる.(解がスパースなときに有効)
局所的エラーバウンドを用いた同定 解 が唯一のとき,十分大きいkに対して ∵ に対して
まとめ • 特殊な構造をもつ凸計画問題に対する 近接勾配法を紹介した. • 高速化への工夫として • Bregman距離の選択 • 局所的エラーバウンドの利用 非線形最適化の研究では一般化,抽象化されすぎ 問題に特化した工夫で高速化が可能(かも)
(最適化の分野の)サーベイ文献+α [近接勾配法] Paul Tseng, Approximation accuracy, gradient methods, and error bound for structured convex optimization, Mathematical Programming, Ser, B, 125, pp. 263-296, 2010. [エラーバウンド性] Jong-Shi Pang, Error bounds in mathematical programming, Mathematical Programming , 79, pp. 299-332, 1997. [最新論文] http://www.optimization-online.org/