大規模凸計画問題に対する勾配法

大規模凸計画問題に対する勾配法 京都大学大学院情報学研究科山下信雄

最適化の研究者の立場(?) 応用のことはよくわからない． ⇒ • より広いクラスの問題に適用できる　アルゴリズムの枠組みの開発　　（Bregman距離の導入） • より緩い条件での収束性の証明 (局所的エラーバウンド性の元での解析)

アウトライン • 考える問題（Structured Convex Optimization） • 準備 • Bregman距離，Bregman divergence • 局所的エラーバウンド • 近接勾配法(Proximal Gradient method) • 近接勾配法とその収束性 • 近接勾配法の実装 • 近接勾配法の高速化 • 工夫 • Bregman距離による工夫 • 局所的エラーバウンドによる工夫 • まとめ

考える問題：構造を持った凸計画問題(structured convex optimization, composite convex optimization) • 目的関数は • 　　* hは微分可能の凸関数　 • * Pは特殊な形(構造)の凸関数 • 　　　　　　例： lasso , group lasso • 　　　　　　　　標示関数

問題例1 L1正則化問題＊ g は強凸関数

問題例2 単体制約をもつ凸計画問題ただし，　　　は単体制約：＊単体制約は単体の直積に一般化できる．応用　・条件付最大エントロピーモデル [Collins, Globerson, Carreras, Bartlett, 2007] 　　　　・CTの画像復元 [Ben-Tal, Margalit, Nemirovski, 2001]

問題例 ハードマージンSVM ただし，

Bregman距離(Bregman divergence) を微分可能な(狭義)凸関数とする． Bregman関数性質１：性質２：例１：　　　　　のとき例２：　　　　　　　　のとき距離のようなもの

(局所的)エラーバウンド ある問題の解集合をとする．次の条件を満たす定数　　　　が存在するとき関数　を局所的エラーバウンドという． (i) (ii) 応用：　・　収束率の解析（強凸性などのかわり）　　　　・安定性の解析　　　　・　有効制約の同定

局所的エラーバウンドの例 線形システム： [Hoffman, 1952] L1正則化問題： [Tseng, 2010] ただし　　　は，　　から近接勾配法による反復点

近接勾配法=近接点法+勾配法 近接点法 [Rockarfellar 1976] [Censor, Zenios 1992], etc • 　解が唯一でなくても　ある局所的エラーバウンド性のもとで超一次収束 • [Luque, 1984] • 　部分問題は非線形計画劣勾配法（Mirror Descent法) [Nemirovsky, Yudin, 1983] • 　実装が簡単 • f が微分不可能なとき，　　　　　　とする必要があるため， • 　収束が著しく遅くなる．

近接勾配法 特別な構造：＊ｈは微分可能＊Pは微分不可能でもよいが特殊な構造 Pの構造を利用 hに対して勾配法，Pに対して近接点法を適用

近接勾配法の収束性(1) 定理１最適解　　が存在するとする．　　　　　　　　　　　　　　　　　が成り立つときが係数Lのリプシッツ連続で　　　が係数　　　の強凸関数であれば，　　　　　　　　　　　　とすれば仮定は成り立つ．反復回数は注：　　　　がリプシッツ連続でなくても成り立つことがある．

近接勾配法の収束性(2) 定理２　定理１の仮定が成り立つとする．次の局所的エラーバウンド性が成り立つとする．このとき，　　　　　　　　　は０に一次収束する．局所的エラーバウンド性は成り立つ十分条件： • hが強凸関数 • L1正則化問題

近接勾配法の実装 • 近接勾配法はよい収束性を持っている． • 部分問題：　　をいかに効率よく解くかが重要となる． Key　＊Bregman距離の選択　　　　　　＊Pの構造を利用した計算法の開発

実装例1：L1正則化問題 Bregman距離に　　　　　　　　　　を用いると [部分問題] Iterative Shrinkage Threshold Algorithm (ISTA)

実装例２単体制約つき凸計画問題 [部分問題] としたBregman距離を用いると Exponentiated Gradient Algorithm (EG)

実装例3ハードマージンSVM [部分問題] 　　　　　　　　　　　　としたBregman距離を用いると　　　部分問題のKKT条件は＊ｈは凸２次関数＊Pはクラス+1の集合＊Nはクラス-１の集合

実装例3ハードマージンSVM O(n) で計算可能

近接勾配法の高速化 近接勾配法の大域的な反復回数はそれまでの反復の情報を利用するとに高速化できる．

高速化手法１[Nesterov, 1983], [Beck, Teboulle, 2009] を更新 ISTA Fast ISTA (FISTA) Beck and Teboulle, A fast iterative shrinkage-thresholding algorithm for linear inverse problems SIAM Journal on Imaging Sciences, 2009. 高速化

高速化手法２[Nesterov, 1988], [Auslender, Teboulle, 2006] を更新

高速化手法３[Nesterov 2005], [Tseng, 2008] を更新

アルゴリズムの関係 近接勾配法 ISTA Pが標示関数近接点法射影勾配法 Mirror Descent 法高速化法 FISTA EG法高速化EG法 X.Zhang, A. Saha, S. V. N. Vishwanathan, “Accelerated Training of Max-Margin Markov Networks with Kernels”, Algorithmic Learning Theory (ALT), 2011

問題に特化した工夫 実用的な工夫 • 前処理 (スケーリング) • ステップ幅の調整 (非単調直線探索) • 分割法との融合これまでに紹介した手法，ISTA，FISTAやEG法は Pの構造を利用関数ｈの性質や最適解の構造(スパース性など) の利用を考える

工夫１関数ｈに適したBregman距離の選択 もし　としたら，とした部分問題の目的関数は Bregman距離は部分問題は元の問題と同じになる！！

Bregman距離の選択例 なるべく　　　　　となるように選ぶ例１：単体制約をもつ凸計画問題例２：成分(ブロック)ごとのスケーリング Dはブロック対角

工夫２：　分割法 一部の成分を　　　に固定した部分問題を解く解法ここで • 　　　は固定する成分の添え字の集合例：ガウス-ザイデル法 Coordinate gradient descent 法　 SVMのSequential Minimal Optimization 法

解の性質を利用した　の選択 [L1-L2最適化] 例：もし，が分かれば，線形方程式になる．( は最適解のひとつ．) となるように　　　を構成できれば，としても解が求まる．(解がスパースなときに有効)

局所的エラーバウンドを用いた同定 解　　が唯一のとき，十分大きいkに対して ∵ に対して

まとめ • 特殊な構造をもつ凸計画問題に対する近接勾配法を紹介した． • 高速化への工夫として • Bregman距離の選択 • 局所的エラーバウンドの利用非線形最適化の研究では一般化，抽象化されすぎ問題に特化した工夫で高速化が可能(かも)

（最適化の分野の）サーベイ文献+α [近接勾配法] Paul Tseng, Approximation accuracy, gradient methods, and error bound for structured convex optimization, Mathematical Programming, Ser, B, 125, pp. 263-296, 2010. [エラーバウンド性] Jong-Shi Pang, Error bounds in mathematical programming, Mathematical Programming , 79, pp. 299-332, 1997. [最新論文] http://www.optimization-online.org/

　　ご清聴，ありがとうございました

大規模凸計画問題に対する勾配法

大規模凸計画問題に対する勾配法

Presentation Transcript