SUPERVISE LEARNING Mining the Web - Chapter 5

SUPERVISE LEARNINGMining the Web - Chapter 5 Dao Vinh Ninh 2005/5/30

発表の内容 • Bayesian Learners • Naïve Bayes Learners • Bayesian Networks • Maximum Entropy Learner • Discriminative Classification • Linear Least-Square Regression • Support Vector Machine Chakrabarti & Ramakrishnan

The Supervised Learning Scenario 練習のドキュメントはトピック事に分類された標準ドキュメントである。練習ドキュメントにより各トピックの特性を調べ、トピックの特性に基いてドキュメントを分類する。 Chakrabarti & Ramakrishnan

Bayesian Learners • 概要 • 確率モデル • ドキュメントの生成は確率現象 • テキスト分類に最も実践的な方法 • 前提の仮説 • １つのドキュメントは１つのトピックに属する • トピック「ｃ」の選択される確率はPr(c)「優先確率」 • トピック「ｃ」でトークン「ｔ」の出現確率はPr(t|c) • トピック「ｃ」でドキュメント「ｄ」の生成確率はPr(d|c) Chakrabarti & Ramakrishnan

Bayesian Learnersの仕組み • パラメタを推定する • 練習ドキュメントから各トピック毎に各トークンの出現確率Pr(t|c)を計算できる。Pr(t|c)の集合を「Θ」とする。 • ドキュメントの生成確率を計算する • パラメタ「Θ」に基いて各トピックにおけるテストドキュメントの生成確率Pr(d|c)を計算できる。 • トピックを推定する • テストドキュメントの属すべきトピックをベイズ規則に基いて調べる。 Chakrabarti & Ramakrishnan

Bayesian LearnersParameter Estimation • パラメタ集合「Θ」の推定 • 既知値 • 練習ドキュメント集合「D」を調べて、パラメタの値を推定する • 上記の式は実際に計算不可能 • Maximum Likelihood Estimate - MLE • 総（積分）の値を計算しやすい値arg maxPr(D|Θ)に変更 • 分類結果はよくない Chakrabarti & Ramakrishnan

Bayesian LearnersNaïve Bayes Learners • 概念 • 簡単、速い、更新しやすい • モデルの仮説 • トークンの出現は独立 • 応用したモデル • Binary Model • Multinomial Model Chakrabarti & Ramakrishnan

Naïve Bayes Learners • Binary Model • トピック「ｃ」にあるドキュメントの中でトークン「ｔ」が出現確立は • Multinomial Model • トピック「ｃ」にあるドキュメントの中でトークン「ｔ」が一回ごとに出現確率は　　　ドキュメントの長さを「L」とする。 Chakrabarti & Ramakrishnan

Naïve Bayes Learners • 問題 • 多くの小さいパラメタの積とることで、生成確率の値が極めて小さくなる⇒解決：対数を取る • パラメタ • 練習ドキュメントの中に表さないトークンはMLE法により出現確率が「0」になる • そのトークンを含むドキュメントの出現確率は「0」にされる。 Chakrabarti & Ramakrishnan

Naïve Bayes Learners • Parameter Smoothing • Binary Model • Multinomial Model Laplace’s law of succession: λ=1 Lidstone’s law of succession: λ=heuristic W：トークンの数 Chakrabarti & Ramakrishnan

Naïve Bayes Learnersの評価 • Multinomial ModelはBinary Modelよりも正確 • K-NN ModelはNaïve Bayes Modelよりも正確 • ただし、Naïve Bayes Modelはk-NN Modelよりも簡潔で速い • Naïve Bayes Modelに各トピックの間に等しい生成確率のファイルゾーンが存在する。 • 各トークンの間の関係を無視した。 Chakrabarti & Ramakrishnan

Bayesian LearnersSmall-Degree Bayesian Networks • 各トークンの間の関係をモデルに追加する • 各トークンの出現確率はトピックと他のトークンの出現に影響される。 • Bayesian Network • 各トピックとトークンはグラフのノード • 依存関係はエージで表す • 各トークンは必ず直接に１つのトピックノードを通る Chakrabarti & Ramakrishnan

Bayesian networks. For the naive Bayes assumption, the only edges are from the class variable to individual terms. Towards better approximations to the joint distribution over terms: the probability of a term occurring may now depend on observation about other terms as well as the class variable. Chakrabarti & Ramakrishnan

Small-Degree Bayesian Networks • 関連のあるトークンを親トークン「Pa(x)」といい、親トークンの数を「ｋ」個以下と制限される。 • 親トークンが定まるとそのトークンの出現確率も定まる。 • ドキュメントの生成確率は各条件付確率で計算される。 • 現在Binary Modelだけを用いる。 • 計算時間2乗オーダー • 結果はよくなったがテキストドキュメントに対してはまだ Chakrabarti & Ramakrishnan

Maximum Entropy Learners • 解決すること • Bayesian Learnersで訓練集合のベクトル空間の次元はテストドキュメントの次元よりも小さい • 新たしいフィーチャを追加することが出来ない • 仮説 • ドキュメントは1つのトピックに属する。 • 訓練のデータ集合　　　　　　　　　　　　が与える。 • ドキュメント「d」とトピック「c」の間の関係はindicator function 　　で定義する。例：または Chakrabarti & Ramakrishnan

Maximum Entropy Learners • Indicator function 　の期待値 • Pr(d,c)とPr(d)の値は経験値で推定する。 • ランダム Chakrabarti & Ramakrishnan

Maximum Entropy Learners • 上記の関連でPr(c|d)は唯一ではない • 最大エントロピー原理 • 同じ結果ならば最も簡単なモデルが好ましい • Pr(c|d)が唯一ではないときは最もエントロピーが高い結果を選ぶ • 訓練集合が空の場合、全てのトピックは同等 • Pr(c|d)のエントロピー • Lagrange法でエントロピー最大値を求める Chakrabarti & Ramakrishnan

Maximum Entropy Learners • LagrangeOptimize • Pr(c|d)に対してGを微分する • 等しい問題は以下のＭＬを求めることＺ（ｄ）is a scale factor Chakrabarti & Ramakrishnan

Maximum Entropy Learners • 評価 • Bayesian Learnersよりも良い分類結果だが、安定していない • 複雑 • Naïve Bayes Learnersと同じフィーチャを用いるにも関わらず、各フィーチャの独立性に依存しない。 Chakrabarti & Ramakrishnan

Discriminative Classification • 解決すること • Naïve Bayes LearnersとMaximum Entropy Learners法は各トピックの間に共通空間が存在する。 • Naïve Bayes • Maximum Entropy • 目的 • フィーチャをトピック空間に射影する • 共通空間を無くすること Chakrabarti & Ramakrishnan

Discriminative ClassificationLinear Least-Square Regression • 各トピックは数字にエンコードする。 • ドキュメントを分類する関数を先に定義する。 • ドキュメント「ｄ」に対して、関数　α・ｄ＋ｂ　でトピック空間に射影する。 • 訓練ドキュメントに対して、エラーが最小になる様に各パラメタを調整する。 • Minimum • Widrow-Hoff更新規則 Chakrabarti & Ramakrishnan

Linear Least-Square Regression • 解釈 • 分別方程式は一つの面と考えられて、各ドキュメントをその面で分けることになる。その面ことをハイパー面という。 • または、各ドキュメントはその面に垂直なベクトルに射影されて、スカラー値で分類される。 • 評価 • K-NN法と同等な結果が得て、Naive Bayes 法よりも良い結果が得る。 Chakrabarti & Ramakrishnan

Linear Least-Square Regression Hyperplane Chakrabarti & Ramakrishnan

Discriminative ClassificationSupport Vector Machines (SVM) • 直感 • ハイパー面が訓練ドキュメントが蜜なとことから離れたほうが良い • ハイパー面は訓練ドキュメントを通さないほうが良い • 仮説 • 訓練ドキュメントとテストドキュメントは同じ集合から抽出する。 • トピック空間は2個のトピックとして、{-1,1}とエンコードする。 • ハイパー面は2つのトピックのドキュメント空間の最も近いところから方向ベクトルを定義する。 • ハイパー面は両空間の一番近いところの真ん中を交わる。 Chakrabarti & Ramakrishnan

Support Vector Machines (SVM) Chakrabarti & Ramakrishnan

Support Vector Machines (SVM) • ドキュメントを分類する関数を改めて定義する • まず、αとｂが次のような制約を満たす • ハイパー面の反対方向のドキュメントの距離は仮説より • 従って||α||の値が最小になるようにハイパー面を選択 Chakrabarti & Ramakrishnan

Support Vector Machines (SVM) • 実際、訓練ドキュメントはいつも完全に分かれているわけではない • 補足変数を導入する　(fudge variables) • 相当の関数 (Lagrange Optimize) Chakrabarti & Ramakrishnan

Support Vector Machines (SVM) • 最適関数を計算する計算量は2乗のオーダー • 数個のλを一度に精製する(working set) • 訓練する時間はに比例し、n~1.7-2.1 • 最近線形時間で計算できる • 結果 • SVMは他の方法と比べると、最も制度の高い分類法 • 研究課題 • Non-linearSVM Chakrabarti & Ramakrishnan

Support Vector Machines (SVM) SVM training time variation as the training set size is increased, with and without sufficient memory to hold the training set. In the latter case, the memory is set to about a quarter of that needed by the training set. Chakrabarti & Ramakrishnan

Support Vector Machines (SVM) Comparison of LSVM with previous classifiers on the Reuters data set (data taken from Dumais). (The naive Bayes classier used binary features, so its accuracy can be improved) Chakrabarti & Ramakrishnan

Support Vector Machines (SVM) Comparison of accuracy across three classifiers: Naive Bayes, Maximum Entropy and Linear SVM, using three data sets: 20 newsgroups, the Recreation sub-tree of the Open Directory, and University Web pages from WebKB. Chakrabarti & Ramakrishnan

Support Vector Machines (SVM) Comparison between several classifiers using the Reuters collection. Chakrabarti & Ramakrishnan

SUPERVISE LEARNING Mining the Web - Chapter 5

SUPERVISE LEARNING Mining the Web - Chapter 5

Presentation Transcript

Chapter 5- Learning

Chapter 5: Learning

Chapter 7: Web Content Mining

Chapter 6 Web Content Mining

Chapter 8 Web Structure Mining

Web Mining: Machine Learning for Web Applications

5: Web Mining

Chapter 5: Learning

Chapter 5 The Semantic Web

Chapter 5 Data Mining: Clustering

Learning Chapter 5

Web Mining

Chapter 5: Text and Web Mining

Chapter 5: Learning

Mining the Web

Chapter 5 Learning

THE DUTY TO SUPERVISE

CHAPTER 5 LEARNING

Web-Mining Agents: Transfer Learning TrAdaBoost

Chapter 5 Learning

Using Perception to Supervise Language Learning and Language to Supervise Perception

Chapter 5: Learning