210 likes | 781 Views
最大熵值法 (Maximum Entropy). 報告者:邱炫盛. 參考. A. Berger, S. Della Pietra, and V. Della Pietra. A Maximum Entropy Approach to Natural Language Processing. Computational Linguistics , 22 (1), pages 39-71, 1996. 蔡文鴻 , 語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究. 簡介. 差補法 (interpolation) 與最大熵值法的差別 個別與整體訓練 擲骰子問題
E N D
最大熵值法(Maximum Entropy) 報告者:邱炫盛
參考 • A. Berger, S. Della Pietra, and V. Della Pietra. A Maximum Entropy Approach to Natural Language Processing. Computational Linguistics, 22 (1), pages 39-71, 1996. • 蔡文鴻,語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究
簡介 • 差補法(interpolation)與最大熵值法的差別 • 個別與整體訓練 • 擲骰子問題 • 滿足限制的組合有無窮多種
簡介 • 熵值計算: • 當 • 熵值: • 平均分布←→最大熵值
特徵與限制 『交通』 昨天今天 台北 高雄 二連語言模型 W=很好 日期 地點 主題模型
特徵與限制 『交通』 日期 地點
特徵與限制 • 指示函數(indicator function)f • 稱為特徵(函數) • 取期望值 • 稱為限制(方程式) (任意的機率分布)
指數型 • 滿足n個特徵的機率模型C • 欲求條件熵值: • 從集合C找出最大熵值機率模型
指數型 A. B. C. 使用Lagrange multiplier
指數型 • 經推導後
最大熵值法與最大相似法 • 訓練語料之對數相似值 指數型代入
最大熵值法與最大相似法 • 找到ㄧ個機率函數 滿足所有的特徵,並且使預測訓練語料之對數相似值為最大
IIS 演算法 Jensen不等式: