180 likes | 272 Views
Asking Generalized Queries to Domain Experts to Improve Learning. IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 6, pp. 812-825, 2010. Jun Du and Charles X. Ling Reporter:HUANG, Chun-Ming. Outline. INTRODUCTION AGQ: ACTIVE LEARNING WITH GENERALIZED QUERIES AGQ +
E N D
Asking Generalized Queries to Domain Experts to Improve Learning IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 6, pp. 812-825, 2010. Jun Du and Charles X. Ling Reporter:HUANG, Chun-Ming
Outline • INTRODUCTION • AGQ: ACTIVE LEARNING WITH GENERALIZED QUERIES • AGQ+ • EXPERIMENTS WITH GENERALIZED QUERIES • CONCLUSIONS
INTRODUCTION • 傳統資料探勘下,主動學習演算法都假設專家只可回答具有提供所有的屬性值的明確問題 • 例如:如果ID是32765,名字叫Jane,年齡為 35,性別是女性,體重為 85公斤,血壓160/90,溫度是98F,無疼痛的膝蓋,沒有糖尿病病史…等等,那這個病人是否有關節炎? • 在現實世界的情況下,專家往往會回答廣義查詢,如“50歲以上且膝關節疼痛的人,可能會有關節炎嗎?”
INTRODUCTION • 此外,來自專家廣義查詢的答案往往可能是不確定的 • 例如,回答上述廣義查詢,“YES”,可能是有百分之九十的可能性 • 另一個過於廣義的查詢,如“50歲以上的人可能會有關節炎?”,那回答”Yes”,可能是百分之60的可能性 • 上述的問題會導致學習性能降低,因此,我們針對於具有廣義查詢的主動學習器設計了一個新的演算法,稱為AGQ
AGQ: ACTIVE LEARNING WITH GENERALIZED QUERIES • 假定樣本是由N個數值或名目屬性(Xn)和具有正(1)負(0)數的二進制標籤Y所組成 • 給予一個初始標記的訓練集合R、一個未標記的資料集合U、測試集合 • AGQ演算法可以分為以下四個主要步驟
AGQ: ACTIVE LEARNING WITH GENERALIZED QUERIES Step1. 首先,最初的學習器L是使用目前已被標記的訓練資料集合R來建構,然後,將L用來預測在U中每個樣本。之後選擇最不確定的樣本Xu。 舉例來說,明確的樣本可能是 [1,0,1,1,0,1],根據L判斷,具有百分之52的預測概率為第1類(百分之48為第0類)。
AGQ: ACTIVE LEARNING WITH GENERALIZED QUERIES Step2. 從最不確定的樣本Xu中,透過演算法1找出不相關的屬性,並以” * ” 代替,建構一廣義查詢。 上例樣本 [1,0,1,1,0,1]的廣義查詢可能是[1,*,1,*,0,1] 。
AGQ: ACTIVE LEARNING WITH GENERALIZED QUERIES Step3. 送出這個廣義查詢給專家,之後會回傳標籤與機率分佈。 上例的廣義查詢[1,*,1,*,0,1],專家可能會回傳0.9為類別1的機率(和0.1為類別0的機率)。
AGQ: ACTIVE LEARNING WITH GENERALIZED QUERIES Step4. 之後利用回傳的標籤和分佈機率來更新訓練資料,並重複Step1。 上例的廣義查詢 [1,*,1,*,0,1]和類別的機率分佈,產生四個具有標籤機率(0.9為類別1和0.1為類別0 )且明確的樣本[1,0,1,0,0,1],[1,0,1,1,0,1],[1,1, 1,0,0,1],和[1,1,1,1,0,1]加入到訓練集合中
AGQ+ • 在AGQ中的屬性值大多是只有一個明確的值,但在大多數實際應用中,名目的屬性可以是子集合(的值),且數值屬性可以是一範圍 • 例如,要預測“關節炎”,那“膝關節疼痛”可能是具有關於“無”,“輕微”和“嚴重”值的名目屬性,且“年齡”可能是另一種具有數值的相關屬性 • 建構一廣義查詢可能會是“年齡介於50到65,且患有中度或重度的膝關節疼痛的人,可能會有關節炎嗎?”
AGQ+ • AGQ延伸為AGQ+ • 與AGQ的Step2作法不同 名目屬性 從最不確定的樣本中,先透過演算法1找出不相關的屬性,之後再透過演算法2找出弱不相關(weak-irrelevant) 的屬性。 數值屬性 從最不確定的樣本中,先透過演算法1找出不相關的屬性,之後再演算法2建構一個數值範圍[ai-δ,ai+δ] ,找出弱不相關(weak-irrelevant) 的屬性。
CONCLUSIONS • 以往主動學習,假設專家只能回答明確的查詢,但是,在現實世界的應用中,領域專家往往是會回答廣義查詢 • 回答這種廣義查詢可以提供更多的訊息來提高學習,但來自專家的答案有可能是不正確的,這有可能會導致性能下降 • 我們所提出的AGQ能夠盡可能的為廣義查詢保留高度確定性標籤,來提高學習的性能