Clustering networked data based on link and similarity in Active learning 口試委員問題解說

Clustering networked data based on link and similarity in Active learning口試委員問題解說 Speaker : Yi Ming Chang

Outline • 1.如何降低computation cost? • 2.Out-link連到同一個label的機率 • 3.Similarity的dimension-reduction • 4.為何提出的方法與ALFNET相比能夠降低computation cost也能提高準確率？ • 5.關於c1, c2。以實驗看起來是用link分類比較準 • 6.Initial solution應該慎重產生而不是亂數產生。多花費一點時間在產生較佳的初始解在演算法的收斂速度上會較有幫助。

如何降低computation cost? • 避免all-pair的比較 • 使用其它資料結構以減少比對的時間 • Answer: 原本屬性相似度是按照similarity的公式一個一個按部就班地算 • 經過資料分析得知在兩個data set平均每個node只會有10幾~30個左右的attribute. • 改變資料結構: 把node有的字詞(attribute)用index表示且使用size=40的array來存此index，並用break來避免讀取空index花的時間. • 計算複雜度 :node數*兩兩字串比對=2708 * 2707*1433降低到2708*2707*40不到(因有使用break)時間改善:Cora 4700s  7s CiteSeer7500s  35s node1 1433維 node1 40維 node2 1433維 node2 40維

Out-link連到同一個label的機率 • 目的在了解是否有非常著論文的citation以降低分類的準確率? • Answer: 經典論文有多類都會有cite到 • 我們的方法只用local classifier而不計算neighbor feature，會有影響到我們的只有分群，但微乎其微。 • 原因是我們不只考慮link且還考慮similarity來分群。 • 就算把此node分到不適當的群內，因為我們方法是使用attribute來分類，在3000個node左右的data set，影響非常微小(一個node也只有30個左右的attribute)。

Similarity的dimension-reduction • PCA: • 正交化線性變換，把數據變換到一個新的座標系統中，使得這一數據的任何投影的第一大變異數在第一個座標（稱為第一主成分）上，第二大變異數在第二個座標（第二主成分）上，依次類推。 • 獨立性:為了讓資料間沒有相關性(correlation)，也就是讓covariance正交化，使得covariance左下角和右上角都為零，這樣可以達到資料的獨立性，如果降階時資料有相關性那把其中的軸拿掉時座標點無法單獨被定義。 • 缺點:資料會失真~數值全部變成小數而無法計算cosine similarity。

為何提出的方法與ALFNET相比能夠降低computation cost也能提高準確率？ • Answer: • 降低時間cost是用local classifier。 • 提高準確度是因為我們利用分群把群內相似的node聚集起來以提升learning的準確度。

關於c1, c2。以實驗看起來是用link分類比較準 • Answer: • 要看data set，像Cora就是用Link較好，因為彼此同類間的in-link數多，內聚力較強。而CiteSeer因為彼此同類間的in-link數少，且不同類但是有相同屬性的node較少，用attribute分群效果較好。 • 多類問題是因為我們使用attribute分群會因為有很多不同類但是有相同屬性的node，導致我們無法單純用attribute把node分得很好。而link通常比較會有領域相關性，所以在多類問題比起用attribute會有較佳的分群效果。

Initial solution應該慎重產生而不是亂數產生。多花費一點時間在產生較佳的初始解在演算法的收斂速度上會較有幫助 • Answer: • 如果是CC有用到neighbor的label，挑link較多且與之同類別的node當label準確度會提升。 • 但我們的方法使用local classifier，是用attribute來分類，initial挑link較多且與之同類別對分類器沒有顯著影響。 • 除非我們能找出某類的某幾個attributes是判別此類別的最大特徵，挑出擁有這些attribute的nodes當initiallabeled data才對準確度有所幫助。

Clustering networked data based on link and similarity in Active learning 口試委員問題解說