130 likes | 264 Views
Parallel Information Extraction on Shared Memory Multi-processor System. Jiulong Shan Yurong Chen Qiao Diao Yimin Zhang. Outline. 前言. 基於資訊擷取的 CRFs. 最佳化與平行. 實驗與效能分析. 結論. 前言. 文件探勘 ( Text Mining ) 的重要性。 常用的文件探勘技術-資訊擷取 ( Information Extraction,IE ) IE 包含兩個主要的工作 :
E N D
Parallel Information Extraction on Shared Memory Multi-processor System Jiulong Shan Yurong Chen Qiao Diao Yimin Zhang
Outline 前言 基於資訊擷取的CRFs 最佳化與平行 實驗與效能分析 結論
前言 • 文件探勘(Text Mining)的重要性。 • 常用的文件探勘技術-資訊擷取(Information Extraction,IE) • IE包含兩個主要的工作: • 句子邊緣偵測(Sentence Boundary Detection ,SBD) • 未知(Name Entity Extraction,NE)
前言 • 核心演算法-Conditional Random Fields(CRFs)
基於資訊擷取的CRFs • 使用CRFs去判斷兩的句子間的相似度。 • 此演算法的使用
最佳化與平行 • 實驗設定: • 16-way Intel Xeon • 3.0CHz * 16 • cache (L1:8K;L2:512K;L3:4MB;L4:32M) • 4-way Intel Xeon • 2.8GHz • cache (L3:2MB) • 資料集 • beijing(11MB) • 1126(25MB) • Reuter(141MB) • 編譯器:mpich-1.2.5.2
最佳化與平行 • 已開發的工具-FlexCRFs • IE在處理上可分為兩個步驟: • 模型初始化(MI) • 文件處理(DP) • 佔 90% 處理時間
最佳化與平行 • 最佳化方法: • 原始的工具使用STL map • 以rb-tree方式儲存(log n) • 改善的方法:使用STL hash_map • 管理內部的暫存器
最佳化與平行 • 平行方法: • 選擇較佳的程式撰寫模型 • Message Passing Model(eg. MPI) • Shared Variable Model(eg. Pthread、OpenMp) • STL 有自己的管理方法
實驗與效能分析 • 記憶體階層的效能
實驗與效能分析 • 可延展性效能
結論 • 文件探勘可用於桌上型應用。 • 選擇好的程式架構,可減少效能的浪費。 • 善用cache去減少失誤代價。