Parallel Information Extraction on Shared Memory Multi-processor System

Parallel Information Extraction on Shared Memory Multi-processor System Jiulong Shan Yurong Chen Qiao Diao Yimin Zhang

Outline 前言基於資訊擷取的CRFs 最佳化與平行實驗與效能分析結論

前言 • 文件探勘(Text Mining)的重要性。 • 常用的文件探勘技術－資訊擷取(Information Extraction,IE) • IE包含兩個主要的工作： • 句子邊緣偵測(Sentence Boundary Detection ,SBD) • 未知(Name Entity Extraction,NE)

前言 • 核心演算法－Conditional Random Fields(CRFs)

基於資訊擷取的CRFs • 使用CRFs去判斷兩的句子間的相似度。 • 此演算法的使用

最佳化與平行 • 實驗設定： • 16-way Intel Xeon • 3.0CHz * 16 • cache (L1:8K；L2:512K；L3:4MB；L4:32M) • 4-way Intel Xeon • 2.8GHz • cache (L3：2MB) • 資料集 • beijing(11MB) • 1126(25MB) • Reuter(141MB) • 編譯器：mpich-1.2.5.2

最佳化與平行 • 已開發的工具－FlexCRFs • IE在處理上可分為兩個步驟： • 模型初始化(MI) • 文件處理(DP) • 佔 90% 處理時間

最佳化與平行 • 最佳化方法： • 原始的工具使用STL map • 以rb-tree方式儲存(log n) • 改善的方法：使用STL hash_map • 管理內部的暫存器

最佳化與平行 • 平行方法： • 選擇較佳的程式撰寫模型 • Message Passing Model(eg. MPI) • Shared Variable Model(eg. Pthread、OpenMp) • STL 有自己的管理方法

實驗與效能分析 • 記憶體階層的效能

實驗與效能分析 • 可延展性效能

結論 • 文件探勘可用於桌上型應用。 • 選擇好的程式架構，可減少效能的浪費。 • 善用cache去減少失誤代價。

Thank You !

Parallel Information Extraction on Shared Memory Multi-processor System