1 / 13

ontological based webpage classification 以本體論為基礎的網頁分類

ontological based webpage classification 以本體論為基礎的網頁分類. 指導老師 :陳志達 老師 報 告 者:戚嘉蓁 日期 : 2012/08/14. 大綱. 研究背景 研究動機與目的 用於此方案的技術及 演算法 方法論 Visual Boundaries DOM Tree Breadth First Search (BFS) Algorithm Ontology-based Webpage Classification 實驗 結論. 研究背景. 當前的網頁分類方式. 關鍵字比對 替代 技術 尋找鄰近頁面.

Download Presentation

ontological based webpage classification 以本體論為基礎的網頁分類

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ontological based webpage classification以本體論為基礎的網頁分類 指導老師:陳志達 老師 報 告 者:戚嘉蓁 日期:2012/08/14

  2. 大綱 • 研究背景 • 研究動機與目的 • 用於此方案的技術及演算法 • 方法論 • Visual Boundaries • DOM Tree • Breadth First Search (BFS) Algorithm • Ontology-based Webpage Classification • 實驗 • 結論

  3. 研究背景 • 當前的網頁分類方式 • 關鍵字比對 • 替代技術 • 尋找鄰近頁面

  4. 研究動機與目的 • 由於強行比對整個文檔,分類速度往往很緩慢 • 當出現拼寫不同,但意思相同的詞語時,無法正確比對分類 • 目前的技術無法有效識別及比對片語 • 當出現岐義詞,及一字多義的狀況時,也會造成比對的困難 • 當前網頁分類所遇到的問題

  5. 用於此方案的技術及演算法 • 區域分割技術 • 廣度優先搜索(BFS)演算法 • Ontological Techniques (本體論技術)

  6. 建議方法論 • Visual Boundaries

  7. 建議方法論 • DOM Tree • 文件物件模型(Document Object Model,簡稱DOM),是W3C組織推薦的處理可延伸標示語言的標準程式介面。 • 為了查明使用的電腦程式的可視化邊界,我們需要先取得網頁的DOM樹。要做到這一點,我們需要利用一個開放源始碼的HTML語法分析庫來取得DOMTree。

  8. 建議方法論 • Breadth First Search (BFS) Algorithm • 是一種圖形搜索演算法。簡單的說,BFS是從根節點開始,沿著樹的寬度遍歷樹的節點。如果所有節點均被訪問,則演算法中止。

  9. Ontology-based Webpage Classification • WordNet • WordNet 是一個英語字典。由於它包含了語義信息,所以有別於通常意義上的字典。 • 在WordNet中,名詞,動詞,形容詞和副詞各自被組織成一個同義詞的網路,每個同義詞集合都代表一個基本的語義概念,並且這些集合之間也由各種關係連接。

  10. Ontology-based Webpage Classification • 本體論技術 • 我們使用本體論來衡量兩個字詞之間的語義相似度,衡量後會傳回0.0到1.0之間的值,其傳回值越接近1.0代表語義越相似,0.0則反之。 • 例如:’汽車‘和’轎車‘兩個詞評比時,將得到近似0.9的值,而’橘子‘和’摩托車‘這兩個詞評比,得到的值將低的多。

  11. 實際測試 • 人力手動分類 • 系統評估

  12. 結論 • 此方案能以關鍵字的語意屬性來進行比對,將分類的準確性提高。 • 實驗結果表明,這是一個與現有的網頁分類不同,更加快速、準確的網頁分類技術。

  13. END

More Related