1 / 34

資料探勘 第三單元 資料探勘的應用

資料探勘 第三單元 資料探勘的應用. 資料探勘在全球資訊網上的應用. 本周綱要. 網路探勘基本概念 常見的網路探勘類別 網路使用探勘 網路內容探勘 網路結構探勘. 網路探勘基本概念. 網路探勘 利用資料探勘的技術於全球資訊網上,進行發掘知識以期能夠更有效率的分析全球資訊網上的資料 適合利用網路探勘進行分析的資料 使用者的相關資料 網頁的內容 網頁的連結 商業上的交易資料 多媒體資料. 網路探勘的分類與應用範圍. 網路探勘與 KDD. 應用網路探勘於電子商務之 KDD 的過程包括:資料蒐集及資料預處理、資料探勘及資料分析、推薦,以及實際運行。.

Download Presentation

資料探勘 第三單元 資料探勘的應用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 資料探勘第三單元 資料探勘的應用 資料探勘在全球資訊網上的應用

  2. 本周綱要 • 網路探勘基本概念 • 常見的網路探勘類別 • 網路使用探勘 • 網路內容探勘 • 網路結構探勘

  3. 網路探勘基本概念 • 網路探勘 • 利用資料探勘的技術於全球資訊網上,進行發掘知識以期能夠更有效率的分析全球資訊網上的資料 • 適合利用網路探勘進行分析的資料 • 使用者的相關資料 • 網頁的內容 • 網頁的連結 • 商業上的交易資料 • 多媒體資料

  4. 網路探勘的分類與應用範圍

  5. 網路探勘與KDD • 應用網路探勘於電子商務之KDD的過程包括:資料蒐集及資料預處理、資料探勘及資料分析、推薦,以及實際運行。

  6. 網路探勘與KDD

  7. 網路使用探勘

  8. 網路使用探勘的資料來源 • 伺服器端的資料 • 使用者日誌檔 • 日誌檔 • NCSA • W3C

  9. 網路使用探勘的資料來源

  10. 網路使用探勘的資料來源 • 日誌檔範例

  11. 網路使用探勘的資料來源 • 伺服器端的資料 • Cookie • Cookie儲存在使用者端 • 但是卻是由伺服器端產生的資料 • 使用者輸入的資訊 • 使用者端的資料 • 中介的資料來源 • 代理伺服器 • 封包監聽軟硬體

  12. 網路使用探勘的資料預處理 • 資料過濾

  13. 網路使用探勘的資料預處理 • 資料清理

  14. 網路使用探勘的資料預處理 • 資料選取

  15. 網路使用探勘的資料預處理 • 資料格式化

  16. 網路使用探勘的資料預處理 • 使用者定義 • 每一個單獨的IP位址視為單獨的使用者 • 採用Cookie檔案來進行使用者的定義 • 使用者使用的網路瀏覽器 • 不同的作業系統類型或版本 • 使用者的來源……等 • 透過探討使用者的瀏覽路徑來定義使用者

  17. 網路使用探勘的資料預處理 • 使用者瀏覽時段的定義 • 以時間為基礎的方法 • 利用使用者的瀏覽路徑為基礎

  18. 資料探勘技術在網路使用探勘上的運用 • 統計分析 • 關聯規則 • 叢聚分析 • 順序樣式 • 分類法

  19. 叢聚分析

  20. 叢聚分析

  21. 分析網路使用探勘的結果 • 結構化的知識查詢機制 • OLAP • 視覺化的方式

  22. 分析網路使用探勘的結果 • 視覺化的方式

  23. 運用網路使用探勘的結果 • 個人化 • 改進系統的效率 • 網站的修正 • 商業智慧 • 使用者的特徵

  24. 運用網路使用探勘的結果

  25. 網路內容探勘 • 何謂網路內容探勘? • 針對全球資訊網上以內容為主的網頁、文件或檔案,利用資料探勘的技術進行分析,以期找出有趣的規則、樣式,或是對於這些網頁、文件或檔案進行分類與叢聚……等應用 • 以內容為主的網頁分類 • 入口網頁 • 訊息網頁 • 導引網頁 • 解釋性的網頁 • 資料輸入網頁

  26. 網路內容探勘的資料來源與預處理 • 網路內容探勘的資料預處理,針對這些資料轉換為網路內容探勘所需要的格式 • 以文字為主內容 • TFIDF文字向量 • 超文字的資料 • 半結構化資料

  27. 資料探勘技術在網路內容探勘上的運用 • 分類法 • 機率分類模式 • 基本定義 • 貝氏機率 • 此模式的參數為 ,代表在分類c中的一個文件中出現單詞t 至少一次的機率,其機率的定義如下: • 多名目模式下的機率

  28. 分類法 • 機率分類模式 • 對於半結構化文件的處理 • EM演算法 • 關係分類

  29. 叢聚分析 • K-means演算法 • 聚合式叢聚方法 • 相似度計算方法

  30. 網路結構探勘 • 何謂網路結構探勘? • 網路連結的架構 • 網頁版面配置的架構 • 希望透過資料探勘的技術可以分析網路的版面配置與連結結構,以瞭解在網站或是網頁上的連結情形

  31. 網路結構探勘資料的預處理 • 網站結構圖的規範性定義描述如下 • 網站架構範例圖

  32. 網路結構探勘資料的預處理 • 網站結構圖的規範性定義描述

  33. 網路結構探勘的應用 • 資訊萃取 • HITS (Hyperlink Induced Topic Search) • 權重值判斷 • Google (PageRank)

  34. 網路結構探勘的應用 • 分類 • 網路結構探勘除了可以應用在資訊萃取外,也可以應用在網頁文件的分類 • 網路結構的探勘,可提供額外的資訊給予網路內容探勘 • 在前面所提到的關係分類,可以用來支援網路內容探勘的網路結構的資訊 • 連結與連結之間的關係link_to (page1, page2) • 連結與網頁內容之間的關係link_to (P1, P) • has_word (P1, word) • 連結之間的階層關係

More Related