1 / 25

第十三章 案例探討 - 圖書借閱

第十三章 案例探討 - 圖書借閱. 內容概要. 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結. 簡介. 以圖書借閱資料為例,說明資料探勘的處理過程 : 資料取得、需求分析、資料整理、 資料倉儲建立、資料探勘、結果分析。 探討問題: 探討不同科系是否借閱不同類別的書? 不同年級學生是否借閱不同類別的書? 大學部與研究生是否有不同的借閱習慣? 圖書分類是否有改進的地方? 借閱紀錄是否隱藏不易發掘而且重要的資訊 ? 實例解說資料探勘過程,瞭解資料探勘的過程,建立具體的印象與觀念,注重過程,而非結果。. 內容概要. 簡介

Download Presentation

第十三章 案例探討 - 圖書借閱

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第十三章 案例探討-圖書借閱

  2. 內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結

  3. 簡介 • 以圖書借閱資料為例,說明資料探勘的處理過程: • 資料取得、需求分析、資料整理、 • 資料倉儲建立、資料探勘、結果分析。 • 探討問題: • 探討不同科系是否借閱不同類別的書? • 不同年級學生是否借閱不同類別的書? • 大學部與研究生是否有不同的借閱習慣? • 圖書分類是否有改進的地方? • 借閱紀錄是否隱藏不易發掘而且重要的資訊 ? • 實例解說資料探勘過程,瞭解資料探勘的過程,建立具體的印象與觀念,注重過程,而非結果。

  4. 內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結

  5. 原始資料來源 • 根據需求分析,只考慮書籍、系所部門、讀者、借閱資料 四個資料表

  6. 內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結

  7. 第一階段資料前置處理(1) • 原始資料利用資料轉換匯入SQL Server • 將 Reader與 Department 資料表合成新的 Reader 資料表 。 • 在Reader 資料表內: • 增加college欄位,建立:系所學院 概念階層。 • 依學號分類,新增grade欄位,記錄使用者年級,區分為「freshman、sophomore、junior、senior、postgraduate、candidate for PhD、teacher」七個類別。 • 只保留 rno(讀者id)、dept_code、dept_name、college_name、grade 欄位,其餘欄位全部刪除。

  8. 第一階段資料前置處理(2) • 在Book 資料表內的: • 根據中西文圖書分類,在索書號上新增sub_class及class屬性,建立書籍種類的概念階層 。 • 將language欄位重新分類,保留最多的中文、英文、日文三類,將其餘語言歸類為other。 • 建立publsih_interval欄位,出版年以五年為一區間,作為出版年代的概念階層之用。 • 僅留下marc_id(書籍id)、title、author、publisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等欄位。

  9. 第一階段資料前置處理(3) • 利用中西文圖書分類檢表,將書分為4大類,大類再細分成子項目。

  10. 第一階段資料前置處理(4) • 在History 資料表內: • 將借閱日期拆成三個欄位:借閱年、借閱月、借閱日,作為將來時間的概念階層。 • 加入amount 欄位,代表借書的本數,一般都為 1,作為事實資料表的量值。 • 僅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount欄位,其中amount欄位為量值。

  11. 第二階段資料前置處理(1) • 在 Reader 資料表,分析對象為正常學制學生,刪除外校人士、行政人員、在職專班、轉系、大五、大六、系所空白者、身分無法辨認者。 • 在 Book 資料表內,刪除索書號不完全者;刪除期刊資料及校內論文、不能外借之書籍(如當期雜誌)、視聽資料(如CD、LD、tape)等。 • 在 History 資料表內,刪除索書號不完整之紀錄;刪除rno(user id)無法在整理過的Reader 資料表找到之紀錄;刪除索書號無法在整理過的Book 資料表找到之紀錄。

  12. 第二階段資料前置處理(2) • 資料整理前後資料表內容變化比較

  13. 內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結

  14. 資料倉儲設計(1) • 事實資料表:History 為事實資料表,amount 量值。 • 維度:Reader、Book與Time三個維度。

  15. 資料倉儲設計(2) • 在Reader 維度資料表內找到兩種概念階層: • 年級:rno  grade • 學院系所:rno  dept_name  college_name • 在Book 維度資料表內找到三種概念階層: • 語言:title  language • 主題分類:title  sub_class  class • 出版年:publish_year  publish_interval • 在 Time 維度找到一種概念階層: • 借閱日期:borrow_dateborrow_monthborrow_year

  16. 資料倉儲設計(3) • 星狀式架構的資料倉儲

  17. 內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結

  18. 決策樹資料探勘分析

  19. 分群資料探勘分析(1)

  20. 分群資料探勘分析(2)

  21. 分群資料探勘分析(3)

  22. 關連法則資料探勘分析(1)

  23. 結果分析 • 發現借閱率較高的書,大多是1988年到1999年,建議多購新版的書,或者調查新書流動率不高的原因。 • 每個系所借閱書籍的種類,和所學科系有相關,建議借閱方式可以更彈性。例如,提高電子系學生借閱電子類別書目的冊數,以方便學生閱讀與研究。 • 書籍類別subject欄位,為人工手動建置,欄位格式並不統一,例如有: • 「Computer Language – Makeup Language」 • 「Computer_Language_Makeup_ Language」 • 「Computer Language:Extensible Makeup Language」 • 建議分類機制由手動輸入改為下拉式選單挑選,以提高書目資料的準確度。

  24. 內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結

  25. 總結 • 以圖書借閱資料說明資料探勘的處理過程。 • 需求分析與資料整理的工作量不小。 • 細節(參數調整等)必須靠讀者自行練習。 • 幫助讀者建立資料探勘具體的印象與觀念。 • 找貴校圖書館合作,進行類似資料探勘。

More Related