260 likes | 463 Views
第十三章 案例探討 - 圖書借閱. 內容概要. 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結. 簡介. 以圖書借閱資料為例,說明資料探勘的處理過程 : 資料取得、需求分析、資料整理、 資料倉儲建立、資料探勘、結果分析。 探討問題: 探討不同科系是否借閱不同類別的書? 不同年級學生是否借閱不同類別的書? 大學部與研究生是否有不同的借閱習慣? 圖書分類是否有改進的地方? 借閱紀錄是否隱藏不易發掘而且重要的資訊 ? 實例解說資料探勘過程,瞭解資料探勘的過程,建立具體的印象與觀念,注重過程,而非結果。. 內容概要. 簡介
E N D
內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結
簡介 • 以圖書借閱資料為例,說明資料探勘的處理過程: • 資料取得、需求分析、資料整理、 • 資料倉儲建立、資料探勘、結果分析。 • 探討問題: • 探討不同科系是否借閱不同類別的書? • 不同年級學生是否借閱不同類別的書? • 大學部與研究生是否有不同的借閱習慣? • 圖書分類是否有改進的地方? • 借閱紀錄是否隱藏不易發掘而且重要的資訊 ? • 實例解說資料探勘過程,瞭解資料探勘的過程,建立具體的印象與觀念,注重過程,而非結果。
內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結
原始資料來源 • 根據需求分析,只考慮書籍、系所部門、讀者、借閱資料 四個資料表
內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結
第一階段資料前置處理(1) • 原始資料利用資料轉換匯入SQL Server • 將 Reader與 Department 資料表合成新的 Reader 資料表 。 • 在Reader 資料表內: • 增加college欄位,建立:系所學院 概念階層。 • 依學號分類,新增grade欄位,記錄使用者年級,區分為「freshman、sophomore、junior、senior、postgraduate、candidate for PhD、teacher」七個類別。 • 只保留 rno(讀者id)、dept_code、dept_name、college_name、grade 欄位,其餘欄位全部刪除。
第一階段資料前置處理(2) • 在Book 資料表內的: • 根據中西文圖書分類,在索書號上新增sub_class及class屬性,建立書籍種類的概念階層 。 • 將language欄位重新分類,保留最多的中文、英文、日文三類,將其餘語言歸類為other。 • 建立publsih_interval欄位,出版年以五年為一區間,作為出版年代的概念階層之用。 • 僅留下marc_id(書籍id)、title、author、publisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等欄位。
第一階段資料前置處理(3) • 利用中西文圖書分類檢表,將書分為4大類,大類再細分成子項目。
第一階段資料前置處理(4) • 在History 資料表內: • 將借閱日期拆成三個欄位:借閱年、借閱月、借閱日,作為將來時間的概念階層。 • 加入amount 欄位,代表借書的本數,一般都為 1,作為事實資料表的量值。 • 僅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount欄位,其中amount欄位為量值。
第二階段資料前置處理(1) • 在 Reader 資料表,分析對象為正常學制學生,刪除外校人士、行政人員、在職專班、轉系、大五、大六、系所空白者、身分無法辨認者。 • 在 Book 資料表內,刪除索書號不完全者;刪除期刊資料及校內論文、不能外借之書籍(如當期雜誌)、視聽資料(如CD、LD、tape)等。 • 在 History 資料表內,刪除索書號不完整之紀錄;刪除rno(user id)無法在整理過的Reader 資料表找到之紀錄;刪除索書號無法在整理過的Book 資料表找到之紀錄。
第二階段資料前置處理(2) • 資料整理前後資料表內容變化比較
內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結
資料倉儲設計(1) • 事實資料表:History 為事實資料表,amount 量值。 • 維度:Reader、Book與Time三個維度。
資料倉儲設計(2) • 在Reader 維度資料表內找到兩種概念階層: • 年級:rno grade • 學院系所:rno dept_name college_name • 在Book 維度資料表內找到三種概念階層: • 語言:title language • 主題分類:title sub_class class • 出版年:publish_year publish_interval • 在 Time 維度找到一種概念階層: • 借閱日期:borrow_dateborrow_monthborrow_year
資料倉儲設計(3) • 星狀式架構的資料倉儲
內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結
結果分析 • 發現借閱率較高的書,大多是1988年到1999年,建議多購新版的書,或者調查新書流動率不高的原因。 • 每個系所借閱書籍的種類,和所學科系有相關,建議借閱方式可以更彈性。例如,提高電子系學生借閱電子類別書目的冊數,以方便學生閱讀與研究。 • 書籍類別subject欄位,為人工手動建置,欄位格式並不統一,例如有: • 「Computer Language – Makeup Language」 • 「Computer_Language_Makeup_ Language」 • 「Computer Language:Extensible Makeup Language」 • 建議分類機制由手動輸入改為下拉式選單挑選,以提高書目資料的準確度。
內容概要 • 簡介 • 原始資料來源 • 資料前置處理 • 資料倉儲設計 • 資料探勘結果 • 總結
總結 • 以圖書借閱資料說明資料探勘的處理過程。 • 需求分析與資料整理的工作量不小。 • 細節(參數調整等)必須靠讀者自行練習。 • 幫助讀者建立資料探勘具體的印象與觀念。 • 找貴校圖書館合作,進行類似資料探勘。