10 likes | 205 Views
網際網路文字資訊擷取 - 網頁自動下載代理人設計 亞洲大學 資訊工程學系 學生:郭佳霖 指導教授:王經篤 教授. 摘要 因 長時間收集資料 網 際網 路文 字 資 料 , 使用者須耗費許多時間與重覆的網頁點選動作 。本研究 利用網頁自動代理人技術 ,能夠自動下載會動態更新網頁的文字資訊,來取代人力手動收 集 文字資訊, 以作為文件 資料探勘的 資料收集工具 。本研究主要是研究網頁在使用者觸發搜尋條件時, 研究 瀏覽器所執行的動作,開發出程式模擬出相同動作,達到自動化的目的。 方法
E N D
網際網路文字資訊擷取-網頁自動下載代理人設計亞洲大學 資訊工程學系 學生:郭佳霖指導教授:王經篤 教授 摘要 因長時間收集資料網際網路文字資料,使用者須耗費許多時間與重覆的網頁點選動作。本研究利用網頁自動代理人技術,能夠自動下載會動態更新網頁的文字資訊,來取代人力手動收集文字資訊,以作為文件資料探勘的資料收集工具。本研究主要是研究網頁在使用者觸發搜尋條件時,研究瀏覽器所執行的動作,開發出程式模擬出相同動作,達到自動化的目的。 方法 本研究利用HttpAnalyzer[2]軟體擷取出網頁傳遞參數之名稱(如:設定搜尋日期範圍) ,再利用Perl:LWP模組[1]並結合網頁傳遞參數,利用網路搜尋 (“get”或“post”) ,模擬出使用者的點選動作,達到網頁自動下載的目地。 實驗 實驗以下載生物文獻Pubmed [3]網站某一段時間內的文獻為目標,利用軟體HttpAnalyzer監控瀏覽器在post傳送時傳了哪些參數(如圖一),利用程式Perl:LWP傳送相同的參數給及參數值給PubMed網站(如圖二) ,並成功接收到PubMed網站回傳第一頁的文獻資料(如圖三) 。 圖一 HttpAnalyzer軟體 擷取POST參數 討論與未來發展 實驗過程中PubMed網站回傳的頁面都只有第一頁的資訊,正在努力解決抓取下一頁的方法,目前已經知道要抓取下一頁的參數變化(需要改變參數cPage與CurrPage的值)。未來這個Agent可應用在資料探勘相關領域上,幫忙使用者搜集網站資料,此Agent可降低錯誤機率及節省非常多時間。 參考文獻 Perl http://www.activestate.com/activeperl HttpAnalyzer http://www.ieinspector.com/httpanalyzer/ Pubmed http://www.ncbi.nlm.nih.gov/pubmed/limits 圖三. PubMed文獻資料 圖二 Perl:LWP程式