網際網路文字資訊擷取 - 網頁自動下載代理人設計亞洲大學資訊工程學系學生：郭佳霖指導教授：王經篤教授

網際網路文字資訊擷取-網頁自動下載代理人設計亞洲大學 資訊工程學系學生：郭佳霖指導教授：王經篤教授摘要因長時間收集資料網際網路文字資料，使用者須耗費許多時間與重覆的網頁點選動作。本研究利用網頁自動代理人技術，能夠自動下載會動態更新網頁的文字資訊，來取代人力手動收集文字資訊，以作為文件資料探勘的資料收集工具。本研究主要是研究網頁在使用者觸發搜尋條件時，研究瀏覽器所執行的動作，開發出程式模擬出相同動作，達到自動化的目的。方法本研究利用HttpAnalyzer[2]軟體擷取出網頁傳遞參數之名稱(如:設定搜尋日期範圍) ，再利用Perl:LWP模組[1]並結合網頁傳遞參數，利用網路搜尋 (“get”或“post”) ，模擬出使用者的點選動作，達到網頁自動下載的目地。實驗實驗以下載生物文獻Pubmed [3]網站某一段時間內的文獻為目標，利用軟體HttpAnalyzer監控瀏覽器在post傳送時傳了哪些參數(如圖一)，利用程式Perl:LWP傳送相同的參數給及參數值給PubMed網站(如圖二) ，並成功接收到PubMed網站回傳第一頁的文獻資料(如圖三) 。圖一 HttpAnalyzer軟體擷取POST參數討論與未來發展實驗過程中PubMed網站回傳的頁面都只有第一頁的資訊，正在努力解決抓取下一頁的方法，目前已經知道要抓取下一頁的參數變化(需要改變參數cPage與CurrPage的值)。未來這個Agent可應用在資料探勘相關領域上，幫忙使用者搜集網站資料，此Agent可降低錯誤機率及節省非常多時間。參考文獻 Perl http://www.activestate.com/activeperl HttpAnalyzer http://www.ieinspector.com/httpanalyzer/ Pubmed http://www.ncbi.nlm.nih.gov/pubmed/limits 圖三. PubMed文獻資料圖二 Perl:LWP程式

網際網路文字資訊擷取 - 網頁自動下載代理人設計 亞洲大學 資訊工程學系 學生：郭佳霖 指導教授：王經篤 教授

網際網路文字資訊擷取 - 網頁自動下載代理人設計 亞洲大學 資訊工程學系 學生：郭佳霖 指導教授：王經篤 教授

Presentation Transcript

網際網路文字資訊擷取 - 網頁自動下載代理人設計亞洲大學資訊工程學系學生：郭佳霖指導教授：王經篤教授

網際網路文字資訊擷取 - 網頁自動下載代理人設計亞洲大學資訊工程學系學生：郭佳霖指導教授：王經篤教授