1 / 1

網際網路文字資訊擷取 - 網頁自動下載代理人設計 亞洲大學 資訊工程學系 學生:郭佳霖 指導教授:王經篤 教授

網際網路文字資訊擷取 - 網頁自動下載代理人設計 亞洲大學 資訊工程學系 學生:郭佳霖 指導教授:王經篤 教授. 摘要 因 長時間收集資料 網 際網 路文 字 資 料 , 使用者須耗費許多時間與重覆的網頁點選動作 。本研究 利用網頁自動代理人技術 ,能夠自動下載會動態更新網頁的文字資訊,來取代人力手動收 集 文字資訊, 以作為文件 資料探勘的 資料收集工具 。本研究主要是研究網頁在使用者觸發搜尋條件時, 研究 瀏覽器所執行的動作,開發出程式模擬出相同動作,達到自動化的目的。 方法

conor
Download Presentation

網際網路文字資訊擷取 - 網頁自動下載代理人設計 亞洲大學 資訊工程學系 學生:郭佳霖 指導教授:王經篤 教授

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 網際網路文字資訊擷取-網頁自動下載代理人設計亞洲大學 資訊工程學系 學生:郭佳霖指導教授:王經篤 教授 摘要 因長時間收集資料網際網路文字資料,使用者須耗費許多時間與重覆的網頁點選動作。本研究利用網頁自動代理人技術,能夠自動下載會動態更新網頁的文字資訊,來取代人力手動收集文字資訊,以作為文件資料探勘的資料收集工具。本研究主要是研究網頁在使用者觸發搜尋條件時,研究瀏覽器所執行的動作,開發出程式模擬出相同動作,達到自動化的目的。 方法 本研究利用HttpAnalyzer[2]軟體擷取出網頁傳遞參數之名稱(如:設定搜尋日期範圍) ,再利用Perl:LWP模組[1]並結合網頁傳遞參數,利用網路搜尋 (“get”或“post”) ,模擬出使用者的點選動作,達到網頁自動下載的目地。 實驗 實驗以下載生物文獻Pubmed [3]網站某一段時間內的文獻為目標,利用軟體HttpAnalyzer監控瀏覽器在post傳送時傳了哪些參數(如圖一),利用程式Perl:LWP傳送相同的參數給及參數值給PubMed網站(如圖二) ,並成功接收到PubMed網站回傳第一頁的文獻資料(如圖三) 。 圖一 HttpAnalyzer軟體 擷取POST參數 討論與未來發展 實驗過程中PubMed網站回傳的頁面都只有第一頁的資訊,正在努力解決抓取下一頁的方法,目前已經知道要抓取下一頁的參數變化(需要改變參數cPage與CurrPage的值)。未來這個Agent可應用在資料探勘相關領域上,幫忙使用者搜集網站資料,此Agent可降低錯誤機率及節省非常多時間。 參考文獻 Perl http://www.activestate.com/activeperl HttpAnalyzer http://www.ieinspector.com/httpanalyzer/ Pubmed http://www.ncbi.nlm.nih.gov/pubmed/limits 圖三. PubMed文獻資料 圖二 Perl:LWP程式

More Related