x y d ng ng d ng thu th p d li u t ng t c c website
Download
Skip this Video
Download Presentation
Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Loading in 2 Seconds...

play fullscreen
1 / 25

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website - PowerPoint PPT Presentation


 • 161 Views
 • Uploaded on

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website. HỘI ĐỒNG 2 - HỆ THỐNG THÔNG TIN Chủ tịch: TS. Võ Thị Ngọc Châu GVPB: ThS. Nguyễn Văn Đoàn GVHD: ThS. Đặng Trần Trí ---ooo---

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website' - mimi


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
x y d ng ng d ng thu th p d li u t ng t c c website

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

HỘI ĐỒNG 2 - HỆ THỐNG THÔNG TIN

Chủ tịch:TS. Võ Thị Ngọc Châu

GVPB: ThS. Nguyễn Văn Đoàn

GVHD:ThS. Đặng Trần Trí

---ooo---

SVTH 1: Nguyễn Trung Kiên - 50501352

SVTH 2:Lê Quang Minh - 50501668

m c l c
Mục lục

Giới thiệu đề tài

Phân tích và thiết kế

Hiện thực ứng dụng

Tổng kết

Demo

1 gi i thi u t i
1. Giới thiệu đề tài
 • Đặt vấn đề
 • Yêu cầu
  • Tìm hiểu về các kỹ thuật thu thập dữ liệu tự động từ các website
  • Hiện thực một giải pháp cụ thể để thu thập chúng
 • Mục tiêu
  • Xây dựng được một ứng dụng thu thập dữ liệu tự động
  • Ứng dụng phải có khả năng mở rộng, tùy biến để có thể sử dụng với nhiều website khác nhau
slide5

2. Phân tích và thiết kế

 • Web Scraper
 • Ứng dụng cần xây dựng chính là một Web Scraper

Extract

Web crawling

2 ph n t ch v thi t k1
2. Phân tích và thiết kế
 • Hướng tiếp cận
  • Tùy biến được (cần sự can thiệp của người sử dụng)
  • Giải quyết được các mô hình website cụ thể
 • Các vấn đề cần giải quyết
  • Lấy nội dung các trang web
  • Trích xuất dữ liệu từ nội dung có được
  • Đặc tả các thông tin đầu vào
2 ph n t ch v thi t k2
2. Phân tích và thiết kế
 • Phân loại các trang web theo cách thức chuyển trang
  • Loại I
   • Sử dụng HTTP GET, POST thông thường
   • Các mã client-side không ảnh hưởng đến việc lấy nội dung trang mới cũng như chính nội dung này
  • Loại II
   • Không thể lấy được nội dung trang mới chỉ bằng HTTP GET, POST thông thường
   • Các mã client-side có ảnh hưởng đến việc lấy nội dung trang mới hoặc đến chính nội dung này
2 ph n t ch v thi t k3
2. Phân tích và thiết kế
 • Thiết kế: hai module chính
  • Crawler
   • Lấy nội dung các trang web
  • Extractor
   • Trích xuất dữ liệu từ nội dung lấy được
    • Dữ liệu người dùng muốn thu thập
    • Dữ liệu cần thiết cho việc lấy nội dung web page tiếp theo (chuyển trang)
slide11

2. Phân tích và thiết kế

Sơ đồ hoạt động tổng quát

m c l c1
Mục lục
 • Giới thiệu đề tài
 • Phân tích và thiết kế
 • Hiện thực ứng dụng
 • Tổng kết
 • Demo
3 hi n th c ng d ng
3. Hiện thực ứng dụng
 • Tính năng của ứng dụng
  • Giải quyết được các trang sử dụng kỹ thuật chuyển trang thuộc loại I và II
  • Các tính năng mở rộng:
   • Session, Cookie
   • HTTP Authentication, Form Authentication
   • Proxy, sleep
   • Xử lý bổ sung trên dữ liệu sau khi trích xuất được
3 hi n th c ng d ng1
3. Hiện thực ứng dụng
 • Mô hình ứng dụng
 • Server
  • HĐH: Microsoft Windows
  • Ngôn ngữ lập trình: PHP, Java
  • Môi trường thực thi:
   • AMP (Apache-MySQL-PHP)
   • JRE (Java Runtime Environment)
 • Client
  • Chỉ cần có trình duyệt

14

4 t ng k t
4. Tổng kết
 • Kết quả đạt được
  • Lý thuyết:
   • Tìm hiểu được các kỹ thuật thu thập dữ liệu Web
   • Tìm hiểu được các công nghệ Web hiện tại
  • Ứng dụng:
   • Xây dựng thành công ứng dụng có khả năng thu thập dữ liệu các trang web từ đơn giản cho đến tương đối phức tạp, một cách tự động
   • Ứng dụng có khả năng mở rộng và phát triển lên cao
4 t ng k t1
4. Tổng kết
 • Hạn chế
  • Viết file đặc tả cấu hình XML còn khó khăn
  • Người sử dụng cần có kiến thức về Expression, XPath, Selector, và cũng phải nắm được cấu trúc của trang web cần thu thập dữ liệu
  • Khả năng lấy dữ liệu trên các trang có sự chuyển trang sử dụng javascript còn hạn chế
4 t ng k t2
4. Tổng kết
 • Hướng phát triển
  • Xây dựng công cụ hỗ trợ người dùng tạo đặc tả đầu vào XML
  • Nghiên cứu các thư viện khác hỗ trợ tốt hơn trong việc xử lý các trang web có javascript
t i li u tham kh o
Tài liệu tham khảo
 • Tài liệu viết
  • Michael Schrenk (2007). Webbots, Spiders, and Screen Scrapers. No Starch, San Francisco, USA.
  • Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Web. Computer Science Department, Stanford University, USA.
  • Steve Lawrence, C. Lee Giles (1998). Searching the World Wide Web. Science, 280(5360):98.
  • Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing Hidden Value. University of Michigan, USA.
  • Stephen Soderland. Learning to Extract Text-based Information from the World Wide Web. Department of Computer Science & Engineering, University of Washington.
t i li u tham kh o1
Tài liệu tham khảo
 • Website
  • Wikipedia, http://www.wikipedia.org (01-2010)
  • World Wide Web Consortium (W3C), http://www.w3.org (01-2010)
  • HTML Tidy project, http://tidy.sourceforge.net/ (01-2010)
  • cURL project, http://curl.haxx.se/ (01-2010)
  • CodeIgniter Framework, http://codeigniter.com/ (01-2010)
  • Mozenda software, http://www.mozenda.com/ (01-2010)
ad