x y d ng ng d ng thu th p d li u t ng t c c website
Download
Skip this Video
Download Presentation
Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Loading in 2 Seconds...

play fullscreen
1 / 25

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website - PowerPoint PPT Presentation


  • 161 Views
  • Uploaded on

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website. HỘI ĐỒNG 2 - HỆ THỐNG THÔNG TIN Chủ tịch: TS. Võ Thị Ngọc Châu GVPB: ThS. Nguyễn Văn Đoàn GVHD: ThS. Đặng Trần Trí ---ooo---

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website' - mimi


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
x y d ng ng d ng thu th p d li u t ng t c c website

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

HỘI ĐỒNG 2 - HỆ THỐNG THÔNG TIN

Chủ tịch:TS. Võ Thị Ngọc Châu

GVPB: ThS. Nguyễn Văn Đoàn

GVHD:ThS. Đặng Trần Trí

---ooo---

SVTH 1: Nguyễn Trung Kiên - 50501352

SVTH 2:Lê Quang Minh - 50501668

m c l c
Mục lục

Giới thiệu đề tài

Phân tích và thiết kế

Hiện thực ứng dụng

Tổng kết

Demo

1 gi i thi u t i
1. Giới thiệu đề tài
  • Đặt vấn đề
  • Yêu cầu
    • Tìm hiểu về các kỹ thuật thu thập dữ liệu tự động từ các website
    • Hiện thực một giải pháp cụ thể để thu thập chúng
  • Mục tiêu
    • Xây dựng được một ứng dụng thu thập dữ liệu tự động
    • Ứng dụng phải có khả năng mở rộng, tùy biến để có thể sử dụng với nhiều website khác nhau
slide5

2. Phân tích và thiết kế

  • Web Scraper
  • Ứng dụng cần xây dựng chính là một Web Scraper

Extract

Web crawling

2 ph n t ch v thi t k1
2. Phân tích và thiết kế
  • Hướng tiếp cận
    • Tùy biến được (cần sự can thiệp của người sử dụng)
    • Giải quyết được các mô hình website cụ thể
  • Các vấn đề cần giải quyết
    • Lấy nội dung các trang web
    • Trích xuất dữ liệu từ nội dung có được
    • Đặc tả các thông tin đầu vào
2 ph n t ch v thi t k2
2. Phân tích và thiết kế
  • Phân loại các trang web theo cách thức chuyển trang
    • Loại I
      • Sử dụng HTTP GET, POST thông thường
      • Các mã client-side không ảnh hưởng đến việc lấy nội dung trang mới cũng như chính nội dung này
    • Loại II
      • Không thể lấy được nội dung trang mới chỉ bằng HTTP GET, POST thông thường
      • Các mã client-side có ảnh hưởng đến việc lấy nội dung trang mới hoặc đến chính nội dung này
2 ph n t ch v thi t k3
2. Phân tích và thiết kế
  • Thiết kế: hai module chính
    • Crawler
      • Lấy nội dung các trang web
    • Extractor
      • Trích xuất dữ liệu từ nội dung lấy được
        • Dữ liệu người dùng muốn thu thập
        • Dữ liệu cần thiết cho việc lấy nội dung web page tiếp theo (chuyển trang)
slide11

2. Phân tích và thiết kế

Sơ đồ hoạt động tổng quát

m c l c1
Mục lục
  • Giới thiệu đề tài
  • Phân tích và thiết kế
  • Hiện thực ứng dụng
  • Tổng kết
  • Demo
3 hi n th c ng d ng
3. Hiện thực ứng dụng
  • Tính năng của ứng dụng
    • Giải quyết được các trang sử dụng kỹ thuật chuyển trang thuộc loại I và II
    • Các tính năng mở rộng:
      • Session, Cookie
      • HTTP Authentication, Form Authentication
      • Proxy, sleep
      • Xử lý bổ sung trên dữ liệu sau khi trích xuất được
3 hi n th c ng d ng1
3. Hiện thực ứng dụng
  • Mô hình ứng dụng
  • Server
    • HĐH: Microsoft Windows
    • Ngôn ngữ lập trình: PHP, Java
    • Môi trường thực thi:
      • AMP (Apache-MySQL-PHP)
      • JRE (Java Runtime Environment)
  • Client
    • Chỉ cần có trình duyệt

14

4 t ng k t
4. Tổng kết
  • Kết quả đạt được
    • Lý thuyết:
      • Tìm hiểu được các kỹ thuật thu thập dữ liệu Web
      • Tìm hiểu được các công nghệ Web hiện tại
    • Ứng dụng:
      • Xây dựng thành công ứng dụng có khả năng thu thập dữ liệu các trang web từ đơn giản cho đến tương đối phức tạp, một cách tự động
      • Ứng dụng có khả năng mở rộng và phát triển lên cao
4 t ng k t1
4. Tổng kết
  • Hạn chế
    • Viết file đặc tả cấu hình XML còn khó khăn
    • Người sử dụng cần có kiến thức về Expression, XPath, Selector, và cũng phải nắm được cấu trúc của trang web cần thu thập dữ liệu
    • Khả năng lấy dữ liệu trên các trang có sự chuyển trang sử dụng javascript còn hạn chế
4 t ng k t2
4. Tổng kết
  • Hướng phát triển
    • Xây dựng công cụ hỗ trợ người dùng tạo đặc tả đầu vào XML
    • Nghiên cứu các thư viện khác hỗ trợ tốt hơn trong việc xử lý các trang web có javascript
t i li u tham kh o
Tài liệu tham khảo
  • Tài liệu viết
    • Michael Schrenk (2007). Webbots, Spiders, and Screen Scrapers. No Starch, San Francisco, USA.
    • Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Web. Computer Science Department, Stanford University, USA.
    • Steve Lawrence, C. Lee Giles (1998). Searching the World Wide Web. Science, 280(5360):98.
    • Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing Hidden Value. University of Michigan, USA.
    • Stephen Soderland. Learning to Extract Text-based Information from the World Wide Web. Department of Computer Science & Engineering, University of Washington.
t i li u tham kh o1
Tài liệu tham khảo
  • Website
    • Wikipedia, http://www.wikipedia.org (01-2010)
    • World Wide Web Consortium (W3C), http://www.w3.org (01-2010)
    • HTML Tidy project, http://tidy.sourceforge.net/ (01-2010)
    • cURL project, http://curl.haxx.se/ (01-2010)
    • CodeIgniter Framework, http://codeigniter.com/ (01-2010)
    • Mozenda software, http://www.mozenda.com/ (01-2010)
ad