X y d ng ng d ng thu th p d li u t ng t c c website
This presentation is the property of its rightful owner.
Sponsored Links
1 / 25

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website PowerPoint PPT Presentation


  • 121 Views
  • Uploaded on
  • Presentation posted in: General

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website. HỘI ĐỒNG 2 - HỆ THỐNG THÔNG TIN Chủ tịch: TS. Võ Thị Ngọc Châu GVPB: ThS. Nguyễn Văn Đoàn GVHD: ThS. Đặng Trần Trí ---ooo---

Download Presentation

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


X y d ng ng d ng thu th p d li u t ng t c c website

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

HỘI ĐỒNG 2 - HỆ THỐNG THÔNG TIN

Chủ tịch:TS. Võ Thị Ngọc Châu

GVPB: ThS. Nguyễn Văn Đoàn

GVHD:ThS. Đặng Trần Trí

---ooo---

SVTH 1:Nguyễn Trung Kiên - 50501352

SVTH 2:Lê Quang Minh - 50501668


M c l c

Mục lục

Giới thiệu đề tài

Phân tích và thiết kế

Hiện thực ứng dụng

Tổng kết

Demo


1 gi i thi u t i

1. Giới thiệu đề tài

  • Đặt vấn đề

  • Yêu cầu

    • Tìm hiểu về các kỹ thuật thu thập dữ liệu tự động từ các website

    • Hiện thực một giải pháp cụ thể để thu thập chúng

  • Mục tiêu

    • Xây dựng được một ứng dụng thu thập dữ liệu tự động

    • Ứng dụng phải có khả năng mở rộng, tùy biến để có thể sử dụng với nhiều website khác nhau


2 ph n t ch v thi t k

2. Phân tích và thiết kế

Web Crawler


X y d ng ng d ng thu th p d li u t ng t c c website

2. Phân tích và thiết kế

  • Web Scraper

  • Ứng dụng cần xây dựng chính là một Web Scraper

Extract

Web crawling


2 ph n t ch v thi t k1

2. Phân tích và thiết kế

  • Hướng tiếp cận

    • Tùy biến được (cần sự can thiệp của người sử dụng)

    • Giải quyết được các mô hình website cụ thể

  • Các vấn đề cần giải quyết

    • Lấy nội dung các trang web

    • Trích xuất dữ liệu từ nội dung có được

    • Đặc tả các thông tin đầu vào


2 ph n t ch v thi t k2

2. Phân tích và thiết kế

  • Phân loại các trang web theo cách thức chuyển trang

    • Loại I

      • Sử dụng HTTP GET, POST thông thường

      • Các mã client-side không ảnh hưởng đến việc lấy nội dung trang mới cũng như chính nội dung này

    • Loại II

      • Không thể lấy được nội dung trang mới chỉ bằng HTTP GET, POST thông thường

      • Các mã client-side có ảnh hưởng đến việc lấy nội dung trang mới hoặc đến chính nội dung này


2 ph n t ch v thi t k3

2. Phân tích và thiết kế

  • Thiết kế: hai module chính

    • Crawler

      • Lấy nội dung các trang web

    • Extractor

      • Trích xuất dữ liệu từ nội dung lấy được

        • Dữ liệu người dùng muốn thu thập

        • Dữ liệu cần thiết cho việc lấy nội dung web page tiếp theo (chuyển trang)


2 ph n t ch v thi t k4

2. Phân tích và thiết kế

Kiến trúc


2 ph n t ch v thi t k5

2. Phân tích và thiết kế


X y d ng ng d ng thu th p d li u t ng t c c website

2. Phân tích và thiết kế

Sơ đồ hoạt động tổng quát


M c l c1

Mục lục

  • Giới thiệu đề tài

  • Phân tích và thiết kế

  • Hiện thực ứng dụng

  • Tổng kết

  • Demo


3 hi n th c ng d ng

3. Hiện thực ứng dụng

  • Tính năng của ứng dụng

    • Giải quyết được các trang sử dụng kỹ thuật chuyển trang thuộc loại I và II

    • Các tính năng mở rộng:

      • Session, Cookie

      • HTTP Authentication, Form Authentication

      • Proxy, sleep

      • Xử lý bổ sung trên dữ liệu sau khi trích xuất được


3 hi n th c ng d ng1

3. Hiện thực ứng dụng

  • Mô hình ứng dụng

  • Server

    • HĐH: Microsoft Windows

    • Ngôn ngữ lập trình: PHP, Java

    • Môi trường thực thi:

      • AMP (Apache-MySQL-PHP)

      • JRE (Java Runtime Environment)

  • Client

    • Chỉ cần có trình duyệt

14


X y d ng ng d ng thu th p d li u t ng t c c website

Cấu trúc cơ sở dữ liệu

15


X y d ng ng d ng thu th p d li u t ng t c c website

3. Hiện thực ứng dụng

  • Crawler

17


X y d ng ng d ng thu th p d li u t ng t c c website

3. Hiện thực ứng dụng

  • Extractor

18

18


4 t ng k t

4. Tổng kết

  • Kết quả đạt được

    • Lý thuyết:

      • Tìm hiểu được các kỹ thuật thu thập dữ liệu Web

      • Tìm hiểu được các công nghệ Web hiện tại

    • Ứng dụng:

      • Xây dựng thành công ứng dụng có khả năng thu thập dữ liệu các trang web từ đơn giản cho đến tương đối phức tạp, một cách tự động

      • Ứng dụng có khả năng mở rộng và phát triển lên cao


4 t ng k t1

4. Tổng kết

  • Hạn chế

    • Viết file đặc tả cấu hình XML còn khó khăn

    • Người sử dụng cần có kiến thức về Expression, XPath, Selector, và cũng phải nắm được cấu trúc của trang web cần thu thập dữ liệu

    • Khả năng lấy dữ liệu trên các trang có sự chuyển trang sử dụng javascript còn hạn chế


4 t ng k t2

4. Tổng kết

  • Hướng phát triển

    • Xây dựng công cụ hỗ trợ người dùng tạo đặc tả đầu vào XML

    • Nghiên cứu các thư viện khác hỗ trợ tốt hơn trong việc xử lý các trang web có javascript


T i li u tham kh o

Tài liệu tham khảo

  • Tài liệu viết

    • Michael Schrenk (2007). Webbots, Spiders, and Screen Scrapers. No Starch, San Francisco, USA.

    • Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Web. Computer Science Department, Stanford University, USA.

    • Steve Lawrence, C. Lee Giles (1998). Searching the World Wide Web. Science, 280(5360):98.

    • Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing Hidden Value. University of Michigan, USA.

    • Stephen Soderland. Learning to Extract Text-based Information from the World Wide Web. Department of Computer Science & Engineering, University of Washington.


T i li u tham kh o1

Tài liệu tham khảo

  • Website

    • Wikipedia, http://www.wikipedia.org (01-2010)

    • World Wide Web Consortium (W3C), http://www.w3.org (01-2010)

    • HTML Tidy project, http://tidy.sourceforge.net/ (01-2010)

    • cURL project, http://curl.haxx.se/ (01-2010)

    • CodeIgniter Framework, http://codeigniter.com/ (01-2010)

    • Mozenda software, http://www.mozenda.com/ (01-2010)


X y d ng ng d ng thu th p d li u t ng t c c website

DEMO

24


X y d ng ng d ng thu th p d li u t ng t c c website

Xin cảm ơn


  • Login