X y d ng ng d ng thu th p d li u t ng t c c website
This presentation is the property of its rightful owner.
Sponsored Links
1 / 25

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website PowerPoint PPT Presentation


  • 126 Views
  • Uploaded on
  • Presentation posted in: General

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website. HỘI ĐỒNG 2 - HỆ THỐNG THÔNG TIN Chủ tịch: TS. Võ Thị Ngọc Châu GVPB: ThS. Nguyễn Văn Đoàn GVHD: ThS. Đặng Trần Trí ---ooo---

Download Presentation

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

HỘI ĐỒNG 2 - HỆ THỐNG THÔNG TIN

Chủ tịch:TS. Võ Thị Ngọc Châu

GVPB: ThS. Nguyễn Văn Đoàn

GVHD:ThS. Đặng Trần Trí

---ooo---

SVTH 1:Nguyễn Trung Kiên - 50501352

SVTH 2:Lê Quang Minh - 50501668


Mục lục

Giới thiệu đề tài

Phân tích và thiết kế

Hiện thực ứng dụng

Tổng kết

Demo


1. Giới thiệu đề tài

  • Đặt vấn đề

  • Yêu cầu

    • Tìm hiểu về các kỹ thuật thu thập dữ liệu tự động từ các website

    • Hiện thực một giải pháp cụ thể để thu thập chúng

  • Mục tiêu

    • Xây dựng được một ứng dụng thu thập dữ liệu tự động

    • Ứng dụng phải có khả năng mở rộng, tùy biến để có thể sử dụng với nhiều website khác nhau


2. Phân tích và thiết kế

Web Crawler


2. Phân tích và thiết kế

  • Web Scraper

  • Ứng dụng cần xây dựng chính là một Web Scraper

Extract

Web crawling


2. Phân tích và thiết kế

  • Hướng tiếp cận

    • Tùy biến được (cần sự can thiệp của người sử dụng)

    • Giải quyết được các mô hình website cụ thể

  • Các vấn đề cần giải quyết

    • Lấy nội dung các trang web

    • Trích xuất dữ liệu từ nội dung có được

    • Đặc tả các thông tin đầu vào


2. Phân tích và thiết kế

  • Phân loại các trang web theo cách thức chuyển trang

    • Loại I

      • Sử dụng HTTP GET, POST thông thường

      • Các mã client-side không ảnh hưởng đến việc lấy nội dung trang mới cũng như chính nội dung này

    • Loại II

      • Không thể lấy được nội dung trang mới chỉ bằng HTTP GET, POST thông thường

      • Các mã client-side có ảnh hưởng đến việc lấy nội dung trang mới hoặc đến chính nội dung này


2. Phân tích và thiết kế

  • Thiết kế: hai module chính

    • Crawler

      • Lấy nội dung các trang web

    • Extractor

      • Trích xuất dữ liệu từ nội dung lấy được

        • Dữ liệu người dùng muốn thu thập

        • Dữ liệu cần thiết cho việc lấy nội dung web page tiếp theo (chuyển trang)


2. Phân tích và thiết kế

Kiến trúc


2. Phân tích và thiết kế


2. Phân tích và thiết kế

Sơ đồ hoạt động tổng quát


Mục lục

  • Giới thiệu đề tài

  • Phân tích và thiết kế

  • Hiện thực ứng dụng

  • Tổng kết

  • Demo


3. Hiện thực ứng dụng

  • Tính năng của ứng dụng

    • Giải quyết được các trang sử dụng kỹ thuật chuyển trang thuộc loại I và II

    • Các tính năng mở rộng:

      • Session, Cookie

      • HTTP Authentication, Form Authentication

      • Proxy, sleep

      • Xử lý bổ sung trên dữ liệu sau khi trích xuất được


3. Hiện thực ứng dụng

  • Mô hình ứng dụng

  • Server

    • HĐH: Microsoft Windows

    • Ngôn ngữ lập trình: PHP, Java

    • Môi trường thực thi:

      • AMP (Apache-MySQL-PHP)

      • JRE (Java Runtime Environment)

  • Client

    • Chỉ cần có trình duyệt

14


Cấu trúc cơ sở dữ liệu

15


3. Hiện thực ứng dụng

  • Crawler

17


3. Hiện thực ứng dụng

  • Extractor

18

18


4. Tổng kết

  • Kết quả đạt được

    • Lý thuyết:

      • Tìm hiểu được các kỹ thuật thu thập dữ liệu Web

      • Tìm hiểu được các công nghệ Web hiện tại

    • Ứng dụng:

      • Xây dựng thành công ứng dụng có khả năng thu thập dữ liệu các trang web từ đơn giản cho đến tương đối phức tạp, một cách tự động

      • Ứng dụng có khả năng mở rộng và phát triển lên cao


4. Tổng kết

  • Hạn chế

    • Viết file đặc tả cấu hình XML còn khó khăn

    • Người sử dụng cần có kiến thức về Expression, XPath, Selector, và cũng phải nắm được cấu trúc của trang web cần thu thập dữ liệu

    • Khả năng lấy dữ liệu trên các trang có sự chuyển trang sử dụng javascript còn hạn chế


4. Tổng kết

  • Hướng phát triển

    • Xây dựng công cụ hỗ trợ người dùng tạo đặc tả đầu vào XML

    • Nghiên cứu các thư viện khác hỗ trợ tốt hơn trong việc xử lý các trang web có javascript


Tài liệu tham khảo

  • Tài liệu viết

    • Michael Schrenk (2007). Webbots, Spiders, and Screen Scrapers. No Starch, San Francisco, USA.

    • Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Web. Computer Science Department, Stanford University, USA.

    • Steve Lawrence, C. Lee Giles (1998). Searching the World Wide Web. Science, 280(5360):98.

    • Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing Hidden Value. University of Michigan, USA.

    • Stephen Soderland. Learning to Extract Text-based Information from the World Wide Web. Department of Computer Science & Engineering, University of Washington.


Tài liệu tham khảo

  • Website

    • Wikipedia, http://www.wikipedia.org (01-2010)

    • World Wide Web Consortium (W3C), http://www.w3.org (01-2010)

    • HTML Tidy project, http://tidy.sourceforge.net/ (01-2010)

    • cURL project, http://curl.haxx.se/ (01-2010)

    • CodeIgniter Framework, http://codeigniter.com/ (01-2010)

    • Mozenda software, http://www.mozenda.com/ (01-2010)


DEMO

24


Xin cảm ơn


  • Login