Introduction datamining
Sponsored Links
This presentation is the property of its rightful owner.
1 / 27

Introduction Datamining PowerPoint PPT Presentation


  • 146 Views
  • Uploaded on
  • Presentation posted in: General

Introduction Datamining. Taufiq Hidayat, MCS (disampaikan dalam Seminar DATAMINING, 10 Mei 2008, FTI – UII). Datamining (Sudut Pandang Komersial). Banyak data : dikumpulkan dan di-‘gudang‘-kan Data web, e-commerce Data penjualan di supermarket, dept. Store Transaksi bank/kartu kredit

Download Presentation

Introduction Datamining

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Introduction Datamining

Taufiq Hidayat, MCS

(disampaikan dalam Seminar DATAMINING,

10 Mei 2008,

FTI – UII)


Datamining (Sudut Pandang Komersial)

  • Banyak data : dikumpulkan dan di-‘gudang‘-kan

    • Data web, e-commerce

    • Data penjualan di supermarket, dept. Store

    • Transaksi bank/kartu kredit

    • Data nilai mahasiswa dan alumni

  • Komputer : lebih murah dan lebih powerful

  • Tekanan persaingan yang kuat

Taufiq Hidayat, MCS


Datamining (Sudut Pandang Sains)

  • Data dikumpulkan dan disimpan dg kecepatan tinggi (GB/jam)

    • Sensor dari satelit

    • Teleskop menangkap benda langit

    • Ekspresi gen manusia

  • Teknik-teknik tradisional tidak dapat diterapkan

  • Membantu saintis:

    • Klasifikasi dan segmentasi data

    • Membuat hipotesa

Taufiq Hidayat, MCS


Datamining Data “besar”

  • Motivasi:

    • Informasi ‘tersembunyi’ dalam data, yang tidak terbaca

    • Analisa manual : butuh waktu

    • Banyak data yang tidak teranalisis.

    • Pertanyaan : Bagaimana melakukan analisis data?

Taufiq Hidayat, MCS


Datamining dan Knowledge Discovery

Taufiq Hidayat, MCS


Definisi Datamining

  • Pensarian informasi yg implisit, belum diketahui, dan kemungkinan berguna, yang diperoleh dari data

  • Penggalian dan analisis (dg alat otomatis atau semi-otomatis) terhadap himpunan data yg besar utk menemukan pola-pola yang bermakna.

Taufiq Hidayat, MCS


Bukan Datamining:

Melihat nomor telpon di buku telpon

Query web dg Search Engine, dg kata kunci “amazon”

Datamining:

Beberapa nama pelanggan lebih banyak tinggal di propinsi tertentu

Pengelompok web dari search engine berdasarkan konteks. (Mis. Sungai Amazon, hutan hujan Amazon, Amazon.com)

Definisi Datamining

Taufiq Hidayat, MCS


Asal-usul Datamining

  • Menggabungkan ide-ide dari Machine Learning, Pengenalan Pola, Statistik, dan Sistem Database

  • Teknik biasa tdk cocok karena:

    • Besarnya data

    • Dimensi data yg tinggi

    • Data tersebar dan heterogen

Taufiq Hidayat, MCS


Tugas Datamining

  • Metode Prediksi:

    • Penggunaan beberapa variabel untuk memperkirakan nilai di masa depan atau tidak diketahui dari variabel lain

    • Menekankan kemampuan utk memprediksi nilai, dibanding “gambaran data”

  • Metode Deskripsi:

    • Penemuan pola-pola yg dapat ditafsirkan secara manusiawi yang menggambarkan data.

    • Lebih menekankan “gambaran data”

Taufiq Hidayat, MCS


Tugas Datamining

  • Metode Prediksi:

    • Klasifikasi

    • Regresi

    • Deteksi Deviasi

  • Metode Deskripsi:

    • Clustering

    • Penemuan Association Rules

    • Penemuan Pola Sekuensial

Taufiq Hidayat, MCS


Klasifikasi

Taufiq Hidayat, MCS


Klasifikasi

  • Diberikan himpunan record (data pelatihan)

    • Setiap record berisi sekumpulan atribut, salah satu atribut disebut sebagai atribut Kelas

  • Mencari sebuah model untuk atribut kelas sebagai fungsi dari atribut-atribut yang lain

  • Tujuan : menentukan kelas dari record yang belum diketahui seakurat mungkin.

Taufiq Hidayat, MCS


Klasifikasi (Penerapan)

  • Pemasaran

    • Tujuan : Mengurangi biaya pengiriman pos dengan sasaran adalah pelanggan-pelanggan yang akan kemungkinan membeli produk HP baru

    • Pendekatan:

      • Menggunakan data produk serupa yang diperkenalkan sebelumnya

      • Diketahui pelanggan yang beli dan yang tidak beli. Data ini dinyatakan sebagai atribut kelas.

      • Mengumpulkan data tentang pelanggan berkaitan dengan data kependudukan, gaya hidup, pekerjaan, dll.

        • Contoh: jenis bisnis, tempat tinggal, besar pendapatan, dll.

      • Informasi ini digunakan sebagai data pelatihan

Taufiq Hidayat, MCS


Klasifikasi (Penerapan)

  • Deteksi Kecurangan

    • Tujuan : Memperkirakan kecurangan dalam transaksi dengan kartu kredit

    • Pendekatan:

      • Menggunakan transaksi yang pernah dilakukan dan informasi dari pemegang kartu kredit.

        • Contoh: kapan berbelanja, apa yang dibeli, ketepatan waktu pembayaran, dll.

      • Penentuan apakah setiap transaksi curang atau tidak curang atribut kelas

      • Data transaksi digunakan sebagai data pelatihan

Taufiq Hidayat, MCS


Clustering (Definisi)

  • Diberikan himpunan titik (record) data, yang masing-masing mempunyai atribut-atribut dan pengukuran kesamaan utk setiap atribut.

  • Mencari cluster-cluster sehingga:

    • Titik data dalam satu cluster : lebih serupa.

    • Titik data di cluster berbeda : lebih tidak serupa

Taufiq Hidayat, MCS


Clustering (Definisi)

  • Pengukuran Kesamaan, dapat berupa:

    • Jarak Euclidean, jika atribut bernilai kontinyu

    • Pengukuran lain, spesifik tergantung problem.

Taufiq Hidayat, MCS


Clustering (Ilustrasi)

  • Clustering data 3 atribut, masing-masing atribut bernilai real.

Taufiq Hidayat, MCS


Clustering (Contoh Aplikasi)

  • Clustering terhadap dokumen:

    • Tujuan:

      • Menemukan kelompok-kelompok dokumen yang serupa didasarkan pada istilah-istilah penting yang muncul di dalam dokumen-dokumen tersebut

    • Hasil:

      • Dapat digunakan untuk menentukan cluster dari sebuah dokumen baru.

Taufiq Hidayat, MCS


Association Rules (Definisi)

  • Diberikan himpunan record yang masing-masing berisi sejumlah item.

  • Menghasilkan aturan ketergantungan yang memperkirakan kemunculan sebuah item didasarkan kemunculan dari item-item yang lain.

Taufiq Hidayat, MCS


Association Rules (Contoh)

  • {Coke}  {Milk}

  • {Diaper, Beer}  {Milk}

Taufiq Hidayat, MCS


Pola Sekuensial (Definisi)

  • Mirip dengan Association Rules

  • Perbedaan:

    • Association Rules:

      • Didasarkan pada kemunculan item

    • Pola Sekuensial:

      • Didasarkan pada urutan kejadian

Taufiq Hidayat, MCS


Pola Sekuensial (Contoh)

  • Di sebuah toko buku:

    (“Introducation to Visual C++”)

    (“C++ Primer”)  (“Perlu for Dummies”)

    • diartikan:

      Seseorang yang membeli buku “Introduction to Visual C++”, yang beberapa hari berikutnya membeli buku “C++ Primer”, maka nanti akan membeli juga buku “Perl for Dummies”.

Taufiq Hidayat, MCS


Pola Sekuensial (Contoh)

  • Di sebuah toko alat-alat olahraga:

    (Sepatu) (Raket, Bola Tenis)

     (Jaket Olahraga)

    • diartikan:

      Seseorang yang membeli Sepatu, dan berikutnya membeli Raket dan Bola Tenis, maka dia akan membeli Jaket Olahraga

Taufiq Hidayat, MCS


Regresi

  • Definisi:

    • Memperkirakan nilai sebuah variabel kontinyu berdasarkan pada nilai variabel-variabel yang lain.

  • Dipelajari dalam Statistik dan Neural Network.

  • Contoh:

    • Prediksi harga saham berdasarkan waktu

    • Prediksi jumlah penjualan produk baru berdasarkan biaya iklan

    • Prediksi kecepatan angin berdasarkan kelembaban, suhu, tekanan udara.

Taufiq Hidayat, MCS


Deteksi Anomali/Kelainan

  • Definisi:

    • Menemukan kelainan yg signifikan dari perilaku yang normal.

  • Contoh:

    • Deteksi pencurian kartu kredit

    • Deteksi penyusup dalam jaringan komputer

Taufiq Hidayat, MCS


Software Datamining

  • SAS Enterprises Miner

  • SPSS Clementine

  • Insightful Miner

  • Oracle Darwin

  • Angoss KnowledgeSTUDIO

Taufiq Hidayat, MCS


Datamining di Database

  • Oracle 9i: Darwin

  • Microsoft SQL Server

  • IBM Intelligent Miner V7RI

  • Keuntungan:

    • Meminimumkan perpindahan data

    • One stop shopping

  • Negatifnya:

    • Terbatas pada fasilitas yg disediakan

    • Aplikasi lain berkendala mengakses

Taufiq Hidayat, MCS


  • Login