190 likes | 309 Views
Data Mining. Arrianto Mukti Wibowo, 2003 Sumber penulisan: Turban & Aronson, “Decision Support Systems and Intelligent Systems”, chap. 4 Robert Groth, “Data Mining: Building Competitive Advantage”, chap 2. Alasan. Dulu analisa data dilakukan dengan cara memasukkannya ke dalam model.
E N D
Data Mining Arrianto Mukti Wibowo, 2003 Sumber penulisan: Turban & Aronson, “Decision Support Systems and Intelligent Systems”, chap. 4 Robert Groth, “Data Mining: Building Competitive Advantage”, chap 2
Alasan • Dulu analisa data dilakukan dengan cara memasukkannya ke dalam model. • Hubungan antar variabel jelas! • Tapi ada kasus, kita tidak tahu hubungan antar variabel…
Data Mining • Term used to describe knowledge discovery in databases. • Includes: • Knowledge extraction • Data pattern processing, etc. • Automatic discovery even by non-programmers
Karakteristik • Sumber data terkubur dalam data historis yang besar. • Usernya kebanyakan adalah end-user. • Karena ukuran data historis yang besar, sering menggunakan paralel processing. • Sering menghasilkan “unexpected result”, hasil yang tak disangka-sangka…
Beberapa Aplikasi • Analisa kebangkrutan: • Menggunakan neural net untuk menganalisa performa keuangan perusahaan, dan memprediksi kebangkrutannya • Help-desk application: • Menggunakan case based reasoning (seperti expert system), untuk menemukan kasus serupa yang pernah terpecahkan masalahnya dari sekitar 50.000 kasus sebelumnya.
Common types of information from data mining • Classification • Clustering • Association • Sequencing • Forecasting
Classification • Infers the defining characteristics of a certain groups • Example: customers who have been lost to competition • Istilah penting: • Study: ruang lingkup data mining • Goal: pertanyaan tanpa harus ada korelasi antar variabel
Contoh goal di sebuah perusahaan telco: “I want to understand what makes customers likely to keep being my customers or leave” • Dataset yang tersedia dibeberkan sampai ke tingkat customer, dengan atribut • Customer ID • Cust_Type: loyal, lost (dependant variable) • Time_used: penggunaan telepon per bulan average • Survey_result: hasil feedback form • Type_service: jenis layanan yang dipakai • Area: lokasi customer • Trend penggunaan telepon
Clustering • Unsupervised learning: we do not tell the computer anything about the variables • Process of dividing a set of data into distinctive groups. • Sangat berguna untuk memahami karakeristik pelanggan • Clusters are generated automatically • Kita bisa menentukan signifikansi dari setiap cluster
Example: Clustering of Car Sales Cluster 1 Income: High Children: 1 Car: Luxury Cluster 4 Income: Medium Children: 2 Car: Sedan Cluster 3 Income: Medium Children: 3 Car: MPV Cluster 2 Income: Low Children: 0 Car: Compact
Example: Price vs Product-Line High Price McDonalds Lotus KFC Ichiban Limited menu variety More menu variety Warteg TaKorFISIP UI Mie Ayam Low Price
Association (Market Basket) • Terutama dipakai untuk menentukan, “Kalau customer membeli produk A, maka kemungkinan produk B terbeli juga adalah …%” • Contoh: • Cereal dengan susu • DVD player dengan piringan film DVD • Tapi asosiasi juga bisa untuk menganalisa hal lain seperti: • Hubungan antara demografi dengan produk terjual
Assortment Optimization • Proses menentukan produk-produk apa yang akan kita jual • Semakin beraneka, harusnya semakin menguntungkan • Tapi semakin beraneka, akan ada yang saling mensubtitusi keuntungan berkurang • Padahal semakin beraneka produk yang dijual, carrying cost dan COGS makin besar.
Sales volume & cost vs. product variety Sales Cost Gross Margin Dollars Variety of products
Padahal kita harus menentukan produk mana yang akan kita • Tambahkan • Hilangkan Dari etalase kita • Masing-masing memiliki dampak pada sales dan biaya • Harus dicari titik yang paling menguntungkan!
Sequencing • Mirip dengan asosiasi, tetapi berkaitan dengan waktu • Misalnya: • Kunjungan berulang ke sebuah gerai/toko/supermarket dalam waktu yang berbeda
Text Mining • Serupa dengan “text retrieval”
Tips dalam Data Mining • Anda harus memahami domain masalah • Sangat dianjurkan untuk memahami statistik • Tidak mungkin membuat implementasi dan mengoperasikan data mining dengan benar, tanpa memahami domain masalah. • Mengapa?