Pertemuan x data mining
Sponsored Links
This presentation is the property of its rightful owner.
1 / 47

Pertemuan X DATA MINING PowerPoint PPT Presentation


  • 99 Views
  • Uploaded on
  • Presentation posted in: General

Pertemuan X DATA MINING. 1. Apa Data Mining?. Data mining ( pencarian pengetahuan dari data) Mengekstrak secara otomatis pola atau pengetahuan yang menarik ( tidak sederhana , tersembunyi , tidak diketahui sebelumnya , berpotensi berguna ) dari data dalam jumlah sangat besar.

Download Presentation

Pertemuan X DATA MINING

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Pertemuan XDATA MINING

1


Apa Data Mining?

  • Data mining (pencarianpengetahuandari data)

    • Mengekstraksecaraotomatispolaataupengetahuan yang menarik (tidaksederhana, tersembunyi, tidakdiketahuisebelumnya, berpotensiberguna) dari data dalamjumlahsangatbesar.


Data Mining adalahusahapenemuanpengetahuandiintelejensiabuatan (bidangmachine learning) atauanalisisstatistikdenganmencariataumenemukanaturan-aturan, pola-poladanstrukturdarihimpunan data yang besar.


Mengapa Data Mining:Banjir Data

  • Twitter: 8000an tweet per detik 600 juta tweet per hari.

  • Facebook: 30 milyar item (link, status, note, fotodst) per bulan. 500 juta user menghabiskan 700 milyarmenit per bulandisitus FB.

  • Indomaret: 4500an gerai, asumsikan 3 transaksi per menit = 12 jutatransaksi per hari se Indonesia.

  • Kartukredit visa: berlakudi 200 negara. 10 ributransaksi per detik  850 jutatransaksi per hari.


ApaDatamining?

  • Namaalternatif: Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence dsb

  • Keuntunganbagiorganisasi yang menerapkan data mining?


KeuntunganDatamining

  • Perusahaan fokus ke informasi yg berharga di datawarehouse/databasenya.

  • Meramalkan masa depan  perusahaan dapat mempersiapkan diri


Contoh:

Midwest grocery chain menggunakan DM untukmenganalisisipolapembelian: saatpriamembelirotidihariKamisdanSabtu, merekajugamembeliminuman.

Analisislebihlanjut: pembeliinibelanjadiharikamisdansabtu, tapidiharikamisjumlah item lebihsedikit. Kesimpulan yang diambil: pembelimembeliminumanuntukdihabiskansaat weekend.

Tindaklanjut: menjualminumandenganharga full dihariKamisdanSabtu. Mendekatkanposisirotidanminuman.


Lanjutan..

CONTOH KASUS :

JikaAndamempunyaikartukredit, sudahpastiAndabakalseringmenerimasuratberisibrosurpenawaranbarangataujasa. Jika Bank pemberikartukreditAndamempunyai 1.000.000 nasabah, danmengirimkansebuah (hanyasatu) penawarandenganbiayapengirimansebesarRp. 1.000 per buahmakabiaya yang dihabiskanadalahRp. 1 Milyar!! Jika Bank tersebutmengirimkanpenawaransekalisebulan yang berarti 12x dalamsetahunmakaanggaran yang dikeluarkan per tahunnyaadalahRp. 12 Milyar!! Dari danaRp. 12 Milyar yang dikeluarkan, berapapersenkahkonsumen yang benar-benarmembeli? Mungkinhanya 10 %-nyasaja. Secaraharfiah, berarti 90% daridanatersebutterbuangsia-sia.


Lanjutan..

  • Dari contohkasusdiatasmerupakansalahsatupersoalan yang dapatdiatasioleh data mining darisekianbanyakpotensipermasalahan yang ada. Data mining dapatmenambang data transaksibelanjakartukredituntukmelihatmanakahpembeli-pembeli yang memangpotensialuntukmembeliproduktertentu. Mungkintidaksampaipresisi 10%, tapibayangkanjikakitadapatmenyaring 20% saja, tentunya 80% danadapatdigunakanuntukhallainnya.


Arsitektur dan Model Data Mining

Contoh

  • Prosesuntukmenemukan model ataufungsi yang menjelaskanataumembedakankonsepataukelas data dengantujuanuntukdapatmemprediksikelasdarisuatuobjek yang labelnyatidakdiketahui

  • Contoh : MendeteksiPenipuan

  • Tujuan : Memprediksikasuskecurangantransaksikartukredit.

    • Pendekatan :

      • Menggunakantransaksikartukreditdaninformasidilihatdariatribut account holder

        • Kapancutomermelakukanpembelian, Dengancaraapa customer membayar, sebarapasering customer membayarsecaratepatwaktu, dll

      • Berinama/tandatransaksi yang telahdilaksanakansebagaitransaksi yang curangatau yang baik. Inisebagaiatributklass ( the class attribute.)

      • Pelajari model untuk class transaksi

      • Gunakan model iniuntukmendeteksikecurangandenganmenelititransaksikartukreditpada account.


ContohAplikasi

Bank me-mining transaksi customer untukmengidentifikasi customer yang kemungkinanbesartertarikterhadapprodukbaru.

Setelahteknikinidigunakan, terjadipeningkatan20 kali lipatpenurunanbiayadibandingkandengancarabiasa.


Contoh Aplikasi

Perusahaan transportasimemining data customer untukmengelompokkan customer yang memilikinilaitinggi yang perludiprioritaskan.


Data Mining padaIndustri Retail

  • Industri Retail: besarnya data penjualan, sejarahbelanjapelanggan, dan lain-lain

  • Aplikasidari Retail data mining

    • Mengidentifikasiperilakupembelianpelanggan

    • Menentukankecenderunganpolabelanjapelanggan

    • Meningkatkanmutudarilayananpelanggan

    • Mencapaikepuasanpelanggan

    • Tingkatkanperbandingankonsumsibarang-barang

    • Mendisainkeefektifandistribusidantransportasibarang


Knowledge

Pattern Evaluation

Data Mining

Task-relevant Data

Selection

Data Warehouse

Pembersihan Data

Data Integration

Databases

ProsesDatamining


Data Mining dan Business Intelligence

Semakin mendukung

pengambilan keputusan

End User

PengambilanKeputusan

Business

Analyst

Presentasi Data

Teknik Visualiasi

Data Mining

Data

Analyst

Penemuan Informasi

Eksplorasi Data

Statistical Summary, Querying, and Reporting

Data Preprocessing/Integrasi, Data Warehouses

DBA

Sumber Data

Database, Web, Paper, Files, Web, eksperimen


Data Mining: Multi DisiplinIlmu

Teknologi DB

Statistik

Data Mining

Visualisasi

Machine

Learning

Pattern

Recognition

Ilmu Lain

Algoritma


Mengapatidakanalisis data biasa?

  • Jumlah data yang sangatbesar

    • Algoritmaharus scalable untukmenangani data yang sangatbesar (tera)

  • Dimensi yang sangatbesar: ribuan field

  • Data Kompleks

    • Aliran data dan sensor

    • Data terstruktur, graph, social network, multi-linked data

    • Database dariberbagaisumber, database lama

    • Spasial (peta), multimedia, text, web

    • Software Simulator


Data Mining dariberbagaisudutpandang

  • Data

    • Relational, datawarehouse,web, transactional, stream, OO, spacial, text, multimedia

  • Pengetahuan yang akanditambang

    • Karakterisitik, diskriminasi, asosiasi, klasifikasi, clustering, trend, outlier

  • Teknik

    • Database, OLAP, machine learning, statistik, visualiasi

  • Penerapan

    • Retail, telekomunikasi, banking, analisiskejahatan, bio-data mining, saham, text mining, web mining


Model dalam Data Mining

  • Verification Model

    • Model inimenggunakan (hypothesis) daripengguna, danmelakukan test terhadapperkiraan yang diambilsebelumnyadenganmenggunakan data-data yang ada.

    • Model verifikasimenggunakanpendekatantop downdenganmengambilhipotesadari user danmemeriksavaliditasnyadengan data sehinggabisadibuktikankebenaranhipotesatersebut.


Model dalam Data Mining

  • Discovery Model

    • Padadirected knowledge discovery, data mining akanmencobamencaripenjelasannilai target field tertentu (sepertipenghasilan, respons, usia, dan lain-lain) terhadap field-field yang lain.

    • Padaundirected knowledge discoverytidakada target field karenakomputerakanmencaripola yang adapada data. Jadiundirected knowledge discoverydigunakanuntukmengenalihubungan/relasi yang adapada data sedangkan directed discovery akanmenjelaskanhubungan/relasitersebut.


Data Mining: Data apasaja?

  • Database Tradisional

    • Relational database, data warehouse, transactional database

  • Advanced Database

    • Data streams dan data sensor

    • Time-series data, temporal data, sequence data (incl. bio-sequences)

    • Structure data, graphs, social networks and multi-linked data

    • Object-relational databases

    • Heterogeneous databases dan legacy databases

    • Spatial data dan spatiotemporal data

    • Multimedia database

    • Text databases

    • World-Wide Web


Top-10 Algorithm di ICDM’06

  • #1: C4.5 (61 votes)

  • #2: K-Means (60 votes)

  • #3: SVM (Support Vector Machine)(58 votes)

  • #4: Apriori (52 votes)

  • #5: EM (Expectation Maximization) (48 votes)

  • #6: PageRank (46 votes)

  • #7: AdaBoost (45 votes)

  • #7: kNN (45 votes)

  • #7: Naive Bayes (45 votes)

  • #10: CART (Classification and Regression Tree)(34 votes)


Aplikasi Data Mining

Pemasaran/ Penyewaan

  • Identifikasi pola pembayaran pelanggan

  • Menemukan asosiasi diantara karakteristik demografik pelanggan

  • Analisis keranjang pemasaran

    Perbankan

  • Mendeteksi pola penyalahgunaan kartu kredit

  • Identifikasi pelanggan yang loyal

  • Mendeteksi kartu kredit yang dihabiskan oleh kelompok pelanggan

    Asuransi & Pelayanan Kesehatan

  • Analisis dari klaim

  • Memprediksi pelanggan yang akan membeli polis baru

  • Identifikasi pola perilaku pelanggan yang berbahaya


Aplikasi Data Mining

  • Analisa Perusahaan danManajemenResiko

    • PerencanaanKeuangandanEvaluasiAset

    • PerencanaanSumberDaya (Resource Planning)

    • Persaingan (competition)  Competitive Intelligence

  • Telekomunication

    • menerapkan data mining untukmelihatdarijutaantransaksi yang masuk, transaksimanasaja yang masihharusditanganisecara manual (dilayaniolehorang).


Fungsi Data Mining

1. Fungsi Minor ataufungsitambahan

* Deskription (deskripsi)

* Estimation (estimasi)

* Prediction (prediksi)

2. Fungsi Mayor ataufungsiutama

* Classification (klasifikasi)

* Clustering (pengelompokan)

* Association (asosiasi)


Fungsi Minor

  • Deskripsi

  • Terkadangpenelitidananalissecarasederhanainginmencobamencaricarauntukmenggambarkanpoladankecendrungan yang terdapatdalam data yang dimiliki.

  • Estimasi

  • Estimasihampirsamadenganklasifikasi, kecualivariabel target estimasilebihkearahnumerikdaripadakearahkategori. Model dibangunmenggunakan record lengkap yang menyediakannilaidarivariabel target sebagainilaiprediksi.

  • Prediksi

  • Prediksihampirsamadenganklasifikasidanestimasi, kecualibahwadalamprediksinilaidarihasilakanadadimasamendatang.


Fungsi Mayor

  • Klasifikasi

  • Dalamklasifikasiterdapat target variabelkategori, misalpenggolonganpendapatandapatdipisahkandalamtigakategori, yaitutinggi, sedangdanrendah.

  • Pengklusteran

  • Pengklusteranmerupakanpengelompokan record, pengamatan, ataumemperhatikandanmembentukkelasobjek-objek yang memilikikemiripan.

  • Asosiasi

  • Tugasasosiasi data miningadalahmenemukanatribut yang munculdalamsatuwaktu. Dalamduniabisnislebihumumdisebutanalisiskeranjangbelanja


Data Mining Menggunakan Business Intelligence


Decision Tree


Naive Bayes


Clustering


FUNGSI MINOR


1. Description

  • DeskripsiGrafis

    * Diagram Titik

    * Histogram

  • DeskripsiLokasi

    * Rata-rata

    * Median

    * Modus

    * Kuartil, DesildanPersentil

  • DeskripsiKeberagaman

    • Range (rentang)

    • VariansdanStandarDeviasi


Diagram Titik


Histogram


1

N

=

Xi

Rata-rata

  • adalahnilaitunggal yang dianggapdapatmewakilikeseluruhannilaidalam data


Median

  • adalahnilaitengahdari data yang adasetelah data diurutkan


Modus

  • adalahnilai yang paling seringmunculdalam data


Kuartil, DesildanPersentil

  • Adalahnilai-nilai yang membagiseperangkat data yang telahterurutmenjadibeberapabagian yang sama


Range (rentang)

NilaiJarak= NilaiMaksimum – Nilai Minimum


VariansdanStandarDeviasi


2.Estimation

  • Rata-rata sampelsebagaiestimasi rata-rata populasi

  • Varianssampelsebagaiestimasivarianspopulasi

  • StandarDeviasisampelsebagaistandardeviasipopulasi


3.Prediction

  • Regresi Linier Sederhana

  • Regresi Linier Berganda


Regresi Linier Sederhana

Y’ = a + b X

a = Y pintasan, ( nilai Y’ bila X = 0)

b = kemiringangarisregresi

X = nilaitertentudarivariabelbebas

Y’= nilai yang dihitungpadavariabel

tidakbebas.


Regresi Linier Berganda


  • Login