Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi
This presentation is the property of its rightful owner.
Sponsored Links
1 / 28

Doğrudan Pazarlama Modellerİ İçİn SInIflandIrma Yöntemlerİnİn KarşIlaştIrIlmasI PowerPoint PPT Presentation


  • 184 Views
  • Uploaded on
  • Presentation posted in: General

Doğrudan Pazarlama Modellerİ İçİn SInIflandIrma Yöntemlerİnİn KarşIlaştIrIlmasI. YAEM 2010 . 30/06/2010. Ekrem Duman 1 , Yeliz Ekinci 1 , Aydın Tanrıverdi 1 , Natali Maya Kan 1 , Ferhat Yücel 2 1 Dogus Universit esi , Acıbadem, Istanbul 2 Intertech A.Ş., Gayrettepe, Istanbul. İçerik. Amaç

Download Presentation

Doğrudan Pazarlama Modellerİ İçİn SInIflandIrma Yöntemlerİnİn KarşIlaştIrIlmasI

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

Doğrudan Pazarlama ModellerİİçİnSInIflandIrmaYöntemlerİnİnKarşIlaştIrIlmasI

YAEM 2010

30/06/2010

Ekrem Duman1, Yeliz Ekinci1, Aydın Tanrıverdi1, Natali Maya Kan1, Ferhat Yücel2

1Dogus Universitesi, Acıbadem, Istanbul

2Intertech A.Ş., Gayrettepe, Istanbul


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

İçerik

Amaç

GİRİŞ

İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR

Lojistik Regresyon

Yapay Sinir Ağları

Chaid (otomatik ki-kare etkileşim belirleyicisi )

İKİLİ SINIFLANDIRMALAR İÇİN PERFORMANS KRİTERLERİ

DENEYSEL SONUÇLAR

SONUÇLAR VE İLERİKİ ARAŞTIRMALAR

YAEM 2010

30/06/2010


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

Amaç

Belirli bir ürünü alan ya da almayan banka müşterilerinin sınıflandırılması için uygun metotlar


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

Giriş

  • Müşterileri alıcı ve alıcı olmayan diye sınıflara ayırma problemi, düşük yanıt oranı nedeniyle, doğrudan pazarlama verileri toplam veri sayısına oranla çok az pozitif örnek içerirlerverideki sınıflar arası farklılık problemi

  • Lojistik regresyon, Yapay sinir ağları, CHAID yöntemleri değişik derecelerde veriler arası sınıf farklılıklarına sahip; aynı zamana ait öğrenme, test kümelerine ve farklı bir zamana ait veri kümesine uygulanmıştır.


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

Giriş

Bankacılık endüstrisinde, bankalar müşterilerinin işlemleriyle ilgili çok yüksek sayıda veri tutmakla

Bu durum bankaların müşterilerinin gelecekteki davranışlarıyla ilgili tahminde bulunmalarına olanak sağlamaktadır.


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

Giriş

Modellerin performansları doğruluk(accuracy), AUC (eğri altındaki alan), isabet oranı (hit ratio), kaldıraç oranı (lift), ve yakalama oranı (capture) ile değerlendirilmiştir.

Literatürde modelleri değerlendirmek için genel olarak AUC ve accuracy performans ölçüleri kullanılmaktadır.

Biz bu çalışmada, başka bir zamana ait veri seti için alma ihtimali yüksek olarak tahmin edilen üst yüzdelikler için isabet oranının ve dolayısıyla kaldıraç oranı ve yakalama oranının kullanılmasını öneriyoruz.


K l siniflandirma n algor tmalar

İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR.

Lojistik regresyon.

Lojistik regresyon modellerinde bağımlı değişken iki ya da ikiden fazla düzeye sahip kategorik değişkenlerdir. Bağımsız değişken ise kategorik ya da nümerik olabilir.

Lojistik regresyon sınıflandırma problemi için risk tahmin modellerinde, finansal sınıflandırma modellerinde ve özellikle doğrudan pazarlama modellerinde oldukça popülerdir.


K l siniflandirma n algor tmalar1

İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR

Yapay Sinir Ağları

YSA insan beyninden esinlenerek geliştirilmiş, ağırlıklı bağlantılar aracılığı ile birbirine bağlanan işlem elemanlarından oluşan paralel ve dağıtılmış bilgi işleme yapılarıdır.

En önemli özelliği, deneyimlerden (tecrübe) yararlanarak öğrenebilmesidir. Böylece, öğrenen yapay sinir ağı, yeni değerlerle karşılaştığında, öğrenme sırasında girdilere atanan ağırlıkları kullanarak çıktı değerlerini bulur.


K l siniflandirma n algor tmalar2

x1

y

xn

İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR

bir saklı katmana sahip yapay sinir ağı yapısı.


K l siniflandirma n algor tmalar3

İKİLİ SINIFLANDIRMA İÇİN ALGORİTMALAR

CHAID

CHAID bir karar ağacı yapısıdır. Tüm veri setinden başlayarak alt kümeler arka arkaya iki ya da daha fazla alt düğüme ayrılır.

CHAID her altbölüm için, hangi değişkenin sonuç değişkenini en iyi şekilde tahmin ettiğine ve hangi değişkene göre ayrım yapacağına dair kararı ki-kare testi kullanarak yapar.

Chaid algoritmasının doğrudan pazarlama konusundaki performansı kanıtlandığı için biz de Chaid algoritmasını uyguladık.


K l siniflandirma n performans l tler

İKİLİ SINIFLANDIRMA İÇİN PERFORMANS ÖLÇÜTLERİ

Table 1- The confusion matrix (karışıklık matrisi)


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

İKİLİ SINIFLANDIRMA İÇİN PERFORMANS ÖLÇÜTLERİ

Hit rate, doğru olarak pozitif etiketlenmiş örnek sayısının toplam pozitif olarak etiketlenmiş örnek sayısına oranıdır.

Hit rate: TP/(TP+FP)


K l siniflandirma n performans l tler1

İKİLİ SINIFLANDIRMA İÇİN PERFORMANS ÖLÇÜTLERİ

Accuracybir sınıflandırıcının tüm veri için doğru tahmin oranını gösterir.

Accuracy: (TP+TN)/(TP+FN+FP+TN)

Accuracy, pozitif olan bir örneğe negatif demekle, negatif olan bir örneğe pozitif demenin maliyetini aynı aldığı için bazı durumlarda uygun bir performans ölçütü olmayabilir.

Capture rate,doğru olarak tahmin edilen pozitif örneklerin sayısının veri içindeki gerçek pozitif örnek sayısına oranıdır.

Capture rate: TP / (TP+FN)


K l siniflandirma n performans l tler2

İKİLİ SINIFLANDIRMA İÇİN PERFORMANS ÖLÇÜTLERİ

Eğri altındaki alan(AUC) sınıflandırıcının yanlış sınıflandırma yapmamadaki yeteneğini gösterir. AUC, rassal olarak seçilen pozitif bir örneğin rassal seçilen negatif bir örneğe göre daha üstte sıralanma olasılığını tahmin etmeyi sağlar.

Sınıflandırmayı mükemmel yapabilen bir modelin alan indexi 1.0 iken, Ayırma gücü hiç olmayan bir model 0.5 alan indexine sahiptir. Daha yüksek AUC’ ye sahip olan model diğerlerine göre daha iyi bir performans göstermiş olur.

Lift rate, Verilen bir ondalık dilim için, sınıflandırıcının belirlediği TP sayısının hiç model olmadığında o dilime düşmesi beklenen pozitif örnek sayısına oranıdır.


Deney sonu lar

Deney sonuçları

Doğrudan pazarlamada, bütçe kısıtlarından dolayı bütün müşterilere değil sadece alma olasılığı üst sıralarda olan müşterilere ulaşılır.

Modelin tüm verideki performansı, modelin bu amaca yönelik başarısını göstermeyebilir.

Bu çalışmada modellerin performansları üst yüzde bir, yüzde beş ve yüzde onluk dilimlerde ölçülmüştür.


Deney sonu lar1

Deney sonuçları

Orijinal örneklem veri, 897 pozitif örnek (ürünü alan) ve 4486 negatif örnek (ürünü almayan) içermektedir.

Bu veri setini, eğitim kümesi(yüzde 70) ve test kümesi (yüzde 30) olarak ikiye ayırdık.

Değişik sınıflar arası veri farklılığı durumlarında en başarılı modeli bulmak için değişik farklılık durumları oluşturduk.


Deney sonu lar2

Deney sonuçları

Table 2 - Number of positive and negative records for different imbalance cases.


Deney sonu lar3

Deney sonuçları

Modellerin performansları tüm veri setinde doğruluk oranı ve AUC ile ölçülürken, yüksek alma olasılığına sahip dilimler için hit ratio, lift ve capture kullanılmıştır.

Üst % 1, % 5ve% 10’ luk sonuçlar değişik algoritmaların verdiği değişik satınalma olasılıklarının azalan olarak sıralanması sonucu oluşturulmuştur.


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

Deney sonuçları

  • En üst % 1 lik dilimde her denge durumunda logistic regresyonun en iyi sonucu verdiği görülmektedir.

  • Üst yüzde beş dilimde 1:1,1:2,1:3,1:5 sınıflar arası veri farklılığı için lojistik regresyon en yüksek performans değerlerine sahiptir, fakat yapay sinir ağları 1:6 ve 1:10 durumlarında daha iyi sonuç vermiştir.

  • % 10 luk veri için , YSA üç defa en iyi sonucu vermiştir.

  • Bütün veri setinde, 1:1, 1:2, 1:3, durumları için AUC ve doğruluk oranı aynı algoritmayı en iyi olarak seçmiştir. Sınıflar arası farklar arttıkça, iki performans ölçütüne göre sonuçlar da değişmiştir.


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

Deney sonuçları

Literatürde doğruluğun, sınıflandırma için en uygun performans ölçütü olduğu belirtilse de, bu genelleme, en üst % 1, 5 ve 10’luk dilimlerdeki başarım sonuçlarıyla çatışmaktadır.

Örneğin, 1:1 durumunda CHAID en iyi sonucu vermiş gibi gözükmektedir (AUC’ye göre) ancak ilk 17 müşterinin tahminine baktığımızda, (1%) lojistik regresyon ve YSAnın daha iyi sonuç verdiği görülmüştür (17/17 ve 16/17).


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

Deney sonuçları

  • Bu çalışma öğrenme kümesi ve test kümesinin dışında model başarısının ayrı bir veri kümesinde ölçülmesi gerektiğini vurgulamaktadır.

  • Bu sebeple, modelin başarısı bu veri seti için üst yüzde 1, 5 ve 10luk dilimlerde ölçülmüştür (1702, 8509, 17019 ). Veri seti 169777 negatif ve 412 pozitif durum içermektedir.

  • Ayrıca pazarlama kampanyasının alan kişi sayısının 10 katı kadarına yöneltilebileceği düşünülerek, üst 4120 kişi için de performanslar ölçülmüştür.


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

  • YSA, %1lik kısımda 5 durumda ve %5lik kısımda 4 durumda en iyi performansa sahiptir.

  • % 10 için CHAID en iyi (1:5 durumu hariç)

  • 4120 müşteri için de CHAID en iyi

  • Lojistik regresyon oldukça kötü sonuçlar vermiştir

  • Yapılan deneylerde, test verisi ve diğer veri setinde model başarımları farklı çıkmaktadır


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

SONUÇ

  • Test kümesi dışında başka bir veri kümesinde başarımı ölçmek ve ikisinde de en iyi sonucu veren modeli kullanmak

  • Üst yüzdeliklerde başarım ölçmek

  • Bunun için isabet, kaldıraç ve yakalama oranlarının kullanılması


Leriki al malar

İleriki Çalışmalar

  • Başka sınıflandırma metotları,

  • Farklı yüzdelik dilimlerdeki performanslar

  • Üst yüzdelikler için AUC ölçüm yöntemi geliştirilmesi


References

References

  • References

  • [1] Cui, G. 2008. Model selection for direct marketing: performance criteria and validation methods. Marketing Intelligence & Planning 26(3): 75-292.

  • [2] Japkowicz, N. 2000. The Class Imbalance Problem: Significance and Strategies. In Proceedings of the 2000 International Conference on Artificial Intelligence (IC-AI'2000): 111-117.

  • [3] Japkowicz, N and Stephen, S. 2002. The class imbalance problem: A systematic study. Intelligent Data Analysis 6: 429–449.

  • [4] Baesens, et.al. 2003. Benchmarking state-of-the-art classification algorithms for credit scoring. Journal of the Operational Research Society 54: 627–635.

  • [5] Camdeviren H. A.;Yazıcı A.C.; Akkus Z.; and Sungur M. A. 2007. Comparison of logistic regression model and classification tree:An application to postpartum depression data. Expert Systems with Applications 32: 987–994.

  • [6] Fadlalla, A. 2005. An experimental investigation of the impact of aggregation on the performance of data mining with logistic regression. Information & Management 42: 695–707.

  • [7] Hecht-Nielsen, Robert. 1988. Theory of the Backpropagation Neural Network, 1-593.

  • [8] Hinton, G. E. (1987). Connectionist learning procedures, (Tech.Rep. No. CS-87-115). Carnegie-Mellon University, Pittsburgh,PA.

  • [9] Lippmann, R. P. 1987. An introduction to computing with neural nets. IEEE ASSP Magazine 4: 4-22.

  • [10] Kass, G.V. 1980. An Exploratory Technique for Investigating Large Quantities of Categorical Data. Journal of Applied Statistics 29 (2): 119-127.

  • [11] Michael, J. A. and Gordon, S. L. 1997. Data mining technique: For marketing, sales and customer support. New York: Wiley.

  • [12] Chan, F.; Cheing, G.; Chung Chan, J. Y.; Rosenthal, D. A.; and Chronister, J. 2006. Predicting employment outcomes of rehabilitation clients with orthopedic disabilities: A CHAID analysis. Disability and Rehabilitation 28: 257−270.

  • [13] Ture, M.; Tokatli, F.; and Kurt, I. 2009. Using Kaplan–Meier analysis together with decision tree methods (C&RT, CHAID, QUEST, C4.5 and ID3) in determining recurrence-free survival of breast cancer patients. Expert Systems with Applications 36: 2017–2026.

  • [14] Duman, E. 2006. Comparison of decision tree algorithms in identifying bank customers who are likely to buy credit cards. In Proceedings of the Workshop on Information technologies for Business, Seventh International Baltic Conference on Databases and Information Systems. Kaunas, Lithuania, 3-6 July.  

  • [15] Sokolova, M and Lapalme, G. 2009. A systematic analysis of performance measures for classification tasks. Information Processing and Management 45: 427–437.

  • [16] Zahavi, J. and Levin, N. 1997. Applying neural computing to target marketing. Journal of Direct Marketing 11(4): 76-93.


Do rudan pazarlama modeller n siniflandirma y ntemler n n kar ila tirilmasi

teşekkürler,

yelizekinci


  • Login