Introduction la mod lisation pr dictive avec la
This presentation is the property of its rightful owner.
Sponsored Links
1 / 35

Introduction à la modélisation prédictive avec la: PowerPoint PPT Presentation


  • 71 Views
  • Uploaded on
  • Presentation posted in: General

Introduction à la modélisation prédictive avec la:. Frank Vanden Berghen http://www.business-insight.com. Partie 1:. Contexte. Objectifs d’un partenariat Teradata / Business-Insight. Pour Business-Insight: Vente de licences logicielles de la « TIMi Suite »

Download Presentation

Introduction à la modélisation prédictive avec la:

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Introduction la mod lisation pr dictive avec la

Introduction à la modélisation prédictive avec la:

Frank Vanden Berghen

http://www.business-insight.com


Partie 1

Partie 1:

Contexte


Objectifs d un partenariat teradata business insight

Objectifs d’un partenariat Teradata / Business-Insight

Pour Business-Insight:

  • Vente de licences logicielles de la « TIMi Suite »

  • Augmenter la base d’utilisateurs de la « TIMi Suite »

  • A longue échéance: intégration de TIMi dans Teradata pour éviter de lentes extractions avant toute modélisation

  • Nous ne désirons pas intervenir en tant que consultants (notre objectif est le développement logiciel et non la consultance).

    Pour Teradata:

  • Capacité à intervenir sur des projets analytiques de scoring/modélisation avec rapidité, efficacité et performance.

  • Pas de limitations sur le nombre de variables… (Càd pas de « goulot d’étranglement » en fin de préparation des données qui rend inutile le fait de pouvoir manipuler de le large volume de donnée).

  • Concentrer les projets sur la création de variables et la génération de large volumes de données à valeurs ajoutées.

  • Possibilité de déployer le scoring directement en SQL Teradata


Qui sommes nous

Qui sommes nous?

  • Fondée en janvier 2007 par Frank VandenBerghen & JéromeLoncelle

  • HQ localisé à Bruxelles en Belgique

  • Mission

    • Implémentation de Solutions AnalytiquesPrédictivesAutomatisées

    • Créationd’outils de datamining prédictifs de secondegénération

      “To boldly go where no dataminer has gone before!”

  • 6 personnes au HQ (3 développeurs, 1 sales, 1 CEO, 1 admin.)

  • Actif en Europe (Belgique), Angleterre (Londres), Russie (Moscou), États-Unis (Chicago), Malaysie (Kuala Lumpur)


Quelques r f rences

Quelques Références


Optimisation marketing l aide de techniques pr dictives

Optimisation Marketing à l’aide de techniques prédictives

Les usages typiques de l’« Analyse Prédictive » sont:

  • ChurnPrevention: Comment retenir mes clients? Comment les empêcher d’aller à la concurrence?

  • Cross-Selling: Quel produits proposer à quels clients? (next-to-buy, next-best-offer, etc.)

  • Up-Selling: Comment inciter nos clients à consommer plus des produits qu’ils ont déjà?


La offre

La offre :


Partie 2

Partie 2:

Introduction aux

techniques prédictives


Mod les pr dictifs performance 1 3

Modèles Prédictifs: Performance 1/3


Mod les pr dictifs performance 2 3 r sum sur les graphique de la lift

Modèles Prédictifs: Performance 2/3 : Résumé sur les graphique de la Lift

Pourcentage de cibles touchées

Probabilité

100% des Cibles touchées

Performance de la sélection « parfaite »

Performance de la sélection « TIMi »

Performance de la sélection aléatoire

Probabilité d’achat

Aucune Cible touchée

100% de la population sélectionnée

0% de la population sélectionnée


Mod les pr dictifs performance 3 3 quelques exemples typiques de lift

Modèles Prédictifs: Performance 3/3 : Quelques exemples typiques de Lift:


Story 1 mod le pour une banque fran aise 1 2 valuation du roi suppl mentaire g n r par tim

Lift curves

Sélection Aléatoire

Modèle Parfait

TIMi Model

Ancien modèle

100%

90%

80%

70%

60%

Pourcentage de Potentiel Couvert

50%

40%

30%

20%

10%

0%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

pourcentage de foyer ciblé

Story 1 : modèle pour une « banque française » 1/2Évaluation du ROI supplémentaire généré par TIM

TIMi model

La lift à 10% du nouveau modèle fait avec TIMi est 62%. Nous avons une sélection qui est 6.2 fois meilleure que la sélection aléatoire.

Current

model

La lift à 10% pour l’ancien modèle de la « Banque Française » est 15%.

Cette sélection est donc 1.5 fois meilleure que la sélection aléatoire.

La banque avait déjà un modèle en production.

La lift de ce modèle est représentée en brun dans le graphique ci-dessus.


Story 1 mod le pour une banque fran aise 2 2 valuation du roi suppl mentaire g n r par tim

Story 1 : modèle pour une « banque française » 2/2Évaluation du ROI supplémentaire généré par TIM


Story 2 mod les pr dictifs robustes et de haute performance

Story 2: Modèles prédictifs robustes et de hauteperformance

Extrait d’un benchmark effectué par pour le compte d’une petite banque belge, dans le but de sélectionner la meilleure solution de datamining:

TIMi : 99%

SPSS: 77%

SAS: 70%

Ces résultats parlent d’eux-mêmes. La seule différence entre ces 3 résultats est le logiciel et le temps de calcul (en moyenne TIMi est de 10 à 100x plus rapide que tout autre solution).


Partie 3

Partie 3:

«  Démonstration en Live »


D monstration en live

« Démonstration en Live »

  • Telco:

    • Churn: Mobistar (Orange in Belgium)

  • Bank:

    • ABN-AMRO (Hollande)

    • PAKDD 2010

  • Retail:

    • Delhaize


Partie 4

Partie 4:

Préparation des données:


Caract ristiques principales de

Caractéristiques principales de

  • Possibilité de manipulation de base de données très volumineuses

    (aucune limitation en nombre de colonnes (unique) et en nombre de lignes).

  • Environnement intégré de développement de transformation (IDE) convivial basé sur une technologie hybride:

    • approche graphique à l’aide de « boites »: très intuitive

    • approche à base de script Javascript: très versatile.

  • 99% des transformations d’Anatella fonctionnent sans définir aucun « Meta-Data » (unique).

    Cela permet la migration très rapide de transformation de données pré-existantes d’un environnement à un autre (par exemple: de l’environnement d’exploration/création des modèles prédictifs vers l’environnement de production).

  • 100% Unicode

  • Aisément extensible:

    • Gestion de version des nouveaux scripts,

    • Partage collaboratif des Scripts Javascript,

    • Le Debug des nouvelles transformations est aisé grâce à un debugger similaire au debugger de Visual Studio (unique).

  • Transformations spéciales pour l’analyse prédictive:

    • Multi-product Assignment Solver (For small assignment problems: Exact Solution using LP; For large assignment problems: Near-Optimal solution using advanced meta-heuristics) (unique),

    • Text mining,

    • Correcteur d’ortaugrafe automatique (unique),

    • Scoring à partir de modèles réalisés par TIMi ou Stardust,

    • Transformations dédiées pour les "Time Series" (Séries Temporelles),

    • Génération automatique de rapports graphiques (OLAP) en Powerpoint, Excel, MSWord (tous les graphiques de la suite office sont supportés), …

  • Anatella est rapide(rapide lors du développement de nouveaux script lors de l’exécution de ces scripts)

  • Anatella est Multithreadé(pour diviser les temps de calculs par un facteur entre 8 et 12)


N est pas une base de donn e

n’est pas une Base de Donnée

Les fonctionnalités de Anatella ne couvrent pas les besoins des utilisateurs de base de donnée:

  • Pas de code SQL.

    (à la place, on doit utiliser & paramétrer une série de "boites"  Anatella)

  • Pas d’index (et encore moins d’index distribué).

    (un "full table scan"  est nécessaire si on veut trouver une ligne particulière dans une table)

  • Pas d’accès concurrents aux données gérés par un système de "lock".

    (il est néanmoins possible d’avoir un accès concurrent en lecture seule à des fichiers plats statiques)

  • Pas de calculs distribués sur plusieurs PC.

    (Dans le futur lointain: Gestion "manuelle" de la distribution des données sur plusieurs nœuds).

  • Pas de gestion automatique du multithreading.

  • Traitement des données orienté Ligne-Par-Ligne.

    (et non "columnar", comme les bases de données récentes construites pour la BI)


Exemple 1 data migration

Exemple 1: data migration

« Union-Merge » des 3 datasets en 1 seul

Renommer la colonne « Churn Flag » en « Target »

Sauver le dataset résultant dans un fichier texte

Dataset 1 dans fichier texte

Dataset 2 dans fichier texte

Dataset 3 dans fichier texte

NTB: L’ordre des colonnes dans les datasets 1,2&3 en entrée est différent.


Exemple 1 data migration1

Exemple 1: data migration

Anatella permet la manipulation de base de données très volumineuses :

(aucune limitation en nombre de colonnes (unique) et en nombre de lignes).

*: Temps de développement de la transformation prohibitif.

Une modification substantielle des fichiers textes en entrée est nécessaire pour éviter le crash.

**: Dataset standard pour la prévention du churn pour un telecom. belge.

***: Dataset standard pour la détection (basé sur le code ADN d’une personne) du cancer du sein.

Ce type de dataset est aussi courant lors d’études de type « TEXT MINING ».

****: CloverETL se positionne en tant que concurrent direct à IBM-DataStage, annonçant des performances similaires.


Exemple 3 linkalytics

Exemple 3: LinkAlytics

Création automatisée de datasets pour l’industrie des telecoms à partir de CDR (Call Data Record) binaires (ou textes).

Ce dataset peut être utilisé pour toute les tâches courantes en analytique prédictive: churn, cross-sell, up-selling, multivariatesegmention, etc.

Extraction de métriques SNA (Social Network Analysis) tels que: communautés, leader de Communauté, etc.

Possibilité de traîter de large volume de données (par ex.: Afrique du Sud: 24.000.000 abonnés), 2.1 TB CDR data: temps de calcul: 4 jours).

Ce résultat est une première mondiale.

Aucun autre outil ne peut le faire (au, du moins, il est extrêmement difficile d’arriver à des résultats comparable en utilisant d’autres outils).


Exemple 3 linkalytics1

Exemple 3: LinkAlytics

Guinee-Bisseau data:

« CL1.Churn_Mean » = % of churners in communities in last period

Withoutthis variable (extractedfrom SNA): Weloose 7,6% of lift.


Partie 5

Partie 5:


Caract ristiques principales de1

Caractéristiques principales de

  • Construire des modèles prédictifs de précision inégalée en quelques clicks de souris et ainsi obtenir un ROI significativement supérieur aux autres solutions commerciales de datamining.

  • Les modèles sont à la fois précis et aisément compréhensibles

  • Génération 100% automatisée des modèles et des rapports(doc, xlsx, …) contenant de nombreux graphiques intuitifs

  • Temps de calcul proche du temps-réel et scoring «in-database» (pour SQL Server, Teradata, Oracle)(temps de calcul divisé par un facteur entre 100 et 1000 par rapport à d’autres solution de datamining)

  • Possibilité d’analyse de base de données très volumineuses

    (Sur du matériel de bureau standard, il est possible d’analyser en quelques minutes des datasets de plusieurs dizaines de gigabytes)

  • Temps pour la préparation des données réduit au minimum: le « nettoyage » de données est pratiquement inutile et il est possible d’utiliser un seul et unique dataset pour construire tous les modèles

  • La validationdes modèles est facile : génération automatique de nombreux graphiques de la lift, intervalles de confiance visibles sur les lifts,…

  • Module« Data-Drift » pourdétecter les erreurs dans la mise à jour du dataset de scoring

  • Prix attrayant ( th du prix de SAS/SPSS pour 4 fois plus de licences)


Parmi les quipes gagnantes aux concours mondiaux de datamining pr dictifs

parmi les équipes gagnantes aux concours mondiaux de datamining prédictifs

KXEN et SPSS n’ont jamais été classés parmi les équipes gagnantes d’aucun concours de datamining à l’aide de leur propre outil.


Introduction la mod lisation pr dictive avec la

Exemple 4: Industrialisation de Modèle

Model Factory / Automatisation

  • Colruyt: Un grand retailer en Belgique utilise un ancêtre de TIMi pour créer ses dépliants personnalisés.

  • Ces dépliants contiennent la sélection de produits qui ont la plus grande probabilité d’achats pour un client donné.

  • Chaque client reçoit un dépliant différent, contenant une sélection différente de produits. Il y a (potentiellement) autant de dépliants différents que de clients (one-to-one marketing).

  • Détails Techniques:

  • Dataset d’apprentissage :70 Gbyteet 22.000 colonnes (càd 22.000 variables).

  • 450 modèles prédictifs à créer « from scratch » toutes les 2 semaines.

  • 100% automatisé (pas d’intervention humaine).

  • En plus d’un mécanisme basé sur des modèles prédictifs, de simples « règles métiers » sont appliquées pour déterminer l’assignement final. Ces règles sont codées en SAS.

  • TIMi est le seul outil capable de:

  • Créer des modèles sur des datasets d’apprentissage aussi volumineux.

  • Produire 450 nouveaux modèles en quelques jours.


Introduction la mod lisation pr dictive avec la

Au final, qui fait les dépliants de Colruyt? SAS ou TIMi?

« SAS is able to computepurchaseprobabilities… »

Littéralement traduit:

« SAS est capable de calculer des probabilités d’achats… »

C’est vrai.

(Sauf qu’ici, c’est fait avec une veille version de TIMi).

Un article de SAS qui est un chef-d’œuvre d’ambiguïté.


Exemple 5 model factory

Exemple 5: Model Factory

  • Un des plus grands retailers en Belgique.

  • 5ième plus grand retailer aux USA

  • Présent aussi en Indonésie

  • Pour la sélection de son outil de datamining Delhaize a organisé un concours de datamining.

  • Les participants reçoivent:

  • Dataset d’apprentissage: profils des clients tels qu’observés en 2009 et achats effectués en 2010.

  • Dataset de Scoring: profils clients de 2010.

  • Taille des datasets: 300 colonnes x 150.000 lignes.

  • Il faut prédire quels sont les 3 produits (parmi un choix de 9 produits) qui vont être acheté en 2011.

  • Difficulté supplémentaire: Chacun des produit ne peut être « assigné » que 50.000 fois maximum.


Partie 6

Partie 6:


Introduction la mod lisation pr dictive avec la

  • Intégration des techniques de segmentation multivariées & des techniques prédictives

Vous pouvez utiliser Stardust (le moteur de segmentation) avant et/ou après une analyse prédictive.

Stardust et TIMi sont 2 logiciels intégrés.

Le nombre de segments différents dans une analyse en segmentation est pratiquement illimité (nSegments>2000 est ok).

(unique: tous les outils concurrents ont: nSegments<300).


Partie 7

Partie 7:

Le futur


Le futur

Le futur

  • Module pour la gestion de stocks

  • Module pour le « up-lift » modeling

  • Ajouter des « forest of stumps » comme technique de modélisation

  • Ajouter des modules SNA supplémentaires

  • Fonctionnalités ELT dans Anatella

  • Améliorer les interfaces (en particulier celle de Anatella)

  • Opti-Mail-It

  • Finaliser l’acquisition de nouveaux clients Telco.


En r sum

En résumé

  • Comme le démontre nos excellents résultats lors des différentes compétitions de datamining de niveau mondial et lors de benchmarks en entreprise, la :

  • délivre invariablement les modèles prédictifs les plus précis et les plus robustes

  • a un temps de calcul proche du temps réel

  • peut analyser aisément de larges datasetsgrâce à son mode «in-database»

  • délivre des modèles facilement compréhensibles grâce, entre autres, aux nombreux rapportsgénérés automatiquement lors du processus de modélisation

Plus de Précision= Plus de ROI

La précision accrue des modèles générés par TIMi se traduit directement en terme de ROI. Il est courant qu’un modèle prédictif construit avec TIMi permette d’accroître le ROI d’une campagne marketing de 10 à 15% comparé à un autre logiciel de datamining

Consultez cette page pour plus d’informations sur le lien entre l’exactitude des modèles et le ROI:

http://www.business-insight.com/html/solutions/propensity_ROI.html


Introduction la mod lisation pr dictive avec la

Merci pour votre Attention

  • Pour plus d’informations, veuillez consulter notre site internet:

  • http://www.business-insight.com


  • Login