Structures linguistiques pour la recherche d’images sur Internet
This presentation is the property of its rightful owner.
Sponsored Links
1 / 45

LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles PowerPoint PPT Presentation


  • 40 Views
  • Uploaded on
  • Presentation posted in: General

Structures linguistiques pour la recherche d’images sur Internet. Adrian Popescu CEA LIST / Télécom Bretagne. Directeur de thèse Ioannis Kanellos Encadrants CEA Pierre-Alain Moëllic Gregory Grefenstette Rapporteurs Florence Sèdes Bruno Bachimont

Download Presentation

LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


List dtsi service r alit virtuelle cognitique et interfaces sensorielles

Structures linguistiques pour la recherche d’images sur Internet

Adrian Popescu

CEA LIST / Télécom Bretagne

Directeur de thèse Ioannis Kanellos

Encadrants CEA Pierre-Alain Moëllic

Gregory Grefenstette

Rapporteurs Florence Sèdes

Bruno Bachimont

Examinateur Pierre-François Marteau

LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

18/09/2008


List dtsi service r alit virtuelle cognitique et interfaces sensorielles

Plan de la présentation

  • Introduction

  • Approche conceptuelle de la recherche d’images

  • Adaptation et structuration de connaissances

  • Applications

  • Conclusions et perspectives

14/10/2008


List dtsi service r alit virtuelle cognitique et interfaces sensorielles

Introduction

14/10/2008


Recherche d images sur internet

Recherche d’images sur Internet

  • Pratique courante associée aux moteurs de recherche d’information

  • Fonctionnalités de recherche d’images

    • Grands acteurs de la recherche d’informations (Google Images, Yahoo! Images, Microsoft Live)

    • Applications dédiées (Picsearch, Flickr)

  • Recherches effectuées par un très grand nombre d’utilisateurs

  • Requêtes visant une grande diversité de sujets

  • Corpus photographiques très vastes et en rapide croissance

14/10/2008


Syst mes actuels

Systèmes actuels

  • Indexation des images

    • En exploitant le texte environnant dans les pages Web (Google Images)

    • Effectuée par les utilisateurs (Flickr)

  • Indexation peu coûteuse de grands volumes de données

  • Mais… trois grandes critiques sur les moteurs actuels

    • Exclusivement textuelle et de bas niveau

    • Pas ou peu de traitements d’images

    • Moyens d’interaction avec les applications souvent inadaptés


Structures linguistiques exploitables

Structures linguistiques exploitables

  • Solution pour palier ces problèmes

    • Faire évoluer les moteurs pour permettre un traitement non plus au niveau des chaînes de caractères, mais a un niveau symbolique

    • Exploitation de structures sémantiques

  • Conditions d’exploitabilité

    • (Nécessairement) à large échelle

      • Couvrir le plus possible les requêtes des utilisateurs

    • Bonne qualité des connaissances incluses

      • Attente de plus en plus importante de la part des utilisateurs en terme de précision des réponses


Structures linguistiques exploitables1

Structures linguistiques exploitables

  • Ressources généralistes constituées manuellement

    • WordNet (Fellbaum98) – base de données lexicale

      • Structurée hiérarchiquement

      • 82115 synsets nominaux

    • Cyc (Guha91) – réseau sémantique recueillant des connaissances du sens commun

      • Hiérarchie moins adéquate que celle de WordNet

      • 300000 nœuds

  • Ressources relatives à des domaines

    • Geonames – base de données géographiques

      • Structure hiérarchique et spatiale

      • Six millions d’entités géographiques

    • UMLS – base de connaissances complexe relative au domaine médical


Construction automatique de structures linguistiques

Construction automatique de structures linguistiques

  • Constitution manuelle de ressources coûteuse

    • Cognition (cognition.com) – 24 ans de travail pour constituer une carte sémantique de l’anglais

    • Nombreux travaux visant l’automatisation du processus (Sanderson99), (Grefenstette07)

  • Mais

    • La plupart des travaux visent des domaines précis

    • Difficultés àassurer simultanément une bonne qualité des connaissances extraites et une bonne couverture du domaine ciblé

  • Construction automatique de structures à large échelle

    • (Grefenstette07) – fouille de données sur le Web afin de construire une carte sémantique de la langue

    • (Ponzetto07) – nettoyage de l’arbre catégoriel de Wikipédia

    • (Rattenbury07) – structuration de connaissances géographique à partir de Flickr


Traitement d images

Traitement d’images

  • Recherche par le contenu visuel (CBIR)

    • Méthode alternative ou complémentaire à la recherche par mots clef

    • Description de bas niveau des images

      • Descripteurs globaux (texture, couleur, forme)

      • Descripteurs locaux (points d’intérêt)

    • Plus complexe du point de vue algorithmique (temps de calcul, passage à l’échelle)

    • Pour les moteurs CBIR classiques : manque de cohérence conceptuelle des résultats

Source http://alipr.com


List dtsi service r alit virtuelle cognitique et interfaces sensorielles

Approche conceptuelle de la recherche d’images

  • Etude des usages en recherche d’images

  • Les structures linguistiques

  • Architecture de recherche sémantique d’images

14/10/2008


Acc s s mantique aux images

Accès sémantique aux images

  • Moteurs actuels ne sont pas sensibles au sens des requêtes

  • L’accès sémantique est conditionné par l’existence de structures linguistiques à large échelle

  • Illusoire de tenter la construction de ressources exhaustives

    • Nécessité d’études des usages afin de découvrir les domaines conceptuels intéressants

  • Ajout d’une fonctionnalité CBIR dans des espaces conceptuellement cohérents

  • Proposition d’une architecture de recherche intégrant des structures linguistiques et des techniques de traitement d’images


Tude des usages en recherche d images

Étude des usages en recherche d’images

Quelles images cherchons nous sur Internet ?

  • Analyse d’un fichier de log contenant plus de 20 millions de requêtes

  • Deux étapes

    • Analyse statistique

    • Analyse conceptuelle

  • Nombre de requêtes par

    session

  • Position des pages

    regardées dans

    l’ensemble des

    résultats


Tude des usages complexit des requ tes

Étude des usages – complexité des requêtes

  • Classiquement, complexité dépend du nombre de termes composant une requête

  • Proposition d’une analyse basée sur le nombre de concepts dans une requête

  • Analyse manuelle d’un échantillon de 1000 requêtes choisies aléatoirement

  • 64% des requêtes incluent un seul concept

  • 30% des requêtes incluent deux concepts

  • Les requêtes simples se prêtent bien à un traitement en exploitant des ressources linguistiques


Tude des usages domaines conceptuels

Étude des usages – domaines conceptuels

Quels concepts cherchons nous sur Internet?

  • Analyse en utilisant des ressources externes

    • Limitée à l’anglais

    • Portant sur trois millions de requêtes uniques

    • WordNet pour les noms communs

      • 358000 de requêtes

    • Geonames pour les termes géographiques

      • 392000 de requêtes (79000 communes avec WordNet; 151028 communes avec un dictionnaire français)

    • Liste de noms de personnalités pour les noms propres (Wikipédia + NNDB – http://nndb.com)

      • 108062 requêtes


Domaines conceptuels distribution des requ tes

Domaines conceptuels - distribution des requêtes

  • WordNet – analyse automatique

    • Entités vivantes – 26,5%

    • Caractéristiques psychologiques – 13,4%

    • Artéfacts – 12,6%

  • Geonames – analyse des requêtes fréquentes au moins 20 apparitions dans le fichier de log

    • Noms de villes – 56,4%

    • Noms de pays – 20,1%

    • Objets naturels – 8,5%

  • Noms de personnalités – analyse automatique

    • Acteurs – 54,9%

    • Chanteurs – 13%

    • Modèles/mannequins – 11,9%


Tude des usages conclusion

Étude des usages - conclusion

  • Importance d’une bonne précision sur la première page de résultats

    • Nombre important de recherches allant au-delà : intéressant de proposer une navigation rapide parmi les images résultats

  • Une majorité des requêtes sont mono-conceptuelles

    • Facilement traités en utilisant des structures linguistiques

  • Découverte de trois domaines conceptuels intéressants pour la recherche d’images

    • Noms communs

    • Toponymes

    • Noms de personnalités


Structures linguistiques

Structures linguistiques

  • Espace de requêtes très diversifié

    • Besoin de structures linguistiques à (très) large échelle

  • Existence de ressources préconstituées

    • Utiles mais devant être adaptées pour la recherche d’images

  • Nécessité de construire automatiquement des nouvelles ressources

    • Relations quelques fois incorrectes et risques d’incohérence

  • Sélection de relations utiles en recherche d’images


Relations entre les concepts

Relations entre les concepts

  • Définitoires pour les opérations possibles sur le contenu des structures linguistiques

  • Relations génériques

    • Hyperonymie/hyponymie – représentation d’un concept par ses héritiers

    • Homonymie – séparation des différents sens d’un terme

    • Synonymie – regroupement des termes représentant la même entité

  • Relations spécifiques à des domaines

    • Géographie : positionnement, inclusion spatiale

    • Personnes : données biographiques


Structures linguistiques en recherche d images

Structures linguistiques en recherche d’images

Skyscraper

  • Cette slide vient trop abruptement par rapport à la précédente !

  • Reformulation automatique des requêtes

    • Représentation conceptuellement structurée des résultat

  • Adaptation de la présentation des résultats en fonction du concept demandé

Robert De Niro


Structures linguistiques en recherche d images1

Structures linguistiques en recherche d’images

  • Recherche par le contenu dans des espaces conceptuellement et visuellement cohérents


Architecture de recherche s mantique d images

Architecture de recherche sémantique d’images


List dtsi service r alit virtuelle cognitique et interfaces sensorielles

Adaptation et structuration de connaissance pour la recherche d’images

14/10/2008


Domaines conceptuels

Domaines conceptuels

  • Constitution de structures sémantiques pour trois domaines

    • Noms communs

    • Toponymes

    • Noms de personnalités

  • Choix dirigé par

    • Leur intérêt pour la recherche d’image – grand nombre de requêtes de trois types

    • La possibilité d’adapter ou de construire des structures linguistiques à large échelle


List dtsi service r alit virtuelle cognitique et interfaces sensorielles

Adaptation et structuration de connaissance pour la recherche d’images

14/10/2008


Adaptation de wordnet

Adaptation de WordNet

  • Synsets de la base lexicale existante

  • Ajout d’une mesure de proximité conceptuelle

  • Format de sortie des résultats


Valuation de wordnet adapt

Évaluation de WordNet adapté

  • 20 concepts du niveau de base (Rosch76) : animaux, plantes, concepts naturels, artéfacts

  • 7 participants au test

  • Comparaison avec la ressource linguistique de Ask (http://ask.com)

    • Pertinence des termes proches

    • Couverture des ressources

      • Ask – moins de 10 requêtes proches pour 13 requêtes

      • WordNet – au minimum 10 requêtes proches pour toutes les 20requêtes


Construction d un th saurus g ographique

Construction d’un thésaurus géographique

  • Définition d’un thésaurus géographique (Hill99)

    Élément = (nom, coordonnées, type)

  • Structure d’un thésaurus géographique

    • Organisation hiérarchique

      • Notre Dame de Paris est une cathédrale

    • Inclusion spatiale

      • Notre Dame de ParisParisÎle de FranceFrance

      • Pas considérée dans la définition de Hill

  • Réutilisation d’une ressource existante et enrichissement automatique


Sources d information

Sources d’information

  • Geonames (http://geonames.org) – base de données géographiques constituée manuellement

  • Wikipédia – encyclopédie collaborative en ligne

    • Nombre important d’articles décrivant des toponymes

  • Alltheweb – moteur de recherche d’informations

  • Panoramio – partage d’images géo-référencées

    • >6 millions d’images + descriptions

    • Validation du contenu

  • Flickr

    • > 50 millions d’images géo-référencées + descriptions

    • Pas de validation


Construction d un th saurus g ographique1

Extraction

Golden Gate

Bridge

Gazetiki

Sources

de données

Localisation

37,819

-122, 479

Catégorisation

Bridge

Classement

253300

85000

Construction d’un thésaurus géographique


Extraction de toponymes et localisation

Extraction de toponymes et localisation

  • Extraction de toponymes

    • Wikipédia – titres des

      articles

    • Panoramio – dictionnaire

      de concepts géographiques

      + règles d’extraction

  • Localisation

    • Wikipédia – coordonnées

      de l’article

    • Panoramio – statistiques

      sur les images décrites

      par un toponyme

Longitude : 21,2478

Latitude : 45,757


Cat gorisation et classement

Catégorisation et classement

  • Catégorisation

    • Wikipédia – dictionnaire du domaine + utilisation de la première phrase, des catégories et de l’Infobox

    • Panoramio – dictionnaire du domaine + statistiques sur le texte des résultats de AlltheWeb

  • Classement – deux composantes

    • Panoramio nombre d’images x nombre d’utilisateurs

    • AlltheWeb nombre de résultats

+


Valuation de gazetiki

Évaluation de Gazetiki

  • 15 villes; comparaison avec TagMaps (Rattenbury07) ou Geonames

  • Extraction de toponymes de Panoramio

    • 90% de précision sur 424 termes testés

    • Comparée à 85% dans TagMaps

  • Localisation avec Panoramio

    • Majorité des coordonnées <200 m

    • Grandes différences pour des entités étendues

  • Catégorisation

    • Bons résultats

    • Meilleure catégorisation dans

      Wikipédia


Celebwiki structure pour les noms de personnalit s

CelebWiki- structure pour les noms de personnalités

  • Analyse des articles Wikipédia décrivant des acteurs, musiciens, footballeurs et modèles

    • Infobox, catégories, tableaux, texte de l’article

  • Extraction de

    • Données biographiques

    • Données relatives à leur activité

  • Ajout d’une mesure de pertinence

  • Ajout d’une mesure de proximité conceptuelle


Valuation de celebwiki

Évaluation de CelebWiki

  • 20 noms d’acteurs, musiciens et footballeurs

  • 8 participants au test

  • Comparaison avec la ressource linguistique de Ask

    • Pertinence des termes proches

    • Couverture (370 de requêtes)


List dtsi service r alit virtuelle cognitique et interfaces sensorielles

Applications

14/10/2008


Olive recherche d images de noms communs

Olive – recherche d’images de noms communs

  • Exploitation de la version adaptée de WordNet et de PIRIA (moteur CBIR du CEA LIST) (Joint04)

  • Caractéristiques

    • Représentation conceptuellement structurée des requêtes

      • Utilisation sous-types feuilles de WordNet

    • Proposition de requêtes proches

      • Plus génériques

      • Plus spécifiques

      • Du même niveau

    • CBIR parmi les images du même terme feuille de la hiérarchie

  • Olive - démo vidéo (lien à mettre)


Valuation d olive

Évaluation d’Olive

  • Précision de la recherche

    • Comparaison avec Google Images, sur un panel de 20 concepts, avec 8 participants

    • Meilleurs résultats pour 15 concepts testés

  • Précision du CBIR

    • Comparaison avec Cortina (Quack04)

  • Test utilisateurs – 10 participants

    • Comparaison avec Google Images

    • Structuration sémantique des résultats appréciée

    • Amélioration de l’interactivité perçue comme utile


Themexplorer recherche d images de toponymes

ThemExplorer – recherche d’images de toponymes

  • Exploitation de Gazetiki et de PIRIA

  • Présentation de noms d’entités précis

    • Pas de divisions administratives

  • Caractéristiques

    • Navigation basé sur une carte interactive fournie par Yahoo!

    • Navigation selon des catégories

    • CBIR parmi les images du même toponyme

  • ThemExplorer - démo vidéo (lien à mettre)


Valuation de themexplorer

Évaluation de ThemExplorer

  • Restriction de l’espace de recherche pour le CBIR sur 20 images, avec 6 participants

  • Fusion de descripteurs pour le CBIR sur 20 images, avec 6 participants

  • Test utilisateurs – 8 participants

    • Comparaison avec World Explorer (Ahern07)

    • Navigation selon des catégories et CBIR bien appréciées

    • Couverture de Gazetiki sensiblement meilleure que celle de TagMaps

    • Problème avec les tags apparaissant en double


Safir recherche de noms de personnalit s

Safir – recherche de noms de personnalités

  • Exploitation de CelebWiki et de PIRIA

  • Caractéristiques

    • Représentation conceptuellement structurée des noms de célébrités

      • Utilisation des informations dans CelebWiki

    • Proposition de requêtes proches

      • Noms de personnalités associées

      • Requêtes plus génériques

    • CBIR parmi les images de la même personne

  • Safir - démo vidéo (lien à mettre)


Valuation de safir

Évaluation de Safir

  • Précision de la recherche

    • Comparaison avec Google Image sur 20 noms de personnalités, avec 5 participants

    • La reformulation des requêtes n’améliore pas la précision des résultats

    • Meilleure précision pour Safir dans le cas des footballeurs


List dtsi service r alit virtuelle cognitique et interfaces sensorielles

Conclusions et perspectives

14/10/2008


Conclusions

Conclusions

  • Structuration automatique de connaissances à grande échelle à partir du Web

  • Méthode de recherche d’images par le contenu dans des espaces conceptuellement cohérents

  • Proposition d’une méthode de recherche sémantique d’images sur Internet

    • Intégration des structures linguistique et du CBIR

    • Application à trois domaines conceptuels

      • Noms communs

      • Toponymes

      • Noms de personnalités

    • Résultats très encourageants dans les premiers deux cas


Perspectives

Perspectives

  • Traitement des requêtes complexes

    • Résultats positifs dans la campagne d’évaluation ImageCLEF

  • Focalisation du travail sur le domaine géographique – projet ANR Georama

    • Amélioration de la structuration des connaissances

      • Catégorisation multilingue

      • Ajout de nouvelles relations : inclusion spatiale, synonymie intra- et inter-langues

    • Annotation automatique d’images géo-référencées

      • Algorithme basé sur un k-PP en deux étapes

      • Évaluation préliminaire montrant un taux de succès de 85% si on annote 50% des images


R f rences

Références

  • (Ahern07)

  • (Fellbaum98)

  • (Grefenstette07)

  • (Guha91)

  • (Hill99)

  • (Joint04)

  • (Quack04)

  • (Ponzetto07)

  • (Rattenbury07)

  • (Rosch76)

  • (Sanderson99)


  • Login