projet lucene n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Projet Lucene PowerPoint Presentation
Download Presentation
Projet Lucene

Loading in 2 Seconds...

play fullscreen
1 / 9

Projet Lucene - PowerPoint PPT Presentation


  • 89 Views
  • Uploaded on

Projet Lucene. Thibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL – Simon DOUILLET – Alexandre LEROUX – Fabien MIRGAINE – Maxime ODYE – Yanis ZERAOUI. 22 avril 2011 Acquisition de Connaissances 2. Sommaire. I. Présentation de Lucene II. Améliorations

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Projet Lucene' - garson


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
projet lucene

Projet Lucene

Thibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL – Simon DOUILLET– Alexandre LEROUX – Fabien MIRGAINE – MaximeODYE – Yanis ZERAOUI

22 avril 2011

Acquisition de Connaissances 2

sommaire
Sommaire
  • I. Présentation de Lucene
  • II. Améliorations
    • Gestion des synonymes
    • Intégration des stemmers
  • Conclusion
  • Démo
i pr sentation de lucene
I - Présentation de Lucene
  • Projet open-source développé en JAVA

1

  • Moteur de recherche pour documents textuels

2

  • Deux phases
i pr sentation de lucene1
I - Présentation de Lucene
  • Ce que Lucene propose :
  • Indexation « intelligente » (filtre sur les mots)
  • Recherche par champs (titre, auteur, contenu)
  • Requêtes multiples (expressions régulières, expression booléennes, recherche de proximité
  • Ce qu’il manque à Lucene :
  • Interface graphique
  • Recherche de synonymes
  • Mise en place de stemmers non anglais
ii am liorations synonymes 1 2 principe et mise en uvre
II – AméliorationsSynonymes (1/2) : Principe et mise en œuvre
  • Indexation
  • Lucene
  • Analyseur
  • Filtre
  • Base de synonymes

<synonyms>

<group>

<syn>fast</syn>

<syn>quick</syn>

<syn>rapid</syn>

</group>

...

<synonyms>

  • Recherche
  • XML (V1)
  • SynonymAnalyzer
  • SynonymFilter
  • WordNet (V2)

Utiliser à l’indexation et/ou à la recherche

un dictionnaire des synonymes pour augmenter le nombre de résultats.

ii am liorations synonymes 2 2 r sultats
II – AméliorationsSynonymes (2/2) : Résultats

Requêtes simples sur quelques fichiers

Requêtes complexes sur un grand nombre de fichiers

ii am liorations stemmers 1 2 principe et mise en uvre
II – AméliorationsStemmers(1/2) : Principe et mise en œuvre
  • Indexation

« Laracinisationest le nom donné au procédé qui vise à transformer les flexions en leur radical ou stemme. Il cherche à rassembler les différentes variantes flexionnelle et dérivationnelle d’un mot »

ii am liorations stemmers 2 2 r sultats
II – AméliorationsStemmers (2/2) : Résultats

Stemmatisation sur une collection (anglais)

Stemmatisation d’une phrase (français)

Enter query:

fonctionner

Searching for: fonction

Occurences in : /Users/vincent/Desktop/docs/TestFrench.txt

2 x fonction

Frequency : 2

Total frequency : 2

1 total matching documents

Enter query:

fonctionner

Searching for: fonctionner

Total frequency : 0

0 total matching documents

conclusion
Conclusion
  • Quelques idées d’améliorations
  • Quelques difficultés rencontrées
  • Correcteur d’orthographe
  • Formation à Lucene
  • Améliorations des expressions régulières
  • Choix des fonctionnalités
  • Recherche contextuelle
  • Organisation du groupe