SpringerMedizin Suchoptimierung
This presentation is the property of its rightful owner.
Sponsored Links
1 / 12

SpringerMedizin Suchoptimierung Nemo-Projekt PowerPoint PPT Presentation


  • 48 Views
  • Uploaded on
  • Presentation posted in: General

SpringerMedizin Suchoptimierung Nemo-Projekt. Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014. 1. Agenda. Aufgabe/Probleme Vorgehen Demo Methodik Ergebnisse Weiterführung Lessons Learned. 2. Aufgabe/Problem. 3. Vorgehen. Einarbeitung.

Download Presentation

SpringerMedizin Suchoptimierung Nemo-Projekt

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Springermedizin suchoptimierung nemo projekt

SpringerMedizin Suchoptimierung

Nemo-Projekt

Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014

1


Agenda

Agenda

Aufgabe/Probleme

Vorgehen

Demo

Methodik

Ergebnisse

Weiterführung

Lessons Learned

2


Aufgabe problem

Aufgabe/Problem

3


Vorgehen

Vorgehen

Einarbeitung

Solr konfigurieren

Datenimport

Suche

Goldstandard

4


Springermedizin suchoptimierung nemo projekt

DEMO

5


Methodik indizierung

Methodik Indizierung

* Indizierung per Implementierung des DataImportHandlers in der solr-Konfiguration

- XML-Dateien von Springer mittels Xpath-Ausdrücken indiziert.

- Indizierung der Dokumente mittels gezieltem absenden von Such-Queries evaluiert

- 2788 XML-Dateien Indiziert

* Während der Indizierung copyFields für Suggester aufbauen

- Suggester in solrconfig.xml implementieren

der für diese Felder Vorschläge zurückgibt Struktur der Indizierung:

* Highlighting in Standart-Solr-Konfiguration vorhanden

- Probleme mit Implementierung der

hintereinander geschalteten Cores

AuthorGroup

AuthorName

Author Core

GivenName

FamilyName

Article Title

Token + Synonym

Article SubTitle

Springer Core

...

6


Methodik synonyme

Methodik Synonyme

Cancer of Breast, Breast Cancer

Tumor

Breasts

Breast Cancer

of

Query Analyser

Synonyme

Index Analyser

Query

Cancer of Breast

7


Methodik datenstruktur gold

Methodik Datenstruktur/Gold

SearchQuery“cancer”

SearchResultsMapMap(docid,pos)

SearchResultsMap(SearchQuery,SearchResults)

SearchQueryExecution(SearchResults,SearchResults)

Calculate Mean Reciprocal Rank

SearchResult

GoldResult

Metric Table

8


Ergebnis

Ergebnis

Goldstandart - Testframework auf Basis von Spring MVC

Das Testframework gibt ein arithmetische Mittel (MRR) aus, um das Ranking-Ergebnis einer Query über eine Anzahl an möglichen Ergebnissen

zu evaluieren. Erweiterungen und Änderungen an Solr können direkt bewertet werden.

Indizierung der A++ Struktur

Eine mögliche Lösung für die Indizierung der bisherigen XML-Dokumente in einen Solr-Index ist von uns bereitgestellt.

SolrSuggester, InstantSearch, Autocomplete

Die Nutzung des Suggester von Solr selbst, eine eigene Implementierung des InstantSearches mittels jQuery, sowie eine eigene Implementierung einer Autocomplete-Lösung mittels jQuery ist von uns realisiert worden

9


Ergebnis1

Ergebnis

Virtualbox

* Virtualbox - Image

- funktionsfähige Umgebung

- Beispiel für Einrichtung unserer Lösung (Readme - Datei angehangen)

- Auslieferung als .rar oder auch auf DVD möglich

Bereitgestellte Dokumente

how to setup virtualbox containing our solution

https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20use%20the%20virtual%20box%20%28on%20ubuntu%29

how to setup project locally without virtualbox

https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20Setup%20the%20project

Info-document containing team-infos, goals, plannings

https://docs.google.com/document/d/1CARvHSsHC3KKxHg2Ox8WaYLaMNNoiAbd_5eksuZ_k-0/edit?usp=sharing

10


Weiterf hrung

Weiterführung

  • Highlighting für Synonyme implementieren

  • Goldstandard vervollständigen durch gezieltere Datenanalyse

  • Erweitern der SolrInstanz um weitere Funktionen(Testen mit dem Testframework)

  • Authoren-Namen-Importfilter weiter optimieren

  • Synoymen Multi Wildcards

  • Trefferlisten sollten die Ergebnisse durchsuchbar machen damit Artikel Informationen verglichen werden können.

11


Lessons learned

Lessons Learned

  • Apache Solr und Spring-Applikation in getrennten Repositories versionieren

  • Eine einheitliche Server-Instanz in einer VM für das Team bereitstellen, die sowohl Solr als auch Tomcat umfasst aber nicht die Entwicklungsumgebung.

  • wissenschaftliche Anfangsanalyse der Eingangsdaten und Problematik durchführen

12


  • Login