1 / 79

Indicizzazione semantica

Indicizzazione semantica. La catalogazione o meglio indicizzazione semantica analizza il contenuto dei documenti ed offre gli strumenti per trovare quei documenti che parlano di un determinato argomento e di cui non conosciamo l’esistenza. In altre parole deve consentire di:.

judith
Download Presentation

Indicizzazione semantica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Indicizzazione semantica La catalogazione o meglio indicizzazione semantica analizza il contenuto dei documenti ed offre gli strumenti per trovare quei documenti che parlano di un determinato argomento e di cui non conosciamo l’esistenza. In altre parole deve consentire di:

  2. Indicizzazione semantica • Trovare le opere su un dato soggetto • Trovare le opere in cui è significativamente trattato un concetto • Trovare le opere in cui sono trattati più concetti secondo una relazione significativa • Selezionare un’opera perché vi è significativamente trattato un concetto

  3. Indicizzazione semantica • Selezionare un’opera perché vi sono trattati più concetti secondo una relazione significativa • Guidare alla ricerca di opere su soggetti affini o semanticamente collegati • Guidare alla ricerca di opere in cui siano trattati concetti affini o semanticamente collegati.

  4. Indicizzazione semantica La catalogazione semantica è oggi fondamentale, data l’enorme crescita quantitativa dell’informazione depositata nei documenti. La ricerca scientifica, ma anche il soddisfacimento di bisogni informativi di livello più basso, necessitano quindi di avere a disposizione strumenti che effettuino una prima selezione e organizzino dal punto di vista del contenuto le informazioni sui documenti.

  5. Indicizzazione semantica Gli strumenti prodotti da questa procedura sono sostanzialmente degli indici, costruiti secondo metodologie diverse, che non offrono la risposta ai quesiti, ma indicano soltanto quali documenti possono essere utili.

  6. Indicizzazione semantica L’indicizzazione semantica considera quattro elementi: • contenuto (qual è l’argomento, il soggetto? ovvero che cosa occorre indicizzare?)

  7. Indicizzazione semantica • indice (quali termini o quale altra etichetta uso per esprimere il contenuto?) • struttura (in che modo costruisco l’indice? come metto in rapporto i vari soggetti?) • sistema di ricerca (come favorisco l’interrogazione, cioè come costruisco ad esempio in un indice on line la maschera di ricerca?)

  8. Indicizzazione semantica • Nell’indicizzazione assegnata si segue un particolare sistema o linguaggio di indicizzazione. In altre parole la formulazione del contenuto concettuale del documento avviene utilizzando i termini e le espressioni, anche numeriche, già predisposte, indipendentemente dai termini presenti sul documento. • Nell’indicizzazione derivata, invece, vengono utilizzati i termini presenti sul documento.

  9. Indicizzazione semantica Il processo relativo al rilevamento e alla formulazione del contenuto del documento può concretizzarsi mediante tecniche diverse, che possono comunque essere divise in due grandi gruppi: • sistemi di informazione pre-coordinati • sistemi di informazioni post-coordinati

  10. Indicizzazione semantica • I primi sistemi (pre-coordinati) sono anche definiti convenzionali. In questi sistemi le parole o le espressioni, anche numeriche, che rappresentano il contenuto concettuale del documento sono fissate e coordinate fra loro in via prioritaria, prima di effettuare il rilevamento del contenuto del documento.

  11. Indicizzazione semantica • Nei secondi (detti anche non convenzionali) ciascun documento viene indicizzato sotto uno o più concetti. Solo in fase di ricerca è possibile combinare insieme i vari concetti (ad esempio, quando faccio una ricerca con gli operatori booleiani).

  12. Indicizzazione semantica La ricerca a linguaggio libero, possibile esclusivamente in un sistema automatizzato, consiste nell’immettere uno o più termini di ricerca, per verificarne la presenza all’interno delle descrizioni presenti nell’archivio. Si fonda sull’ordinamento alfabetico, eseguito automaticamente dal sistema, dei termini significativi presenti in tutti i campi della descrizione ed eventualmente, se esiste, nell’abstract che accompagna la descrizione stessa.

  13. Indicizzazione semantica Costruire un indice semantico significa rappresentare l’opera, il suo contenuto concettuale, ma a fini di ricerca. In altre parole l’indice che scelgo di assegnare ad un documento deve anche rappresentare la chiave di ricerca per chi utilizzerà il sistema di informazioni.

  14. Indicizzazione semantica Se nel catalogo per autori la ricerca effettuata attraverso i canali precisi (autore, titolo) offre risultati certi (una certa pubblicazione c’è o non c’è), in un catalogo semantico probabilmente ha bisogno di più passaggi e di successive conferme. Un catalogo semantico non può garantire risposte certe, ma solo ipotesi di incontro tra documenti e bisogni informativi.

  15. Indicizzazione semantica I problemi che incontra l’indicizzazione semantica sono molti e complessi, di tipo linguistico, di tipo logico, di tipo culturale, a partire da uno di fondo: che cosa si intende per soggetto (contenuto, argomento del documento)?

  16. Indicizzazione semantica Probabilmente la definizione più logica per soggetto è quella di tema di base. Quindi come soggetto si indica “qualsiasi concetto o combinazione di concetti che rappresentino un tema all’interno del documento”.

  17. Indicizzazione semantica Le procedure di indicizzazione non hanno mai avuto una codificazione rigorosa, che abbia portato a regole precise, come nel caso della descrizione bibliografica, ma fanno riferimento solo a standard o a linee guida, come la norma ISO 5963, del 1985, tradotta in italiano nella norma UNI ISO 5963-1989, Metodi per l’analisi dei documenti, la determinazione del loro soggetto e la selezione dei termini di indicizzazione.

  18. Indicizzazione semantica Le fasi principali sono tre: • analisi concettuale del documento • l’individuazione del tema di base, quindi del contenuto concettuale • la traduzione di esso nei termini previsti da un linguaggio di indicizzazione.

  19. Indicizzazione semantica L’analisi del documento non implica la lettura dell’intero documento, ma la presa in considerazione di alcuni punti chiave: • titolo (non sempre sufficiente, a volte deviante: es. Il bosco e gli alberi) • l’abstract (sul risvolto della cop. o in quarta della cop.) • l’indice o sommario

  20. Indicizzazione semantica • introduzione, prefazione, etc. • frasi iniziali dei capitoli • conclusioni • illustrazioni, diagrammi, tavole • espressioni evidenziate (per rilevare concetti di particolare importanza rispetto ad altri) • note e bibliografia

  21. Indicizzazione semantica Una volta conclusa l’analisi del documento con il rilevamento dei concetti presenti, ad essi dovranno essere applicate alcune operazioni come • la cancellazione dei concetti marginali o occasionali • la riconduzione di concetti troppo specifici ad uno più generico che li comprenda • la riunione di più soggetti in un uno più ampio che possa comprenderli tutti.

  22. Se non è possibile ridurre ad un solo soggetto il tema di base del documento, resta la possibilità di attribuirgli anche più soggetti. La scelta di limitarsi ad un numero minimo di soggetti per esprimere il contenuto prevalente del documento oppure di spingere il processo fino all’individuazione di tutti gli aspetti del documento, esprimendoli con il numero necessario di soggetti senza alcun limite, dipende dal contesto entro cui si inserisce il lavoro di indicizzazione.

  23. Indicizzazione semantica Conclusa l’operazione di riduzione e semplificazione dei concetti rilevati occorrerà arrivare all’enunciazione nel linguaggio naturale del tema/i di base formulando quello che viene definito enunciato di soggetto. A questo si giunge sottoponendo i concetti evidenziati ad un ulteriore analisi interna volta determinarne caratteristiche specifiche, ovvero • se ciò che abbiamo rilevato si riferisce ad un’attività, che ha un oggetto o strumenti e metodi per esplicarla,

  24. Indicizzazione semantica • se è localizzabile nel tempo o nello spazio, • se esiste un particolare punto di vista • o ancora se il documento che tratta questo tema ha una particolare forma bibliografica (manuale, enciclopedia) • o è rivolto ad un destinatario specifico.

  25. Indicizzazione semantica In un documento che tratti dell’allevamento dei bovini in una particolare zona, per esempio la Val Pusteria, i concetti che emergeranno saranno quelli di allevamento (attività), che ha per oggetto specifico i bovini (specie animale) ed è situata in una precisa collocazione geografica. L’enunciato di soggetto (nell’esempio Allevamento di bovini in Val Pusteria) andrà poi tradotto nel linguaggio di indicizzazione prescelto.

  26. Linguaggi di indicizzazione Tutti i vari linguaggi di indicizzazione hanno le medesime funzioni, ovvero 1. Far sapere se e quali documenti esistano su un determinato soggetto. Questo implica ovviamente che gli indici che abbiamo rilevato, analizzato e tradotto nel linguaggio specifico, devono essere organizzati e ordinati, in modo da essere ricercabili

  27. Linguaggi di indicizzazione 2. Informare su altri documenti di contenuto affine o correlato, il che significa creare dei legami e dei rapporti fra i vari indici o soggetti, costruendo uno rete di collegamenti.

  28. Linguaggi di indicizzazione Le caratteristiche che contraddistinguono tutti i linguaggi di indicizzazione sono: • Il lessico • La semantica • La sintassi.

  29. Linguaggi di indicizzazione Il lessico è una sorta di vocabolario in cui tutti i termini devono essere controllati, in modo che garantire l’uniformità (un concetto deve essere sempre rappresentato dallo stesso termine) e l’univocità (ogni termine deve sempre indicare un solo concetto).

  30. Linguaggi di indicizzazione Lessico controllato significa che non tutti termini che possono indicare un certo concetto sono accettati e inseriti nella lista, ma alcuni saranno invece scartati e che andranno risolti alcuni problemi, come • l’uso dei termini al singolare e al plurale: le norme Iso raccomandano il singolare per i concetti astratti e il plurale per quelli concreti, numerabili;

  31. Linguaggi di indicizzazione • i criteri di scelta quando si pongano problemi di grafia, fra termini di uso popolare e termini scientifici, fra varianti di nomi geografici o di nomi di persona • la necessità di qualificare termini omografi o polisemici • il trattamento di concetti normalmente espressi con termini composti o con espressioni (occhiali da vista, navigazione a vela, velocità della luce)

  32. Linguaggi di indicizzazione Semantica Si occupa di stabilire le relazioni a priori fra i termini scelti per indicare i concetti in modo da costruire una rete di relazioni che favorisca sia il catalogatore nella scelta del termine più opportuno, sia l’utente che può recuperare sia il soggetto desiderato, ma anche altri soggetti che possono essergli utili in quanto affini o correlati.

  33. Linguaggi di indicizzazione La sintassi si occupa delle relazioni a posteriori, determinando l’ordine dei concetti e dei termini che li esprimono, le combinazioni dei termini nei soggetti complessi.

  34. Indicizzazione per soggetto • L’indicizzazione per soggetto (o soggettazione) è il processo che tende a individuare gli argomenti trattati nei documenti e ad esprimerli in un linguaggio normalizzato, in modo tale che all’interno di un catalogo uno stesso concetto sia sempre rappresentato da un’espressione univoca ed uniforme.

  35. Indicizzazione per soggetto Nella indicizzazione per soggetto (detta anche soggettazione) la formulazione del concetto che esprime il contenuto del documento avviene attraverso un’espressione verbale che costituisce il punto di accesso per soggetto.

  36. Indicizzazione per soggetto L’organizzazione dei punti di accesso per soggetto costituirà in un sistema catalografico tradizionale il catalogo per soggetto (subject catalog in inglese; Schlagwortkatalog in tedesco) autonomo e separato dagli altri cataloghi. In un sistema automatizzato i punti di accesso per soggetto confluiranno nell’archivio dei soggetti, che ha ovviamente gli opportuni collegamenti con l’archivio centrale delle descrizioni bibliografiche.

  37. Indicizzazione per soggetto La tecnica dell’indicizzazione per soggetto mira a far emergere l’argomento, il punto di vista con cui è affrontato un certo problema, non la materia. Un documento può presentare anche soggetti distinti, che esprimano punti di vista particolari e rispondano a particolari esigenze di ricerche

  38. Indicizzazione per soggetto Una volta che è stato individuato il concetto (o i concetti) che esprimono l’argomento, l’oggetto di studio del documento, occorre esprimerli in modo tale da consentire un’organizzazione catalografica ordinata e coerente ed una consultazione proficua. Il criterio principale a cui deve rispondere la formulazione dei soggetti è quello della specificità. In altre parole il termine scelto deve avere un altro grado di corrispondenza con il concetto che intende esprimere

  39. Indicizzazione per soggetto Dal grado di specificità che sarà usato nella formulazione dei soggetti dipende anche la funzionalità del processo. La soggettazione deve consentire a chi interroga un catalogo per soggetto di reperire il più alto numero di documenti esistenti in una determinata raccolta che si occupino di un preciso argomento.

  40. Indicizzazione per soggetto Se un soggetto è espresso con un grado di specificità basso, nel momento in cui sarà usato come chiave di ricerca, produrrà come risultato un alto numero di documenti all’interno dei quali però solo una parte minima sarà effettivamente pertinente. Se invece il soggetto è molto specifico i documenti trovati saranno minori, ma quasi tutti interessanti e la ricerca avrà avuto il massimo grado di precisione.

  41. Indicizzazione per soggetto Per ottenere il massimo grado di specificità, e di conseguenza un basso richiamo (numero contenuto di documenti indicizzati sotto il temine usato come chiave di ricerca) ed un’alta precisione dei risultati (basso numero di documenti trovati, ma tutti pertinenti), spesso non è sufficiente esprimere un concetto con un solo termine, ma esso deve essere ulteriormente specificato e delimitato con l’aggiunta di altre espressioni.

  42. Voce di soggetto o descrittore Le parole, i termini anche complessi, con cui vengono espressi i concetti contenuti nei documenti costituiscono le voci di soggetto o descrittori, che una volta ordinate alfabeticamente daranno vita al catalogo per soggetto.

  43. Voce di soggetto o descrittore • Le voci di soggetto devono essere normalizzate per consentire di riunire in un unico punto del catalogo tutti documenti il cui contenuto corrisponda ad una determinata voce. • La normalizzazione di una voce di soggetto non implica, come nel catalogo per autori e titoli, solo la scelta di una forma piuttosto che di un'altra, ma comporta anche la scelta dell’ordine della sequenza dei termini con cui esprimiamo l’argomento del documento, perché come abbiamo visto prima, spesso non basta usare un solo concetto, ma è necessario porne in relazione più di uno.

  44. Voce di soggetto o descrittore • In un sistema post-coordinato sarà sufficiente normalizzare i singoli termini corrispondenti ai concetti, ma nei sistemi pre-coordinati, è fondamentale anche determinare il modo con cui i concetti sono messi in relazione e, quindi, fissare la successione dei termini che formano la sequenza. • Da questo punto di vista fondamentale è la scelta del concetto centrale, perché sarà il termine corrispondente a tale concetto a determinare il punto di accesso, cioè il punto del catalogo in cui andrà a collocarsi l’informazione.

  45. Catalogo a soggetto Nell’allestimento del catalogo a soggetto il ricorso come criterio di base alla massima specificità se da una parte assicura un’alta precisione della ricerca, dall’altra provoca però anche una disseminazione dell’informazione che ha le caratteristiche dell’ordinamento alfabetico.

  46. Catalogo a soggetto Questa sfasatura funzionale può essere corretta in parte dal catalogatore, attribuendo ad un documento più soggetti, di cui almeno uno più generale e gli altri più specifici, in parte dall’architettura del catalogo che dovrebbe prevedere una rete di relazioni fra i vari soggetti coordinandoli fra loro.

  47. La stringa di soggetto Solo nella minima parte dei casi è possibile esprimere il concetto relativo all’argomento della pubblicazione con un solo termine; nella maggior parte occorrerà precisarlo e circoscriverlo, mettendolo in relazione con altri concetti, espressi da altrettanti termini.

  48. La stringa di soggetto • L’insieme di questi termini viene definito stringa di soggetto: il termine scelto per rappresentare il concetto centrale, posto al primo posto nella sequenza, costituirà il punto di accesso; i termini successivi sono definiti suddivisioni. • Le suddivisioni hanno lo scopo di precisare meglio il concetto centrale, di limitarlo, di contestualizzarlo in modo più specifico.

  49. La stringa di soggetto Le suddivisioni che completano la voce di soggetto e formano la la stringa, servono a • esprimere un particolare punto di vista, rispetto al quale è affrontato l’argomento nel documento (ad esempio: Stazioni ferroviarie – Architettura)

  50. La stringa di soggetto • indicare un’attività connessa all’argomento centrale (ad esempio: Fiori – Coltivazione) • precisare una particolare tipologia o la forma assunta dalla pubblicazione (ad esempio: Medicina – Manuali; Medicina – Enciclopedie e dizionari) • circoscrivere il concetto principale, dal punto di vista geografico o cronologico.

More Related