280 likes | 413 Views
BiographyNet Linking the world of History. Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team. Programma Workshop. 13:00 – 13:15 : Inloop
E N D
BiographyNetLinking the world of History • Workshop 4 april 2014, VU Amsterdam • Serge ter Braake, Antske Fokkens, BiographyNet team
Programma Workshop 13:00 – 13:15: Inloop 13:15 – 14:00: Introductie Antske Fokkens (computationalelinguïstiek) en Serge ter Braake (geschiedenis) + vragen 14:00 – 14:45: Werkgroepsessie 1 (eenvoudigevraag)14:45– 15:00: Uitkomsten en discussie 15:00 – 15:15: Pauze 15:15 – 16:00: Werkgroepsessie 2 (moeilijkevraag) 16:00 – 16:30: Uitkomsten en discussie 16:30 – 17:00: Borrel
DigitaleTekstanalyse • Gratis tools eenvoudigtevinden, maar niettoegespitst op historischeteksten/historischonderzoek • Woorden en zinnentellen: http://www.wordcounter.net/ • Wordcloudmaken: http://www.wordle.net/ • Woordfrequentie: http://www.writewords.org.uk/word_count.asp
Test met de ‘Deductie van Johan de Witt’ (1654) • Aantal woorden: 34.453 • Aantal zinnen: 749 • Aantal woorden per zin: 46 • Tijd om voortelezen: 5 uur • Mark Rutte (InnovationConventionin Brussel op 10 maart 2014): 2.199 woorden, 16 woorden per zin
Woordfrequentie Ende: 1275 keerProvinc/tie(n): 262 Acte: 72Unie(n): 72Prince: 63Vrede: 53Seclusie: 50Saecke: 47Tractaet: 41Beverningk: 41Nieupoort: 41Oraigne: 31Republiecque: 32Godt: 27 keer (+ 10 keer een afgeleide)Vryheyt: 27Bondtgenooten: 24G(h)emeene: 22 Bondtghenooten: 12Ondanckbaerheyt: 12 (samen met Ondanckbaerheydt) Publijcque: 5
Maar watwillen we nu echtautomatischuiteenteksthalen? • Kwantificeringen van ‘begrippen’, ‘periodesuitiemandsleven’, ‘vergelijkingen met anderen’, ‘prosopografische analyses’, ‘leads in kwalitatieveonderzoeksvragen’ … • Watjullie … ? • Eenmoeilijketaak, maar we gaanons best doen
Wat is BiographyNet? BiographyNet: Het blootleggen van relatiestussenmensen, plaatsen en gebeurtenissen • EeninterdisciplinairE-History project • Gefinancierd door het NederlandseeScience Center • Partners zijn het eScience Center, Huygens/ING en de VrijeUniversiteit Amsterdam • Startpunt: Het BiografischPortaal van Nederland: www.biografischportaal.nl • 125,000 kortebiografischebeschrijvingen(met eenbeperkte set metadata) uiteengrotevariëteitaanbiografischebronnen • 76,000 individuen
Hoofdvraag hier • Hoe kunnen we deze grote massa aan biografische data intelligent doorzoekbaar maken voor historici? • Huidig zoekformulier van het portaal is nog beperkt (maar gaan we wel hier gebruiken):http://www.biografischportaal.nl/zoek
Plan van aanpak • Interdisciplinariteit is fundamenteel voor het ontwikkelen van een bruikbare tool • De computer redeneert niet over moeilijke vragen, maar levert informatie aan die de historicus helpt bij het beantwoorden van complexe vragen • Focus van vandaag: welke informatie is nodig om een bepaalde vraag (deels) te kunnen beantwoorden?
Algemene Doelen Workshop • 1. De computationele linguïst houvast bieden voor het ontwikkelen van een systeem waarmee historische vragen beantwoord kunnen worden • 2. De deelnemers inzicht bieden in de mogelijkheden van digitaal historisch onderzoek met biografische data (nu en in de toekomst)
Specifieke Doelen Workshop • 1) Welke informatie heeft u nodig om uw vraag/vragen te beantwoorden? • 2) Hoe kan dit worden vertaald naar bouwstenen in RDF (het voorgestelde formaat) ? • 3) Welke subtiliteiten gaan hierbij (eventueel) verloren? • 4) Wat zijn de mogelijkheden, beperkingen en uitdagingen?
De Opdrachten • Eeneenvoudigevraag, om je met de mogelijkheden van het portaal en de bronnenbekendtemaken • Eenmoeilijkevraag, die eengoeddoordachtemethodologischeaanpakvereist • De manierwaarop je het zouaanpakkenstaathiercentraal, niet de resultaten
Automatischetekstanalyse • Doelen van automatischetekstanalyse in dit project: • Automatischeanalyse van de inhoud van de tekst: Watstaater in de tekst? • Automatischeanalyse van de tekstzelf en taalgebruik: Hoe wordendingenbeschreven?
Tekst en Taalgebruikanalyse • Welkewoorden en constructieswordengebruikt? • Gebruik van modalehulpwerkwoorden of nuancerendebijwoorden • Neutralewoorden of woorden die eenwaardeoordeelbevatten • Welkethema’skomenvoor? Waarligt de nadruk op? • Welkebegrippenkomen in verschillendebronnenvoor?
Informatieextractie • Doel van de extractie: • Watstaater (precies) in de tekst? • Watwordterbeweert en door wie? • Representatie: • De geïdentificeerdeinformatiemoet op doorzoekbarewijzewordenweergegeven • Uitdaging: hoe kunnen we informatieuitgedrukt in taal op eengestructureerdemanierweergeven?
RDF • RDF: Resource Description Framework • Eenformaatdatontworpen is ominformatieaanelkaartelinken • Entiteiten (inclusiefpersonen en events) worden door IRIs (uniekeidentifiers, ookwelURI’s) gerepresenteerd • Veelgebruikt: • We kunnenookmakkelijkverbandenleggentussen data uitandereprojecten • Veelkennis en tools voor het doorzoeken van RDF, redeneren met RDF, etc.
RDF overzicht • Informatie is weergegeven door triples die bestaanuiteen subject, predicaat en object • Bestanddelen van triples zijn IRIs (unique identifiers) of ``literals’’ (woord, woordgroep of getal)
Voorbeeld triples SUBJECT PREDICAAT OBJECT bn:45013103 bn:hasDateofDeath “1672-08-20” bn:45013103 bn:hasName “Johan de Witt”dbpedia:moord_op_gebr_deWittsem:hasActordbpedia:Johan_de_Witt dbpedia:moord_op_gebr_deWittsem:hasTime “1672-08-20” bn:45013103 skos:exactMatchdbpedia:Johan_de_Witt
RDF • De unique IRIs betekenenaltijdhetzelfde • Door IRIs tegebruiken, kunnen we: • Alleinformatie over eenpersoon of event vinden • Relaties met elkaarvergelijken • Informatieaanelkaarkopellen
IRIs (herkomst) • We gebruikenbestaande IRIs waarmogelijk • Personen in het portaalhebbeneenidentificatienummer. We kunnen op basis hiervan IRIs creeëren. • We creërenook IRIs voorevents en personen die geeneigenidentificatienummerhebben • We hebben IRIs die woordbetekenissenkunnenweergeven
RDF • Het is ookmogelijkomiets over een RDF triple tezeggen, bijvoorbeeld: • Wat is de herkomst van de informatie? • Wiebeweertdatditzo is en waar? • Hoe is de informatiegeëxtraheerd? • Hoe betrouwbaar was de automatischeextractie in eenevaluatie? • Wat is de aangegeven `feitelijkheid’ van de informatie? (Is het gepresenteerdalsfeit of vermoeden)
Vragenvoorvandaag • Welkeinformatiezoudenjullieuit de tekstwillenhalenomonderzoeksvragentebeantwoorden? • Hoe zoudezeinformatie in RDF triples weergegevenkunnenworden? • Welkeinformatiezoudenjulliewillenhebben die niet of moeilijk in een triple weergegevenkanworden?
De ‘eenvoudige’ vraag • Mensen en functies: de gouverneurs-generaal van Nederlands-Indië • Mensen en prestaties: beroemde sporters uit de geschiedenis • Mensen en plaatsen: beroemdhedenuitWeert • Mensen en hunomgeving: Hans van Mierlo • Mensenuitalletijden: Assendelft, De Witt en Nicolai
De moeilijke vraag • Mensen en gebeurtenissen: welke personen speelden een sleutelrol in het rampjaar 1672? • Mensen en mensbeschrijvingen: Hoe is het beeld van de gouverneurs-generaal van Nederlands-Indië in de loop der eeuwen veranderd? • Mensen en naties: In hoeverre was er sprake van ‘nationalisme’ in biografische woordenboeken van de negentiende tot de eenentwintigste eeuw? • Mensen en wereldgeschiedenis: Vanaf wanneer werd de ontdekking van Amerika van werkelijk belang voor de Nederlandse elites? • Mensen en mobiliteit: welke patronen kunnen er ontdekt worden in de manier waarop mensen zich geografisch voortbewogen?
Volgende stappen • Rapport van onze bevindingen • Observaties ? Feedback ?