Logo Utrecht University

Language Dynamics in the Dutch Golden Age

Research output

16 November 2015

Workshop – Morfosyntactisch verrijken van historische teksten

Op dit moment wordt er op een aantal plekken in Nederland nagedacht over en gewerkt aan de manier waarop historische teksten van het Nederlands kunnen worden verrijkt met morfologische informatie en syntactische structuren.

Een bekend initiatief op dit gebied is Nederlab (www.nederlab.nl) en op dit moment wordt er ook in Utrecht gewerkt aan een project waarbij er in het bijzonder wordt gezocht naar manieren om het zeventiende-eeuws Nederlands te taggen en parsen.

De UU (UiL-OTS en ICON) organiseert daarom in samenwerking met Nederlab op 16 november van 13:00-18:00 uur de workshop ‘Morfosyntactisch verrijken van historische teksten’ in Utrecht, waarin wordt ingegaan op de vraag welke methodes er zijn om historische teksten morfosyntactisch te verrijken en te doorzoeken en wat de obstakels zijn bij het toepassen van deze methodes.

We hebben het volgende programma samengesteld:

13:00 – 13:05 Opening

13:05 – 13:45 Erik Tjong Kim Sang (Meertens Instituut / Nederlab)
Omzetten van zeventiende-eeuws Nederlands naar modern Nederlands Tools voor lemmatisering en woordsoort-toekenning zijn ontworpen voor modern Nederlands, en werken slecht op oudere teksten, onder andere door de grote spellingsvariatie. Een mogelijke oplossing hiervoor, die momenteel binnen het project Nederlab op het Meertens Instituut wordt verkend, is het toevoegen van een laag met vernederlandsing. Op deze toegevoegde laag kunnen moderne tools voor taalanalyse met meer succes worden toegepast. In deze presentatie geef ik een overzicht van onze ervaringen met deze aanpak.
Het onderzoek is hier online te raagplegen.

13:45 – 14:25 Marijn Schraagen (Digital Humatities Lab Universiteit Utrecht): Een baseline voor het parsen van historische tekst
Bestaande parsing-tools voor het Nederlands (zoals Frog en Alpino) leveren over het algemeen onbruikbare resultaten op bij toepassing op historische teksten. Met relatief eenvoudige aanpassingen aan de brontekst kan het resultaat worden verbeterd, maar nog niet voldoende voor daadwerkelijk gebruik in tekstanalyse. Door middel van een demonstratie zal een baseline van op dit moment mogelijke verbeteringen worden gepresenteerd, en de voorwaarden voor verder onderzoek zullen worden besproken.

14:25 – 15:05 Henny Brugman (Meertens Instituut / Nederlab)
Tekstcollecties in Nederlab
In mijn presentatie zal ik toelichten hoe we bestaande digitale collecties voorbewerken en verrijken ten behoeve van exploitatie in Nederlab. Tevens zal ik ingaan op huidige en beoogde mogelijkheden van de Nederlab-omgeving voor wetenschappelijke eindgebruikers.

15:05 – 15:20 Pauze

15:20 – 16:00 Marc Kemps-Snijders (Meertens Instituut / Nederlab): Digitalisering en ontsluiting van teksten
Het toevoegen en doorzoekbaar maken van annotatielagen aan teksten levert problemen op met de schaal. Er zijn verschillende oplossingen voor dit probleem. Op het Meertens Instituut wprdt binnen CLARIAH gewerkt aan de ontwikkeling van MTAS (Multi-Tier Annotation Search), die uitgaat van de tekstindexering en zoekfunctionaliteiten van Lucene. In deze presentatie licht ik het MTAS-project toe en vertel ik over het mogelijke inzetten van crowdsourcing voor het toevoegen van annotaties.

16:00 – 16:40 Martin Reynaert (Radboud Universiteit / Nederlab)
Opsporen van auteurs- en genrevariatie met gebruikmaking van metadata en annotatielagen
Martin Reynaert, die vanuit Nijmegen meewerkt aan Nederlab, laat de mogelijkheden zien die Whitelab en Blacklab bieden voor het doorzoeken van annotatielagen die aan corpora zijn toegevoegd.

16:40 – 17:00 Plenaire discussie

17:00 – 18:00 Borrel

Locatie: Utrecht, Universiteitsbibliotheek Binnenstad (Drift 27): Tielezaal (1.25)

Feike Dietz (UU, ICON)
Erwin Komen (CLARIN)
Marjo van Koppen (UU, UiL-OTS)
Nicoline van der Sijs (Nederlab, Meertens Instituut, Radboud Universiteit)

Presentaties zijn te vinden op http://www.clarin.nl/node/2107.