De Volkskrant, 25-09-2010, door Peter van Ammelrooy |
.2010 |
Op zoek naar de pielmannetjes
Een woordenboek maken is een heidens karwei. Software gaat de lexicografen
daarbij binnenkort helpen.
Tussentitel: 'Betekenisleer is nog altijd het grote struikelblok voor een
computer'
Een computer heeft niets met Joost van den Vondel. Zijn Gysbreght van
Aemstel zou een kookboek kunnen zijn (‘Het hemelsche gerecht’) of misschien
een bericht op Teletekst over de kabinetsformatie (‘heeft zich ten langen
leste’). Het zou uit 1673 kunnen stammen (‘Erbarremt over my’) of gisteren
geschreven kunnen zijn door een commandant in Uruzgan (‘en myn benauwde veste’).
De computer ziet slechts letters en leestekens, woorden en zinnen.
Toch kan een computer wel boeken schrijven, of in elk geval ze helpen te maken.
Het Amsterdamse bedrijf GridLine bouwt een computerprogramma dat het fundament
kan leggen voor nieuwe woordenboeken. De software is ontworpen om uit een berg
teksten vaktermen te scheiden van gewone woorden. Het programma legt een lijst
aan en voegt er taalkundige kenmerken aan toe, zoals het geslacht, de
meervoudsvorm, vervoegingen en verbuigingen.
TermTreffer – want zo heet het – wordt ontwikkeld in opdracht van de
Taalunie, de Nederlands-Vlaamse organisatie die zich namens de overheid
bekommert om de Nederlandse taal. De unie omschrijft haar missie als ‘zo weinig
mogelijk drempels voor gebruikers van de Nederlandse taal’.
Vaktaal is zo’n drempel. Een bouwvakker hoef je niet uit te leggen wat een
stootvoeg of een pielmannetje is, maar het is abacadabra voor een
buitenstaander. TermTreffer helpt een brug te slaan tussen de bouw en de
buitenwereld. Dat kan het niet alleen voor de bouw, maar voor ieder specialisme
met een eigen idioom.
Wij stoten lexicografen niet het brood uit de mond, bezweert Tigran Spaan,
directeur van GridLine. TermTreffer doet het voorwerk. Echte taalkundigen kunnen
zich dan beperken tot de correctie en de bewerking van die ruwe selectie.
De Taalunie laat de software ontwikkelen omdat niemand anders dat doet op het
vereiste niveau. ‘Het opstellen van een thesaurus is een tijdrovend
proces, dat jaren kan vergen als het handmatig gebeurt’, legt Spaan uit. ‘Je
moet zo’n lijst steeds bijhouden, omdat taal zich voortdurend vernieuwt en
uitdijt. Om die reden zetten weinig vakorganisaties of afzonderlijke bedrijven
zich aan zo’n karwei. De samenstelling van een eigen woordenschat is een dure
grap.’
Het is er wel eentje die zich zou kunnen terugbetalen, zegt Spaan.‘Bedrijven
beginnen in te zien hoe ze met taalmiddelen geld kunnen besparen. Als jij een
onbegrijpelijke tekst met veel jargon naar je klanten stuurt, gaan die bellen
voor een uitleg. Dan moet je personeel die bellers te woord staan en komen ze
niet toe aan hun echte werk.’ Een termenlijst of thesaurus maakt ook semantisch
zoeken mogelijk – de heilige graal voor zoekmachines als Google.
Klinkende Taal
GridLine legt zich sinds zes jaar toe op software die bedrijven, overheden en
andere instanties helpt processen met taalsoftware te stroomlijnen. Zijn
bekendste product is Klinkende Taal. Zoals een ingebouwde spellingchecker de d’s
en t’s corrigeert, slecht GridLine’s software barričres die teksten taai maken.
Vaktermen, dure woorden, ingewikkelde en te lange zinnen: allemaal gaan ze in
een verbe-teradvies voor de bijl.
TermTreffer sluit naadloos aan bij het werk dat GridLine op dit gebied al heeft
verricht. Het bedrijf sleepte in mei, voor net geen anderhalve ton, de
aanbestedingsopdracht van de Taalunie in de wacht. Die had twaalf maanden
uitgetrokken voor de ontwikkeling. Spaan zegt dat de software in oktober klaar
is.
TermTreffer is een gereedschapskist waaruit lexicografen de hulpstukken kunnen
kiezen om hun basisselectie zo scherp mogelijk te maken. Elke selectie begint
met het rijp maken van de berg teksten die wordt gebruikt, legt ontwikkelaar Job
Tiel Groenestege uit. ‘Ze moeten grammaticaal in orde zijn, anders kun je er
geen syntactische analyse op loslaten. De software haalt veel van zijn kennis
uit het zinsverband.’
Spelfouten, typfouten en afleidingen zoals meervouden zijn andere zaken die de
software moet herkennen om te voorkomen dat hij verkeerde begrippen aanmerkt als
vaktaal. Veel voorkomende tikfouten zijn op te sporen omdat de computer weet
welke letters op het toetsenbord naast elkaar liggen.
Om termkandidaten op te sporen zeeft het programma stopwoorden uit de teksten en
eigennamen. Het breekt samengestelde begrippen op in aparte componenten (keuken
en kastje uit keukenkastje). Het herkent woordsoorten (zelfstandig naamwoord,
lidwoord, werkwoord) en woordgroepen die vaak in een samenstelling opduiken,
zoals ‘minister Ernst Hirsch Ballin’.
Met de woordenschat die resteert, kan de statistische analyse beginnen. ‘Eerst
pas je een simpele voorselectie toe, zodat woorden die weinig voorkomen,
uitgesloten worden. Begrippen die veel voorkomen, kunnen sleutelwoorden zijn,
maar ook lidwoorden of functiewoorden’, zegt Tiel Groenestege. In TermTreffer
zijn verschillende statistische modules ingebouwd, waaruit de gebruikers kunnen
kiezen.
Vuurdoop
Het programma zet de voorselectie af tegen een corpus, een verzameling teksten
voor linguďstisch onderzoek. Daarmee zijn de bokken (mogelijke vaktermen) weer
verder van de schapen (alledaags Nederlands) te scheiden. In de computers van
GridLine staan tal van corpora opgeslagen. Zoals het Eindhovens Corpus, dat
tussen 1960 en 1976 werd samengesteld. Het telt 750 duizend woorden en is
handmatig geannoteerd met lexicale en grammaticale codes.
Binnenkort ondergaat TermTreffer zijn vuurdoop. Dan wordt de software op een
studieboek losgelaten waaruit onderzoekers van de Lessius Hogeschool in
Antwerpen al met de hand een lexicon hebben opgesteld.
GridLine kijkt intussen verder. ‘Wat wij doen, is met taaltechnologie in de
richting van semantiek schuiven. Betekenisleer is nog altijd het grote
struikelblok: een computer weet niet dat een stoel meestal bij een tafel staat.
Als we dit probleem oplossen, zijn er meteen veel toepassingen mogelijk. Dan kun
je denken aan het automatisch toekennen van trefwoorden aan documenten, maar ook
aan semantisch zoeken’, zegt Spaan.
IRP: Vraag is altijd groter dan aanbod, doordat er te veel mensen
nar Adam willen. Zou je aan de vraag voldoen, is Adam Adam niet meer.
Naar
, lijst
,
overzicht
, of site home
.
(volledig artikel hier
)
|