De Volkskrant, 25-09-2010, door Peter van Ammelrooy

.2010

Op zoek naar de pielmannetjes

Een woordenboek maken is een heidens karwei. Software gaat de lexicografen daarbij binnenkort helpen.

Tussentitel: 'Betekenisleer is nog altijd het grote struikelblok voor een computer'

Een computer heeft niets met Joost van den Vondel. Zijn Gysbreght van Aemstel zou een kookboek kunnen zijn (‘Het hemelsche gerecht’) of misschien een bericht op Teletekst over de kabinetsformatie (‘heeft zich ten langen leste’). Het zou uit 1673 kunnen stammen (‘Erbarremt over my’) of gisteren geschreven kunnen zijn door een commandant in Uruzgan (‘en myn benauwde veste’). De computer ziet slechts letters en leestekens, woorden en zinnen.

Toch kan een computer wel boeken schrijven, of in elk geval ze helpen te maken. Het Amsterdamse bedrijf GridLine bouwt een computerprogramma dat het fundament kan leggen voor nieuwe woordenboeken. De software is ontworpen om uit een berg teksten vaktermen te scheiden van gewone woorden. Het programma legt een lijst aan en voegt er taalkundige kenmerken aan toe, zoals het geslacht, de meervoudsvorm, vervoegingen en verbuigingen.

TermTreffer – want zo heet het – wordt ontwikkeld in opdracht van de Taalunie, de Nederlands-Vlaamse organisatie die zich namens de overheid bekommert om de Nederlandse taal. De unie omschrijft haar missie als ‘zo weinig mogelijk drempels voor gebruikers van de Nederlandse taal’.

Vaktaal is zo’n drempel. Een bouwvakker hoef je niet uit te leggen wat een stootvoeg of een pielmannetje is, maar het is abacadabra voor een buitenstaander. TermTreffer helpt een brug te slaan tussen de bouw en de buitenwereld. Dat kan het niet alleen voor de bouw, maar voor ieder specialisme met een eigen idioom.

Wij stoten lexicografen niet het brood uit de mond, bezweert Tigran Spaan, directeur van GridLine. TermTreffer doet het voorwerk. Echte taalkundigen kunnen zich dan beperken tot de correctie en de bewerking van die ruwe selectie.

De Taalunie laat de software ontwikkelen omdat niemand anders dat doet op het vereiste niveau. ‘Het opstellen van een thesaurus is een tijdrovend proces, dat jaren kan vergen als het handmatig gebeurt’, legt Spaan uit. ‘Je moet zo’n lijst steeds bijhouden, omdat taal zich voortdurend vernieuwt en uitdijt. Om die reden zetten weinig vakorganisaties of afzonderlijke bedrijven zich aan zo’n karwei. De samenstelling van een eigen woordenschat is een dure grap.’

Het is er wel eentje die zich zou kunnen terugbetalen, zegt Spaan.‘Bedrijven beginnen in te zien hoe ze met taalmiddelen geld kunnen besparen. Als jij een onbegrijpelijke tekst met veel jargon naar je klanten stuurt, gaan die bellen voor een uitleg. Dan moet je personeel die bellers te woord staan en komen ze niet toe aan hun echte werk.’ Een termenlijst of thesaurus maakt ook semantisch zoeken mogelijk – de heilige graal voor zoekmachines als Google.

Klinkende Taal
GridLine legt zich sinds zes jaar toe op software die bedrijven, overheden en andere instanties helpt processen met taalsoftware te stroomlijnen. Zijn bekendste product is Klinkende Taal. Zoals een ingebouwde spellingchecker de d’s en t’s corrigeert, slecht GridLine’s software barrières die teksten taai maken. Vaktermen, dure woorden, ingewikkelde en te lange zinnen: allemaal gaan ze in een verbe-teradvies voor de bijl.

TermTreffer sluit naadloos aan bij het werk dat GridLine op dit gebied al heeft verricht. Het bedrijf sleepte in mei, voor net geen anderhalve ton, de aanbestedingsopdracht van de Taalunie in de wacht. Die had twaalf maanden uitgetrokken voor de ontwikkeling. Spaan zegt dat de software in oktober klaar is.

TermTreffer is een gereedschapskist waaruit lexicografen de hulpstukken kunnen kiezen om hun basisselectie zo scherp mogelijk te maken. Elke selectie begint met het rijp maken van de berg teksten die wordt gebruikt, legt ontwikkelaar Job Tiel Groenestege uit. ‘Ze moeten grammaticaal in orde zijn, anders kun je er geen syntactische analyse op loslaten. De software haalt veel van zijn kennis uit het zinsverband.’

Spelfouten, typfouten en afleidingen zoals meervouden zijn andere zaken die de software moet herkennen om te voorkomen dat hij verkeerde begrippen aanmerkt als vaktaal. Veel voorkomende tikfouten zijn op te sporen omdat de computer weet welke letters op het toetsenbord naast elkaar liggen.

Om termkandidaten op te sporen zeeft het programma stopwoorden uit de teksten en eigennamen. Het breekt samengestelde begrippen op in aparte componenten (keuken en kastje uit keukenkastje). Het herkent woordsoorten (zelfstandig naamwoord, lidwoord, werkwoord) en woordgroepen die vaak in een samenstelling opduiken, zoals ‘minister Ernst Hirsch Ballin’.

Met de woordenschat die resteert, kan de statistische analyse beginnen. ‘Eerst pas je een simpele voorselectie toe, zodat woorden die weinig voorkomen, uitgesloten worden. Begrippen die veel voorkomen, kunnen sleutelwoorden zijn, maar ook lidwoorden of functiewoorden’, zegt Tiel Groenestege. In TermTreffer zijn verschillende statistische modules ingebouwd, waaruit de gebruikers kunnen kiezen.

Vuurdoop
Het programma zet de voorselectie af tegen een corpus, een verzameling teksten voor linguïstisch onderzoek. Daarmee zijn de bokken (mogelijke vaktermen) weer verder van de schapen (alledaags Nederlands) te scheiden. In de computers van GridLine staan tal van corpora opgeslagen. Zoals het Eindhovens Corpus, dat tussen 1960 en 1976 werd samengesteld. Het telt 750 duizend woorden en is handmatig geannoteerd met lexicale en grammaticale codes.

Binnenkort ondergaat TermTreffer zijn vuurdoop. Dan wordt de software op een studieboek losgelaten waaruit onderzoekers van de Lessius Hogeschool in Antwerpen al met de hand een lexicon hebben opgesteld.

GridLine kijkt intussen verder. ‘Wat wij doen, is met taaltechnologie in de richting van semantiek schuiven. Betekenisleer is nog altijd het grote struikelblok: een computer weet niet dat een stoel meestal bij een tafel staat. Als we dit probleem oplossen, zijn er meteen veel toepassingen mogelijk. Dan kun je denken aan het automatisch toekennen van trefwoorden aan documenten, maar ook aan semantisch zoeken’, zegt Spaan.

IRP: Vraag is altijd groter dan aanbod, doordat er te veel mensen nar Adam willen. Zou je aan de vraag voldoen, is Adam Adam niet meer.

Naar , lijst , overzicht , of site home . (volledig artikel hier )

[an error occurred while processing this directive]