De Volkskrant, 31-08-2013, door Bard van de Weijer .2010

Big data | Alfa's maken volop gebruik van supercomputers

Uw bericht is sarcastisch, zegt de computer

De brute rekenkracht van supercomputers helpt taalkundigen vondsten te doen. Hoe een computer leert dat een paard geen dier is maar een gymtoestel.

Tussentitel: Sociale media als Twitter hebben het domein van de taalonderzoeker recentelijk verder vergroot. 'Je weet precies wie wanneer wat gezegd heeft'

Na het gesprek op de dertiende verdieping van het VU-gebouw heeft Piek Vossen een afspraak met SURFsara. De hoogleraar computational lexicology wil afspraken maken voor rekentijd op de supercomputers van het universitaire rekencentrum, voor een van zijn taalkundige projecten. Tot voor kort leek het gebruik van supercomputers voorbehouden aan bètawetenschappen als sterrenkunde en wiskunde, inmiddels maken ook alfa's er volop gebruik van.

Statistiek en taal blijken goed samen te gaan. Je kunt er taalveranderingen in de loop van de tijd mee opsporen, dialecten mee ontdekken en zelfs het nieuws duiden. Maar dat vergt vaak brute rekenkracht. Voor een Europees taalproject analyseert hoogleraar Vossen al het financieel-economische nieuws dat is gepubliceerd sinds de uitbraak van de kredietcrisis. Tienduizenden berichten zijn daarover de afgelopen jaren verschenen, die gaan over tienduizenden gebeurtenissen met tienduizenden actoren en honderden miljoenen woorden. Om al die data te analyseren kom je met een desktop niet ver. 'Mijn Linux-machine staat per artikel zes minuten te rekenen. Er wordt dus meer gepubliceerd dan hij aankan.' Gelukkig is daar de supercomputer.

Nieuw is de verbintenis tussen taalwetenschap en computers overigens niet. Hoogleraar Antal van den Bosch van de Radboud Universiteit Nijmegen gebruikt ze al twintig jaar. 'En daarvoor deden anderen het ook al.' Dat het fenomeen nu een hoge vlucht neemt, is volgens Van den Bosch te danken aan de grotere computerkracht en opslagcapaciteit. 'Bovendien is er veel meer data voorhanden. Je deelt het makkelijker en de verspreiding ervan gaat dankzij internet veel sneller.' Wikipedia en krantenarchieven bieden een schat aan data. Sociale media als Twitter hebben het domein van de taalonderzoeker recentelijk verder vergroot. 'Een geweldig medium', zegt Van den Bosch. 'Mensen bieden er vrijwillig teksten aan. Je weet precies wie wanneer wat gezegd heeft, en soms zelfs waar.'

De Nijmeegse hoogleraar is inmiddels bezig met een project om te kijken of de computer sarcasme en ironie kan ontdekken in teksten. 'Vroeger moest je dan teksten met de hand doorvlooien en labelen, nu gebeurt dat vrijwillig door twitteraars, die een sarcastisch bedoelde tekst eindigen met de hashtag sarcasme of ironie.' Zo'n hashtag is een middel voor metacommunicatie. Het hoort niet tot de tekst, maar geeft duiding - een geschreven versie van de opgetrokken wenkbrauw. Dankzij de vele Nederlandse twitteraars kan Van den Bosch zomaar 400 duizend gelabelde tweets zijn computer laten binnenlopen om patronen te analyseren, wat overigens nog niet meevalt. 'Het ontdekken van ironie is heel lastig voor een computer. Dat is niet zo gek, ook mensen hebben er moeite mee.'

Hoe leer je een computer een taal? Dat kan niet, stelt zowel Vossen als Van den Bosch. Je kunt een computer aspecten van taal leren. Vossen: 'Wij beginnen met de bouwstenen van een tekst, de woorden. Die leggen we naast lexica waarin de betekenis van die woorden al min of meer vastligt.' Zo'n lexicon is gewoon een lijst met woorden, zeg 100 duizend, met daaraan de betekenis gekoppeld, aldus Vossen. 'Dus wat wij denken dat dit woord betekent.'

Maar woorden hebben vaak meerdere betekenissen. Neem Paard. Als de computer tegen dit woord aanloopt, zal hij moeten kiezen of het een dier, schaakstuk of gymnastiektoestel betreft. Of neem 'meer'. Dat kan een plas water zijn, maar ook een bijwoord. 'Welke betekenis heeft dit woord in deze tekst? Dat weet je niet. Dus moet je gaan kiezen.' De computer moet de betekenis en de functie van het woord vaststellen. De functie van een woord kan worden vastgesteld door de grammaticale structuur van de zin te analyseren. De computer weet wat de structuur van een zin is, wat het werkwoord is, wat de zelfstandige naamwoorden zijn. Daar bestaan allerlei systemen voor die gewoon op de plank liggen, zegt Vossen.

Het geven van betekenis aan woorden gebeurt door te kijken naar de omgeving waarin het staat: andere woorden in de zin kunnen een aanwijzing geven. Zoals gymzaal. Als 'paard' in de buurt van 'gymzaal' staat, is de kans groot dat het toestel wordt bedoeld en niet het schaakstuk. Het maken van dit soort keuzes moet je de computer leren en dat gebeurt, net als bij kinderen, door het eerst voor te doen. 'Je loopt met de computer een tekst door tot je op het onbekende woord 'paard' stuit. Dan geef je vervolgens aan: in deze omgeving betekent het dit, en in deze omgeving dat.' Dit handmatig taggen levert uiteindelijk data op waarmee de computer zelf kan gaan bepalen welke context het meest waarschijnlijk is.

Helaas is die context heel beperkt. 'De computer kijkt hooguit naar woorden in de omgeving, woorden waarvan hij soms niet eens de betekenis kent.' Als dat paard in een gymzaal staat waar een schaaktoernooi gehouden wordt, ontstaat een probleem. Bij conflicterende betekenissen is het vaker beter even geen keuze te maken, zegt Vossen. De computer is geneigd te denken dat paard een dier is, simpelweg omdat deze betekenis het vaakst voorkomt. In het geval van ons voorbeeld zou hij wellicht kiezen voor het schaakstuk, omdat deze betekenis vaker voorkomt dan het gymtoestel. 'Maar je weet niet of dat goed is. Dan kun je maar beter even geen keuze maken.'

Volgens het woordenboek zijn de helft van de woorden in een tekst ambigu. Als wij mensen een tekst lezen, dan merken we daar echter niets van. 'De woorden in de tekst heffen elkaars dubbelzinnigheid op', zegt Van den Bosch, 'en daar kun je de computer ook op trainen.'

Dat trainen kan simpelweg met voorbeelden. In de enorme woordenzee staat altijd wel ergens een zin die lijkt op de zin waarmee de computer op dat moment bezig is. Door die twee met elkaar te vergelijken en door er statistiek op los te laten, wordt het model geholpen bij betekenistoekenning. 'Daarin bestaan overeenkomsten met hoe mensen dat doen', zegt Van den Bosch. 'Het menselijk geheugen is ook enorm, we slaan geweldig veel op.' Hij geeft een voorbeeld:
U
Weet
Wat
Ik
Ga
    Op het moment dat de lezer bij 'ga' is, fluistert de menselijke verwachtingenmachine dat 'zeggen' vermoedelijk het volgende woord zou zijn. 'Schrijven' of 'doen' kan ook. Dat mensen dit doen, is te verklaren uit het opslaan van talloze voorbeelden van dergelijke zinnen in ons geheugen. Bij de computer is het maken van 'menselijke' keuzen een kwestie van statistiek, en daar is dit apparaat toevallig heel goed in. 'Mijn theorie is: alles werkt met voorbeelden', zegt Van den Bosch. Telkens als de computer een taalkundige uitdaging tegenkomt, kijkt hij in zijn geheugen naar vergelijkbare constructies en trekt op basis daarvan zijn conclusies. Zo'n voorbeeldendatabase moet wel enorm zijn. 'Een miljard woorden vinden we weinig. We willen er miljarden.'

Voor veel computational linguisten is vertalen de heilige graal. Van den Bosch: 'Vertalen heeft zoveel in zich. Je moet vasthouden aan de oorspronkelijke betekenis. Je moet een andere taal genereren. Grammaticaal correct werken. Er zijn zo vijf, zes problemen die een uitdaging zijn voor de taalwetenschap.'

In de jaren tachtig werd vooral gekeken naar grammatica. Werden de syntactische en semantische betekenissen van de te vertalen taal in kaart gebracht. En vervolgens die van de vreemde taal. Op basis van die analyses probeerde men automatisch te vertalen. 'Deze stroming is volledig ingehaald door het statistische systeem, dat werkt op basis van voorbeelden', zegt Van den Bosch. Door number crunchen dus, het doorploegen van enorme data-akkers. 'Dan sla je de semantiek en syntax volledig over.'

Dit raakt aan de kritiek die er is op het gebruik van Big Data. Critici zeggen dat de technieken kunnen helpen bij het doen van ontdekkingen, maar dat de verklaring van het gevonden fenomeen vaak achterwege blijft. 'Sommigen zeggen dat we niet langer theorieën nodig hebben, omdat we alles rechtstreeks uit de data kunnen halen', zegt hoogleraar David Hand van het Londense Imperial College. 'Maar zonder de begeleidende theorie is elke generalisatie riskant.'

Goede theoretische onderbouwing helpt bij het vinden van verklaringen en bij het doen van voorspellingen over toekomstige gebeurtenissen. Informatie die bestaande data soms niet bevatten, aldus Hand, die begin september naar Nederland komt voor een lezing over hypes rond Big Data. 'Neem het economische model als voorbeeld: dat kan leunen op enorme hoeveelheden data, die is verzameld in een economisch gunstige periode. Die data zouden weleens waardeloos kunnen blijken als het economisch tij plotseling keert. Zoals onlangs gebeurde...'

'We zijn er ook nog lang niet', zegt Van den Bosch. 'De modellen moeten nog veel krachtiger worden.' Niettemin zijn er grote sprongen voorwaarts gemaakt. 'Google Translate is een opmerkelijk bewijs van de kracht van Big Data', zegt Hand. 'Velen van ons dachten dat de statistische benadering onmogelijk tot goede vertalingen zou kunnen leiden en dat de meer traditionele methoden van grammaticale omzetting de juiste weg was. Het tegendeel is inmiddels bewezen.'


Tussenstukken:
NEWSREADER: de ideale krantenlezer

Het nieuws van vandaag ligt morgen in de kattenbak, wil het cliché. Maar het is wel waar. Gebeurtenissen die ons vandaag bezighouden, zijn twee weken later verdrongen door ander nieuws. Dat is jammer, vindt hoogleraar computational lexicology Piek Vossen van de VU. Want door die stortvloed aan berichten verliezen we soms het overzicht, en missen we verbanden tussen gebeurtenissen. De computer kan een ideale krantenlezer zijn: dankzij zijn enorme geheugen en rekenkracht kan hij het overzicht houden op gebeurtenissen die niet alleen nu spelen, maar ook in het verleden gespeeld hebben. Wellicht kan hij zelfs verbanden ontdekken die wij over het hoofd zagen.

Vanuit dit idee ontwikkelde Vossen met een groep Europese wetenschappers de Newsreader. Deze nieuwslezer kan relaties leggen tussen gebeurtenissen, wie erbij betrokken was, wanneer dit gebeurde en waar - ongeveer zoals de Wie Wat Waar Wanneer van de klassieke journalistiek. 'Bij elk stukje tekst kijken we naar Wie, Wat en Waar. Dat betekent dat van één nieuwsartikel al honderden van die analyses gemaakt kunnen worden.' Vervolgens kijkt Newsreader naar aanwijzingen in de tekst wanneer iets heeft plaatsgevonden ('gisteren', 'vorige week') en kunnen gebeurtenissen in een tijdsvolgorde worden geplaatst. Dan wordt gekeken of er causale relaties zijn (staking leidde tot ingrijpen oproerpolitie) en dezelfde personen betrokken zijn. 'Zo verbind je al die gebeurtenissen met elkaar en krijg je een abstracte verhaallijn die onder een artikel ligt.'

Krantenartikelen vertellen nooit het complete verhaal. Je leest altijd een deel, omdat sommige dingen nog niet bekend zijn, en andere juist bekend verondersteld worden. Newsreader doet dat wel. Die kan een verhaallijn terugspinnen tot de oorsprong. Dat kan gisteren zijn, maar ook in de Tweede Wereldoorlog, afhankelijk van de omvang van je nieuwsarchief. 'Als je nu meer wilt weten over een gebeurtenis of een persoon, kun je dat aan Newsreader opgeven. Die toont daarop alle verbanden en kun je op zaken stuiten die anders misschien onder de radar zouden blijven.'

Vossen verwacht dat instrumenten als Newsreader de rol van de journalistiek deels veranderen. 'Met dit soort research tools kun je het grote plaatje zichtbaar maken. De rol van de scoop, de waan van alle dag wordt minder belangrijk voor de geschreven pers. Het zal meer en meer gaan om research.'

AUTOTWEET
Gebruikers van een iPhone kennen de autocorrect, een taalhulp die woorden automatisch aanvult, maar daarbij vaak hilarische vergissingen maakt. Stel dat je een model maakt dat iemands eerdere tweets analyseert, dan kan dat vervolgens inschatten wat de gebruiker vermoedelijk gaat tikken. Dat komt, zegt Radboud-hoogleraar Antal van den Bosch, omdat mensen vaak dezelfde zinsconstructies gebruiken. En dezelfde woorden. 'We gebruiken nu eenmaal veel clichés en stramienen.' Daarvan maakt het model dus dankbaar gebruik. 'Uit ons onderzoek blijkt dat je met dit machientje zomaar de helft minder hoeft te tikken.'

SPELLEN
Big Data kan helpen bij foutloos spellen. Onderzoekers van de Radboud Universiteit Nijmegen ontwikkelden een spellingchecker die op basis van voorbeeldzinnen uit een enorme database bekijkt of de gebruikte zinsconstructie goed of fout is. Werkt beter dan die van Word, zeggen de onderzoekers. valkuil.net

KENNISKAART
Wie bij Google zoekt, krijgt aan de rechterkant soms een Wikipedia-achtig informatieblok met aanvullende gegevens. In tegenstelling tot Wikipedia wordt Googles Kenniskaart niet door mensenhanden samengesteld, maar gebeurt dit geheel automatisch - al komt een deel van de tekst soms rechtstreeks uit Wikipedia. De Kenniskaart haalt zijn informatie uit een databank waarin relaties zijn ondergebracht tussen ruim een miljard entiteiten waarnaar gebruikers vaak zoeken. Dit kunnen beroemdheden zijn, maar ook gebouwen, schilderijen en tijdperken. Tik maar eens in: Artis.


IRP:   Geen enkel voorbeeld - allemaal opvattingen op abstract cultureel niveau


Naar Onderwijsprogramma , Alg. semantiek lijst  , Alg. semantiek overzicht  , of site home .
 

[an error occurred while processing this directive]