MENU's
RIJNLANDMODEL    
  
  MENU - KEUZE  
RIJNLANDMODEL  

Bronnen bij Menswetenschappen, regels: data mining

31 dec.2009

De meest objectieve manier om sociologie te bedrijven is door middel van data mining. Dit is een term uit de informatie-technologie voor methodieken om uit een, meestal (zeer) grote, verzameling gegevens een patroon of trend te halen, die niets te maken hoeft te heeft met de reden waarvoor de gegevens verzameld zijn. Het is voor de sociologie "ontdekt" door de econoom Steven Levitt, in zijn boek Freakonomics (2005)  (Wikipedia), en vindt door de voortgang in het gebruik van databases steeds ingang.
     Het eerste voorbeeld gevonden sinds het opstellen van de menswetenschappelijke regels (mei 2009):


Uit: Leids universiteitsblad Mare, 03-12-2009, door Bart Braun

Boeven voorspellen

Door slim te spitten in een database met misdadigers, is het mogelijk om uitspraken te doen over iemands toekomstige carrière. ...

Tussentitel: Opgepakt voor doodslag? Grote kans op eerdere veroordeling wegens racisme

...   Als een bepaald soort misdadigers een sterk verhoogd risico loopt om zich aan te sluiten bij de maffia, dan willen criminologen en beleidsmakers dat heel graag weten. Daar kan dan bij de reclassering extra aandacht aan besteed worden, bijvoorbeeld. Het grote probleem is: hoe weet je dat? Je kunt veroordeelde topcriminelen ondervragen, maar die staan niet bekend om hun spraakzaamheid.
    Je kunt ook aan de slag gaan met de gegevens die je al hebt. De politie heeft een database met alle Nederlanders die sinds 1986 zijn veroordeeld voor een misdrijf, of in de afgelopen zes maanden verdacht zijn van een misdrijf. Ongeveer een miljoen mensen, samen met hun demografische gegevens en criminele verleden. Een gigantische berg data, waarin een gewone sterveling door de bomen het bos niet meer kan zien.
    Een computergestuurde techniek om wegwijs te worden in een oerwoud van gegevens heet data mining. Verzekeraars doen het met hun klantenbestand, om makkelijker fraudeurs te kunnen vinden. Supermarkten doen het met boodschappen, Bol.com geeft u boekentips door aankopen te vergelijken met die van andere mensen die dezelfde boeken kopen. De politie zou het ook kunnen doen.
    Informaticus Tim Cocx promoveerde woensdag op zulke technieken voor criminaliteitsbestrijding. ‘Een programma dat zoekt naar onverwachte verbanden die vaak voorkomen’, zo licht hij toe: ‘Wordt iemand die graffiti spuit later een verkrachter, of juist niet?’
    In zijn proefschrift staat maar een handjevol van zulke relaties. Mensen die opgepakt worden voor doodslag, zijn opvallend vaak al eerder in aanraking gekomen met de politie vanwege racisme. De vrouwen in de database zijn significant vaker verslaafd aan drugs dan mannen. Joyriders worden vaker veroordeeld voor het overtreden van de arbeidswet. ...


Red.:   Natuurlijk zijn er vanuit politiek-correcte kringen nu nog bezwaren tegen deze techniek voor dit soort toepassingen, maar net als met DNA zal dat waarschijnlijk door de effectiviteit ervan overwonnen worden.
    Natuurlijk veroorzaakt alleen al het idee van zulk onderzoek politiek-correcte bezwaren:
 
  Cocx is terughoudend om over zijn onderzoek te praten. ‘Dat heeft ermee te maken dat het niet onze gegevens zijn. Maar ook met het activistische karakter van mensen die hier moeite mee hebben.

De reden van de politiek-correcte bezwaren is dat dit soort onderzoek niet naar opvattingen kijkt, en dus heel politiek-incorrecte uitkomsten kan opleveren.
    Het tweede opgedoken voorbeeld levert zo'n politiek-incorrecte uitkomst, aangaande de effecten van etnische vermenging op grotere schaal:


Van: Volkskrant.nl, 14-08-2009, rubriek Science Palooza, door Tim van Opijnen

Etnisch conflict management

Etnische groepen moet je scheiden of compleet integreren, blijkt uit onderzoek. Aan beide oplossingen zitten nare kantjes maar niets doen is op een tijdbom zitten.

Tussentitel: De enige informatie die je nodig hebt is de demografie

In de 20ste eeuw zijn meer dan 100 miljoen mensen omgekomen als gevolg van gewelddadige conflicten tussen groepen met verschillende etnische achtergronden. Conflicten in voormalig Joegoslavië, Rwanda en het nog altijd voortslepende conflict in Darfur tonen aan dat we nog maar slecht begrijpen hoe conflicten ontstaan en hoe ze zijn te vermijden. Terwijl je met een vrij simpel wiskundig model een heel eind blijkt te kunnen komen.
    Aannemende dat het voorkómen van conflicten het doel is, lijkt het voor de hand te liggen dat je eerst de oorzaak moet begrijpen. De realiteit is alleen zeer complex, en het blijkt dat aan ieder conflict een heel scala aan factoren ten grondslag ligt. Zo is de oorsprong van het conflict tussen Hutu’s en Tutsi’s in Rwanda in de jaren negentig gedeeltelijk terug te voeren tot het einde van de Eerste Wereldoorlog toen de Tutsiminderheid de macht in handen kreeg en etnische identificatiepapieren verplicht werden. Een opeenstapeling van frustraties, gevoed door voorkeursbehandelingen, gewelddadige machtswisselingen, een dramatische economie, de uitputting van het land door veeteelt en landbouw en het bewust onderstrepen van etnische verschillen, leidde uiteindelijk tot een apocalyptische uitbarsting van geweld.
    Zo kan je alle conflicten in de wereld afgaan om tot de conclusie te komen dat er niet één simpele oorzaak aan te wijzen is. Om dit soort complexe problemen beter te begrijpen worden op basis van allerlei factoren wiskundige modellen gebouwd om conflicten te analyseren. Maar die wiskundige modellen lopen tegen hetzelfde probleem aan: elk conflict vraagt om z’n eigen specifieke model en daarmee zijn modellen gebaseerd op het ene conflict onbruikbaar om voorspellingen te doen voor het andere conflict.
    Recentelijk is daar verandering in gekomen. Om te voorspellen waar haat tussen verschillende bevolkingsgroepen resulteert in geweld, blijkt het niet nodig om de oorzaak van het conflict te kennen. Je hoeft geen analyse te maken van de lokale economie of het karakter van de mensen.
    De enige informatie die je nodig hebt is de demografie van een gebied, oftewel de verdeling van etnische groepen over het gebied.
    Yaneer Bar-Yam en zijn collega’s van het New England Complex Systems Institute in Cambridge in de VS, laten zien dat etnische verschillen tussen groepen tot conflicten leiden als de groepen maar gedeeltelijk gemengd zijn. Zo stellen ze in hun model dat als groepen goed geïntegreerd en volledig gemengd zijn, er geen coherente groepen bestaan die kunnen twisten over publieke ruimtes. Aan de andere kant van het spectrum bestaan groepen met goed gedefinieerde grenzen die volledig gescheiden van elkaar leven. De groepen komen elkaar maar weinig tegen en conflicten zijn daardoor onwaarschijnlijk.
    Maar wanneer groepen gedeeltelijk zijn geïsoleerd zonder duidelijk grenzen liggen er problemen op de loer. Immers, een groep met een specifiek etnische achtergrond en daarbij horende regels zal van iedereen, in ieder geval in de publieke ruimtes, verwachten dat zij zich naar de culturele normen van de heersende groep conformeren. Daar waar onduidelijkheid bestaat over wiens regels nu eigenlijk zouden moeten domineren ontstaan conflicten.
    Om deze aannames te testen, bouwden Bar-Yam en collega’s een wiskundig model met demografische informatie als belangrijkste factor. Vervolgens werd het model gevraagd te voorspellen waar geweld was opgetreden tijdens de conflicten in voormalig Joegoslavië en tijdens conflicten in India. Voor beide landen werd op zeer nauwkeurige wijze door het model aangegeven op welke locaties geweld was uitgebroken. In hoeverre deze aanpak bruikbaar is voor andere gebieden zal zich moeten uitwijzen maar het laat zien hoe de mate van integratie van verschillende groepen een krachtige voorspeller van het uitbreken van geweld kan zijn.
    De oorzaak van haat en geweld tussen groepen zal per gebied verschillen, maar het blijkt dat etnisch geweld een collectief gedrag is dat voortkomt uit krachten die je kunt begrijpen. Dat betekent dat je daarop ook beleid kunt afstemmen; of je zorgt ervoor dat groepen compleet integreren of je scheidt ze van elkaar. ...



Red.:    De essentie van de uitkomst van dit onderzoek is deze: voor de onderzochte situaties is er bij goede benadering één factor die het al dan niet optreden van een etnisch conflict bepaalt: de etnisch-geografische of demografische verdeling.
    Een karakteristieke politiek-correcte reactie op de Volkskrant-website onder het artikel:


  InaDijstelberge schreef op 14-08-2009 14:45
Even de link gevolgd
www.necsi.ed u/research/ethnicv...

=De enige informatie die je nodig hebt is de demografie =
volgens de makers:
Social and economic factors are important in violence, still, our model shows that the distribution of the population can be the underlying condition that fosters conflict and violence.

Niet dus.

De problemen in de wereld zijn niet etnisch te verklaren, hoe graag mensen dit ook willen geloven.

Ook als de feiten anders uitwijzen, zeg je gewoon: "Het is niet zo".
    Het idee van data-mining is al bekend uit de sciencefiction, zoals de projectomschrijving van bovenstaande onderzoek laat zien  :

  NECSI's ethnic violence research demonstrates an overall approach to understanding social behaviors based upon the collective patterns of human interactions. This is a real world version of the Isaac Asimov's "Psychohistory" --- the science of understanding how groups of individuals interact. While specific concepts that Asimov developed are not necessarily valid, the idea that such a science can exist has now been demonstrated.

Het idee dus al gebruikt door Isaac Asimov als "psychohistory", in de boeken van de Foundation serie  (Wikipedia).
    Deze bron geeft ook een zicht op het belang van dit soort werk:

  Many people feel that human freedom requires unpredictability, however, to understand how group behavior can lead to violence is an important opportunity to intervene in critical problems of the human condition.
    We are hopeful that our work will help enable relief of the severe problems of dislocation, suffering and tragic death that accompanies etnic, cultural and religious conflict.

    Een tweede voorbeeld van de politieke-incorrectheid van de uitkomsten:


Uit: De Volkskrant, 18-06-2010, van verslaggever Robin Gerrits

'Veel culturen in de klas is slecht voor leerlingen'

Het idee dat gemengde scholen beter zijn voor leerlingen is populair. Maar volgens Dronkers is het tegendeel waar.

Leerlingen op middelbare scholen met veel verschillende culturen presteren duidelijk slechter dan leerlingen op scholen met een meer homogene populatie. Dat geldt voor zowel de allochtone als de autochtone leerlingen op die school.
    Dit betoogde onderwijssocioloog Jaap Dronkers donderdag in zijn inaugurele rede als hoogleraar aan de Universiteit Maastricht. ‘Voor scholen geldt niet: hoe meer gemengd, hoe beter. Met dat populaire idee wil ik afrekenen.’
     Dronkers baseert zijn conclusies op data uit grootschalig internationaal vergelijkend onderzoek naar schoolprestaties van 15-jarigen, PISA (2006). Hij onderzocht de gegevens en sloot andere mogelijke verklaringen voor de verschillen, zoals het opleidingsniveau van de ouders, uit. Dronkers stelt dat de resultaten meer achterblijven als de etnische diversiteit op een school groter is.
    Bovendien valt op dat met name leerlingen met een islamitische achtergrond de resultaten doen dalen. ‘Leerlingen afkomstig uit islamitische landen hebben een substantiële achterstand in taalscores op vergelijkbare migrantenleerlingen afkomstig uit andere herkomstlanden, en die achterstand kan niet met de sociaal-economische individuele achtergrond, de schoolkenmerken of de kenmerken van het onderwijsstelsel worden verklaard.’
    De onderwijssocioloog gebruikte voor de analyse PISA-gegevens van 9.279 migrantenkinderen (uit 35 verschillende herkomstlanden) en 76.569 leerlingen in 15 westerse landen. ...


Red.:   Dit was natuurlijk gelijk aan een keiharde vloek in de multiculturele kerk, die predikt dat vermenging van culturen een meerwaarde heeft - in alle opzichten. Aangezien vrijwel de gehele sociologie lid is van deze kerk, zou dit resultaat nooit uit andere onderzoek dan data-mining hebben kunnen komen.
    Een voorbeeld van het soort gegevens waaruit toekomstige resultaten kunnen komen:


Uit: De Volkskrant, 02-08-2010, door Wouter Keuning

'Zoekopdrachten kunnen voorspellen'

Tel alle zoekopdrachten over een onderwerp bij elkaar op en je kunt voorspellingen doen. Over griep bijvoorbeeld.

Consumenten gebruiken zoekmachine Google zo intensief dat al hun zoekopdrachten kunnen helpen om voorspellingen te doen, zegt Hal Varian, hoofdeconoom bij Google.

Wat zegt het als ik op Google op zoek ga naar informatie over Jan Smit?
‘Een individuele zoekopdracht zegt niets, maar als je al die zoekopdrachten bij elkaar ‘optelt’, zoals wij doen in onze database Google Insights for Search, blijken ze een voorspellende waarde te hebben.’

Kunt u voorbeelden geven?
‘Neem griep. De zoektocht naar griep gerelateerde onderwerpen op Google blijkt behoorlijk nauwkeurig te voorspellen wanneer griepepidemieën zich voordoen (zie grafiek, red.). Ook blijkt dat de werkloosheidscijfers, in elk geval in de Verenigde Staten, vrijwel exact overeenkomen met de zoektocht naar onderwerpen over werkloosheid. Het mooie van Insights for Search is dat het om actuele zoekopdrachten gaat, terwijl je bij officiële gegevens over werkloosheid, autoverkopen, vakantiebestemmingen en ga zo maar door, altijd een tijdje moet wachten tot ze er zijn. Voor alle duidelijkheid: we zeggen niet dat we alles kunnen voorspellen, maar wel dat we voorspellingen beter kunnen maken.’

Dat veel mensen zoeken naar Maxime Verhagen betekent toch niet dat ze op hem gaan stemmen?
‘Daarom is het ook niet voor alle situaties een even goed hulpmiddel. Maar om nog een voorbeeld te geven: de zoekopdrachten van consumenten naar deelnemers aan het Eurovisiesongfestival voorspellen al twee jaar op rij vrijwel nauwkeurig de uiteindelijke uitslag.’

Hoe representatief zijn de uitkomsten?
‘In een land als Nederland heeft 90 procent van de mensen internet. Dan is het dus zeker representatief.’   ...


Red.:    Het voorbeeld van griep is vermoedelijk niet correct: eerst is er de griep, en dan pas de zoekopdrachten.
    Een grappig voorbeeld van data mining is eentje dat de redactie kende van een column van een Amerika-correspondent, maar waarvan de bron verloren is gegaan - een internetzoektocht op de terminologie leverde een alternatief op. Eerst de feiten waarom het gaat:


Van: academischeboekengids.nl, opgeslagen 19-08-2010  , door Ben Vollaard, universitair docent aan de Universiteit van Tilburg.

Waarom Egyptenaren vaker foutparkeren dan Denen

Foutparkerende buitenlandse diplomaten in New York vertellen veel over de hardnekkigheid van corruptie.

In New York kunnen diplomaten parkeren waar ze willen. Parkeerboetes hoeven ze niet te betalen. Tot voor kort waren er ook geen andere sancties. Verkeerd geparkeerde auto’s van diplomaten verstopten de straten rond de gebouwen van de Verenigde Naties en voor restaurants door heel Manhattan.
   Het parkeergedrag van diplomaten in New York is ... een bron van ergernis voor andere bewoners en het stadsbestuur. ... blijkt ... dat niet alle diplomaten zich aan foutparkeren bezondigen. Nederlandse vertegenwoordigers bijvoorbeeld niet, Deense ook niet. Italiaanse diplomaten wel, Egyptische nog veel vaker. De foutparkeerders komen stuk voor stuk uit corrupte landen; de diplomaten die zich netjes aan de regels houden, komen juist uit landen met weinig corruptie.   ...


Red.:    In de column werden Zweden genoemd als degenen die vrijwel nooit foutparkeerden, hier de Denen. Waar het omgaat is dat iedereen op kan aanvoelen dat dit gedrag van diplomaten in het buitenland iets zegt over de sociale sfeer in het land van oorsprong. Alle in New York gestationeerde diplomaten verkeren in dezelfde sociale omstandigheden, en eventuele significante groepsverschillen in sociaal gedrag moeten dus uit het land van origine stammen. Wat in dit geval ook  nog eens een door andere onderzoeken bekend resultaat oplevert, waarmee dus de beide soorten onderzoeken elkaar bevestigen. Hetgeen dé manier is waarop natuurwetenschappers hun resultaten beoordelen: zijn er bevestigende verbanden tussen verschillende onderzoeken.
    De gegevens verzameld in het kader van het verkeersonderzoek, hebben dus de waarde van een onbedoeld experiment in het kader van niet-verwant sociologisch onderzoek - citerend uit het artikel:

  Handige economen gebruiken hun parkeergedrag – en andere goedgekozen thema’s – als ‘natuurlijk experiment’ en blazen de sociale wetenschappen nieuw leven in.

Het is ook op te vatten als een experiment. Daarbij worden diplomaten uit totaal verschillende landen, van IJsland tot Nigeria, allemaal in dezelfde situatie gebracht. De regels zijn hetzelfde, de handhaving ervan ook. Dan blijkt in het experiment dat niet alle diplomaten zich aan foutparkeren bezondigen. Nederlandse vertegenwoordigers bijvoorbeeld niet, Deense ook niet. ...

De auteur haalt zijn informatie uit diverse boeken over dit onderwerp, het voorgaande uit Raymond Fisman en Edward Miguel, Economic Gangsters. Corruption, Violence, and the Poverty of Nations. Uit een ander boek (zie ook de lijst verderop) komt een voorbeeld dat laat zien dat men voorzichtigheid moet betrachten omtrent eventuele secundaire factoren
 
  Om een voorbeeld te geven: voormalige koloniën doen het vaak beter dan hun niet-gekoloniseerde buurlanden. Blijkbaar profiteren landen van hun koloniale erfenis, bijvoorbeeld in de vorm van infrastructuur en bestuursapparaat. Maar een andere verklaring voor hetzelfde resultaat is ook mogelijk. Koloniale mogendheden kozen de landen uit met de meeste grondstoffen, goede toegang tot zee en andere gunstige kenmerken. Deze landen doen het dankzij dergelijke gunstige condities nog altijd relatief goed; de koloniale tijd heeft daar niets mee te maken.
    ... Het onlangs verschenen ‘Colonialism and Modern Income’ van James Feyrer en Bruce Sacerdote is een mooi voorbeeld van sociaalwetenschappelijk onderzoek ‘nieuwe stijl’. In dit artikel vergelijken de auteurs de economische groei van een groot aantal eilanden, waaronder de Comoren en de Bermuda-eilanden. De kolonisten lieten sommige eilanden links liggen omdat deze door de heersende zeewinden niet of nauwelijks per zeilschip te bereiken waren. Het verschil tussen wel of niet gekoloniseerde eilanden zat dus niet zozeer in hun aantrekkelijkheid, maar in de vraag of men ze goed per schip kon bereiken. Dankzij het slimme onderzoeksontwerp is de relatief hoge economische groei van voormalige koloniën maar op één manier te verklaren: door de koloniale erfenis.

Een voorbeelden uit eigen wereld:
 
  Zo hebben economen de afgelopen tien jaar met hun oog voor natuurlijke experimenten eerdere conclusies van veel criminologisch onderzoek ondergraven. Zij toonden bijvoorbeeld aan dat méér politie wel degelijk leidt tot minder criminaliteit – in tegenstelling tot wat criminologen altijd dachten. Dezen hadden er namelijk geen rekening mee gehouden dat politie vooral daar wordt ingezet waar de criminaliteit zich ongunstig ontwikkelt. Omdat meer criminaliteit meer politie oplevert, is het niet verrassend dat de criminologen, zonder een goed natuurlijk experiment dat hiervoor corrigeert, niet opmerkten dat meer politie juist minder criminaliteit oplevert.
    Het wapen van de economen was een goed gekozen onderzoeksontwerp: toevallige variatie in politiesterkte als gevolg van bijvoorbeeld de aanslag op de Londense metro in 2005. Hierdoor moesten de buitenwijken van Londen veel agenten afstaan aan het stadscentrum. Pas maanden later kwamen deze agenten langzaam weer terug. Criminelen, groot en klein, bleken het tijdelijk ontbreken van politietoezicht in de buitenwijken goed te gebruiken om vaker te stelen en geweld te gebruiken.

En direct in het vervolg:
 
  Soortgelijke lessen volgden over het effect van gevangenisstraffen. Daarvan blijkt een duidelijke dreiging uit te gaan, zo toonde een natuurlijk experiment in Italië aan. Door overbevolking in de gevangenissen werden gedetineerden in 2006 massaal vervroegd vrijgelaten. De kwijtgescholden jaren moesten zij alsnog uitzitten als zij weer voor een vergrijp werden opgepakt. Deze dreiging bleek een sterke rem op crimineel gedrag.

Hier een lijst van literatuur die de auteur noemt:
 
  Raymond Fisman en Edward Miguel, Economic Gangsters. Corruption, Violence, and the Poverty of Nations.
J. Feyrer en B. Sacerdote. Colonialism and Modern Income. Islands as Natural Experiments, Review of Economics and Statistics 91/2 (2009) 245-262.
E. Miguel, S.M. Saiegh en S. Satyanath. National Cultural Norms and Soccer Violence. NBER Working Paper No. W13968. Cambridge, Mass. 2008 www.nber.org.
Joshua Angrist en Jörn-Steffen Pischke, Mostly Harmless Econometrics. An Empiricist’s Companion

De auteur constateert dat dit soort werk nu nog voornamelijk door econometristen, de rekenaars in de economische wetenschap, wordt gedaan, en trekt de terechte conclusie in de koptitels :
 
  Econometrie nieuwe stijl
...
... Handige economen gebruiken ... parkeergedrag – en andere goedgekozen thema’s – als ‘natuurlijk experiment’ en blazen de sociale wetenschappen nieuw leven in.

Voorbeelden gebruikt door deze website voor het geval van culturele vermenging zijn te vinden hier  .
    Weer een voorbeeld van de politiek zeer incorrecte uitkomsten van onderzoek volgens de methode van data-mining:


Uit: DePers.nl, 18-10-2010.

Antropologie | Wild wordt beschaafd

‘Beschaving kent een vaste ontwikkeling’

De menselijke samenleving kent zoiets als een ‘natuurlijke evolutie’. Dat blijkt uit statistisch onderzoek naar beschavingen in Azië en de Stille Zuidzee.

Menselijke beschavingen ontwikkelen zich volgens een vast patroon, van stammen, via koningschap naar (zoiets als) democratie. ... een halve eeuw geleden was iedereen die dat beweerde verdacht. Geloven in vaste stadia betekende immers geloven dat de westerse beschaving het hoogste stadium vertegenwoordigde – en dat was dus koloniaal denken. ... Maar de discussie bleef – en Britse antropologen besloten de vraag te beantwoorden langs statistische weg.
    Tom Currie en zijn team construeerden een stamboom van vierhonderd verwante talen, verspreid over de Indische Oceaan, Zuidoost-Azië en de Stille Zuidzee. Die stamboom biedt informatie over de verwantschap van de betreffende volken. Daarna vulden de onderzoekers in die stamboom de diverse typen samenleving in van die volken, en door de stamboom ‘af te lopen’ konden ze ‘aflezen’ hoe bepaalde culturen zich in de loop van honderden jaren hadden ontwikkeld. Conclusie: er bestaat zoiets als een vast ontwikkelingspatroon: stammen – koningen – een vorm van democratie. ...


Red.:    Tegen de meest geliefde opvattingen van een groot deel van de sociologen, vrijwel alle antropologen, en een flink deel van de politiek, bestuurlijke en intellectuele elite en alle multiculturalisten. Die zijn er ideologisch van overtuigd dat de islamitische cultuur op hetzelfde punt staat als de westerse, en daarna in steeds meer stappen naar beneden alle andere culturen tot aan die van de Papoea's enzovoort.



Naar Menswetenschappen, regels  , Menswetenschappen, huidig  , Wetenschap, lijst  , Wetenschap overzicht  , of site home  .