Een goede conditie voor Lingo

Ik wil het vanavond graag met jullie hebben over condities. Als jullie nu willen roepen: “Mooi, want ik heb hele goede condities!”, dan zou dat wel gek zijn want ‘condities’ is meervoud. Meestal hebben we het maar over één conditie. Tenzij er echt onderscheid te maken valt. Misschien hebben jullie wel verschillende een goede conditie nuchter, maar ook nog een goede conditie met bier op. Dan kun je dus misschien wel zeggen “ik heb goede condities”. Maar als je helemaal niet zo goed bent met bier op, dan heb je dus één goede conditie. Een goede conditie, als je geen bier op hebt. En dat laatste is een conditie waar ik het vanavond met jullie over wil hebben.

Condities, voorwaarden, mitsen, alsen, wat je nodig hebt om een uitspraak te doen die alleen klopt in bepaalde gevallen, onder bepaalde omstandigheden.

Zelf ben ik statisticus en werk ik dus met onzekerheden. Hoe onzeker iets is hangt dan vaak van de condities af. Als je bijvoorbeeld statistiek gebruikt in geneesmiddelenonderzoek vergelijk je hoe zeker of onzeker het is dat een patiënt geneest als die een nieuwe pil heeft gekregen, met als die een placebopil gekregen heeft.

Onzekerheden drukken we uit met kansen en kansen zijn, zeker conditionele kansen, vaak lastig te interpreteren. Een voorbeeld daarvan zie ik in het debat over sleepnetsurveillance. Sleepnetsurveillance is het opslaan en doorzoeken van bijvoorbeeld alle internetgegevens van iedereen. De afluisteraars van de Verenigde Staten, van bijvoorbeeld de NSA, kunnen dat niet allemaal zelf zitten bekijken. Daarvoor hebben ze computers nodig, waarvan het altijd onzeker is of ze herkennen waarnaar jij op zoek bent. Dus worden uitspraken gedaan over de zekerheid van de werkwijze van zo’n computer. Algoritmes kunnen bijvoorbeeld zoeken in data over wat iedereen gegoogeld heeft om te herkennen wanneer iemand een terrorist is. Hoe onzeker zo’n terroristenherkenning is, is een conditionele kans. Er kan bijvoorbeeld een uitspraak voorbijkomen dat zo’n algoritme 80% van de terroristen aan hun zoekgedrag op internet kan herkennen. Hoe interpreteer je dat? Moeten we op grond van zo’n uitspraak vertrouwen hebben in dat algoritme? Deze uitspraak betekent dat als je het algoritme het zoekgedrag van een terrorist zou voeren, deze 80% kans heeft om te herkennen dat het een terrorist is. Een conditionele kans dus. Kunnen we het algoritme dan dus goed loslaten op het zoekgedrag van alle internetgebruikers en ‘t de terroristen laten aanwijzen? Onder het zoekgedrag van iedereen zit natuurlijk met name zoekgedrag van niet-terroristen.

Het is een beetje als met die ballen in een vaas. En voordat jullie roepen: “Nee, niet die ballen in een vaas! Dat sloeg op de middelbare school al nergens op, en dat slaat nog steeds nergens op”, toch keken 25 jaar lang tussen de kwart miljoen en een miljoen mensen naar ballen uit een vaas trekken met als achtergrondgeluid “Groen” Lingo ja, ballen trekken uit een vaas.

Hoeveel kan het helpen als het publiek “Groen!” roept? Stel dat we nu het vermogen van dat publiek om ons aan een groene bal te helpen, vergelijken met het vermogen van het NSA algoritme om ons aan een terrorist te helpen. Dan is een 80% kans om een terrorist te herkennen vergelijkbaar met het vermogen van het publiek om “Groen” te roepen als er alleen maar groene ballen in de vaas zitten. Dan is 80% eigenlijk best belabberd.

Maar het wordt nog erger. Wat zegt dit nu over onze winkansen als er ook rode en blauwe ballen in de vaas zitten? De NSA draait zo’n algoritme immers ook op data van jou en mij. Dan moeten we dus weten wat het publiek roept als er helemaal geen groene ballen in de vaas zitten. Roepen ze dan ook weleens per ongeluk “Groen!”? Helaas zal dat inderdaad het geval zijn, net zoals een algoritme een onschuldig iemand als terrorist kan aanwijzen. Het probleem is de verhouding tussen de twee gevallen, de twee condities. Er zijn gewoon heel veel meer onschuldige mensen dan terroristen.

Dus het publiek vergeet weleens “Groen!” te roepen als er alleen nog groene ballen over zijn, iets wat gelukkig weinig voorkomt. Maar het grootste deel van de tijd hangt je hand helemaal niet boven een groene bal en kan het publiek ook wel “Groen!” roepen. Wat heb je er dan aan dat er “Groen” geroepen wordt? Moet je dan de bal pakken waar je hand net boven hangt? Met een legereenheid de deur intrappen van de betreffende internetgebruiker? Bij een potje grabbelen naar internetgebruikers zijn dat een hoop ten onrechte als terrorist aangewezen Lingoballen.

Dus conditie is belangrijk. Als je nog eens ergens iets leest met zoveel procent kans, ga dan na wat de conditie is. Want met alleen maar groene ballen is er bij de Lingo niks aan.