Wat zijn modellen eigenlijk?
Een model is een beperkte, informatieve weergave van een achterliggend fenomeen, gemaakt door mensen. In ieder model vind je minimaal drie elementen terug:
- Input - de informatie die je in een systeem stopt
- Throughput - met die informatie moet iets worden gedaan (berekend)
- Output – er moet wat uitkomen.
Je kunt een eerste onderscheid maken tussen statistische modellen en blackbox-modellen. Later kom ik nog op een andere mogelijke indeling van modellen.
Een statistisch model is een formalisering van relaties tussen variabelen in de vorm van wiskundige vergelijkingen. Een statistisch model beschrijft hoe één of meer willekeurige (stochastische) variabelen samenhangen met één of meer andere variabelen. Het model is statistisch omdat de variabelen niet deterministisch maar stochastisch (toeval/kans) aan elkaar gerelateerd zijn.
Aan een statistisch model ligt een of andere (meer of minder uitgewerkte) theorie ten grondslag. Als je helemaal niet weet hoe iets in elkaar steekt, dan kun je er geen model van maken (tenzij je gebruik maakt van zogenaamde blackbox-modellen, zie hieronder).
Je kunt ook werken met bepaalde aannames, en nagaan of je met die aannames de werkelijkheid kunt benaderen. Iedereen heeft wel eens een zwerm vogels gezien, die opeens massaal een andere kant op gaat vliegen. We maken hier een aanname (maar hebben geen goed omschreven theorie), waarmee het gedrag van een zwerm vogels gesimuleerd kan worden, dat het lijkt op het gedrag in de werkelijkheid. Maar we weten niet echt hoe en waarom ze het doen, wanneer, enzovoort. Als je een aanname ziet als een model en je past als regel toe: ‘Kijk naar je buren voor en naast je en doe onmiddellijk hetzelfde’, dan werkt dat model. Zonder dat het zo hoeft te zijn dat de vogels naar hun buren kijken en hen nadoen. Misschien kijken ze wel naar de maan, we weten het niet. De vraag die hierbij speelt is of je interesse uitgaat naar het bouwen en valideren van een theorie, of dat je geïnteresseerd bent in het simpelweg voorspellen van gedrag. Het kan best zijn dat je een bepaald gedrag prima kunt voorspellen zonder dat er een solide theorie onder ligt.
Modellen kunnen variëren in de mate van exactheid en kwantificatie, van een puur mentaal model tot een volledig gespecificeerd statistisch model. Als je een (statistisch) model maakt, heb je een aantal (vereenvoudigde) veronderstellingen nodig, je definieert grensvoorwaarden, beginvoorwaarden, onder welke omstandigheden iets gebeurt, en je definieert een toepassingsgebied. Stel dat je een groeimodel wil maken, dan is het niet zo dat je ieder groeimodel in iedere situatie kunt toepassen. Een groeimodel in de marketing is iets heel anders dan een groeimodel in de biosfeer.
Stel, je hebt een aantal veronderstellingen gedefinieerd, grensvoorwaarden, beginvoorwaarden, omstandigheden en een toepassingsgebied. Op dit punt kan al van alles zijn misgegaan, waardoor een model niet werkt, namelijk:
- Je specificatie van het model kan verkeerd zijn;
- Je kunt verkeerde aannames doen;
- Je laat variabelen weg die ertoe doen;
- Je neemt variabelen mee die er niet toe doen;
- Je hebt relaties (bijv. lineair, versus niet-lineair) tussen variabelen niet juist gespecificeerd.
Hoe meer variabelen je toevoegt en hoe langer je het model laat trainen op een bestaande dataset, hoe groter de kans op overfitting: wie te veel variabelen toelaat, modelleert de puistjes in plaats van het gezichtHoe bouw je een model?
Modellen maak je, zoals al gezegd, op basis van een theorie. De variatie reikt van de statistische modellen die je in marketing gebruikt tot klimaatmodellen. Een andere optie is een model afgeleid uit data – bijvoorbeeld met machine learning ( ML) en Artificial Intelligence (AI). Zelflerende software maakt een model; je weet van tevoren niet hoe dat eruitziet. Het (AI of ML) algoritme bepaalt zelfstandig en los van de gedachten van de maker wat de regels zijn waarmee hij het gedrag van de werkelijkheid kan voorspellen. Dit type modellen noemen we blackbox-modellen3.
Omdat blackbox-modellen worden afgeleid uit de data is het van bijzonder belang om te zorgen dat die modellen generaliseren. Dat wil zeggen: het resultaat moet niet het gevolg zijn van finetuning op de dataset waarop een algoritme ‘getraind’ is. Hoe meer variabelen je toevoegt en hoe langer je het model laat trainen op een bestaande dataset, hoe groter de kans op overfitting: wie te veel variabelen toelaat, modelleert de puistjes in plaats van het gezicht. Daarom worden bij AI en ML de datasets vaak in 3 delen gesplitst. Met de eerste set wordt het model ontwikkeld, met de tweede set getest, en het resultaat wordt losgelaten op een derde set, die door het model nog niet gezien is.
Door de drie datasets te scheiden kun je een model ontwikkelen en onderzoeken of het kan generaliseren en voorspellen, of niet.
Naast de indeling naar statistische modellen en blackbox-modellen kun je modellen ook anders indelen.
Systeemtheoretische modellen zoals klimaatmodellen
Systeemtheoretische modellen, bijvoorbeeld klimaatmodellen, zijn zeer complex. Het zijn eigenlijk chaotische systemen waar moeilijk mee te werken is, omdat er zoveel factoren bij betrokken zijn, die op een complexe manier samenhangen. Bovendien is sprake van grotendeels nog onbekende feedback-mechanismen. Het is lastig er iets mee te voorspellen, want als je aan plukje A trekt, gebeurt er iets waarvan je de gevolgen niet kunt overzien. Als je dit de volgende dag opnieuw doet, gebeurt er iets anders, wat je ook niet kunt overzien. Als je die gevolgen over een periode van 50 jaar op elkaar stapelt, dan kan de afwijking tussen voorspelling en realiteit enorm zijn.
En al zouden deze 12 punten wil de modellen van het IPCC zitten, dan gaat het alsnog mis: we kennen alle onderlinge relaties en die met andere variabelen niet. Als je in zo’n complex systeem alleen aan de koolstofknop draait, vindt zijn eigen verstopte paasei terug, maar wordt er niet veel wijzer van.Het IPCC (Intergovernmental Panel on Climate Change) gebruikt ongeveer 100 klimaatmodellen, die niet alleen steevast de temperatuurstijging overschatten, ze hebben ook de temperatuur van de laatste 20 jaar niet kunnen voorspellen. De laatste 20 à 30 jaar is er immers een pauze geweest in de temperatuurstijging, en dat hebben die modellen helemaal niet gezien.
In essentie is CO2 de centrale knop waaraan men draait bij klimaatmodellen. Er is geen goed onderbouwde onderliggende theorie. Wel zijn er allerlei aannames om de dominant veronderstelde rol van CO2 te ondersteunen en er zijn minstens 11 of 12 factoren waar klimaatmodellen geen rekening mee houden (en dus ook niet met hun onderlinge relaties) terwijl je ze wel als variabelen in het model zou mogen verwachten. Denk aan de energiestromen tussen oceaan en atmosfeer of de invloed van de vegetatie op de temperatuur. En al zouden deze 12 punten er wel in zitten: we kennen alle onderlinge relaties en die met andere variabelen niet. Als je in zo’n complex systeem aan één knop - CO2 - draait, vind je je eigen verstopte paasei terug, maar verder word je er niet veel wijzer van.
Conceptuele modellen
Conceptuele modellen worden ook wel mentale of verbale modellen genoemd. Je probeert je een beeld te vormen van hoe een deel van de werkelijkheid in elkaar zit. Als je hier echt iets mee wilt, dan moet je kwantificeren, dat wil zeggen: je moet vertalen naar een statistisch of wiskundig model. Dit vereist wel iets: je moet precies zijn in welke variabelen er zijn, hoe je ze meet, wat hun relatie is (lineair, niet-lineair, met feedback loops of niet), enzovoorts.
Belangrijk is dat een model generaliseert: dat het niet alleen met de data van vandaag, maar ook met die van morgen overweg kan.
Bij een conceptueel model heb je een theorie in verbale bewoordingen. Om dat conceptuele model te onderzoeken is een verdere vertaling nodig naar bijvoorbeeld een regressiemodel. En door het model te confronteren met de juiste data uit de werkelijkheid kun je onderzoeken of die je theorie ondersteunen. Je kunt enkel je eigen aannames in het model testen. Je weet dan of de data de denkwereld van het model ondersteunen, maar het kan best zo zijn dat bij verder onderzoek de theorie alsnog onjuist blijkt
Interactieve modellen
Interactieve modellen gebruiken bestaande modellen om te kijken hoe iets werkt in de praktijk. Je wilt bijvoorbeeld het effect van temperatuur op een proces onderzoeken dat je al redelijk goed kent. Door het interactieproces aan de hand van heel verschillende invoerdata te gebruiken, kun je een model verbeteren.
Als een model complex is, zoals een AI-model, dan weet je helemaal niet hoe de verbanden precies in elkaar steken liggen. Je weet ook niet wat de belangrijkere en de minder belangrijke ‘wegers’ in het systeem zijn. Zo’n model is dubbel persoonlijk: het model op zichzelf is jouw uitvinding, maar de interpretatie van de uitkomsten ook.
Soms worden modellen, zonder dat deze aan wetenschappelijke eisen voldoen, toch gebruikt om heel ingrijpende zaken voor elkaar te krijgenZijn modellen te vertrouwen?
Het antwoord is ja, indien modellen op een wetenschappelijk integere manier zijn gebouwd en worden gebruikt:
- de eisen van de statistische methode(n) stemmen overeen met de data en het toepassingsdoel van het model;
- de herkomst van de data is bekend en de data zijn gevalideerd;
- de beperkingen en randvoorwaarden van het model zijn bekend en worden gerespecteerd;
- het model wordt toegepast binnen het domein waarvoor het ontwikkeld is;
- het model is robuust, dat wil zeggen dat het in verschillende omstandigheden toch goed blijft presteren. Je kijkt dan bijvoorbeeld of een kleine storing - in het model zelf of in z’n omgeving - een grote invloed kan hebben. Validiteit bij voorspellende modellen houdt onder meer in dat je nagaat onder welke omstandigheden de voorspellingen van het model wel of niet overeenstemmen met de werkelijkheid;
- het model wordt (bij gebruik over langere tijd) geëvalueerd op een juist werking. Immers: de data kunnen wijzigen, omstandigheden veranderen etc., waardoor de werking van een model in negatieve zin kan worden beïnvloed.
Soms worden modellen, zonder dat deze aan wetenschappelijke eisen voldoen, toch gebruikt om heel ingrijpende zaken voor elkaar te krijgen. Zo weigert het RIVM bijvoorbeeld om inzicht te geven in (en verantwoording af te leggen over) het stikstofmodel Aerius. Hetzelfde geldt voor het Coronamodel om besmettingen te voorspellen. En dit gaat ook op voor de klimaatmodellen. We weten dus hier eigenlijk niet of de modellen wel doen, wat ze geacht worden te doen, hoewel er inmiddels door vooraanstaande deskundigen de nodige kritiek is geleverd op de die modellen. Waarbij het ook nog maar de vraag is of we weten of hetgeen het model geacht wordt te doen wel datgene is, wat we nu nodig hebben om onze problemen aan te pakken.
Noten
1. O.a. het RIVM zelf, Nederlandse politici, Timmermans van de EU, media, die vaak klakkeloos overnemen wat degenen die de modellen beheren hierover naar buiten brengen.
2. Meestal bedoelen we statische of simulatiemodellen.
3. In werkelijkheid zijn er ook bij blackbox-modellen manieren om informatie over het geproduceerde model te achterhalen.
Op 11 april krijg je nieuwe kado-artikelen.
Als betalend lid lees je zoveel artikelen als je wilt, én je steunt Foodlog
Wel grappig want jullie voorbeeld (auto km's en verbruik) heeft wel degelijk een link.
Wat kost één druppel benzine zei een man bij de pomp.
niets zijn de pomphouder
de rest is bekend neem ik aan.
0,005 is (ook) niet meetbaar, het is daarom ook niet te hoog of te laag; het is onzin en niet onderbouwd.
TNO heeft aangegeven dat een een grens (drempelwaarde) van 1 - 10 mol prima kan om diverse redenen, waaronder de meetbaarheid en dit is ook de reden waarom er in Dtsl een drempelwaarde is van 7 mol.
Dat er eerst een daling van stikstof moet zijn berust op een misvatting van prof. C.W. Backes met zijn opvattingen uit een arrest in Dtsl welk gaat over de koeling van een energie centrale (Moorburg).
Dag Jan Harm,
Merkwaardige logica. Eerst zeg je dat het voorbeeld niet klopt en dan herhaal je het voorbeeld bijna letterlijk. Het voorbeeld klopt dus wel.
#56 Het voorbeeld klopt niet als je zoals in de situatie rond Grevelingen de totale depositie onder de KDW waarde komt. Dan is namelijk een toename niet schadelijk voor de natuur en kan de vergunning gewoon verleend worden.
#63 Gerard
Wat is de oorzaak dan van de 25% depositiereductie in Grevelingen?
Nico Gerrits Het antwoord op uw 3 vragen in #62 : ja, nee, nee.
Mag ik u nog herinneren aan mijn vraag aan u, waarop u nog niet gereageerd heeft: zie #38