Datamodellen en fenomeenmodellen
Ten eerste zijn naar mijn mening modellen niets meer of minder dan een beschrijving of representatie van de realiteit. Zelfs de welbekende natuurwetten uit de fysica zijn niets meer dan (zeer betrouwbaar gebleken) beschrijvingen van de realiteit.
Ten tweede zitten in alle modellen (ook die in ons brein) aannames. Neem de hierboven gelinkte optische illusie van de Ames kamer. De illusie is onder andere dat ons brein aanneemt dat bij rechthoekige ramen de hoeken altijd 90 graden zijn, en dat klokken altijd rond zijn.
Ten derde zijn modellen gebaseerd op een afgebakend deel van de realiteit. Als we over een sloot springen, gebruiken we een model van de werkelijkheid waarin de zwaartekracht op aarde verwerkt is. Ons brein hoeft immers alleen een model van de werkelijkheid op aarde te hebben. Maar op de maan zou je met de afzetkracht die je met dat model bepaald hebt veel verder springen.
En tot slot is het voor het bepalen van de betrouwbaarheid van het model van belang dat het getoetst is aan de realiteit. Als ik inschat dat een naderende bus ver genoeg weg is om nog veilig te kunnen oversteken, is het vrij cruciaal dat de representatie van de 3D wereld om me heen in mijn brein klopt, want daarmee schat ik de afstand en snelheid van de bus in.
De trend om te sturen op ongevalideerde modellen vind ik zorgelijk, want dat is alsof je via een spiegel probeert te bepalen of je nog voor die naderende bus kunt oversteken, zonder te weten of je misschien te maken hebt met een lachspiegelAls we dit toespitsen op wiskundig modellen, denk ik dat het nuttig is om een extra onderscheid te maken tussen twee belangrijke soorten modellen, namelijk datamodellen en fenomeenmodellen.
Datamodellen zijn abstracte representaties van ruwe data. Denk hierbij aan het soort model dat uit observationele data (gecorrigeerd voor verstorende factoren zoals leeftijd en BMI) berekent wat het relatieve risico op darmkanker is als je veel rood vlees eet. Dit soort modellen wordt zeer veel gebruikt in voedingswetenschap.
Fenomeenmodellen zijn van een heel andere orde, want deze beschrijven een fenomeen als zodanig. Dit kunnen fysieke modellen zijn, zoals een schaalmodel van een vliegtuig in een windtunnel, of een geïdealiseerde representatie van een fenomeen zoals de eerder genoemde natuurwetten. In de voedingswetenschap kun je denken aan modellen die pogen te beschrijven hoe obesitas ontstaat, zoals het energiebalans model of het metabool model.
Voorspellende waarde
Het grote verschil tussen datamodellen en fenomeenmodellen is hun voorspellende waarde. Daar waar het genereren van data altijd beïnvloed wordt door omstandigheden en individuele datapunten niet te voorspellen zijn, mag je van fenomenen verwachten dat ze stabiel en reproduceerbaar zijn, en op verschillende manieren waarneembaar zijn. Daardoor hebben fenomeenmodellen voorspellende waarde, en datamodellen meestal niet of veel minder. Dit verschil is cruciaal, want tegenwoordig wordt er nogal losjes omgegaan met modellen. Uit datamodellen wordt bijvoorbeeld de conclusie getrokken dat rood vlees kankerverwekkend is, of dat koffie kanker zou voorkomen, maar een eenduidig idee over hoe dit dan zou komen ontbreekt grotendeels. Met andere woorden: er is geen helder fenomeenmodel waardoor de voorspellende waarde zeer twijfelachtig is.
Modellen zijn overal, maar niet alle modellen zijn even bruikbaar of betrouwbaarEen tweede probleem waar naar mijn indruk steeds vaker zonder veel omhaal overheen wordt gestapt, is dat er zonder validatie geen enkele zekerheid is over de betrouwbaarheid van een model. Om die reden moeten bij vliegtuigen alle veiligheidskritische ontwerpkeuzes gevalideerd worden met een praktijktest. Zeg nou zelf: zou jij in een vliegtuig stappen waarvan alleen met een model bepaald is hoeveel gewicht de vleugels kunnen dragen, of is het toch wel een veilig gevoel dat dergelijke modellen met praktijktesten gevalideerd worden? Toch lijkt validatie in veel gevallen niet meer noodzakelijk te worden gevonden. Denk aan modellen waarmee het vermeende effect van de avondklok werd voorspeld, stikstofdepositiemodellen waarmee de toekomst van complete bedrijven en families wordt bepaald, of de datamodellen op basis waarvan verzadigd vet nog altijd buiten de schijf van vijf valt (hetgeen bepalend is voor bijvoorbeeld de menu’s in gezondheidsbewuste verzorgingshuizen). De trend om te sturen op ongevalideerde modellen vind ik zorgelijk, want dat is alsof je via een spiegel probeert te bepalen of je nog voor die naderende bus kunt oversteken, zonder te weten of je misschien te maken hebt met een lachspiegel. Zonder validatie ken je de eigenschappen van die spiegel niet.
Modellen zijn dus overal, maar niet alle modellen zijn even bruikbaar of betrouwbaar. Om te beoordelen hoe betrouwbaar de resultaten van een model zijn, kun je kijken of ze überhaupt voorspellende waarde kunnen hebben (een fenomeen of slechts data beschrijven), of ze gevalideerd zijn en, zo ja, binnen welke afbakeningen. Ik denk dat het hanteren van deze vuistregels iedereen in staat stelt om een redelijk oordeel te vellen over de betrouwbaarheid van veel conclusies die op basis van modellen getrokken worden.
Op 11 april krijg je nieuwe kado-artikelen.
Als betalend lid lees je zoveel artikelen als je wilt, én je steunt Foodlog
Het is inderdaad data (die relaties) maar het maakt wel duidelijk dat datamodellen (met ruwe data) niet zo onschuldig zijn als vaak wordt gepresenteerd. Ze worden gemaakt met een bepaald doel en met een bepaalde kijk.
Krijn #13,
Modellen kunnen inderdaad ook relaties bevatten, maar m.i. zijn dat geen fenomenen. Bij fenomenen denk ik meer aan zoiets als de kinetica die de baan van een kogel beschrijft a.d.h.v. de zwaartekracht en beginsnelheid en -hoek. Naar de modellen daaronder wordt weliswaar verwezen onder de term 'natuurwet', maar feitelijk is een slechts een fenomeenmodel.
Relaties zoals tussen bedrijf en huishouden zijn m.i. geen fenomeen. Ik twijfel even of het gezien moet worden als toegevoegde kennis of wereldbeeld, of dat je het simpelweg kunt zien als data. Eerlijk gezegd denk ik dat het laatste volstaat: het is data die per boerderij uitdrukt wat de relatie met een huishouden of bedrijf is.
Wat jouw voorbeeld m.i. vooral laat zien, is dat het achterwege laten van bepaalde data in datamodellen (maar ook in fenomeenmodellen) leidt tot resultaten die niet goed passen bij de realiteit. Daar ben ik het geheel mee eens: om een bruikbaar model te maken moeten alle relevante aspecten meegenomen worden. Relevant gaat om de vraag of het van betekenisvolle invloed is op de uitkomst ('alle relevante aspecten' betekent dus geenszins de complete wereld of alle denkbare aspecten).
Ik wil niets af doen aan wat Dennis schrijft maar als amateur (=liefhebber) modelleur toch nog wel een reactie. Ik verkondig altijd dat modelleren op zijn minst twee functies heeft, in ieder geval in de wetenschap, nl. i) als hulpmiddel om relaties tussen variabelen te begrijpen en ii) als hulpmiddel om te voorspellen. Die twee aspecten kunnen samengaan maar dat hoeft niet. Een model dat niet gebaseerd is op begrepen relaties kan toch heel goed voorspellen. Maar het moge duidelijk zijn dat een model gebaseerd op begrepen relaties in principe veel betrouwbaarder is, vooral voor situaties die niet gevalideerd zijn. Verder hang ik het adagium van George Box aan: " all models are wrong, but some are useful". Dat is natuurlijk ook de kern van wat Dennis schrijft. Wat de reactie van Wouter #7 betreft: modelleren is meer dan regressie, vind ik (inderdaad old school gedacht...). Modellen gebaseerd op causaal denken kunnen zelfs zonder data al inzicht geven, het dwingt je om na te denken wat wat veroorzaakt. Dat betekent niet dat valideren met data niet belangrijk is, bepaald niet.
Ik heb zelf heel veel geleerd van het fantastische boek van Richard McElreath, Statistical Rethinking. Op zijn website staan links naar zijn lezingen die bij het boek horen, die zijn ook geweldig. Hij is een antropoloog en veel van zijn voorbeelden komen uit de sociale wetenschappen en veel van wat in de voedingswetenschap gebeurt heeft daar gelijkenis mee. Hij waarschuwt voortdurend voor het gevaar van 'causal salad' (dwz alle factoren op een hoop gooien en dan maar hopen op associaties). Hij heeft ook een briljante lezing op youtube daarover, waarin hij laat zien hoe een lichtknop en het aanwezig zijn van een stroombron statistisch gerelateerd kunnen zijn op een verkeerde manier (via 'collider bias'); het fragment over de lichtknop begint na 1:49. Hij heeft veel van die voorbeelden die je heel beducht maken over het leggen van statistische verbanden maar hij geeft ook oplossingen via 'causal models'. Zeer aanbevolen!
Ik denk dat bijv. als het gaat over oorzaken van obesitas daar ook allerlei collider bias en backdoor paths bestaan die onderzoekers zich niet realiseren, waardoor heel verkeerde conclusies getrokken kunnen worden. Modelleren blijft uitermate belangrijk maar er moet meer aandacht komen voor de aannames (zoals Dennis ook schrijft) en voor het expliciet maken van causale modellen en het zichtbaar maken van wat in die wereld The Fork, The Pipe, The Collider en The Descendant wordt genoemd (concepten uit The Book of Why: the new science of cause and effect van Pearl & Mackenzie).
"Punt blijft: een sec datamodel zegt enkel iets over de data en de aannames, maar beschrijft geen fenomeen."
Ook daar valt over te discussiëren. Een wat ingewikkelder datamodel beschrijft ook relaties tussen objecten (entitieiten of hoe je ze ook noemt) en die relaties bevatten een impliciete kijk op de wereld.
Eentje waar ik de laatste jaren meermalen aandacht voor heb gevraagd is dat we in de landbouw dan een datamodel hanteren met objecten/entitieten als bedrijf, huishouden en ondernemer. En dat veel beleidsmakers (en onderzoekers) maar gemakshalve veronderstellen dat dat 1:1 verhoudingen zijn, Want zo was het op de boerderij van oma ook: 1 bedrijf, met 1 huishouding en 1 ondernemer, namelijk opa. En voor je het weet zit het zo in de statistiek en bij journalisten in de interpretatie van bv. inkomenscijfers.
En de werkelijkheid is dat er soms bij een bedrijf meerdere ondernemers zijn, dat ze wel of niet in hetzelfde huishouden wonen en dat sommige ondernemers meer dan 1 bedrijf hebben (en zeker als je een bedrijf gelijk stelt met een identificatienummer van RVO of een UBN).
Jeroen #11,
Ruwe data omvat letterlijk alles, van afstanden tot scores op vragenlijsten, van CO2-concentratie tot aantal eiken in een bos. En het is onbewerkte data*, want zodra je gaat corrigeren voor meetfouten, introduceer je al aannames en maak je in feite al een klein model. Voorbeeld: als je het aantal afgelezen millimeterstreepjes op een houten duimstok gaat corrigeren voor temperatuur en luchtvochtigheid, introduceer je in feite al een model van de uitzetting van het hout in de duimstok (plus nieuwe metingen: temperatuur en luchtvochtigheid).
We kunnen het heel ingewikkeld maken, maar ruwe data zijn wat mij betreft dus simpelweg alle vormen van gegevens waar geen bewerking op is losgelaten*. In een datamodel worden de bewerkingen toegepast, dat kan vanalles zijn: correcties, fitting, transformaties, etc.
Punt blijft: een sec datamodel zegt enkel iets over de data en de aannames, maar beschrijft geen fenomeen. Als in een groep mensen die veel rood vlees eten 20% vaker darmkanker wordt gezien dan in een groep die heel weinig rood vlees eet, drukt dat enkel de cijfers uit de data uit plus een hele waslijst aan aannames waarmee de data gecorrigeerd is. Het zegt echter niet dat er een fenomeen is dat rood vlees darmkanker veroorzaakt (hoewel het vaak wel zo gebracht wordt).
----
* Wat nog vaak gemist wordt, is dat in meetapparatuur vaak ook al allerlei vormen van correcties zitten ingebakken (bijvoorbeeld voor temperatuur of luchtvochtigheid). Strikt genomen zitten er in dergelijke instrumenten dus ook modellen (die overigens wel gevalideerd zijn), ook al beschouwen we de data uit zo'n instrument als 'ruwe' data.