Statistisk signifikans redder ikke dagen i evalueringer

Udgivet af Frederik Petersen den 31. marts 202031. marts 2020

Af Frederik Petersen & Asger Dalsgaard Pedersen

Når vi skal undersøge, om vi kan stole på resultaterne af en undersøgelse eller evaluering tyer vi ofte til begrebet ’signifikans’. Ofte bruges test af statistisk signifikans dog forkert i evalueringer, og udfaldet fortolkes forkert. Det gør os ofte blinde for andre forhold, som er (mere) relevante for resultaternes validitet.

(Mis)brugen af statistisk signifikans – kort fortalt

I evalueringer har vi sjældent adgang til den samlede population. I praksis må vi derfor anvende stikprøver. Brugen af stikprøver medfører dog en usikkerhed om, hvorvidt vores resultater med rimelig sikkerhed kan antages også at gælde for den samlede population. Værktøjet til at adressere denne usikkerhed har i mange år været statistiske signifikanstests.

Konstateringen af statistisk signifikante effekter bliver ofte fejlagtigt fortolket sådan, at den fundne effekt af en indsats sandsynligvis er sand. Fejlen består i, at mange ignorerer den præmis, som signifikanstesten bygger på. Man skal nemlig være opmærksom på, at der er tale om en såkaldt ’betinget sandsynlighed’.

Hvordan skal man så forstå, at en effekt er statistisk signifikant? Jo, givet at der faktisk ikke er nogen effekt af indsatsen, er sandsynligheden for at finde effekten i vores stikprøve meget lille. Første del er altså vores betingelse, som i signifikanstests typisk er en antagelse om, at ’nul-hypotesen’ er sand (se mere nedenfor).

Læs mere om test af signifikans og p-værdi

Signifikanstesten siger dog desværre ikke noget om det modsatte – nemlig sandsynligheden for at vores effekt er sand eller forkert, givet at vi har fundet den i vores stikprøve – hvilket paradoksalt er det behov, vi ofte bruger signifikanstesten til at adressere.

Signifikans er ikke en objektiv størrelse

’Statistisk signifikante resultater’ er omgivet af en særlig aura, og det er let at lade sig lokke til at tro, at signifikans betyder to streger under resultatet. Men lad dig ikke forføre: Resultaterne af signifikanstest er ikke objektive og uafhængige af vores øvrige metodiske valg. Signifikanstesten påvirkes nemlig af en række valg, som træffes af menneskerne bag undersøgelsen: For eksempel stikprøvestørrelse, effektstørrelse, antallet af hypoteser, valg af statistisk model, variation i data eller valg af nulhypotese.

Det bliver for eksempel mere sandsynligt at få statistisk signifikante effekter, jo større effekter man finder, og jo større stikprøver evalueringen bygger på. Det sidste betyder, at man ved at anvende store stikprøver kan finde statistisk signifikante sammenhænge mellem alle forhold – også forhold som al sund fornuft siger ikke hænger sammen. Og selv de mindste og mest ubetydelige effekter kan blive statistisk signifikante.

Statistisk signifikans siger altså ikke noget om, hvorvidt effekten af en indsats har substantiel betydning. Her er vi nødt til at sammenligne effektstørrelsen med omkostningerne ved at gennemføre indsatsen. Dette skyldes, at en anden indsats potentielt kunne have været mere omkostningseffektiv. Således er statistisk signifikans og substantiel signifikans ikke det samme.

Mindre fokus på signifikans, mere fokus på…

Formålet med at teste for statistisk signifikans i evalueringer begrænser sig altså til at vurdere den statistiske usikkerhed i stikprøveudtrækningen. Det må ikke forveksles med en generel vurdering af, om en evaluerings resultater er til at stole på. Derfor er det også særligt problematisk, at brugen af statistiske signifikanstest ofte gør os blinde for andre forhold, som er (mere) relevante for, om vores resultater er til at stole på.

Vi vil derfor opfordre til en mere nuanceret tilgang til vurdering af evalueringers resultater, som generelt lægger mindre vægt på signifikanstest og mere vægt på især følgende forhold:

Evalueringsdesign: Et godt evalueringsdesign er den eneste sikre måde at undgå selektionsbias og dermed styrke tiltroen til evalueringens resultater. Ideelt set bygger et evalueringsdesign på eksperimentelle logikker, men i praksis er vi ofte nødt til at finde mere pragmatiske løsninger.

Ærlighed om usikkerheden: Pragmatiske løsninger nødvendiggør, at vi er ærlige om, at resultater altid baseres på troværdigheden af en række antagelser. Disse antagelser skal ekspliciteres, da de har afgørende betydning for at kunne lave en kritisk vurdering af resultaterne.

Effektstørrelser: For at kunne vurdere en effekts substantielle betydning, er det vigtigt at forholde sig konkret til effektstørrelserne. Dette kan ikke baseres på p-værdiens vilkårlige tærskelværdi, men må i stedet bero på en mere nuanceret effektforståelse, hvor spørgsmål om effekt ikke gøres sort/hvide.

Analytisk generaliserbarhed: Evalueringer som alene baserer generaliserbarheden af deres resultater på signifikanstest, tager ikke højde for, at indsatser altid gennemføres med forskellige forudsætninger. Ambitioner om at generalisere sine resultater kræver derimod en dybdegående kontekstuel forståelse.

Målingsvaliditet: Mange af de forhold, som i evalueringssammenhænge er interessante at måle, er ofte komplekse og sammensatte størrelser. Derfor er det ofte svært at vide, om vi reelt måler det, vi ønsker. Denne usikkerhed kan håndteres gennem en række kvantitative og kvalitative tests.

Således kendetegnes en god evaluering hverken ved brugen eller udfaldet af signifikanstest, men af evaluators evne til at adressere andre centrale forhold. Dermed kan en evaluator – eller Kritisk Ven (læs mere via linket) – der gør sig umage med at forstå en indsats og dens kontekst, og på den baggrund laver et godt evalueringsdesign, altså udtale sig mere troværdigt om resultaternes gyldighed end en test af resultaternes statistiske signifikans.

Er du enig eller uenig i vores vurdering? Hvilke forhold lægger du vægt på i den gode evaluering i forhold til statistisk signifikans i evalueringer? Skriv en kommentar til indlægget nedenfor eller tag kontakt til os.

Blogindlæggets forfattere:

Statistisk signifikans redder ikke dagen i evalueringer

(Mis)brugen af statistisk signifikans – kort fortalt

Signifikans er ikke en objektiv størrelse

Mindre fokus på signifikans, mere fokus på…

Evalueringsmetode og værktøjer

Hvordan evaluerer man udbyttet af et projekt?

Signifikanstesten baseres på den såkaldte p–værdi, men hvordan udregnes p-værdien?

Hvordan skelner man lav og høj?

Statistisk signifikans redder ikke dagen i evalueringer

(Mis)brugen af statistisk signifikans – kort fortalt

Signifikans er ikke en objektiv størrelse

Mindre fokus på signifikans, mere fokus på…

Relaterede indlæg

Evalueringsmetode og værktøjer

Hvordan evaluerer man udbyttet af et projekt?