Om gyldig forskning og bruk av forsknings- og testresultater

Denne artikkelen er tidligere publisert i «Bedre skole» nr.4 2011.

Om gyldig forskning og bruk av forsknings- og testresultater

Av Jon Frode Blichfeldt

John Hatties Visible learning blir stadig referert til blant forskere, journalister og skolefolk. Mange bruker undersøkelsen til å slå fast en gang for alle ”hva som virker” innenfor undervisningen. Men undersøkelser som dette er gjerne heftet med mer usikkerhet enn det man tror, og mulighetene for å bruke dem feil er mange.

Spørsmål jeg vil forsøke å se nærmere på i denne artikkelen, kan stilles i forlengelse av et utsagn om forskning formulert i Norsk Læreplan (LK 06 generell del).

Vitenskapelig metodikk består av prosedyrer for ikke å bli lurt – verken av seg selv eller andre.

Utsagnet kan forstås slik at vi, når vi skal undersøke noe, først må spørre om det vi undersøker faktisk kan undersøkes på den måten vi gjør det. I etterkant bør vi spørre om hvilken tolkning og bruk som er gyldig i forhold metodevalg og framlagte resultater. Om vi svikter i forhold til dette, risikerer vi å lure både oss selv og andre.

Det umiddelbare utgangspunktet for å reise spørsmålene, var et innlegg jeg reagerte på i Dagsrevyen 22. januar 2011. Her slo skoleforskeren Thomas Nordahl kategorisk fast at norsk skole hadde ”satset på det som ikke virker.” Som kunnskapsbasert bevis slo han John Hatties forskningsrapport Visible Learning i bordet.[1] Metodisk har undersøkelsen fellestrekk med normerte prøver og tester av skoleprestasjoner. Tallene fra slike slås også flittig i bordet som kunnskapsbasert dokumentasjon av kunnskaps- og læringsnivå så vel som utgangspunkt for rangeringer og ”benchmarking.”

I det følgende skal jeg forsøke først å problematisere det metodiske utgangspunktet for slike store kvantitative undersøkelser, med Hattie som eksempel. Det hefter gjerne mer usikkerhet ved undersøkelser enn man kanskje tror. Det er fort gjort å bruke dem på ugyldig vis.

 

Forskningsmessigeutfordringer

En tommelfingerregel ved valg av metode når vi vil undersøke noe, er at det må være et visst samsvar mellom egenskaper ved ”det vi vil vite noe om” og de metodene vi velger.

De senere årene er det blitt lagt stadig mer vekt på at praksis for profesjonsutøvelse skal være ”evidensbasert”. Utgangspunktet har i stor grad vært medisinsk forskning, men begrepet dekker etter hvert mange disipliner. I utgangspunktet ble evidensbasert medisin bredt definert, basert på tre fundamenter: forskningsevidens, klinisk ekspertise og pasientens verdier og preferanser. Denne brede forståelsen ble nedfelt i profesjonelle definisjoner av evidensbegrepet både innenfor medisin[2] (Sackett et. al. 2000) og psykologi. (Levant 2005).[3] Dette er en forståelse av evidens som gir rom for at ulike metodiske perspektiver kan og bør utfylle hverandre.  Forskjellige relevante aktører innenfor samme felt, kan teste ut og bygge erfaringsbasert kunnskap på ulikt vis. Når ulike kunnskapsbaser blir drøftet og systematisk får spille sammen praktisk og teoretisk, kan vi snakke om kunnskapsutvikling og evidens, om gyldig kunnskap.

Denne bredden i tilnærming til kunnskap og innsikt synes å svare godt til egenskaper knyttet til mennesker og mennesker virke og samhandling.

Som mennesker og medmennesker beveger vi oss blant andre fysisk og mentalt. Biologisk har vi medfødt evne til å identifisere og reagere på forskjeller. Vi får erfaringer, gjør oss opp vurderinger og meninger. Vi reagerer tilbake, og forventes i mange sammenhenger å ha et ord med i laget når erfaringer skal omsettes i handlinger og beslutninger for å oppnå noe vi vil oppnå eller unngå.[4] I vårt virke er vi verken helt entydige eller forutsigbare.

En slik dynamisk og komplementær metodeforståelse som grunnlag for evidens synes de senere årene å være snevret inn. Én bestemt form for forskningsevidens har fått forrang. Biomedisinsk eksperimentell design er blitt sentral sammen med økonomisk baserte effektivitets- og kost – nytteundersøkelser. Metodene som vektlegges er randomiserte kontrollerte forsøk (RCT), eller store kvantitative panelstudier og metastudier som kan framvise statistisk signifikante korrelasjoner mellom undersøkte variable. Hatties (2009)[5] store metastudie føyer seg inn i denne utviklingen. Normerte og standardiserte prøver kan sees som eksempler på samme type metodebruk og evidensforståelse.

 

Kvantifisert informasjon

Hatties studie (så vel som standardiserte tester) baserer seg på registrering av kvantifisert informasjon som er bearbeidet gjennom bruk av statistiske modeller. Enkelt sagt innebærer kvantifisert informasjon at man definerer avgrensbare enheter av samme type innenfor et univers (for eksempel skoleelever i Norge). Disse kan telles, adderes og skaleres. Man kan definere underenheter, egenskaper/elementer (antall gutter, jenter, høyde, vekt, sosioøkonomisk gruppe, hvor fort de løper 60 meter eller leser og reproduserer deler av gitte tekster innen et bestemt tidsrom). Man kan finne ut hvordan disse enhetene fordeles i forhold til hva som er spurt etter, målt, hva som er gjennomsnitt. Har man mange nok målinger av hver undergruppe/elementer (variabler), vil gjennomsnittet av målingene samle seg rundt det respektive gjennomsnittet i populasjonen (”de store talls lov”). På tester, som IQ- og prestasjonstester, omregner man gjerne gjennomsnittsmålingen av de mange til 100 og lager seg en normalfordeling, som er en fordeling man ville[j1]  forvente seg når man opererer med store tall og et tilfeldig utvalg. Slik får man også et utgangspunkt for statistisk bearbeiding, mål på om variable som sees i sammenheng varierer uavhengig av hverandre eller ikke. Lesehastighet for alle norske skolebarn antas for eksempel å være normalfordelt, målt ved standardisert test. Men hva om jenter, eller barn der foreldre har høy eller lav utdanning fordeler seg skjevt i forhold til forventet gjennomsnitt? Antakelsen om uavhengig fordeling (også kalt nullhypotesen), at det ikke er noen samvariasjon eller korrelasjon mellom variablene leseferdighet og kjønn eller sosial bakgrunn, kan da forkastes dersom utvalget som er undersøkt er tilfeldig sammensatt og korrelasjonen sterk nok.

 

Korrelasjon og årsakssammenhenger

Korrelasjon er et mål på styrke og retning på lineær sammenheng mellom to variable, at en størrelse varierer proporsjonalt med en annen. I eksperimenter undersøker man, når man har presise definisjoner og avgrensning av variable, i hvilken grad det er samsvar mellom ulike uavhengige variable og en avhengig variabel. Hvorvidt det altså er grunnlag for å avvise antakelsen om uavhengig variasjon (nullhypotesen). Om variablene er uskarpe og kan blandes med andre man ikke har kontroll over, og som kan påvirke retning og styrke i korrelasjonen[j2] , kan man komme til å avvise nullhypotesen på feil grunnlag. Det kan man også om det utvalget man studerer ikke er tilfeldig trukket (randomisert). Om man opererer med store tall, vil ulike effekter av ukontrollerte variable kunne utjevne hverandre, mens de kan slå ut på avgjørende vis på et lokalt nivå. Om man kan avvise nullhypotesen på gyldig grunnlag, har man likevel ikke grunnlag for å fastslå alternative hypoteser – eller å slutte til hva som er gyldig for små tall. Det som er gyldig på aggregert nivå er altså ikke nødvendigvis gyldig på et lokalt praktisk nivå.

Det er slik viktige grunner til at man ikke setter likhetstegn mellom påviste korrelasjoner og årsakssammenhenger. Slik unngår man å lure seg selv og andre.[6]

 

John Hatties undersøkelse

Hatties metastudie er en syntese av mange andre metastudier. Fokus i undersøkelsen er faktorer (variabler) som bidrar til resultater på prestasjonsprøver (Hattie s. 29), altså resultat eller prestasjoner som avhengig variabel. Han opererer med seks hovedfaktorer som påvirker resultat: barnet, hjemmet, skolen, pensum, læreren samt undervisningsmåter. Under disse samler han 138 variable. Han ser på faktorenes og variablenes bidrag til prestasjoner hver for seg. Selv om han i presentasjonen av de seks faktorene sier at man kan forvente interaksjoner mellom dem, velger han å se bort fra slikt samspill. Han er i prinsippet åpen for at betydningen av de ulike faktorene kan være påvirket av ukontrollerte andre variable (moderators). Men han finner bemerkelsesverdig få slike, og antar at det er få relevante andre variable som kunne påvirket resultatet. Det som virker best er det samme – på tvers av fag, alder og kontekst (s. 31). Mulige samspillseffekter mellom variable som fag, alder, klasse, økonomi, familieressurser, helse og ernæring er ikke del av studien, og variablene virker uansett smalt representert. [7]  Vi får heller ingen informasjon om hvordan “læringsresultater” er definert eller målt i studiene på ulike nivåer, hva slags tester som er brukt, hvilke fag som er testet og hvordan. Det kan vel være av betydning for valg av undervisningsmåter, læringsprosesser og resultat hvilke fag det dreier seg om? Både den lange listen av variable det er testet for så vel som resultatmål eller prestasjoner som avhengig variabel, framstår som uskarpe. Slik må det vel bli. Når 15 000 ulike studier først er sammenfattet i 800 studier, og disse så igjen er sammenfattet i én stor studie, blir det for hver sammenfatning færre punkter og større uskarphet – som ved oppskaleringen av et google-kart.

I metaundersøkelser ser man på standardiserte forskjeller av spredningen rundt det statistiske gjennomsnittet i de undersøkelsene forskeren har valgt ut, effektmål. Det er uansett utvalgsdata, definisjoner og avgrensninger som ligger til grunn for de enkelte studiene.    Faren for at ulike parametre kan være brukt i underliggende studier, er også en kritikk reist mot medisinske metastudier (Siegfried 2010).

Hvordan man på gyldig vis kan putte stadig mer uskarpe variable inn i presise regnestykker virker problematisk. Ikke minst er det problematisk når studiene som er behandlet statistisk er gjort på grunnlag av litteraturgjennomgang (s. 237) som i Hatties tilfelle, og ikke et trukket utvalg. Selv om det er kvantifiserte og statistisk bearbeidede studier som er valgt, er det ikke mange randomiserte studier (RCT) som er valgt ut i det underliggende materialet (s. 4).[8]

Et forhold som Hattie ikke nevner, men som kan ha betydning for hans eget utvalg av publiserte studier, er tilbøyeligheten til å sensurere i forhold til publisering: Studier som ikke framviser signifikante resultater, når ofte ikke fram til publisering (Keng and Beretvas 2010). Utvalget av studier som er brukt kan være systematisk skjevt.[9]

Metaanalyse er en retrospektiv metodologi. Den gir metaforskeren en privilegert posisjon med hensyn til å velge tidligere studier. Også fastsettingen av ”knekkpunkt,” hvilket effektmål som ansees av betydning, er forskerens privilegium. Effektene som er målt følger en normalfordeling. Hattie velger å anslå de effektene som ligger under gjennomsnittet (d=0.40) som for dårlige. Nå er det slik at det bare er fem av 138 undersøkte ”faktorer og variable” som gir negativt prestasjonsbidrag, som altså ”ikke virker”. På en måte ”virker” nesten alt, men først og fremst vet vi ikke noe om virkningen når effektmålet næmer seg 0.

Undersøkelsen kan på et svært generelt nivå anslå hva som statistisk henger sammen med prestasjonsutfall. Flere av sammenhengene har jeg sans for, og det kunne være fristende å ta dem til inntekt for egne synspunkter. Tallene hans antyder eksempelvis at sosial kompetanse har sammenheng med testresultat, at det er en fordel at lærerne kjenner elevene godt, at elevene kjenner seg selv (og tidligere prestasjoner) godt, at gode lærere er trygge og har rom for å improvisere innenfor en tydelig struktur, at tilbakemelding og oppfølging er viktig. Uavhengig av ”evidensbasering” er dette neppe innsikter som vil forbause noen. Enkelte vil det kanskje forbause at samarbeidslæring kommer bedre ut enn individuell læring, at konkurranse ikke bedrer prestasjonsnivået så mye, og at heller ikke lærernes fagkunnskap eller lærerutdanning bidrar så mye. Det siste burde kanskje mane til ettertanke. Kanskje ikke så mye i forhold til betydningen av læreres kompetanse, men til å spørre om undersøkelser av denne typen kanskje først og fremst måler ferdigheter eller prestasjoner der lærerkompetanse blir mindre relevant?

Siden det praktisk talt ikke finnes negative sammenhenger gir studien uansett ikke noe holdepunkt for å fastslå ”hva som ikke virker”. Og korrelasjoner eller samsvar gir ikke grunnlag for årsaksforklaringer. Hattie nevner selv at korrelasjoner ikke må forveksles med årsaksanalyser. Det er påfallende da at boka først og fremst presenteres slik at den lett leses som nettopp som årsaksanalyser, av ”hva som virker,” eller fører til gode testresultater og ikke, at han rangerer de 138 variablene deretter – som en liste av løsrevne faktorer.

Hattie har et lite sitat fra Aristoteles som innledning til kapittel 2 om evidensen natur. Det minner litt om tommelfingerregelen jeg innledet avsnittet med. Aristoteles siteres (s. 7):

It is the mark of an educated man … that in every subject he looks for only so much precision as its nature permits.

Og han tillater seg svært lav grad av presisjon med hensyn til hvilke variable som inngår i regnestykkene med hensyn til hva som kan tenkes å virke, og hvordan resultat kan forstås. Samtidig bruker han regnestykker og statistikk som burde kreve presisjon og kontroll som det er vanskelig å finne dekning for. Hvilket ikke forhindrer ham i å framstille resultater som svært presise med to desimaler.

Hattie presenterer heller ikke noen underbygde teorier om hva som karakteriserer menneskelig læring ut over faktorlisten sin for påvirkning, samt en liste (s. 238–239) over seks punkter for fremragende undervisning. Disse er generelle, primært knyttet til en dynamisk relasjon, samspillet mellom lærer og elev knyttet til de oppgavene de samles om. Dette er snaut nok kontroversielt. Det synes i godt samsvar med en forståelse av menneskelig virksomhet, begreper om kunnskap som grunnleggende relasjonell, interaktiv og dynamisk. Men det står i motsetning til studiens innretning, slik den også forklares i forordet: ”it … is more concerned with main effects than interactions”. Studien synes å forutsette standardiserte og diskrete egenskaper og handlingsmønstre som innebærer at læring og kunnskap sidestilles med ”effect” forstått som scoringstall på ferdighetsprøver.

 

Bruk av resultater

Om vi går tilbake til det tredelte grunnlaget for evidensbasert kunnskap slik det i utgangspunktet er brukt i medisin og psykologi, har vi her vesentlig beskjeftiget oss med en variant av forskningsevidens, den som baserer seg på bruk av metodikk som begrenser seg til kvantifiserte data for statistisk bearbeiding. Vi har, forsøksvis på noen av sjangerens egne forutsetninger, sett på noen begrensninger ved slik tilnærming:

  • Om metoden som er anvendt i begrenset grad samsvarer med egenskaper i det temaet man vil vite noe om, blir også resultatene av begrenset gyldighet.
  • Om variablene som undersøkes er uskarpe, man mangler oversikt over mulige andre variable som kan påvirke et resultat, eller utvalgsprosedyrer er utilstrekkelige, blir gyldigheten av undersøkelsen svekket.
  • Selv gjennomført etter alle metodebøkenes regler, vil store kvantitative, statistisk baserte undersøkelser (jeg holder meg til samfunnsfag) først og sist være gyldige for det nivået de er gjennomført på, det aggregerte nivået. De gir ikke grunnlag for å gjøre gyldige slutninger om sammenhenger på lokalt eller individuelt nivå, og de gir ikke grunnlag for årsaksforklaringer.

Det Hattie vil si noe om, er hvilke tiltak eller forhold knyttet til undervisning som er effektive for læringsresultat. Det han undersøker er oppsummerte statistiske sammenhenger mellom uklare variable og ferdighetstester. Det PISA-tester, normerte prøver og kartleggingsprøver vil si noe om, er kunnskapsnivå. Metodisk har de testbatteriene felles.

De har også felles at disse testbatteriene nødvendigvis må ta for seg et relativt smalt utsnitt av standardiserte ferdigheter, vesentlig knyttet til tidsavgrensede lese- og matematikkoppgaver der utfyllings- avkrysningsformen gjerne utgjør en viktig del. De har også felles at resultatene av testene sammenfattes i tall individuelt og adderes opp på lokalt nivå. På nasjonalt nivå er resultatene gyldige som mål på det som er testet, gir en pekepinn om hvordan elevene sprer seg rundt et gjennomsnitt. Som intelligens hevdes å være ”det man måler med en intelligenstest” blir kunnskap lett forstått som ”det man måler med en ferdighetstest, uttrykt ved et tall sammenholdt med en standard.” Det innebærer et smalt utsnitt av menneskelig virksomhet, læringsprosesser og ikke minst kunnskapsanvendelse. Testtallet (enten det er knyttet til intelligens eller læringsresultat) kan i liten grad brukes til å si noe om hvorvidt den enkelte i framtida vil fungere sosialt og konstruktivt – eller dysfunksjonelt. Oppsummeringen av tall kan vanskelig knyttes til samfunnets fremtidige politiske eller økonomiske utvikling.

Testtallene summert kan formelt (slik de legges opp) ikke gi noen årsaksforklaringer på hvorfor testtallet er framkommet, ikke på nasjonalt nivå, og særlig ikke på lokalt nivå. Man kan rangere tall både nasjonalt og lokalt. Dersom man ut fra rangeringen bruker tallene til å fastslå hvilke skoler eller nasjoner som har god eller dårlig undervisning eller utdanningspolitikk som informasjon til foreldre eller politikere, er det ugyldig bruk av tallene.

Smal bruk av resultatmål kan være gyldig som inntak til en smal del av menneskelig læring, men blir raskt ugyldige om de foregir å informere grundig og sikkert om læring og kunnskap i videre forstand. I den forstand svarer metoden dårlig til egenskaper ved temaet.

 

Det kliniske skjønn

Mot slutten av et evalueringsoppdrag knyttet til L97 ble testgyldighet aktualisert. Dels brukte jeg selv PISA-lignende tester i en del av undersøkelsen, og det var lokale variasjoner jeg ikke forsto og måtte undersøke nærmere. Det samme gjaldt et lokalt resultat på lesetest (mange under kritisk grense!) på 2. trinn – bredt offentliggjort i media. Nærmere undersøkelser viste at det var enkelt å finne forklaringer på variasjon i det ene tilfellet, variable og kontekst som ikke var tatt høyde for. I det andre tilfellet, var resultatet på den offentlige lesetesten direkte misvisende, selv om alle instrukser var fulgt til punkt og prikke. Erfaringen dokumenterte testenes sårbarhet både i forhold til å gi gyldig informasjon om det de foregir å måle, og ikke minst sårbarhet i forhold til lettvint og ugyldig formidling av resultater. [1]

Læring og læringsresultater myntes ut lokalt i det daglige samspillet omkring undervisningsoppgavene mellom lærere og elever og lærerne imellom, og også i forholdet til skoleledelse og foreldre. Oppslåtte tall fra store undersøkelser og prøver må testes og diskuteres opp mot de profesjonelle erfaringene som gjøres lokalt. Egne erfaringer og undersøkelser må alltid gis rom.

Det er dette som tilsvarer det kliniske skjønnet og det andre av tre inntak til den brede forståelsen av evidens, gyldig kunnskap, i den medisinsk og psykologiske definisjonen nevnt innledningsvis. Det tredje inntaket var pasienters verdier og preferanser. Dewey hevdet i sin tid at relasjonen mellom kunnskap og verdier (knowledge and value) burde stå sentralt i moderne filosofi. [10]  Hvis vi reduserer verdibegrepet til økonomisk eller tallmessig verdiskaping, målt etter produksjonstall på tester, gjennomstrømming eller fornøydhet og detaljert rapportering i denne sammenheng, risikerer vi også å undergrave evidensbegrepet slik den brede definisjonen går. Vi reduserer fort kunnskap til en omsettelig vare, lærere til funksjonærer og voktere av samlebånd, undervisningens mål til oppdragelse av kunder, konsumenter og konkurrenter. Opplæringsloven og den generelle læreplanens mål er politisk omforent og bygger på et annerledes helhetlig verdigrunnlag, kunnskaps- og læringsforståelse. Ved en videre utarming av evidensbegrepet, forståelsen av hva som er gyldig kunnskap og informasjon, risikerer vi på sikt å undergrave disse målene.

 

[Mulige sitater i teksten:]

”Hvordan man på gyldig vis kan putte stadig mer uskarpe variable inn i presise regnestykker virker problematisk. ”

”Oppslåtte tall fra store undersøkelser og prøver må testes og diskuteres opp mot de profesjonelle erfaringene som gjøres lokalt.”

 

 


[1] J.F.Blichfeldt (2003): Lære for livet? Skolen som møteplass for mening og mestring. Evaluering av         R 97.  AFI rapp 7/2003  s.164 ff.

 


[1] Blichfeldt, J.F.: Utdanningsforskning som mobbing? Utdanning nr. 8 2011.

[2] Sackett, D.L; Strauss, S.E.; Scott Richardson, W.; Rosenberg, W.&Haynes., B.R. (1997). Evidence Based Medicine–How to Practise and Teach EBM. New York: Churchill Livingstone.

[3] Henvisningen til Levant og psykologi hentet fra M.H. Rønnestad (2008). Evidensbasert praksis i psykologi. Tidsskrift for Norsk Psykologforening, vol. 45 nr.4. Levant, R.F. (2005). Report of the 2005 Presidential task force on evidence-based practise. Washington DC: Amercian Psychological Associaton.

[4] Med særlig henvisning til Batesons epistemologiforståelse har jeg utdypet dette litt i en artikkel: On knowledge bases and maps of knowledge. Some quiddities on getting to know in higher education. Nordic Studies in Education. 2010 nr. 4

[5] Hattie, J (2009). Visible Learning. Routledge, N.Y.

[6] Innenfor realfag, som medisin (som kanskje egentlig er et blandingsfag) kan man ofte definere variable med stor presisjon, gjennomføre nokså eksakte eksperimenter. Statistikken gir uvurderlig kunnskap, men selv innenfor slike fag forklares sjelden hele variasjonen i forhold til tilfeldighet. For samfunnsfagene er presisjonsmulighetene helt annerledes utfordrende, kanskje prinsipielt annerledes. Godt er kanskje det.

[7] Det dreier seg om at hans egen spesielle kompetanse er knyttet til måling og design av undersøkelser som kun innebærer måling/testing. Samspillsstudier er ofte er kvalitative eller metodisk komplementære, typer av studier som ikke er med i hans syntesearbeid – det kan finnes annet sted. (Forordet s. ix)

[8] I en stor artikkel tar J.P.Shaver opp feilaktig bruk av statistikk, ikke minst på grunn av sviktende randomisering. Dette synes altså å være en kritikk som kan ramme atskillige av de underliggende studiene som Hattie har valgt. Shaver kritiserer også hva han synes oppfatte som standard feilbruk av statistikk i metastudier; når forskeren har gjort et omfattende litteratursøk heller enn å trekke et tilfeldig utvalg av studier. (Shaver, J.P.(1993): What Statistical Significance Testing Is, and What It Is Not. The Journal of Experimental Education. Vol.61 No.4. Taylor & Francis Ltd.

[9] Dette er en mulig feilkilde selv om metastudien i seg selv ikke tar utgangspunkt i signifikansverdier. Det hevdes at studier av effektstørrelse i metastudier er mer pålitelige enn studier som er bygget opp rundt signifikanstesting, som er svært misbrukt i pedagogisk forskning (J. P. Shaver 1993 ibid). Det kan likevel være et problem om de fleste undersøkelser som inngår i metastudiene er publisert under forutsetning av framvist signifikans.

[10] Dewey, J. (1988). The Quest for Certainty, i Later Works, vol. 4 ed. Jo Ann Boydston (Carbondale: Southern Illinois University Press.