Hatad i livet – glömd i döden! Gustaf och snillevalet

 

Hatad i livet – glömd i döden! Vad har man gjort för att förtjäna ett sådant omnämnde i minnesböcker? Beskrivningen gäller privatläraren och skoldebattören Gustaf Ruder som på 1730-talet blev den första i Sverige att på allvar tala för det vi ser som självklart idag – att urval till högre utbildning baseras på meriter. De mest lämpade skulle väljas, i stället för barn till välbärgade föräldrar. Idag är det ju betyg och resultat på högskoleprovet som avgör.

Gustaf Ruder förordade alltså att meriter skulle vara grunden för urval till universitet, det som då benämndes snilleval. Men hur kunde detta vara så kontroversiellt att det väckte sådant hat mot Ruder som person? 

Under Frihetstiden i Sverige på 1700-talet hade en ny generation politiker, färgade av upplysningens idéer, kommit till makten. Undervisning och uppfostran debatterades och en ny syn på begåvning och urval trädde fram. Utbildning kostade staten mycket och det fanns en risk att de ”tärande yrkena” – Gustaf Ruder använde just de orden – som exempelvis tjänstemän i staten inte gavs till de mest lämpade. 

Genom snilleprövning skulle det gå att sätta rätt man på rätt position menade Ruder. Därmed blev han indirekt en företrädare för ståndscirkulation, vilket väckte en del ont blod. Skulle nu plötsligt vem som helst få utbilda sig? 

Ett sätt att förstå Gustaf Ruders resonemang är att låna sociologen Zygmunt Baumans (1925–2017) åtskillnad mellan skogvaktarstaten och trädgårdsmästarstaten. 

Snilleväljaren, som Gustaf Ruder också kallar för trädgårdsmästare, är klart pro-aktiv. Han låter inte trädgården växa vilt, utan han sår, ansar och gallrar. Han vill få ut mer av trädgården än vad den kan ge utan vård. 

Samhällets praxis speglade snarare då skogvaktarstatens hållning om en naturlig sållning. Biskopen i Västerås skriver:

Man kan omöjligen veta, hvilkens snillegåfvor med tiden torde blifva förvärrade eller förbättrade, så lärer man ock i förtid ej med någon särdeles visshet kunna säga, hvad var och en yngling i mandomsåren skall blifva mest fallen och skicklig till. 

Det handlar alltså om att barn utvecklas på olika vis och i olika takt. Lärarens roll är att följa detta med ro, likt en skogvaktare som ger träden tid att växa och bli vad de är förutbestämda att bli. Lektorerna vid Växjö gymnasium anförde:

Alla dagar ser man väl det att den ene lärjungen är qvickare än den andre, har bättre minne och kan nu fortare göra reda för sin lexa än dess kamrat, som fast trögare, dummare, långsammare, ofta med full börd seglar den förre förbi, då dess judicium [omdöme] kommer till större mognad.

Rent praktiskt tänkte sig Ruder att snilleväljaren har tillgång till ett antal gossar  och att man bland annat studerar deras läsförmåga, skrivkunnighet, minne, kristendomskunskap samt inbillnings- och föreställningskraft. Dessutom granskas gossarnas omdömet, och deras ”affekter och sinnesböjelser”. Resultaten stämdes sedan av mot deras ”kropp och utvärtes skapnad”. 

Gustaf Ruder knyter här an till den så kallade temperamentsläran grundad av den antika läkaren Hippokrates och som delar in människan i fyra temperament formade av kroppsvätskornas sammansättning. Det är sangviniker (blod), flegmatiker (slem), koleriker (gul galla), melankoliker (svart galla). Han gör sedan en uppdelning av olika typer av yrkesgrupper och länkar varje temperament till olika uppgifter inom respektive yrkesgrupp. I staten kan koleriker till exempel bli ministrar, medan flegmatiker mer lämpar sig som betjänter. I handel kan koleriker och melankoliker bli ”rika storhandlare” medan sangviniker och flegmatiker blir ”fattiga småhandlare”. 

Den dåvarande riksdagen är enhälligt skeptiskt till dessa tankar. Förutom rent praktiska argument mot snillevalet, som att det skulle bli dyrt, framfördes teoretiska argument som tvivlade på temperamentsläran över huvud taget. Dessutom härskade den praxis som biskopen Västerås gav uttryck för ovan. 

Ruders tankar föll i glömska och ett meritokratiskt skolväsende skulle låta vänta på sig långt in på 1900-talet. 

Även om vi idag tar meritokrati för självklart när det gäller utbildning finns en ständigt närvarande diskussion om när, hur och vem som har rätten och kompetens att bedöma barns kunskaper och potential. I Sverige har de betyg lärarna sätter stor betydelse för elevernas fortsatta möjligheter – men vi litar inte helt på dem. 

Mer objektiva och externa bedömningar som de nationella proven ska beaktas vid betygssättningen. Det finns också flera förespråkare för att dessa ska få mycket större betydelse och rättas centralt av staten inte minst för att öka likvärdigheten. Det är då viktigt att komma ihåg att lärarnas betyg vilar på observationer av elevernas lärande och utveckling, ofta över flera år. Ett enskilt prov vid ett provtillfälle kan aldrig ersätta detta.

Denna text är en återpublicering av en tidigare vetenskapskrönika i NA 221209

Se vidare om Ruder här

Vilket är elevens rätta resultat?

Det finns de som påstår att det är lätt att mäta kunskaper. Allt som oftast står det i tidningarna att elever får för höga betyg eller fel betyg med utgångspunkt i jämförelser mellan de betyg lärare har satt på elevernas kunskaper och elevers resultat på de nationella proven. Redan här förstår man kanske att det inte är helt lätt, för vem har egentligen mätt rätt? I dagsläget och på goda grunder som jag ska visa, ska emellertid inte de nationella proven styra lärares betyg. De ska vara ett stöd i betygssättningen. Anledningen är att det inte helt objektivt går att mäta den typ av kunskaper våra läroplaner anger att eleverna ska lära sig, och att mätandet i sig påverkar vad och hur eleverna lär sig. Detta brukar diskuteras i termer av validitet och reliabilitet. Validitet, giltighet, handlar ytterst om hur säkert vi kan uttala oss om ett resultat utifrån hur säkra vi är på vad vi har mätt, eller som Samuel Messick uttrycker det i sin klassiska artikel Validity:

Validity is an integrative evaluative judgment of the degree to which empirical evidence and theoretical rationales support the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment. (Messick 1989:13)

Messick diskuterar två hot mot möjligheten att göra valida tolkningar av ett testresultat, dels construct under representation, dels construct irrelevant variance. Det första handlar om att ett prov inte tillräckligt förmår fånga skillnaden mellan elever kring det vi ville mäta. Om vi t.ex. har ett flervalsprov i historia så fångar det elevernas skilda kunskaper kring historiska fakta men inte huruvida eleverna kan konstruera ett historiskt argument, eller för att ta något uppenbart, att muntlig förmåga inte mäts på ett skriftligt prov. Alltså, construct under representation handlar om att viktiga aspekter av ett kunnande är underrepresenterade i ett prov.

Construct irrelevant variance handlar om motsatsen, uppgiften mäter något som den inte borde mäta. I ett test i matematik kan frågorna vara formulerade med ett så pass svårt språk att vi inte vet om skillnaden mellan eleverna beror på läsfärdighet eller matematisk färdighet. Reliabilitet, trovärdighet, handlar om i vilken grad resultaten på ett test kan bero på slumpmässiga faktorer, eller faktorer utom testarens kontroll. Paul Black och Dylan Wiliam (2011) menar därför att reliabilitet ytterst är en fråga om construct irrelevant variance, alltså om validitet. Har ett test låg reliabilitet går det inte att göra valida tolkningar av resultatet eftersom man inte vet vad resultatet beror på.

En vanlig metafor för reliabilitet och validitet är nedanstående bild (se t.ex. Koretz 2008):

validitet och reliabilitet

Den fjärde bilden ses som både reliabel och valid. Men säg nu att kursplanen definierar hela tavlan som mål för undervisningen. Då får du en påtaglig construct under representation i det fjärde fallet. Snarast är det då den andra bilden som ger bäst construct representation, men mot en betydligt lägre inre konsistens. Man får alltså i praktiken i viss utsträckning bestämma sig för om man ska betona reliabilitet eller validitet, eller hitta någon lämplig kompromiss – vilket inte är det lättaste.

Det finns tre övergripande hot mot reliabiliteten:
1) Olika bedömare gör olika tolkningar av elevernas svar
2) Elevernas dagsform påverkar hur de svarar och om de kan eller inte
3) Olika uppgifter men som mäter samma kunskaper uppfattas på olika sätt av olika elever.

Ett sätt att öka reliabiliteten är genom att införa fler frågor på varje mätområde. Vi vill kanske ge eleverna tre olika möjligheter att visa att de förstår ett specifikt moment. Om vi på detta sätt vill öka den så kallad interbedömarreliabiliteten från ett läge där oberoende bedömare kommer till samma slutsatser i 64 procent av fallen till 81 procent av fallen, behövs en uppgiftsmängd som förlänger provtiden 5 till 6 gånger menar Black och Wiliam (2011), dvs. upp mot 25-30 timmar om vi tar ett Nationellt prov som exempel. Skulle vi göra det får vi dock ett annat problem – eleverna blir så trötta att de underpresterar. Alternativet är att vi gör ett test som täcker in färre områden, men då får vi alltså underrepresenterade kunskapsområden. Det hela handlar om klassisk testteori. Vanligtvis brukar man beräkna hur många uppgifter som behöver adderas till ett prov för att uppnå en viss reliabilitet. Det gör man med hjälp av Spearman-Browns formel. De flesta provkonstruktörer väljer en balans mellan dessa poler med den uppenbara konsekvensen att det finns mätfel även i de allra mest ambitiöst konstruerade proven. Ska man göra vettiga tolkningar av ett prov måste man därför ha en aning om mätfelets storlek. Black och Wiliam (2011) har ett resonemang om hur man kan tänka om det genom att ha en hypotes om elevernas rätta resultat. Det finns inget meningsfullt prov där elever skulle få samma resultat varje gång. Elever gör olika fel vid varje mättillfälle och bedömare gör olika rättningar vid olika tillfällen. Men om man lade ihop en elevs resultat på fem till sex liknande prov under en begränsad tid skulle man få fram ett genomsnittligt resultat som kallas the true score – det rätta resultatet. Ett sätt att åstadkomma detta i praktiken är att arbeta med split half-metoden som innebär att man gör ett prov som kan delas i två delar. Sedan jämför man utfallet på de två delarna. Är det hög överensstämmelse har uppgifterna en hög inre konsistens avseende vad de mäter. Överensstämmelsen är dock också beroende av hur man delar upp testet och därför måste man korrelera alla tänkbara rimliga sätt att dela testet på med varandra. Då får man ett värde som kallas Cronbachs alpha och som uttrycks mellan 0 och 1, där 0 betyder att proven ger slumpmässiga utfall och 1 att provet är helt reliabelt – varje gång vi gör det får vi samma resultat. En vanlig uppfattning är att Cronbach alpha bör ligga på 0.7 och uppåt om testet ska vara användbart, men det beror givetvis på vad det faktiskt är man mäter. För att förstå vilken effekt olika grader av reliabilitet faktiskt kan få t.ex. för vilket provbetyg en elev får behöver vi kombinera Cronbach alpha med ett mått på elevens sanna resultat (the true score).

För att undersöka hur provets inre konsistens påverkar resultatet för en elev kan Cronbach alpha sättas i relation till standardavvikelsen, dvs. den genomsnittliga avvikelsen från medelvärdet. En bra illustration till hur man kan räkna finns i Black och Wiliam (2011). På en normalfördelningskurva faller 68 procent av resultaten inom en standardavvikelse och 96 procent inom två standardavvikelser. Genom att kombinera dessa mått går det att få fram ett förväntat standardfel, SEM. Standardfelet anger för varje reliabilitetsnivå den förväntade spridningen av felprocent inom en och samma faktiska kunskapsmängd.

Formeln för SEM är X √(1-r)

Om r är reliabilitet så betyder detta att SEM på ett prov med en reliabilitet på 0.85, där man kan få 50 poäng och där standardavvikelsen (X) är 7,5 poäng blir 2,9 poäng (SEM=7,5√(1-0,85)=2,9). Det innebär att den ”sanna poängen” för en elev med 35 provpoäng till 68 procents sannolikhet ligger mellan 32 och 38 poäng. Vill man ha 95 procents säkerhet kan man säga att den ligger mellan 29 och 41. Detta är i själva verket en approximation, men används allmänt i professionell provanalys. Detta innebär hursomhelst att i en klass på 30 elever så är det minst en elev, vi vet aldrig vem, som avviker mer en 12 procent i positiv eller negativ riktning, det kan vi heller inte veta, från sitt riktiga resultat. Minst tio elever avviker 6 procent från sitt sanna resultat relaterat till provens bristande inre konsistens (som i det här exemplet trots allt inte var så farligt hög). Effekten för den enskilda individen kan dock bli stor varför professionella testkonstruktörer gärna är extra försiktiga med vilka slutsatser de drar från ett prov. Black och Wiliam skriver:

even the best tests can be widly inaccurate for a few individual students /…/ This is why testing experts invariably say that high-stakes decisions should never be based solely on the results of a single test. (Black & Wiliam 2011, s. 252)

Det är också av detta och likande skäl som nationella prov inte ska styra elevernas betyg. Om de gör det kommer vissa elever ändå att få fel betyg. Staten har därför valt att lita också på lärarnas omdömen. Frågan som uppstår är emellertid om lärares betyg hamnar ännu mer fel. Det kan vi inte veta med mindre än att vi forskar mer om hur lärare tänker när de ger eleverna deras betyg. Vi vet alltså inte vilken bedömning det är som är mest construct relevant, provbetyget eller lärarnas betyg. Men om vi bara håller oss till reliabiliteten i bedömningarna av proven går den att förbättra med olika medel. Ett sätt har varit att erbjuda elevexempel för olika betygsnivåer så att lärarna vet vad de ska titta efter. Det kvarstår dock fortfarande en stor del bristande bedömaröverensstämmelse, särskilt i uppsatsdelarna. Ett rimligt nästa steg är att låta lärare rätta proven tillsammans i grupp. Man rättar alltså sina egna elevers resultat och de andra lärarnas gemensamt. Det skulle göra att lärarna ”skrapar av” varandras extremer och därigenom, om gruppen är någorlunda heterogen, men inte nödvändigtvis större än 4-5 lärare, når en norm som skulle likna den liknande grupper skulle komma fram till (för en bra beskrivning av hur det praktiskt kan gå till se här och här). Det krävs alltså inte en särskilt stor kritisk massa för att enas om den mest rimliga tolkningen. I en sådan process skulle lärarna också utveckla sin ämneskompetens i det att de lära av varandra vad som är viktigt att fästa uppmärksamhet vid i olika moment av ämnet. Att låta lärare kontrollrätta varandras elevers anonymiserade prov menar jag däremot är en sämre väg att gå. Det förstärker misstroendet till lärarna och det blir inte nödvändigtvis rättvisare för eleven. Framförallt tar det bort ett tillfälle för lärare att lära av varandra. Bedömning av elevers kunskaper kan aldrig ske helt objektivt – däremot kan det utföras med en tillräckligt hög grad av intersubjektivitet för att tillfredsställa både individens och samhällets krav på likvärdighet!

Referenser

Black, Paul and Wiliam, Dylan (2011). The reliability of assessments. In John Gardner (ed.). Assessment and Learning. 2nd edition Los Angeles and London: Sage Publications, p. 243–263.

Koretz, Daniel M. (2008). Measuring up: what educational testing really tells us. Cambridge, Mass.: Harvard University Press

Messick, Samuel (1989). Validity. In Robert L. Linn (ed.): Educational Measurement. 3d edition 1993. Phoenix: The Oryx Press, p. 13–103.