bloggar / Kimmo Eriksson

Värdet av sunt förnuft

Låt mig en sista gång återvända till forskningen på barns numeriska förmåga som jag har berört flera gånger tidigare på denna blogg. Jag har lagt väldigt mycket tid på att omanalysera data från en sådan studie där forskarna undersökte barns minne för tal mellan 0 och 1000. Barnen fick höra små historier av typen ”Kalle diskade efter en stor fest. Han diskade 589 glas och 73 tallrikar och 220 koppar.” Efter en kort distraktion frågade man dem efter talen de just hört (”Hur många glas diskade Kalle?”) Genom sex sådana historier presenterades och efterfrågades totalt arton tal. Fyra av talen var “små” (mindre än 150) och av särskilt intresse i denna studie av en anledning jag inte går in på här.

Det är inte självklart hur man från dessa svar ska mäta hur bra minne ett barn hade. En uppenbar möjlighet är att helt enkelt räkna hur många tal barnet mindes rätt, men det finns skäl som talar emot det måttet. Det var nämligen ovanligt att barnen mindes talen helt rätt, men vanligt att barn svarade med ett tal som var nära det presenterade talet (t.ex. 73 i stället för 75). Det tyder rimligen på ett minne som var bättre än om barnet svarade med ett tal som var långt bort (t.ex. 500 i stället för 75).

Forskarnas lösning på detta var att mäta minnet (med omvänt tecken) som absolutfelet. Om det presenterade talet var 75 har svaret 73 absolutfel 2, och svaret 500 har absolutfel 425. Barnets minne för små tal mättes som genomsnittet av dessa absolutfel för de fyra små presenterade talen.

Sunt förnuft säger att detta är ett dåligt mått på minne. Det ger nämligen väldigt olika mått på minnet för barn som minns lika många tal och gissar på resten. Genom slumpen hamnar ju vissa gissningar närmare det rätta svaret. Ta två barn som båda svarar rätt på tre tal och båda svarar fel på det fjärde talet som är 75. Det ena barnet råkar gissa på 117 (med absolutfel 42) och räknas därmed som att det hade tio gånger bättre minne för små tal än det andra barnet som råkar gissa på 500 (med absolutfel 425).

Hur vet vi om ett barn är nära rätt svar på grund av att det faktiskt har ett minne av talet eller om det bara hade tur i gissningen? Säkert vet man det förstås inte (och notera att denna problematik inte är unik för detta test utan i någon mån gäller alla test överhuvudtaget). Ett förslag är att man först försöker använda sunt förnuft när man analyserar svaren och sedan ser om resultatet av analysen verkar rimligt.

Mitt eget sunda förnuft säger att om barnet inte ens får första siffran rätt så är dess svar troligen ett uttryck för gissning snarare än minne. Därför gjorde jag en alternativ analys av forskarnas data där jag mätte barnens minne som antalet tal där de ”mindes” åtminstone första siffran rätt. Sedan gjorde jag histogram över fördelningen av barnens minne för små tal. Till vänster visas fördelningen när minne mättes som genomsnittligt absolutfel (dividerat med 1000). Till höger är fördelningen när minne mättes som antal tal där åtminstone första siffran blev rätt i svaret.

Histogram över fördelning av två mått på minne för små tal

Den högra fördelningen är förenlig med en underliggande normalfördelning. Detta är ett rimligt resultat. Typiskt är kognitiva förmågor ungefär normalfördelade. Den vänstra fördelningen avviker däremot kraftigt från en normalfördelning. Som fördelning av en kognitiv förmåga ser den inte ut att vara rimlig. Istället uppvisar den en konstigt skev variation som i huvudsak avspeglar att vissa barns gissningar hade en tendens att vara relativt höga tal medan andra barns gissningar hade en tendens att vara relativt låga tal – variationen avspeglar därmed något annat än det man egentligen ville mäta (nämligen minne).

Forskarnas huvudresultat handlade sedan om att en viss intressant faktor inte predicerade barns minne för små tal. Det visade sig i min fortsatta analys att när jag istället använde det rimliga måttet på minne så föll detta huvudresultat: den där faktorn kunde visst predicera barns minne för små tal! Med andra ord var forskarnas huvudresultat en artefakt av att de använt ett orimligt mått på minne som innehöll en massa onödigt brus.

Det här blir mitt sista blogginlägg på Curie. Jag hoppas att eventuella läsare av min blogg har funnit inspiration att tänka kritiskt och självständigt på forskningens metoder, dess resultat och dess publiceringsetik.

 

Dela inlägget

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


9 − = tre

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Hur man lätt lurar sig av regression mot medelvärdet

I veckan har jag och Olle Häggström skrivit klart ett manuskript om hur några forskare inom utvecklingspsykologi låtit lura sig av det statistiska fenomenet ”regression mot medelvärdet”. Detta fenomen förtjänar att vara mer känt bland människor som inte för övrigt håller på med statistik – och det borde verkligen vara mer känt bland dem som faktiskt håller på med statistik i praktiken.

Regression mot medelvärdet dyker upp när någonting varierar upp och ner på ett i någon mån slumpmässigt sätt: Vissa stunder är man ledsnare än andra stunder. Vissa dagar är torrare än andra dagar. Med regression mot medelvärdet menas det enkla faktum att när ett extremt värde har inträffat kommer troligen ett mindre extremt värde att följa: Efter att man varit väldigt ledsen kommer man oftast att vara mindre ledsen nästa gång man känner efter. Efter en väldigt torr period följer oftast en mindre torr period.

Den som inte är medveten om det här fenomenet kan lura sig att tro att det beror på något annat. Säg att man tar för vana att äta brylépudding när man är riktigt ledsen. Eftersom man sedan oftast blir mindre ledsen – oavsett om man äter brylépudding eller inte – kan man få för sig att det hjälper att äta brylépudding. På samma sätt kommer man oftast att kunna observera mindre torka efter en regntango om man tar för vana att dansa regntango just när det är extremt torrt. Närhelst man vidtar någon särskild åtgärd vid extrema tillfällen kommer det att verka som att åtgärden oftast har effekt.

Så här långt är detta enkelt att begripa. Men det finns också ett subtilare problem som kan lura forskare som använder statistik i praktiken. Tänk på en skillnad mellan två grupper, till exempel att kvinnor i genomsnitt har högre skolbetyg än män. Man kan då genomföra en åtgärd för att jämna ut skillnaden, till exempel förändra undervisningen på ett sätt som syftar till att höja mäns betyg. För att sedan utvärdera åtgärden kan en forskare vara oroad över att åtgärden kanske har olika effekt för olika elever beroende på var de ligger i betygsskalan till att börja med. För att inte behöva oroa sig för detta kan forskaren bestämma sig för att helt enkelt jämföra kvinnor och män som före åtgärden hade samma betyg. Låt oss för enkelhets skull säga att forskaren tittar på de män och kvinnor som ligger på det nationella genomsnittsbetyget. Det betyder att forskaren tar kvinnor som ligger under genomsnittet bland kvinnor och jämför dem med män som ligger över genomsnittet bland män.

Även betyg har förstås en viss slumpmässig variation över tid för varje given individ. Ibland har man mer lycka än annars med hur väl man trivs och presterar i skolan. Eftersom forskaren i jämförelsen valt ut kvinnor som det just då gick relativt dåligt för så kommer det bland dem att vara en överrepresentation av kvinnor som det just då gick ovanligt dåligt för. Samtidigt har vi valt ut män som det just då gick relativt bra för och bland dem kommer det därför att vara en överrepresentation av män som det just då gick ovanligt bra för.

Regression mot medelvärdet leder till en tendens till förbättring bland dem som det tidigare gick ovanligt dåligt för (mest kvinnor i forskarens urval), och en tendens till försämring bland dem som det tidigare gick ovanligt bra för (mest män i forskarens urval). Konsekvensen blir att det ser ut som om åtgärden särskilt höjer kvinnors betyg. Eftersom syftet ju var att särskilt höja mäns betyg ser det ut som att åtgärden har motverkat sitt syfte – utan att åtgärden egentligen haft någon effekt åt något håll. Det bara ser ut så på grund av att urvalet var skevt på olika sätt i de två grupperna.

Om åtgärden faktiskt har en viss positiv effekt på mäns betyg så kan regression mot medelvärdet på samma sätt maskera denna positiva effekt. Nog kan man undra hur många faktiskt fungerande åtgärdsprogram som har avbrutits därför att utvärderingar har låtit sig luras av regression mot medelvärdet.

Dela inlägget

4 kommentarer Visa

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


sex + = 14

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Några enkla varningssignaler för när man inte bör lita på en publicerad analys

Jag håller just nu på med ett manus där jag och min forskar- och bloggarkollega Olle Häggström förklarar och uppmäter tokigheten i den statistiska analysen i en artikel jag bloggade om förra året. Den tokiga artikeln handlar om hur barns matematiska förmåga påverkas av om deras mentala representation av tal är linjär eller logaritmisk. Att jag överhuvudtaget kom in på detta område av utvecklingspsykologi kom sig av en inbjudan att gästföreläsa på en kurs för yrkesverksamma logopeder. Det är denna yrkesgrupp som gör dyslexiutredningar och nu skulle de lära sig att utreda även den matematiska motsvarigheten, dyskalkyli. Om detta vet ju jag knappast något men min gästföreläsning skulle bara handla om varför man alls ska lära sig matematik.

Snart efter inbjudan såg jag i Psychological Science, den främsta empiriska psykologitidskriften, en ny artikel med titeln ”Linear Numerical-Magnitude Representations Aid Children’s Memory for Numbers”. Jag tänkte att detta kanske kunde vara relevant för det som kursen egentligen handlade om, så jag tog med artikeln som läsning på tåget från Stockholm till Uppsala där gästföreläsningen skulle vara. När jag 35 minuter senare kom fram till Uppsala var jag övertygad om att forskarnas analysresultat inte var att lita på. Jag skrev till dem och bad om deras data, och min egen analys bekräftade att deras resultat byggde på felaktiga antaganden baserade på en naiv uppfattning om skillnaden mellan linjära och logaritmiska funktioner.

Här tänker jag inte gå in på vare sig deras resultat eller deras felaktiga antaganden. Istället tänkte jag diskutera vad det var för varningssignaler jag såg i artikeln. Jag skulle önska att förmågan att se dessa varningssignaler var mer utbredd, till exempel bland redaktörer och reviewers.

Varningssignal 1: Artikeln handlade om skillnaden mellan linjära och logaritmiska representationer och illustrerades på första uppslaget av ett diagram som visade en ”logaritmisk funktion” och en ”linjär funktion” som båda hade värdet y=0 i punkten x=0. Men logaritmen av 0 är oändligt negativ och kan inte skalas ner till 0. Med andra ord måste deras funktion innehålla några termer, t.ex. skulle den kunna vara någon multipel av log(x+1) eller log(x+2)-log(2). Eftersom det finns oändligt många möjligheter skulle man förvänta sig att den modell de använt stod specificerad någonstans, gärna tillsammans med en kommentar om behovet av att undvika log(0). Men inget sådant omnämndes i artikeln, vilket gav mig intrycket att författarna nog inte förstod så mycket av logaritmer och funktioner.

Varningssignal 2: På flera ställen i artikeln beräknades en uppsättning korrelationskoefficienter, så kallade r-värden. De kan anta värden mellan -1 och 1. Om man bara är intresserad av värdets absoluta storlek (dvs. om man är ointresserad av om tecknet är plus eller minus) kan man studera absolutvärdet av r som ju betecknas |r|. Författarna sammanfattade sina resultat på formen ”rs = |.71|–|.82|”. Det de ville säga är att ”alla r uppfyller .71 ≤ |r| ≤ .82”. Att de satte absolutvärdestecknen på fel storheter (på de redan positiva talen istället för på r) gav mig intrycket att författarna nog inte förstod så mycket av grundläggande matematik överhuvudtaget.

Varningssignal 3: Forskarna mätte minnet för numeriska tal genom att först presentera några tal och sedan be barnen att försöka komma ihåg dem. Som ett mått på hur bra barnets minne var använde forskarna ett statistiskt standardmått för hur väl de ihågkomna talen var linjärt relaterade till de presenterade talen. Det innebär att om de presenterade talen var 10, 20 och 30 och barnet kom ihåg 1, 2 och 3 så räknades det som perfekt minne. Likaså om barnet kom ihåg 17, 17,och 17, för det är fortfarande en linjär relation. Till och med om barnet kom ihåg talen i omvänd storleksordning (säg, 75, 50, 25) skulle minnet räknats som perfekt. Detta gav mig intrycket att författarna nog inte förstod så mycket av vad deras knapptryckningar i statistikprogrammet egentligen betyder.

Det fanns fler konstigheter som man behövde vara lite mer matematiskt kunnig för att se. Men hur i all världen kommer det sig att inte någon i bedömningsprocessen i den främsta av psykologitidskrifter upptäcker åtminstone någon av ovanstående varningssignaler?

Dela inlägget

4 kommentarer Visa

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


8 × fyra =

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Coola studier behöver replikeras (även min)

Det publiceras ju kolossalt mycket forskning i facktidskrifter. Endast en försvinnande liten del av denna forskning blir uppmärksammad i medier som den intresserade allmänheten har tillgång till, såsom tidningar och bloggar. Det är förstås större chans för uppmärksamhet om studien är ”cool” i meningen att den säger något festligt om något som även ickespecialister bryr sig om.

En sådan cool studie fann att människor låter sig imponeras av bilder på hjärnan. Forskarna lät lekmän läsa en förklaring av ett psykologiskt fenomen och sedan bedöma hur tillfredställande de fann förklaringen. För vissa deltagare ”illustrerades” förklaringen av en irrelevant bild av hjärnan. Det visade sig att de som fick se en irrelevant bild av hjärnan var mer tillfredställda med förklaringen de fick läsa. En cool studie!

I vintras publicerade jag själv en studie av liknande cool karaktär. Bakgrunden var det kliv jag som matematiker tagit in i humaniora och samhällsvetenskap. Där har jag tyckt mig se en onödigt stor respekt för matematik. Mitt intryck är att här finns områden där bara en liten minoritet av forskarna har tillräcklig matematisk kompetens för att formulera matematiska modeller, och – vad värre är – bristen på matematisk kompetens hos övriga forskare gör att de inte ens vågar ifrågasätta värdet av minoritetens matematiska modeller. Det är potentiellt allvarligt, eftersom ifrågasättande är en grund för god vetenskap.

Mitt personligt färgade intryck är dock inget att lita på i sig! Därför har jag i flera år försökt komma på någon genomförbar metod att systematiskt undersöka om det finns onödigt stor respekt för matematik inom forskningsfält där de flesta inte har matematisk kompetens. I höstas kom jag på ett sådant sätt. Genom en amerikansk webbsajt rekryterade jag 200 deltagare som alla hade minst en mastersexamen och vana vid att läsa forskningsartiklar. Jag gav deltagarna i uppdrag att, som om de vore ledamöter i programkommittén för någon konferens, bedöma forskningens kvalitet i två korta abstract som jag gav dem. I något av abstracten hade jag lagt in en helt irrelevant ekvation som bara var nonsens i förhållande till abstractets övriga innehåll.

Resultatet var att oberoende av i vilket av de två abstracten jag lade in den irrelevanta ekvationen så tyckte majoriteten av deltagarna att det var i just det abstractet som forskningen hade högst kvalitet. Jag delade sedan upp deltagarna på vetenskapsområdet för deras examen och gjorde om analysen. Då visade det sig att ”the nonsense math effect” inte uppträdde bland deltagare från vetenskapsområdet matematik-naturvetenskap-teknik, men var desto tydligare inom humaniora-samhällsvetenskap och inom utbildningsområdet. Läs gärna min korta artikel om studien.

Den här studien visade sig mycket riktigt uppfattas som cool. Efter att den blev publicerad i slutet på november hade den blivit omskriven i dagstidningar på flera kontintenter och omtalad på många av de mest lästa bloggarna om samhällsvetenskap. En författare till en framgångsrik lärobok i statistisk ville ha mina data för att tjäna som motiverande exempel i nästa upplaga!

Nu i veckan fick jag ett brev från en forskare. Han skrev att han just citerat min studie i en artikel publicerad i en psykologitidskrift. Nyfiket slog jag upp hans artikel. Det visade sig att min studie bara omnämndes bland relaterad forskning. Vad artikeln verkligen studerade var effekten med att visa bilder på hjärnan, som jag nämnde i inledningen. De här forskarna hade försökt replikera originalstudien – men inte hittat samma effekt. Totalt hade de genomfört tio experiment med 2000 deltagare, och deras slutsats var att om det finns någon effekt av att visa bilder på hjärnan så är den obetydlig.

Sensmoralen är att coola forskningsresultat från enstaka studier måste betraktas (minst) samma skepsis som mindre coola resultat från enstaka studier. Det är först när fenomen låter sig upprepas i oberoende studier som de egentligen är värda att litas på. Jag hoppas att även min studie av nonsensmatematikeffekten snart blir föremål för försök till replikering. Fram till dess är det fortfarande en cool studie – men lita inte på resultatet!

Dela inlägget

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


+ ett = 9

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Öka vaksamheten när tal anges med hög noggrannhet

På min dator råkade jag just hitta ett undansparat arkiv av epost från ett gammalt epostsystem som byttes ut för många år sedan. Jag tittade nyfiket på vad det var för epost som kommit in på slutet före bytet. Där hittade jag bland annat ett svarsbrev från en forskare jag här kallar E. Brevet löd: ”visst svarar vi gärna på dina frågor. Men tyvärr är vi nersölade med studenter, midterms och deadlines. Så du får nog ge dig till tåls.” (29 april, 2005). Snart åtta år senare har ännu inget svar kommit så nog har jag fått ge mig till tåls alltid. Men vad var det för frågor jag ställt som E syftade på? De fann jag i den kopia av mitt ursprungliga meddelande som återfanns längst ned i E:s svarsbrev.  Där stod, i utdrag:

ni [skriver] att lönerna som jag tyckte var orimliga i själva verket kan jämföras med “fantastiska upptäckter.” Men vad menas ens med en så stor lön som t ex en miljard miljard miljarder dollar? Skulle den respondenten inte skratta ihjäl sig om hon eller han fick reda på att er metod sagt att detta är den lön hon eller han finner rättvis? Vet ni i så fall bättre än respondenten själv, trots att allt ni har att gå på är deras svar på en för er okänd skala? Om du håller med om att era data inte håller för dina slutsatser i DN så kan vi skriva en gemensam folkbildande artikel där vi förklarar hur sådana här missförstånd kan uppkomma om man litar för mycket på matematiska modeller! Ni är alls inte ensamma om att gå i sådana fällor.

När jag läste dessa rader om löner på ”en miljard miljard miljarder dollar”, om svar på en ”okänd skala” och om att ”lita för mycket på matematiska modeller”, då mindes jag plötsligt hela historien.

Mina föräldrar har, liksom jag, ett yrkesliv som universitetslärare i matematik och dess tillämpningar. När jag våren 2004 kom hem från någon månad som gästforskare i Australien hade mina föräldrar sparat en artikel från DN Debatt som de tyckte var komisk. Och nog fick den även mina smilband att rycka. Jag uppmanar dig som läsare att försöka inse vad det var som vi i min familj hade så roligt åt i följande citat:

Exempelvis anser MBA-studenter i Sverige att 1.821.397 dollar är en rättvis lön för en amerikansk vd i 50-årsåldern, med sexton års skolgång och fem års erfarenhet i verkstadsindustrien och som arbetar i ett medelstort företag (börsvärde 50 miljarder dollar) med huvudkontor i USA. För en kvinnlig vd med samma profil och som arbetar i samma typ av företag anses en rättvis lön vara 1.450.921 dollar!

Underhållningsvärdet uppstod för oss i den höga noggrannhet som de ”rättvisa” lönerna angavs med. Författaren valde att ange den rättvisa årslönen för en amerikansk börs-VD med sju siffrors noggrannhet, ner till den enstaka dollarn! Detta är fullkomligt absurt. Sjusiffrig noggrannhet uppnås sällan ens i noggranna fysikaliska experiment. Och mätningen det handlade om här var ungefär så långt man kan komma från ett noggrant fysikaliskt experiment – det här handlar om att uppskatta vad som vore en rättvis årslön för en amerikansk VD i ett bolag om vilket vi endast får veta dess börsvärde och bransch.

Det är två olika aspekter på denna uppskattning som båda bidrar till att svar måste bli väldigt osäkra. För det första är frågeställningen extremt underspecificerad. Vi får till exempel inte veta om VD:n gör ett bra eller dåligt jobb, och inte heller hur vi ska tolka det mångfasetterade begreppet ”rättvis”.

För det andra är frågeställningen extremt långt ifrån vår erfarenhet. Kanske har svenskar någon liten erfarenhet av att tänka på vad som vore rättvisa löner inom vissa branscher i Sverige, men säkerligen mycket ringa erfarenhet av att bedöma hur olika egenskaper hos ett amerikanskt mångmiljardföretag och dess VD borde påverka VD:ns årslön.

Av ovanstående två skäl uppstår osäkerhet. Det betyder att om man ställer denna fråga till ett antal svenskar (eller till samma svensk vid olika tillfällen) torde man få kraftigt varierande svar. Av dessa svar kan man förstås räkna ut ett medelvärde, som skulle kunna bli 1821397 dollar för den manliga direktören och 1450921 dollar för den kvinnliga diton. Men det är helt meningslöst att skriva ut alla dessa siffror på medelvärdet om de verkliga svaren i själva verket varierar mellan, säg, en halv miljon och fem miljoner dollar. Då finns ju ingen konsensus ens om den första siffran i svaret, och medelvärdet kommer därmed att variera kraftigt beroende på vilka deltagare vi råkar ha och vilket humör de råkar vara på just när vi frågar. Komiken i den högt angivna noggrannheten ligger i att den gör anspråk på något som egentligen inte finns där. Tänk på barnet som skrattade åt kejsarens nya kläder!

Men det är inte bara roligt när för hög noggrannhet anges. Det tyder också på att författaren inte riktigt begriper sitt datamaterial. Då kan det finnas ännu allvarligare problem att upptäcka om man tittar närmare. I det här fallet fanns en studie som underlag till artikeln på DN Debatt. Där kunde jag läsa att det inte var så som jag trodde, att man frågat deltagarna vilken lön som vore rättvis. Istället hade forskarna presenterat en hypotetisk lön och därefter bett deltagarna att med ett lämpligt tal beskriva hur stor orättvisan skulle vara i den hypotetiska lönen. Ingen skala angavs, utan deltagarna kunde välja dessa tal fritt. ”Hm, hur orättvis är årslönen 60 miljoner dollar på den här VD:n? Jag tycker att orättvisan är 17 godtyckliga enheter stor.” Det var alltså inte nog med de osäkerhetsfaktorer som jag nämnde ovan. Genom sitt märkliga metodval lade forskarna frivilligt till denna onödiga osäkerhet i vad deltagarnas svar egentligen betydde.

Från detta hopplöst osäkra datamaterial försökte forskarna genom en (illa vald) matematisk modell uppskatta vilka lönenivåer som varje deltagare ansåg rättvisa. I en tabell i deras artikel kan man se vilka lönenivåer de fick fram genom sin beräkning. Jag hade ju befarat att variationen skulle vara så stor som mellan en halv och fem miljoner dollar. Men i forskarnas tabell kunde jag avläsa att variationen mellan olika tal var mycket större än så. Faktiskt jättemycket större än så. Krokofantligt mycket större, om man ska tala klarspråk. Enligt tabellen skulle en deltagare ha ansett att den rättvisa lönen för en viss direktör vore inte mindre än 1430 miljarder miljarder miljarder dollar. Som jämförelse är det ungefär hundra miljoner miljarder gånger mer än USAs hela bruttonationalprodukt.

Jag skrev en artikel om detta i Ekonomisk Debatt (2005, nr 2). I samma nummer fick forskarna möjlighet till replik. Där försvarade de utan förbehåll sina metoder och skrev exempelvis:

Bara för att Eriksson uppfattar skattningarna av Just Pay som orimliga betyder inte detta att skattningarna är orimliga.

Observera att detta är ett helt riktigt påpekande, en truism. Som de flesta truismer är det också innehållslöst som argument. Vi kan ju lika gärna vända på det och konstatera att deras påpekande inte heller innebär att skattningarna är rimliga.  Låt oss istället undersöka sakskälen för att inta den ena eller andra uppfattningen.

 

Min uppfattning är alltså att det är orimligt att det skulle vara en MBA-students allvarliga bedömning att en rättvis lön för en viss direktör är hundra miljoner miljarder gånger mer än USAs hela bruttonationalprodukt. Ett sakskäl är att ett företag som betalar en sådan årslön skulle vara bankrutt på en bråkdel av en sekund, alla dess löneutbetalningar skulle behöva inställas, och tusentals människor skulle drabbas. Men kanske är just denna MBA-student sadistiskt lagd och finner detta ”rättvist”? Kanske, men en av dem som drabbas är just direktören som bara fick ut någon miljarddels miljarddel av den förment rättvisa lönen. Den faktiska lönen skulle alltså nödvändigtvis bli något helt annat än den angivna lönen, och därmed går det inte ens att tala om den angivna lönen som rättvis.

 

Mitt förslag i brevet till forskaren E var att vi tillsammans skulle skriva en folkbildande artikel om hur lätt det är att övertro på matematiska modeller leder fel och att så skedde i detta fall. (Erbjudandet gäller förstås fortfarande!) Nästa veckas blogginlägg kommer att handla om forskning på hur vanligt det är med övertro på matematik.

Dela inlägget

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


+ 2 = fyra

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Utvärderingshysterin och principal-agent-problemet

Jag brukar ju skriva om forskarnas, granskarnas och redaktörerernas ansvar för att forskning blir god vetenskap. Men även staten har en roll som formell uppdragsgivare för akademiskt anställda forskare. Hur ska staten bäst ta det ansvaret?

Om man ser staten som uppdragsgivare hamnar man lätt i en tankefigur som inom nationalekonomin kallas principal-agent-problemet. Uppdragsgivaren, staten, är i denna terminologi ”principal” och den önskar – för de resurser som staten satsar – så mycket och god forskning som möjligt utförd av forskarna, ”agenterna”. För att göra optimeringsproblemet enkelt ska vi nu tänka oss att det går att baka ihop forskningens kvantitet och kvalitet i ett enda mått, ”god forskning”, som staten vill maximera. Låt oss också tänka oss en teoretisk maxnivå som representerar den mesta forskning man teoretiskt sett skulle kunna få ut ur våra forskare för den givna resursen.


Diagrammet ovan visar ett vanligt sätt att se på principal-agent-problemet. Agenter, i det här fallet forskarna, antas utföra sitt uppdrag endast i den utsträckning som det lönar sig för dem att inte lägga tiden på något annat (säg, sofflocket). För att agenterna inte ska lägga sig på sofflocket måste uppdragsgivaren därför lägga ansenliga resurser på ett kontrollsystem med utvärdering, styrning och incitament. Det minskar förstås den resurs som verkligen kan läggas på den faktiska uppdragsverksamheten (forskningen), och därför hamnar resultatet långt under den teoretiska maxnivån. Men, som stapeln till vänster visar, är ju detta ändå långt bättre än alternativet att låta agenterna jobba så mycket de själva vill med den uppdragsverksamhetsinriktning de själva önskar, för då blir det förstås inte mycket gjort.

Ovanstående tankefigur är oerhört lätt att anamma för en uppdragsgivare. Det är enkelt att dra sig till minnes (eller bara föreställa sig) individer som är lata eller inkompetenta, excentriska eller allmänt misshagliga. ”Självfallet måste jag kontrollera och reglera de där typerna!”

Men denna tankefigur, hur självklar den än må te sig, är i allmänhet helt felaktig. Den bortser från människors allmänt höga grad av inre motivation. Även i tråkiga jobb kan man känna tillfredsställelse över att göra jobbet väl. Om arbetsuppgifterna dessutom upplevs som stimulerande och meningsfulla, ja då väljer många att jobba framför att ligga på sofflocket även på tider när de inte alls får betalt och när ingen annan ser att de jobbar. En brittisk undersökning fann att inre motivation är särskilt viktig som drivkraft för att jobba inom offentlig sektor, och i synnerhet inom vården och universitetssektorn.

Det finns alltså all anledning att tro att den vänstra stapeln i diagrammet ska vara kolossalt mycket högre. Om forskare lämnas oreglerade kommer de (trots förekomsten av lata, inkompetenta, excentriska och misshagliga individer) i allmänhet att jobba väldigt bra och mycket, ty forskare har i allmänhet en stark inre motivation för forskning.

 


Men se vad som hände med den högra stapeln när jag modiferade diagrammet med hänsyn till inre motivation – den sjönk! Det är den effekt som man kan förutspå från en stor mängd forskning på hur införande av regleringar och ekonomiska incitament, ”yttre motivation”, tenderar att sänka den inre motivationen så att slutresultatet faktiskt tenderar att bli lägre, se till exempel Frey (1994) Empirical evidence supports the claim that, in many cases, agents, indeed, react to an external motivation by reducing their effort to fulfill a certain duty. This points to new limits of pricing as well as regulating, even though the price mechanism does not destroy intrinsic motivation to the same extent because it is less restrictive than regulation.

Som uppdragsgivare för statlig forskning (regering, forskningsråd, rektorer och dekaner) är det därför troligt att det bästa sättet att ta ansvar för produktionen av god vetenskap är att sätta sig på sina händer och inte falla för de naturliga impulserna att införa mer reglering, utvärdering, kontroll och incitament.

Inspirationen att blogga om detta ämne idag fick jag från Kerstin Jacobssons lysande artikel i Universitetsläraren om de negativa effekterna av det brittiska utvärderingssystemet. Läs den.

Dela inlägget

1 kommentar Visa

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


åtta − 8 =

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Redaktörers syn på amerikaners syn på ekonomisk ojämlikhet

Jag återkommer nu som bloggare här på Curie. Temat för min blogg kommer precis som tidigare vara det gemensamma ansvar som forskare, tidskriftsredaktörer och sakkunniga bedömare har för att publicerad forskning verkligen leder till bättre kunskap.

Idag följer jag upp mina tidigare bloggposter om Michael Norton och Dan Arielys studie av amerikaners syn på ekonomisk ojämlikhet. Den publicerades 2011 i prestigetidskriften Perspectives on Psychological Science.  Norton och Ariely hade funnit att amerikaner inte alls är medvetna om hur ojämlikt förmögenheterna är fördelade i deras land. Tillsammans med min amerikanska kollega Brent Simpson konstaterade jag att detta fynd är en ren artefakt av den ovanliga fråga som forskarna hade ställt i sin enkät: ”Hur stor andel av USAs totala fömögenhet ägs av de 20 procent rikaste hushållen, de näst rikaste 20 procenten, etc.?”

I en första studie visade vi att om man istället för det ovana begreppet ”andel av USAs totala förmögenhet” helt enkelt frågar om genomsnittsförmögenheten i de olika segmenten av befolkningen så tenderar svaren att väl reflektera den fulla vidden av ekonomisk ojämlikhet i USA. Ett manuskript om detta till Perspectives gick ut till sakkunniga bedömare som ansåg att det än så länge var oklart om den fråga vi använt verkligen var mer giltig än den fråga som originalstudien använt. Redaktören bjöd in oss att ta bedömarnas kommentarer i beaktande och skicka in ett reviderat manus.

För att bemöta bedömarnas invändning genomförde vi några ytterligare studier. Nu använde vi samma frågor för att undersöka hur amerikaner ser på ojämlikheten inom två andra domäner: skollärares löner (som har välkänt låg spridning) och webbsidors besöksfrevenser (som har välkänt hög spridning). Resultatet var att med ”vår” fråga gav amerikaner överlag svar i överensstämmelse med de dramatiskt olika graderna av ojämlikhet. Den ursprungliga frågan som Nortan och Ariely använt gav däremot alltid, oberoende av domän, svar som representerade låg ojämlikhet. Den uppenbara slutsatsen är att deras fråga är oanvändbar för att ta reda på människors uppfattning om ojämlikheten på ett givet område, ty just denna fråga besvarar människor ungefär på ett och samma sätt oavsett graden av ojämlikhet.

Vi tog med dessa nya studier i vårt reviderade manus. Döm om vår förvåning när redaktören för Perspectives refuserade vårt manus utan vidare sakkunnigbedömning. Förvåningen blev till indignation när vi läste motiveringen: att det reviderade manuset var alltför olikt vårt första manus. Och indignationen upplöstes i sardonisk munterhet när vi bara veckan därpå såg samma tidskrift ge ut ett temanummer om vikten av att psykologiska studier blir föremål för replikering.

Det slutade alltså med att den tidskrift som publicerade Norton och Arielys studie inte tog in en kritisk replikering som dels visar på avgörande metodologiska problem med deras studie, dels visar att en mer tillförlitlig metod ger ett helt annat resultat. Ännu finns det alltså en bra bit kvar innan tidskriftsredaktörer ser på sitt uppdrag som att förmedla bästa tänkbara kunskap.

Vår artikel blev mycket snabbt publicerad i en annan tidskrift, Judgment and Decision Making (klicka om du vill läsa). Där når den tyvärr bara en bråkdel av den läsekrets som tagit del av den ursprungliga studien. Jag såg därför till att skicka min artikel åtminstone till de fyra forskare som kommenterat Norton och Arielys ursprungliga studie i samma nummer av Perspectives. Ingen av dessa kommentatorer hade uttryckt några tvivel på originalstudiens resultat. Tre av dem svarade mycket riktigt inte på mitt brev.  Den fjärde, professor Barry Schwartz, visade dock prov på en beundransvärd inställning: ”I missed this possibility completely in reading the original. [...] It is work like this that actually gives one hope that the field progresses.” Jag säger detsamma – det är forskare som Barry Schwartz som ger mig hopp!

Dela inlägget

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


− åtta = 0

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Demokrater och republikaners fördomar om sig själva och varandra

Med bara dagar kvar till amerikanska presidentvalet handlar dagens blogginlägg om forskning på klyftan mellan demokrater och republikaner. Med tanke på de enorma utmaningar som USA står inför är det ju anmärkningsvärt hur lite kongressen lyckas åstadkomma på grund av oviljan att kompromissa.

Jag och min doktorand Alexander Funcke har med en webbenkät till amerikaner undersökt hur demokrater och republikaner ser på den egna gruppen och hur de ser på den andra gruppen. Det visar sig att demokrater tycker att demokrater är mycket varmare (snällare, sällskapligare, mer optimistiska och entusiastiska) människor än vad republikaner är. Republikaner anser å sin sida att republikaner är mycket kompetentare (ambitiösare, bestämdare, mer självsäkra och kapabla) människor än vad demokrater är.

Men den andra gruppen håller inte med. Demokrater tycker inte att de är mindre kompetenta människor än vad republikaner är, snarare tvärtom. Och republikaner tycker inte att demokrater  är varmare människor än vad republikaner är, snarare tvärtom.

En rimlig hypotes är att dessa fördomar – om att det egna partiets anhängare är bättre människor än det andra partiets anhängare – gör det svårare att kompromissa. Men i undersökningen fann vi åtminstone en sak som alla är överens om: I princip alla anser att de själva är bättre bilförare än såväl anhängare som motståndare! Månne detta vara en gemensam grund att bygga på?

Intresserade kan läsa vidare i vårt manuskript.

 

 

 

 

Dela inlägget

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


5 − tre =

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Hur bra är peer review?

Utbildningsminister Jan Björklund föreslår att peer review ska användas för att utvärdera kvaliteten på svenska högskolors forskning som underlag för fördelning av högskolornas forskningsanslag. Mot ett sådant system finns ett antal goda argument som bättre förs fram av andra debattörer. Jag tänkte här istället göra mig till tolk för alla oss som känner att peer review ofta är en besvikelse även för enstaka artikelmanus och anslagsansökningar.

Att olika forskare har olika uppfattningar om vad som är god forskning är inget problem. Det problematiska är att forskare som ska granska andras ansökningar och manuskript ofta inte läser dem ordentligt, och därför lämnar kommentarer och bedömningar som saknar värde. Ett märkligt exempel var när några kolleger och jag presenterade en omfattande anslagsansökan för en bedömarpanel. Till vår häpnad fokuserade samtliga frågor och synpunkter på det fenomen som populärt beskrevs på ansökans första sida; ingenting i diskussionen kopplade till projektets forskningsfrågor (som kom på sida två) eller forskningsplan. Någon förklaring till detta måste ju finnas, men oavsett orsaken var det ett exempel på peer review på alltför låg nivå.

Just nu sitter jag med ett refuserat artikelmanus. Det är ju förstås aldrig roligt, men om peer review-processen har fungerat kan man lära sig något. Den här gången fanns dock inget av värde i refereerapporterna. Det verkar som att granskarna haft en känslomässig bindning till en viss tankemodell och eftersom våra resonemang inte ryms inom denna modell har de instinktivt bildat sig en negativ, och felaktig, uppfattning om vad vårt manus försöker säga. Deras bedömningar handlar inte om det som faktiskt står i manuset, utan de kritiserar en fågelskrämma. Deras kritik av fågelskrämman är i högsta grad giltig – men som peer review av det faktiska manuset är det meningslöst.

Vi forskare är ju typiskt på båda sidor, vi är både forskare och granskare av andras forskning. Jag tror att en viktig kvalitetsfaktor i peer review är att vi i den andra rollen lyckas komma ihåg den första rollens perspektiv!

Dela inlägget

1 kommentar Visa

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


+ 8 = tio

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Är kvinnor mindre riskvilliga än män?

Människor skiljer sig åt betydligt i hur riskvilliga de är. Vissa tycker om att klättra på bergväggar, andra skulle aldrig ställa sig på en stege. En del går direkt fram och frågar chans när de ser en attraktiv person av lämpligt kön, andra vill vänta tills de har garantier för att svaret ska bli det rätta. När det gäller ekonomiska beslut mäter forskare riskvilja bland annat genom att låta människor välja mellan en stor men osäker utbetalning eller en liten men säker utbetalning. Sådana studier finner ofta att de kvinnliga deltagarna i genomsnitt visade lägre riskvilja än de manliga deltagarna. Till exempel var detta vad jag själv fann i en studie av amerikanska och indiska respondenter som jag genomförde tillsammans med den amerikanska sociologen Brent Simpson.

I morse fick jag i eposten ett manuskript från Julie Nelson, en amerikansk ekonom. Hon driver i manuskriptet tesen att det är olämpligt att beskriva forskningsresultaten med formuleringar som ”kvinnor är mindre riskvilliga än män”. Sådana formuleringar leder nämligen tankarna till diverse saker som det inte finns täckning för i forskningen. För det första kan man tro att skillnaden skulle vara så stor att en persons kön skulle vara en god indikator på riskvilja – i själva verket är variationen inom könen mycket större än variationen mellan könen. För det andra kan man tro att skillnaden skulle vara grundad i det biologiska könet – men flera studier tyder på att skillnaden är avhängig av diverse kulturella variabler så att det är oklart vilken roll, om någon, som biologiska skillnader spelar. För det tredje kan man tro att skillnaden är robust för olika mått på riskvilja – men i själva verket ger olika sorters studier olika resultat.

Julie Nelson har gått igenom ett stort antal artiklar på kön och riskvilja – bland annat min – och sammanfattat vad de faktiskt finner och hur dessa fynd framställs. Det är ett stort arbete som rekommenderas både för den som är intresserad av vad statistik betyder och den som är intresserad av forskning om könsskillnader. Här jag vill bara lyfta fram att inte heller min egen studie undkom hennes kritik. Julie Nelson konstaterar nämligen att jag och Brent har gjort oss skyldiga till det tredje felet ovan:

Another article cites Byrnes, Miller et al. (1999) as demonstrating that “females’ lower risk preferences and less risky behavior is robust across a variety of contexts” (Eriksson and Simpson 2010, 159, emphasis added). In fact, what Byrnes, Miller et al. (1999) actually concluded, after surveying studies of 322 different effects, was that “the majority (i.e., 60%) of the effects support the idea of greater risk taking on the part of males” and “a sizable minority (i.e., 40%) were either negative or close to zero” (Byrnes, Miller et al. 1999, 372).

Julie Nelson har förstås rätt i att robust var ett för starkt ord; det hade varit mer rättvisande av oss att skriva demonstrated across a variety of contexts. Och för folkbildningens skull hade det varit bra att sedan lägga till att det finns andra sammanhang där motsvarande effekt inte demonstrerats. Men med detta blogginlägg tog jag chansen till ett tillrättaläggande!

 

 

Dela inlägget

7 kommentarer Visa

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*


8 + sju =

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>