Tag Archives: data

Fractionalization and flawed data

Ethnic and cultural fractionalization have become popular concepts in the social sciences. Intuitively, one may hypothesize that more fractionalized countries are more prone to ethnic conflicts and civil war, which is why there has been a stream of papers published on this topic. However, one may question the data that such research uses.

The popular fractionalization dataset that Alesina et al. have developed was supposed to ameliorate many of the problems that previous data have suffered from. Nevertheless, this dataset also seems to have major drawbacks . First of all, like most fractionalization datasets, it lacks a time dimension. Estimating correlation at one fixed point in time naturally yields less powerful results than an analysis that estimates the relationship over time. The question “Does ethnic fractionalization increase the probability of civil war?” is likely best answered by instead directly approaching the question “Does increased ethnic fractionalization over time increase the probability of civil war?”

A second problem is that many countries in the dataset are coded in terms of “citizenship fractionalization” rather than ethnic fractionalization, and there is no consistency or rationale for this coding. For example, Finland – according to the data – is considered more fractionalized than Sweden because the 6 percent Swedes in Finland are counted as an ethnic minority, whereas all Western Europeans in Sweden are considered part of the ethnic majority. So Swedes in Finland increase the fractionalization in Finland, but Finns in Sweden decrease the fractionalization in Sweden. Or in other words, if a Danish family moves to Finland, it will increase Finland’s fractionalization, but if the same family moves to Sweden, it will decrease it.

Simon Hedlin

Komplex äro statistiken

Igår cirkulerade nyheten om att Fredrik Reinfeldt hade uppgett förhållandevis stora statistiska felaktigheter i den övrigt ganska tråkiga partiledardebatten i söndagens Agenda:

“Statsminister Fredrik Reinfeldt hade hundratusen fel på antalet sysselsatta i söndagens partiledardebatt. Det underlag han fått var fel, enligt finansministern,” skrev Dagens Nyheter.

Varför detta väckte sådana rubriker kan tyckas förvånande. Att politiker använder sig av statistik som inte alltid är helt korrekt lär ha skett åtminstone sedan Ciceros tid då man märkte att det var retoriskt framgångsrikt att framstå som om man talade i termer av sanning istället för åsikter.

En del borde minnas förra sommarens partiledardebatt i riksdagen den 17 juni som granskades och utvärderades live på makthavare.se av bland andra Martin Ådahl på FORES där man konstaterade att många påståenden som framfördes kunde låta bra, men vid djupare analys visade sig vara närmast felaktiga – inte minst anspråk på statistiska sanningar i stil med “Sverige har klarat finanskrisen bäst”, “Vi har världens mest ambitiösa klimatpolitik” och “Arbetslösheten i Sverige har under det senaste året ökat snabbare än snittet för OECD-länderna”.

Dessutom är just arbetslöshets-/sysselsättningsfrågan inte speciellt enkel. Det finns många definitioner av vem som är arbetslös, och det finns ännu fler sätt att försöka mäta arbetslösheten på. Komplexiteten illustreras inte minst av tidningen Svenska Dagbladets ofrivilligt ironiska rubricering av nyheten om Reinfeldts statistikfel som “Reinfeldt spred fel jobbsiffra“. Jobb är nämligen långt ifrån synonymt med sysselsättning.

Talar man konkret om jobb som människor i arbete kan jobbtalen mycket väl öka samtidigt som sysselsättningen minskar. Tar en stor årskull examen och studenten samtidigt kan fler komma i arbete än som under samma period avskedas och pensioneras. Om dessa ungdomar som anställs dock är få relativt sett till hela årskullen kan sysselsättningsgraden fortfarande minska totalt.

En annan problematiserande faktor är åldersgrupper (som det rörde sig om i Reinfeldts fall) och andra variabler som varierar mellan mätningarna. Olika data är byggda på att man har mätt sysselsättningen bland olika åldersgrupper, vilket naturligtvis resulterar i olika siffror. Ibland använder samma institution till synes samma variabler och definitioner, men har väsentligt ändrat metod. Detta händer även forskare själva – till och med de mest framstående. Globaliseringsmotståndaren och nobelpristagaren Joseph E. Stiglitz är ett exempel. I flera av sina publikationer (se exempelvis 2002, Globalization and Its Discontents) menar han att fattigdomen i världen ökade under 1990-talet. Vad Stiglitz dock missat är att Världsbanken (vars data han uteslutande grundade sin analys på) under 1990-talet började använda en ny metod för att mäta fattigdom, vilket gjorde de nya resultaten ojämförbara med de tidigare.

Till saken hör också statistisk manipulation och att framföra mindre relevant data för att antyda ett starkt samband som i realiteten är svagt. Det vanligaste politiska knepet är förmodligen att variera mellan att använda siffror i absolut respektive relativ form beroende på vad som bäst passar ändamålet. Kommer exempelvis fler i arbete i ett land kan den politiska oppositionen peka på att “det nu är x antal fler personer som är långtidssjukskrivna än för fem år sedan” (absolut siffra), vilket matematiskt sett är en logisk följd av att fler arbetar, men ändå låter som en negativ konsekvens av regeringens dåliga politik när det sägs i en TV-sänd debatt. Det intressanta är att i samma scenario kan regeringen i själva verket ha förbättrat rehabiliteringen vilket procentuellt minskat antalet sjukskrivna sett till antalet arbetande, men om arbetsgraden har ökat med en tillräckligt stor siffra (och så även sjuktalen) kan ändå antalet långtidssjukskrivna i absoluta tal ha ökat. Det som de flesta skulle bedöma som en god sysselsättningspolitik (fler i arbete samt färre långtidssjukskrivna procentuellt sett) kan ändå oppositionen måla upp som att domedagen är nära (om någon inte förstår matematiken se * i slutet av texten).

Slutsatsen är att statistik är ett komplext fenomen. Man använder gärna siffror för att göra saker och ting enklare och lättare att ta till sig. Höjden av ironi är det därför att bland det svåraste som finns är att dra verklighetsöverensstämmande slutsatser av statistiska data. Den som vill kommer alltid kunna hitta en siffra eller två som stödjer de åsikter man själv vill övertyga andra om. Istället för att göra objektiva undersökningar för att finna någon form av sanning att ta ställning till föredrar många att istället först finna (hitta på) sanningen för att sedan bekosta undersökningar vars resultat bekräftar denna sanning (läs personlig åsikt).

Det enda vi med säkerhet kan veta om statistik är att det sällan finns några enkla samband, åtminstone när det gäller samhällsfrågor. Världen är helt enkelt för komplex för det. Kanske kan det därför vara på sin plats att citera bland andra Charles Wentworth Dilke och Samuel Langhorne Clemens (vet ni inte vem den sistnämnda är får ni googla; passa då även på att kolla upp vilka Eric Arthur Blair och Aurore Lucile Dupin är):

“There are three kinds of lies: lies, damned lies, and statistics”

Simon Hedlin Larsson

* I land x arbetar 100 personer varav 5 är långtidssjukskrivna. På y antal år ökar antalet arbetande till 200 personer, men regeringens effektiva rehabiliteringssystem har lett till att antalet långtidssjukskriva bara har ökat till 8 personer. 5 av 100 är en större andel än 8 av 200, men 8 är fortfarande större än 5, så när oppositionen säger att antalet långtidssjukskrivna har ökat med 3 personer under y år är det ju inte fel. Frågan är dock: är det relevant?