Politik

Vem är rädd för Big Data? Patrick Tuckers bok The Naked Future

Naked-Future

Boken är klickbar.

Få trender har hajpats så mycket som Big Data, som i praktiken betyder att man idag kan analysera gigantiska mängder med data som samlas in av miljarder sensorer som t.ex. den elmätare som sitter på min husknut och som varje minut mäter min elförbrukning. Liknande prylas finns redan inom hjordbruker där man nu kan mäta konstbevattningsförbrukningen på lantbruk i Sverige och USA. Och de flesta känner idag till alla de bärbara kroppsprylar som Fitbit som vi använder för att mäta vår puls och andra kroppsfunktioner och givetvis hur FRA på regeringens order dammsuger information om sina medborgare.

Tekniskt handlar det om att man använder teknologier som Googles MapReduce och Hadoop/teknologier för att vaska fram information från hundratusentals serverdatorer i gigantiska datahallar som är stora som halva Småland. Och för den som inte har varit i Småland så är j-vligt stort.

Men bara för att man har en massa data behöver inte nödvändigtvis betyda att man lista ut vad alla det här datapunkterna verkligen betyder.

Gary Marcus och Ernest David i New York Times recenserar journalisten Patrick Tuckers book the Naked Future: Eight (No, Nine!) Problems With Big Data

BIG data is suddenly everywhere. Everyone seems to be collecting it, analyzing it, making money from it and celebrating (or fearing) its powers. … “In the next two decades,” the journalist Patrick Tucker writes in the latest big data manifesto, “The Naked Future,” “we will be able to predict huge areas of the future with far greater accuracy than ever before in human history, including events long thought to be beyond the realm of human inference.” Statistical correlations have never sounded so good.

The first thing to note is that although big data is very good at detecting correlations, especially subtle correlations that an analysis of smaller data sets might miss, it never tells us which correlations are meaningful. A big data analysis might reveal, for instance, that from 2006 to 2011 the United States murder rate was well correlated with the market share of Internet Explorer: Both went down sharply. But it’s hard to imagine there is any causal relationship between the two. Likewise, from 1998 to 2007 the number of new cases of autism diagnosed was extremely well correlated with sales of organic food (both went up sharply), but identifying the correlation won’t by itself tell us whether diet has anything to do with autism.

Problemet är att data bara är början. Visst, vi kan mäta elförbrukningen men om vill göra mer komplicerade analyser så blir det snabbt omöjligt
Molekylärbiologer, till exempel, skulle väldigt gärna vilja härleda den tredimensionella strukturen av proteiner från deras underliggande DNA-sekvens. Något som dock är omöjligt. Vi kan hitta korrelationer som är helt vansinniga, och till råga på det så är det samlas inte Big Data in under kontrollerade omständigheter. Googles algoritmer ändras t.ex. hela tiden vilket har gjort att Googles Flu Trends inte längre är tillförlitlig.

Så Big Data är här, och som Nate Silver har visat i sina prognoser kring de två senaste amerikanska presidentvalet, och som han har skrivit in den grundbrytande The Signal and the Noise så har Big Data Analys kommit för att stanna. Men det kommer att ta mycket lång tid för den nya Big Data-teknologin att etablera sig för mer komplicerade uppgifter.

USABloggen.se

Pressklipp:

[tags] [/tags]