Politik

Den nakna sanningen? Modeller som uppför sig dåligt, Big Data:s problematiska baksida

Inget nytt modeord är så populärt som Big Data eller massadata som det också ibland kallas på svenska. Big Data handlar egentligen om en helt ny historisk era, baserad på digitala data istället för som tidigare på analoga – mest pappersbaserade – data. Vad vi tidigare kallade datoråldern kommer vi framöver att döpa om till dataåldern. Datorerna är ungefär lika intressanta som farmors och farfars skördetröska eller pappas gamla skrivmaskin. Det är datan och vad den representerar som är det viktiga, inte de snabbt föråldrade verktygen som vi använder för att analysera datan som är det viktiga.

När vi analyserar data, speciellt när datan kommer i såna extrema mängder som Big Data redan gör, så använder man statistiska modeller.

Nate Silvers datamodell av det amerikanska presidentvalet, som visade sig vara så nära 100% korrekt som man kan önska sig, introducerade redan för fyra år sen Big Data och dataanalys till världen.

Men som Steve Lohr skriver i dagens New York Times, de statistiska modeller som används för att analysera Big Data är trots allt modeller av verkligheten. Och det är långt ifrån alltid som modellerna är så korrekta som Nate Silvers var. Och orsaken till det beror på det är betydligt svårare att bygga en modell av komplicerade fenomen som världsekonomin än av det amerikanska presidentvalet.

: Sure, Big Data Is Great. But So Is Intuition.

THE problem is that a math model, like a metaphor, is a simplification. This type of modeling came out of the sciences, where the behavior of particles in a fluid, for example, is predictable according to the laws of physics.

In so many Big Data applications, a math model attaches a crisp number to human behavior, interests and preferences. The peril of that approach, as in finance, was the subject of a recent book by Emanuel Derman, a former quant at Goldman Sachs and now a professor at Columbia University. Its title is “Models. Behaving. Badly.”

Claudia Perlich, chief scientist at Media6Degrees, an online ad-targeting start-up in New York, puts the problem this way: “You can fool yourself with data like you can’t with anything else. I fear a Big Data bubble.”

A report last year by the McKinsey Global Institute, the research arm of the consulting firm, projected that the United States needed 140,000 to 190,000 more workers with “deep analytical” expertise and 1.5 million more data-literate managers, whether retrained or hired.

Society might be well served if the model makers pondered the ethical dimensions of their work as well as studying the math, according to Rachel Schutt, a senior statistician at Google Research.

“Models do not just predict, but they can make things happen,” says Ms. Schutt, who taught a data science course this year at Columbia. “That’s not discussed generally in our field.”

Models can create what data scientists call a behavioral loop. A person feeds in data, which is collected by an algorithm that then presents the user with choices, thus steering behavior.

Det här är en mycket viktig poäng som jag sällar hör nämnas trots att jag själv umgås med personer som sysslar just med Big Data.

Burton G. Malkiel recenserar Emanuel Dermans högintressanta bok Models Behaving Badly i Wall Street Journal: Physics Envy
Creating financial models involving human behavior is like forcing ‘the ugly stepsister’s foot into Cinderella’s pretty glass slipper.

Throughout “Models Behaving Badly,” Mr. Derman treats us to vignettes from his interesting personal history, which gave him a front-row seat for more than one model’s misbehavior. Growing up in Cape Town, South Africa, he witnessed the repressive and failed political model of apartheid. ”Later he became disillusioned with the utopian model of the kibbutz in Israel. He started out professionally in the 1970s as a theoretical physicist.

He then migrated to the center of the financial world in the 1980s, using a mix of mathematics and statistics to value securities for the trading desk at Goldman Sachs in New York. He had hoped to use the methods of physics to build a grand, unified theory of security pricing. After 20 years on Wall Street, even before the meltdown, he became a disbeliever.

De statistiska modeller som jag själv är bekant med, baserade på Bayesiansk Statistik är för det mesta rätt små och därför relativt enkla att kolla. Men med terabytes med data, så blir modellerna mer svåröverskådliga. Vilket alltså kan leda till katastrofala felbedömningar.

Något som vi redan har sett på finansmarknaderna, och som vi med stor säkerhet kommer att få se allt mer av nu när Big Data allt mer kommer att dominera allt fler beslut i samhället.

Det farliga är alltså att medan mängder med IT-företag här i Silicon Valley sysslar med att bygga upp produkter kring Big Data så är det få som har tagit sig an frågan om hur man ska kunna analysera så mycket data på ett korrekt sätt.

Pressklipp:
Årets stora it-floppar på Wall Street ,Årets stora teknikhittar,USA kämpar på randen av budgetstupet,Motgång i USA:s kamp mot klockan,

[tags] Big Data, Wall Street Journal Big Data Silicon Valley, Big Data Wall Street[/tags]