Politik

Analytics, dataanalys med Hadoop förändrar samhället

[print_link]


Klicka på bilden.

På den intresssanta dataanalysmässan här i Silicon Valley så var det ett ord som dök upp i var och varannan mening, Hadoop.

Så vad är Hadoop och varför är det så viktigt?

Om vi börjar från början så befinner vi oss idag i en värld smockfull med data. Men idag samlas inte all den här informationen längre i dammiga arkiv utan i väldiga databaser där den lätt kan analyseras.

Amazon, Yahoo! och Twitter samlar t.ex. in omkring 12 terabytes med data om sina kunder på sina webbsajter VARJE DAG.

Det är samma sak för t.ex. DN, SvD, SVT, sjukhus, polisen, kommuner, Migrationsverket, Socialstyrelsen, landsting, SAS, för att inte tala om FRA, alla samlar de in terabytes med data.

Och om man analyserar all den här insamlade informationen så kan man förbättra kundservice, rädda liv på sjukhus, haffa brottslingar och hitta samband och relationer som hjälper oss att fatta rationella beslut.

Hadoop är det öppna kodverktyg som så gott som alla som jobbar med dataanalys använder, det framkom med överväldigande tydlighet på konferensen.

 

[tags] Analytics, Microsoft Silicon Valley, Dataanalys, Peter Norvig, Dr Semmelweis, Microsoft Campus Mountain View, SD Forum, Silicon Valley, Hadoop[/tags]

5 thoughts on “Analytics, dataanalys med Hadoop förändrar samhället

  1. Lennart

    Niklas: Dataanalys är oerhört intressant och en av de hetaste IT-teknologierna just nu. IT-företagen fullkomligt skriar efter folk som kan matte och statistik just nu.

    En bra ställe att börja läsa om det här är MapReduce: Simplified Data Processing on Large Clusters vilken är den teknik som Google använder för sin analys och Hadoop, baserat på Map Reduce, är sen det javabaserade ramverk som används av så gott som alla företag här i Silicon Valley

    Tom Davenports Competing on analytics är klassikern på det här området.

    Precis hur lågfilerna ser ut vet jag faktiskt inte men dom måste innehålla relationer. Som t.ex. i Amazons fall ett kundnummer som man sen kan koppla till en databas som innehåller alla böcker som man har köpt och sen en länk till liknande böcker, så dom måste ha en rätt avancerad database.

  2. Nicklas

    @Lennart
    Hur mycket av den informationen sparas dem, det kan inte vara hållbart att spara allt? Bearbetas den och komprimeras ner så att de långsiktigt kan lagras utan att ta massor av plats i XML eller någon annan teknologi/format? Eller läses den endast av och inte sparas?
    Det här med dataanalys verkar vara riktigt intressant.

  3. Lennart

    Niklas: 12 TB är vad dom sa men, det gäller alltså per dag. Beräkningarna gäller de logfiler där man spar användarinformationen.

  4. Nicklas

    12 TB, låter rätt lite på sätt och vis, vad jag vet kan en modernare dyrare dator ha upp till 6 TB. Vet inte hur det är med en dyrare server men det skulle isåfall innebära att man skulle behöva två serverblad för att lagra all data man samlar in per dag.
    Fast å andra sidan är det jävligt mycket, då skulle det behövas 84 serverblad för att fylla det man samlat in per vecka.
    Fast de kan ju inte spara allt.

Comments are closed.