[print_link]
Klicka på bilden.
På den intresssanta dataanalysmässan här i Silicon Valley så var det ett ord som dök upp i var och varannan mening, Hadoop.
Så vad är Hadoop och varför är det så viktigt?
Om vi börjar från början så befinner vi oss idag i en värld smockfull med data. Men idag samlas inte all den här informationen längre i dammiga arkiv utan i väldiga databaser där den lätt kan analyseras.
Amazon, Yahoo! och Twitter samlar t.ex. in omkring 12 terabytes med data om sina kunder på sina webbsajter VARJE DAG.
Det är samma sak för t.ex. DN, SvD, SVT, sjukhus, polisen, kommuner, Migrationsverket, Socialstyrelsen, landsting, SAS, för att inte tala om FRA, alla samlar de in terabytes med data.
Och om man analyserar all den här insamlade informationen så kan man förbättra kundservice, rädda liv på sjukhus, haffa brottslingar och hitta samband och relationer som hjälper oss att fatta rationella beslut.
Hadoop är det öppna kodverktyg som så gott som alla som jobbar med dataanalys använder, det framkom med överväldigande tydlighet på konferensen.
Apache Hadoop är en Java-baserad plattform som stöder dataintensiva distribuerade applikationer under en fri licens.
Man kan köra program som använder tusentals noder och petabytes av data. Hadoop inspirerades av Googles MapReduce och Google File System (GFS).
Hadoop är alltså ett öppet Apache-projekt med Yahoo! som största bidragsgivare.
Amazon har lagt ut en version av Hadoop i sitt väldiga datormoln:Amazon Elastic MapReduce som alltså gör det möjligt för små startupföretag att lätt göra datanalys i datormolnen.
Det här är en oerhört viktig utveckling som på sikt förhoppningsvis kommer att göra företag, organisationer och kanske också hela världen mer rationell. Beslut kan baseras på fakta och inte på känslosvall och auktoritet.
Ett exempel på hur dataanalys räddar liv inom sjukvården kommer från Toronto i Kanada där man har tillgång till alla sjukjournaler från hela provinsen. Så man kan identifiera alla kvinnor vars mödrar har haft bröstcancer. Sedan kan man samköra databaser och identifiera vilka av döttrarna som är över en viss ålder och som inte har haft mammografi under de senaste x åren.
Då skickar man automatiskt ut påminnelse till kvinnorna och samtidigt till deras läkare. Enkelt, billigt och effektivt.
En viktig poäng är att Hadoop alltså är Öppen Kod och därför tillgänglig för alla, även i Tredje Världen.
Det är m.a.o. inte enbart de rika som har råd att utföra avancerad dataanalys.
[tags] Analytics, Microsoft Silicon Valley, Dataanalys, Peter Norvig, Dr Semmelweis, Microsoft Campus Mountain View, SD Forum, Silicon Valley, Hadoop[/tags]
Niklas: Dataanalys är oerhört intressant och en av de hetaste IT-teknologierna just nu. IT-företagen fullkomligt skriar efter folk som kan matte och statistik just nu.
En bra ställe att börja läsa om det här är MapReduce: Simplified Data Processing on Large Clusters vilken är den teknik som Google använder för sin analys och Hadoop, baserat på Map Reduce, är sen det javabaserade ramverk som används av så gott som alla företag här i Silicon Valley
Tom Davenports Competing on analytics är klassikern på det här området.
Precis hur lågfilerna ser ut vet jag faktiskt inte men dom måste innehålla relationer. Som t.ex. i Amazons fall ett kundnummer som man sen kan koppla till en databas som innehåller alla böcker som man har köpt och sen en länk till liknande böcker, så dom måste ha en rätt avancerad database.
@Lennart
Hur mycket av den informationen sparas dem, det kan inte vara hållbart att spara allt? Bearbetas den och komprimeras ner så att de långsiktigt kan lagras utan att ta massor av plats i XML eller någon annan teknologi/format? Eller läses den endast av och inte sparas?
Det här med dataanalys verkar vara riktigt intressant.
Niklas: 12 TB är vad dom sa men, det gäller alltså per dag. Beräkningarna gäller de logfiler där man spar användarinformationen.
EDIT:
Nu räknade jag lite fel, 14 serverblad per vecka ska det vara! 😛
12 TB, låter rätt lite på sätt och vis, vad jag vet kan en modernare dyrare dator ha upp till 6 TB. Vet inte hur det är med en dyrare server men det skulle isåfall innebära att man skulle behöva två serverblad för att lagra all data man samlar in per dag.
Fast å andra sidan är det jävligt mycket, då skulle det behövas 84 serverblad för att fylla det man samlat in per vecka.
Fast de kan ju inte spara allt.