Politik

Big Data går genom taket, 40 miljoner i riskkapital till Palo Alto-företaget Cloudera och Hadoop

Klicka på Cloudera

Big Data har blivit ett av de mest hörda modeorden inom IT de senaste året. Om ni vill bli riktigt coola och populära så behöver ni bara bege er till stekarna på barer kring Sturen som Sturecompagniet – eller ännu hellre till något av kaféerna eller restaurangerna på University Avenue i Palo Alto här i Silicon Valley och sprinkla er konversation med “ja nu tror jag inte att jag har tid att sitta här och knappa på min iPad längre, ni vet, jag jobbar med Big Data”, och brudarna kommer att skrika i kör och falla platt. Försök får ni se.

Hur definierar man då Big Data, som ännu inte ens verkar ha blivit översatt till svenska?

Det handlar om gigantiska datamängder som är så stora att de är besvärliga att hantera med hjälp av traditionella databassystem.

Big Data handlar om data i storleksordningen terabytes och ännu större. Och orsaken till att vi plötsligt har fått tillgång till så gigantiska datamängder är att all information som finns idag och som tidigare fanns t.ex. på papper, nu digitaliseras och därför kan behandlas av datorer. Vi stöter regelbundet på Big Data inom meteorologin, genomiken , connectomics, komplexa simuleringar inom fysiken, biologin och miljöforskningen, sökningar på Internet och inte minst inom finans-och affärsvärlden.

Så varför blir datamängden större bara för att vi går från papper till datorer? Ett bra exempel min elmätare som avläser en gång i månaden av en liten gubbe som kommer in i trädgården och skriver ner fem siffror på ett block. När jag en dag får en elektronisk elmätare så kan den avläsas en gång i minuten, och skillnaden blir rent ofattbar. Från 60 siffror per år till 2 628 000 siffror per år. En veritabel dataexplosion.

Ett av nyckelverktygen när det gäller att manipulera Big Data är Apache Hadoop, ett öppen kod-verktyg skrivet i java som implementerar Googles distribuerade MapReduce-funktionalitet. Man kan knappast kan gå på ett IT-möte här i Silicon Valley utan att folk pratar om Hadoop.

Palo Alto-företaget Cloudera är byggt kring Hadoop på samma sätt som Red Hat är byggt kring Linux, och Leena Rao skriver på TechCrunch om hur Cloudera nu har fått den ansenliga summan av 40 miljoner dollar i nytt riskkapital för sin verksamhet kring Hadoop, något som visar hur viktigt man anser att Big Data-sektorn är idag. Ignition, Accel, Greylock Put $40M In Apache Hadoop Distribution Platform Cloudera | TechCrunch

Hadoop is a Java software framework born out of an open-source implementation of Google’s published computing infrastructure which is fostered within the Apache Software Foundation. Hadoop supports distributed applications running on large clusters of commodity computers processing enormous amounts of data. Cloudera helps distribute Hadoop, and provides practical services around the technology, similar to what Red Hat does for the Linux framework.

Man kan säga att hela det globaliserade kunskapssamhället alltmer vilar på Big Data som genereras av miljarder sensorer som man har fäst på allt från gas, olje och vattenledningar till digitalkameror, medicinska instrument, satelliter mm. Alla dessa data, och det handlar alltså om helt ofattbara datamängder, kan idag analyseras med hjälp av avancerade datorsystem, som dom som FRA använder för att massavlyssna hela svenska folket.

Men liknande system används även på ett mer positivt sätt inom sjukvården för att hitta patienter som befinner sig riskzonen för olika sjukdomar. Och det är för att analysera alla dessa data som man använderApache Hadoop som är en Öppen Kod-implementation av Googles Map Reduce.

Jag ska hålla ett föredrag om just Big Data, datormolnen och avancerad dataanalys på ett IT-möte här i Silicon Valley på onsdag och ska lägga ut en version av OH-bilderna här på bloggen senare i veckan.

Allt hänger samman, gigantiska, rent ofattbara datamängder som kan analyseras med programvara som Hadoop för att hitta allt från terrorister till människor i riskzonen för allehanda sjukdomar.

Ett sätt att förklara hur radikalt olika det nya Big Data-samhället är från allt vi har blivit vana vid, är att göra en jämförelse med vad vi har kvar i skrift från forna tider. Från Vikingatiden har vi kanske kvar några kilobytes i form av runstenar. Sedan i form av inkunabler, dvs handskrivna manuskript har vi kanske kvar några megabytes i Sverige. Sen efter Gutenberg har vi kanske kvar några terabytes i skrift, inklusive alla vetenskapliga data fram till säg 1990. Och det gäller alltså alla tryckta skrifter i hela Sverige.

Men idag genererar vi flera dussintals terabytes i Sverige per dag, och det är bara början. Inom några år kommer vi att generera flera dussin gigabytes per person per dag, i alla fall för dom som deltar i rörelser som The Quantifiabe Self . Och alla dessa data kommer vi att analysera.

Och en allt större del av den här avancerade analysen kommer att kunna utföras med billiga datorer och mjukvara i datormolnen.

Det här är en helt ny värld som om något decennium kommer att få dagens värld att se ut som stenåldern.
Det är i alla fall det som jag ska prata om. Och jag befinner mig på rätt plats eftersom Silicon Valley är ground zero för den här mycket spännande utvecklingen.

Nej nu har jag inte tid att sitta här och dilla längre, ni vet, jag jobbar med Big Data. 🙂

Axplock från den nordiska pressen:

SvD – Senaste nytt,Nyheter, digi.no, ITavisen.no, ITavisen.no, ITavisen.no

[tags] Online Privacy , Cybersecurity , Internet , Big Data , Data , Nstic , Privacy , Trust Framework , Technology News, Big Data Hadoop, Hadoop, NoSQL, NoSQL Big Data, Bid Data Analytics, Google Map Reduce, Cloudera[/tags]

7 thoughts on “Big Data går genom taket, 40 miljoner i riskkapital till Palo Alto-företaget Cloudera och Hadoop

  1. Bosse

    Lennart: Ja jag kom på själv att det måste vara länkarna när mitt inlägg utan länkar gick in direkt. Jag förstår också mycket väl om du vill ha en viss koll på länkarna, inget konstigt med det, jag har bara inte lagt märke till det tidigare. Det är nemas problemas. 🙂

    1. Lennart

      Bosse: Inte alls, som Roger skriver så har jag satt filtret så att det bara tillåter en länk. Låt mig fixa det nu.

    2. Lennart

      Bosse: OK jag har ökat på antalet tillåtna länkar till fem, och om det inte räcker så säg bara till. Orsaken för det spärren är att spammara vanligtvis kör med dussintals länkar. Men alla dina och andra regelbundna läsares kommentarer godkänns hur som helst, oberoende av hur många länkar ni har, även om det kan ta några timmar.

  2. Bosse

    Big data, hmm kan det va nått? 😉 Själv har jag börjat lite smått med API data. Jag tror det går att bygga tjänster omkring möjligheterna att söka i diverse myndigheters databaser genom deras öppna API:er.

    Fast just nu är det först och främst EPiServer Data som gäller. 🙂

Comments are closed.