Politik

Globaliseringen och gigantiska mängder data: Stordata, Big Data, Hadoop, HDFS, HBase, Pig, Oozie och Lucene

Klicka på boken för att ladda hem den gratis i PDF-format.

Först av allt så eftersom ingen annan mig veterligen har gjort det så har jag hitta på ett svenskt begrepp för Big Data, något som jag sysslar en hel del med, och det ordet är: Stordata. Om någon har ett bättre ord så säg till så kan vi skriva en svensk artikel på Wikipedian så är det klappat och klart.

Stordata handlar alltså om gigantiska datamängder som är så stora att de är besvärliga att hantera med hjälp av traditionella databassystem. Stordata handlar om data i storleksordningen terabytes, exabytes och t.om. zettabytes och dom genereras för det mesta i nära nog realtid.

Vi stöter regelbundet på Stordata inom meteorologin, genomiken , connectomics, komplexa simuleringar inom fysiken, biologin och miljöforskningen, sökningar på Internet och inte minst inom finans-och affärsvärlden.

Man kan säga att hela det globaliserade kunskapssamhället alltmer vilar på Stordata som genereras av miljarder RFID och liknande taggar på allt från gas, olje- och vattenledningar till digitalkameror, medicinska instrument, satelliter mm.

Alla dessa data kan idag analyseras med hjälp av avancerade datorsystem, som dom som FRA använder för att massavlyssna hela svenska folket in på bara kroppen. Men liknande system används även på ett mer positivt sätt inom sjukvården för att hitta patienter som befinner sig riskzonen för olika sjukdomar.

Det behövs helt nya verktyg för att kunna hantera och analysera så här stora datamängder och det främsta verktyget är ett öppet kodverktyg som heter Apache Hadoop

Men Hadoop är inte bara ett utan ett antal verktyg som används tillsammans, och det är dom förkortningarna som ni ser i titeln här ovan. Kan ni alla dom så tillhör ni den absoluta eliten i dagens IT-samhälle och tjänar mer pengar än de flesta kan drömma om.

Hadoop, är skrivet i Java, och byggt för att kunna hantera gigantiska datamängder via sin MapReduce-motor som är så stora att dom inte ryms på en dator hur stor den än är. Så man använder man HDFS, eller Hadoop Distributed File System, alltså ett filsystem som kan distribueras till många olika datorer.

Hadoop har också Hbase , sin egen distribuerade databas, i samma syfte.

Det är grundkomponenterna, men till dom kommer Oozie för arbetsflöden, workflows, , Apache Pig för att analysera stora datamängder, Lucene, för textsök,
och även andra för specieliserade för att beskriva här.

Apache Hadoop är oerhört i ropet just nu, alla som på något sätt sysslar med Stordata jobbar med Hadoop.

Man kan också köra MapReduce på MongoDB, en s.k. dokument-databas, alltså inte en traditionell relationsdatabas, som jag själv har börjat köra. Så gott som alla jag känner inom IT-världen här i Silicon Valley kör MongoDB, ofta tillsammans med mer traditionella relationsdatabaser.

Stordata är onekligen en oerhört spännande teknologi med vars hjälp man bl.a. analyserar åsikter på Twitter. Mer om hur man använder den i ett senare inlägg.

Stordata och Hadoop är en av de många spetskompetenser som kommer att bli alltmer i ropet i det globaliserade stordatasamhället, där allt rör sig om vem som kan hantera och manipulera och tyda de gigantiska datamängder som ligger till grund för dagens globaliserade kunskapssamhälle som nästan helt vilar på data.

Allt är data idag, t.o.m datorterna har förvandlats till data, i form av virtuella avbildningar i datormolnen.

Och om det skulle finnas någon i Sverige som sysslar med Hadoop så hör gärna av er. Det vore intressant att veta vad ni sysslar med.

Axplock från den nordiska pressen:

Nyheter,digi.no, digi.no, ITavisen.no, ITavisen.no

[tags]Technology News, Big Data Hadoop, Hadoop, NoSQL, NoSQL Big Data, Bid Data Analytics, Google Map Reduce,HDFS, HBase, Pig, Oozie , Lucene [/tags]

One thought on “Globaliseringen och gigantiska mängder data: Stordata, Big Data, Hadoop, HDFS, HBase, Pig, Oozie och Lucene

  1. roger

    Jag gillar inte att man måste hitta på nya svenska ord för allt hela tiden.
    Jag röstar således för “Big Data”.

Comments are closed.