Politik

Category Archives: Nyttiga IT-kunskaper

Big Data och statistik blir allt viktigare, vad kan du om dataspråket R?

Published by:

Klicka på bilden

Den som händelsevis läste mitt inlägg om New York Times-korrespondenten Amanda Cox igår lördag kalifornisk tid, vet att hon sysslar med statistik och datavisualisering: Glöm fredagsmyset, New York Times Amanda Cox och datavisualisering har förändrat mitt liv!

Big Data är alltså de väldiga datamängder som idag väller ut på webben och som journalister, vetenskapsmän och vanliga medborgare har börjat analysera och publicera.

För mannen på gatan så börjar datan vanligtvis med ett kalkylark i Microsoft Excel som Amanda Cox sedan importerar till Adobe Illustrator och därifrån till dataspråket R.

Continue reading

Nyttiga IT-kunskaper: lär dig programmera Big Data med MapReduce, Jaql, Pig och Hive

Published by:

Klicka på Hive.

De flesta IT-intresserade har vid det här laget hört talas om Big Data eller Massdata och att man använder det öppna kod-verktyget Hadoop för att manipulera de ofta gigantiska datamängderna som ingår i Massada.

Problemet med stora datamängder är att man inte bara kan ladda upp dom på en enda dator och sen tuta och köra. För att kunna hantera så mycket data på de billiga Intelservrar som för det mesta är vad som används i datormolnen eller i datahallarna, så måste man dela upp datan i många mindre delar och sen distribuera datan och analysjobben till ett visst antal serverar, säg ett dussin eller hundra servrar. Sen kör man de distribuerade analysjobben på dessa servrar, en s.k. serverkluster. Vilket också kallas parallell programmering.

Vad som gör det här möjligt är att Hadoop är utrustat med ett parallellt filsystem: HDFS eller Hadoop Distributed File System.

Continue reading