Politik

Bortom Apache Hadoop, Apache Spark analyserar Big Data i datorminnet !

Big Data är ett begrepp som handlar om de gigantiska datamängder som idag strömmar ut från miljarder mobiler, datorer, sjukhus, fabriker, och samhällen och upp i datormolnen. Där de kan analyseras och ge oss insikter om oss själva och vår värld.

Under de senaste åren har Silicon Valley blivit centrum för Big Data-rörelsen med att ental BiG Data-företag som Cloudera, Hortonworks och MapR. Men trots alla löften så har analysen av de gigantiska mängderna med data som vi idag genererar inte varit så framgångsrikt som man hade väntar sig.

Nu kommer en ny teknologi, också den från Silicon Valley, Apache Spark från Berkeley-universitetet som gör det möjligt att analysera stora datamängder i minnet. En teknologi som lovat ett kvantumsteg framåt för Big Data och aavanserad dataanalys av gigantiska datamängder.

Steve Lohr skriver i New York Times: IBM Invests to Help Open-Source Big Data Software — and Itself

In the big data software market, much of the attention and investment so far has been focused on Apache Hadoop and the companies distributing that open-source software, including Cloudera, Hortonworks and MapR. Hadoop, put simply, is the software that makes it possible to handle and analyze vast volumes of all kinds of data. The technology came out of the pure Internet companies like Google and Yahoo, and is increasingly being used by mainstream companies, which want to do similar big data analysis in their businesses.

But if Hadoop opens the door to probing vast volumes of data, Spark promises speed. Real-time processing is essential for many applications, from analyzing sensor data streaming from machines to sales transactions on online marketplaces. The Spark technology was developed at the Algorithms, Machines and People Lab at the University of California, Berkeley. A group from the Berkeley lab founded a company two years ago, Databricks, which offers Spark software as a cloud service.

Det finns många intressanta aspekter på Apache Spark-projektet. Det första är att det är Öppen Kod, utvecklat på Berkeley, som är Silicon Valleys andra stora forskningsuniversitet. Det första är givetvis Stanford.

Den andra aspekten är att IBM satsar stort på ett öppen kodprojekt, något som man har gjort för så gott som alla nya projekt man företar sig under de senaste åren.

Ett tecken på hur viktig den öppna kodrörelsen har blivit idag.

Det är viktigt att påpeka att Apache Hadoop inte kommer att försvinna. Hadoop har sina egna fördelar så Hadoop och Spark kommer båda att användas framöver.

Pressklipp:

USABloggen på Twitter

Fler inlägg om Big Data

One thought on “Bortom Apache Hadoop, Apache Spark analyserar Big Data i datorminnet !

  1. Bosse

    Big Data och datormoln i all ära, men för entreprenören/företagaren “på gatan” finns det utan tvekan en stor risk i att lägga sin verksamhet helt i händerna på jättarnas molntjänster:
    http://pcforalla.idg.se/2.1054/1.631438/google-stangde-hans-konto

    Jag vet av egen erfarenhet att om något blir fel och man måste kontakta Google så tar det din tid innan något rättas till, om det över huvud taget rättas till. Ett fatalt fel i Google Maps tog ca. ett halvår att rätta till.

Comments are closed.