Politik

Ekosystemet kring Apache Hadoop, paradexempel på den öppna kodrörelsen i Silicon Valley

Klicka på Hadoop-företaget Cloudera

Apache Hadoop är grundpelaren i den gigantiska, om ni ursäktat vitsen, Big Data eller Massdata-rörelsen som nu svepet över Silicon Valley och världen. Om vi betänker att vi nu kan göra DNA-analyser av snart sagt varenda människa i hela världen, plus digitalisera röntgenbilder, spara FRA:s och NSA:s massavlyssningsdata av den odräglige morbror Gustav i Obbola, så inser vi snart att vi plötsligt lever i en data-intensiv värld.

Och data är något som Google är bra på. Så Hadoop är baserat på två forskningsrapporter från Google: Google Map Reduce och Google FileSystem.

Apache Hadoop är ett ramverk skrivet i Java i öppen kod och består av ett antal olika projekt: Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Avro: A data serialization system, Cassandra: A scalable multi-master database with no single points of failure, Chukwa: A data collection system for managing large distributed systems, HBase: A scalable, distributed database that supports structured data storage for large tables, Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying, Mahout: A Scalable machine learning and data mining library, Pig: A high-level data-flow language and execution framework for parallel computation och ZooKeeper: A high-performance coordination service for distributed applications.

Klicka på MapR.

Alla de här produkterna handlar alltså om att hantera väldiga datamängder i ett distribuerat filsystem.

Och med Apache Hadoop så kan man göra avancerade analyser av väldiga mängder data på mycket kort tid.

Som alltid så har ett antal företag, alla här i Silicon Valley, nu varvat tjänster och verktyg ovanpå Hadoop. Det mest kända är

Portola som nu samarbetar med Oracle på Hadoop-området.

Klicka på HortonWorks.

Två andra företag i samma bransch är MapR i San Jose och Hortonworks i Sunnyvale i centrala Silicon Valley.

Dom företagen jobbar alltså med att kommersialisera Hadoop och saluföra det till företag världen över. Precis som RedHat för Linux.

Men det är viktigt att komma ihåg att Hadoop själv förblir öppen kod oavsett vad Cloudera, MapR eller HortonWorks lägger ovanpå.

Och det är den juridiska finessen som har gett Öppen Kod et sådant inflytande.

Det skulle inte förvåna mig om även svenska entreprenörer har startat eget kring Hadoop. Är det någon som vet?

En kedja av företag och organisationer som lever i symbios för att föra ut Big Data-koncepten till världen. Alla baserade några kilometer från där jag sitter och knackar på det är inlägget. Det är inte enbart lokalpatriotism som gör att jag återigen upprepar att Silicon Valley faktiskt är det moderna IT-samhällets Ground Zero.

Axplock från den nordiska pressen:

svt.se – Nyheter världen,
Computer Sweden 20 senaste nyhet, Computer Sweden 20 senaste nyhet,svt.se – Nyheter världen,
Computer Sweden 20 senaste nyhet

[tags]Hadtoop, Apache Hadoop, Cloudera Hadoop, Oracle Hadoop, Mapr Hadoop, HortonWorks Hadoop, Massdata Hadoop, Big Data Hadoop [/tags]

Länkar:

MapR, HortonWorks,,Hadoop Summit,