Politik

Big Data, Hadoop och SQL-språkets märkliga återkomst

Så länge någon kan minnas så har data alltid manipulerats med SQL-språket. SQL-språket är baserat på SET-teori eller relations-algebra och det är högeffektivt för att behandla s.k. strukturerade data, dvs data som har ett visst mönster, som en banktransaktion, en biljettbeställning på webben eller en elektronisk sjukjournal.

Men när Big Data-rörelsen nu kommer kom som en tsunami så består den till en stor del av data som inte har en regelbunden struktur. Det kan handla om Twitter-flöden, tidningsartiklar eller anteckningar av alla de slag, som de som läkare gör under en undersökning.

Och i den ostrukturerade världen så har det inte funnits någon omedelbar plats för strukturspråket SQL.

Big Data har hittills för det mesta varit baserat på Googles Map Reduce-algoritm som använder sig av enkla attribut-värde-par. Bra för att göra en Google-sökning, men inte för att söka på information om alla svenska kvinnor mellan 30 och 35, som är överviktiga, har diabetes och två barn och som inte bor i Jönköping.

Så ankomsten av Big Data-revolutionen ledde till en explosion av s.k. NoSQL-databaser som den jättepopulära MongoDB, som är öppen kod och lätt att börja jobba med.

Men som Joseph Turian skriver på GigaOm så håller SQL-språket nu på att göra en snabb comeback för Big Data: Sector RoadMap: SQL-on-Hadoop platforms in 2013

This enormous knowledge gap in accessing big data in Hadoop has prompted an avalanche of vendors to offer SQL-on-Hadoop solutions, which increase the accessibility of Hadoop and allow organizations to reuse their investment learning in SQL. SQL is widely known by most business analysts. Many nontechnical staff without a programming background can write SQL and use traditional business intelligence (BI) tools like Tableau, MicroStrategy, and Business Objects to query data.

Den som är intresserad av den nya trenden bör kolla Hive och HiveQL, en teknologi som gör det möjligt att komma åt data i Hadoop med SQL. Och även Apache UIMA som gör det möjligt att plocka ut data som följer vissa mönster, som t.ex. e-postadresser, från ostrukturerade data. En vidareutveckling av Rekordstor dataattack efter nätgräl, Ogooglebar i Nationalencyklopedin

[tags]apache hive, aster, aster big analytics appliance, biginsights, clustrix, database theory, dremel, drill, hadoop distributed file system, hawq, hbase, hcatalog, hdfs, hive, impala, jethrodata, lingual, mapreduce, memsql, mongodb, mpp, newsql, optiq, parallel computing, pig, postgis, postgresql, postresql, sap hana, sql 92, sql-h, stinger, stringer, zookeeper [/tags]