Politik

Från disk till SSD till minne till CPU cache, jakten på allt snabbare dataanalys i IT-världen

D
agens IT-utveckling handlar är ett “rejs”, som man säger på modern svenska. Ett rejs i jakt på allt snabbare datorer, allt snabbare datahastigheter, på att kunna hantera och analysera de växande datamängder som går under begreppet Big Data.

På ett Meetup på Microsoft här i Silicon Valley igår kväll så presenterade Joydeep Das från Sybase, nu en del av SAP, ovanstående OH-bild som klart och översiktligt visar jakten på allt snabbare dataanalyser.

För den som undrar så står SSD för Solid-state drive, på svenska ibland flashdisk eller halvledardisk.

För den som inte kan se hur mycket snabbare det blir allteftersom man flyttar sig från disk till SSD-disk till datorminne till CPU-cache så kommer siffrorna här:

  1. Från spinnande disk till SSD, 1,2 till 2x snabbare
  2. Från SSD till datorminne, 4 till 200x snabbare
  3. Från datorminne till CPU cache, 2 till 6x snabbare.

Vilket alltså betyder att om man flyttar datan från en vanlig disk till enn snabbare SSD-disk så blir det 1,2 till dubbelt så snabbt, sedan man flyttar datan in i datorns minne så blir det upp till 200 ggr snabbare att analysera datan där, och sen till CPU:et cache så blir det upp till sex ggr snabbare.

När man diskuterar snabbare datorer gäller det oftast snabbare CPU, men diskar är alltså också oerhört viktiga.

Joydeep Das påminde t.ex. om att Amazons nya datormolntjänst DynamoDB lagrar alla data just på SSD-diskar. Amazon’s new cloud database service uses SSD storage

DynamoDB är en No-SQL databas, en typ av databaser som nu är oerhört populära. En av de ledande No-SQL-databaser som är lätt att ladda ner och installera, är MongoDB. Om ni är det minsta intresserade av dagens oerhört spännande IT-världs så är det lätt att börja just med MongoDB.

Men för Big Data, alltså gigantiska datamängder som enligt JoyDeep Das bl.a. genereras av Pentagon i Afghanistan, där alla stridsvagnar, alla flygplan, alla vapen, nu är försedda med RFID och liknande data-genererande taggar som sparas i gigantiska databaser och sen analyseras. För Big Data så gäller det att vara så snabb som möjligt och då förflyttas analysen hela tiden fram till allt snabbare datorkomponenter. Från diskar till SSD-diskar till datorminnet och slutligen till den allra snabbaste CPU-cachen.

Nu använder de flesta databaser redan minnet för sina kalkyler, så det här är mer ett försök att visa hur man kan gå från dagens relativt långsamma diskar till CPU-cachen.

Och när det rör sig om terabytes med data så är det oerhört viktig att vara så snabb som man överhuvudtaget kan vara.

Han tog också upp det faktum att man kan göra databaserna snabbare genom att spara datan i kolumner och inte i rader, något jag inte kände till. Och sen att man kan använda hyperfeffektiva s.k. bitmaps som indextabeller i CPU-cachen.

Ett mycket imponerande föredrag måste jag säga.

Axplock från den nordiska pressen:

SvD – Senaste nytt,svt.se – Nyheter världen

[tags]SSD diskar, CPU Cache, Big Data, Silicon Valley, Microsoft Silicon Valley [/tags]