Politik

Bakom Big Data och de globaliserade datormolnen: Paxos och Googles Spanner

Det finns tre IT-bloggar i Silicon Valley, den mest kända är TechCrunch som grundades av Michael Arrington år 2005 och som nu ägs av AOL. Den har massvis med bra information om nya trender och startupföretag, men saknar den personliga insikt och skärpa den hade under Arrington.

Sarah Lacys Pando Daily är en mer eller mindre kopia av TechCrunch, vilket inte är så konstigt eftersom Sarah Lacy och andra på hennes blogg ursprungligen jobbade på TechCrunch.

Den tredje IT-bloggen är Om Maliks GigaOM, och av de tre är det den utan tvekan den djupaste och mest tekniska.

Det är t.ex. på den som jag just hittade en artikel av Stacey Higginbotham om Googles Viktiga distribuerade database Spanner

Google has made public the details of its Spanner database technology, which allows a database to store data across multiple data centers, millions of machines and trillions of rows. But it’s not just larger than the average database, Spanner also allows applications that use the database to dictate where specific data is stored so as to reduce latency when retrieving it.

Making this whole concept work is what Google calls its True Time API, which combines an atomic clock and a GPS clock to timestamp data so it can then be synched across as many data centers and machines as needed. From the Google paper:

Informationen kommer från en rapport som Google har lagt ut på nätet: James C. Corbett, Jeffrey Dean, Michael Epstein, Andrew Fikes, Christopher Frost, JJ Furman, Sanjay Ghemawat, Andrey Gubarev, Christopher Heiser, Peter Hochschild, Wilson Hsieh, Sebastian Kanthak, Eugene Kogan, Hongyi Li, Alexander Lloyd, Sergey Melnik, David Mwaura, David Nagle, Sean Quinlan, Rajesh Rao, Lindsay Rolig, Yasushi Saito, Michal Szymaniak, Christopher Taylor, Ruth Wang, Dale Woodford: Spanner: Google’s Globally-Distributed Database

Spanner is a scalable, globally-distributed database designed, built, and deployed at Google. At the highest level of abstraction, it is a database that shards data across many sets of Paxos [21] state machines in datacenters spread all over the world.

Replication is used for global availability and geographic locality; clients automatically failover between replicas. Spanner automatically reshards data across machines as the amount of data or the number of servers changes, and it automatically migrates data across machines (even across datacenters) to balance load and in response to failures. Spanner is designed to scale up to millions of machines across hundreds of datacenters and trillions of database rows.

Googles Spanner är en historisk prestation, precis som Googles Map Reduce, som utgör grunden för den globala Big Data-teknologin.

Spanner löser ett grundläggande problem inom datavetenskapen, nämligen hur man bygger en global distribuerad synkron databas med failover. En global databas där man alltid kan vara säker på att få samma resultat oberoende om man söker i databasen från Japan eller Jönköping, och oberoende av om några av de hundratusentals datorerna i Googles globala datormoln just har kraschat.

Googles Spanner kommer att leda till nya framsteg inom de globala datormolnen och skynda på globaliseringen.

Spanner är baserad på något som heter Paxos State Machines som är ett protokoll som publicerades först 1989 och som är uppkallat efter en fiktiv lagstiftande församling på ön Paxos i Grekland.

Och mer om Paxos på den här länken

Den som är intresserad av datavetenskap, Big Data och datormolnen bör absolut sätta sig in i den här lika viktiga som spännande teknologin.

Pressklipp:

Nyheter – Nyheter,Nyheter – Nyheter,DN.se – Kultur/Böcker,Computer Sweden 20 senaste nyheter,Computer Sweden 20 senaste nyheter

[tags]Big Data, Datormolnen, Google Spanner, Paxos [/tags]