Politik

Spanner, Googles globala database i Big Data-åldern, GPS, atomklockor, TrueTime och SQL

En databas, som MySQL, gör det möjligt att spara data på disk och att sen kunna hitta och manipulera datan igen. Det dataspråk man använder för att spara och återfinna data från dabaser heter SQL.

Men det är skillnad på databaser och databaser. Det är en sak att hantera små och upp till stora mängder data i en databas, det kan minsta finniga fildelande tonåring göra med dagens verktyg.

Det är en helt annan sak att manipulera enorma, gigantiska, rent j-vligt stora datamängder, s.k. Big Data, i en databas. För det måste man använda flera parallella datorer och diskar och s.k. Sharding, dvs att man delar upp datan mellan de olika datorerna .

Google skapade Big Table, en intern avancerad distribuerad databas redan 2004.

Men när man talar om stora datamängder, s.k. Big Data, så finns alla data inte alltid på samma plats. Det är för att lösa problemet med hur man hanterar stora datamängder i en global databas, dvs en databas som bokstavligen sträcker sig över hela jordklotet, som Google nu har skapat Spanner, en revolutionerande databas som använder sig av Googles BigTable och som beskrivs i en forskningsrapport från Google från tidigare i år: Spanner: Google’s Globally-Distributed Database

Spanner is a scalable, globally-distributed database designed,
built, and deployed at Google. At the highest level of abstraction, it is a database that shards data across many sets of Paxos [21] state machines in datacenters spread all over the world. Replication is used for global availability and geographic locality; clients automatically failover between replicas. Spanner automatically reshards data across machines as the amount of data or the number of servers changes, and it automatically migrates data across machines (even across datacenters) to balance load and in response to failures.

Spanner is designed to scale up to millions of machines across hundreds of datacenters and trillions of database rows.

Applications can use Spanner for high availability,
even in the face of wide-area natural disasters, by replicating
their data within or even across continents.

Den som vill läsa mer om Paxos, en algoritm för s.k. feltolerans, bör kolla den här länken

Cade Metz skriver i Wired Magazine om Googles Spanner:Exclusive: Inside Google Spanner, the Largest Single Database on Earth

in building a database that was both global and consistent, Google’s Spanner engineers did something completely unexpected. They have a history of doing the unexpected. The team includes not only Fikes and Hsieh, who oversaw the development of BigTable, Google’s seminal NoSQL database, but also legendary Googlers Jeff Dean and Sanjay Ghemawat and a long list of other engineers who worked on such groundbreaking data-center platforms as Megastore and Dremel.

This time around, they found a new way of keeping time.

“As a distributed systems developer, you’re taught from — I want to say childhood — not to trust time,” says Fikes. “What we did is find a way that we could trust time — and understand what it meant to trust time.”

Time Is of the Essence

On the net, time is of the essence. Yes, in running a massive web service, you need things to happen quickly. But you also need a means of accurately keeping track of time across the many machines that underpin your service. You have to synchronize the many processes running on each server, and you have to synchronize the servers themselves, so that they too can work in tandem. And that’s easier said than done.

Vad som gör Google Spanner så viktig att den löser ett mycket svårt problem i samband med data som är distribuerad över hela jorden.

Om jag sitter i Ockelbo och uppdaterar vissa data samtidigt som min kompis i Kuala Lumpur uppdaterar samma data, så måste systemet ha en global klocka som kan avgöra vem som kommer först och som därför har rätt till att uppdatera datan. Det handlar om bråkdelen av en sekund, och det är det problemet som Googles Spanner har löst med hjälp av atomklockor och GPS.

Det intressanta för allmänheten med Googles Spanner är kanske inte själva detaljerna utan det faktum att vi nu har fått globala datasystem som kan behandla gigantiska datamängder som finns distribuerade över hela välden. Och det öppnar möjligheter till globala lösningar som aldrig förr.

Inte ens Apache Big Data-systemet Hadoop kan klara av globalt distribuerade datamängder av samma storlek som Googles Spanner.

Hadoop skapades som en öppen kod-version av Googles MapReduce och Google File System och man gissar nu att Google Spanner på samma sätt kommer att ge upphov till en öppen kod-version.

Vilket i sin tur kommer att leda till snabba framsteg på det globala data-området.

Pressklipp:
Googles mobil nästan perfekt ? men var är 4g-stödet?,Google Chrome störst i Sverige,Vinnova sponsrar databas, Hybriden för dig som vill fingra på din dator

[tags]Spanner, Google, Big Data-åldern, GPS, atomklockor, TrueTime, SQL [/tags]

One thought on “Spanner, Googles globala database i Big Data-åldern, GPS, atomklockor, TrueTime och SQL

Comments are closed.