MapReduce: Simplified Data Processing on Large Clusters — Dean & Ghemawat (2004)
MapReduce: Procesamiento de datos simplificado en grandes clústeres — Dean & Ghemawat (2004)
El patrón que simplificó lo imposible
En 2004, Jeff Dean y Sanjay Ghemawat publicaron un paper que transformó la ingeniería de datos para siempre. MapReduce abstrajo la complejidad del procesamiento distribuido en dos funciones simples: una función map que transforma cada registro de entrada en pares clave-valor intermedios, y una función reduce que combina todos los valores asociados a una misma clave. El framework se encargaba automáticamente de la distribución, la tolerancia a fallos y el balanceo de carga.
La genialidad de MapReduce no estaba en su sofisticación técnica — programadores funcionales reconocerían el patrón inmediatamente. Estaba en su capacidad de democratizar el cómputo distribuido. Antes de MapReduce, escribir programas que corrieran en miles de máquinas requería expertise en sistemas distribuidos. Después, cualquier ingeniero que pudiera escribir dos funciones podía procesar petabytes de datos. Google lo usaba internamente para indexar la web, construir el grafo de links y generar datos para Google Maps.
Aunque MapReduce como implementación fue eventualmente superado por sistemas como Spark y Flink que soportan grafos de computación más complejos, su modelo mental persiste en toda la industria. Cada vez que pensás en un pipeline de datos como una secuencia de transformaciones y agregaciones, estás pensando en MapReduce. Hadoop llevó la idea al mundo open source, y de ahí nació todo el ecosistema de big data que conocemos hoy.
Paper original: https://research.google/pubs/pub62/
Newsletter
Si llegaste hasta acá, sabés que esto vale la pena.
Un email por paper. Sin resúmenes semanales ni contenido de relleno.
También en Magacín
El sistema de archivos de Google — Ghemawat, Gobioff & Leung (2003)
El sistema de archivos que hizo posible indexar internet. Diseñado para fallar: asume que los discos se rompen y sigue funcionando.
En busca de un algoritmo de consenso comprensible — Ongaro & Ousterhout (2014)
Raft: el algoritmo de consenso diseñado para ser entendido. Una alternativa a Paxos que se convirtió en el estándar de facto para sistemas distribuidos modernos.
Dynamo: El almacén de clave-valor altamente disponible de Amazon — DeCandia et al. (2007)
El paper que inspiró toda una generación de bases de datos NoSQL. Cómo Amazon sacrificó consistencia por disponibilidad y cambió la industria.