sábado, 10 de octubre de 2009

Que es Hadoop?


Apache Hadoop es un proyecto Java de software libre para brindar servicios de computación distribuida, escalable y confiable. Hadoop fue inspirado por los papers: Google's MapReduce y Google File System (GFS) . Hadoop incluye los siguientes subproyectos:

  • Hadoop Common: Utilidades comunes.
  • Avro: Un sistema de serialización de datos que provee integración con lenguajes scripts.
  • Chukwa: Un sistema recolección de datos para manejo de grandes sistemas distribuidos.
  • HBase: Una base de datos distribuida que soporta la estructura de data storage para grandes tablas.
  • HDFS: File system distribuido.
  • Hive: Una infraestructura de data warehouse que prove sumarización de datos y consultas ad hoc.
  • MapReduce: Un framework para procesos distribidos de grandes conjuntos de datos en clusters
  • Pig: Un lenguaje de alto nivel para flujo de datos y framework de ejecución de procesos en paralelo.
  • ZooKeeper: Un coodinador de servicios de alta performance para aplicaciones distribuidas.

El equipo de Yahoo anunció que logró batir el record en el concurso anual GraySort, siendo ganador en 2 categorías. GraySort consiste en un conjunto de benchmarks, cada uno con sus propias reglas. Todos los benchmarks miden el tiempo para ordenar distinta cantidad de registros de 100 bytes cada uno (los primeros 10 bytes son la clave del registro, el resto el valor).

Para repartir la carga utilizaron un cluster gigante coordinado con Apache Hadoop. De esta manera, Apache Hadoop logró ordenar 1 Terabyte de datos en 62 segundos, y 1 Petabyte en 16.25 horas. Es la primera vez que un producto de software libre logra ganar esta competencia.

Apache Hadoop esta en el top level de los proyectos de Apache