sábado, 31 de mayo de 2014

Apache Spark


Se puede ser más rápido que Apache Hadoop? Y si se puede y Apache Spark esta para probarlo.

Hadoop es el framework por defecto si hablamos de Big Data. Spark fue diseñado para soportar en memoria algoritmos iterativos que se pudiesen desarrollar sin escribir un conjunto de resultados cada vez que se procesaba un dato. Esta habilidad para mantener todo en memoria es una técnica de computación de alto rendimiento aplicado al análisis avanzado, la cual permite que Spark tenga unas velocidades de procesamiento que sean 100 veces más rápidas que las conseguidas utilizando MapReduce.

Y además fue desarrollado en Scala, lo que permite facilidad de integración con Scala, Java y también python (eso es lo que se puede leer en su web)

Spark tiene un framework integrado para implementar análisis avanzados que incluye la librería MLlib, el motor gráfico GraphX, Spark Streaming, y la herramienta de consulta Shark. Esta plataforma asegura a los usuarios la consistencia en los resultados a través de distintos tipos de análisis.

Como conclusión podemos afirmar que spark es un framework big data, pero liviano y a la vez más rápido.

Dejo link:
http://spark.apache.org/
http://en.wikipedia.org/wiki/Apache_Spark