domingo, 4 de marzo de 2018

Que es Apache Spark?



Apache Spark es un framework de procesamiento de datos big data open source. Construido con las premisas de ser rápido y fácil de usar. Este Framework fue desarrollado en el 2009 en la universidad de Berkeley’s AMPLab y desde el 2010 fue liberado bajo la tutela de la organización Apache.

Es la competencia directa de Hadoop pero lejos de querer remplazarlo, se integra muy bien con el ecosistema Hadoop. Pero Apache Spark tiene varias ventajas comparado con otro framework Map-Reduce y big data.

Primero de todo, Apache Spark ofrece una forma coherente para procesar datos de diferentes naturalezas como video, texto, imágenes y de diferentes fuentes como red, online streaming, datos web online, etc.

A la vez, Spark permite correr aplicaciones en el clusters de Hadoop se ejecuten hasta 100 veces más rápido en memoria y 10 veces más rápido en disco.

Spark permite programar las aplicaciones en Python, Java o Scala. A la vez viene con un conjunto integrado de más de 80 operadores de alto nivel. Y podemos usarlo de forma interactiva para consultar datos dentro del shell.

Ademas las operaciones Map y Reduce, soportan consultas por sql, por streaming, maching learning y procesamiento por grafos. Los desarrolladores pueden usar estas capacidades solos o combinarlas para ejecutar en una sola información.

Dejo link: https://spark.apache.org/