domingo, 18 de marzo de 2018

Arquitectura de Apache Spark



Apache Spark esta compuesto por tres componentes:
  • Data store
  • API
  • Framework de gestion de recursos


Data store: Apache Spark utiliza el sistema de archivos de hadoop, es decir utiliza hdfs. Por lo tanto es compatible con almacenamiento de hadoop y framework que utilizan este almacenamiento como hbase, casandra, etc.

API: La API permite crear aplicaciones basadas en Spark, utilizando una interfaz estandar. Spark provee esta API para java, scala, python y R.

Gestion de recursos: Spark puede ser deployado en un servidor stand-alone o sobre una infraestructura distribuida sobre frameworks como Mesos o YARD