Apache Spark esta
compuesto por tres componentes:
- Data store
- API
- Framework de gestion de recursos
Data store: Apache
Spark utiliza el sistema de archivos de hadoop, es decir utiliza
hdfs. Por lo tanto es compatible con almacenamiento de hadoop y
framework que utilizan este almacenamiento como hbase, casandra, etc.
API: La API permite
crear aplicaciones basadas en Spark, utilizando una interfaz
estandar. Spark provee esta API para java, scala, python y R.
Gestion de recursos:
Spark puede ser deployado en un servidor stand-alone o sobre una
infraestructura distribuida sobre frameworks como Mesos o YARD