domingo, 13 de mayo de 2018

Dstream


Dstream es la abstracción básica en Spark Streaming y representa una stream continuo de datos.

DStream se puede crear a partir de flujos de datos de entrada procedentes de fuentes como Kafka, Flume y Kinesis, o aplicando operaciones en otros DStream. Internamente, un DStream se representa como una secuencia de objetos RDD.

Similar a RDD el DStream soporta:

  • map 
  • flatMap 
  • filter 
  • count 
  • reduce 
  • countByValue 
  • reduceByKey 
  • join 
  • updateStateByKey