domingo, 14 de junio de 2015

Apache Parquet es Top-Level Apache Project


Leyendo infoQ, me entero que Apache Parquet es un top-level project. Para el que no sabe que es un top-level project, es como que la organización Apache nos aconseja que le demos importancia y que la organización le va a dar mayor prioridad.

Pero que es Apache Parquet? Básicamente es una base de datos o mejor dicho un almacén de datos basado en columna. Tiene la particularidad de que esta disponible para cualquier proyecto en el ecosistema Hadoop, independientemente de la elección del framework de procesamiento de datos, modelo de datos o lenguaje de programación.

Parquet está construido para soportar esquemas de compresión y codificación muy eficientes. Parquet permite esquemas de compresión que se especificarán a nivel de columna, y se pueden agregar más esquemas.


Dejo link: