En el mundo del Big Data, proyectos como Hadoop, Spark y Kafka han tenido un impacto significativo. Sin embargo, ahora hay otro proyecto de Apache con el potencial de cambiar aún más el panorama: Apache Arrow. La Fundación Apache lanzó Arrow como un proyecto de alto nivel diseñado para proporcionar una capa de datos de alto rendimiento para análisis en memoria columnares en sistemas dispares.
Basado en el código del proyecto relacionado Apache Drill, Apache Arrow ofrece beneficios como mejoras de rendimiento de más de 100 veces en cargas de trabajo analíticas, según la fundación. En general, permite cargas de trabajo multi-sistema al eliminar la sobrecarga de comunicación entre sistemas. Los desarrolladores de otros proyectos de big data de Apache, como Calcite, Cassandra, Drill, Hadoop, HBase, Impala, Kudu, Parquet, Phoenix, Spark y Storm, también contribuyen al proyecto.
“La comunidad de código abierto se ha unido en Apache Arrow”, dijo Jacques Nadeau, vicepresidente del nuevo proyecto y de Apache Drill. “Anticipamos que la mayoría de los datos del mundo se procesarán a través de Arrow en los próximos años”.
En muchas cargas de trabajo, entre el 70% y el 80% de los ciclos de CPU se gastan en serializar y deserializar datos. Arrow alivia esa carga al permitir que los datos se compartan entre sistemas y se procesen sin necesidad de serialización, deserialización o copias de memoria, según la fundación.
“Una capa de datos en memoria columnar estándar de la industria permite a los usuarios combinar múltiples sistemas, aplicaciones y lenguajes de programación en una sola carga de trabajo sin la sobrecarga habitual”, dijo Ted Dunning, vicepresidente de Apache Incubator y miembro del Comité de Gestión del Proyecto Apache Arrow.
Arrow también admite datos complejos con esquemas dinámicos, además de datos relacionales tradicionales. Por ejemplo, puede manejar datos JSON, que se utilizan comúnmente en cargas de trabajo de Internet de las cosas (IoT), aplicaciones modernas y archivos de registro. También hay implementaciones disponibles para varios lenguajes de programación para una mayor interoperabilidad.
El software Apache Arrow está disponible bajo la Licencia Apache v2.0 y es supervisado por un equipo de colaboradores activos seleccionados por ellos mismos.


