El Big Data no existe. Modelando terabytes con una RPi4

PyConES 2022

Suponed que dos proveedores ofrecen proyectos equivalentes. El primero necesita un cluster de 16 nodos mientras que el segundo sólo necesita un servidor. ¿Cuál elegiríais? Pues como todo en la vida depende. Sí es verdad que hoy es más habitual optimizar el coste que la aplicación que lo genera. En en esta sesión de live coding aprenderéis una serie de técnicas orientadas a modelar grandes cantidades de datos con pocos recursos: - Almacenar datos indexados de manera eficiente - Paginado eficiente entre disco y memoria con Apache Arrow - Solapar cálculo y I/O - Filter pushdown - Mejorar las prestaciones de la analítica con Duckdb o polars - Out-of-core training El objetivo final será generar una aplicación capaz de cargar, modelar y visualizar un dataset de gran tamaño con una Raspberry Pi 4.

Más información en: * Código: https://git.guillemborrell.es/guillem/PyConES22 * Documentación: https://git.guillemborrell.es/guillem/PyConES22/wiki/HomeES

Speakers: Guillem Borrell Nogueras