Data & AIConference45min
Apache Arrow, l’analyse de données haute performance et interopérable
Apache Arrow, format de données orienté colonnes, permet des traitements performants et échanges sans sérialisation. Explorez son écosystème avec des intégrations comme Elasticsearch, Pandas, DataFusion et des requêtes SQL combinées. Découvrez comment Arrow peut valoriser vos données métier en facilitant l'ingestion et l'analyse à grande échelle.
Sylvain WallezElastic
talkDetail.whenAndWhere
Wednesday, April 16, 14:35-15:20
Maillot
Apache Arrow définit un format de données orienté colonnes permettant des traitements très performants et des échanges de données “zéro coût” sans sérialisation, avec des librairies officielles dans une douzaine de langages.Depuis son apparition, un écosystème impressionnant s’est développé autour de Arrow : échanges réseau avec Arrow Flight, moteur SQL avec DataFusion, exécution distribuée… La plupart des outils d’analytics offrent aujourd’hui une intégration avec Arrow.Je vous emmène à la découverte de Apache Arrow et de son écosystème à travers les étapes de son intégration dans Elasticsearch : utilisation de Elasticsearch avec Pandas en quelques lignes de Python, ingestion massive de données depuis des fichiers Parquet, exécution de requêtes SQL combinant des sources hétérogènes avec DataFusion. Et nous finirons par un "join" SQL entre Postgres et Elasticsearch !Vous en repartirez j’espère avec la conviction qu’exposer vos données métier au format Arrow peut ouvrir de nouvelles voies pour leur valorisation !
Sylvain Wallez
Développeur et architecte passionné depuis trois décennies, membre de la Fondation Apache. Je code sur les machines de toutes tailles, du microcontrôleur aux gros clusters.
Principal Engineer chez Elastic, Tech Lead dans l'équipe "Developer Tools" avec un focus sur Java et Rust.
Principal Engineer chez Elastic, Tech Lead dans l'équipe "Developer Tools" avec un focus sur Java et Rust.
comments.speakerNotEnabledComments