En savoir plus

Ordonnancer un job Spark sur GCP

Les fournisseurs de Cloud proposent une multitude d’interfaces afin de faciliter le paramétrage de leurs services. Clément vous propose de découvrir l’ordonnanceur de Google Cloud Platform afin de gérer vos tâches Spark.

Lire la suite
En savoir plus

Communauté d’expertise : Finance

Le mardi 11 décembre, Jérémie Abensour lance une nouvelle communauté d’expertise !

Lire la suite
En savoir plus

Meetup : Apache Hive 3 : A new Horizon

Le mardi 27 novembre à 18h30 la communauté Big Data de Meritis reçoit le groupe Future of Data au siège de Paris !

Lire la suite
En savoir plus

L’architecture du Framework Spark

Dans cette suite d’article, nous allons voir ensemble l’architecture détaillée du Framework Apache Spark, comprendre les différentes briques qui forment le Framework et voir comment on peut déployer et exécuter des traitements Spark avec les différents clusters manager.
Nous allons commencer dans cet article par l’architecture du Framework et comprendre comment fonctionne les traitements sur ce Framework.

Lire la suite
En savoir plus

BigQuery en tant que source de données pour Spark : fausse bonne idée ?

Si vous travaillez comme moi dans un environnement mêlant data engineers, data scientists et data analysts et que le choix de votre plateforme s’est porté sur la plateforme cloud de Google, il y a fort à parier que vous ayez accès à beaucoup de données sous BigQuery.

Lire la suite
En savoir plus

Apache Beam, un projet d’unification prometteur

Pour le salon Big Data 2017, j’ai décidé cette année d’assister aux conférences payantes, en espérant y voir plus de choses techniques. Bien m’en a pris, ce sont celles qui m’ont le plus intéressé. J’y ai découvert un tout jeune top projet Apache, Apache Beam, un modèle de programmation qui permet aux développeurs de créer des pipelines de traitement de la donnée sans se soucier du moteur d’exécution.

Lire la suite