En savoir plus

Introduction au partitioning Spark

Si vous développez en Spark, vous avez sûrement déjà entendu parler des partitions. Ce n’est pas le cas ? Et pourtant, il est très probable que vous ayez eu à faire à elles, sans le savoir, lors d’une phase de debug, de l’écriture d’un algorithme ou de l’analyse d’un traitement sur la Web UI Spark. Découvrez ce concept et surtout pourquoi il est si important de l’avoir à l’esprit lorsque l’on fait “du Spark”.

Lire la suite
En savoir plus

Customiser son Pipeline PySpark avec ses propres stages

Quand vous créez un Pipeline à l’aide de Spark ML, il est composé d’une multitude de stages natives au framework Spark, comme Tokenizer, OneHotEncoder, StringIndexer. Pourtant vous aimeriez pouvoir y inclure d’autres stages, développées par vous même. Dans cet article nous prendrons l’exemple d’un transformer très simple, permettant de récupérer en entrée une chaîne de caractère et d’en sortir la chaîne de caractère inverse. Nous verrons ainsi toutes les étapes permettant d’inclure ce transformer dans un Pipeline.

Lire la suite
En savoir plus

ElasticSearch, pour la recherche d’instruments financiers

Vous ne connaissez-pas ElasticSearch ? Et si ce module était pourtant le meilleur candidat pour créer des moteurs de recherche pour trouver des instruments financiers ? J’ai eu l’occasion de le déployer dans le cadre de plusieurs missions professionnelles. Voici quelques astuces pour indexer et rechercher des “options” avec ElasticSearch et son client Java, d’accès bien plus robuste que son API Rest.

Lire la suite