En savoir plus

BigQuery en tant que source de données pour Spark : fausse bonne idée ?

Si vous travaillez comme moi dans un environnement mêlant data engineers, data scientists et data analysts et que le choix de votre plateforme s’est porté sur la plateforme cloud de Google, il y a fort à parier que vous ayez accès à beaucoup de données sous BigQuery.

Lire la suite
En savoir plus

Apache Beam, un projet d’unification prometteur

Pour le salon Big Data 2017, j’ai décidé cette année d’assister aux conférences payantes, en espérant y voir plus de choses techniques. Bien m’en a pris, ce sont celles qui m’ont le plus intéressé. J’y ai découvert un tout jeune top projet Apache, Apache Beam, un modèle de programmation qui permet aux développeurs de créer des pipelines de traitement de la donnée sans se soucier du moteur d’exécution.

Lire la suite
En savoir plus

Les méthodes de Transfer Learning

Les domaines d’application du Transfer Learning sont nombreux. Principalement, les méthodes de transfert de connaissance sont très souvent utilisées pour la reconnaissance d’image ainsi que le traitement automatique du langage. Ces deux domaines d’apprentissage sont très complexes et chronophages. C’est pour cela que le Transfer Learning apporte un souffle nouveau pour tenter d’optimiser ces traitements en exploitant au maximum des modèles déjà entraînés. Nous allons voir ici plusieurs méthodes de Transfert Learning.

Lire la suite
En savoir plus

Introduction et vulgarisation à l’IA

Machine Learning, Deep Learning, Reinforcement Learning, Collaborative Learning; vous pensiez avoir entendu toutes les combinaisons du mot Learning ? C’est bien évidemment avant de connaitre le… Transfer Learning ! Et …

Lire la suite
En savoir plus

Topic Model : Une machine peut-elle comprendre le sujet d’un article?

La recommandation peut se baser sur le principe de similarité: si vous consultez la page d’un portable sur le site, on va probablement vous proposer des portables similaires que celui …

Lire la suite
En savoir plus

Le re-partitionnement Spark pour gagner en performance

L’article précédent traitait du concept de partition en Spark et des méthodes permettant de re-partitionner ses données. Mais pour quoi faire ?

Si vous développez en Spark, vous vous êtes déjà rendu compte que certains de vos algorithmes, qui semblent pourtant si simples, prennent énormément de temps à s’exécuter, sans savoir pourquoi. Ce peut être dû à un problème de partitionnement.

Regardons ensemble les difficultés que vous pouvez rencontrer dans vos programmes ainsi que des techniques pour les résoudre.

Lire la suite