Le re-partitionnement Spark pour gagner en performance
L’article précédent traitait du concept de partition en Spark et des méthodes permettant de re-partitionner ses données. Mais pour quoi faire ?
Si vous développez en Spark, vous vous êtes déjà rendu compte que certains de vos algorithmes, qui semblent pourtant si simples, prennent énormément de temps à s’exécuter, sans savoir pourquoi. Ce peut être dû à un problème de partitionnement.
Regardons ensemble les difficultés que vous pouvez rencontrer dans vos programmes ainsi que des techniques pour les résoudre.