Formation Spark avec Python
Découvrez l'environnement Apache Spark pour vos traitements big data
Prochaine session (3 jours) :
23 au 25 juin 2025 à Paris et à distance
24 au 26 novembre 2025 à Paris et à distance
Formation Spark avec Python AUSSI DISPONIBLES DANS VOS LOCAUX (SUR DEMANDE)
A propos
L'environnement Apache Spark est aujourd'hui central dans l'approche big data de la donnée. Cette formation spark avec python vous permet de maîtriser les principes de l'environnement Apache Spark et l'utilisation de la bibliothèque pyspark pour gérer des données, appliquer des algorithmes de machine learning ou accélérer vos processus.
Cette formation spark s'adresse à tous ceux qui veulent manipuler Apache Spark en utilisant le langage python.
Trois jours intensifs basés sur des applications réelles pour la préparation, le traitement et l'analyse des données dans l'environnement Apache Spark.
Formation spark en petits groupes avec maximum 6 participants pour plus d'échanges avec nos formateurs !
Le programme
Objectifs
- Comprendre l’environnement Apache Spark
- Savoir utiliser le package PySpark pour communiquer avec Spark
- Maîtriser l’utilisation de Spark SQL
- Maîtriser l’utilisation de Spark.ml
Organisation des journées
Durant cette formation spark, nous nous concentrons sur des applications pratiques.
- Rappels sur Python et la manipulation des données
- Introduction à l'environnement Big Data et à Spark
- Pour qui ? Pour quoi faire ? Comment ?
- Comment installer Apache Spark
- Pyspark un package Python pour gérer votre environnement Apache Spark
- Quelle infrastructure pour utiliser Spark en entreprise ?
- Les principes de l'environnement : RDD, DataFrame, DataSet...
- Installation de Spark :
- Sur une infrastructure distribuée
- En local
- En cloud (exemples avec Amazon AWS et Microsoft Azure)
- Spark pour la manipulation des données
- Utilisation de SparkSQL et des DataFrames pour manipuler des données
- Charger des données depuis Hadoop, depuis des fihiers csv...
- Transformer des données (création de DataFrames, ajout de colonnes, filtres...)
- Cas pratiques de chargement et de modifications de données avec Spark et PySpark
- L'utilisation de spark.ml pour le machine learning
- Apprentissage supervisé : Forêts aléatoires avec Spark
- Mise en place d'un outil de recommandation
- Traitement de données textuelles
- Automatiser vos analyses avec des pipelines
- Apprentissage supervisé : Forêts aléatoires avec Spark
- Introduction et utilisation de Spark Streaming avec PySpark
Les outils
Lors de cette formation Spark, nous utiliserons Apache Spark en local et en cloud. Anaconda et Jupyter pour la partie développement Python.
Profils :
- Data scientist désirant monter en compétence sur l'utilisation d'Apache Spark
- Développeur étant amené à automatiser des traitements de données massives
Prérequis :
- Connaissances de base en traitement de données (statistique et tables de données)
- Connaissances de base en python
Besoin de conseils ou d'informations, contactez-nous au 01.72.25.40.82
Inscription
Tarif inter-entreprises : 1600 euros par participant pour 3 jours
- Réductions disponibles pour les financements personnels, les étudiants et en cas d'inscriptions multiples
- Nos tarifs sont HT et n'incluent pas les déjeuners
- Tarif intra-entreprise (sur mesure, selon vos besoins) : nous contacter pour évaluation
Inscription et demande d'informations
Veuillez remplir le formulaire ci-dessous pour vous inscrire, obtenir un devis ou des détails sur la formation proposée.
Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre référencement DataDock et à notre certification Qualiopi.
Cette formation est disponible en session sur mesure organisée dans votre structure pour un groupe allant jusqu'à 8 participants. Contactez-nous pour organiser une session.
Partager cette page