Nettoyage et préparation des données avec Python New
Maîtrisez les techniques de web scraping et de manipulation de données pour préparer vos analyses avec Python !
Dans un monde où les données sont omniprésentes, savoir les collecter, les nettoyer et les structurer est essentiel pour en extraire des informations pertinentes. Cette formation de 3 jours vous permettra d'acquérir les compétences nécessaires pour utiliser Python et ses bibliothèques afin de récupérer des données du web, de les nettoyer et de les transformer pour vos analyses.
La formation aborde les contenus techniques suivants :
- Scrapping de données
- Techniques de récupération des données
- Automatisation
Niveau intermédiaire
Durée de la formation


Début de la formation

Objectifs de la formation
Les objectifs visés par cette formation sont :
- Comprendre le fonctionnement du scrapping.
- Exploiter les différentes méthodes de récupération de données.
- Automatiser la récupération de données.
- Identifier la meilleure solution de scrapping pour un besoin donné.
Programme
de la formation
- La base du traitement par lot (scraping)
- Parcourir le système de fichiers
- Gérer proprement l’encoding
- Lire et écrire des fichiers
- Analyser le JSON, le CSV et l’XML
- Les générateurs
- Parcours de données sur le Web
- Rappel sur le protocole HTTP
- Requêtes simples avec Request
- Stocker les données avec SQLAlchemy
- Analyser du HTML avec Beautiful Soup
- Questions de performances
- Threads et GIL
- Utiliser plusieurs cœurs avec le multiprocessing
- Programmation I/O asynchrone
- Performances et éthiques
- Utilisation d’une forme de cache : disque, RAM et redis
- Introduire un délai aléatoire
- Le fichier robot.txt
- Exercices
- Les API professionnelles
- Authentifications et token
- Anatomie d’une API REST
- Retry propre
- Gérer le rate limiting
- Gestion des erreurs
- Logging de l’application
- Exemple avec un client twitter fait à la main
- Exercices
- Industrialiser le crawling
- Scrappy
- Introduction aux mécanismes de base du Framework
- Exercices
- Selenium, un browser headless
- Utiliser Selenium à la main
- Utiliser Scrappy et Selenium ensemble
- Exercices pratiques
- La formation d’algorithmique de base est fortement orientée sur la pratique. Les participants ont l’occasion de mettre en pratique les différentes notions théoriques enseignées tout au long de la formation. Les exercices proposés portent plus particulièrement sur :
- Suppression des Valeurs Manquantes
- Remplacement des Valeurs Manquantes
- Nettoyage et Standardisation des Chaînes de Caractères
- Conversion des Types de Données
- Traitement des Valeurs Extrêmes (Outliers)
- Encodage des Variables Catégorielles
- Filtrage et Tri des Données
Personne de contact

Formateur :
bstorm est une entreprise belge de services informatiques comptant 50 experts, spécialisée dans la transformation digitale, l’analyse de données et le développement de solutions sur mesure. Son expertise en analyse de données permet de transformer des volumes d’informations complexes en insights exploitables, offrant des outils puissants pour optimiser la prise de décision et les performances des entreprises. En complément, bstorm est un acteur reconnu de la formation professionnelle.