Nettoyer les données pour une science des données efficace : Faire les 80 % restants du travail avec Python, R et des outils en ligne de commande

Note :   (4,8 sur 5)

Nettoyer les données pour une science des données efficace : Faire les 80 % restants du travail avec Python, R et des outils en ligne de commande (David Mertz)

Avis des lecteurs

Résumé:

Le livre est salué pour sa couverture complète des techniques de nettoyage des données et l'importance de la préparation des données pour l'analyse dans la science des données. Les lecteurs apprécient le style engageant de l'auteur, le Dr Mertz, et l'accent mis sur le processus de réflexion derrière la manipulation des données plutôt que sur l'apprentissage par cœur. Il s'agit d'une ressource précieuse tant pour les nouveaux venus que pour les praticiens expérimentés en science des données.

Avantages:

Une couverture complète des techniques de nettoyage et de préparation des données.
Le style d'écriture de l'auteur est clair et engageant.
Met l'accent sur le processus de réflexion derrière la manipulation des données plutôt que sur le simple codage.
Fournit de nombreux exemples de code en R, Python et des outils en ligne de commande.
Utile pour les praticiens de tous niveaux, des débutants aux experts.
Lignes directrices sur le versionnement des données et la reproductibilité de la manipulation des données.
Offre un aperçu des différents formats de données et de la manière de les gérer.

Inconvénients:

Certains lecteurs ont trouvé l'organisation des sujets moins directe, car les techniques sont souvent présentées au sein d'histoires d'utilisateurs plutôt que comme des recettes autonomes.
Le livre est davantage axé sur les données tabulaires, avec une couverture insuffisante du nettoyage des données textuelles et des images.
Certains lecteurs ont souhaité que les noms de variables dans les exemples de code fournis soient moins énigmatiques.
Les attentes d'un catalogue structuré de recettes de nettoyage de données peuvent être déçues.

(basé sur 15 avis de lecteurs)

Titre original :

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Contenu du livre :

Un guide complet pour les data scientists afin de maîtriser les outils et les techniques de nettoyage de données efficaces.

Caractéristiques principales :

⬤ Maîtrisez les techniques de nettoyage de données sans tenir compte de la langue.

⬤ Apprenez à partir d'exemples pratiques fascinants provenant de nombreux domaines, tels que la biologie, les données météorologiques, la démographie, la physique, les séries temporelles et le traitement d'images.

⬤ Travailler avec des exemples de code détaillés, commentés et testés en Python et R.

Description du livre :

La science des données, l'analyse des données ou l'apprentissage automatique reposent en quelque sorte sur un truisme : la majeure partie des efforts nécessaires pour atteindre votre objectif réel réside dans le nettoyage de vos données. Rédigé dans le style amical et humoristique caractéristique de David, ce livre aborde en détail les étapes essentielles réalisées dans chaque pipeline de production en science des données ou en analyse des données et vous prépare à la visualisation des données et aux résultats de la modélisation.

Le livre plonge dans l'application pratique des outils et des techniques nécessaires à l'ingestion des données, à la détection des anomalies, à l'imputation des valeurs et à l'ingénierie des caractéristiques. Il propose également des exercices de longue haleine à la fin de chaque chapitre pour mettre en pratique les compétences acquises.

Vous commencerez par étudier l'ingestion de données dans des formats tels que JSON, CSV, SGBDR SQL, HDF5, bases de données NoSQL, fichiers dans des formats d'image et structures de données sérialisées binaires. En outre, le livre fournit de nombreux exemples d'ensembles de données et de fichiers de données, qui sont disponibles pour le téléchargement et l'exploration indépendante.

À partir des formats, vous imputerez les valeurs manquantes, détecterez les données non fiables et les anomalies statistiques, et générerez des caractéristiques synthétiques nécessaires à la réussite des objectifs d'analyse et de visualisation des données.

À la fin de ce livre, vous aurez acquis une solide compréhension du processus de nettoyage des données nécessaire pour effectuer des tâches réelles de science des données et d'apprentissage automatique.

Ce que vous apprendrez

⬤ Identifier les données problématiques relatives à des points de données individuels.

⬤ Détecter les données problématiques dans la "forme" systématique des données.

⬤ Remédier aux problèmes d'intégrité et d'hygiène des données.

⬤ Préparer les données pour les tâches d'analyse et d'apprentissage automatique.

⬤ Imputer des valeurs à des données manquantes ou peu fiables.

⬤ Générer des caractéristiques synthétiques qui se prêtent mieux à la science des données, à l'analyse des données ou aux objectifs de visualisation.

A qui s'adresse ce livre :

Ce livre est conçu pour les développeurs de logiciels, les data scientists, les aspirants data scientists et les étudiants qui s'intéressent à l'analyse des données ou à l'informatique scientifique.

Une connaissance de base des statistiques, des concepts généraux de l'apprentissage automatique, la connaissance d'un langage de programmation (Python ou R) et une certaine exposition à la science des données sont utiles. Un glossaire, des références et des apartés sympathiques devraient permettre à tous les lecteurs de se mettre à niveau.

Le texte sera également utile aux scientifiques des données de niveau intermédiaire et avancé qui souhaitent améliorer leur rigueur en matière d'hygiène des données et qui désirent se rafraîchir la mémoire sur les questions relatives à la préparation des données.

Autres informations sur le livre :

ISBN :9781801071291
Auteur :
Éditeur :
Reliure :Broché

Achat:

Actuellement disponible, en stock.

Je l'achète!

Autres livres de l'auteur :

Nettoyer les données pour une science des données efficace : Faire les 80 % restants du travail avec...
Un guide complet pour les data scientists afin de...
Nettoyer les données pour une science des données efficace : Faire les 80 % restants du travail avec Python, R et des outils en ligne de commande - Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Les bizarreries des expressions régulières - The Puzzling Quirks of Regular Expressions
Ce livre d'énigmes divertissant, destiné aux développeurs de logiciels...
Les bizarreries des expressions régulières - The Puzzling Quirks of Regular Expressions
Mieux coder en Python : Un guide pour les experts en herbe - Better Python Code: A Guide for...
Passer d'un code Python qui "fonctionne" à un...
Mieux coder en Python : Un guide pour les experts en herbe - Better Python Code: A Guide for Aspiring Experts

Les œuvres de l'auteur ont été publiées par les éditeurs suivants :

© Book1 Group - tous droits réservés.
Le contenu de ce site ne peut être copié ou utilisé, en tout ou en partie, sans l'autorisation écrite du propriétaire.
Dernière modification: 2024.11.14 07:32 (GMT)