Note :
Les critiques soulignent que le livre est bien écrit et attrayant, et qu'il rend intéressant un sujet potentiellement aride. Il fournit des conseils utiles, en particulier pour ceux qui travaillent avec des fichiers CSV et des outils en ligne de commande.
Avantages:Bien écrit, attrayant, conseils et recommandations utiles, exemples clairs, particulièrement intéressant pour les utilisateurs de fichiers CSV, concis et précis, inclut des outils programmés par l'auteur.
Inconvénients:Les exemples de code peuvent être déroutants pour les utilisateurs débutants de la ligne de commande.
(basé sur 5 avis de lecteurs)
Data Science at the Command Line: Obtain, Scrub, Explore, and Model Data with Unix Power Tools
Ce guide entièrement révisé démontre comment la flexibilité de la ligne de commande peut vous aider à devenir un scientifique des données plus efficace et plus productif. Vous apprendrez à combiner des outils de ligne de commande petits mais puissants pour obtenir, analyser, explorer et modéliser rapidement vos données. Pour commencer, l'auteur Jeroen Janssens fournit une image Docker contenant plus de 100 outils Unix, utiles que vous travailliez sous Windows, macOS ou Linux.
Vous découvrirez rapidement pourquoi la ligne de commande est une technologie agile, évolutive et extensible. Même si vous êtes à l'aise dans le traitement des données avec Python ou R, vous apprendrez comment améliorer considérablement votre flux de travail en science des données en tirant parti de la puissance de la ligne de commande. Ce livre est idéal pour les data scientists, les analystes, les ingénieurs, les administrateurs système et les chercheurs.
⬤ Obtenir des données à partir de sites Web, d'API, de bases de données et de feuilles de calcul.
⬤ Effectuer des opérations de nettoyage sur des fichiers texte, CSV, HTML, XML et JSON.
⬤ Explorer les données, calculer des statistiques descriptives et créer des visualisations.
⬤ Gérer votre flux de travail en science des données.
⬤ Créez vos propres outils à partir de lignes simples et de code Python ou R existant.
⬤ Paralléliser et distribuer des pipelines de données intensifs.
⬤ Modéliser les données avec des algorithmes de réduction de la dimensionnalité, de régression et de classification.
⬤ Exploiter la ligne de commande de Python, Jupyter, R, RStudio et Apache Spark.
© Book1 Group - tous droits réservés.
Le contenu de ce site ne peut être copié ou utilisé, en tout ou en partie, sans l'autorisation écrite du propriétaire.
Dernière modification: 2024.11.14 07:32 (GMT)