Note :

Les critiques du livre soulignent un accueil mitigé, certains utilisateurs appréciant sa couverture de PySpark, en particulier les premiers chapitres, et la facilité des transitions pour les utilisateurs de Python. Cependant, plusieurs critiques mentionnent le manque de profondeur, la mauvaise qualité de l'écriture et l'insuffisance de détails, ce qui conduit à une frustration quant à l'exécution générale.
Avantages:⬤ Couvre bien PySpark, en particulier dans les premiers chapitres
⬤ utile pour l'auto-apprentissage et la transition de Python à PySpark
⬤ bons exemples fournis
⬤ utile pour les débutants et les apprenants intermédiaires en science des données.
⬤ Mal écrit avec de nombreuses erreurs
⬤ manque d'informations techniques détaillées et de clarté
⬤ exemples triviaux et explication insuffisante des options
⬤ exécution globale jugée insatisfaisante
⬤ insatisfaction importante quant à l'édition et à la qualité du contenu.
(basé sur 5 avis de lecteurs)
Applied Data Science Using Pyspark: Learn the End-To-End Predictive Model-Building Cycle
Découvrez les capacités de PySpark et son application dans le domaine de la science des données. Ce guide complet avec des exemples triés sur le volet de cas d'utilisation quotidiens vous guidera à travers le cycle de construction de modèles prédictifs de bout en bout avec les dernières techniques et astuces du métier.
Applied Data Science Using PySpark est divisé en six sections qui vous guident à travers le livre. Dans la section 1, vous commencez par les bases de PySpark en vous concentrant sur la manipulation des données. Nous vous mettons à l'aise avec le langage, puis nous nous appuyons sur lui pour vous présenter les fonctions mathématiques disponibles dans le commerce. Dans la section 2, vous plongerez dans l'art de la sélection de variables en démontrant les différentes techniques de sélection disponibles dans PySpark. Dans la section 3, nous vous emmenons dans un voyage à travers les algorithmes d'apprentissage automatique, les implémentations et les techniques de réglage fin. Nous parlerons également des différentes métriques de validation et de la manière de les utiliser pour sélectionner les meilleurs modèles. Les sections 4 et 5 abordent les pipelines d'apprentissage automatique et les différentes méthodes disponibles pour opérationnaliser le modèle et le servir via Docker/une API. Dans la dernière section, vous couvrirez les objets réutilisables pour faciliter l'expérimentation et apprendrez quelques astuces qui peuvent vous aider à optimiser vos programmes et vos pipelines d'apprentissage automatique.
A la fin de ce livre, vous aurez vu la flexibilité et les avantages de PySpark dans les applications de science des données. Ce livre est recommandé à ceux qui veulent libérer la puissance du calcul parallèle en travaillant simultanément avec de grands ensembles de données.
Ce que vous apprendrez
⬤ Construire un modèle prédictif de bout en bout.
⬤ Mettre en œuvre des techniques de sélection de variables multiples.
⬤ Exploiter les modèles.
⬤ Maîtriser plusieurs algorithmes et implémentations.
A qui s'adresse ce livre ?
Les scientifiques des données et les ingénieurs en apprentissage automatique et en apprentissage profond qui veulent apprendre et utiliser PySpark pour l'analyse en temps réel des données en continu.