Optimisation des charges de travail Databricks : Exploiter la puissance d'Apache Spark dans Azure et maximiser les performances des charges de travail big data modernes.

Note :   (4,1 sur 5)

Optimisation des charges de travail Databricks : Exploiter la puissance d'Apache Spark dans Azure et maximiser les performances des charges de travail big data modernes. (Anirudh Kala)

Avis des lecteurs

Résumé:

Le livre est généralement bien accueilli par les utilisateurs de Databricks, en particulier pour ses explications claires et ses idées pratiques sur l'optimisation des pipelines de données. Bien qu'il soit recommandé pour les débutants et les utilisateurs intermédiaires, certains critiques ont noté qu'il manquait de profondeur dans certains domaines, en particulier dans les sujets d'optimisation, et qu'il pouvait sembler superficiel pour les utilisateurs plus expérimentés. Malgré cela, il est considéré comme une ressource précieuse avec des exemples de code pratiques et des scénarios du monde réel.

Avantages:

Style d'écriture clair et précis.
Excellente ressource pour les débutants et les utilisateurs intermédiaires.
Aperçus utiles sur la mise à l'échelle des pipelines de données et les techniques d'optimisation.
Couvre un large éventail de sujets, notamment MLFlow, Delta Lake et le streaming structuré.
Contient des exemples pratiques et des échantillons de code disponibles sur GitHub.
Inclut des scénarios du monde réel et des études de cas.

Inconvénients:

Certains évaluateurs estiment que la première section est basique et précipitée.
Manque de profondeur dans certains sujets d'optimisation, ce qui peut être décevant pour les utilisateurs avancés.
Le dernier chapitre sur les scénarios du monde réel est trop bref.
Certains lecteurs ont trouvé le livre superficiel et ont suggéré un titre trompeur.

(basé sur 10 avis de lecteurs)

Titre original :

Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Contenu du livre :

Accélérer les calculs et tirer le meilleur parti de vos données de manière efficace et efficiente sur Databricks.

Caractéristiques principales :

⬤ Comprendre les optimisations Spark pour les charges de travail Big Data et maximiser les performances.

⬤ Construire des pipelines d'ingénierie big data efficaces avec Databricks et Delta Lake.

⬤ Gérer efficacement les clusters Spark pour le traitement des big data.

Description du livre :

Databricks est une plateforme de pointe basée sur le cloud pour l'analyse des données, la science des données et l'ingénierie des données, qui soutient des milliers d'organisations à travers le monde dans leur voyage vers les données. Il s'agit d'une plateforme d'analyse de big data basée sur Apache Spark, rapide, facile et collaborative, pour la science et l'ingénierie des données dans le cloud.

Dans Optimizing Databricks Workloads, vous commencerez par une brève introduction à Azure Databricks et commencerez rapidement à comprendre les techniques d'optimisation importantes. Le livre explique comment sélectionner la configuration optimale du cluster Spark pour exécuter le traitement des big data et les charges de travail dans Databricks, quelques techniques d'optimisation très utiles pour Spark DataFrames, les meilleures pratiques pour optimiser Delta Lake, et les techniques pour optimiser les jobs Spark à travers Spark core. Il offre l'opportunité de découvrir certains scénarios du monde réel dans lesquels l'optimisation des charges de travail dans Databricks a aidé les organisations à augmenter les performances et à réduire les coûts dans divers domaines.

A la fin de ce livre, vous serez préparé avec les outils nécessaires pour accélérer vos travaux Spark et traiter vos données plus efficacement.

Ce que vous apprendrez :

⬤ Prise en main des fondamentaux de Spark et de la plateforme Databricks.

⬤ Traiter les big data en utilisant l'API Spark DataFrame avec Delta Lake.

⬤ Analyser les données en utilisant le traitement des graphes dans Databricks.

⬤ Utiliser MLflow pour gérer les cycles de vie de l'apprentissage automatique dans Databricks.

⬤ Découvrez comment choisir la bonne configuration de cluster pour vos charges de travail.

⬤ Explorer les méthodes de compactage de fichiers et de clustering pour optimiser les tables Delta.

⬤ Découvrez des techniques d'optimisation avancées pour accélérer les travaux Spark.

A qui s'adresse ce livre :

Ce livre s'adresse aux ingénieurs de données, aux data scientists et aux architectes cloud qui ont une connaissance pratique de Spark/Databricks et une compréhension de base des principes de l'ingénierie des données. Les lecteurs devront avoir une connaissance pratique de Python, et une certaine expérience de SQL dans PySpark et Spark SQL est bénéfique.

Autres informations sur le livre :

ISBN :9781801819077
Auteur :
Éditeur :
Langue :anglais
Reliure :Broché

Achat:

Actuellement disponible, en stock.

Je l'achète!

Autres livres de l'auteur :

L'asile dangereux : histoires de partition et de folie - The Unsafe Asylum: Stories of Partition and...
"C'est encore l'heure de la partition ? a...
L'asile dangereux : histoires de partition et de folie - The Unsafe Asylum: Stories of Partition and Madness
Optimisation des charges de travail Databricks : Exploiter la puissance d'Apache Spark dans Azure et...
Accélérer les calculs et tirer le meilleur parti...
Optimisation des charges de travail Databricks : Exploiter la puissance d'Apache Spark dans Azure et maximiser les performances des charges de travail big data modernes. - Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Les œuvres de l'auteur ont été publiées par les éditeurs suivants :

© Book1 Group - tous droits réservés.
Le contenu de ce site ne peut être copié ou utilisé, en tout ou en partie, sans l'autorisation écrite du propriétaire.
Dernière modification: 2024.11.14 07:32 (GMT)