Apprendre Spark : L'analyse de données à la vitesse de l'éclair

Avis des lecteurs

Résumé:

Ce livre est une ressource complète pour l'apprentissage d'Apache Spark, offrant des aperçus théoriques et pratiques détaillés. Il est bien organisé, se concentre sur les différents composants de Spark et inclut des visuels et des exemples de code utiles. Cependant, il peut être trop basique pour les utilisateurs expérimentés et nécessite des connaissances préalables en programmation.

Avantages:

⬤ Couvre les aspects théoriques et pratiques de Spark en profondeur
⬤ bien organisé et facile à suivre
⬤ fournit des instructions claires, des visuels utiles et des exemples de code
⬤ fournit une bonne introduction à Spark
⬤ inclut des chapitres sur Delta Lake et MLlib
⬤ convient à la fois aux débutants et aux utilisateurs plus expérimentés à la recherche d'une remise à niveau.

Inconvénients:

⬤ Certains sujets peuvent être couverts de manière trop superficielle
⬤ nécessite une compréhension de base à intermédiaire de la programmation et de l'analyse de données
⬤ n'est pas idéal pour les utilisateurs ayant une expérience préalable de Spark
⬤ l'installation peut être difficile, en particulier pour les utilisateurs de Mac et de Windows
⬤ peut ne pas convenir aux novices complets en matière de technologie.

(basé sur 33 avis de lecteurs)

Titre original :

Learning Spark: Lightning-Fast Data Analytics

Contenu du livre :

Les données sont plus volumineuses, arrivent plus rapidement et se présentent sous différents formats. Elles doivent toutes être traitées à grande échelle à des fins d'analyse ou d'apprentissage automatique. Mais comment traiter efficacement des charges de travail aussi variées ? C'est là qu'intervient Apache Spark.

Mise à jour pour inclure Spark 3. 0, cette deuxième édition montre aux ingénieurs et aux scientifiques des données pourquoi la structure et l'unification dans Spark sont importantes. Plus précisément, ce livre explique comment effectuer des analyses de données simples et complexes et utiliser des algorithmes d'apprentissage automatique. Grâce à des démonstrations pas à pas, des extraits de code et des carnets de notes, vous serez en mesure de :

⬤ Apprendre les API structurées de haut niveau de Python, SQL, Scala ou Java.

⬤ Comprendre les opérations Spark et le moteur SQL.

⬤ Inspecter, régler et déboguer les opérations Spark à l'aide des configurations Spark et de l'interface utilisateur Spark.

⬤ Se connecter à des sources de données : JSON, Parquet, CSV, Avro, ORC, Hive, S3, ou Kafka.

⬤ Effectuer des analyses sur des données en batch et en streaming à l'aide de Structured Streaming.

⬤ Construire des pipelines de données fiables avec les logiciels libres Delta Lake et Spark.

⬤ Développer des pipelines d'apprentissage automatique avec MLlib et produire des modèles avec MLflow.

Autres informations sur le livre :

ISBN :	9781492050049
Auteur :	S. Damji Jules
Éditeur :	Oreilly Media
Reliure :	Broché
Année de publication :	2020
Nombre de pages :	300

Achat:

Actuellement disponible, en stock.

Avis des lecteurs

Titre original :

Contenu du livre :

Autres informations sur le livre :

Achat:

Autres livres de l'auteur :

Les œuvres de l'auteur ont été publiées par les éditeurs suivants :