Maîtriser les grands ensembles de données avec Python : Paralléliser et distribuer votre code Python

Note :   (3,9 sur 5)

Maîtriser les grands ensembles de données avec Python : Paralléliser et distribuer votre code Python (T. Wolohan John)

Avis des lecteurs

Résumé:

Le livre est loué pour sa capacité à relier des sujets complexes en Python et des applications du monde réel, ce qui le rend bénéfique pour les apprenants qui cherchent à améliorer leurs compétences. Cependant, il a également été critiqué pour son manque de profondeur, sa redondance et son incapacité à couvrir des outils essentiels tels que Hadoop et Spark.

Avantages:

Aide à relier des sujets complexes, fournit des problèmes du monde réel, bénéfique pour les compétences sur le marché de l'emploi, bon pour élargir les connaissances fondamentales.

Inconvénients:

Répétitif et pauvre en informations, manque de profondeur dans certains domaines, omission d'outils essentiels, certains exemples de codage sont médiocres ou absurdes.

(basé sur 3 avis de lecteurs)

Titre original :

Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Contenu du livre :

Résumé.

Les solutions modernes de science des données doivent être propres, faciles à lire et évolutives. Dans Mastering Large Datasets with Python, l'auteur J. T. Wolohan vous apprend à prendre un petit projet et à le faire évoluer en utilisant une approche du codage Python influencée par les fonctions. Vous explorerez les méthodes et les outils Python intégrés qui se prêtent à la clarté et à l'évolutivité, comme la méthode de parallélisme très performante, ainsi que les technologies distribuées qui permettent un débit de données élevé. Les nombreux exercices pratiques de ce tutoriel vous permettront d'acquérir ces compétences essentielles pour tout projet de science des données à grande échelle.

L'achat du livre imprimé inclut un livre électronique gratuit aux formats PDF, Kindle et ePub de Manning Publications.

À propos de la technologie.

Les techniques de programmation qui fonctionnent bien sur des données de la taille d'un ordinateur portable peuvent être ralenties, voire échouer, lorsqu'elles sont appliquées à des fichiers massifs ou à des ensembles de données distribuées. En maîtrisant le puissant paradigme map and reduce, ainsi que les outils basés sur Python qui le supportent, vous pouvez écrire des applications centrées sur les données qui évoluent efficacement sans nécessiter de réécriture de la base de code au fur et à mesure que vos besoins changent.

À propos du livre.

Maîtriser les grands ensembles de données avec Python vous apprend à écrire du code capable de gérer des ensembles de données de toute taille. Vous commencerez par des ensembles de données de la taille d'un ordinateur portable qui vous apprendront à paralléliser l'analyse des données en divisant les tâches importantes en tâches plus petites qui peuvent être exécutées simultanément. Vous adapterez ensuite ces mêmes programmes à des ensembles de données de taille industrielle sur une grappe de serveurs en nuage. Avec le paradigme map and reduce fermement en place, vous explorerez des outils comme Hadoop et PySpark pour traiter efficacement des ensembles massifs de données distribuées, accélérer la prise de décision avec l'apprentissage automatique et simplifier le stockage de vos données avec AWS S3.

Ce qu'il y a à l'intérieur.

⬤ Une introduction au paradigme map and reduce.

⬤ La parallélisation avec le module multiprocessing et le framework pathos.

⬤ Hadoop et Spark pour le calcul distribué.

⬤ L'exécution de jobs AWS pour traiter de grands ensembles de données.

A propos du lecteur.

Pour les programmeurs Python qui ont besoin de travailler plus rapidement avec plus de données.

A propos de l'auteur.

J. T. Wolohan est data scientist principal chez Booz Allen Hamilton et chercheur doctorant à l'Université de l'Indiana, Bloomington.

Table des matières :

PARTIE 1.

1 ) Introduction.

2 ) Accélérer le travail sur les grands ensembles de données : Calcul matriciel et parallèle.

3 ) Pipelines de fonctions pour la mise en correspondance de transformations complexes.

4 ) Traitement de grands ensembles de données avec des flux de travail paresseux.

5 ) Opérations d'accumulation avec reduce.

6 ) Accélérer map et reduce avec la parallélisation avancée.

PARTIE 2.

7 ) Traitement de très grands ensembles de données avec Hadoop et Spark.

8 ) Meilleures pratiques pour les données volumineuses avec Apache Streaming et mrjob.

9 ) PageRank avec map and reduce dans PySpark.

10 ) Une prise de décision plus rapide avec l'apprentissage automatique et PySpark.

PARTIE 3.

11 ) Les grands ensembles de données dans le nuage avec Amazon Web Services et S3.

12 ) MapReduce dans le nuage avec Elastic MapReduce d'Amazon.

Autres informations sur le livre :

ISBN :9781617296239
Auteur :
Éditeur :
Reliure :Broché
Année de publication :2020
Nombre de pages :312

Achat:

Actuellement disponible, en stock.

Je l'achète!

Autres livres de l'auteur :

Maîtriser les grands ensembles de données avec Python : Paralléliser et distribuer votre code Python...
Résumé.Les solutions modernes de science des...
Maîtriser les grands ensembles de données avec Python : Paralléliser et distribuer votre code Python - Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Les œuvres de l'auteur ont été publiées par les éditeurs suivants :

© Book1 Group - tous droits réservés.
Le contenu de ce site ne peut être copié ou utilisé, en tout ou en partie, sans l'autorisation écrite du propriétaire.
Dernière modification: 2024.11.14 07:32 (GMT)