Obtenir des données structurées à partir d'Internet : Exécuter des crawlers/scrapers Web à l'échelle de production de Big Data

Note :   (3,8 sur 5)

Obtenir des données structurées à partir d'Internet : Exécuter des crawlers/scrapers Web à l'échelle de production de Big Data (M. Patel Jay)

Avis des lecteurs

Résumé:

Le livre est généralement bien accueilli en tant que ressource permettant de comprendre l'exploration et le grattage du web, en particulier pour les débutants. Cependant, certains utilisateurs estiment que son applicabilité pratique est limitée en raison de l'accent mis sur les sites d'exemple, sans conseils approfondis sur le débogage ou la résolution de problèmes réels.

Avantages:

Il s'agit d'une excellente ressource pour comprendre l'exploration du Web à grande échelle, en particulier en utilisant AWS et les données d'exploration courantes. L'auteur inclut un guide étape par étape avec des exemples adaptés aux débutants. De nombreux utilisateurs considèrent qu'il s'agit d'une excellente ressource pour le web scraping.

Inconvénients:

L'utilité des informations est quelque peu limitée, car le code fonctionne principalement sur des exemples de sites fournis dans le livre. Il y a peu de discussion sur le débogage ou l'application des concepts à des scénarios réels, ce que certains utilisateurs ont trouvé décevant.

(basé sur 4 avis de lecteurs)

Titre original :

Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale

Contenu du livre :

Utilisez le web scraping à grande échelle pour obtenir rapidement des quantités illimitées de données gratuites disponibles sur le web dans un format structuré. Ce livre vous apprend à utiliser des scripts Python pour parcourir des sites web à grande échelle et récupérer des données à partir de pages HTML et JavaScript et les convertir dans des formats de données structurés tels que CSV, Excel, JSON, ou les charger dans une base de données SQL de votre choix.

Ce livre va au-delà des bases du web scraping et couvre des sujets avancés tels que le traitement du langage naturel (NLP) et l'analyse de texte pour extraire des noms de personnes, des lieux, des adresses e-mail, des coordonnées, etc., à partir d'une page à l'échelle de production en utilisant des techniques distribuées de big data sur une infrastructure cloud basée sur Amazon Web Services (AWS). Ce livre couvre le développement d'un pipeline robuste de traitement et d'ingestion de données sur le corpus Common Crawl, contenant des pétaoctets de données disponibles publiquement et un ensemble de données de crawl web disponibles sur le registre de données ouvertes d'AWS.

Getting Structured Data from the Internet comprend également un tutoriel étape par étape sur le déploiement de vos propres crawlers à l'aide d'un framework de web scraping de production (tel que Scrapy) et sur le traitement de problèmes réels (tels que la rupture de Captcha, la rotation d'IP de proxy, et plus encore). Le code utilisé dans le livre est fourni pour vous aider à comprendre les concepts en pratique et à écrire votre propre crawler web pour alimenter vos idées commerciales.

Ce que vous apprendrez

⬤ Comprendre le web scraping, ses applications/utilisations, et comment éviter le web scraping en utilisant des points d'extrémité d'API de repos disponibles publiquement pour obtenir directement des données.

⬤ Développer un scraper web et un crawler à partir de zéro en utilisant lxml et la bibliothèque BeautifulSoup, et apprendre le scraping à partir de pages JavaScript en utilisant Selenium.

⬤ Utiliser le cloud computing basé sur AWS avec EC2, S3, Athena, SQS et SNS pour analyser, extraire et stocker des informations utiles à partir des pages explorées.

⬤ Utiliser le langage SQL sur PostgreSQL fonctionnant sur Amazon Relational Database Service (RDS) et SQLite en utilisant SQLalchemy.

⬤ Examiner sci-kit learn, Gensim et spaCy pour effectuer des tâches NLP sur des pages web scrapées telles que la reconnaissance de noms et d'entités, le regroupement de sujets (Kmeans, Agglomerative Clustering), la modélisation de sujets (LDA, NMF, LSI), la classification de sujets (Naive Bayes, Gradient Boosting Classifier) et la similarité de textes (distance cosinus-plus proches voisins).

⬤ Manipuler les formats de fichiers d'archives web et explorer les données ouvertes de Common Crawl sur AWS.

⬤ Illustrer les applications pratiques des données de crawl web en construisant un outil de site web similaire et un profileur de technologie similaire à builtwith.com.

⬤ Écrire des scripts pour créer une base de données de backlinks à l'échelle du web similaire à Ahrefs.com, Moz.com, Majestic.com, etc., pour l'optimisation des moteurs de recherche (SEO), la recherche de concurrents et la détermination de l'autorité de domaine et du classement du site web.

⬤ Utiliser les données d'exploration du web pour construire un système d'analyse du sentiment d'actualité ou une analyse financière alternative couvrant les signaux de négociation du marché boursier.

⬤ Les données d'exploration du web sont utilisées pour construire un système d'analyse du sentiment de l'actualité ou une analyse financière alternative couvrant les signaux de trading du marché boursier.

A qui s'adresse ce livre

Public primaire : analystes de données et scientifiques peu ou pas exposés aux défis du traitement des données dans le monde réel, secondaire : développeurs de logiciels expérimentés effectuant des traitements de données sur le web qui ont besoin d'une introduction, tertiaire : propriétaires d'entreprises et fondateurs de startups qui ont besoin d'en savoir plus sur la mise en œuvre afin de mieux diriger leur équipe technique.

Autres informations sur le livre :

ISBN :9781484265758
Auteur :
Éditeur :
Reliure :Broché

Achat:

Actuellement disponible, en stock.

Je l'achète!

Autres livres de l'auteur :

Obtenir des données structurées à partir d'Internet : Exécuter des crawlers/scrapers Web à l'échelle...
Utilisez le web scraping à grande échelle pour...
Obtenir des données structurées à partir d'Internet : Exécuter des crawlers/scrapers Web à l'échelle de production de Big Data - Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale

Les œuvres de l'auteur ont été publiées par les éditeurs suivants :

© Book1 Group - tous droits réservés.
Le contenu de ce site ne peut être copié ou utilisé, en tout ou en partie, sans l'autorisation écrite du propriétaire.
Dernière modification: 2024.11.14 07:32 (GMT)