Dominio de grandes conjuntos de datos con Python: Guía completa sobre paralelismo y escalabilidad

Dominio de grandes conjuntos de datos con Python: Paralelice y distribuya su código Python (T. Wolohan John)

Opiniones de los lectores

Resumen:

El libro es elogiado por su capacidad para conectar temas complejos en Python y aplicaciones del mundo real, por lo que es beneficioso para los estudiantes que buscan mejorar sus habilidades. Sin embargo, también ha sido criticado por su falta de profundidad, redundancia y por no cubrir herramientas esenciales como Hadoop y Spark.

Ventajas:

Útil para unir temas complejos, proporciona problemas del mundo real, beneficioso para las habilidades del mercado laboral, bueno para ampliar los conocimientos fundamentales.

Desventajas:

Repetitivo y escaso en información, carece de profundidad en ciertas áreas, omisiones en herramientas esenciales, algunos ejemplos de codificación son pobres o sin sentido.

(basado en 3 opiniones de lectores)

Título original:

Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Contenido del libro:

Resumen.

Las soluciones modernas de ciencia de datos deben ser limpias, fáciles de leer y escalables. En Mastering Large Datasets with Python, el autor J. T. Wolohan le enseña cómo tomar un proyecto pequeño y escalarlo utilizando un enfoque funcionalmente influenciado de la codificación en Python. Explorará métodos y herramientas integradas de Python que se prestan a la claridad y la escalabilidad, como el método de paralelismo de alto rendimiento, así como tecnologías distribuidas que permiten un alto rendimiento de los datos. Los abundantes ejercicios prácticos de este práctico tutorial fijarán estas habilidades esenciales para cualquier proyecto de ciencia de datos a gran escala.

La compra del libro impreso incluye un libro electrónico gratuito en formatos PDF, Kindle y ePub de Manning Publications.

Acerca de la tecnología.

Las técnicas de programación que funcionan bien con datos del tamaño de un portátil pueden ralentizarse -o fallar por completo- cuando se aplican a archivos masivos o conjuntos de datos distribuidos. Si domina el potente paradigma map and reduce, junto con las herramientas basadas en Python que lo soportan, podrá escribir aplicaciones centradas en datos que se escalen de forma eficiente sin necesidad de reescribir el código base a medida que cambien sus requisitos.

Acerca del libro.

Mastering Large Datasets with Python le enseña a escribir código que puede manejar conjuntos de datos de cualquier tamaño. Empezarás con conjuntos de datos del tamaño de un portátil que te enseñarán a paralelizar el análisis de datos dividiendo las tareas grandes en otras más pequeñas que puedan ejecutarse simultáneamente. A continuación, escalará esos mismos programas a conjuntos de datos de tamaño industrial en un clúster de servidores en la nube. Con el paradigma de mapeo y reducción firmemente establecido, explorará herramientas como Hadoop y PySpark para procesar de manera eficiente conjuntos de datos distribuidos masivos, acelerar la toma de decisiones con aprendizaje automático y simplificar el almacenamiento de datos con AWS S3.

Contenido.

⬤ Una introducción al paradigma map and reduce.

⬤ Paralelización con el módulo de multiprocesamiento y el framework pathos.

⬤ Hadoop y Spark para computación distribuida.

⬤ Ejecución de trabajos de AWS para procesar grandes conjuntos de datos.

Sobre el lector.

Para programadores de Python que necesitan trabajar más rápido con más datos.

Sobre el autor.

J. T. Wolohan es científico de datos principal en Booz Allen Hamilton e investigador de doctorado en la Universidad de Indiana, Bloomington.

Tabla de contenidos:

PARTE 1. INTRODUCCIÓN.

1 ) Introducción.

2 ) Aceleración del trabajo con grandes conjuntos de datos: Map and parallel computing.

3 ) Canalizaciones de funciones para mapear transformaciones complejas.

4 ) Procesamiento de grandes conjuntos de datos con flujos de trabajo perezosos.

5 ) Operaciones de acumulación con reduce.

6 ) Aceleración de map y reduce con paralelización avanzada.

PARTE 2.

7 ) Procesamiento de grandes conjuntos de datos con Hadoop y Spark.

8 ) Mejores prácticas para grandes datos con Apache Streaming y mrjob.

9 ) PageRank con map and reduce en PySpark.

10 ) Toma de decisiones más rápida con machine learning y PySpark.

PARTE 3.

11 ) Grandes conjuntos de datos en la nube con Amazon Web Services y S3.

12 ) MapReduce en la nube con Elastic MapReduce de Amazon.

Otros datos del libro:

ISBN:	9781617296239
Autor:	T. Wolohan John
Editorial:	Manning Pubn
Encuadernación:	Tapa blanda
Año de publicación:	2020
Número de páginas:	312

Compra:

Actualmente disponible, en stock.

Dominio de grandes conjuntos de datos con Python: Paralelice y distribuya su código Python

Opiniones de los lectores

Título original:

Contenido del libro:

Otros datos del libro:

Compra:

Otros libros del autor:

Las obras del autor han sido publicadas por las siguientes editoriales: