Dominio de grandes conjuntos de datos con Python: Paralelice y distribuya su código Python

Dominio de grandes conjuntos de datos con Python: Paralelice y distribuya su código Python (T. Wolohan John)

Título original:

Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Contenido del libro:

Resumen.

Las soluciones modernas de ciencia de datos deben ser limpias, fáciles de leer y escalables. En Mastering Large Datasets with Python, el autor J. T. Wolohan le enseña cómo tomar un proyecto pequeño y escalarlo utilizando un enfoque funcionalmente influenciado de la codificación en Python. Explorará métodos y herramientas integradas de Python que se prestan a la claridad y la escalabilidad, como el método de paralelismo de alto rendimiento, así como tecnologías distribuidas que permiten un alto rendimiento de los datos. Los abundantes ejercicios prácticos de este práctico tutorial fijarán estas habilidades esenciales para cualquier proyecto de ciencia de datos a gran escala.

La compra del libro impreso incluye un libro electrónico gratuito en formatos PDF, Kindle y ePub de Manning Publications.

Acerca de la tecnología.

Las técnicas de programación que funcionan bien con datos del tamaño de un portátil pueden ralentizarse -o fallar por completo- cuando se aplican a archivos masivos o conjuntos de datos distribuidos. Si domina el potente paradigma map and reduce, junto con las herramientas basadas en Python que lo soportan, podrá escribir aplicaciones centradas en datos que se escalen de forma eficiente sin necesidad de reescribir el código base a medida que cambien sus requisitos.

Acerca del libro.

Mastering Large Datasets with Python le enseña a escribir código que puede manejar conjuntos de datos de cualquier tamaño. Empezarás con conjuntos de datos del tamaño de un portátil que te enseñarán a paralelizar el análisis de datos dividiendo las tareas grandes en otras más pequeñas que puedan ejecutarse simultáneamente. A continuación, escalará esos mismos programas a conjuntos de datos de tamaño industrial en un clúster de servidores en la nube. Con el paradigma de mapeo y reducción firmemente establecido, explorará herramientas como Hadoop y PySpark para procesar de manera eficiente conjuntos de datos distribuidos masivos, acelerar la toma de decisiones con aprendizaje automático y simplificar el almacenamiento de datos con AWS S3.

Contenido.

⬤ Una introducción al paradigma map and reduce.

⬤ Paralelización con el módulo de multiprocesamiento y el framework pathos.

⬤ Hadoop y Spark para computación distribuida.

⬤ Ejecución de trabajos de AWS para procesar grandes conjuntos de datos.

Sobre el lector.

Para programadores de Python que necesitan trabajar más rápido con más datos.

Sobre el autor.

J. T. Wolohan es científico de datos principal en Booz Allen Hamilton e investigador de doctorado en la Universidad de Indiana, Bloomington.

Tabla de contenidos:

PARTE 1. INTRODUCCIÓN.

1 ) Introducción.

2 ) Aceleración del trabajo con grandes conjuntos de datos: Map and parallel computing.

3 ) Canalizaciones de funciones para mapear transformaciones complejas.

4 ) Procesamiento de grandes conjuntos de datos con flujos de trabajo perezosos.

5 ) Operaciones de acumulación con reduce.

6 ) Aceleración de map y reduce con paralelización avanzada.

PARTE 2.

7 ) Procesamiento de grandes conjuntos de datos con Hadoop y Spark.

8 ) Mejores prácticas para grandes datos con Apache Streaming y mrjob.

9 ) PageRank con map and reduce en PySpark.

10 ) Toma de decisiones más rápida con machine learning y PySpark.

PARTE 3.

11 ) Grandes conjuntos de datos en la nube con Amazon Web Services y S3.

12 ) MapReduce en la nube con Elastic MapReduce de Amazon.

Otros datos del libro:

ISBN:9781617296239
Autor:
Editorial:
Encuadernación:Tapa blanda
Año de publicación:2020
Número de páginas:312

Compra:

Actualmente disponible, en stock.

¡Lo compro!

Otros libros del autor:

Dominio de grandes conjuntos de datos con Python: Paralelice y distribuya su código Python -...
Resumen.Las soluciones modernas de ciencia de...
Dominio de grandes conjuntos de datos con Python: Paralelice y distribuya su código Python - Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Las obras del autor han sido publicadas por las siguientes editoriales:

© Book1 Group - todos los derechos reservados.
El contenido de este sitio no se puede copiar o usar, ni en parte ni en su totalidad, sin el permiso escrito del propietario.
Última modificación: 2024.10.17 08:50 (GMT+2)