Spark de alto rendimiento: Las mejores prácticas para optimizar Apache Spark

Spark de alto rendimiento: Las mejores prácticas para escalar y optimizar Apache Spark (Holden Karau)

Opiniones de los lectores

Resumen:

El libro 'High Performance Spark' ofrece una exploración detallada de la escritura de código Spark eficiente, adecuado para profesionales con conocimientos previos de Scala y Spark. Se centra en la optimización del rendimiento y proporciona ejemplos de código exhaustivos, principalmente en Scala. Mientras que algunos usuarios encontraron que era un recurso bien estructurado e informativo, otros criticaron su accesibilidad para los principiantes y la fuerte dependencia de Scala.

Ventajas:

⬤ Guía completa para escribir código Spark de alto rendimiento.
⬤ Explicaciones detalladas de conceptos avanzados y técnicas de optimización.
⬤ Bien estructurado con un buen equilibrio entre teoría y aplicaciones prácticas.
⬤ Rico en ejemplos de código que mejoran la comprensión, especialmente para aquellos familiarizados con Scala.
⬤ Presentación clara, simplicidad y diagramas útiles.

Desventajas:

⬤ No apto para principiantes; requiere conocimientos previos de Spark y Scala.
⬤ El fuerte enfoque en Scala puede alejar a los usuarios no familiarizados con el lenguaje.
⬤ Algunos usuarios lo consideraron demasiado denso y desafiante sin un entorno Spark práctico.
⬤ Cobertura limitada de ciertos temas, como Spark streaming.
⬤ Algunos lo encontraron tedioso debido a los excesivos ejemplos de codificación.

(basado en 27 opiniones de lectores)

Título original:

High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark

Contenido del libro:

Apache Spark es increíble cuando todo encaja. Pero si no ha visto las mejoras de rendimiento que esperaba, o todavía no se siente lo suficientemente seguro como para utilizar Spark en producción, este libro práctico es para usted. Los autores Holden Karau y Rachel Warren demuestran optimizaciones de rendimiento para ayudar a que sus consultas Spark se ejecuten más rápido y manejen datos de mayor tamaño, a la vez que utilizan menos recursos.

Ideal para ingenieros de software, ingenieros de datos, desarrolladores y administradores de sistemas que trabajan con aplicaciones de datos a gran escala, este libro describe técnicas que pueden reducir los costes de infraestructura de datos y las horas de trabajo de los desarrolladores. No sólo obtendrá una comprensión más completa de Spark, sino que también aprenderá a hacerlo cantar.

Con este libro, explorará:

⬤ Cómo las nuevas interfaces de Spark SQL mejoran el rendimiento con respecto a la estructura de datos RDD de SQL.

⬤ La elección entre uniones de datos en Core Spark y Spark SQL.

⬤ Técnicas para aprovechar al máximo las transformaciones RDD estándar.

⬤ Cómo solucionar los problemas de rendimiento en el paradigma de pares clave/valor de Spark.

⬤ Escribir código Spark de alto rendimiento sin Scala o la JVM.

⬤ Cómo probar la funcionalidad y el rendimiento al aplicar las mejoras sugeridas.

⬤ Utilizar las librerías de aprendizaje automático Spark MLlib y Spark ML.

⬤ Componentes de Streaming de Spark y paquetes externos de la comunidad.

Otros datos del libro:

ISBN:	9781491943205
Autor:	Holden Karau
Editorial:	Oreilly Media
Encuadernación:	Tapa blanda
Año de publicación:	2017
Número de páginas:	358

Compra:

Actualmente disponible, en stock.

Spark de alto rendimiento: Las mejores prácticas para escalar y optimizar Apache Spark

Opiniones de los lectores

Título original:

Contenido del libro:

Otros datos del libro:

Compra:

Otros libros del autor:

Las obras del autor han sido publicadas por las siguientes editoriales: