Optimización de las cargas de trabajo de Databricks: Aprovecha la potencia de Apache Spark en Azure y maximiza el rendimiento de las cargas de trabajo de big data modernas

Puntuación:   (4,1 de 5)

Optimización de las cargas de trabajo de Databricks: Aprovecha la potencia de Apache Spark en Azure y maximiza el rendimiento de las cargas de trabajo de big data modernas (Anirudh Kala)

Opiniones de los lectores

Resumen:

En general, el libro ha sido bien recibido entre los usuarios de Databricks, sobre todo por sus explicaciones claras y sus ideas prácticas sobre la optimización de las canalizaciones de datos. Si bien se recomienda tanto para principiantes como para usuarios intermedios, algunos críticos señalaron que carece de profundidad en ciertas áreas, especialmente en temas de optimización, y puede parecer superficial para los usuarios más experimentados. A pesar de ello, se considera un recurso valioso con ejemplos prácticos de código y escenarios del mundo real.

Ventajas:

Estilo de redacción claro y preciso.
Excelente recurso para principiantes y usuarios intermedios.
Perspectivas útiles sobre el escalado de canalizaciones de datos y técnicas de optimización.
Cubre una amplia gama de temas, incluyendo MLFlow, Delta Lake y streaming estructurado.
Contiene ejemplos prácticos y muestras de código que están disponibles en GitHub.
Incluye escenarios del mundo real y casos de estudio.

Desventajas:

Algunos críticos opinan que la primera sección es básica y apresurada.
Carece de profundidad en ciertos temas de optimización, lo que puede ser decepcionante para usuarios avanzados.
El último capítulo sobre escenarios reales es demasiado breve.
Algunos lectores consideran que el libro es superficial y sugieren un título engañoso.

(basado en 10 opiniones de lectores)

Título original:

Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Contenido del libro:

Acelere los cálculos y saque el máximo partido a sus datos de forma eficaz y eficiente en Databricks.

Características principales:

⬤ Entender las optimizaciones de Spark para cargas de trabajo de big data y maximizar el rendimiento.

⬤ Construir pipelines de ingeniería de big data eficientes con Databricks y Delta Lake.

⬤ Gestionar eficientemente los clústeres de Spark para el procesamiento de big data.

Descripción del libro:

Databricks es una plataforma líder en la industria, basada en la nube para el análisis de datos, la ciencia de datos y la ingeniería de datos que apoya a miles de organizaciones en todo el mundo en su viaje de datos. Es una plataforma de análisis de big data basada en Apache Spark, rápida, fácil y colaborativa para la ciencia y la ingeniería de datos en la nube.

En Optimizing Databricks Workloads, comenzará con una breve introducción a Azure Databricks y empezará a comprender rápidamente las técnicas de optimización importantes. El libro cubre cómo seleccionar la configuración óptima del clúster Spark para ejecutar cargas de trabajo y procesamiento de big data en Databricks, algunas técnicas de optimización muy útiles para Spark DataFrames, las mejores prácticas para optimizar Delta Lake y técnicas para optimizar los trabajos de Spark a través del núcleo de Spark. Contiene una oportunidad para aprender sobre algunos de los escenarios del mundo real donde la optimización de las cargas de trabajo en Databricks ha ayudado a las organizaciones a aumentar el rendimiento y ahorrar costes en varios dominios.

Al final de este libro, usted estará preparado con el conjunto de herramientas necesarias para acelerar sus trabajos Spark y procesar sus datos de manera más eficiente.

Lo que aprenderá:

⬤ Conocer los fundamentos de Spark y la plataforma Databricks.

⬤ Procesar big data utilizando la API Spark DataFrame con Delta Lake.

⬤ Analizar datos utilizando el procesamiento de gráficos en Databricks.

⬤ Utilizar MLflow para gestionar los ciclos de vida del aprendizaje automático en Databricks.

⬤ Descubra cómo elegir la configuración de clúster adecuada para sus cargas de trabajo.

⬤ Explorar métodos de compactación de archivos y clustering para ajustar tablas Delta.

⬤ Descubre técnicas avanzadas de optimización para acelerar los trabajos de Spark.

Para quién es este libro:

Este libro está dirigido a ingenieros de datos, científicos de datos y arquitectos de la nube que tengan conocimientos prácticos de Spark/Databricks y alguna comprensión básica de los principios de ingeniería de datos. Los lectores tendrán que tener un conocimiento práctico de Python, y algo de experiencia de SQL en PySpark y Spark SQL es beneficioso.

Otros datos del libro:

ISBN:9781801819077
Autor:
Editorial:
Idioma:inglés
Encuadernación:Tapa blanda

Compra:

Actualmente disponible, en stock.

¡Lo compro!

Otros libros del autor:

El manicomio inseguro: Historias de partición y locura - The Unsafe Asylum: Stories of Partition and...
"¿Es la hora de la partición otra vez? Ma...
El manicomio inseguro: Historias de partición y locura - The Unsafe Asylum: Stories of Partition and Madness
Optimización de las cargas de trabajo de Databricks: Aprovecha la potencia de Apache Spark en Azure...
Acelere los cálculos y saque el máximo partido a...
Optimización de las cargas de trabajo de Databricks: Aprovecha la potencia de Apache Spark en Azure y maximiza el rendimiento de las cargas de trabajo de big data modernas - Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Las obras del autor han sido publicadas por las siguientes editoriales:

© Book1 Group - todos los derechos reservados.
El contenido de este sitio no se puede copiar o usar, ni en parte ni en su totalidad, sin el permiso escrito del propietario.
Última modificación: 2024.11.14 07:32 (GMT)