Ingeniería de datos con Python - Canalizaciones y modelos de datos maestros

Ingeniería de datos con Python: Trabaje con conjuntos de datos masivos para diseñar modelos de datos y automatizar canalizaciones de datos utilizando Python (Paul Crickard)

Opiniones de los lectores

Resumen:

El libro 'Data Engineering With Python' es una mezcla de pros y contras según los comentarios de los usuarios. Aunque ofrece una sólida introducción a los conceptos clave de la ingeniería de datos y se considera de fácil lectura con ejemplos prácticos, adolece de importantes problemas relacionados con la precisión técnica y la actualización del contenido. Varios lectores consideran que el hecho de centrarse en determinadas herramientas, en particular NiFi, resulta engañoso dado el título del libro, y muchos afirman haber encontrado una plétora de errores y una edición deficiente que dificultan la aplicación práctica del material.

Ventajas:

⬤ Sólida introducción a los conceptos de ingeniería de datos y pipelining.
⬤ Ejemplos prácticos e ilustrativos, especialmente con herramientas como Pandas, Zookeeper, Kafka y Spark.
⬤ Útil para ingenieros de software en transición y para aquellos familiarizados con el análisis de datos.
⬤ Cobertura de una variedad de herramientas y conceptos en ingeniería de datos.
⬤ Fácil legibilidad.

Desventajas:

⬤ Numerosos errores y erratas a lo largo del libro, que conducen a la frustración.
⬤ El contenido obsoleto y las instrucciones de instalación afectan gravemente a la usabilidad.
⬤ Enfoque pesado en SQL con cobertura mínima de bases de datos NoSQL.
⬤ Lagunas en las instrucciones, sobre todo en la configuración de herramientas como NiFi.
⬤ Título engañoso, ya que hace hincapié en NiFi y no en el uso de Python.
⬤ Falta de claridad en los ejemplos y las referencias, lo que supone un reto para los principiantes.

(basado en 27 opiniones de lectores)

Título original:

Data Engineering with Python: Work with massive datasets to design data models and automate data pipelines using Python

Contenido del libro:

Construya, supervise y gestione canalizaciones de datos en tiempo real para crear infraestructuras de ingeniería de datos de forma eficiente utilizando proyectos Apache de código abierto.

Características principales:

⬤ Vuélvase versado en arquitecturas de datos, preparación de datos y habilidades de optimización de datos con la ayuda de ejemplos prácticos.

⬤ Diseñar modelos de datos y aprender a extraer, transformar y cargar (ETL) datos utilizando Python.

⬤ Programar, automatizar y monitorizar pipelines de datos complejos en producción.

Descripción del libro

La ingeniería de datos proporciona la base para la ciencia de datos y la analítica, y forma una parte importante de todas las empresas. Este libro le ayudará a explorar diversas herramientas y métodos que se utilizan para comprender el proceso de ingeniería de datos utilizando Python.

El libro le mostrará cómo abordar los retos a los que se enfrentan habitualmente los distintos aspectos de la ingeniería de datos. Comenzará con una introducción a los fundamentos de la ingeniería de datos, junto con las tecnologías y los marcos necesarios para construir canalizaciones de datos para trabajar con grandes conjuntos de datos. Aprenderá a transformar y limpiar datos y a realizar análisis para sacar el máximo partido de sus datos. A medida que avance, descubrirá cómo trabajar con big data de diversa complejidad y bases de datos de producción, y construir pipelines de datos. Utilizando ejemplos del mundo real, construirá arquitecturas sobre las que aprenderá a desplegar canalizaciones de datos.

Al final de este libro de Python, habrás adquirido una clara comprensión de las técnicas de modelado de datos, y serás capaz de construir con confianza pipelines de ingeniería de datos para el seguimiento de los datos, la ejecución de controles de calidad, y la realización de los cambios necesarios en la producción.

Lo que aprenderá

⬤ Comprender cómo la ingeniería de datos respalda los flujos de trabajo de la ciencia de datos.

⬤ Descubrir cómo extraer datos de archivos y bases de datos y luego limpiarlos, transformarlos y enriquecerlos.

⬤ Configurar procesadores para manejar diferentes formatos de archivo, así como bases de datos relacionales y NoSQL.

⬤ Descubra cómo implementar un canal de datos y un panel de control para visualizar los resultados.

⬤ Utilizar la puesta en escena y la validación para comprobar los datos antes de que lleguen al almacén.

⬤ Construir pipelines en tiempo real con áreas de staging que realicen la validación y gestionen los fallos.

⬤ Desplegar pipelines en el entorno de producción.

A quién va dirigido este libro

Este libro está dirigido a analistas de datos, desarrolladores ETL y a cualquier persona que desee iniciarse o realizar una transición al campo de la ingeniería de datos o refrescar sus conocimientos sobre ingeniería de datos utilizando Python. Este libro también será útil para estudiantes que planean construir una carrera en ingeniería de datos o profesionales de TI que se preparan para una transición. No se requieren conocimientos previos de ingeniería de datos.

Otros datos del libro:

ISBN:	9781839214189
Autor:	Paul Crickard
Editorial:	Packt Pub
Encuadernación:	Tapa blanda

Compra:

Actualmente disponible, en stock.

Ingeniería de datos con Python: Trabaje con conjuntos de datos masivos para diseñar modelos de datos y automatizar canalizaciones de datos utilizando Python

Opiniones de los lectores

Título original:

Contenido del libro:

Otros datos del libro:

Compra:

Otros libros del autor:

Las obras del autor han sido publicadas por las siguientes editoriales: