Limpieza de datos para una ciencia de datos eficaz: Cómo hacer el otro 80% del trabajo con Python, R y herramientas de línea de comandos

Puntuación:   (4,8 de 5)

Limpieza de datos para una ciencia de datos eficaz: Cómo hacer el otro 80% del trabajo con Python, R y herramientas de línea de comandos (David Mertz)

Opiniones de los lectores

Resumen:

El libro ha sido elogiado por su exhaustiva cobertura de las técnicas de limpieza de datos y la importancia de preparar los datos para el análisis en la ciencia de datos. Los lectores aprecian el atractivo estilo de redacción del autor, el Dr. Mertz, y el énfasis en el proceso de pensamiento que subyace a la manipulación de datos, en lugar del aprendizaje de memoria. Es un recurso valioso tanto para los recién llegados como para los profesionales experimentados en la ciencia de datos.

Ventajas:

Cobertura exhaustiva de las técnicas de limpieza y preparación de datos.
El estilo de redacción del autor es atractivo y claro.
Hace hincapié en el proceso de pensamiento detrás de la manipulación de datos en lugar de sólo la codificación.
Proporciona numerosos ejemplos de código en R, Python y herramientas de línea de comandos.
Útil para profesionales de todos los niveles, desde principiantes hasta expertos.
Orientaciones sobre el versionado de datos y la reproducibilidad de la manipulación de datos.
Ofrece información sobre diversos formatos de datos y cómo manejarlos.

Desventajas:

Algunos lectores consideraron que la organización de los temas era menos clara, ya que las técnicas se presentan a menudo dentro de historias de usuario en lugar de como recetas independientes.
El libro se centra más en los datos tabulares, con una cobertura insuficiente de la limpieza de datos de texto e imágenes.
Algunos lectores deseaban nombres de variables menos crípticos en los ejemplos de código proporcionados.
Las expectativas de un catálogo estructurado de recetas de limpieza de datos pueden llevar a la decepción.

(basado en 15 opiniones de lectores)

Título original:

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Contenido del libro:

Una guía completa para que los científicos de datos dominen herramientas y técnicas eficaces de limpieza de datos.

Características principales:

⬤ Dominar las técnicas de limpieza de datos de una manera agnóstica lenguaje.

⬤ Aprender de intrigantes ejemplos prácticos de numerosos dominios, tales como la biología, los datos meteorológicos, la demografía, la física, series de tiempo, y procesamiento de imágenes.

⬤ Trabaje con ejemplos de código detallados, comentados y bien probados en Python y R.

Descripción del libro

Es una obviedad en la ciencia de datos, el análisis de datos o el aprendizaje automático que la mayor parte del esfuerzo necesario para lograr su propósito real radica en la limpieza de sus datos. Escrito con el característico estilo amistoso y humorístico de David, este libro analiza en detalle los pasos esenciales que se llevan a cabo en toda canalización de ciencia de datos o análisis de datos en producción y le prepara para la visualización de datos y la modelización de resultados.

El libro se sumerge en la aplicación práctica de las herramientas y técnicas necesarias para la ingesta de datos, la detección de anomalías, la imputación de valores y la ingeniería de características. También ofrece ejercicios de larga duración al final de cada capítulo para practicar las habilidades adquiridas.

Comenzará examinando la ingesta de formatos de datos como JSON, CSV, SQL RDBMS, HDF5, bases de datos NoSQL, archivos en formatos de imagen y estructuras de datos serializados binarios. Además, el libro proporciona numerosos conjuntos de datos y archivos de datos de ejemplo, que están disponibles para su descarga y exploración independiente.

A partir de los formatos, se imputarán valores perdidos, se detectarán datos poco fiables y anomalías estadísticas, y se generarán características sintéticas necesarias para el éxito de los objetivos de análisis y visualización de datos.

Al final de este libro, habrá adquirido una firme comprensión del proceso de limpieza de datos necesario para realizar tareas de ciencia de datos y aprendizaje automático en el mundo real.

Lo que aprenderá:

⬤ Identificar datos problemáticos pertenecientes a puntos de datos individuales.

⬤ Detectar datos problemáticos en la "forma" sistemática de los datos.

⬤ Remediar problemas de integridad e higiene de datos.

⬤ Preparar datos para tareas analíticas y de aprendizaje automático.

⬤ Imputar valores en datos faltantes o poco fiables.

⬤ Generar características sintéticas que se adapten mejor a los objetivos de la ciencia de datos, el análisis de datos o la visualización.

A quién va dirigido este libro:

Este libro está diseñado para desarrolladores de software, científicos de datos, aspirantes a científicos de datos y estudiantes interesados en el análisis de datos o la computación científica.

Es útil estar familiarizado con la estadística, los conceptos generales del aprendizaje automático, el conocimiento de un lenguaje de programación (Python o R) y cierta exposición a la ciencia de datos. Un glosario, referencias y comentarios amistosos ayudarán a todos los lectores a ponerse al día.

El texto también será útil para los científicos de datos intermedios y avanzados que deseen mejorar su rigor en la higiene de datos y deseen un repaso de las cuestiones relacionadas con la preparación de datos.

Otros datos del libro:

ISBN:9781801071291
Autor:
Editorial:
Encuadernación:Tapa blanda

Compra:

Actualmente disponible, en stock.

¡Lo compro!

Otros libros del autor:

Limpieza de datos para una ciencia de datos eficaz: Cómo hacer el otro 80% del trabajo con Python, R...
Una guía completa para que los científicos de...
Limpieza de datos para una ciencia de datos eficaz: Cómo hacer el otro 80% del trabajo con Python, R y herramientas de línea de comandos - Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Los enigmas de las expresiones regulares - The Puzzling Quirks of Regular Expressions
Este entretenido libro de acertijos, destinado a desarrolladores de...
Los enigmas de las expresiones regulares - The Puzzling Quirks of Regular Expressions
Mejor código Python: Guía para aspirantes a expertos - Better Python Code: A Guide for Aspiring...
Vaya más allá del código Python que "en general...
Mejor código Python: Guía para aspirantes a expertos - Better Python Code: A Guide for Aspiring Experts

Las obras del autor han sido publicadas por las siguientes editoriales:

© Book1 Group - todos los derechos reservados.
El contenido de este sitio no se puede copiar o usar, ni en parte ni en su totalidad, sin el permiso escrito del propietario.
Última modificación: 2024.11.14 07:32 (GMT)