Puntuación:
El libro es un recurso para el aprendizaje de Hadoop y el análisis de Big Data, centrado en temas tanto básicos como avanzados. Aunque proporciona una amplia visión general del ecosistema Hadoop e incluye ejemplos prácticos, también tiene problemas significativos con la precisión del código y la claridad en la escritura.
Ventajas:⬤ Panorama completo de Hadoop y tecnologías relacionadas
⬤ amigable tanto para principiantes como para profesionales
⬤ los ejemplos son útiles para el aprendizaje práctico
⬤ actualizado con tecnologías antiguas y nuevas como MapReduce y Spark
⬤ proporciona citas para lecturas adicionales.
⬤ El código de ejemplo a menudo no coincide con las descripciones del libro
⬤ las instrucciones de instalación pueden ser confusas
⬤ los ejemplos pueden producir resultados incorrectos
⬤ se critica la falta de calidad del estilo de redacción
⬤ alguna información es engañosa o incorrecta.
(basado en 9 opiniones de lectores)
Data Analytics with Hadoop: An Introduction for Data Scientists
¿Está preparado para utilizar técnicas estadísticas y de aprendizaje automático en grandes conjuntos de datos? Esta guía práctica le muestra por qué el ecosistema Hadoop es perfecto para este trabajo.
En lugar del despliegue, las operaciones o el desarrollo de software que suelen asociarse a la informática distribuida, se centrará en los análisis concretos que puede realizar, las técnicas de almacenamiento de datos que ofrece Hadoop y los flujos de trabajo de datos de orden superior que puede producir este marco. Los científicos y analistas de datos aprenderán a realizar una amplia gama de técnicas, desde escribir aplicaciones MapReduce y Spark con Python hasta utilizar el modelado avanzado y la gestión de datos con Spark MLlib, Hive y HBase.
También aprenderá sobre los procesos analíticos y los sistemas de datos disponibles para construir y potenciar productos de datos que puedan manejar -y de hecho requieran- enormes cantidades de datos. ⬤ Comprender los conceptos básicos detrás de Hadoop y la computación en clúster ⬤ Utilizar patrones de diseño y algoritmos analíticos paralelos para crear trabajos de análisis de datos distribuidos ⬤ Aprender sobre la gestión de datos, minería y almacenamiento en un contexto distribuido utilizando Apache Hive y HBase ⬤ Utilizar Sqoop y Apache Flume para ingerir datos de bases de datos relacionales ⬤ Programar aplicaciones complejas de Hadoop y Spark con Apache Pig y Spark DataFrames ⬤ Realizar técnicas de aprendizaje automático como clasificación, agrupación y filtrado colaborativo con MLlib de Spark.
© Book1 Group - todos los derechos reservados.
El contenido de este sitio no se puede copiar o usar, ni en parte ni en su totalidad, sin el permiso escrito del propietario.
Última modificación: 2024.11.14 07:32 (GMT)