Una arquitectura para el procesamiento rápido y general de datos en grandes clusters

Una arquitectura para el procesamiento rápido y general de datos en grandes clusters (Matei Zaharia)

Título original:

An Architecture for Fast and General Data Processing on Large Clusters

Contenido del libro:

En los últimos años se ha producido un gran cambio en los sistemas informáticos, ya que los crecientes volúmenes de datos y el estancamiento de la velocidad de los procesadores exigen que cada vez más aplicaciones se escalen a clusters. Hoy en día, una miríada de fuentes de datos, desde Internet a las operaciones empresariales o los instrumentos científicos, producen grandes y valiosos flujos de datos. Sin embargo, las capacidades de procesamiento de las máquinas individuales no han seguido el ritmo del tamaño de los datos. Como resultado, las organizaciones necesitan cada vez más escalar sus cálculos en clusters.

Al mismo tiempo, han aumentado la velocidad y la sofisticación necesarias para el procesamiento de datos. Además de las consultas sencillas, cada vez son más comunes los algoritmos complejos, como el aprendizaje automático y el análisis de gráficos. Y además del procesamiento por lotes, se requiere el análisis en tiempo real de los datos para que las organizaciones puedan actuar a tiempo. Las futuras plataformas informáticas no sólo tendrán que escalar las cargas de trabajo tradicionales, sino también soportar estas nuevas aplicaciones.

Este libro, una versión revisada de la tesis ganadora del premio ACM Dissertation Award 2014, propone una arquitectura para sistemas de computación en clúster que puede hacer frente a las nuevas cargas de trabajo de procesamiento de datos a escala. Mientras que los primeros sistemas de computación en clúster, como MapReduce, manejaban el procesamiento por lotes, nuestra arquitectura también permite el streaming y las consultas interactivas, manteniendo la escalabilidad y la tolerancia a fallos de MapReduce. Y mientras que la mayoría de los sistemas desplegados sólo admiten cálculos sencillos de una sola pasada (por ejemplo, consultas SQL), el nuestro también se extiende a los algoritmos multipase necesarios para análisis complejos como el aprendizaje automático. Por último, a diferencia de los sistemas especializados propuestos para algunas de estas cargas de trabajo, nuestra arquitectura permite combinar estos cálculos, posibilitando nuevas y ricas aplicaciones que entremezclan, por ejemplo, el streaming y el procesamiento por lotes.

Conseguimos estos resultados mediante una sencilla extensión de MapReduce que añade primitivas para compartir datos, denominadas Resilient Distributed Datasets (RDDs). Demostramos que esto es suficiente para capturar una amplia gama de cargas de trabajo. Implementamos los RDD en el sistema de código abierto Spark, que evaluamos utilizando cargas de trabajo sintéticas y reales. Spark iguala o supera el rendimiento de los sistemas especializados en muchos dominios, al tiempo que ofrece mayores propiedades de tolerancia a fallos y permite combinar estas cargas de trabajo. Por último, examinamos la generalidad de los RDD tanto desde la perspectiva del modelado teórico como desde la perspectiva de los sistemas.

Esta versión de la tesis realiza correcciones a lo largo del texto y añade una nueva sección sobre la evolución de Apache Spark en la industria desde 2014. Además, se ha añadido edición, formato y enlaces para las referencias.

Otros datos del libro:

ISBN:9781970001563
Autor:
Editorial:
Idioma:inglés
Encuadernación:Tapa blanda

Compra:

Actualmente disponible, en stock.

¡Lo compro!

Otros libros del autor:

Una arquitectura para el procesamiento rápido y general de datos en grandes clusters - An...
En los últimos años se ha producido un gran cambio...
Una arquitectura para el procesamiento rápido y general de datos en grandes clusters - An Architecture for Fast and General Data Processing on Large Clusters

Las obras del autor han sido publicadas por las siguientes editoriales:

© Book1 Group - todos los derechos reservados.
El contenido de este sitio no se puede copiar o usar, ni en parte ni en su totalidad, sin el permiso escrito del propietario.
Última modificación: 2024.11.14 07:32 (GMT)