Preentrenamiento de la visión y el lenguaje: Conceptos básicos, avances y tendencias futuras

Preentrenamiento de visión y lenguaje: Conceptos básicos, avances recientes y tendencias futuras (Zhe Gan)

Título original:

Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Contenido del libro:

Los seres humanos perciben el mundo a través de muchos canales, como las imágenes que ven los ojos o las voces que oyen los oídos. Aunque cada canal pueda ser incompleto o ruidoso, el ser humano puede alinear y fusionar de forma natural la información recogida a través de múltiples canales con el fin de captar los conceptos clave necesarios para comprender mejor el mundo.

Una de las principales aspiraciones de la Inteligencia Artificial (IA) es desarrollar algoritmos que doten a los ordenadores de la capacidad de aprender eficazmente a partir de datos multimodales (o multicanal). Estos datos son similares a las imágenes y sonidos obtenidos a partir de la visión y el lenguaje que ayudan a los humanos a dar sentido al mundo que nos rodea. Por ejemplo, los ordenadores podrían imitar esta capacidad buscando las imágenes más relevantes para una consulta de texto (o viceversa) y describiendo el contenido de una imagen mediante lenguaje natural. La visión y el lenguaje (VL), un área de investigación muy popular que se sitúa en el nexo entre la visión por ordenador y el procesamiento del lenguaje natural (PLN), pretende alcanzar este objetivo.

Esta monografía examina los métodos de preentrenamiento del lenguaje visual (VLP) para la inteligencia multimodal que se han desarrollado en los últimos años. Los enfoques se agrupan en tres categorías: (i) VLP para tareas de imagen-texto, como subtitulado de imágenes, recuperación de imagen-texto, respuesta a preguntas visuales y fundamentación visual; (ii) VLP para tareas básicas de visión por ordenador, como clasificación de imágenes (de conjunto abierto), detección de objetos y segmentación; y (iii) VLP para tareas de vídeo-texto, como subtitulado de vídeo, recuperación de vídeo-texto y respuesta a preguntas de vídeo. Para cada categoría, se presenta una revisión exhaustiva de los métodos más avanzados y se discuten los progresos realizados y los retos pendientes, utilizando sistemas y modelos específicos como casos de estudio. Además, para cada categoría, se presentan temas avanzados que se están explorando activamente en la comunidad investigadora, como los modelos de grandes fundamentos, el modelado unificado, el aprendizaje en contexto de pocos disparos, el conocimiento, la robustez y la visión por ordenador en estado salvaje, por nombrar algunos.

Otros datos del libro:

ISBN:	9781638281320
Autor:	Zhe Gan
Editorial:	New Publ Inc
Idioma:	inglés
Encuadernación:	Tapa blanda

Compra:

Actualmente disponible, en stock.

Preentrenamiento de visión y lenguaje: Conceptos básicos, avances recientes y tendencias futuras

Título original:

Contenido del libro:

Otros datos del libro:

Compra:

Otros libros del autor:

Las obras del autor han sido publicadas por las siguientes editoriales: