Simulación de colecciones de pruebas de recuperación de información

Simulación de colecciones de pruebas de recuperación de información (David Hawking)

Título original:

Simulating Information Retrieval Test Collections

Contenido del libro:

Las colecciones de pruebas simuladas pueden aplicarse en situaciones en las que no es fácil acceder a los conjuntos de datos reales por motivos de confidencialidad o por inconvenientes prácticos. Potencialmente, pueden servir de apoyo a la experimentación, el ajuste, la validación, la predicción del rendimiento y el dimensionamiento del hardware en el ámbito de la recuperación de información (RI). Naturalmente, la precisión y utilidad de los resultados obtenidos a partir de una simulación dependen de la fidelidad y generalidad de los modelos que la sustentan. Es probable que la fidelidad de la emulación de un corpus real se vea limitada por el requisito de que la información confidencial del corpus real no pueda extraerse de la versión emulada. Presentamos una serie de métodos que exploran las compensaciones entre la fidelidad de la emulación y el grado de preservación de la privacidad.

Presentamos tres tipos sencillos de generadores de texto que funcionan a nivel micro: Modelos de Markov, modelos de redes neuronales y claves de sustitución. También describimos métodos de macronivel en los que podemos diseñar macropropiedades de un corpus, ofreciendo una serie de modelos para cada una de las propiedades más destacadas: distribución de la longitud de los documentos, distribución de la frecuencia de las palabras (para casos independientes y no independientes), longitud de las palabras y representación textual, y crecimiento del corpus.

Presentamos resultados de emulación de corpus existentes y de ampliación de corpus en dos órdenes de magnitud. Demostramos que las colecciones simuladas generadas con métodos relativamente sencillos son adecuadas para algunos fines y pueden generarse muy rápidamente. De hecho, a veces puede ser factible integrar un generador de corpus sencillo y ligero en un indexador con el fin de realizar estudios de eficiencia.

Naturalmente, un corpus de texto artificial no puede apoyar la experimentación de RI en ausencia de un conjunto de consultas compatibles. Discutimos y experimentamos con métodos publicados para la generación de consultas y la emulación de registros de consultas.

Presentamos un estudio de prueba en el que observamos la precisión predictiva de los resultados de eficiencia y eficacia obtenidos en versiones emuladas de corpus TREC. El estudio incluye tres sistemas de recuperación de código abierto y varios conjuntos de datos TREC. Existe un equilibrio entre la confidencialidad y la precisión de la predicción, y hay interacciones interesantes entre los sistemas de recuperación y los conjuntos de datos. Nuestra conclusión provisional es que existen métodos de emulación que logran una precisión de predicción útil al tiempo que proporcionan un nivel de confidencialidad adecuado para muchas aplicaciones.

Muchos de los métodos aquí descritos se han implementado en el proyecto de código abierto SynthaCorpus, accesible en: https: //bitbucket.org/davidhawking/synthacorpus/.

Otros datos del libro:

ISBN:	9783031011955
Autor:	David Hawking
Editorial:	Springer International Publishing AG
Idioma:	inglés
Encuadernación:	Tapa blanda
Año de publicación:	2020
Número de páginas:	162

Compra:

Actualmente disponible, en stock.

Simulación de colecciones de pruebas de recuperación de información

Título original:

Contenido del libro:

Otros datos del libro:

Compra:

Otros libros del autor:

Las obras del autor han sido publicadas por las siguientes editoriales: