Validity, Reliability, and Significance: Empirical Methods for Nlp and Data Science
Los métodos empíricos son medios para responder a las cuestiones metodológicas de las ciencias empíricas mediante técnicas estadísticas. Las cuestiones metodológicas abordadas en este libro incluyen los problemas de validez, fiabilidad y significación. En el caso del aprendizaje automático, corresponden a las preguntas de si un modelo predice lo que pretende predecir, si el rendimiento de un modelo es coherente entre réplicas y si una diferencia de rendimiento entre dos modelos se debe al azar, respectivamente. El objetivo de este libro es responder a estas preguntas mediante pruebas estadísticas concretas que puedan aplicarse para evaluar la validez, fiabilidad y significación de la anotación de datos y la predicción del aprendizaje automático en los campos de la PNL y la ciencia de datos.
Nos centramos en métodos empíricos basados en modelos en los que las anotaciones de datos y las predicciones de modelos se tratan como datos de entrenamiento para modelos probabilísticos interpretables de las familias bien conocidas de modelos aditivos generalizados (GAM) y modelos lineales de efectos mixtos (LMEM). A partir de los parámetros interpretables de los GAM o LMEM entrenados, el libro presenta pruebas estadísticas basadas en modelos, como una prueba de validez que permite detectar características circulares que eluden el aprendizaje. Además, el libro analiza un coeficiente de fiabilidad que utiliza la descomposición de la varianza basada en los parámetros de efectos aleatorios de los LMEM. Por último, se muestra una prueba de significación basada en la razón de verosimilitud de LMEM anidados entrenados en las puntuaciones de rendimiento de dos modelos de aprendizaje automático que permite de forma natural la inclusión de variaciones en los ajustes de los metaparámetros en las pruebas de hipótesis, y facilita además una comparación refinada del sistema condicionada a las propiedades de los datos de entrada.
Este libro puede utilizarse como introducción a los métodos empíricos para el aprendizaje automático en general, con especial atención a las aplicaciones en PNL y ciencia de datos. El libro es autocontenido, con un apéndice sobre los fundamentos matemáticos de los GAM y los LMEM, y con una página web adjunta que incluye código R para replicar los experimentos presentados en el libro.
© Book1 Group - todos los derechos reservados.
El contenido de este sitio no se puede copiar o usar, ni en parte ni en su totalidad, sin el permiso escrito del propietario.
Última modificación: 2024.11.14 07:32 (GMT)