Statistical and Semantic Similarity between English Sentences
Este libro presenta varios algoritmos para calcular similitudes semánticas entre textos en inglés.
He explorado tres algoritmos diferentes para calcular la similitud entre frases en inglés. El primer algoritmo, muy estudiado en la literatura (Salton y Buckley, 1988, Wu y Salton, 1981), pondera las palabras de cada frase según la frecuencia de términos y la frecuencia inversa de documentos (tf-idf ) y no utiliza información semántica.
El segundo algoritmo utiliza medidas de la distancia semántica entre palabras que pertenecen a la misma parte de la oración. El tercer algoritmo combina las puntuaciones tf-idf y las puntuaciones de distancia semántica entre palabras. He evaluado el rendimiento del segundo y el tercer algoritmo en dos conjuntos de datos: El conjunto de pares de frases de O'Shea con juicios humanos de similitud Li et al., Aug, Rubenstein y Goodenough, 1965), y el conjunto de datos de paráfrasis a nivel de frase de Microsoft Research Rus et al., 2012).
En el conjunto de datos de O'Shea, el tercer algoritmo se ajusta con mayor precisión a los juicios humanos que el segundo. En el conjunto de datos de Microsoft, no hubo una diferencia significativa entre los dos algoritmos.
© Book1 Group - todos los derechos reservados.
El contenido de este sitio no se puede copiar o usar, ni en parte ni en su totalidad, sin el permiso escrito del propietario.
Última modificación: 2024.11.14 07:32 (GMT)