Statistical and Semantic Similarity between English Sentences
Ce livre présente divers algorithmes permettant de calculer les similitudes sémantiques entre des textes anglais.
J'ai exploré trois algorithmes différents pour calculer la similarité des phrases anglaises. Le premier algorithme, qui est bien exploré dans la littérature (Salton et Buckley, 1988, Wu et Salton, 1981), pondère les mots dans chaque phrase en fonction de la fréquence des termes et de la fréquence inverse des documents (tf-idf ) et n'utilise aucune information sémantique.
Le deuxième algorithme utilise des mesures de la distance sémantique entre les mots appartenant à la même partie du discours. Le troisième algorithme combine les scores tf-idf et les scores de distance sémantique entre les mots. J'ai évalué les performances des deuxième et troisième algorithmes sur deux ensembles de données : L'ensemble de paires de phrases de O'Shea avec des jugements de similarité humains (Li et al., Aug, Rubenstein et Goodenough, 1965), et l'ensemble de données de paraphrases au niveau des phrases de Microsoft Research (Rus et al., 2012).
Sur l'ensemble de données d'O'Shea, le troisième algorithme correspond plus précisément aux jugements humains que le deuxième. Sur l'ensemble de données de Microsoft, il n'y a pas de différence significative entre les deux algorithmes.
© Book1 Group - tous droits réservés.
Le contenu de ce site ne peut être copié ou utilisé, en tout ou en partie, sans l'autorisation écrite du propriétaire.
Dernière modification: 2024.11.14 07:32 (GMT)