Augmenting Latent Dirichlet Allocation and Rank Threshold Detection with Ontologies
Dans un environnement de plus en plus riche en données, des informations exploitables doivent être extraites, filtrées et mises en corrélation à partir de quantités massives de sources disparates, souvent sous forme de texte libre. L'utilité des informations extraites dépend de la manière dont nous accomplissons ces étapes et présentons les informations les plus pertinentes à l'analyste.
L'une des méthodes d'extraction d'informations à partir de textes libres est l'allocation de Dirichlet latent (LDA), une technique de catégorisation des documents qui permet de classer les documents en sujets cohérents. Bien que la LDA tienne compte de certaines relations implicites telles que la synonymie (même sens), elle ignore souvent d'autres relations sémantiques telles que la polysémie (sens différents), l'hyponyme (subordonné), le méronyme (partie de) et les troponomes (manière).
Pour compenser cette déficience, nous incorporons des ontologies de mots explicites, telles que WordNet, dans l'algorithme LDA afin de prendre en compte les différentes relations sémantiques. Des expériences sur les 20 collections de documents Newsgroups, NIPS, OHSUMED et IED démontrent que l'incorporation de ces connaissances améliore la mesure de la perplexité par rapport à l'algorithme LDA seul pour des paramètres donnés.
© Book1 Group - tous droits réservés.
Le contenu de ce site ne peut être copié ou utilisé, en tout ou en partie, sans l'autorisation écrite du propriétaire.
Dernière modification: 2024.11.14 07:32 (GMT)