Simuler des collections de tests de recherche d'information

Simuler des collections de tests de recherche d'information (David Hawking)

Titre original :

Simulating Information Retrieval Test Collections

Contenu du livre :

Les collections de tests simulés peuvent trouver une application dans des situations où les ensembles de données réels ne sont pas facilement accessibles en raison de problèmes de confidentialité ou d'inconvénients pratiques. Elles peuvent potentiellement soutenir l'expérimentation, la mise au point, la validation, la prédiction des performances et le dimensionnement du matériel dans le domaine de la recherche d'information (RI). Naturellement, la précision et l'utilité des résultats obtenus à partir d'une simulation dépendent de la fidélité et de la généralité des modèles qui la sous-tendent. La fidélité de l'émulation d'un corpus réel est susceptible d'être limitée par l'exigence que les informations confidentielles du corpus réel ne puissent pas être extraites de la version émulée. Nous présentons une série de méthodes explorant les compromis entre la fidélité de l'émulation et le degré de préservation de la vie privée.

Nous présentons trois types simples de générateurs de texte qui fonctionnent au niveau microéconomique : Les modèles de Markov, les modèles de réseaux neuronaux et les algorithmes de chiffrement par substitution. Nous décrivons également des méthodes au niveau macro où nous pouvons concevoir des propriétés macro d'un corpus, en donnant une gamme de modèles pour chacune des propriétés les plus importantes : distribution de la longueur des documents, distribution de la fréquence des mots (pour les cas indépendants et non indépendants), longueur des mots et représentation textuelle, et croissance du corpus.

Nous présentons les résultats de l'émulation de corpus existants et de la mise à l'échelle de corpus de deux ordres de grandeur. Nous montrons que les collections simulées générées avec des méthodes relativement simples conviennent à certains usages et peuvent être générées très rapidement. En effet, il est parfois possible d'intégrer un générateur de corpus simple et léger dans un indexeur à des fins d'études d'efficacité.

Naturellement, un corpus de texte artificiel ne peut pas servir à l'expérimentation de la RI en l'absence d'un ensemble de requêtes compatibles. Nous discutons et expérimentons les méthodes publiées pour la génération de requêtes et l'émulation de journaux de requêtes.

Nous présentons une étude de validation dans laquelle nous observons la précision prédictive des résultats d'efficacité et d'efficience obtenus sur des versions émulées des corpus TREC. L'étude porte sur trois systèmes de recherche à source ouverte et sur plusieurs ensembles de données TREC. Il existe un compromis entre la confidentialité et la précision des prédictions, ainsi que des interactions intéressantes entre les systèmes de recherche et les ensembles de données. Notre conclusion provisoire est qu'il existe des méthodes d'émulation qui permettent d'obtenir une précision de prédiction utile tout en assurant un niveau de confidentialité adéquat pour de nombreuses applications.

De nombreuses méthodes décrites ici ont été mises en œuvre dans le projet open source SynthaCorpus, accessible à l'adresse suivante : https : //bitbucket.org/davidhawking/synthacorpus/.

Autres informations sur le livre :

ISBN :9783031011955
Auteur :
Éditeur :
Langue :anglais
Reliure :Broché
Année de publication :2020
Nombre de pages :162

Achat:

Actuellement disponible, en stock.

Je l'achète!

Autres livres de l'auteur :

Simuler des collections de tests de recherche d'information - Simulating Information Retrieval Test...
Les collections de tests simulés peuvent trouver...
Simuler des collections de tests de recherche d'information - Simulating Information Retrieval Test Collections

Les œuvres de l'auteur ont été publiées par les éditeurs suivants :

© Book1 Group - tous droits réservés.
Le contenu de ce site ne peut être copié ou utilisé, en tout ou en partie, sans l'autorisation écrite du propriétaire.
Dernière modification: 2024.11.14 07:32 (GMT)