Méthodes statistiques pour l'analyse des annotations

Titre original :

Statistical Methods for Annotation Analysis

Contenu du livre :

L'étiquetage des données est l'une des activités les plus fondamentales de la science et sous-tend la pratique, en particulier en médecine, depuis des décennies, ainsi que la recherche en linguistique de corpus depuis au moins le développement du corpus Brown. Avec le passage à l'apprentissage automatique dans l'intelligence artificielle (IA), la création d'ensembles de données à utiliser pour la formation et l'évaluation des systèmes d'IA, également connus sous le nom de corpus dans l'IA, est devenue une activité centrale dans ce domaine également.

Les premiers ensembles de données d'IA ont été créés sur une base ad hoc pour résoudre des problèmes spécifiques. Au fur et à mesure que des ensembles de données plus importants et plus réutilisables étaient créés, nécessitant un investissement plus important, le besoin d'une approche plus systématique de la création d'ensembles de données s'est fait sentir afin de garantir une meilleure qualité. Une série de méthodes statistiques ont été adoptées, souvent mais pas exclusivement dans le domaine des sciences médicales, pour s'assurer que les étiquettes utilisées n'étaient pas subjectives ou pour choisir parmi les différentes étiquettes fournies par les codeurs.

Un large éventail de ces méthodes est aujourd'hui régulièrement utilisé. Ce livre a pour but de fournir une vue d'ensemble des méthodes statistiques les plus largement utilisées pour soutenir la pratique de l'annotation.

À la connaissance des auteurs, il s'agit du premier ouvrage tentant de couvrir les deux familles de méthodes les plus utilisées. La première famille de méthodes concerne le développement de systèmes d'étiquetage et, en particulier, l'assurance que ces systèmes permettent d'observer un accord suffisant entre les codeurs.

La deuxième famille comprend des méthodes développées pour analyser les résultats des codeurs une fois que le système a été convenu, en particulier, mais pas exclusivement, pour identifier l'étiquette la plus probable pour un élément parmi celles fournies par les codeurs. Ce livre se concentre principalement sur le traitement du langage naturel, le domaine de l'IA consacré au développement de modèles d'interprétation et de production du langage, mais de nombreuses méthodes, voire la plupart, sont également applicables à d'autres domaines de l'IA, voire à d'autres domaines de la science des données.

Autres informations sur le livre :

ISBN :	9783031037535
Auteur :	Silviu Paun
Éditeur :	Springer International Publishing AG
Langue :	anglais
Reliure :	Broché
Année de publication :	2022
Nombre de pages :	197

Achat:

Actuellement disponible, en stock.

Méthodes statistiques pour l'analyse des annotations

Titre original :

Contenu du livre :

Autres informations sur le livre :

Achat:

Autres livres de l'auteur :

Les œuvres de l'auteur ont été publiées par les éditeurs suivants :