Pré-entraînement vision-langage : Notions de base, progrès et tendances futures

Pré-entraînement vision-langage : Notions de base, progrès récents et tendances futures (Zhe Gan)

Titre original :

Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Contenu du livre :

Les êtres humains perçoivent le monde par le biais de nombreux canaux, tels que les images vues par les yeux ou les voix entendues par les oreilles. Bien que chaque canal individuel puisse être incomplet ou bruyant, les humains peuvent naturellement aligner et fusionner les informations collectées à partir de plusieurs canaux afin de saisir les concepts clés nécessaires à une meilleure compréhension du monde.

L'une des principales aspirations de l'intelligence artificielle (IA) est de développer des algorithmes qui confèrent aux ordinateurs la capacité d'apprendre efficacement à partir de données multimodales (ou multicanaux). Ces données sont similaires aux images et aux sons obtenus par la vision et le langage qui aident les humains à comprendre le monde qui les entoure. Par exemple, les ordinateurs pourraient imiter cette capacité en recherchant les images les plus pertinentes pour une requête textuelle (ou vice versa) et en décrivant le contenu d'une image à l'aide du langage naturel. La vision et le langage (VL), un domaine de recherche populaire qui se situe au carrefour de la vision par ordinateur et du traitement du langage naturel (NLP), vise à atteindre cet objectif.

Cette monographie passe en revue les méthodes de pré-entraînement au langage visuel (VLP) pour l'intelligence multimodale qui ont été développées ces dernières années. Les approches sont regroupées en trois catégories : (i) VLP pour les tâches image-texte, telles que le sous-titrage d'images, la recherche d'images-texte, la réponse à des questions visuelles et l'ancrage visuel ; (ii) VLP pour les tâches principales de vision par ordinateur, telles que la classification d'images (en jeu ouvert), la détection d'objets et la segmentation ; et (iii) VLP pour les tâches vidéo-texte, telles que le sous-titrage de vidéos, la recherche de vidéos-texte et la réponse à des questions vidéo. Pour chaque catégorie, un examen complet des méthodes de pointe est présenté, et les progrès réalisés ainsi que les défis encore à relever sont discutés, en utilisant des systèmes et des modèles spécifiques comme études de cas. En outre, pour chaque catégorie, des sujets avancés activement explorés par la communauté des chercheurs sont présentés, tels que les modèles de grandes fondations, la modélisation unifiée, l'apprentissage en contexte, la connaissance, la robustesse et la vision par ordinateur dans la nature, pour n'en citer que quelques-uns.

Autres informations sur le livre :

ISBN :	9781638281320
Auteur :	Zhe Gan
Éditeur :	New Publ Inc
Langue :	anglais
Reliure :	Broché

Achat:

Actuellement disponible, en stock.

Pré-entraînement vision-langage : Notions de base, progrès récents et tendances futures

Titre original :

Contenu du livre :

Autres informations sur le livre :

Achat:

Autres livres de l'auteur :

Les œuvres de l'auteur ont été publiées par les éditeurs suivants :