Analyse des regrets pour les problèmes de bandits multiarmés stochastiques et non stochastiques

Note :   (5,0 sur 5)

Analyse des regrets pour les problèmes de bandits multiarmés stochastiques et non stochastiques (Bastian Bubeck S.)

Avis des lecteurs

Il n'y a actuellement aucun avis de lecteur. La note est basée sur 2 votes.

Titre original :

Regret Analysis of Stochastic and Nonstochastic Multi-Armed Bandit Problems

Contenu du livre :

Un problème de bandit à plusieurs bras - ou, plus simplement, un problème de bandit - est un problème d'allocation séquentielle défini par un ensemble d'actions. À chaque étape, une ressource unitaire est allouée à une action et un gain observable est obtenu.

L'objectif est de maximiser le gain total obtenu dans une séquence d'allocations. Le nom bandit fait référence au terme familier désignant une machine à sous (un "bandit manchot" dans l'argot américain). Dans un casino, un problème d'allocation séquentielle est obtenu lorsque le joueur se trouve face à plusieurs machines à sous à la fois (un "bandit manchot") et qu'il doit choisir à plusieurs reprises où insérer la pièce suivante.

Les problèmes de bandits à plusieurs bras sont les exemples les plus élémentaires de problèmes de décision séquentielle avec un compromis exploration-exploitation. Il s'agit de l'équilibre entre le maintien de l'option qui a donné les gains les plus élevés dans le passé et l'exploration de nouvelles options qui pourraient donner des gains plus élevés à l'avenir.

Bien que l'étude des problèmes de bandits remonte aux années 1930, les compromis exploration-exploitation apparaissent dans plusieurs applications modernes, telles que le placement d'annonces, l'optimisation de sites web et le routage de paquets. D'un point de vue mathématique, un bandit à plusieurs bras est défini par le processus de gain associé à chaque option. Dans ce livre, l'accent est mis sur deux cas extrêmes dans lesquels l'analyse des regrets est particulièrement simple et élégante : les gains indépendants et identiquement distribués et les gains adverses.

Outre le cadre de base des actions en nombre fini, il analyse également certaines des variantes et extensions les plus importantes, telles que le modèle de bandit contextuel. Cette monographie est une référence idéale pour les étudiants et les chercheurs qui s'intéressent aux problèmes de bandits.

Autres informations sur le livre :

ISBN :9781601986269
Auteur :
Éditeur :
Langue :anglais
Reliure :Broché

Achat:

Actuellement disponible, en stock.

Je l'achète!

Autres livres de l'auteur :

Analyse des regrets pour les problèmes de bandits multiarmés stochastiques et non stochastiques -...
Un problème de bandit à plusieurs bras - ou, plus...
Analyse des regrets pour les problèmes de bandits multiarmés stochastiques et non stochastiques - Regret Analysis of Stochastic and Nonstochastic Multi-Armed Bandit Problems

Les œuvres de l'auteur ont été publiées par les éditeurs suivants :

© Book1 Group - tous droits réservés.
Le contenu de ce site ne peut être copié ou utilisé, en tout ou en partie, sans l'autorisation écrite du propriétaire.
Dernière modification: 2024.11.14 07:32 (GMT)