Un algorithme accéléré d'échantillonnage bayésien pour le modèle CART
Des travaux récents ([CHI 98], [DEN 98]) ont montré l'intérêt de l'utilisation de procédures de Metropolis dans un cadre bayésien, pour la recherche d'arbres de classification performants. Pour une classe particulière de distributions a priori sur les arbres, nous introduisons un nouvel algorithme d'échantillonnage MCMC, semblable à un échantillonneur de Gibbs, utilisant le principe de l'algorithme de pondération récursive introduit par Willems et al. [WIL 95], ce qui permet de prendre en compte effectivement un nombre de modèles beaucoup plus important. Les arbres ainsi échantillonnés sont moyennés pour obtenir un estimateur agrégé. Nous présentons les résultats de simulations sur trois jeux de données de référence, montrant l'intérêt pratique de cette procédure.
Recent work ([CHI 98], [DEN 98]) has shown the interest of using Metropolis procedures in a Bayesian framework to search for good classification trees. For a particular class of prior distributions on the trees, we introduce a new algorithm for MCMC sampling of trees, similar to a Gibbs sampler, based on Willems et al.'s "tree weighting" algorithm [WIL 95], which results in a dramatic increase of the number of models actually taken into account. The sampled tree models are then averaged to produce an aggregate estimator or classifier. We present results of simulations on three benchmark datasets, that show the practical interest of this procedure.
G.BLANCHARD
modèle CART, classifieurs multiples, échantillonnage bayésien, MCMC, pondération récursive, modèles de mélange.
CART model, multiple classifiers, bayesian MCMC sampling, recursive tree weighting, mixture models.
Français
|