La réduction du nombre de variables spectrales dans un problème de modélisation permet souvent de construire un modèle plus simple, plus performant, et apporte en sus une information sur les ‘fréquences utiles’ à la prédiction, auxquelles on peut trouver une interprétation. Ce papier propose une approche pour la sélection de bandes de fréquences (variables spectrales consécutives) à l’aide d’un clustering hiérarchique qui prend en compte la variable à prédire pour effectuer le regroupement des variables. La méthode est basée sur l’estimateur par plus proche voisins de l’information mutuelle. Des expériences sur deux jeux de données montrent l’intérêt de la méthode, à la fois par rapport à la PLS construite sur toutes les variables et par rapport à un clustering des variables qui ne tiendraient pas compte de la variable à prédire.
François, D., Krier, C., Rossi, F., & Verleysen, M. (2007). Estimation de redondance conditionnelle par information mutuelle, application au clustering de variables spectrales. Proceedings de Chimiométrie 2007, p. 43-46. https://hdl.handle.net/2078.5/253959