Question Caractéristiques corrélées et précision de la classification


Je voudrais poser à chacun une question sur la manière dont les caractéristiques corrélées (variables) affectent la précision de la classification des algorithmes d’apprentissage automatique. Par caractéristiques corrélées, j'entends une corrélation entre elles et non avec la classe cible (c'est-à-dire le périmètre et l'aire d'une figure géométrique ou le niveau d'éducation et le revenu moyen). À mon avis, les caractéristiques corrélées affectent négativement la précision d'un algorithme de classification, je dirais que la corrélation rend l'une d'entre elles inutile. Est-ce vraiment comme ça? Le problème change-t-il avec le respect du type d'algorithme de classification? Toute suggestion sur les papiers et les conférences est vraiment la bienvenue! Merci


32
2018-02-11 14:18


origine


Réponses:


Les caractéristiques corrélées n'affectent pas la précision de la classification en soi. Le problème dans les situations réalistes est que nous avons un nombre limité d’exemples d’entraînement pour former un classificateur. Pour un nombre fixe d'exemples de formation, l'augmentation du nombre de fonctionnalités augmente généralement la précision de la classification, mais à mesure que le nombre de fonctionnalités augmente, la précision de la classification finira par diminuer car nous sommes alors sous-échantillonné par rapport au grand nombre de fonctionnalités. Pour en savoir plus sur les implications de ceci, regardez le malédiction de la dimensionnalité.

Si deux entités numériques sont parfaitement corrélées, on n’ajoute aucune information supplémentaire (elle est déterminée par l’autre). Donc, si le nombre de fonctionnalités est trop élevé (par rapport à la taille de l’échantillon de formation), il est avantageux de réduire le nombre de extraction de caractéristiques technique (par exemple, via composants principaux)

L'effet de la corrélation dépend du type de classificateur. Certains classificateurs non paramétriques sont moins sensibles à la corrélation des variables (bien que le temps de formation augmentera probablement avec une augmentation du nombre de caractéristiques). Pour les méthodes statistiques telles que le maximum de vraisemblance gaussien, le fait d'avoir trop de caractéristiques corrélées par rapport à la taille de l'échantillon d'apprentissage rendra le classificateur inutilisable dans l'espace original (la matrice de covariance des données d'échantillons devient singulière).


23
2018-02-11 14:45



En général, je dirais que plus les fonctionnalités sont décorrélées, meilleures seront les performances du classificateur. Étant donné un ensemble de caractéristiques hautement corrélées, il est possible d'utiliser des techniques PCA pour les rendre aussi orthogonales que possible afin d'améliorer les performances des classificateurs.


1
2018-02-11 14:43