INTRODUCTION A L'ANALYSE DES DONNEES



L’analyse des données
 est un domaine des statistiques qui se préoccupe de la description de donnéesmultidimensionnelles, ce que François Husson et ses coauteurs définissent dans leur livre Analyse des données avec R comme « l'ensemble des méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives », et qui regroupe les techniques connues sous le nom d'Analyse des données « à la française ». Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permette de décrire de façon plus succincte les principales informations contenues dans ces données. D'autres techniques permettent de regrouper les données de façon à faire apparaître clairement ce qui les rend homogènes, et ainsi mieux les connaître et les définir.
L’analyse des données permet de traiter un nombre très important de données et de dégager les aspects les plus intéressants de la structure de celles-ci. Le succès de cette discipline dans les dernières années est dû, dans une large mesure, aux représentations graphiques fournies par les méthodes d’analyse des données. Ces schémas graphiques peuvent mettre en évidence des relations difficilement saisies par l’analyse directe des données ; mais surtout, ces représentations ne sont pas liées à une opinion « a priori » sur les lois des phénomènes analysés contrairement aux méthodes de la statistique classique.
Les fondements mathématiques de l’analyse des données ont commencé à se développer au début duXXe siècle, mais ce sont les ordinateurs qui ont rendu cette discipline opérationnelle, et qui en ont permis une utilisation très étendue. Mathématiques et informatique sont ici intimement liées.

Définition
Dans l'acception française, la terminologie « analyse des données » désigne un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. L'analyse des données est un ensemble de techniques descriptives, dont l'outil mathématique majeur est l'algèbre matriciel, et qui s'exprime sans supposer a priori un modèle probabiliste.
Elle comprend l’analyse en composantes principales (ACP), employée pour des données quantitatives, et ses méthodes dérivées : l'analyse factorielle des correspondances (AFC) utilisée sur des données qualitatives (tableau d’association) et l'analyse factorielle des correspondances multiples (AFCM ou ACM) généralisant la précédente. L'analyse canonique et l'analyse canonique généralisée, qui sont plus des cadres théoriques que des méthodes aisément applicables , étendent plusieurs de ces méthodes et vont au-delà des techniques de description. La classification automatique, l’analyse factorielle discriminante (AFD) ou analyse discriminante permettent d’identifier des groupes homogènes au sein de la population du point de vue des variables étudiées.
En marge de l'analyse des données, l'analyse en composantes indépendantes (ACI), plus récente, issue de la physique du signal et connue initialement comme méthode de séparation aveugle de source, est plus proche intuitivement des méthodes de classification non supervisée. L'iconographie des corrélationspour des données qualitatives et quantitatives, organise les corrélations entre variables sous la forme de graphes. L'analyse inter-batterie de Tucker est intermédiaire entre l'analyse canonique et l'analyse en composantes principales, l'analyse des redondances appelée aussi analyse en composantes principales sur variables instrumentales se rapproche de la régression puisque les variables d'un des groupes analysés sont considérées comme dépendantes, les autres comme indépendantes, et que la fonction à maximiser est une somme de coefficients de corrélation entre les deux groupes.
En dehors de l'école française, l'analyse des données multivariée est complétée par la méthode depoursuite de projection de John Tukey, et les méthodes de quantification de ChikioHayashi, dont la quantification de type III est analogue à l'analyse de correspondances. L'analyse factorielle anglo-saxone, ou « Factor Analysis », est proche de l'analyse en composantes principales, sans être équivalente, car elle utilise les techniques de régression pour découvrir les « variables latentes ».

Ces procédés permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille, à l'aide de l'estimation des corrélations entre les variables que l’on étudie. L'outil statistique utilisé est la matrice des corrélations ou la matrice de variance-covariance.




Share your views...

0 Respones to "INTRODUCTION A L'ANALYSE DES DONNEES"

Enregistrer un commentaire

 

À propos de moi

Admirateurs

© 2010 STATISTIQUES POUR TOUS All Rights Reserved Converted into Blogger Template by Hack Tutors.info