INTRODUCTION A L'ANALYSE DES DONNEES
L’analyse des données
est
un domaine des statistiques qui se préoccupe
de la description de donnéesmultidimensionnelles, ce que François Husson et ses coauteurs définissent dans leur livre Analyse
des données avec R comme « l'ensemble des méthodes
statistiques dont les principales caractéristiques sont d'être
multidimensionnelles et descriptives », et qui regroupe les techniques
connues sous le nom d'Analyse des données « à la française ».
Certaines méthodes, pour la plupart géométriques, aident à faire
ressortir les relations pouvant exister entre les différentes données et à en
tirer une information statistique qui permette de décrire de façon plus
succincte les principales informations contenues dans ces données. D'autres
techniques permettent de regrouper les données de façon à faire apparaître
clairement ce qui les rend homogènes, et ainsi mieux les connaître et les définir.
L’analyse des données
permet de traiter un nombre très important de données et de dégager les aspects
les plus intéressants de la structure de celles-ci. Le succès de cette
discipline dans les dernières années est dû, dans une large mesure, aux représentations graphiques fournies par les méthodes d’analyse des données. Ces schémas
graphiques peuvent mettre en évidence des relations difficilement saisies par
l’analyse directe des données ; mais surtout, ces représentations ne sont
pas liées à une opinion « a priori » sur les lois des phénomènes analysés contrairement aux méthodes de la statistique
classique.
Les fondements mathématiques de l’analyse des données ont commencé à se développer au début duXXe siècle,
mais ce sont les ordinateurs qui ont rendu cette discipline opérationnelle, et qui en ont permis
une utilisation très étendue. Mathématiques et informatique sont ici intimement
liées.
Définition
Dans l'acception
française, la terminologie « analyse des données » désigne un
sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. L'analyse des données est un ensemble de techniques descriptives, dont
l'outil mathématique majeur est l'algèbre matriciel, et qui s'exprime sans
supposer a priori un modèle probabiliste.
Elle comprend l’analyse en composantes principales (ACP), employée pour des données quantitatives, et ses méthodes
dérivées : l'analyse factorielle des
correspondances (AFC) utilisée sur
des données qualitatives (tableau d’association) et l'analyse factorielle des
correspondances multiples (AFCM ou ACM) généralisant la précédente. L'analyse canonique et l'analyse canonique généralisée, qui sont plus des cadres théoriques que des méthodes aisément
applicables , étendent plusieurs de ces méthodes et vont au-delà des
techniques de description. La classification automatique, l’analyse factorielle discriminante (AFD) ou analyse discriminante permettent d’identifier des groupes homogènes au sein de la
population du point de vue des variables étudiées.
En marge de l'analyse
des données, l'analyse en composantes
indépendantes (ACI), plus récente, issue de
la physique du signal et connue initialement comme méthode de séparation aveugle de
source, est plus proche intuitivement des
méthodes de classification non supervisée. L'iconographie des corrélationspour des données qualitatives et quantitatives, organise les corrélations
entre variables sous la forme de graphes. L'analyse inter-batterie de Tucker
est intermédiaire entre l'analyse canonique et l'analyse en composantes
principales, l'analyse des redondances appelée aussi analyse en composantes
principales sur variables instrumentales se rapproche de la régression puisque
les variables d'un des groupes analysés sont considérées comme dépendantes, les
autres comme indépendantes, et que la fonction à maximiser est une somme de
coefficients de corrélation entre les deux groupes.
En dehors de l'école
française, l'analyse des données multivariée est complétée par la méthode depoursuite de projection de John Tukey, et les méthodes de quantification
de ChikioHayashi, dont la quantification
de type III est analogue à l'analyse de correspondances. L'analyse factorielle
anglo-saxone, ou « Factor Analysis », est proche de
l'analyse en composantes principales, sans être équivalente, car elle utilise
les techniques de régression pour découvrir les « variables latentes ».
Ces procédés permettent
notamment de manipuler et de synthétiser l’information provenant de tableaux de
données de grande taille, à l'aide de l'estimation des corrélations entre les variables que l’on étudie. L'outil statistique utilisé est
la matrice des corrélations ou la matrice de variance-covariance.
Tags: ANALYSE DES DONNEES


Inscription à :
Publier les commentaires (Atom)
Share your views...
0 Respones to "INTRODUCTION A L'ANALYSE DES DONNEES"
Enregistrer un commentaire