Le travail d'analyse des informations
Après avoir successivement formulé une question de départ, élaboré des hypothèses et procédé aux observations en fonction des hypothèses, le chercheur passe à l’étape de l’analyse des informations. Il s’agit alors de tester empiriquement les hypothèses de départ.
Le traitement des données dans le cas d’une démarche quantitative
Dans le cas d’une démarche quantitative, il existe, comme le souligne Nicole Berthier17, plusieurs niveaux d’analyse du traitement des données en fonction du nombre de variables examinées, présentées ci-dessous par ordre croissant de leur complexité.
• Si une seule variable est prise en compte, l’analyse se fait par l’opération de « tri à plat » ;
• Si deux variables sont prises en compte, l’analyse se fait par tableaux croisés ;
• Si plus de deux variables sont prises en compte, l’analyse est dite alors « multivariée ».
Une seule variable, l’opération de « tri à plat »
L’opération de « tri à plat » consiste à présenter les effectifs qui ont répondu à chacune des questions posées dans le questionnaire et à calculer la répartition du pourcentage de ces effectifs par une simple règle de trois (le pourcentage est égal au nombre de l’effectif obtenu pour une réponse/nombre total de l’effectif x 100).
Dans la présentation de tableau :
• Il est possible d’indiquer uniquement les pourcentages pour chacune des réponses mais en précisant à chaque fois le nombre de l’effectif qui est la base du calcul ;
• Il est recommandé de rappeler la question posée afin de mesurer ce que cette question pourrait introduire comme biais.
Une fois ce travail de présentation des données réalisé, le sociologue s’attache à décrire des rapports simples ou à faire ressortir les résultats les plus remarquables qui apparaissent dans les tableaux.
Il constate ainsi par exemple que deux tiers des personnes ou (66 % des personnes interrogées) ont répondu de telle ou telle façon à la question Y. Mais ce premier niveau d’examen se limite aux observations
les plus simples. L’analyse ne prend toute sa dimension que lorsque le sociologue introduit une seconde variable.
L’analyse par tableaux croisés
Un tableau croisé vise à introduire une seconde variable pour chaque réponse. L’objectif est de comparer la répartition de ces réponses non plus uniquement sur le groupe dans sa totalité mais sur des sous- groupes, que la nouvelle variable introduite crée de facto. Il est nécessaire de distinguer la variable dépendante qui correspond à la variable à expliquer ou à comprendre, de la variable indépendante, dite explicative, qui fait varier la variable dépendante.
La lecture du tableau se fait par comparaison entre les différents groupes. Une fois le travail d’observation en profondeur réalisé, le sociologue est en mesure de passer à l’interprétation des résultats observés. Les propositions d’explication de ces résultats peuvent être multiples.
Toutefois, une relation apparente entre deux variables ne peut être interprétée directement comme une relation de causalité certaine. Il est nécessaire de contrôler si les deux variables mises en relation ne sont pas déterminées par une troisième. Le sociologue passe alors d’une analyse bi-variée à une analyse multivariée.
L’analyse « multivariée »
Pour illustrer l’analyse multivariée, nous nous appuierons sur l’étude réalisée par Paul Lazarsfeld, reprise par Raymond Boudon18, sur les préférences en matière d’émissions radiophoniques.
Dans un premier temps, le sociologue tente d’établir une relation entre l’intérêt pour trois types d’émissions radiophoniques (religieuse, politique et de musique classique) et l’âge de l’auditeur. Il observe les résultats présentés ci-dessous.
Une première lecture de ce tableau fait apparaître que les vieux auditeurs (plus de 40 ans) s’intéressent plus aux programmes religieux et politiques que les jeunes auditeurs (âge inférieur ou égal à 40 ans) mais que les différences s’estompent dans l’écoute des émissions de musique classique.
En vue de contrôler si la relation entre l’intérêt pour un type d’émission et l’âge existe réellement, Paul Lazarsfeld introduit une troisième variable, qu’il appelle « variable test ». Il rapporte ainsi à chaque type d’émission non plus uniquement l’âge mais aussi le niveau d’instruction. Ce qui le conduit à distinguer trois cas de figure qui sont présentés ci-dessous sous la forme de tableaux commentés.
- Cas 1. L’écoute d’émissions radiophoniques religieuses en fonction de l’âge et du niveau d’instruction
Paul Lazarsfeld constate ici qu’à un niveau d’instruction inférieur ou supérieur, l’écoute des émissions religieuses est quasiment la même pour les jeunes auditeurs (< ou = à 40 ans) et les vieux auditeurs (> à 40 ans). La relation initialement déduite entre l’intérêt pour les émissions radiophoniques religieuses et l’âge ne se vérifie plus lorsque les auditeurs ne sont plus distingués uniquement par leur âge mais aussi par leur niveau d’instruction.
Par conséquent, ce qui pouvait être interprété comme un détachement par rapport aux valeurs religieuses chez l’ensemble des jeunes auditeurs est en fait à expliquer sur un autre terrain, celui de la formation scolaire.
- Cas 2. L’écoute d’émissions radiophoniques politiques en fonction de l’âge et du niveau d’instruction
Dans ce second cas, le sociologue croise l’intérêt pour les émissions radiophoniques politiques, l’âge et le niveau d’instruction.
Il continue d’observer une relation entre l’âge et l’écoute des émissions politiques puisque plus les auditeurs sont vieux, plus ils s’intéressent à ce type d’émissions. L’introduction de la « variable test » a toutefois une influence puisque les personnes de niveau d’instruction supérieur écoutent davantage les émissions politiques que celles de niveau d’instruction inférieur.
- Cas 3. L’écoute d’émissions radiophoniques de musique classique en fonction de l’âge et du niveau d’instruction
Dans ce troisième cas, la relation, qui n’existait pas à l’origine, entre l’intérêt pour les émissions radiophoniques de musique classique et l’âge apparaît lorsque le sociologue introduit la « variable test », mais dans un sens différent selon le niveau d’instruction : à niveau d’instruction supérieur, les vieux auditeurs (> 40 ans) manifestent un plus grand intérêt pour les émissions de musique classique que les jeunes auditeurs (< ou = 40 ans) alors qu’à niveau d’instruction inférieur, c’est l’inverse.
Cette observation s’explique par un effet d’interaction entre l’âge et le niveau d’instruction, une variable n’ayant d’effet que par l’introduction d’une autre. Autrement dit, il n’est pas possible de conclure ni sur l’influence directe de l’âge, ni sur l’influence directe du niveau d’instruction, sur l’écoute d’émissions radiophoniques consacrées à la musique classique. Les statisticiens utilisent le terme d’« effet d’interaction » pour désigner précisément l’impossibilité de distinguer l’effet des deux « variables ».
Cette démonstration de Paul Lazarsfeld montre à quel point l’analyse se complexifie et s’enrichit dès que le sociologue introduit de nouvelles variables. Si par souci pédagogique l’exemple ici repris se limite à une seule « variable test », il est possible de l’étendre à x nombre de variables. La limite serait guidée par l’effectif des sous-groupes et la difficulté d’interprétation.