Traiter les données
On dit souvent que lorsque l'on arrive au stade de l'analyse d'un projet de recherche, tout le travail a été fait. Les chapitres précédents vous ont guidé à travers les champs de mines potentiels que sont les traditions de recherche et l'élaboration des questions de recherche, l'analyse de la littérature et le choix des outils ou instruments de recherche appropriés. L'objectif de ce chapitre est de vous aider à interpréter et à analyser les données que vous avez collectées. Les données nous parviennent sous de nombreuses formes. Le rôle de l'analyse est de rassembler les données de manière significative et de nous permettre, en tant que chercheurs, de les interpréter ou de leur donner un sens pour nous-mêmes et pour ceux à qui nous rendons compte. Codage et classification des données Avant d'analyser les données, il faut les classer ou les coder d'une manière ou d'une autre. Ce faisant, nous préparons les données à l'analyse. Certains parlent de nettoyage ou d'organisation des données. Par exemple, les données peuvent être organisées en les saisissant dans une feuille de calcul ou en les regroupant par lots en fonction de leur date de réception. Une autre méthode de codage consisterait à convertir les réponses d'un questionnaire sous forme numérique, par exemple. Les dispositifs, outils et instruments de collecte de données que nous avons abordés dans ce manuel permettent de recueillir des données quantitatives (basées sur des chiffres) ou qualitatives (visuelles ou basées sur des textes/mots). Certains dispositifs, tels qu'une enquête utilisant à la fois des questions ouvertes et des questions fermées, permettent de collecter les deux types de données.
D'autres outils de recherche, tels que la recherche expérimentale, reposent uniquement sur des types ou des sources de données quantitatives. Ces classifications fondamentales des types de données déterminent les outils et les techniques d'analyse dont nous disposons en tant que chercheurs. EXEMPLES DE DONNÉES DE RECHERCHE QUANTITATIVES ET QUALITATIVES Données quantitatives ● Nombre d'étudiants inscrits à un programme de formation. ● Évolution des chiffres de vente. ● Importations de voitures au Royaume-Uni en provenance d'autres régions du monde. ● Le nombre de voyageurs par an utilisant un aéroport particulier. ● Vaccinations administrées par des médecins sur une période de plusieurs années. ● Attitudes d'un groupe de personnes à l'égard de l'euthanasie. ● L'interprétation d'un tableau par un visiteur de musée. ● L'interaction d'enfants dans une aire de jeux. ● Les documents déposés lors d'une réunion. ● Des images/vidéos d'un concert de musique sur les médias sociaux. Analyser les données qualitatives Les données qualitatives sont souvent collectées par le biais d'entretiens de recherche, de groupes de discussion et d'observations. Les données qualitatives peuvent également être collectées par le biais de questions ouvertes posées dans le cadre de travaux de recherche basés sur des enquêtes. Elles permettent d'entendre la voix des personnes faisant l'objet de la recherche (Creswell et Creswell, 2018 ; Chandler, Anstey et Ross, 2015). Les données qualitatives sont généralement ana- lysées en les soumettant à une forme de processus de codage. Afin de donner une structure et un sens aux données qualitatives, il faut les coder ou les nettoyer d'une manière ou d'une autre.
Par exemple, un entretien peut (et c'est généralement le cas) produire un grand nombre d'informations relatives à des sujets donnés. Comment les trier ? Comment allons-nous les comparer à d'autres entretiens ? Comment en tirer des thèmes ? Nous présentons ci-dessous un certain nombre d'approches pour traiter l'analyse de données essentiellement qualitatives. Analyse du contenu Un outil souvent utilisé pour faciliter le tri et l'analyse des données qualitatives consiste à évaluer leur contenu par le biais d'un processus structuré. Cette technique est utilisée dans de nombreux organismes de recherche pour classer les données et en tirer des thèmes. Par exemple, un thème peut émerger d'un certain nombre d'entretiens avec des musiciens, selon lequel la pratique d'un instrument de musique a commencé comme un passe-temps à l'école. Ce type de réponse à la question : "Quand avez-vous commencé à vous intéresser à la musique ?" pourrait être classé dans la catégorie "école". Le nombre de catégories ou de thèmes susceptibles d'émerger de vos données dépendra d'un certain nombre de variables telles que la quantité de données collectées et l'étendue des points de vue. Lorsque vous commencerez à coder vos données, vous découvrirez que de nombreuses catégories seront initialement créées. Toutefois, l'objectif de la création de ces catégories est de réduire les données, de sorte que les catégories peuvent devoir être subsumées en super-catégories afin que le lecteur puisse assimiler rapidement les informations. Par exemple, les affirmations "A" et "C" des échantillons de la figure 4.1 pourraient être placées dans la super-catégorie "Pendant le temps passé dans l'éducation".
Le nombre de catégories dépendra de la quantité de données dont vous disposez et des exigences des personnes qui liront le rapport final. Par exemple, s'ils s'intéressent aux détails, davantage de catégories peuvent être nécessaires, alors que s'ils souhaitent une vue d'ensemble, moins de catégories peuvent être plus appropriées. Lors de l'élaboration des codes, il peut être utile de prendre un échantillon de vos entretiens et de développer un cadre de codage à partir de ceux-ci. Un bon critère est d'essayer de développer un cadre à partir d'environ 20 à 30 % de vos entretiens. Toutefois, s'il s'agit d'un grand nombre d'entretiens, il se peut que vous remarquiez des thèmes récurrents et similaires émergeant de la transcription 7 et qui ne sont pas développés dans les transcriptions suivantes. Dans ce cas, vous devrez faire preuve de discernement pour déterminer si l'analyse d'autres transcriptions est appropriée. La réalisation d'une analyse de contenu de vos données implique généralement un certain nombre d'étapes, afin d'établir des catégories de contenu et de définir la valeur et l'impact des catégories ou des thèmes qui émergent au cours du processus. Nous avons identifié ci-dessous les principales étapes de l'élaboration d'un cadre de codage solide permettant d'analyser le contenu des ensembles de données qualitatives. Codage axé sur les concepts et les données Les chercheurs peuvent se préparer à l'analyse des données qualitatives avec des catégories ou des classifications prédéfinies.
Elles peuvent être dictées par un commanditaire ou un client, par exemple. Les catégories prédéfinies peuvent également être basées sur la compréhension du sujet ou de l'environnement de recherche par le chercheur, par exemple lorsque la littérature dans le domaine d'étude peut orienter le chercheur vers certains sujets ou thèmes. Les catégories prédéfinies ou les points d'ancrage des codes dans les données sont souvent qualifiés de "axés sur les concepts". L'autre possibilité, où les catégories ou les codes émergent au fil de l'analyse des données, est qualifiée de "axée sur les données" (Bouvier, 2022). Guides pour vous aider à coder Il existe de nombreux guides ou cadres de codage dont les chercheurs peuvent s'inspirer pour donner un sens et un contexte aux catégorisations et aux classifications. Par exemple, les approches affectives du codage explorent les émotions, les valeurs et les conflits des personnes, ainsi que d'autres qualités subjectives de l'expérience humaine. D'autres mécanismes de codage comprennent également des codes évaluatifs qui peuvent attribuer un élément de jugement de valeur sur le mérite, la valeur ou l'importance d'expériences ou d'événements particuliers (Saldaña, 2015). Logiciel d'analyse des données qualitatives L'analyse des matériaux de recherche qualitative exige que les chercheurs s'immergent dans leurs données afin d'explorer et d'apprécier pleinement leur contenu et leur signification. Ce processus d'immersion dans les données peut être amélioré par l'utilisation d'un logiciel d'analyse des données qualitatives.
Bien que certains pensent qu'il s'agit d'une avancée relativement récente dans le travail avec de telles données, certains des principaux experts en analyse de données qualitatives ont reconnu son potentiel et sa valeur il y a plusieurs décennies. Par exemple, les travaux de Miles et Huberman au début des années 1990 ont montré que les capacités flexibles, récursives et itératives des progiciels offraient aux chercheurs des possibilités avancées d'évaluer et de réévaluer rapidement de riches ensembles de données textuelles (Miles et Huberman, 1994). Depuis lors, un certain nombre de progiciels avancés ont été développés pour aider les chercheurs qualitatifs à gérer le processus de codage, de classification, de catégorisation et d'évaluation des données. NVIVO (https://www.qsrinternational.com/nvivo- qualitative-data-analysis-software/home) NVivo est un logiciel spécialement conçu pour soutenir l'analyse des données qualitatives. Il permet de stocker plusieurs types de données dans son système. Il peut s'agir de fichiers texte issus d'entretiens, de groupes de discussion, de réponses ouvertes à des enquêtes, de messages sur les médias sociaux et de contenus de manuels ou d'articles de journaux. Il peut également contenir d'autres types de données qualitatives telles que des données audio, vidéo et des images. Le logiciel agit comme un classeur pour toutes les données de recherche qualitative et, grâce à des procédures de codage et de classification approfondies, peut produire des évaluations rapides de grands ensembles de données. (Bazeley et Jackson, 2019)
Analyse narrative Lorsqu'ils traitent des données de recherche qualitative, les chercheurs sont souvent chargés de raconter une histoire avec les données. Certains outils ou instruments (tels que les entretiens de recherche, les groupes de discussion, les observations) contiennent des histoires ou des récits riches. Ceux-ci peuvent se concentrer sur l'expérience d'une visite dans un magasin ou sur le niveau de service d'un hôtel après un séjour d'une nuit, par exemple. Une analyse narrative des données dans de telles situations permet aux chercheurs de mieux comprendre l'expérience globale et d'explorer les éléments sous-jacents qui y ont contribué (Clandinin, 2007 ; McIntosh-Scott et al., 2014). L'analyse narrative est devenue un outil utile pour l'interprétation visuelle des données de recherche, car le processus aide à structurer et à mélanger le langage, les chiffres et les graphiques dans des résultats accessibles et largement compris (Durante, 2019). L'analyse narrative diffère des autres façons de traiter les données qualitatives en ce qu'elle englobe un ensemble distinct de thèmes qui la définissent comme un dispositif analytique valide. Il s'agit notamment de : ● L'analyse narrative maintient un intérêt pour les expériences vécues par les personnes et une appréciation de l'explication de la nature de cette expérience. ● Dans le cadre de cette approche, il existe un désir de responsabiliser les partici- pants à la recherche et de leur permettre de contribuer à déterminer quels sont les thèmes les plus saillants dans un domaine de recherche.
● L'analyse narrative s'intéresse au processus et au changement dans le temps. ● L'analyse narrative se concentre sur le soi et les représentations du soi. ● Au sein de l'analyse narrative, il y a une prise de conscience de l'effet du chercheur en tant que conteur. (Elliot, 2005, p. 6 ; Phoenix, Smith et Sparkes, 2010) L'analyse narrative est centrée sur l'histoire et la présentation de l'histoire. Les histoires sont analysées pour révéler des interprétations et des perspec- tives sur le monde social (Mannay, 2015). En substance, ils s'intéressent aux significations et à l'idéologie véhiculées par l'histoire, aux techniques et aux dispositifs de communication utilisés par le conteur et à la manière dont l'histoire est liée au contexte culturel et historique dans lequel elle est racontée (Denscombe, 2017, p. 292) Narration numérique - digital storytelling L'analyse narrative est généralement produite sous la forme de comptes rendus écrits d'expériences et d'interprétations du monde social. Cependant, la narration numérique (visuelle) est un outil puissant pour aider à explorer les compréhensions et les perspectives à partir de la position des participants à un projet de recherche (Alexander, 2017). Les puristes de la technique de narration citent Joe Lambert comme le gourou de ce dispositif de recherche ou d'évaluation. Il a développé sept étapes pour une narration efficace qui aide les sujets/participants à s'engager dans le processus de narration de leur propre histoire et à exposer l'impact qu'elle a garanti.
Grâce à ce processus, le contrôle et la propriété des données utilisées pour produire l'histoire, ainsi que la narration ou le partage de l'histoire, sont attribués au participant. Cela permet au chercheur de jouer le rôle de guide et de facilitateur, en aidant les participants à explorer ce qui est important pour eux dans l'histoire (Lambert, 2018). Cette technique a été utilisée dans un certain nombre de contextes pour donner une "voix" aux personnes faisant l'objet de la recherche et permet de raconter des histoires qui sont liées à la vie réelle, à l'expérience vécue. La boîte à outils conçue par Action for ME (Encéphalomyélite Myalgique ou Syndrome de Fatigue Chronique) en est un exemple. Ce manuel a fourni aux personnes souffrant d'E.M. les outils et la confiance nécessaires pour raconter leur histoire afin d'aider les autres à comprendre l'impact de l'E.M. (Action for M.E., 2014) Analyse du discours L'analyse du discours tente de décortiquer le texte et le langage en les plaçant dans un cadre social, culturel et politique. Elle se distingue ainsi des autres formes d'analyse que nous pourrions utiliser avec des données qualitatives, car elle ne se contente pas d'identifier ce qui se trouve dans les données, mais met également en lumière ce qui en est absent. Elle inclut des preuves explicites, mais prend également en compte ce qui n'est pas dit (et sous-entendu) (Denscombe, 2017, p. 289).
L'analyse du discours est particulièrement utile pour certaines formes de recherche. Par exemple, vous pouvez souhaiter explorer ou examiner les effets et les impacts des différents types de langage utilisés dans un environnement ou un cadre particulier. Vous pouvez vous intéresser aux codes culturels, aux règles et aux conventions qui sont présents lorsque des groupes ou des individus communiquent. Une autre utilisation intéressante de l'analyse du discours serait d'examiner comment l'utilisation de la langue est liée à son contexte social, politique et historique. C'est sur ce point que se sont concentrés les travaux portant sur la décision du Royaume-Uni de se retirer de l'Union européenne en janvier 2020. Les chercheurs ont examiné comment le discours a influencé la décision de se retirer et quel discours a émergé en conséquence (Koller, Kopf et Miglbauer, 2019). CADRE DE L'ANALYSE DU DISCURS L'analyse du discours repose sur trois étapes : 1. Analyse du texte - y compris l'exploration du langage et de la façon dont il est structuré dans le contexte analysé. 2. L'analyse de la pratique - qui comprend la manière dont les personnes étudiées produisent, évaluent, interprètent et consomment le texte. 3. L'analyse du contexte social - qui comprend l'exploration des questions liées au pouvoir incorporé dans le texte, et la manière dont cela a un impact au niveau local et dans la société au sens large. (Fairclough, 2003) Analyse critique du discours L'une des caractéristiques de toutes les applications de l'analyse du discours en tant qu'outil ou dispositif d'analyse de la recherche est qu'elle se concentre sur ce que les gens disent dans des contextes sociaux et culturels.
L'objectif principal est donc de se concentrer sur la façon dont la langue est utilisée dans les situations de la vie réelle. Il existe un certain nombre de modes par lesquels l'analyse du discours peut être explorée ; l'un des plus populaires est l'analyse critique du discours. L'analyse critique du discours comporte deux dimensions : L'événement ou le sujet examiné (par exemple, l'égalité et la diversité) et la manière dont le langage est utilisé dans une institution sociale particulière (par exemple, dans le cadre d'une école ou d'un établissement d'enseignement supérieur). Par essence, l'approche est "critique" car elle compare l'étude de la langue à l'étude de son contexte (qui peut être sociétal, politique ou économique, par exemple) (Bloor et Bloor, 2007). AVANTAGES DE L'ANALYSE DU DISCURS ● L'analyse du discours aide les chercheurs à découvrir les motiva- tions qui se cachent derrière un texte en leur permettant d'envisager un problème sous différentes perspectives ou points de vue. ● En tant que dispositif de recherche, elle est utile pour étudier le sens sous-jacent d'un texte parlé ou écrit, car elle tient compte des contextes sociaux et historiques ● En tant que mécanismes structurés d'évaluation du texte ou du langage utilisé, elle permet aux chercheurs de mieux comprendre la fonction du langage et la manière dont le discours peut être utilisé pour favoriser un changement social posi- tif. (Wooffitt, 2005 ; Rapley, 2018) Théorie ancrée
La théorie ancrée est un outil ou un instrument de recherche qui peut être utilisé pour analyser des données qualitatives (bien qu'elle puisse prendre en compte, dans le cadre du processus, des données quantitatives telles que des informations liées à la performance et des mesures liées à la santé). Elle s'intéresse principalement à l'émergence de modèles dans les données et à l'élaboration ultérieure de théories à partir de ces données. Cette approche de la recherche a été développée aux États-Unis par Glaser et Strauss dans les années 1960 (Glaser et Strauss, 1967). Cette méthode d'analyse est centrée sur la formulation d'une théorie autour des données, ce qui permet d'"ancrer" la recherche dans des données réelles. Des cas supplémentaires peuvent ensuite être examinés pour voir s'ils sont pertinents et s'ils peuvent compléter la théorie initiale (Urquart, 2012). Depuis son introduction en tant qu'approche pour traiter des données de recherche essentiellement qualitatives, la méthodologie de la théorie ancrée a été adaptée et a maintenant de multiples variantes, toutes avec des interprétations uniques de la façon dont la théorie peut être "ancrée" dans les données dont elle émerge (Bryant et Charmaz, 2019). Malgré les modifications et les changements apportés à la théorie au cours du dernier demi-siècle, toutes les approches s'accordent sur le fait que : (1) la construction de la théorie est un élément central de la théorie ancrée, (2) les principes de fonctionnement de la théorie ancrée diffèrent de ceux généralement associés à la recherche quantitative, et (3) la théorie ancrée émerge d'une analyse rigoureuse des données, et non de l'adoption de théories déjà existantes (Corbin et Strauss, 2014).
. ● En tant que mécanismes structurés d'évaluation du texte ou du langage utilisé, il permet aux chercheurs de mieux comprendre la fonction du langage et la manière dont le discours peut être utilisé pour favoriser un changement social posi- tif. (Wooffitt, 2005 ; Rapley, 2018) UN CADRE THÉORIQUE FONDÉ POUR L'ANALYSE DES DONNÉES 1. Les données doivent être collectées et analysées simultanément. 2. Les données doivent être analysées séparément d'un examen traditionnel de la littérature, car cela peut introduire un biais dans la génération de théories à partir des données (Glaser, 1998). 3. Les chercheurs doivent s'efforcer de créer des catégories analytiques dès le début du processus de recherche. 4. L'analyse doit commencer dès le début du processus et se poursuivre tout au long de celui-ci. 5. Prendre des échantillons des données collectées afin de développer des idées multiples et de générer une théorie significative. (Charmaz, 2015) Analyse des données quantitatives Les données quantitatives sont produites par les questions fermées des enquêtes, les données produites par la recherche expérimentale et la conversion des données des répondants sous forme numérique. Les données quantitatives peuvent être analysées de différentes manières, notamment en décrivant les caractéristiques des données (analyse descriptive), en tirant des conclusions à partir des données et en émettant des jugements à leur sujet (analyse inférentielle). Nous présentons ci-dessous quelques-unes des méthodes traditionnelles de traitement des données de recherche généralement collectées et rassemblées dans le cadre de la plupart des projets de recherche à caractère social.
3. Les chercheurs doivent s'efforcer de créer des catégories analytiques dès le début du processus de recherche. 4. L'analyse doit commencer dès le début du processus et se poursuivre tout au long de celui-ci. 5. Prélever des échantillons à partir des données collectées afin de développer des idées multiples et de générer une théorie significative. (Charmaz, 2015) ANALYSE DESCRIPTIVE DES DONNÉES Comme son nom l'indique, ce type d'analyse décrit les données. Les techniques descriptives permettent de résumer, de codifier et de visualiser les données collectées de manière à faire apparaître des schémas dans les données. L'analyse descriptive des données précède généralement l'analyse inférentielle des données. ANALYSE INFERENTIELLE DES DONNÉES L'analyse inférentielle des données utilise des outils et des techniques plus avancés que les méthodes descriptives pour interroger et explorer les données. Les techniques inférentielles sont souvent utilisées pour comparer les différences entre les groupes étudiés dans le cadre d'un projet de recherche (par exemple, ceux qui ont suivi un programme de formation par rapport à ceux qui ne l'ont pas suivi). Les statistiques inférentielles peuvent être puissantes lorsqu'elles sont utilisées pour faire des généralisations sur une population plus large (comme l'ensemble des étudiants universitaires), sur la base d'un plus petit nombre de participants ou de sujets du projet de recherche (dans ce cas, une sélection d'étudiants universitaires). SPSS (https://www.ibm.com/products/spss-statistics) SPSS signifie "Statistical Package for the Social Sciences" et a été lancé pour la première fois en 1968.
Depuis que SPSS a été racheté par IBM en 2009, il est officiellement connu sous le nom d'IBM SPSS Statistics, mais la plupart des utilisateurs continuent de l'appeler "SPSS". Il s'agit d'une suite combinée de programmes logiciels qui analysent les données liées aux projets de recherche généralement menés dans le domaine des sciences sociales. Il offre un environnement de modélisation rapide et visuel qui s'étend des modèles les plus petits aux plus complexes. Les fonctionnalités de base proposées dans SPSS sont : ● L'analyse statistique de données quantitatives, y compris les frequen- cies, les tableaux croisés et l'analyse bivariée associée La modélisation à partir de données, permettant aux chercheurs de construire et de valider des modèles prédictifs à l'aide de procédures statistiques avancées. ● L'analyse de texte, offrant la possibilité de lier et de coder des données numériques avec des éléments ouverts dans les enquêtes et les entretiens afin de fournir un contexte supplémentaire à l'analyse. ● Concepteur de visualisation, permettant aux chercheurs d'utiliser leurs données pour une variété de représentations visuelles. (Pallant, 2020 ; Field, 2017) Académique Souvent, les chercheurs universitaires travaillent à partir d'un domaine disciplinaire ou d'une perspective particulière. Cela influence l'approche de l'analyse qu'ils adoptent dans leur travail. Industrie Les travaux de recherche menés à des fins commerciales sont fortement influencés par l'impact sur le "résultat net" et peuvent souvent privilégier des indicateurs quantitatifs de l'effet ou de l'impact de la recherche. Secteur public
Secteur public Historiquement, la recherche dans le secteur public n'est pas liée à une approche particulière de la collecte et de l'analyse des données (qu'elle soit quantitative ou qualitative). L'importance est souvent influencée par le type et la portée du travail de recherche effectué. Société Pour avoir un impact et une résonance en termes sociétaux, la recherche est souvent convertie en un récit ou une histoire. Cela permet aux travaux de recherche d'établir un lien avec les utilisateurs et les lecteurs de rapports. Outils et techniques descriptifs Il existe de nombreuses façons d'analyser les données quantitatives. La référence aux connaissances de votre public est une préoccupation majeure. Par exemple, une enquête sur les admissions à l'hôpital peut être menée en collectant et en présentant des données sur le nombre d'admissions au cours d'une année donnée. Cependant, l'analyse pourrait inclure une ventilation des admissions par sexe et une comparaison des dernières années (voir les exemples ci-dessous). Ces données peuvent avoir été collectées dans le cadre d'un projet de recherche plus vaste portant sur la gestion et les performances de l'hôpital Paperfield, ou elles peuvent avoir été obtenues à partir d'une base de données nationale sur les admissions à l'hôpital. Une autre façon de présenter ou d'analyser ces types de données consisterait à indiquer le pourcentage d'admissions d'hommes et de femmes au cours de périodes données, comme le montrent les graphiques ci-dessous.
Il s'agit d'un moyen utile et visuel de montrer toute augmentation ou diminution des admissions d'hommes et de femmes. Essentiellement, les types d'interprétations graphiques et visuelles ci-dessus fournissent un mécanisme permettant de décrire vos données. Ils permettent de réduire les données à des résumés accessibles et faciles à comprendre. Une exploration plus approfondie des informations principales présentées ci-dessus pourrait révéler diverses sous-catégories ou classifications des données - telles que la durée de l'admission, le service qui a admis le patient, le médecin en charge du patient, le lieu d'admission, etc. Cela peut s'avérer utile et instructif, mais risque d'embrouiller ceux qui liront les résultats de votre recherche s'ils ne s'intéressent qu'au nombre de patients admis. Pour ceux qui s'intéressent au détail du nombre de patients admis à l'hôpital, vous pouvez produire un rapport séparé ou un complément technique détaillant la ventilation supplémentaire des données. Par exemple, vous souhaiterez peut-être explorer davantage vos données pour déterminer l'âge des personnes admises. Supposons que 50 femmes aient été admises dans un petit service de l'hôpital Paperfield en 2022 et que les données relatives à leur âge soient mises à votre disposition. Elles pourraient ressembler à l'ensemble de données ci-dessous. Que pouvez-vous faire avec ces données ? Lorsqu'elles sont simplement présentées comme dans la figure 4.5, elles sont difficiles à interpréter.
Vous pourriez commencer par prendre les données et dresser la liste des âges, du plus élevé au plus bas. Toutefois, cela n'apporterait pas grand-chose à l'analyse des données (même si cela vous permettrait d'établir rapidement la plus âgée et la plus jeune des femmes admises). Une façon utile de présenter les données serait de produire un "tableau de décompte" indiquant combien de fois chaque âge apparaît sur la liste. Cela peut révéler des informations intéressantes sur les données. Bien que la production d'un graphique de totalisation (ou d'un graphique de fréquence) vous aide à analyser les données relatives à l'âge, il reste difficile d'en tirer des conclusions utiles. Il peut être utile de réduire davantage les données en catégories plus larges ou "morceaux", et l'utilisation de fourchettes d'âge peut y contribuer. Lorsque vous regroupez des données en fonction de l'âge, vous pouvez les regrouper de différentes manières. Toutefois, il est d'usage d'utiliser des catégories quinquennales, comme le montre l'exemple ci-dessous. Décrire les données La catégorisation (ou "découpage") des données dans les exemples ci-dessus nous permet maintenant de voir que, parmi les femmes admises dans ce service, plus de femmes étaient âgées de 44 à 48 ans que tout autre groupe. Cette affirmation fait référence à la tranche d'âge la plus représentée. Cette tranche d'âge est également connue sous le nom de mode. Le mode, la médiane et la moyenne
Si vous souhaitez déterminer la tranche d'âge qui se situe au centre de toutes vos tranches, il s'agit de la tranche d'âge médiane. Pour trouver la médiane, vous devez dresser la liste des âges, du plus élevé au plus bas, et compter à partir de chaque extrémité jusqu'à ce que vous atteigniez le milieu. Dans ce cas, l'âge médian est de 45 ans. Lorsqu'il y a un nombre pair de valeurs (âges dans ce cas), la médiane est la moyenne des deux points médians (45 + 45 divisé par deux égale 45). LE MODE Le mode d'un groupe de données est la valeur la plus fréquente. Par exemple, dans les résultats d'un examen, il s'agit de la note la plus fréquente. LA MÉDIANE La médiane est la valeur qui sépare la moitié supérieure d'une liste de valeurs de la moitié inférieure. La médiane est donc le point central d'une liste ordonnée de valeurs. Si cet exercice est utile pour déterminer la valeur médiane, il n'en demeure pas moins qu'il prend beaucoup de temps. Tout d'abord, vous devez classer ou énumérer vos âges dans l'ordre, puis vous devez établir votre point médian. Une autre façon de calculer le milieu d'un ensemble d'âges (ou de valeurs) est d'utiliser la valeur moyenne. La moyenne est calculée en additionnant tous les âges et en divisant le résultat par le nombre de femmes admises. Par conséquent, le total de tous les âges (2264) divisé par le nombre de femmes admises (50) est égal à 45,28.
L'âge moyen des femmes admises dans ce service en 2022 était de 45 ans. Le mode, la médiane et la moyenne sont des mesures de la tendance centrale. Ils fournissent les valeurs uniques qui décrivent le mieux le groupe. Analyser vos données 99 LE MODE Le mode d'un groupe de données est la valeur la plus fréquente. Par exemple, dans les résultats d'un examen, il s'agirait de la note la plus fréquente. LA MÉDIANE La médiane est la valeur qui sépare la moitié supérieure d'une liste de valeurs de la moitié inférieure. La médiane est donc le point central d'une liste ordonnée de valeurs. Si cet exercice est utile pour déterminer la valeur médiane, il n'en demeure pas moins qu'il prend beaucoup de temps. Tout d'abord, vous devez classer ou énumérer vos âges dans l'ordre, puis vous devez établir votre point médian. Une autre façon de calculer le milieu d'un ensemble d'âges (ou de valeurs) est d'utiliser la valeur moyenne. La moyenne est calculée en additionnant tous les âges et en divisant le résultat par le nombre de femmes admises. Par conséquent, le total de tous les âges (2264) divisé par le nombre de femmes admises (50) est égal à 45,28. L'âge moyen des femmes admises dans ce service en 2022 est de 45 ans. Le mode, la médiane et la moyenne sont des mesures de la tendance centrale. Ils fournissent les valeurs uniques qui décrivent le mieux le groupe. MOYENNE
La moyenne est définie comme la somme des valeurs divisée par le nombre total de valeurs. Par exemple, la moyenne des résultats d'un examen est de : On divise alors le total (419) par le nombre de résultats (7) = 59. Moyenne des résultats d'examen = 59 Par la suite, vous souhaiterez peut-être explorer davantage la fréquence des âges des femmes admises au cours de l'année 2022. Une façon visuelle de le faire serait d'élaborer un graphique de distribution de fréquence, comme illustré ci-dessous. Microsoft Excel peut produire ces graphiques très facilement, tout comme SPSS et d'autres logiciels d'analyse de données quantitatives. Ce graphique montre que la plupart des femmes admises au département A avaient moins de 46 ans. Vous remarquerez qu'il y a plus d'activité dans le graphique entre les âges de 19 et 46 ans (il y a plus d'admissions de femmes dans ces catégories). C'est ce que l'on appelle une distribution asymétrique, dans laquelle les résultats sont regroupés d'un côté du tableau ou du graphique. Dans de nombreuses études, les chercheurs peuvent s'attendre à trouver une distribution de données où la plupart des valeurs sont regroupées autour du milieu du tableau ou du graphique. C'est ce qu'on appelle une distribution normale. Si tel était le cas, vous remarqueriez que les valeurs du mode, de la médiane et de la moyenne sont toutes similaires. Par exemple, on peut s'attendre à ce qu'une distribution normale se produise lorsqu'on examine les résultats des examens des étudiants de premier cycle.
Cela peut ressembler à la figure 4.9. Écart-type A partir de données normalement distribuées, vous pouvez mesurer la distribution des valeurs autour de la moyenne. En reprenant l'exemple de la note d'examen, cette mesure serait utile car elle vous permettrait d'établir le degré de dispersion ou de différence entre les notes. Si l'écart-type est important, les notes varient considérablement, tandis que si l'écart-type est faible, les notes sont plus étroitement regroupées et plus proches les unes des autres. L'écart-type est une technique statistique de base essentielle, qui constitue la base de nombreuses techniques plus avancées. Essentiellement, l'écart type fournit une moyenne de tous les écarts par rapport à la moyenne. Il existe plusieurs façons de calculer l'écart-type, la plupart des logiciels utilisant une formule et un processus similaires à ceux décrits ci-dessous. Après avoir établi l'écart-type pour les notes d'examen, nous pouvons constater qu'il existe une certaine dispersion entre les résultats. En outre, si les distributions des notes sont normales (comme le montre la figure 4.11 ci-dessous), certaines affirmations peuvent être faites à propos des résultats.
Dans une distribution normale, l'intervalle de -1 écart-type à +1 écart-type contient 68 % des résultats, l'intervalle de -2 écarts-type à +2 écarts-type contient 95 % des résultats et l'intervalle de -3 écarts-type à +3 écarts-type contient 99 % des résultats. L'écart-type est un moyen utile de comparer différents ensembles de données. Par exemple, il peut être utilisé pour comparer la variabilité de différents résultats d'examens - tels que le droit et la comptabilité - au sein d'une cohorte d'étudiants. Il sert également de base à de nombreuses analyses statistiques plus détaillées de vos données - par exemple, l'analyse inférentielle abordée plus loin dans ce chapitre. L'écart-type est un outil utilisé pour mesurer la dispersion. L'écart-type indique la relation entre un ensemble de valeurs et la moyenne. En supposant que la distribution des notes est normale, certaines affirmations peuvent être faites à propos des données (69 % des valeurs se situent à moins d'un écart-type de la moyenne, 95 % se situent à moins de deux écarts-types de la moyenne et 99 % se situent à moins de trois écarts-types). Associer des données Il se peut que vous souhaitiez explorer, à partir de certaines de vos données, les relations possibles entre deux ensembles différents de données (ou de variables).
C'est ce que l'on appelle souvent la recherche par corrélation. Il existe de nombreuses techniques permettant d'explorer les relations entre les variables. Deux des méthodes les plus couramment utilisées pour explorer les relations entre les variables sont le coefficient de corrélation du moment produit de Pearson et le coefficient de corrélation de rang de Spearman. Ces deux analyses indiquent si une association est positive (avec une valeur maximale de +1) ou négative (avec une valeur maximale de -1). Les résultats de l'analyse sont généralement présentés sous forme de diagrammes de dispersion. Les exemples de graphiques présentés ici montrent trois types de relation entre le nombre d'heures de télévision regardées et l'âge du téléspectateur. Dans le premier exemple, il y a une forte relation positive, représentée par des graphiques qui montent en progressant de gauche à droite. Le deuxième exemple montre une forte relation négative entre les deux ensembles de données, indiquant que (dans cet échantillon de données particulier) les téléspectateurs plus âgés regardent moins la télévision. Cela est démontré par le fait que les graphiques se déplacent vers le bas à mesure qu'ils progressent de la gauche vers la droite. Le dernier exemple ne semble pas montrer de relation entre les deux ensembles de données, car les graphiques ne se déplacent ni vers le haut ni vers le bas lorsqu'ils progressent de gauche à droite. Formule de corrélation des données
La formule détaillée de la recherche sur les corrélations n'est pas abordée ici, mais il existe un certain nombre d'excellentes sources de référence pour vous guider dans l'analyse de vos données à l'aide de cette technique et d'autres techniques descriptives (Winston, 2022 ; McFedries, 2019 ; Pallant, 2020). Un exemple simple qui met en évidence la formule et les processus impliqués consisterait à explorer le potentiel d'une relation entre les notes d'examen et le nombre de cours magistraux suivis. En utilisant l'approche du coefficient de corrélation du moment du produit de Pearson (R), l'analyse serait structurée autour de l'utilisation de la formule présentée à la figure 4.15. Le calcul manuel ci-dessus et l'évaluation de la corrélation montrent qu'il existe une forte corrélation positive entre les deux variables que sont les notes d'examen et le nombre de cours magistraux suivis. Nous nous attendions probablement à ce que ce soit le cas, et il est agréable que les données le confirment. Toutefois, les chercheurs doivent être prudents lorsqu'ils effectuent des analyses de corrélation sur des données collectées. L'apparition d'une relation ne signifie pas nécessairement qu'il en existe une - elle n'indique pas de lien de causalité. En d'autres termes, la corrélation ne prouve pas qu'une variable est à l'origine de la modification de la valeur d'une autre. Une analyse descriptive ou un rapport de vos données est un moyen utile de présenter les données au lecteur.
Une analyse ou un rapport descriptif de vos données est un moyen utile de présenter les données au lecteur. À partir d'une analyse générale, vous pouvez passer à un examen plus détaillé de vos données (si cela est approprié, compte tenu des exigences du lecteur ou de l'utilisateur de votre recherche). Les questions posées ici peuvent être les suivantes Interpréter ou questionner vos données de cette manière conduit souvent à porter des jugements ou à faire des déductions à leur sujet, ou (plus souvent) au sujet de la population plus large dont elles sont issues. Ce type de questions et d'intérêts est exploré par le biais de l'analyse inférentielle des données. Une analyse inférentielle de vos données vous aide à tirer des conclusions sur les données en effectuant certaines opérations sur celles-ci. Avec l'analyse inférentielle, vous déduisez des données de votre échantillon (par exemple, les notes d'examen) ce que sont les notes de la population (par exemple, les notes d'un groupe entier d'étudiants de premier cycle). ÉCHANTILLON Un échantillon est une sélection prélevée dans un groupe ; il est généralement considéré comme représentatif de ce groupe. Par conséquent, les résultats de l'échantillon peuvent être généralisés à l'ensemble du groupe. POPULATION Une population est un groupe qui partage les mêmes caractéristiques.
Par exemple, une population peut être composée de membres d'un club, d'infirmières, d'étudiants ou d'enfants. La principale différence entre l'analyse inférentielle et l'analyse descriptive réside dans le fait qu'avec les techniques descriptives, vous décrivez simplement les données telles qu'elles vous sont présentées. Avec l'analyse inférentielle, vous testez ou effectuez une opération sur les données afin de tirer des conclusions à leur sujet. Signification statistique Une méthode populaire d'analyse inférentielle consiste à juger de la probabilité que la différence entre, par exemple, les notes moyennes obtenues à un examen de droit par un échantillon d'étudiants et d'étudiantes soit représentative de l'ensemble des étudiants et étudiantes inscrits au programme de droit, ou qu'elle soit due au hasard. De cette façon, on dit que nous testons la signification de la différence entre les notes d'examen. En termes statistiques, lorsque nous testons la signification, nous devons d'abord faire une déclaration ou une hypothèse sur les données. HYPOTHÈSE Une hypothèse est une proposition ou une déclaration que vous souhaitez tester avec vos données. Elles sont communément appelées "hypothèses nulles". Il s'agit d'affirmations négatives qui doivent être réfutées afin de valider l'affirmation faite. Par exemple, l'hypothèse pour l'exemple du score à l'examen pourrait être la suivante : Il n'y a pas de différence significative entre les notes des hommes et celles des femmes aux examens.
Cette affirmation est connue sous le nom d'hypothèse non directionnelle, car elle indique simplement qu'il n'y a pas de différence. Les tests statistiques à effectuer sur ce type d'hypothèse sont appelés tests bilatéraux. Toutefois, si l'hypothèse était formulée comme suit : "Les hommes ont de meilleurs résultats que les femmes aux examens", l'hypothèse devient directionnelle et un test unilatéral est nécessaire. Les exigences d'un test unilatéral sont plus strictes que celles d'un test bilatéral, car ce dernier vise uniquement à prouver l'existence d'une différence, alors que le premier vise à déterminer qui est favorisé par cette différence. Test de signification Les chercheurs disposent d'un certain nombre de tests statistiques pour étudier les hypothèses. Il s'agit notamment du test t, de l'analyse de la variance (ANOVA) et de l'analyse de la covariance (ANCOVA). Il s'agit de techniques statistiques plus avancées et, bien qu'elles ne soient pas détaillées ici, elles sont étudiées dans les textes statistiques traditionnels (Pallant, 2020 ; Field, 2017 ; Rowntree, 2018). Présenter vos données Comme ce chapitre l'a montré, les données peuvent être présentées de différentes manières. Lorsque vous présentez vos données, vous le faites sous l'une des deux formes principales suivantes : Un tableau ou un graphique. Les tableaux reproduisent souvent des données brutes. Ils doivent être clairs et épurés.
Dans les rapports de recherche, les tableaux sont souvent utilisés pour présenter des résultats, souligner un point soulevé dans le texte ou servir de point de départ à une discussion ou à une analyse d'un aspect des données. Même si votre rapport ne comporte qu'un seul tableau, celui-ci doit être clairement identifié par un titre et un numéro de référence. Certaines organisations et institutions ont un "style maison" particulier pour la présentation des données. SIGNIFICATION STATISTIQUE La signification statistique fait référence à la mesure dans laquelle, par exemple, les résultats d'examen d'un groupe d'étudiants pourraient être dus au seul hasard. Si les résultats ne peuvent être expliqués par le hasard, on suppose qu'un autre facteur, tel que le nombre de cours magistraux suivis, a eu un impact sur les résultats. L'un des deux niveaux de signification est généralement appliqué lors des tests de signification statistique : 0,05 et 0,01. Ces niveaux indiquent le degré de confiance dans l'hypothèse que le hasard n'est pas en cause. Bien que 0,01 soit le degré le plus strict, les deux peuvent être considérés comme produisant des résultats statistiquement significatifs. Les diagrammes ou les figures sont des représentations plus graphiques de vos données ou des résultats de leur analyse. Ces outils de présentation nécessitent également un étiquetage soigneux et clair. La présentation de vos données sous la forme d'une figure ou d'un graphique peut inclure la construction d'un histogramme, d'un diagramme à barres ou d'un diagramme circulaire.
Comme nous l'avons vu précédemment, ces graphiques sont souvent utilisés pour présenter des analyses descriptives de vos données. Les analyses plus complexes de vos données, telles qu'une exploration de la corrélation, sont mieux présentées sous forme de diagrammes de dispersion ou de graphiques linéaires. CONSEILS POUR PRÉSENTER LES DONNÉES ● Rappelez au lecteur la ou les questions de recherche lors de la présentation des données. Cela permet de mieux cibler le sujet. ● Passez du général au spécifique. Par exemple, indiquer les conclusions générales avant de passer aux éléments plus spécifiques et détaillés. ● Conservez les données liées ensemble dans votre rapport et traitez-les dans un seul chapitre ou une seule section si possible. Cela facilite le flux et la structure de votre rapport. ● Veillez à ce que les tableaux et les figures soient simples ! Tout détail doit être fourni dans une clé d'accompagnement ou dans une annexe à la fin du rapport. Traiter des quantités de données toujours plus importantes - le rôle de la visualisation des données La quantité totale de données créées, capturées, copiées et consommées à l'échelle mondiale devrait augmenter rapidement, pour atteindre 64,2 zettaoctets en 2020 (un zettaoctet correspond à un milliard de téraoctets) (Statistica, 2022). Pour que les données soient accessibles et utiles, elles doivent d'abord être traitées et préparées en vue d'une consommation générale. La préparation et la condensation des données pour une consommation plus générale est l'objectif de la visualisation des données.
Dans sa définition la plus simple, la visualisation des données est la représentation graphique des données (Boy, Detienne et Fekete, 2015 ; Knaflic, 2015 ; Kosara et MacKinlay, 2013). La visualisation des données a le pouvoir de communiquer des informations complexes d'une manière compréhensible et facile d'accès et peut permettre aux utilisateurs de les interroger pour répondre à un besoin particulier (Durante, 2019). Historiquement, elle a eu tendance à se concentrer sur l'exploration et l'analyse, mais aujourd'hui, les données peuvent être déployées pour raconter des histoires riches par des moyens visuels et imaginatifs (Feigenbaum et Alamalhodaei, 2020 ; Telling, 2017 ; McCandless, 2022 ; McCandless, 2021). Il est généralement admis que la narration de données ne doit pas nécessairement suivre une séquence linéaire ; elle peut également être réalisée par le biais d'une interactivité invitant à la vérification, à de nouvelles questions et à des explications alternatives (Segel et Heer, 2010). CINQ ÉTAPES D'UNE VISUALISATION EFFICACE DES DONNÉES 1. Analyser : Comprendre les données et ce qu'elles vous disent. Éviter les pièges liés aux données. Vérifiez les sources de vos données - sont-elles fiables ? 2. Construire : Déterminez votre objectif et clarifiez pour qui vous créez les visualisations. Pensez à votre public et à la façon dont il traite les données et les consomme habituellement. 3. Conception : Choisissez des palettes de couleurs appropriées (en veillant à ce qu'elles soient adaptées aux daltoniens). Mettez des étiquettes sur tous vos graphiques, utilisez des polices de caractères largement accessibles et lisibles.
4. Raconter : Utiliser la narration pour engager et encourager le lecteur. Utiliser des annotations si nécessaire pour donner au lecteur/spectateur un contexte et un sens supplémentaires. 5. Partager : Utilisez les bons outils pour afficher les données et faites en sorte qu'elles puissent être partagées autant que possible. Des sites web dédiés facilitent grandement la distribution et le partage des visualisations. (Dijk, 2022) Résumé Les données de recherche sont collectées sous diverses formes. Dans ce chapitre, nous avons identifié un certain nombre de façons de les traiter et de les analyser. Nous avons classé les outils ou techniques d'analyse comme étant essentiellement qualitatifs ou quantitatifs en fonction du type de données collectées (texte visuel, audio pour le qualitatif, numérique pour le quantitatif). L'analyse de contenu est une méthode populaire pour traiter les données qualitatives et les convertir en codes et catégories significatifs. L'analyse narrative explore les histoires dans les données qualitatives ; l'analyse du discours examine le langage et l'utilisation du texte et explore son contexte et sa signification. La théorie ancrée est une approche de l'analyse des données qualitatives qui développe une signification et une théorie "ancrée" ou émergeant des données. Les outils d'analyse des données quantitatives présentés comprennent des outils ou des techniques descriptifs. Ceux-ci cherchent à gérer et à réduire les données par des processus qui incluent la catégorisation et la classification.
Les méthodes typiques de regroupement et de classification des données comprennent les comptages de fréquence, les proportions ou les pourcentages, les distributions de données et les écarts par rapport à la moyenne. L'analyse inférentielle et la formulation de jugements de valeur sur les données ont également été brièvement abordées. Enfin, le chapitre se termine par un examen du domaine émergent de la visualisation des données, la création de graphiques accessibles et la représentation visuelle de données complexes. Dans le cadre de leur travail sur des ensembles de données vastes et complexes, les experts en visualisation de données ont créé des approches innovantes pour présenter les données de manière significative et accessible. VARIABLES Une variable est l'un des facteurs de vos données. Par exemple, la taille, le poids ou les résultats des tests peuvent être des variables. Les variables peuvent être indépendantes ou dépendantes. Une variable dépendante est une variable que l'on s'attend à voir changer à la suite d'une augmentation ou d'une diminution d'une variable indépendante associée. Par exemple, on peut s'attendre à un changement dans les résultats des examens (variable dépendante) à la suite d'une augmentation du nombre de cours magistraux suivis (variable indépendante).