Collecte et transcription des données dans l'analyse du discours : Une histoire technologique

Par Gisles B, 12 février, 2023

LA COLLECTE DE DONNÉES EN TANT QU'ACTION MÉDIATISÉE

Ce chapitre se concentre sur la collecte et l'analyse des données en tant que pratiques culturelles et matérielles des analystes du discours (Jaffe 2007). En particulier, je me concentrerai sur la manière dont, au cours du dernier demi-siècle, ces pratiques ont été affectées par différentes technologies telles que les magnétophones, les caméras vidéo et les ordinateurs, chacune d'entre elles ayant rendu possible de nouveaux types de connaissances et de nouvelles identités disciplinaires, et chacune d'entre elles ayant fondamentalement changé notre compréhension du discours lui-même. Je me limiterai à discuter de la collecte et de la transcription de données provenant d'interactions sociales en temps réel (en particulier le discours parlé). Je ne me pencherai pas sur les questions relatives à la collecte de textes écrits, qui présente ses propres complications.

Depuis la publication en 1979 de l'article révolutionnaire d'Elinor Ochs intitulé "Transcription as Theory", il est devenu évident que la collecte et la transcription des données sont affectées par les intérêts théoriques de l'analyste, qui déterminent inévitablement les aspects d'une interaction qui seront pris en compte et la manière dont ils seront représentés (voir également Edwards 1993, Mishler 1991). Depuis lors, une grande partie du débat sur la transcription s'est concentrée sur le choix du " meilleur système " pour transcrire le discours parlé (Du Bois et al. 1993, Psathas et Anderson 1990) ou " l'interaction multimodale " (Baldry et Thibault 2006, Norris 2004) ou sur la nécessité de standardiser les conventions de transcription (Bucholtz 2007, Lapadat et Lindsay 1999). Cependant, afin de s'engager de manière productive dans de tels débats, il est nécessaire de considérer des questions plus pratiques sur la collecte et la transcription des données, en rapport avec la matérialité de ce que nous appelons données et les effets des technologies que nous utilisons pour les collecter et les transcrire sur la manière dont nous sommes capables de formuler des théories sur le discours en premier lieu.

Le cadre théorique que je vais utiliser pour aborder ces questions est l'analyse du discours médiatisé (Norris et Jones 2005). Au cœur de cette perspective se trouve le concept de médiation, l'idée que toutes les (inter)actions sont médiatisées par des outils culturels (qui incluent des outils technologiques comme les magnétophones et des outils sémiotiques comme les systèmes de transcription) et que les possibilités et les contraintes de ces outils aident à déterminer quels types d'actions sont possibles dans différentes circonstances. Cette focalisation sur la médiation nous invite à considérer la collecte et la transcription des données comme des actions physiques qui se déroulent dans un monde matériel régi par un ensemble d'affordances et de contraintes technologiques, sémiotiques et sociologiques sur ce qui peut être capturé à partir du flux complexe de phénomènes que nous appelons "interaction sociale", sur ce qui peut être connu à son sujet et sur la façon dont nous, analystes, existons par rapport à lui, affordances et contraintes qui changent au fur et à mesure que de nouveaux outils culturels sont introduits.

L'analyse du discours médiatisé nous permet de considérer la collecte et la transcription des données à la fois comme des pratiques situées, liées à des moments, des lieux et des configurations matérielles d'outils culturels particuliers, et comme des pratiques communautaires, liées à des identités disciplinaires particulières.

CINQ PROCESSUS D'ENTEXTUALISATION

Presque toutes les pratiques des analystes du discours impliquent une " entextualisation ", c'est-à-dire la transformation d'actions en textes et de textes en actions. Nous transformons les idées en propositions de recherche, les propositions en pratiques d'entretien, d'observation et d'enregistrement, les enregistrements en transcriptions, les transcriptions en analyses, les analyses en articles académiques et les articles académiques en promotions professionnelles et en récompenses académiques. Ashmore et Reed (2000) affirment que le travail d'un analyste consiste principalement à créer des artefacts - tels que des transcriptions et des articles - qui sont dotés à la fois d'une " utilité analytique " et d'une valeur professionnelle.

Bauman et Briggs (1990) définissent l'"entextualisation" comme le processus par lequel le langage est détaché de son contexte de production original et réifié en tant que "textes" ou objets linguistiques portables. Dans le cas des analystes du discours, cela implique généralement deux activités distinctes - l'une dans laquelle le discours est "collecté" à l'aide d'un dispositif d'enregistrement quelconque et l'autre dans laquelle l'enregistrement est transformé en une sorte d'artefact adapté à l'analyse.

Les pratiques d'entextualisation ont historiquement défini des communautés d'élite dans la société - scribes, officiers de police, chercheurs - qui, par l'"autorité" de leurs entextualisations, sont capables d'exercer un pouvoir sur les autres. Créer des textes, c'est définir la réalité.

Qu'il s'agisse d'analystes du discours réalisant des transcriptions ou de policiers rédigeant des rapports, l'entextualisation implique normalement au moins cinq processus :

  1. Le cadrage, dans lequel des frontières sont tracées autour du phénomène en question ;
  2. La sélection, dans laquelle des caractéristiques particulières du phénomène sont choisies pour représenter le phénomène ;
  3. Le résumé, dans lequel on détermine le niveau de détail avec lequel représenter ces caractéristiques ;
  4. La resémiotisation, dans laquelle nous traduisons les phénomènes d'un ensemble de matérialités sémiotiques en un autre ; et
  5. Le positionnement, dans lequel nous revendiquons et attribuons des identités sociales en fonction de la manière dont nous avons réalisé les quatre premiers processus.

Ces processus sont eux-mêmes médiatisés par diverses " technologies d'entextualisation " (Jones 2009), des outils tels que les magnétophones, les caméras vidéo, les systèmes de transcription et les programmes informatiques, chacun ayant son propre ensemble de possibilités et de contraintes quant aux aspects d'un phénomène qui peuvent être entextualisés et aux types d'identités impliquées dans cet acte. L'évolution de ces technologies entraîne des changements dans la pratique de l'entextualisation elle-même, dans ce qui peut en être fait, dans les types d'autorité qui y adhèrent et dans les types d'identités qu'elle rend possibles.

LES DONNÉES À L'ÈRE DE L'AUDIO

L'acte d'écrire ce que disent les gens a été inauguré comme pratique de recherche au début du vingtième siècle par les anthropologues et les linguistes qui s'efforçaient de documenter les modèles phonologiques et grammaticaux des langues "indigènes". Cependant, jusqu'à il y a cinquante ans, ce que les gens disaient réellement était traité avec une certaine désinvolture par la majorité des chercheurs en sciences sociales, principalement parce qu'ils ne disposaient pas de la technologie nécessaire pour l'enregistrer de manière pratique et précise. Les transcriptions sur place et les notes de terrain rédigées après coup n'offraient pas le degré de détail nécessaire pour analyser le déroulement momentané de l'interaction. Les "technologies d'entextualisation" nécessaires pour rendre possible ce que nous appelons aujourd'hui "l'analyse du discours" n'étaient pas encore disponibles.

Tout a changé dans les années 1960 lorsque les magnétophones sont devenus suffisamment portables pour permettre l'enregistrement des interactions sur le terrain. Selon Erickson (2004), le premier cas connu d'enregistrement d'une interaction orale à des fins de recherche a été réalisé par Soskin et John en 1963 et impliquait un magnétophone avec une batterie de la taille d'une batterie de voiture placée dans une barque occupée par deux jeunes mariés qui se disputaient. À la fin de la décennie, le problème de la taille de la batterie avait été résolu et les petits enregistreurs audio portables sont devenus omniprésents, tout comme les études sur ce que l'on a appelé les "conversations naturelles", une catégorie de données qui, ironiquement, n'existait pas avant l'invention des magnétophones pour les capter (Speer 2002).

Le développement de la technologie de l'enregistrement audio portable, ainsi que la machine à écrire Selectric d'IBM, ont rendu possible la naissance de domaines tels que l'analyse de la conversation, la sociolinguistique interactionnelle et la psychologie discursive, en rendant accessibles à l'examen les caractéristiques mêmes de l'interaction qui allaient devenir les objets d'analyse de ces domaines. Les conventions de transcription que les analystes ont développées pour ces disciplines sont nées de ce que les bandes audio leur permettaient d'entendre, et ces possibilités ont fini par être normalisées en tant que pratiques d'"audition professionnelle" (Ashmore et al. 2004) parmi ces analystes.

L'introduction de ces nouvelles technologies d'entextualisation a apporté une foule de nouvelles possibilités et de nouvelles contraintes quant à la façon dont les phénomènes pouvaient être encadrés, aux caractéristiques qui pouvaient être sélectionnées pour l'analyse, à la façon dont ces caractéristiques pouvaient être représentées, à la façon dont les significations pouvaient être traduites d'un mode à l'autre et aux types de positions que les analystes pouvaient adopter vis-à-vis des autres.

Le cadrage fait référence au processus par lequel un segment d'interaction est sélectionné pour la collecte. Scollon et Scollon (2004) utilisent le terme "circumferencing". Selon eux, toute collecte de données implique que l'analyste trace une "circonférence" autour des phénomènes, ce qui, en fait, nécessite de prendre une décision quant aux "échelles de temps" les plus larges et les plus étroites dont dépend l'interaction. Toutes les interactions font partie d'activités à plus longue échelle (par exemple, les relations, les histoires de vie) et sont constituées d'activités à plus courte échelle (par exemple, les tours, les unités de pensée). L'acte de "circonscrire" consiste à déterminer quels processus et quelles échelles de temps sont pertinents.

L'une des façons les plus importantes dont l'enregistrement audio a transformé le processus de cadrage pour les analystes du discours est qu'il leur a permis, et à certains égards les a obligés, à se concentrer sur les processus se produisant sur des échelles de temps plus courtes au détriment de ceux se produisant sur des échelles plus longues. Une raison à cela était que les bandes elles-mêmes avaient une durée limitée, et une autre était que les enregistrements audio permettaient à l'analyste d'assister à des unités de conversation de plus en plus petites.

Ce rétrécissement de la circonférence de l'analyse a eu un effet similaire sur les processus de sélection et de résumé qui ont permis de créer des artefacts textuels à partir d'enregistrements. La sélection et le résumé ont à voir avec la façon dont nous choisissons de représenter la partie d'un phénomène autour de laquelle nous avons tracé nos limites. La sélection est le processus qui consiste à choisir ce que nous allons inclure dans notre représentation, et le résumé est le processus qui consiste à représenter ce que nous avons sélectionné avec plus ou moins de détails.

L'effet le plus évident de la technologie de l'enregistrement audio sur les processus de sélection et de résumé est que, puisque la bande audio ne capture que le canal auditif de l'interaction, c'est le seul disponible pour la sélection. Si de nombreux chercheurs ont accompagné leurs enregistrements de notes sur le comportement non verbal, ces notes pouvaient difficilement rivaliser avec la richesse, la précision et l'"autorité" de la voix enregistrée. En conséquence, la parole a fini par être considérée comme le "texte" - et tous les autres aspects de l'interaction sont devenus le "contexte".

Il est important de se rappeler que ce privilège de la parole dans l'étude de l'interaction sociale était en grande partie une question de contingence. Les analystes privilégiaient ce à quoi ils avaient accès. Sacks lui-même (1984 : 26) admettait que la "seule vertu" des enregistrements sur bande était de lui fournir quelque chose qu'il pouvait analyser. Les documents enregistrés sur bande constituaient un enregistrement "suffisamment bon" de ce qui s'était passé", écrit-il. D'autres choses, bien sûr, se sont produites, mais au moins ce qui était sur la bande s'était produit".

Tout en limitant ce qui pouvait être sélectionné, la technologie de l'enregistrement audio ne simplifiait guère le processus de sélection. Comme les bandes pouvaient être écoutées encore et encore et divisées en segments de plus en plus petits, la quantité de détails sur le matériel audible pouvant être inclus dans les transcriptions a augmenté de façon spectaculaire. Alors que la plupart des analystes fondaient leurs décisions quant aux caractéristiques de la parole à inclure sur des projets théoriques spécifiques - les analystes de la conversation, par exemple, se concentrant sur les caractéristiques qui, selon eux, contribuaient à la construction d'un "ordre" dans la parole - certains analystes, comme DuBois (Du Bois et al. 1993), ont encouragé le développement de systèmes de transcription plus exhaustifs qui non seulement répondaient aux intérêts analytiques actuels mais anticipaient les intérêts futurs.

Une chose est sûre, l'augmentation spectaculaire du nombre de détails pouvant être inclus dans les transcriptions a eu pour effet de rendre l'analyse du discours plus "scientifique", et au fil des ans, la quantité de détails dans les transcriptions d'un analyste a fini par être considérée comme un critère permettant de juger de la "précision" de ses données et de l'"objectivité" de son travail. Comme le décrit Mishler (1991:206),

Les chercheurs (s'efforçaient) d'obtenir plus de précision, de détails et d'exhaustivité - les pauses devant être comptées (par des instruments appropriés) en centaines plutôt qu'en dixièmes de seconde, l'inclusion des contours d'intonation - comme si cela nous permettait (enfin) de représenter véritablement la parole.

Ce désir de " représenter réellement " la parole était profondément ancré dans les hypothèses positivistes sur la réalité - qu'il y avait quelque chose d'objectivement présent à représenter - des hypothèses qui allaient bientôt se heurter aux théories plus dialogiques et constructionnistes qui émergeaient de ces mêmes études de la parole en interaction (Scollon 2003). Au fur et à mesure que les transcriptions révélaient aux analystes la nature contingente et négociée du discours, les analystes étaient eux-mêmes forcés de se confronter à la nature contingente et négociée de leurs transcriptions. Plus récemment, les analystes semblent peser du côté de la variété plutôt que de la standardisation (Bucholtz 2007) et de la sélectivité plutôt que de l'exhaustivité (Duranti 2006). Des analystes comme Jaffe (2007), en fait, sont allés jusqu'à suggérer que des transcriptions moins délicates pourraient dans certains cas constituer des représentations plus "exactes" des "voix" des participants, parce qu'elles ne rendent pas saillants de nombreux micro-aspects de l'interaction qui ne le sont pas pour les participants eux-mêmes.

La resémiotisation est le processus par lequel nous traduisons les phénomènes d'un ensemble de matérialités sémiotiques en un autre (Iedema 2001). Les significations sont exprimées différemment dans les différents systèmes sémiotiques, et ne peuvent donc pas être simplement transférées d'un mode à l'autre ; elles doivent être "traduites". Dans la collecte de données à l'aide d'enregistreurs audio, par exemple, l'interaction sociale, qui est essentiellement une riche affaire multimodale, est resémiotisée en une bande audio mono-modale, pour être ensuite resémiotisée en un artefact mono-modal différent, une transcription écrite. Dans ce processus, les aspects spatiaux et temporels de l'interaction dynamique et multimodale doivent en quelque sorte être " traduits " dans la matérialité statique, linéaire et mono-modale du texte.

Un aspect important de la resémiotisation dans les transcriptions écrites est la façon dont la disposition spatiale de la page agit pour traduire certains aspects temporels et relationnels de l'interaction originale. Bien qu'il y ait eu un certain nombre d'expériences dans la représentation écrite de l'interaction en utilisant des mises en page et des notations non standard (voir, par exemple, Ochs 1979, Erickson 2003), la plupart des systèmes de transcription développés pour les données audio sont disposés selon la mise en page conventionnelle du " scénario de jeu ", une mise en page qui a un certain nombre d'effets importants sur la façon dont nous vivons l'interaction. Tout d'abord, ce format donne l'impression que l'interaction est focalisée, linéaire et monofocale, masquant toute simultanéité d'action, non-linéarité ou polyfocalité qui aurait pu faire partie de l'interaction réelle. Ensuite, il implique une relation contingente entre des énoncés immédiatement adjacents de différents locuteurs, qu'elle existe ou non en réalité (Ochs 1979). Enfin, elle impose à la transcription un " chronotrope " particulier (Bakhtin 1981) ou un " espace-temps " ressenti qui peut être radicalement différent de celui de l'interaction originale. En fait, l'une des découvertes les plus surprenantes pour ceux qui découvrent l'analyse du discours est qu'il faut beaucoup plus de temps pour lire la transcription d'un échange, avec tous ses détails disposés linéairement sur la page, que ce qu'il a fallu aux participants pour produire l'échange. En bref, le format "play-script" exige que le lecteur s'appuie principalement sur l'interprétation narrative de l'analyste incarnée dans les éléments séquentiels de la page pour comprendre ce qui s'est passé.

Le processus d'entextualisation le plus important, du moins celui dont les conséquences sociales sont les plus évidentes, est peut-être le positionnement. Chaque fois que nous transformons un phénomène en un texte, nous affirmons qui nous sommes et quelle est notre relation avec ceux dont nous entextualisons les paroles et les actions et avec ceux avec qui nous partagerons plus tard ces entextualisations.

Une façon assez évidente dont les pratiques de collecte et de transcription des données positionnent l'analyste est la façon dont elles révèlent son affiliation à une " école " particulière d'analyse du discours. Il est, en effet, possible de jeter un coup d'œil rapide à une transcription et de prédire les types de positions théoriques sur le langage que l'analyste mettra en avant. Comme l'a souligné Jaffe (2007), la transcription est devenue une sorte de " pratique d'alphabétisation ", dont la maîtrise est devenue nécessaire pour être admis dans certaines communautés de chercheurs.

Cependant, au-delà du signe de l'affiliation disciplinaire, les nouvelles formes de transcription que l'enregistrement audio a rendu possible pour les analystes du discours leur ont également permis d'acquérir de nouvelles positions d'autorité vis-à-vis de leurs différents publics, tels que les collègues, les comités de titularisation et les organismes de financement, ainsi que leurs " sujets ". Cette autorité provenait, tout d'abord, du niveau de détail qu'ils étaient en mesure de présenter dans leurs transcriptions, qu'ils pouvaient utiliser comme un emblème d'" expertise ". Bucholtz (2000) a montré comment l'utilisation de polices de caractères spéciales et d'annotations permet de "technologiser" un texte et, ce faisant, de conférer à l'auteur une identité d'expert scientifique.

Cette nouvelle autorité provenait également de la nature "probante" de la bande elle-même en tant qu'objet matériel, de l'idée qu'en possédant l'enregistrement, l'analyste du discours avait accès à "ce qui s'est réellement passé", ce qui permettait de mesurer à la fois l'"authenticité" de la transcription et toute réclamation ou contre-réclamation à son sujet. Ashmore et ses collègues (2004) appellent la tendance à conférer à la "bande" une autorité épistémique "fétichisme de la bande". Une telle attitude est dangereuse dans la mesure où l'"autorité" et l'"objectivité" supposées de la "bande", produite dans des circonstances particulières d'enregistrement et écoutée dans des contextes d'écoute différents, sont si facilement remises en question. Il est tout aussi dangereux, cependant, que l'existence de l'enregistrement lui-même confère une autorité supplémentaire à la transcription, qui est présumée être l'"enfant" de la bande. Cette confiance excessive dans l'enregistrement et les transcriptions dans le domaine de l'analyse du discours donne simplement lieu à un travail bâclé. Dans d'autres domaines comme l'application de la loi (Bucholtz 2009), les conséquences peuvent être bien plus graves.

La nouvelle autorité accordée à l'analyse du discours par l'invention du magnétophone portable s'est accompagnée de nouvelles responsabilités. D'une part, les analystes se sont retrouvés embarqués dans un nouvel ensemble complexe de relations éthiques et légales avec les sujets de leur analyse. La plupart des travaux pionniers utilisant des enregistreurs audio ont tout simplement ignoré cette complexité - il est difficile d'imaginer, par exemple, comment l'enregistrement par Sacks des lignes d'assistance téléphonique pour les suicides serait traité à la lumière des normes actuelles de "consentement éclairé". Mais les comités d'éthique et la loi ont fini par nous rattraper. Non seulement les comités de révision institutionnels exigent désormais que le consentement éclairé soit obtenu de toute partie dont la voix est enregistrée, mais dans de nombreux pays, la loi l'exige également. En raison de ces contraintes, les analystes du discours s'efforcent de trouver des moyens de préserver le caractère "naturel" d'interactions dans lesquelles toutes les personnes impliquées sont conscientes d'être enregistrées, un état de fait des plus "contre nature". La grande ironie de la technologie d'enregistrement pour les analystes du discours est qu'elle a simultanément introduit une norme de "naturel" pour nos données et créé des conditions sociales et institutionnelles qui ont rendu cette norme beaucoup plus difficile à obtenir.

LA VIDÉO A TUÉ L'ANALYSTE DU DISCOURS ?

L'enregistrement audio n'était pas la seule technologie utilisée par les chercheurs en sciences sociales au milieu du XXe siècle pour étudier la communication. Dès les années 1940, Gregory Bateson et Margaret Mead (1942) ont été les premiers à utiliser le film dans l'étude de la communication, une technique qui a ensuite été adoptée par Edward Hall (1963) dans ses premières études sur la proxémique. Dans les années 1970, des analystes comme Birdwhistell (1970) ont commencé à développer des systèmes de transcription des caractéristiques non verbales de l'interaction sociale. L'hypothèse de ces analystes était que l'interaction significative ne se fait pas seulement par le biais de la parole, mais aussi par une foule d'autres comportements. Cette hypothèse serait aujourd'hui considérée comme non controversée, mais, dans les années 1960 et 1970, elle n'a pas réussi à s'imposer, jusqu'à l'invention de la caméra vidéo, une nouvelle "technologie d'entextualisation" capable de capturer non seulement des mots, mais aussi des corps en mouvement, d'une manière beaucoup moins coûteuse et plus immédiate que la technologie cinématographique antérieure. L'analyse du discours était ruinée à jamais.

Dans un sens seulement, bien sûr. Les analystes du discours ne pouvaient plus se contenter de prêter attention aux phénomènes traditionnellement qualifiés de "discours" ; ils ne pouvaient plus ignorer le comportement non verbal, qui joue un rôle si important dans toutes les interactions sociales. Et la technologie qui permettait aux analystes d'accéder à ce comportement impliquait un tout nouvel ensemble de processus grâce auxquels les analystes du discours pouvaient encadrer, sélectionner, résumer et résémiotiser leurs données et se positionner par rapport à elles.

Un changement important est survenu lorsque l'analyste a pu encadrer ses données dans l'espace et dans le temps. Avec la bande audio, seuls la durée, le point de départ et le point d'arrivée de l'interaction comptaient. Désormais, l'interaction doit également être cadrée dans l'espace, avec une toute nouvelle série de choix à faire concernant ce qui doit être inclus dans le cadre et qui doit l'être, l'angle de prise de vue, etc.

La vidéo a également rendu les choix de sélection et de résumé beaucoup plus complexes, car presque tous les aspects de la communication non verbale, du geste au regard en passant par le mouvement du corps, pouvaient être considérés comme potentiellement communicatifs, tout comme une foule d'autres indices non verbaux tels que l'habillement et l'environnement bâti. La plus grande difficulté, cependant, est venue du processus de resémiotisation, le défi de traduire l'affichage riche et multidimensionnel de la bande vidéo au support bidimensionnel encore dominant de la transcription écrite (Park et Bucholtz 2009).

Les premiers utilisateurs de la vidéo l'ont essentiellement traitée comme une extension de l'enregistreur audio, l'utilisant comme une aide pour ajouter des informations sur des éléments tels que le geste et le regard comme des notations dans ce qui était essentiellement des transcriptions audio conventionnelles (voir, par exemple, Goodwin 1986, Ochs et Taylor 1992). De nombreuses premières tentatives de transcription multimodale ont été entravées par la " logique verbale " du modèle de " scénario de jeu " que les analystes avaient hérité de l'époque de l'audio, un modèle qui offrait peu de ressources pour représenter la synchronisation et la simultanéité complexes des actions et des mots dans l'interaction multimodale. Le problème de la plupart des premiers travaux utilisant la vidéo était que les technologies de transcription n'avaient pas encore rattrapé les technologies d'enregistrement.

En même temps, la vidéo a introduit une complexité supplémentaire dans les relations de l'analyste avec les autres personnes. Comme les données vidéo identifient clairement leurs objets, il est devenu beaucoup plus difficile de promettre l'anonymat et la confidentialité aux participants. En outre, le "regard" de la caméra s'est avéré, à bien des égards, beaucoup plus intrusif que l'"oreille" du magnétophone, donnant lieu à de nouvelles couches de conscience de soi et d'artificialité compromettant le "naturel" de nos données. La technologie vidéo a également eu un effet sur la relation de l'analyste avec les consommateurs de ses données, en particulier les éditeurs de revues et de livres universitaires qui, à l'époque, hésitaient encore à engager les dépenses supplémentaires liées à la publication des photographies et autres données visuelles que de nombreux analystes jugeaient essentielles à la communication de leurs résultats, et le support imprimé lui-même, qui semblait être le seul à bénéficier d'une certaine reconnaissance de la part des institutions universitaires, n'était pas en mesure de donner aux lecteurs accès à autre chose qu'à des images statiques.

Dans les années 1980 et 1990, les contraintes et les complications de l'enregistrement vidéo semblaient souvent l'emporter sur les nouvelles possibilités spectaculaires qu'offrait ce média, et de nombreux analystes, malgré les preuves accablantes de l'importance du canal visuel dans l'interaction sociale, s'en tenaient obstinément à l'approche monomodale de l'interaction basée sur la parole qui leur avait si bien servi dans le passé. Mais cela allait bientôt changer.

COLLECTE ET TRANSCRIPTION DES DONNÉES À L'ÈRE DU NUMÉRIQUE

Bon nombre des problèmes auxquels étaient confrontés les premiers utilisateurs de la vidéo ont commencé à être résolus au début du siècle, lorsque des analystes comme Baldry et Thibault (2006) et Norris (2004) ont commencé à concevoir des systèmes de transcription multimodale entièrement théorisés. Ces percées, cependant, n'étaient pas toutes théoriques. Elles sont également le fruit d'un autre changement matériel spectaculaire dans les " technologies d'entextualisation " à la disposition de l'analyste, un changement rendu possible par la révolution numérique.

On ne saurait trop insister sur la différence qualitative entre l'enregistrement analogique et l'enregistrement numérique en tant que technologies d'entextualisation. Tout d'abord, avec la réduction de la taille des caméras vidéo numériques et l'omniprésence de la pratique du tournage de vidéos numériques dans la population générale, l'inconvénient et la " bizarrerie " de la collecte de données vidéo ont considérablement diminué.

En outre, l'enregistrement numérique tend à fournir des résultats de bien meilleure qualité que les systèmes analogiques antérieurs, et l'augmentation de la taille des disques d'ordinateur et d'autres solutions telles que le stockage en nuage ont aidé les chercheurs à surmonter les difficultés liées au stockage et à la sauvegarde de leurs données et à la collaboration entre les continents.

L'évolution des pratiques sociales en matière d'enregistrement vidéo, non seulement parmi les analystes, mais aussi parmi les participants eux-mêmes, a également introduit une série de nouvelles possibilités en matière de cadrage et de sélection des données. En particulier, des opportunités se sont présentées pour enregistrer les interactions non seulement du point de vue du chercheur, mais aussi du point de vue des participants à l'aide de caméras portables micro-portables (Chalfen 2014) ou pour engager les participants à collecter eux-mêmes des données à l'aide de leurs téléphones portables. Ces techniques ont permis aux chercheurs de saisir plus facilement la dimension mobile de nombreuses interactions sociales (McIlvenny 2014, Mondada 2014) et leur ont donné accès à des perspectives plus émiques, expérientielles et incarnées. Parallèlement, les interactions enregistrées par des personnes en dehors des contextes de recherche et partagées sur des sites de médias sociaux tels que YouTube sont devenues une nouvelle source de données " naturelles " pour les analystes du discours (Jones 2016).

Enfin, les médias numériques ont radicalement modifié la matérialité de l'interaction sociale elle-même. D'une part, de nombreuses interactions médiatisées numériquement (telles que les chats, les messages instantanés et les interactions sur les sites de médias sociaux) sont déjà produites par le biais de textes écrits, ce qui permet aux chercheurs d'éviter complètement les défis de la transcription, mais introduit de nouveaux défis autour de la sélection et de la recontextualisation des données ainsi que de l'éthique associée à leur collecte. D'autre part, les nouveaux modes d'interaction corporelle médiatisée utilisant les technologies de chat vidéo (telles que FaceTime et Zoom) présentent de nouveaux défis théoriques pour les analystes de l'interaction multimodale en tenant compte des différentes façons dont les gens gèrent des choses comme le regard, la prise de parole et l'utilisation de l'espace physique en ligne.

L'un des avantages les plus importants de l'enregistrement audio et vidéo numérique pour l'analyste du discours est qu'il peut être traité et manipulé de tant de façons différentes, dont beaucoup rappellent les façons dont nous traitons et manipulons le texte écrit - il peut être recherché, étiqueté, annoté, découpé, réarrangé et mélangé avec d'autres textes, de façon à rendre la transcription beaucoup plus facile ou, dans certains cas, moins nécessaire. En d'autres termes, la vidéo numérique n'a pas seulement changé la façon dont les analystes peuvent enregistrer des vidéos, mais aussi ce qu'ils peuvent en faire par la suite et comment ils peuvent transformer les enregistrements en objets d'"utilité analytique".

La possibilité de capturer facilement des images fixes à partir d'une vidéo signifie que les analystes ne doivent plus se fier uniquement au texte pour décrire le comportement. Le texte et les images peuvent être intégrés de manière à rendre les transcriptions elles-mêmes "multimodales". La pratique consistant à inclure des images fixes capturées à partir de vidéos numériques dans les transcriptions a été développée de manière très sophistiquée par des chercheurs comme Baldry et Thibault (2006) et Norris (2004).

Cependant, ces "transcriptions multimodales" ne sont pas encore les moyens les plus multimodaux dont nous disposons pour représenter nos données. Gu (2006), par exemple, a encouragé l'utilisation d'un système multimédia numérique " convivial pour le corpus " pour représenter l'interaction qui évite complètement la transcription orthographique, et des solutions logicielles comme Transana et Elan permettent aux analystes d'intégrer leurs vidéos avec leurs transcriptions, leur codage et leurs notations de manière flexible et consultable (Mondada 2009). Ces avancées ont donné aux analystes le sentiment d'être plus proches que jamais de la "réalité" de l'interaction originale.

Mais ce n'est pas le cas. Ils sont plus proches d'une fabrication numérique de la réalité, qui n'est toujours qu'une fabrication. Tout comme le "fétichisme de la bande" a conduit les analystes de l'ère audio à croire que des transcriptions "exactes" et exhaustives des enregistrements sur bande leur permettraient une fois pour toutes de représenter véritablement la parole, la capacité que ces nouvelles solutions numériques donnent aujourd'hui aux analystes d'analyser "directement" la vidéo, apparemment sans passer par le processus de transcription, crée l'illusion qu'ils n'ont pas besoin de représenter véritablement quoi que ce soit (la vidéo l'a fait pour eux), que les problèmes complexes de sélection et de résumé peuvent être en quelque sorte contournés, et que les distorsions inévitables qui ont accompagné la transformation de la bande audio en texte écrit peuvent maintenant être complètement évitées, en bref, l'illusion que l'ère de "l'analyse sans transcription" est arrivée.

Cependant, comme l'a souligné Mondada (2009), la visualisation, le codage et la manipulation de données vidéo avec de tels logiciels sont loin d'être sans médiation. Les utilisateurs doivent toujours passer par les cinq mêmes processus d'entextualisation que les transcripteurs appliquent aux bandes audio. Ils doivent encore déterminer ce qui compte pour eux comme unité significative d'interaction sociale ; certains aspects des données doivent encore être sélectionnés, codés ou résumés ; et les vidéos sont encore resémiotisées en " agrégats sémiotiques " complexes combinant symboles et écriture avec les modes audio et visuels de la vidéo. Contrairement aux transcriptions écrites, les textes multimodaux n'ont pas d'"unités textuelles" toutes faites, hormis les codes temporels, et les analystes doivent donc inventer de nouvelles façons de diviser le flux dynamique du comportement en bits gérables et intelligibles. Les analystes doivent donc inventer de nouveaux moyens de diviser le flux dynamique de comportements en bits intelligibles et gérables. Et ces produits de l'entextualisation doivent être encore plus entextualisés pour devenir des objets publiables dans une presse académique encore dominée par l'imprimé.

Un logiciel peut imposer à l'analyste un ensemble d'hypothèses théoriques tout aussi solide qu'un système de transcription. Toutes les entextualisations sont nécessairement obtenues par le dialogue et sont donc intrinsèquement à " double voix " (Bakhtin 1984 : 185). En perdant de vue cette " double-voix ", en pensant qu'ils peuvent contourner le fossé entre l'original et l'entextualisé, les analystes du discours risquent de considérer leurs " transcriptions multimodales " comme quelque chose de plus objectif et transparent.

L'idée qu'une " transcription multimodale " d'une vidéo est nécessairement une représentation plus " exacte " de la " réalité " qu'une transcription minutieuse d'une bande audio est vraiment une question d'opinion. Cela dépend principalement de la façon dont on définit la "réalité". La vidéo annotée et les transcriptions écrites sont des artefacts, produits de processus complexes de cadrage, de sélection, de résumé et de resémiotisation, dont les significations changent lorsqu'ils sont transportés à travers les frontières du temps, de l'espace et des médias (Jaffe 2007).

CONCLUSION

Dans son article " The Dialogist in a Positivist World ", Scollon (2003) explore l'équilibre que les analystes du discours doivent atteindre pour éviter, d'une part, de sur-réifier leurs données et de tomber dans un positivisme naïf et, d'autre part, de sur-relativiser leurs données et de sombrer dans l'impuissance déconstructive. La principale préoccupation d'un analyste du discours, affirme-t-il, est de savoir comment "produire une ontologie et une épistémologie de travail qui soutiendront son désir d'entreprendre une action sociale" sans adhérer aux constructions sociales qui sous-tendent cette action (p. 71). L'histoire parfois paradoxale de la collecte et de la transcription des données dans l'analyse du discours est en réalité l'histoire de ce dilemme.

La leçon de cette histoire pour quiconque débute dans l'analyse du discours est qu'aucune technologie d'entextualisation ne peut capturer l'univers (Cook 1990). Ce n'est pas non plus ce dont nous avons besoin. La raison d'être de l'entextualisation n'est pas de reproduire l'univers, mais de le re-présenter et, ce faisant, de mieux le comprendre. Et ce sont ces mêmes processus de cadrage, de sélection, de résumé, de resémiotisation et de positionnement qui nous permettent d'arriver à ces compréhensions.

Trop souvent, les analystes ont adopté une attitude " déficitaire " à l'égard de l'entextualisation, se plaignant de la part de l'interaction " originale " qui s'est " perdue dans la transcription ". Le fait est que ce que nous recherchons dans nos transcriptions n'est pas la "vérité", mais plutôt "l'utilité analytique". Leur capacité à nous aider à répondre aux questions que nous nous posons sur la communication humaine et l'interaction sociale, et non leur degré de "ressemblance avec la réalité", devrait être le principal critère pour juger de la valeur de nos transcriptions.

En même temps, nous ne devons jamais perdre de vue la façon dont les technologies d'entextualisation affectent profondément nos relations avec ceux dont nous étudions les paroles et le comportement. Plus notre technologie s'est améliorée pour saisir les détails de l'interaction sociale, plus les questions éthiques entourant les activités de collecte et de transcription des données sont devenues pressantes et complexes. Comme l'écrivent Scollon et Levine (2004:5) :

La question principale maintenant n'est pas : Avons-nous ou pouvons-nous développer la technologie nécessaire pour enregistrer le comportement d'autrui ? La question principale est : Quels sont les droits d'un chercheur universitaire en relation et en négociation avec ses sujets d'étude ? ... En bref, notre collecte de données et nos analyses peuvent-elles faire du bien ou du mal aux autres, et pouvons-nous contrôler ces résultats ?

Auteur
Handbook of discourse analysis 2nd ed - Ken Hyland, Brian Paltridge & Lillian Wong (Bloosmbury) 2022

Thèmes apparentés

Dans ce chapitre, nous décrivons comment les approches de la linguistique de corpus peuvent être appliquées à l'analyse du discours. La linguistique de corpus est un ensemble de méthodologies de recherche qui se concentrent sur la description des modèles linguistiques d'utilisation dans des collections de textes conçus pour représenter un domaine de discours cible (le corpus), en utilisant des programmes informatiques automatiques et interactifs pour faciliter les analyses quantitatives et qualitatives.

La linguistique fonctionnelle systémique (ci-après LSF) est une théorie globale du langage et du contexte social développée principalement en Grande-Bretagne et en Australie au cours des six dernières décennies. Elle s'inspire de Saussure et de Hjelmslev dans sa conception relationnelle de la langue comme système stratifié de signes, et suit Firth dans son traitement de la signification comme fonction dans le contexte. En outre, elle fournit une base théorique influente pour le travail à travers les systèmes sémiotiques dans l'analyse multimodale du discours (O'Halloran, ce volume).

Le récit est d'abord une prodigieuse variété de genres, eux-mêmes distribués entre différentes substances... Pouvant être porté par le langage articulé, parlé ou écrit, les images fixes ou mobiles, les gestes, et le mélange ordonné de toutes ces substances, le récit est présent dans le mythe, la légende, la fable, le conte, la nouvelle, l'épopée, l'histoire, la tragédie, le drame, la comédie, le mime, la peinture (pensez à la Sainte Ursule de Carpaccio), les vitraux, le cinéma, la bande dessinée, les faits divers, la conversation. (Barthes 1977 : 79)

Les genres sont des catégories reconnaissables de discours utilisés pour réaliser certaines actions. Les formes de genre deviennent "typifiées" (ou normalisées) lorsqu'elles sont utilisées de manière répétée au fil du temps pour répondre à un besoin ou une exigence spécifique (Miller 1984). Avec le temps, les réponses commencent à se conformer aux utilisations antérieures jusqu'à ce que leur forme devienne attendue par les utilisateurs. En raison de leur utilisation répétée, les genres sont reconnaissables par les membres des communautés qui les utilisent.

Les études critiques du discours (CDS) sont apparues au début des années 1990 et sont devenues un domaine bien établi des sciences sociales au XXIe siècle (Angermuller et al. 2014, Fairclough, Mulderrig et Wodak 2011, Hart et Cap 2014, Rheindorf 2019, Wodak et Meyer 2016a). Plus généralement, le CDS peut être défini comme un programme de recherche interdisciplinaire axé sur les problèmes, qui englobe une variété d'approches, chacune avec des modèles théoriques, des méthodes de recherche et des agendas différents.

Fondée par les sociologues Harvey Sacks, Emmanuel Schegloff et Gail Jefferson dans les années 1960, l'analyse de la conversation (AC) est l'étude de l'interaction sociale telle qu'elle se produit réellement dans son habitat naturel. Ce n'est pas l'étude de la façon dont nous pensons qu'elle devrait se produire, de la façon dont nous croyons qu'elle a dû se produire ou de la façon dont elle pourrait se produire dans diverses conditions de laboratoire.

FORMATION EN LIGNE

Les cours d'analyse du discours permet de mettre en évidence les structures idéologiques, les représentations sociales et les rapports de pouvoir présents dans un discours. Cette discipline analyse les discours médiatiques, politiques, publicitaires, littéraires, académiques, entre autres, afin de mieux comprendre comment le langage est utilisé pour façonner les idées, les valeurs et les perceptions dans la société. Elle s'intéresse également aux contextes social, politique, culturel ou historique dans lesquels le discours est produit, car ceux-ci peuvent influencer sa forme et sa signification.

Analyse et méthodologies des stratégies persuasives

French
Contenu de la formation
Video file

Durée : 1 journée (peut varier en fonction des besoins et de la disponibilité des participants)

Objectifs du programme :

  • Introduction (30 minutes)
  • Session 1: Les stratégies de persuasion dans les discours marketing (1 heure)
  • Session 2: Analyse d'un discours marketing (1 heure)
  • Pause (15 minutes)
  • Session 3: Évaluation critique des discours marketing (1 heure)
  • Session 4: Ateliers des participants (2 heures 30)
  • Pause (15 minutes)
  • Session 4: Présentation des résultats et conclusion (45 minutes)

Ce scénario pédagogique vise à permettre aux participants de comprendre les stratégies persuasives utilisées dans les discours marketing. Il encourage l'analyse critique des discours marketing et met l'accent sur les aspects éthiques de cette pratique. L'utilisation d'études de cas, d'analyses pratiques et de discussions interactives favorise l'apprentissage actif et l'échange d'idées entre les participants.

En savoir plus

Analyse et méthodologies des discours artistiques

French
Contenu de la formation
Video file

Durée : 12 semaines (peut varier en fonction des besoins et de la disponibilité des participants)

Objectifs du programme :

  • Comprendre les concepts et les théories clés de l'analyse de discours artistiques.
  • Acquérir des compétences pratiques pour analyser et interpréter les discours artistiques.
  • Explorer les différentes formes d'expression artistique et leur relation avec le langage.
  • Examiner les discours critiques, les commentaires et les interprétations liés aux œuvres d'art.
  • Analyser les stratégies discursives utilisées dans la présentation et la promotion des œuvres d'art.

Ce programme offre une structure générale pour aborder l'analyse de discours artistiques. Il peut être adapté en fonction des besoins spécifiques des participants, en ajoutant des exemples concrets, des études de cas ou des exercices pratiques pour renforcer les compétences d'analyse et d'interprétation des discours artistiques.

En savoir plus