Perception des timbres musicaux

Par Gisles B, 1 octobre, 2022
Mots-clefs

Le timbre est un mot faussement simple et extrêmement vague qui englobe un ensemble très complexe d'attributs auditifs, ainsi qu'une pléthore de questions psychologiques et musicales complexes. Il couvre de nombreux paramètres de perception qui ne sont pas pris en compte par la hauteur, l'intensité sonore, la position spatiale, la durée, ou même par diverses caractéristiques environnementales telles que la réverbération de la pièce.

Nous comprenons maintenant que le timbre possède deux grandes caractéristiques qui contribuent à la perception de la musique :

  1. il s'agit d'un ensemble multitudinaire d'attributs perceptifs, dont certains varient continuellement (par exemple, la netteté de l'attaque, la brillance, la nasalité, la richesse), et d'autres sont discrets ou catégoriques (par exemple, le "blatt" au début de l'attaque), le "blatt" au début d'un son de trombone sforzando ou l'offset pincé d'un son de clavecin), et
  2. il est l'un des principaux véhicules perceptifs pour la reconnaissance, l'identification et le suivi dans le temps d'une source sonore (voix de chanteur, clarinette, carillon) et est donc impliqué dans la catégorisation absolue d'un objet sonore (Hajda, Kendall, Carterette & Harshberger, 1997 ; Handel, 1995 ; McAdams, 1993;Risset, 2004).

La compréhension de la perception du timbre couvre donc un large éventail de questions allant de la détermination des propriétés des objets vibrants et des ondes acoustiques qui en émanent, au développement de techniques d'analyse quantitative et de caractérisation des ondes sonores, en passant par la formalisation de modèles d'analyse et de codage numérique du signal acoustique par le système auditif, la caractérisation de la représentation perceptive des sons utilisée par les auditeurs pour comparer les sons de manière abstraite ou pour catégoriser ou identifier leur source physique, ainsi que la compréhension du rôle que le timbre peut jouer dans la perception des motifs et des formes musicales et dans la formation expressive de l'interprétation musicale.

Des approches plus théoriques du timbre ont également inclus des considérations sur les implications musicales du timbre en tant qu'ensemble de dimensions porteuses de formes dans la musique (cf. McAdams, 1989). Ce chapitre se concentre sur certaines de ces questions en détail :

  • la psychophysique du timbre,
  • le timbre en tant que véhicule de l'identité de la source,
  • le rôle du timbre dans le regroupement musical,
  • le timbre en tant que force structurante dans la perception de la musique, y compris l'effet du mélange des sons sur la perception du timbre,
  • le rôle du timbre dans le regroupement des événements en flux et en modèles musicaux,
  • la perception des intervalles timbraux,
  • le rôle du timbre dans la construction et le relâchement de la tension musicale,
  • et l'apprentissage implicite des grammaires timbrales.

Une section finale examinera un certain nombre de questions qui n'ont pas encore été étudiées de manière approfondie concernant le rôle de la caractérisation du timbre dans les systèmes de recherche d'informations musicales, le contrôle de la variation du timbre par les instrumentistes et les dispositifs de contrôle de la synthèse sonore pour atteindre l'expressivité musicale, le lien entre la perception et la cognition du timbre et l'orchestration et la composition de musique électroacoustique, et enfin, la considération du statut du timbre comme paramètre primaire ou secondaire dans la structure musicale.

Psychophysique du timbre

L'une des principales approches de la perception du timbre tente de caractériser quantitativement la manière dont les sons sont perçus comme différents. Les premières recherches sur la nature perceptive du timbre se sont concentrées sur des aspects préconçus tels que le poids relatif des différentes fréquences présentes dans un son donné, ou sa "couleur sonore" (Slawson, 1985). Par exemple, une voix chantant un do moyen constant tout en faisant varier la voyelle chantée et un joueur de cuivre tenant une note donnée tout en faisant varier l'embouchure et la forme de la cavité buccale feront varier la forme du timbre du son (cf. McAdams, Depalle & Clarke, 2004).

Helmholtz (1885/1954) a inventé des dispositifs de résonance plutôt ingénieux pour contrôler la forme spectrale afin d'explorer ces aspects du timbre. Cependant, les véritables avancées dans la compréhension de la représentation perceptive du timbre ont dû attendre le développement des techniques de génération et de traitement du signal et des techniques d'analyse des données multidimensionnelles dans les années 1950 et 1960. Plomp (1970) et Wessel (1973) ont été les premiers à appliquer ces techniques à la perception du timbre.

L'espace du timbre

L'échelle multidimensionnelle (MDS) n'a aucune idée préconçue de la structure physique ou perceptive du timbre. Les auditeurs notent simplement sur une échelle variant de très similaire à très dissemblable toutes les paires d'un ensemble donné de sons. Les sons sont généralement égalisés en termes de hauteur, de volume et de durée et sont présentés à partir du même endroit dans l'espace de sorte que seul le timbre varie afin de concentrer l'attention des auditeurs sur cet ensemble d'attributs.

Les notes de dissimilarité sont ensuite ajustées à un modèle de distance dans lequel les sons ayant des timbres similaires sont plus proches et ceux ayant des timbres dissemblables sont plus éloignés.

L'approche d'analyse

Stages in the multidimensional analysis of dissimilarity ratings of sounds differing in timbre..

La représentation graphique du modèle de distance est appelée "espace de timbre". Ces techniques ont été appliquées à des sons synthétiques (Miller & Carterette, 1975 ; Plomp, 1970 ; Caclin, McAdams, Smith & Winsberg, 2005), à des sons d'instruments resynthétisés ou simulés (Grey, 1977 ; Kendall, Carterette, & Hajda, 1999 ; Krumhansl, 1989 ; McAdams, Winsberg, Donnadieu, De Soete & Krimphoff, 1995;Wessel, 1979), des sons d'instruments enregistrés (Iverson & Krumhansl, 1993 ; Lakatos 2000 ; Wessel, 1973), et même des dyades de sons d'instruments enregistrés (Kendall &Carterette, 1991 ; Tardieu & McAdams, sous presse).

Le modèle MDS de base, tel que le modèle non métrique de Kruskal (1964a, 1964b), est exprimé en termes de dimensions continues partagées entre les timbres, l'hypothèse sous-jacente étant que tous les auditeurs utilisent les mêmes dimensions perceptives pour comparer les timbres. Les distances du modèle sont ajustées aux données de proximité dérivées empiriquement (généralement des évaluations de dissimilarité ou de confusion entre les sons). Les modèles plus complexes comprennent également des dimensions ou des caractéristiques spécifiques à des timbres individuels, appelées "spécificités" (EXSCAL, Winsberg & Carroll, 1989) et des poids perceptifs différents accordés aux dimensions et aux spécificités par des auditeurs individuels ou des classes latentes d'auditeurs (INDSCAL, Carroll & Chang, 1970 ; CLASCAL, Winsberg & De Soete, 1993 ; McAdams et al., 1995).

General CLASCAL mode
General CLASCAL mode

L'équation définissant la distance dans le modèle plus général CLASCAL est la suivante : où "d ijt" est la distance entre les sons i et j pour la classe latente t, xir est la coordonnée du son i sur la dimension r, R est le nombre total de dimensions, w tr est le poids sur la dimension r pour la classe t, s i est la spécificité sur le son i, et v t est le poids sur l'ensemble des spécificités pour la classe t.

Le modèle de base n'a pas de poids ou de spécificités et n'a qu'une seule classe d'auditeurs. EXCAL a des spécificités, mais pas de poids. Pour INDSCAL, le nombre de classes latentes est égal au nombre d'auditeurs. Enfin, le modèle CONSCAL permet de modéliser des fonctions de correspondance continues entre les descripteurs audio et la position des sons le long d'une dimension perceptuelle pour chaque auditeur en utilisant des fonctions splines, à condition que la position le long de la dimension perceptuelle respecte l'ordre le long de la dimension physique (Winsberg & De Soete, 1997).

Cette technique permet de déterminer la transformation auditive de chaque paramètre physique pour chaque auditeur. Parmi les exemples d'utilisation de ces différents modèles d'analyse, citons la technique de Kruskal par Plomp (1970), INDSCAL par Wessel (1973) et Grey (1977), EXSCAL par Krumhansl (1989), CLASCAL par McAdams et al. (1995) et CONSCAL par Caclin et al. Des descriptions de la manière d'utiliser les modèles CLASCAL et CONSCAL dans le contexte de la recherche sur le timbre sont fournies dans McAdams et al. (1995) et Caclin et al. (2005), respectivement.

Des spécificités sont souvent trouvées pour les sons acoustiques et synthétiques complexes. Elles sont considérées comme représentant la présence d'une caractéristique unique qui distingue un son de tous les autres dans un contexte donné. Par exemple, dans un ensemble de sons de cuivres, de bois et de cordes, un clavecin possède une caractéristique qu'aucun autre son ne partage : la rotation de la trémie, qui crée un léger "bruit sourd" et amortit rapidement le son à la fin. Ou encore, dans un ensemble de sons aux enveloppes spectrales assez lisses, comme les cuivres, l'enveloppe spectrale irrégulière de la clarinette, due à l'atténuation des harmoniques paires aux rangs harmoniques inférieurs, serait une caractéristique spécifique à cet instrument. Ces caractéristiques peuvent apparaître comme des spécificités dans les modèles de distance EXSCAL etCLASCAL (Krumhansl, 1989 ; McAdams et al., 1995), et la force de chaque caractéristique est représentée par la racine carrée de la valeur de la spécificité dans l'équation 1.

Certains modèles incluent les différences individuelles et de classe comme facteurs de pondération des différentes dimensions et de l'ensemble des spécificités. Par exemple, certains auditeurs peuvent accorder plus d'attention aux propriétés spectrales qu'aux aspects temporels, tandis que d'autres peuvent avoir le schéma inverse. Une telle variabilité pourrait refléter soit des différences dans le traitement sensoriel, soit dans les stratégies d'écoute et d'évaluation. Il est intéressant de noter qu'à ce jour, aucune étude n'a démontré que ces différences individuelles avaient un rapport avec l'expérience ou la formation musicale. Par exemple, McAdams et al. (1995) ont constaté que des proportions similaires de non-musiciens, d'étudiants en musique et de musiciens professionnels se retrouvaient dans les différentes classes latentes, ce qui suggère que si les auditeurs diffèrent quant au poids perceptif accordé aux différentes dimensions, ces différences interindividuelles ne sont pas liées à la formation musicale. Il se peut que la perception du timbre soit si étroitement liée à la capacité de reconnaître les sources sonores dans la vie de tous les jours que tout le monde est un expert à un certain degré, même si des personnes différentes sont sensibles à des caractéristiques différentes.

The timbre space found by McAdams et al. (1995)
The timbre space found by McAdams et al. (1995)

Un exemple d'espace timbrique, tiré de McAdams et al. (1995), est présenté à la figure 2.

Il est dérivé des évaluations de dissimilarité de 84 auditeurs, dont des non-musiciens, des étudiants en musique et des musiciens professionnels. On a présenté aux auditeurs des simulations numériques de sons d'instruments et des sons chimériques combinant des caractéristiques de différents instruments (comme le vibrone avec des caractéristiques semblables à celles du vibraphone et du trombone). Wessel, Bristow et Settel (1987) ont créé ces sons sur un synthétiseur FM Yamaha DX7. Une analyse CLASCAL a révélé trois dimensions partagées, l'existence de spécificités sur les sons, et cinq classes latentes d'auditeurs, pour lesquels les poids relatifs sur les dimensions partagées et l'ensemble des spécificités différaient.

Les poids relatifs sur les trois dimensions et l'ensemble des spécificités pour les cinq classes latentes sont présentés dans la figure 3.

La plupart des auditeurs se trouvaient dans les classes 1 et 2 et avaient des poids assez égaux sur les dimensions et les spécificités. Ce qui distingue ces deux classes est simplement l'utilisation de l'échelle d'évaluation : Les auditeurs de la classe 1 ont utilisé une plus grande partie de l'échelle que les auditeurs de la classe 2. Pour les trois autres classes, cependant, certaines dimensions étaient proéminentes (pondérations élevées) et d'autres étaient perceptivement atténuées (pondérations faibles). Par exemple, les auditeurs de la classe 3 ont accordé un poids élevé à la dimension 2, qui semble être liée aux caractéristiques spectrales des sons, et un poids faible aux spécificités. Inversement, les auditeurs de la classe 4 ont favorisé la dimension 1 (liée à la dimension temporelle du temps d'attaque) et les spécificités et ont atténué les dimensions spectrale (Dim 2) et spectrotemporelle (Dim 3).

Classes of listeners in the McAdams et al. (1995)
Classes of listeners in the McAdams et al. (1995)

Les modèles d'espace timbrique ont été utiles pour prédire les perceptions des auditeurs dans des situations autres que celles mesurées spécifiquement dans les expériences, ce qui suggère qu'ils capturent en fait des aspects importants de la représentation du timbre. Conformément aux prédictions d'un modèle de timbre, Grey et Gordon (1978) ont constaté qu'en échangeant les enveloppes spectrales de paires de sons qui différaient principalement le long d'une des dimensions de leur espace censé être lié aux propriétés spectrales, ces sons changeaient de position le long de cette dimension. L'espace timbrique a également été utile pour prédire la perception des intervalles entre les timbres, ainsi que la ségrégation des flux basée sur des indices acoustiques liés au timbre (voir ci-dessous).

synthesized sounds from Wessel et al. (1987)
Synthesized sounds from Wessel et al. (1987)

Descripteurs audio des dimensions timbrales

Dans de nombreuses études, des corrélats acoustiques indépendants ont été déterminés pour les dimensions continues en corrélant la position le long de la dimension perceptive avec un paramètre acoustique unidimensionnel extrait des sons (par ex, Grey &Gordon, 1978 ; Kendall et al., 1999 ; Krimphoff, McAdams, & Winsberg, 1994;McAdams et al., 1995).

first dimension of Krumhansl’s (1989)
First dimension of Krumhansl’s (1989)

Nous appellerons ces paramètres "descripteurs audio", bien qu'ils soient également appelés "caractéristiques audio" dans le domaine de la recherche d'informations musicales. Les corrélats les plus omniprésents dérivés des sons d'instruments de musique comprennent

  • le centroïde spectral (représentant le poids relatif des fréquences hautes et basses et correspondant à la brillance ou à la nasalité du timbre : un hautbois a un centroïde spectral plus élevé qu'un cor français ; voir la figure 4),
  • le logarithme du temps d'attaque (qui distingue les instruments continus soufflés ou joués à l'archet des instruments impulsifs frappés ou pincés ; voir la figure 5),
  • le flux spectral (le degré d'évolution de la forme spectrale sur la durée d'un ton, qui est élevé pour les cuivres et plus faible pour les anches simples ; voir la figure 6),
  • et la déviation spectrale (le degré d'irrégularité de la forme spectrale, qui est élevé pour la clarinette et le vibraphone et faible pour la trompette ; voir la figure 7).
 third dimension of the space found by McAdams et al. (1995)
Third dimension of the space found by McAdams et al. (1995)

Caclin et al. (2005) ont mené une étude de confirmation en utilisant des évaluations de dissimilarité sur des sons purement synthétiques dans lesquels la nature exacte des dimensions du stimulus pouvait être contrôlée. Ces auteurs ont confirmé la perception des dimensions du stimulus liées au centroïde spectral, au temps d'attaque logarithmique et à la déviation spectrale, mais n'ont pas confirmé le flux spectral. Parmi les études qui ont tenté de développer des descripteurs audio corrélés aux dimensions perceptives de leurs espaces timbriques, la plupart se sont concentrées sur un petit ensemble de sons et un petit ensemble de descripteurs.

the space found by Krumhansl (1989)
The space found by Krumhansl (1989)

Au fil des ans, un vaste ensemble de descripteurs a été développé à l'IRCAM (Institut de Recherche et Coordination Acoustique/Musique), en commençant par les travaux de Jochen Krimphoff (Krimphoff et al., 1994). L'objectif était de représenter une large gamme de propriétés temporelles, spectrales et spectrotemporelles des signaux acoustiques qui pourraient être utilisées comme métadonnées dans des recherches basées sur le contenu de très grandes bases de données sonores. L'aboutissement de ces travaux a récemment été publié (Peeters, Giordano, Susini, Misdariis et McAdams, 2011) et la boîte à outils Timbre a été mise à disposition sous la forme d'une boîte à outils Matlab 2 qui contient un ensemble de 54 descripteurs basés sur l'enveloppe énergétique, la forme de Fourier à court terme, les composantes sinusoïdales harmoniques ou le modèle de banc de filtres gamma-tonaux du traitement auditif périphérique (Patterson, Allerhand et Gigue're, 1995).

Ces descripteurs audio saisissent les propriétés temporelles, spectrales, spectrotemporelles et énergétiques des événements acoustiques.

  • Les descripteurs temporels comprennent des propriétés telles que l'attaque, la décroissance, le relâchement, le centroïde temporel, la durée effective, ainsi que la fréquence et l'amplitude de la modulation dans l'enveloppe énergétique.
  • Les descripteurs de la forme spectrale comprennent des mesures du centroïde, de l'étalement, de l'asymétrie, de l'aplatissement, de la pente, de l'atténuation, du facteur de crête et de l'irrégularité de l'enveloppe spectrale.
  • Les descripteurs spectrotemporels comprennent le flux spectral.
  • Les descripteurs énergétiques comprennent l'énergie harmonique, l'énergie du bruit et les propriétés statistiques de l'enveloppe énergétique.
  • En outre, des descripteurs liés à la périodicité/harmonicité et au bruit ont été inclus.

Certains de ces descripteurs ont une valeur unique pour un événement sonore, comme le temps d'attaque, tandis que d'autres représentent des quantités qui varient dans le temps, comme la variation du centroïde spectral sur la durée d'un événement sonore. Les propriétés statistiques de ces quantités variables dans le temps peuvent alors être utilisées, comme des mesures de tendance centrale ou de variabilité (des statistiques robustes de médiane et d'écart interquartile ont été utilisées par Peeters et al., 2011).

Un problème avec un grand nombre de descripteurs est qu'ils peuvent être corrélés entre eux pour un ensemble donné de sons, en particulier s'ils sont appliqués à un ensemble limité de sons. Peeters et al. (2011) ont examiné la redondance de l'information entre les descripteurs audio en effectuant des analyses corrélationnelles entre les descripteurs calculés sur un très grand ensemble de sons musicaux très hétérogènes (plus de 6000 sons provenant des échantillons principaux de l'Université McGill, EMUM ; Opolko & Wapnick, 2006). Ils ont ensuite soumis la matrice de corrélation résultante à un regroupement hiérarchique. L'analyse visait également à déterminer si la boîte à outils Timbre pouvait rendre compte de la richesse dimensionnelle des sons musicaux réels et à fournir à l'utilisateur de la boîte à outils un ensemble de lignes directrices pour choisir parmi les nombreux descripteurs qu'elle contient. Les analyses ont donné lieu à une dizaine de classes de descripteurs relativement indépendants.

  • Deux groupes représentaient les propriétés de la forme spectrale, l'un basé principalement sur les valeurs médianes (11 descripteurs) et l'autre uniquement sur les intervalles interquartiles des mesures variant dans le temps de ces propriétés spectrales (7 descripteurs). Ainsi, les tendances centrales et la variabilité de la forme spectrale se comportent indépendamment dans la base de données de l'UGMM.
  • Un troisième grand groupe de 16 descripteurs comprenait la plupart des descripteurs temporels, tels que le temps d'attaque logarithmique, et des descripteurs énergétiques, tels que la variabilité de l'énergie du bruit et de l'énergie totale au fil du temps.
  • Un quatrième grand groupe comprenait 10 descripteurs liés à la périodicité, au bruit et au caractère irrégulier de l'enveloppe spectrale.
  • Les autres groupes plus petits comportaient un ou deux descripteurs chacun et comprenaient des descripteurs de la forme spectrale, de la variation spectrale, ainsi que de l'amplitude et de la fréquence des modulations de l'enveloppe temporelle.

La combinaison d'un modèle quantitatif des relations perceptives entre les timbres et de l'explication psychophysique des paramètres du modèle est une étape importante pour obtenir un contrôle prédictif du timbre dans plusieurs domaines tels que l'analyse et la synthèse du son et la recherche intelligente basée sur le contenu des bases de données sonores (McAdams & Misdariis, 1999 ; Peeters, McAdams, & Herrera, 2000).

De telles représentations ne sont utiles que dans la mesure où elles sont

  1. Généralisables au-delà de l'ensemble des sons réellement étudiés,
  2. Robustes par rapport aux changements de contexte musical, et
  3. Généralisables à d'autres types de tâches d'écoute que celles utilisées pour construire le modèle.

Dans la mesure où une représentation possède ces propriétés, elle peut être considérée comme un compte rendu précis du timbre musical, caractérisé par une caractéristique importante d'un modèle scientifique, la capacité de prédire de nouveaux phénomènes empiriques.

Interaction du timbre avec la hauteur et la dynamique

La plupart des études sur l'espace timbrique ont limité la hauteur et la sonie à des valeurs uniques pour tous les sons d'instruments comparés, afin de concentrer l'attention des auditeurs sur le seul timbre. Une question importante se pose cependant : les relations timbriques révélées pour une seule hauteur et/ou un seul niveau dynamique sont-elles valables pour des hauteurs et des niveaux dynamiques différents et, ce qui est plus important pour l'extension de ces travaux à des contextes musicaux réels, sont-elles valables pour des timbres comparés entre hauteurs et niveaux dynamiques ?

Marozeau, de Cheveigne ́, McAdams et Winsberg (2003) ont montré que les espaces timbriques des sons d'instruments de musique enregistrés sont similaires à différentes hauteurs de son (B 3 , Cx4 , Bw4). Les auditeurs sont également capables d'ignorer les différences de hauteur dans une octave lorsqu'on leur demande de comparer uniquement les timbres des sons.

Lorsque la variation de la hauteur est supérieure à une octave, des interactions entre les deux attributs se produisent.Marozeau et de Cheveigne ́ (2007) ont fait varier la luminosité d'un ensemble de sons synthétisés, tout en faisant également varier la hauteur sur une plage de 18 demi-tons. Ils ont constaté que les différences de hauteur affectaient les relations timbrales de deux manières :

  1. La hauteur apparaît dans la représentation de l'espace du timbre comme une dimension orthogonale aux dimensions du timbre (indiquant simplement que les auditeurs n'ignoraient plus la différence de hauteur),
  2. Et les différences de hauteur affectent systématiquement la dimension du timbre liée au centroïde spectral.

Handel et Erickson (2004) ont également constaté que les auditeurs avaient des difficultés à extrapoler le timbre d'une source sonore à travers de grandes différences de hauteur. Inversement, Vurma, Raju et Kuuda (2011) ont signalé que les différences de timbre sur deux sons pour lesquels l'accord des hauteurs devait être jugé affectaient les jugements de hauteur dans une mesure qui pourrait potentiellement conduire à des conflits entre les évaluations subjectives et celles basées sur la fréquence fondamentale de l'accord. Krumhansl et Iverson (1992) ont constaté que les classifications rapides des hauteurs et des timbres étaient affectées de manière asymétrique par une variation non corrélée de l'autre paramètre.

Ces résultats suggèrent une relation étroite entre la brillance timbrale et la hauteur de la note et peut-être même des caractéristiques temporelles plus fines liées au codage de la périodicité dans le système auditif ou des propriétés timbrales à plus grande échelle liées à l'enveloppe énergétique.

Ce lien serait cohérent avec les représentations neuronales sous-jacentes qui partagent des attributs communs, tels que les organisations tonotopiques et de périodicité dans le cerveau.

De même que la hauteur, les changements de dynamique produisent également des changements de timbre pour un instrument donné, en particulier, mais pas exclusivement, en ce qui concerne les propriétés spectrales. Les sons produits avec un plus grand effort de jeu (par exemple, fortissimo vs. pianissimo) ont non seulement une plus grande énergie aux fréquences présentes dans le son plus doux, mais le spectre s'étend vers des fréquences plus élevées, créant un centroïde spectral plus élevé, un plus grand étalement spectral et une pente spectrale plus faible. À ce jour, aucune étude dont nous avons connaissance n'a examiné l'effet du changement de niveau dynamique sur la perception du timbre, mais certains travaux ont examiné le rôle du timbre dans la perception du niveau dynamique indépendamment du niveau physique du signal. Fabiani et Friberg (2011) ont étudié l'effet des variations de hauteur, de niveau sonore et de timbre instrumental (clarinette, flûte, piano, trompette et violon) sur la perception de la dynamique de sons instrumentaux isolés produits à différentes hauteurs et dynamiques. Ils ont ensuite présenté ces sons à des auditeurs à différents niveaux physiques. Les auditeurs ont été invités à indiquer la dynamique perçue de chaque stimulus sur une échelle allant de pianissimo à fortissimo. Les résultats ont montré que les effets timbriques produits par différentes dynamiques, ainsi que le niveau physique, avaient des effets de même ampleur pour les cinq instruments, tandis que la hauteur du son était surtout importante pour la clarinette, la flûte et le piano. Ainsi, les estimations de la dynamique des sons musicaux sont basées à la fois sur la sonorité et le timbre, et dans une moindre mesure sur la hauteur.

Le timbre comme véhicule de l'identité de la source

La deuxième approche du timbre concerne son rôle dans la reconnaissance de l'identité d'un instrument de musique ou, en général, d'un événement générateur de son, c'est-à-dire l'interaction entre des objets, ou un milieu en mouvement (l'air) et un objet, qui crée des vibrations dans l'objet ou dans une cavité entourée par l'objet.

Une hypothèse raisonnable est que les dimensions sensorielles qui composent le timbre servent d'indicateurs utilisés dans la catégorisation, la reconnaissance et l'identification des événements sonores et des sources sonores (Handel, 1995 ; McAdams, 1993). La recherche sur l'identification des instruments de musique est pertinente pour cette question. Saldanha et Corso (1964) ont étudié l'identification de sons isolés d'instruments de musique de l'orchestre occidental joués avec et sans vibrato. Ils se sont intéressés à l'importance relative des transitoires de début et de fin, de l'enveloppe spectrale de la partie soutenue du son et du vibrato.

L'identification de sons isolés est étonnamment faible pour certains instruments. Lorsque les attaques et les décroissances ont été supprimées, l'identification a diminué de manière significative pour certains instruments, en particulier pour la partie attaque des sons sans vibrato. Cependant, lorsque le vibrato était présent, l'effet de la suppression de l'attaque était moindre, l'identification étant meilleure. Ces résultats suggèrent que des informations importantes pour l'identification de l'instrument sont présentes dans la partie d'attaque, mais qu'en l'absence de l'attaque normale, des informations supplémentaires sont encore disponibles dans la partie de maintien, en particulier lorsque le vibrato est présent (bien qu'il soit plus important pour certains instruments que pour d'autres).

Le vibrato peut augmenter notre capacité à extraire des informations relatives à la structure de résonance de l'instrument (McAdams & Rodet, 1988).

Giordano et McAdams (2010) ont effectué une méta-analyse sur des données publiées précédemment concernant les taux d'identification et les évaluations de dissimilarité des sons d'instruments de musique. L'objectif de cette étude était de déterminer dans quelle mesure les tonalités générées avec de grandes différences dans les mécanismes de production du son étaient retrouvées dans les données perceptives. Dans toutes les études d'identification, les auditeurs ont fréquemment confondu les sons produits par des instruments de musique ayant une structure physique similaire (par exemple, les clarinettes et les saxophones, deux instruments à anche simple) et ont rarement confondu les sons produits par des systèmes physiques très différents (par exemple, la trompette, un instrument à clapet, et le basson, un instrument à anche double). De manière cohérente, la grande majorité des espaces timbriques publiés précédemment ont révélé que les sons générés par des structures résonnantes similaires (par exemple, les instruments à cordes par rapport aux instruments à vent) ou par des mécanismes d'excitation similaires (par exemple, une excitation impulsive comme dans les sons du piano par rapport à une excitation soutenue comme dans les sons de la flûte) occupaient la même région dans l'espace. Ces résultats suggèrent que les auditeurs peuvent identifier de manière fiable de grandes différences dans les mécanismes de production des sons, en se concentrant sur les attributs de timbre utilisés pour évaluer les dissemblances entre les sons musicaux.

Plusieurs recherches sur la perception des sons quotidiens étendent le concept de timbre au-delà du contexte musical (voir McAdams, 1993 ; Handel, 1995 ; Lutfi, 2008, pour des revues). Parmi elles, les études sur les sons d'impact fournissent des informations sur les attributs du timbre utiles à la perception des propriétés des instruments de percussion : la géométrie des barres (Lakatos, McAdams & Causse ́, 1997), le matériau des barres (McAdams, Chaigne, & Roussarie, 2004), le matériau des plaques (Giordano & McAdams,2006 ; McAdams, Roussarie, Chaigne, & Giordano, 2010), et la dureté des mailloches (Freed, 1990 ; Giordano, Rocchesso, & McAdams, 2010).

Les facteurs timbraux pertinents pour les jugements perceptifs varient selon la tâche à accomplir. Les facteurs spectraux sont primordiaux pour la perception de la géométrie (Lakatos et al., 1997). Les facteurs spectrotemporels (par exemple, le taux de changement du centroïde spectral et de la sonie) dominent la perception de la matière des objets frappés (McAdams et al., 2004 ; Giordano & McAdams, 2006) et des maillets (Freed, 1990). Mais les facteurs spectraux et temporels peuvent également jouer un rôle dans la perception de différents types de gestes utilisés pour mettre un instrument en vibration, comme l'angle et la position d'un doigt sur une corde de guitare (Traube, Depalle & Wanderley, 2003). La perception de l'identité d'un instrument en dépit des variations de hauteur peut être liée à l'invariance timbrale, c'est-à-dire aux aspects du timbre qui restent constants avec les changements de hauteur et de volume.

Handel et Erickson (2001) ont constaté que les auditeurs non entraînés à la musique sont capables de reconnaître deux sons produits à des hauteurs différentes comme provenant du même instrument ou de la même voix, uniquement dans une gamme de hauteurs d'environ une octave. Steele et Williams (2006) ont constaté que des auditeurs formés à la musique pouvaient accomplir cette tâche avec un taux de correction d'environ 80 %, même avec des différences de hauteur de son de l'ordre de 2,5 octaves. Son rôle dans l'identification et la catégorisation des sources est peut-être l'aspect le plus négligé du timbre, et il présente des avantages et des inconvénients pour l'utilisation du timbre en tant que dimension porteuse de forme dans la musique (McAdams, 1989).

L'un des avantages est que la catégorisation et l'identification d'une source sonore peuvent mettre en jeu des connaissances perceptives (acquises par les auditeurs de manière implicite par l'expérience dans le monde quotidien et dans des situations musicales) qui les aident à suivre une voix ou un instrument donné dans une texture musicale complexe. Les auditeurs le font facilement et certaines recherches ont montré que les facteurs timbraux peuvent apporter une contribution importante à ce repérage des voix (Culling & Darwin, 1993 ; Gregory, 1994), ce qui est particulièrement important dans les contextes polyphoniques.

Les inconvénients peuvent survenir dans des situations où le compositeur cherche à créer des mélodies à travers les timbres instrumentaux, par exemple, les Klangfarbenmelodien de Schoenberg (1911/1978). Notre prédisposition à identifier la source sonore et à la suivre dans le temps empêcherait une perception plus relative dans laquelle les différences timbrales seraient perçues comme un mouvement dans l'espace timbrique plutôt que comme un simple changement de source sonore. Dans les cas où de telles compositions timbrales fonctionnent, les compositeurs ont souvent pris des précautions particulières pour créer une situation musicale qui entraîne l'auditeur dans un mode de perception plus relatif qu'absolu.

Le timbre comme force structurante de la perception musicale

La perception du timbre est au cœur de l'orchestration, un domaine de la pratique musicale qui a fait l'objet de relativement peu d'études expérimentales ou même de traitement théorique de la musique. Les combinaisons instrumentales peuvent donner naissance à de nouveaux timbres si les sons sont perçus comme étant mélangés. Les différences timbrales peuvent également créer le flux auditif de timbres similaires et la ségrégation de timbres dissemblables, ainsi qu'induire des segmentations de séquences lorsque des discontinuités timbrales se produisent.

Les auditeurs peuvent percevoir des intervalles entre timbres comme similaires lorsqu'ils sont transposés dans une partie différente de l'espace timbrique, même si de telles relations n'ont pas été utilisées explicitement dans la composition musicale. Le timbre peut jouer un rôle dans la création et le relâchement de la tension musicale.

Enfin, il semble que les auditeurs puissent apprendre des régularités statistiques dans les séquences de timbre, ce qui ouvre la possibilité de développer des programmes musicaux basés sur le timbre.

Mélange timbral

La création de nouveaux timbres par l'orchestration dépend nécessairement du degré de fusion ou de mélange des sources sonores constitutives pour créer le nouveau son émergent (Brant, 1971 ; Erickson, 1975).

the timbre space of Grey (1977).
The timbre space of Grey (1977).

Sandell (1995) a proposé qu'il y ait trois catégories d'objectifs perceptifs dans la combinaison d'instruments :

  • l'hétérogénéité timbrale dans laquelle on cherche à garder les instruments perceptivement distincts,
  • l'augmentation timbrale dans laquelle un instrument embellit un autre instrument qui domine perceptivement la combinaison,
  • Et l'émergence timbrale dans laquelle il en résulte un nouveau son qui n'est identifié comme aucun de ses constituants.

Le mélange semble dépendre d'un certain nombre de facteurs acoustiques tels que la synchronisation de l'apparition des sons constitutifs et d'autres qui sont plus directement liés au timbre, comme la similarité des attaques, la différence des centroïdes spectraux et le centroïde global de la combinaison.

Par exemple, Sandell (1989) a constaté qu'en soumettant à une mise à l'échelle multidimensionnelle les notes de mélange prises comme mesure de la proximité, on pouvait obtenir un "espace de mélange" ; les dimensions de cet espace étaient corrélées au temps d'attaque et au centroïde spectral, ce qui suggère que plus ces paramètres sont similaires pour les deux sons combinés, plus leur mélange est grand (figure 8).

Une tendance similaire concernant le rôle de la similarité spectrotemporelle dans le mélange a été trouvée pour les combinaisons d'instruments à vent par Kendall et Carterette (1993). Ces auteurs ont également révélé une relation inverse entre le mélange et l'identifiabilité des sons constitutifs, c'est-à-dire que les sons qui se mélangent le mieux sont plus difficiles à identifier séparément dans le mélange. Pour les dyades de sons impulsifs et continus, le mélange est plus important pour les attaques plus lentes et les centroïdes spectraux plus bas, et le timbre émergent qui en résulte est déterminé principalement par les propriétés du son impulsif (Tardieu & McAdams, sous presse).

Timbre et groupement musical

Une façon importante dont le timbre peut contribuer à l'organisation de la structure musicale est liée au fait que les auditeurs ont tendance à relier perceptivement les événements sonores qui proviennent de la même source sonore. En général, une source donnée produit des sons dont la hauteur, la sonorité, le timbre et la position spatiale sont relativement similaires d'un événement à l'autre (voir Bregman, 1990, chapitre 2 ; McAdams & Bregman, 1979, pour des analyses).

La connexion perceptive d'événements sonores successifs en un "message" cohérent dans le temps est appelée intégration du flux auditif, et la séparation des événements en "messages" distincts est appelée ségrégation du flux auditif (Bregman & Campbell, 1971).

two versions of a melody created by David Wessel
Two versions of a melody created by David Wessel

Un principe directeur qui semble jouer un rôle important dans la formation des flux auditifs est le suivant : des événements successifs qui sont relativement similaires dans leurs propriétés spectrotemporelles (c'est-à-dire dans leur hauteur et leur intensité) peuvent provenir de la même source et devraient être regroupés ; les sources individuelles n'ont pas tendance à changer leurs propriétés acoustiques de façon soudaine et répétée d'un événement à l'autre. Les premières démonstrations (voir figure 9) de la diffusion auditive sur la base du timbre suggèrent un lien entre la représentation du timbre et la tendance à la diffusion auditive sur la base des différences spectrales qui sont créées (McAdams & Bregman, 1979 ; Wessel, 1979). Les résultats expérimentaux de Hartmann et Johnson (1991) les ont convaincus que ce sont principalement les aspects spectraux du timbre (tels que le centroïde spectral) qui sont responsables de la diffusion auditive et que les aspects temporels (tels que le temps d'attaque) ont peu d'effet. Plus récemment, le tableau a changé de manière significative et plusieurs études indiquent un rôle important des attributs spectraux et temporels du timbre dans la ségrégation du flux auditif (Moore & Gockel, 2002). Iverson (1995) a utilisé des séquences alternant entre deux sons d'instruments enregistrés ayant la même hauteur et la même intensité et a demandé aux auditeurs de juger du degré de ségrégation.

Une mise à l'échelle multidimensionnelle des jugements de ségrégation traités comme une mesure de dissemblance a été effectuée pour déterminer quels attributs acoustiques contribuaient à l'impression de ségrégation du flux auditif. Une comparaison avec des travaux antérieurs sur l'espace timbrique utilisant les mêmes sons (Iverson & Krumhansl, 1993) a montré que les indices acoustiques statiques (tels que le centroïde spectral) et les indices acoustiques dynamiques (tels que le temps d'attaque et le flux spectral) étaient impliqués dans la ségrégation. Ce résultat a été affiné dans une expérience de Singh et Bregman (1997) dans laquelle l'enveloppe de l'amplitude et le contenu spectral ont été modifiés indépendamment et leurs contributions relatives à la ségrégation du flux ont été mesurées. Pour les paramètres utilisés, le passage de deux à quatre harmoniques a produit un effet plus important sur la ségrégation que le passage d'une attaque de 5 ms et d'un déclin de 95 ms à une attaque de 95 ms et un déclin de 5 ms.

Sequences used for testing the role of timbre in stream segregation.
Sequences used for testing the role of timbre in stream segregation.

Bey et McAdams (2003) ont utilisé un paradigme de discrimination mélodique dans lequel une mélodie cible entrelacée avec une mélodie distracteur était présentée en premier, suivie d'une mélodie de test qui était soit identique à la cible, soit différente de deux notes qui changeaient le contour (figure 10). La différence de timbre entre la mélodie cible et la mélodie distracteur variait dans l'espace de timbre de McAdams et al. (1995). En accord avec les résultats précédemment cités, la discrimination de la mélodie augmentait de façon monotone avec la distance entre les timbres cible et distracteur, qui variait selon les dimensions du temps d'attaque, du centroïde spectral et du flux spectral (Figure 11). Tous ces résultats sont importants pour la théorie de la ségrégation des flux auditifs, car ils montrent que plusieurs propriétés acoustiques d'une source sont prises en compte lors de la formation des flux auditifs. Ils sont également importants pour la création musicale (que ce soit avec des instruments électroacoustiques ou acoustiques), car ils montrent que de nombreux aspects du timbre affectent fortement l'organisation de base de la surface musicale en courants.

 monotone relation between the timbral distance and the rate of discrimination between target and test melodies
monotone relation between the timbral distance and the rate of discrimination between target and test melodies

Différentes orchestrations d'une séquence de hauteurs donnée peuvent complètement changer ce que l'on entend comme mélodie et comme rythme, comme l'a démontré Wessel (1979). Le timbre est également une composante importante de la perception des groupements musicaux, qu'il s'agisse de séquences de notes déclenchées par des changements soudains de timbre (Delie'ge, 1987) ou de sections musicales de plus grande envergure délimitées par des changements marqués dans l'orchestration et la texture timbrale (Delie'ge, 1989).

Intervalles timbriques

Examinons la trajectoire timbrique illustrée à la figure 12 à travers l'espace timbrique de McAdams et al. (1995), en commençant par la guitarnet (gtn) et en terminant par le cor anglais (ehn). Comment construire une mélodie à partir de la corde à archet (stg) pour qu'elle soit perçue comme une transposition de cette mélodie Klangfarben ?

A trajectory of a short timbre melody through timbre space
A trajectory of a short timbre melody through timbre space

L'idée de transposer la relation entre deux timbres à un autre point de l'espace timbrique pose la question de savoir si les auditeurs peuvent effectivement percevoir les intervalles timbriques. Si la perception des intervalles timbraux peut être démontrée, cela ouvre la porte à l'application de certaines des opérations couramment utilisées sur les séquences de hauteurs aux séquences de timbres (Slawson, 1985). Un autre intérêt de cette exploration est qu'elle étend l'utilisation de l'espace timbrique comme modèle perceptif au-delà du paradigme de dissimilarité.

Ehresman et Wessel (1978) ont fait un premier pas dans cette direction. En se basant sur des travaux antérieurs sur les espaces sémantiques et le raisonnement analogique (Henley, 1969 ; Rumelhart & Abrahamson, 1973), ils ont développé une tâche dans laquelle on demandait aux auditeurs de porter des jugements sur la similarité des intervalles formés entre des paires de timbres. L'idée de base était que les intervalles timbraux pouvaient avoir des propriétés similaires aux intervalles de hauteur, c'est-à-dire qu'un intervalle de hauteur est une relation le long d'une dimension bien ordonnée qui conserve un certain degré d'invariance sous certains types de transformation, comme la transposition le long de la dimension, ou ce que les musiciens appellent "transposition". Mais que signifie la transposition dans un espace multidimensionnel ?

Examples of timbral intervals in a timbre space
Examples of timbral intervals in a timbre space.

Un intervalle timbrique peut être considéré comme un vecteur dans l'espace reliant deux timbres. Il a une longueur spécifique (la distance entre les timbres) et une orientation spécifique. Ensemble, ces deux propriétés définissent la quantité de changement le long de chaque dimension de l'espace qui est nécessaire pour passer d'un timbre à un autre. Si nous supposons que ces dimensions sont continues et linéaires d'un point de vue perceptif, alors les paires de timbres caractérisées par la même relation vectorielle devraient avoir la même relation perceptive et donc incarner le même intervalle timbral.

Ehresman et Wessel (1978) ont testé cette hypothèse à l'aide d'une tâche dans laquelle les auditeurs devaient comparer deux intervalles timbriques (par exemple, A-B vs. C-D) et classer différents timbres D en fonction de leur conformité à l'analogie suivante : le timbre A est au timbre B comme le timbre C est au timbre D (voir figure 13).

Ils ont essentiellement constaté que plus le timbre D était proche du point idéal défini par le modèle vectoriel dans l'espace du timbre, plus le classement était élevé, c'est-à-dire que le vecteur idéal C-D était une simple translation du vecteur A-B et que A, B, C et D formaient un parallélogramme (représenté par des lignes pointillées sur la figure 13).

McAdams et Cunibile (1992) ont ensuite testé le modèle vectoriel en utilisant l'espace 3D de Krumhansl (1989) (en ignorant les spécificités). Cinq ensembles de timbres situés à différents endroits de l'espace timbrique ont été choisis pour chaque comparaison afin de vérifier la généralité des résultats. Des compositeurs électroacoustiques et des non-musiciens ont été testés pour voir si la formation et l'expérience musicales avaient un effet. Tous les auditeurs ont trouvé la tâche plutôt difficile, ce qui n'est pas surprenant étant donné que même les compositeurs professionnels n'ont pratiquement aucune expérience de la musique qui utilise les intervalles timbraux de manière systématique.

Le résultat principal est encourageant dans la mesure où les données soutiennent globalement le modèle vectoriel, bien que ce soutien soit beaucoup plus fort pour les compositeurs électroacoustiques que pour les non-musiciens. Cependant, lorsque l'on examine en détail les cinq versions différentes de chaque type de comparaison, il est clair que toutes les comparaisons de timbres ne vont pas dans le sens des prédictions du modèle.

Un facteur de confusion est que les spécificités de certains timbres de cet ensemble ont été ignorées. Ainsi, certains intervalles timbraux correspondent bien à ce qui est prédit parce que les spécificités sont absentes ou de faible valeur, tandis que d'autres sont sérieusement déformés et ne sont donc pas perçus comme similaires à d'autres intervalles en raison de valeurs de spécificité modérées ou élevées. Ce que ce raisonnement suggère, c'est que l'utilisation d'intervalles timbraux comme partie intégrante d'un discours musical risque d'être très difficile à réaliser avec des sources sonores très complexes et idiosyncrasiques, car elles auront, selon toute probabilité, des spécificités d'un type ou d'un autre. L'utilisation d'inter-valeurs timbrales pourrait, à terme, se limiter à des sons synthétiques ou à des sons mixtes créés par la combinaison de plusieurs instruments.

Construire et relâcher la tension musicale avec le timbre

Le timbre peut également contribuer à la forme musicale à plus grande échelle et en particulier à la sensation de mouvement entre tension et relaxation. Ce mouvement a été considéré par de nombreux théoriciens de la musique comme l'une des principales bases de la perception des formes à grande échelle dans la musique. Il est traditionnellement lié à l'harmonie dans la musique occidentale et joue un rôle important dans la théorie générative de la musique tonale de Lerdahl et Jackendoff (1983). Des travaux expérimentaux sur le rôle de l'harmonie dans la perception de la tension et de la relaxation musicale (ou inversement, dans le sentiment de tension qui accompagne un moment où la musique doit continuer et le sentiment de relaxation qui accompagne la fin de la phrase musicale) ont suggéré que la rugosité auditive est une composante importante de la tension perçue (Bigand, Parncutt, &Lerdahl, 1996).

La rugosité est un attribut timbral élémentaire basé sur la sensation de fluctuations rapides de l'enveloppe d'amplitude. Elle peut être générée par des composantes de fréquence proches qui se heurtent les unes aux autres. Les intervalles dissonants ont tendance à présenter davantage de battements de ce type que les intervalles consonants. En tant que telle, une relation assez directe entre la dissonance sensorielle et la rugosité a été démontrée (cf. Parncutt, 1989 ; Plomp, 1976, pour des analyses). Dans un premier temps, pour comprendre comment cela fonctionne dans la musique, Paraskeva et McAdams (1997) ont mesuré l'inflexion de la tension et de la relaxation musicale due au changement de timbre. On a demandé aux auditeurs de porter un jugement sur une échelle de sept points concernant le degré perçu d'achèvement de la musique à plusieurs moments où celle-ci s'est arrêtée. Le résultat est un profil d'achèvement (figure 14), qui peut être utilisé pour déduire la tension musicale en assimilant l'achèvement à la libération et le manque d'achèvement à la tension.

Rated degree of completion at different stopping points
Rated degree of completion at different stopping points

Deux pièces ont été testées : un fragment du Ricercar de l'Offrande musicale pour six voix de Bach (tonal) et le premier mouvement des Six pièces pour orchestre, op. 6 de Webern (non tonal). Chaque pièce a été jouée dans une version orchestrale (l'orchestration de l'Offrande musicale de Webern a été utilisée pour Bach) et dans une transcription directe de cette version orchestrale pour piano sur un échantillonneur numérique.

Bien qu'il n'y ait que de petites différences entre les profils des musiciens et des non-musiciens, il y avait des différences significatives entre les versions piano et orchestre, indiquant un effet significatif du changement de timbre sur la tension musicale perçue. L'hypothèse avancée par Paraskeva et McAdams (1997) pour cet effet était que la plus grande relaxation de la version orchestrale pouvait être due aux processus impliqués dans la formation du flux auditif et à la dépendance de la perception de la rugosité aux résultats de ces processus (Wright & Bregman, 1987). La rugosité, ou tout autre attribut auditif d'un événement sonore unique, est calculée après que les processus d'organisation auditive ont regroupé les éléments d'information acoustique. Si plusieurs notes apparaissent en même temps dans la partition et sont jouées avec un son de piano, elles seront assez synchrones. Comme elles commencent toutes en même temps et ont des enveloppes d'amplitude et des timbres similaires, elles auront tendance à être fusionnées. La rugosité calculée résultera alors de l'interaction de toutes les composantes de fréquence de toutes les notes.

La situation peut être très différente pour la version orchestrale pour deux raisons.

La première est que le même timing est utilisé pour les versions piano et orchestre. Dans la lat-te, on utilise de nombreux instruments qui ont des attaques lentes, alors que d'autres ont des attaques plus rapides. Il pourrait alors y avoir une plus grande asynchronie entre les instruments en termes de temps d'attaque perçu (Gordon, 1987). En outre, comme les timbres de ces instruments sont souvent très différents, plusieurs voix différentes avec des timbres différents arrivent momentanément à une sonorité verticale donnée, mais la verticalité n'est pas perçue parce que l'auditeur continuerait plus probablement à suivre les instruments individuels horizontalement dans des flux auditifs séparés. Ainsi, l'asynchronie des attaques et la décomposition des verticalités en horizontalités concourraient à réduire le degré de fusion perceptive. Une fusion réduite signifierait une plus grande ségrégation. Ainsi, la rugosité de la version orchestrale serait calculée sur chaque événement auditif groupé individuellement plutôt que sur l'ensemble de la masse sonore. Ces rugosités individuelles dans la version orchestrale seraient très probablement bien moindres que celles de la version pour piano. Une fois de plus, la composition timbrale peut avoir une interaction très étroite avec les processus d'analyse de la scène auditive.

Apprentissage implicite de grammaires basées sur le timbre

Pour utiliser le timbre de manière syntaxique dans la musique, les auditeurs devraient être capables d'apprendre des règles pour ordonner les timbres dans des séquences, comme pour la durée et la hauteur.

Cette possibilité a été explorée pour la première fois par Bigand, Perruchet et Boyer (1998), qui ont présenté des grammaires artificielles de sons musicaux pour lesquelles des règles de séquencement ont été créées. Après avoir été exposés à des séquences construites avec la grammaire, les auditeurs entendaient de nouvelles séquences et devaient décider si chacune d'entre elles était conforme ou non à la grammaire apprise, sans avoir à dire pourquoi. En effet, grâce à l'apprentissage implicite des structures du langage et de la musique, nous pouvons savoir si une séquence correspond à notre "langage" sans savoir pourquoi : elle ne sonne tout simplement pas juste. Tillmann et McAdams (2004) ont prolongé ce travail en étudiant l'influence des propriétés acoustiques sur l'apprentissage implicite de régularités statistiques (probabilités de transition entre des événements temporellement adjacents) dans des séquences de sons musicaux ne différant que par le timbre. Ces régularités formaient des triplets de timbres tirés de l'espace de timbres de McAdams et al. (1995). La probabilité de transition entre le premier et le deuxième timbre et entre le deuxième et le troisième timbre était beaucoup plus élevée que celle entre le troisième timbre d'un triplet donné et le premier timbre de n'importe quel autre triplet de la "langue" utilisée dans leur expérience.

Dans la phase d'apprentissage implicite, les auditeurs ont entendu une séquence arythmique régulière de timbres, tous à la même hauteur et au même volume sonore, pendant 33 minutes. La séquence était composée de tous les triolets de la "langue" en séquence avariée. Outre le principe d'une probabilité de transition plus élevée entre les timbres à l'intérieur des triolets qu'entre ceux de triolets différents, les séquences étaient également construites de manière à ce que le regroupement auditif sur la base de la similarité timbrale soit ou non congruent avec la structure des triolets (figure 15).

Examples of timbre triplets used in the three timbral grammars
Examples of timbre triplets used in the three timbral grammars

Pour ce faire, trois grammaires ont été créées.

  1. Pour la séquence congruente (S1), les timbres de chaque triplet étaient assez proches dans l'espace timbrique de McAdams et al. (1995), et la distance entre le dernier timbre d'un triplet et le premier timbre du triplet suivant était importante. Si les discontinuités timbrales créées par les sauts dans l'espace timbrique entre les triplets créaient une segmentation de la séquence, cette segmentation correspondrait aux triplets eux-mêmes.
  2. Pour la séquence incongrue (S2), il y avait une grande distance entre les timbres successifs à l'intérieur des triplets et une petite distance d'un triplet à l'autre. En conséquence, les processus de regroupement séquentiel créaient des segmentations en deux timbres traversant des triplets adjacents et un timbre isolé au milieu de chaque triplet.
  3. Enfin, une troisième séquence (S3) a été composée de manière à ce que toutes les distances à l'intérieur et entre les triplets soient uniformément moyennes dans l'espace de McAdams et al. (1995), évitant ainsi la segmentation.

Après avoir écouté l'une des trois séquences pendant 33 minutes, deux groupes de trois timbres ont été présentés, et l'auditeur devait décider lequel formait un triplet présent dans la séquence qu'il venait d'entendre. Un autre groupe d'auditeurs n'avait pas entendu la séquence de 33 minutes au préalable et devait décider lequel des deux groupes de trois timbres formait le mieux une unité pouvant faire partie d'une séquence de timbres plus longue. Les choix d'un triplet qui faisaient partie de la grammaire étaient notés comme corrects.

Percent correct choice of triplets
Percent correct choice of triplets

Les auditeurs étaient capables d'apprendre la grammaire implicitement en l'écoutant simplement,car les taux de réponses correctes du groupe d'apprentissage étaient plus élevés que ceux du groupe qui n'avait pas été exposé aux séquences au préalable (figure 16). Mais curieusement, cet apprentissage ne dépend pas de la congruence entre la structure de regroupement créée par les discontinuités acoustiques et la structure créée par les régularités statistiques déterminées par les probabilités de transition entre les timbres à l'intérieur et entre les triplets. Ce résultat suggère que le choix a été affecté par la structure de regroupement - les auditeurs préfèrent les triplets "bien formés" - mais le degré d'apprentissage statistique qui s'est produit pendant l'écoute des séquences était le même dans toutes les conditions. Les auditeurs semblent donc capables d'apprendre la grammaire construite par la règle de séquencement des timbres, que les séquences de timbres de la grammaire soient composées de timbres similaires ou dissemblables.

Néanmoins, les auditeurs préfèrent une organisation en motifs composés de timbres proches dans l'espace timbrique et distants en timbre des autres motifs.

Remarques finales

Le timbre musical est une combinaison de dimensions perceptives continues et de caractéristiques discrètes auxquelles les auditeurs sont sensibles de manière différentielle. Les dimensions continues ont souvent des corrélations acoustiques quantifiables. Cette structure perceptive est représentée dans un espace timbrique, un modèle psychologique puissant qui permet de faire des prédictions sur la perception du timbre dans des situations à la fois dans et au-delà de celles utilisées pour dériver le modèle des évaluations de dissimilarité. Les intervalles timbriques, par exemple, peuvent être considérés comme des vecteurs dans l'espace de dimensions communes. Bien que la modélisation des relations d'intervalle puisse être perturbée si les sons ont des spécificités, elle ne serait pas affectée par la sensibilité différentielle des auditeurs individuels aux dimensions communes, puisque celles-ci élargiraient et contracteraient toutes les relations de manière systématique. L'espace timbrique fait également des prédictions au moins qualitatives sur l'ampleur des différences de timbre qui provoqueront la ségrégation du flux auditif. Plus les timbres sont éloignés les uns des autres dans l'espace, plus la probabilité est grande que les séquences de sons entrelacés jouées avec eux forment des flux séparés, permettant ainsi une perception et une reconnaissance indépendantes des séquences constitutives.

La formalisation des descripteurs audio pour capturer quantitativement les propriétés acoustiques qui donnent lieu à de nombreux aspects de la perception du timbre commence à fournir un ensemble important d'outils qui bénéficient à plusieurs domaines, y compris l'utilisation de métadonnées basées sur le signal liées au timbre qui peuvent être utilisées dans la reconnaissance et la catégorisation automatique des instruments (Eronen & Klapuri, 2000 ; Fujinaga & MacMillan, 2000), les recherches basées sur le contenu dans de très grandes bases de données sonores et musicales (Kobayashi &Osaka, 2008), la caractérisation des échantillons sonores et musicaux dans des normes telles que MPEG (Peeters et al. , 2000), et de nombreuses autres applications de recherche d'informations musicales et d'apprentissage automatique musical.

Ces descripteurs, en particulier ceux qui varient dans le temps, s'avèrent utiles dans les environnements d'orchestration assistée par ordinateur (Carpentier, Tardieu, Harvey, Assayag, & Saint-James, 2010 ; Esling, Carpentier, &Agon, 2010 ; Rose & Hetrick, 2007), dans lesquels le défi de la recherche consiste à prédire les résultats perceptifs des combinaisons et des enchaînements instrumentaux pour répondre à un objectif exprimé par un compositeur, un arrangeur ou un concepteur sonore. Le timbre peut également jouer un rôle dans les variations au niveau de la phrase qui contribuent à l'expression musicale. Les mesures de la variation timbrale dans le phrasé à la clarinette démontrent que les joueurs contrôlent les propriétés spectrales et temporelles dans le cadre de leur arsenal de dispositifs expressifs. De plus, l'imitation des variations instrumentales de timbre dans des séquences sonores synthétisées augmente les préférences des auditeurs par rapport aux séquences dépourvues de telles variations (Barthet, Kronland-Martinet & Ystad, 2007).

Et dans le domaine de la synthèse sonore par ordinateur, on s'intéresse de plus en plus au contrôle continu des attributs timbraux pour améliorer l'expression musicale (Lee & Wessel, 1992 ; Momeni & Wessel, 2003).

Des changements de timbre à plus grande échelle peuvent également contribuer à l'expression de fonctions structurelles de plus haut niveau dans la musique. Dans des conditions de mélange élevé entre les instruments composant une sonorité verticale, la rugosité timbrale est une composante majeure de la tension musicale. L'orchestration peut jouer un rôle majeur, en plus des modèles de hauteur et de rythme, dans la structuration des schémas de tension et de relaxation musicales qui sont une composante importante de la réponse esthétique à la forme musicale.

Dans le domaine de la musique électroacoustique et dans certaines musiques orchestrales, le timbre joue un rôle grammatical primordial. C'est particulièrement vrai dans les cas où l'orchestration fait partie intégrante du processus de composition, ce que le compositeur John Rea appelle l'orchestration prima facie, plutôt que d'être un niveau d'expression ajouté après que les forces structurantes primaires de la hauteur et de la durée ont été déterminées, ce que Rea appelle l'orchestration normative.

Dans ces cas, la structuration et la sculpture des changements timbraux et des relations entre des événements auditifs complexes offrent un univers de possibilités que les compositeurs explorent depuis des décennies (cf. Risset, 2004), mais que les musicologues n'ont commencé à aborder que récemment (Nattiez, 2007 ; Roy, 2003) et que les psychologues n'ont pas encore abordé avec une certaine ampleur ou en profondeur.Nattiez (2007) en particulier a repris la distinction de Meyer (1989) entre paramètres musicaux primaires et secondaires et a remis en question sa relégation du timbre à un statut secondaire.

Dans la conception de Meyer, les paramètres primaires tels que la hauteur et la duration 3 sont capables de porter une syntaxe. Pour Meyer, les relations syntaxiques sont basées sur des attentes qui se résolvent en fermeture, c'est-à-dire sur des implications et des réalisations. Les paramètres secondaires, par contre, ne sont pas organisés en unités discrètes ou en catégories clairement reconnaissables. Selon Snyder (2000), nous entendons les paramètres secondaires (parmi lesquels il inclut également le timbre) simplement en termes de leurs quantités relatives, qui sont plus utiles pour l'expression musicale et la nuance que pour la construction de structures grammaticales. Nattiez (2007) note cependant que, selon ses propres analyses en musique instrumentale et celles de Roy (2003) en musique électroacoustique, le timbre peut être utilisé pour créer des relations syntaxiques qui dépendent d'attentes conduisant à une perception de clôture. En ce sens, la principale limite de la conclusion de Meyer concernant le timbre est qu'il a limité ses analyses aux œuvres composées en termes de hauteur et de rythme et dans lesquelles le timbre ne joue qu'un rôle fonctionnel secondaire, ce qui rappelle la distinction de Rea entre orchestration prima facie et orchestration normative mentionnée précédemment. Il suffit de citer la musique de compositeurs électroacoustiques tels que Dennis Smalley, la musique orchestrale de Gyo ̈rgy Ligeti ou la musique mixte de Trevor Wishart pour comprendre les possibilités.

Mais même dans la musique orchestrale de Beethoven à l'époque du grand classique, le timbre joue un rôle structurant au niveau de la segmentation sectorielle induite par les changements d'instrumentation et au niveau de la distinction des voix individuelles ou des couches orchestrales composées de timbres similaires. En tant que facteur responsable de la structuration de la tension et du relâchement, le timbre a été utilisé de manière efficace par des compositeurs électroacoustiques tels que Francis Dhomont et Jean-Claude Risset. Selon les analyses de Roy (2003), la musique de Dhomont, par exemple, utilise le timbre pour construire des attentes et des déceptions dans un contexte musical qui n'est pas "contaminé" par de fortes structures de hauteur.

Cette dernière remarque implique que dans un contexte où la hauteur est structurante, le timbre peut avoir du mal à s'imposer comme un paramètre dominant, ce qui suggère une sorte de hiérarchie de dominance favorisant le rythme et la hauteur lorsque plusieurs paramètres sont mis en jeu. Les recherches sur les conditions dans lesquelles les différents paramètres musicaux peuvent agir en présence d'autres dans la structuration perceptive de la musique ne sont pas légion et dépassent rarement le couple royal de la hauteur et du rythme (voir la discussion dans McAdams, 1989).

Le terrain pour explorer les interactions entre les paramètres musicaux, et ainsi situer leurs rôles relatifs potentiels dans les formes musicales porteuses, nécessitera un effort conjoint d'analyse musicologique et d'expérimentation psychologique, mais il est potentiellement vaste, riche et très passionnant.

Auteur
The psychology of music 3e ed - Diana Deutsch (Elsevier) 2013

Thèmes apparentés

Les sons qui impliquent des changements de hauteur proviennent d'un grand nombre de sources et fournissent des informations utiles sur l'environnement. Pour les humains, les sources les plus importantes de changement de hauteur proviennent de la parole et de la musique. La parole comprend des schémas de hauteur ascendante et descendante qui caractérisent la prosodie vocale. Ces modèles signalent l'état émotionnel du locuteur, fournissent une source d'accent linguistique et indiquent si le locuteur pose une question ou fait une déclaration.

La compréhension de la perception du chant peut émerger de deux types d'investigation. Le premier concerne les propriétés acoustiques du chant, qui sont systématiquement modifiées et examinées sur le plan perceptif. De telles recherches sont rares. Un autre type d'investigation compare les caractéristiques acoustiques de divers types de voix ou de phonations, comme les styles classique et ceinture ou la phonation pressée et normale. Comme ces classifications doivent être basées sur des indices auditifs perceptifs, ces recherches sont pertinentes sur le plan perceptif.

La définition d'un ton - un son périodique qui provoque une sensation de hauteur - englobe la grande majorité des sons musicaux. Les sons peuvent être soit purs - variations sinusoïdales de la pression atmosphérique à une fréquence unique - soit complexes. Les sons complexes peuvent être divisés en deux catégories : les sons harmoniques et les sons inharmoniques.

FORMATION EN LIGNE

Les cours d'analyse du discours permet de mettre en évidence les structures idéologiques, les représentations sociales et les rapports de pouvoir présents dans un discours. Cette discipline analyse les discours médiatiques, politiques, publicitaires, littéraires, académiques, entre autres, afin de mieux comprendre comment le langage est utilisé pour façonner les idées, les valeurs et les perceptions dans la société. Elle s'intéresse également aux contextes social, politique, culturel ou historique dans lesquels le discours est produit, car ceux-ci peuvent influencer sa forme et sa signification.

Analyse et méthodologies des stratégies persuasives

French
Contenu de la formation
Video file

Durée : 1 journée (peut varier en fonction des besoins et de la disponibilité des participants)

Objectifs du programme :

  • Introduction (30 minutes)
  • Session 1: Les stratégies de persuasion dans les discours marketing (1 heure)
  • Session 2: Analyse d'un discours marketing (1 heure)
  • Pause (15 minutes)
  • Session 3: Évaluation critique des discours marketing (1 heure)
  • Session 4: Ateliers des participants (2 heures 30)
  • Pause (15 minutes)
  • Session 4: Présentation des résultats et conclusion (45 minutes)

Ce scénario pédagogique vise à permettre aux participants de comprendre les stratégies persuasives utilisées dans les discours marketing. Il encourage l'analyse critique des discours marketing et met l'accent sur les aspects éthiques de cette pratique. L'utilisation d'études de cas, d'analyses pratiques et de discussions interactives favorise l'apprentissage actif et l'échange d'idées entre les participants.

En savoir plus

Analyse et méthodologies des discours artistiques

French
Contenu de la formation
Video file

Durée : 12 semaines (peut varier en fonction des besoins et de la disponibilité des participants)

Objectifs du programme :

  • Comprendre les concepts et les théories clés de l'analyse de discours artistiques.
  • Acquérir des compétences pratiques pour analyser et interpréter les discours artistiques.
  • Explorer les différentes formes d'expression artistique et leur relation avec le langage.
  • Examiner les discours critiques, les commentaires et les interprétations liés aux œuvres d'art.
  • Analyser les stratégies discursives utilisées dans la présentation et la promotion des œuvres d'art.

Ce programme offre une structure générale pour aborder l'analyse de discours artistiques. Il peut être adapté en fonction des besoins spécifiques des participants, en ajoutant des exemples concrets, des études de cas ou des exercices pratiques pour renforcer les compétences d'analyse et d'interprétation des discours artistiques.

En savoir plus