Passer au contenu

La cognition de l’interaction: état de l’art de la recherche scientifique

[no_toc]

30 minutes de lecture

Résumé

Il existe deux plans dans toute interaction humaine; le plan de l’information et le plan de la relation.

Cet article détaille comment ces deux plans correspondent à deux cognitions distinctes :

  1. une cognition lente réfléchie, inférentielle, séquentielle et monotâche, symbolique qui est celle de l’information et qui se trouve essentiellement dans le cortex prémoteur en charge de la chorégraphie des gestes et actions, 
  2. une cognition rapide automatique associative, massivement parallèle et inconsciente qui est celle du contact relationnel et de sa perception et qui se trouve dans le cortex sensori moteur.

Cet article fait la synthèse de l’état de l’art scientifique et propose une clé de lecture de la cognition de l’interaction et de la manière dont l’impression laissée par une interaction sociale est créée IMPLICITEMENT

contexte

SoNear aide les entreprises à gérer positivement les interactions avec leurs clients

Le but est de favoriser le comportement positif du client: sa réponse aux enquêtes de satisfaction, sa fidélité à la marque, la question est « Comment laisser une impression positive ? »

On observe que l’information explicite donnée par les conseillers n’est pas suffisante pour satisfaire le client, l’essentiel se passe ailleurs, dans le comportement dans l’instant des deux acteurs.

Quels sont les phénomènes linguistiques et cognitifs qui influencent positivement la pensée du client à l’issue d’une interaction ?

l’approche habituelle : information en premier

Les approches traditionnelles de l’interaction mettent en avant l’information et le common ground (représentation partagée) , et décrivent l’interaction comme une collaboration pour aligner un common ground. (entre autres Clarck 1996)

L’interaction est alors définie comme une construction commune, dans laquelle tous les participants à l’échange sont conçus comme de réels partenaires élaborant le sens conjointement.

cette approche essentiellement axée sur la manière dont l’information, la représentation symbolique est échangée, en vogue dans les années 70, bute en 2020 sur deux points :

point un: l’observation des échanges spontanés contredit le fait que l’information soit le but principal de l’interaction. 

  • un aspect important de l’interaction humaine spontanée est la capacité cognitive à enchaîner en  moyenne en 200 msec sur le tour de parole précédent sans effort apparent, ceci quelque soit la langue — les japonais sont un peu plus rapides 140 ms et les allemands un peu plus lents au delà de 200 msec.  Alors que le temps qu’il nous faut pour prononcer une information consciente est supérieur à 600 msec (voir Levinson). Le traitement conscient de l’information est trop lent pour la tenue d’une interaction relationnelle. 
  • l’interaction est largement redondante en terme d’information : (acquiescement, reformulation, écoute active,…) cette information redondante est indispensable à l’interaction mais n’est pas utile cognitivement à la compréhension de l’explicite, Le cerveau humain comprend sans effort un discours ou un texte écrit sans redondance, prononcé ou lu à la même vitesse (la lecture est plus rapide), 

point deux: la notion de common ground laisse de larges zones d’ombres:

  • la manière dont le common ground informationnel est construit malgré l’ambiguité du langage (et l’immensité cognitive de ce qui résiste au langage comme toutes les expériences incarnées) n’a pu être clairement établi malgré 50 ans de recherches scientifique sur le sujet (théorie de l’esprit, pragmatique linguistique, …)
  • l’alignement cognitif sur l’information ne permet pas d’expliquer comment le contact relationnel est établi dans l’instant (partager une information est sans rapport avec le fait que les gens se sentent compris ou relié émotionellement) 
  • le mystère de l’économie spontanée du langage : chaque interlocuteur ne dit que ce qui est nécessaire et pas plus, et donc comment fait il pour prendre en compte spontanément la connaissance de l’autre même quand elle n’est pas explicite, voir les travaux de Sperber et Wilson sur la pragmatique linguistique comme point de départ)

le but de l’interaction: relation en premier

Nous proposons de s’appuyer sur les approches récentes de cognition incarnée qui enrichissent fortement, depuis une dizaine d’années, les approches cognitivistes de la cognition articulée et symbolique.

Et d’adopter le point de vue inverse en considérant que l’interaction vient en premier d’un besoin relationnel et en second d’un besoin d’échange informationnel. En effet, la finalité première de chaque interlocuteur est d’obtenir l’acception sociale de sa pensée, la relation est le but social, l’information n’est que le support.

  • le plan relationnel est traité essentiellement par une cognition incarnée, directe sans nécessairement de représentation symbolique 
  • le plan information est traité par une cognition représentationnelle, symbolique et articulée 

et l’interaction est une succession/alternance de ces plans vers un alignement social.

Ce que nous proposons d’explorer ci après

le cerveau et la motricité

cortex moteur et cortex prémoteur

Pour comprendre la cognition, commençons par une description neuroscientifique du cerveau, celui-ci contient deux cortex : moteur et prémoteur

le cortex moteur est une représentation du corps:

un neurone = une partie du corps,

l’image du corps est topographiquement représentée dans ce cortex moteur, le neurone du pouce est à coté de celui de l’index, etc… ainsi que les capteurs sensoriels

Saisir un verre pour le porter à sa bouche nécessite une planification, une chorégraphie: allonger le bras, saisir le verre entre le pouce et l’index et le majeur, plier le coude et le poignet pour amener le verre à sa bouche, etc…

Chaque neurone du cortex moteur est spécialisé sur sa partie du corps et donc ne peut prendre en charge la globalité du geste, sa planification, son articulation et son ajustement, c’est le rôle du cortex prémoteur

Le cortex prémoteur permet l’articulation du geste dans un but précis et active les différents éléments topographique du cortex moteur dans une chorégraphie qui comporte la séquence et la signification du geste.

La connaissance, la réflexion, le traitement de l’information est traité par le cortex prémoteur. La perception et l’action sont traitées par le cortex moteur.

Ces 2 cognitions sont très différentes:

le système 2 (drivé par le cortex prémoteur) est sériel, conscient, monotâche, il utilise une symbolique, une articulation de la pensée avec causalité et épistémie: qui fait quoi à qui, où, quand et comment, c’est vrai , c’est faux, etc…le système 1 est lent (ordre de centaines de msec) et n’est activé que volontairement. Toutes les fois que l’on réfléchit, on est dans le système 2. Ce fonctionnement cognitif ne permet de traiter le monde qu’au travers d’une structure articulée et symbolique (lexique syntaxe et cadre sur lesquels nous reviendrons). Il manipule le langage de manière structurée et causale

le système 1 (drivé par le cortex sensori moteur) fonctionne par association, sa partie consciente (le résultat final qui arrive à notre conscience après un stimulus sensoriel) est enfermée dans l’instant présent, est massivement parallèle, inconsciente et rapide (quelques msec), il est involontaire (on reconnait quelqu’un dans la rue qu’on le veuille ou non) et s’impose à notre comportement. Il contient l’ensemble et la continuité de notre expérience incarnée sensible. Il utilise la composante sensible, au sens perceptif, du langage, c’est à dire la prosodie (le son de la voix de notre interlocuteur) de manière imitative: pour le système 1 percevoir c’est imiter par entrainement comme nous le verrons plus tard avec les neurones miroirs)

Les avancées récentes sur la cognition montre que le cortex moteur gère une cognition directe incarnée sans passer par la cognition consciente informationnelle, symbolique du cortex prémoteur. Ce cortex moteur permet par l’intermédiaire des neurones miroirs de comprendre directement l’intention de l’autre sans passer par une représentation mentale

les neurones miroirs

Chorégraphier un geste aboutit à 

  • le réaliser (cortex prémoteur → cortex moteur) 
  • à le percevoir chez autrui (cortex sensori moteur → cortex prémoteur) 
  • ou à l’imaginer (en inhibant le cortex moteur)

il s’agit des mêmes mécanismes, même neurones (ou neurones canoniques et miroirs, voir discussion Gallese et Gallagher et Gallagher et Lindblom )

Vittorio Gallese, « Before and below ‘theory of mind’: embodied simulation and the neural correlates of social cognition », Philosophical Transactions of the Royal Society B: Biological Sciences 362, no 1480 (29 avril 2007): 659‑69, https://doi.org/10.1098/rstb.2006.2002; 
Helen L. Gallagher et Christopher D. Frith, « Functional Imaging of ‘Theory of Mind’ », Trends in Cognitive Sciences 7, no 2 (1 février 2003): 77‑83, https://doi.org/10.1016/S1364-6613(02)00025-6.

Comprendre un geste constitue à le percevoir et reconnaître sa chorégraphie dans le contexte (y compris social), le moment et sa globalité (notion de gestalt: c’est l’ensemble de l’articulation du geste qui porte son sens).

une chorégraphie est une signification, un but

on comprend que quelqu’un fait du vélo, porte un verre à sa bouche en reconnaissant sa chorégraphie, quelqu’un qui fait des gestes désordonnés nous paraît fou, car nous ne reconnaissons pas de chorégraphie et de but dans ses gestes 

Il est aussi à noter que les neurones miroirs sont proches des neurones de l’émotion Benjamin K Bergen

la cognition incarnée et le langage

Evolution des théories cognitives

Lindbolm fait la synthèse d’une part des théories cognitivistes (qui considère la cognition sociale traitée essentiellement dans le cerveau)  démarrée  dans les années 50 et d’autre part des théories de cognition incarnée qui sont davantage en vogue depuis une dizaine d’années, j’en fais ici la synthèse:

les cognitivistes

Fodor 1975, 1983, Newell et Simon 1976, Gardner 1987, Fodor et Pylyshyn 1988

voient la cognition comme “information processing” de représentations symboliques à l’intérieur du cerveau et prenant en compte très peu de ce qui se passe en dehors de celui ci

Cette théorie demande une représentation plus ou moins explicite des intentions de l’autre

Les aspects non verbaux sont considérés seulement comme des manifestations visibles des intentions mentales qui sont transmises d’un cerveau à l’autre (Mehrabian 1972, Bugoon et al 2016)

Beaucoup d’auteurs ont apporté des critiques à cette vision sur 4 aspects

  • l’implausibilité de la métaphore cerveau ordinateur (Varela 1991, Dreyfus 1992, Johnson 2002 Pfeifer 2014 Ziemker 2016
  • le manque de connexion entre le monde intérieur et extérieur du cerveau dans ces théories (Searle 1980, Dreyfus 1992, Lindbolm 2007, Hutto et Myin 2017
  • le manque de prise en compte du contexte,l’influence du corps dans la cognition, la culture et le bon sens : aboutissant à une IA très pauvre en contexte (Dreyfus 1992, Clark 1997, Pfeifer et Scheier 1999, Ziemke 1999, 2001)
  • la non prise en compte des circonstances de l’instant de la situation (Suchman 1987, Hutchins 1995, Hollan 2000, Rogers 2012, Rooksby 2013

Beaucoup ont réagi (e.g., Maturana and Varela, 1980, 1987; Suchman, 1987, 1993; Varela et al., 1991; Dreyfus, 1992; Hutchins, 1995; Clark, 1997; Smith et al., 1999; Thelen, 2000; Thelen et al., 2001; Gallagher, 2005, 2015, 2017; Johnson, 2007; Lindblom, 2007, 2015a,b; Chemero, 2009, 2013; Wilson and Golonka, 2013; Hutto and Myin, 2017; Fuchs, 2018; Newen et al., 2018) en indiquant que la cognition est formée par l’incarnation globale de l’expérience

Ceci a amené aussi à s’intéresser aux neurones miroirs comme responsables de la cognition incarnée (Gallese 2004 et Gallagher 2005 entre autres) et de la compréhension des gestes d’autrui (De Jaegher and Di Paolo, 2007; De Jaegher et al., 2010; Kyselo, 2014) et dans le langage (Cuffari et al., 2015; Di Paolo et al., 2018).

Il y a un débat de spécialistes entre Gallese et Gallagher sur la sémantique de “neurones miroirs”, pour Gallagher il s’agirait plutôt d’une fusion perception-action dans les neurones prémoteurs et une compréhension immédiate non représentationnelle du geste de la chorégraphie, davantage qu’une simulation par les neurones miroirs, mais l’idée est la même: nous comprenons l’intention de l’autre par la perception et non par la réflexion. 

Lindbolm synthétise en montrant que les neurones miroirs du cortex prémoteur reconnaissent non seulement le geste, sa chorégraphie mais aussi son but donc l’intention et donc la signification sans toutefois passer par une représentation symbolique et ce point est important car on peut le rapprocher dans la conversation des phases de mimétisme et de  l’alignement echo des phases de contact entre les interlocuteurs (les moments où ils se comprennent mutuellement et s’apprécient socialement) .

Une présentation intéressante de Gallagher est l’idée d’entraînement: il  insiste sur le fait que ce n’est pas nous qui faisons ou représentons mais que c’est ce que les autres nous font qui se passe dans le cerveau:  nous suivons ce qui est proposé et n’avons pas besoin de représenter et anticiper une représentation, nous nous laissons porter et prolongeons. (mode online en réception)

Donc la vision de la conversation comme un transport d’information est remise en cause par Gallagher 2005, Shanker et King 2002, elle ne permet pas de traduire tout ce qui se passe dans l’incarnation de l’interaction.

la cognition incarnée

On en retiendra que la cognition sociale n’est pas uniquement représentationelle (se représenter les états mentaux des autres)  mais est entraînée par la perception et fournit une compréhension d’autrui, de ces gestes et postures non représentationelles. Une compréhension “simulée en soi” ou “reconnue en soi” bien que le terme simulation fasse débat chez les spécialistes 

Nous proposons de distinguer les moments où:

  •  nous planifions une élocution (plan de l’information) selon un fonctionnement proche des cognitivistes et que l’on peut également rapprocher du fonctionnement conscient Système 2 de la Dual Process Theory voir Kahneman par exemple
  •  et les moments où nous nous laissons entraîner par une perception (plan de la relation) plus proche de la cognition incarnée et également du fonctionnement automatique Système 1 de la Dual Process Theory.
Daniel Kahneman, Thinking, Fast and Slow, 1st edition (New York: Farrar, Straus and Giroux, 2013).

Avec 3 modes

Online out : nous articulons corporellement par le biais de notre organe vocal  la représentation de nos pensées (cortex prémoteur → moteur)

Online in : nous sommes entraînés par la perception de l’extérieur et de notre interlocuteur dans une cognition incarnée (cortex moteur → prémoteur)

Offline : nous manipulons des représentations de manière sérielle et cognitiviste (cortex moteur inhibé)

Il y a des moments où nous sommes tournés vers nous mêmes et la représentation de nos pensées articulées ainsi que l’analyse consciente des propos de l’autre 

et il y a des moments où nous sommes tournés vers le contact et le percevons automatiquement, de même que cette perception nous entraîne automatiquement à répondre à ce contact.

Ces traitements cognitifs sont très différents et traiter l’interaction comme deux activités cognitives qui se renforce rend l’analyse plus simple.

Distinguer ces 2 activités cognitives (cortex premoteur et cortex moteur) permet de comprendre la difficulté en relation client de mettre en oeuvre un discours, une intention relationnelle uniquement en définissant le discours et sans prendre en compte l’entraînement nécessaire du cortex moteur. Exactement comme on ne peut apprendre à faire du vélo par les explications, il faut passer par une expérience sensible du cortex moteur et faire du vélo pour que cela devienne naturel et automatique.

langage et cognition incarnée

Pour en venir à la relation entre langage de l’interaction et cognition incarnée, George Lakoff et l’université de Berkeley (Jérôme Feldman) Narrayanan fournissent un modèle

  • la grammaire ECG Embodied Cognition Grammar
  • NTL Neural Linguistics
 Jerome Feldman, « Embodied language, best-fit analysis, and formal compositionality », Physics of life reviews 7 (1 décembre 2010): 385‑410, https://doi.org/10.1016/j.plrev.2010.06.006.

Selon cette théorie, toute cognition s’appuie sur un dispositif neuronal qui par métaphores,  fusions, frames permet de généraliser des expériences incarnées originelles, des métaphores primaires  et de manier des concepts symboliques

Par le biais de 3 phénomènes physiologiques

  • la loi de Hebb: des neurones qui s’allument ensemble se connectent ensemble
    • exemple More is up (empiler des objets, remplir un récipient)
  • Spike-time-dependant plasticity (Song, Miller, &Abbot 2000): les liens synaptiques se renforcent assymétriquement dans la direction du neurone qui s’allume le premier vers celui qui s’allume le second
    • exemple sentiments affectifs = chaleur et non l’inverse chaleur = sentiment affectif (le corps pilote en permanence sa chaleur et seulement de temps en temps les sentiments affectifs)
  • Apprentissage par recrutement: nous utilisons les centaines de trillions de neurones disponibles (créés avant l’âge de 5 ans) en créant des circuits fonctionnels par un renforcement synaptique

Ces phénomènes permettent de créer des circuits logiques neuronaux

  • Winner talk all circuit
  • Gestalt nodes
  • Schema circuit
  • Linking Circuit
  • Binding circuit
  • ID Links
  • Two way linking circuits
  • Mappings
  • Metaphor
  • Metaphorical mapping
  • Mental space mapping
  • X schema circuit
  • etc..

qui vont en s’établissant permet de généraliser par des métaphores   des expériences originellement incarnées qui vont migrer vers des espaces mentaux traitées par le cortex premoteur

  • par exemple l’espace de l’amour reproduit l’espace du voyage : “l’amour un long chemin ensemble avec des embuches,..”.,
  • autre exemple augmenter est dirigé le haut et diminuer vers le bas car chaque fois que nous remplissons un verre le niveau augmente, ou que nous empilons des objets, la pile monte vers le haut

ces espace mentaux vont permettre de construire des représentations pour les manipuler cognitivement et consciemment (système 2).

Une économie entropique de best-fit permet au cerveau de décoder le langage et trouver la représentation sémantique qui a les plus fortes liaisons synaptiques tout en demandant le moins d’effort de recherche et d’en déduire une spécification sémantique Semspec (une représentation lexico grammaticale) de ce que veut signifier notre interlocuteur.

C’est notre expérience sociale qui va renforcer les correspondances automatique entre le langage et nos représentations internes

La semSpec représente le cadre (Frame) par exemple un restaurant avec ses acteurs (cuisinier, serveur,…) ses rôles (business, nourrir) etc.. et les actions et forces motrices entre les acteurs et dans le cadre. Les métaphores de ce cadre sont acquises par fusion avec une métaphore originelle incarnée (voir le détail dans Lakoff)

George Lakoff, « Explaining Embodied Cognition Results », Topics in Cognitive Science 4, no 4 (octobre 2012): 773‑85, https://doi.org/10.1111/j.1756-8765.2012.01222.x.
Jerome Feldman et Srinivas Narayanan, « Embodied meaning in a neural theory of language », Brain and language 89 (1 juin 2004): 385‑92, https://doi.org/10.1016/S0093-934X(03)00355-9.

Par exemple Feldman prend l’exemple “il coupe le pain”

le décodage du lexique, de la syntaxe et du cadre va nous permettre d’associer une représentation partagée socialement 

Cette Semspec va être ensuite reconnue en tant de chorégraphie par le cortex prémoteur et ainsi être reliée à notre expérience incarnée, voir détails dans Feldman

Selon ces auteurs, nous identifions et décodons la Spécification sémantique par le caractère commun et partagé de la langue LC (Language Community) et ensuite nous la jouons en interne.

Il n’y a que le squelette qui est partagé, la Semspec et non sa simulation in petto.

La SemSpec s’arrête à ce qui résiste au langage, le reste est relié à notre expérience sensible globale contenu dans notre espace cognitif manifeste..

Nous vivons un paysage de manière personnelle mais le représentons de manière squelettique: un beau coucher de soleil, avec des couleurs bleues à rouges

A noter que l’incarnation joue un rôle autant pour l’établissement des règles LC communes (communauté des chorégraphies incarnées du fait de la motricité commune aux humains) que pour leurs interprétations individuelles (individualité de l’expérience sensible d’une motricité).

Voir pour plus de détails:   Lakoff , Jérôme Feldman , Narayanan

Cognition incarnée et théorie de l’esprit

le problème que peut poser la cognition incarnée est de savoir comment la compréhension des intentions de l’autre est elle réalisée ?

Bien que réalisée individuellement (étant liée au corps), la cognition incarnée apporte pour ses partisans une explication à la théorie de l’esprit

Il existe historiquement deux théories sur la manière de représenter les états mentaux de l’autre : la théorie de la simulation et celle de la théorie théorie

théorie théorie

La théorie théorie postule que la lecture des intentions se fait dans un processus spécialisé du cerveau.

La théorie théorie est davantage conforme à l’approche des cognitivistes (vision d’un cerveau indépendant du corps) et parmi ceux-ci Fodor propose que la représentation des intentions d’autrui soit traitée par un processus spécialisé, plus à même de traiter l’information en temps réel.

Sperber et Wilson dans leurs derniers articles de 2009 aboutissent à la théorie Fodorienne pour expliquer la pragmatique et l’économie du langage.

Cependant la théorie théorie pose le problème de la poule et l’œuf,  

Comment une communication basée sur la représentation de l’articulation de la pensée d’autrui a t’elle pu se mettre en place lors de l’évolution humaine sans pensée articulée ? quelle pression évolutive aurait permis sa mise en place.

l’approche théorie de l’esprit par simulation, défendue par les partisans de la cognition incarnée propose une approche plus “naturelle” 

la théorie de la simulation

Les partisans de la cognition incarnée défendent l’idée d’une cognition étendue par la perception du et par le corps de son environnement: du moment de l’interaction, du contexte externe, du contact avec l’autre et fonctionnant selon un principe similaire à une simulation ou résonance, ou reconnaissance d’une chorégraphie déjà vécue. voir Gallagher pour plus de détails sur la cognition 4E (Embodied, Extended, Enactive, Extended) et Gallese pour le fonctionnement de la simulation.

L’avantage de cette approche est qu’elle ne passe pas nécessairement par une représentation, mais par une reconnaissance immédiate de la finalité de ce que le corps perçoit puis par l’attribution de cette reconnaissance à l’autre interlocuteur.

Dans ces conditions, chacun comprend l’état de l’autre en lui attribuant le sien généré par la perception de l’autre (voir plus haut synthèse de Lindbolm), ce qui simplifie la théorie de l’esprit.

Lakoff défend  ainsi un décodage par simulation incarnée et dont on attribue le résultat à l’autre

Jérome Feldman sépare le décodage syntaxique et lexical du langage à partir de règles communes (Langage Communities) aboutissant à une SemSpec suivi par une simulation incarnée de cette SemSpec selon la chorégraphie source de Lakoff.

il limite ainsi l’intersubjectivité à la LC (le squelette commun de langue syntaxe,  lexique, espaces et rôles): nous partageons la réprésentation du langage (lexique syntaxe et cadres) mais pour les comprendre, nous les associons in petto à nos expériences sensibles personnelles. La communication s’arrête au squelette de la langue, L’essentiel de l’expérience sensible résiste au langage

intersubjectivité et contexte partagé

Feldman balaye l’intersubjectivité en postulant qu’elle est réduite au squelette de règles qui définissent la LC et permettent de décoder une SemSpec. 

Cependant, un problème avec la théorie de la simulation incarnée est comment les deux locuteurs peuvent ils converger si leur interprétation du squelette de la LC est personnelle  ? si leur façon de rejouer la même Semspec est une expérience sensible très différente ?

avec deux problèmes :

  1. comment chaque interlocuteur sait il spontanément ce qui est partagé dans le contexte pour économiser le langage explicite ? (théorie de la pragmatique)
  2. comment ensuite les deux interlocuteurs convergent ils s’ils simulent différemment cet explicite ?

Pour la question 1:

Parmi les circuits neuronaux décrits par George Lakoff, figurent les ID Circuits Ceci permet par exemple d’expliquer comment un singe que l’on voit monter la montagne un jour et la descendre le jour suivant représente le même singe, ceci d’après Lakoff est réalisé par des ID Circuit qui permet de relier un node neuronal représentant chaque singe à une essence: le même singe.

Ce principe permettrait d’expliquer comment vers l’âge de 4 ans les enfants arrivent à distinguer la partie partagée d’un contexte manifeste avec quelqu’un d’autre. Il s’agirait alors d’une apprentissage neuronal des ID Circuit qui n’apparaitrait que vers 4 ans

Ce point reste à creuser. 

Pour répondre à la deuxième question, nous travaillons la thèse suivante:

– le canal retour est fait par le contact sensible et sur un canal relationnel non articulé, de cognition incarnée 

– chacun vérifie régulièrement par le canal du contact que le common group qu’il cherche à établir est accepté

-Le common ground n’est commun que dans la limite du Langage Commun LC (Jérôme Feldman) (squelette de la compréhension lexicale, syntaxique, schémas, espaces, agents, rôles, etc…) et chacun s’arrange avec les ambiguïtés du langage tant que la relation par le contact est établie.

exemple de frame (espace) du LC : le restaurant, l’hopital, les rôles et relations sont définies de manière commune: un restaurant a une salle, des tables, des chaises, une cuisine, une finalité commerciale, des agents clients, serveurs, cuisiniers, des schémas: on apporte le menu, on choisit les plats, apporte l’addition etc… voir pour plus de détails sur l’ECG (Embodied Cognitive Grammar) et NTL (Neural Theory of Language) Feldman et Lakoff

C’est le contact sensible traité par le cortex moteur qui permet de valider ou non l’information échangée par le langage. L’interaction comporte alors deux plans: la relation et l’information,

l’information est traitée par le cortex premoteur et est par nature ambigue (la représentation symbolique du langage est squelettique par rapport à l’expérience sensible et l’essentiel de notre expérience résiste au langage) ,

la relation est traitée par le cortex moteur qui traite le contact par la perception de façon binaire : positif ou négatif (voir aussi les travaux sur l’homéostasie et les sentiments d’Antonio Damasio

Antonio Damasio L'Erreur de Descartes : la raison des émotions, Paris, Odile Jacob, 368 p. (ISBN 978-2-7381-0303-1BNF 35772573).Le Sentiment même de soi : corps, émotions, conscience, Paris, Odile Jacob, 380 p. (ISBN 2738107389).

La redondance de l’interaction (acquiescement, répétitions, font partie des manifestations corporelles du contact — au même titre que le langage corporel — elle ne porte pas de symbolique articulée et est interprétée immédiatement par le cortex moteur comme l’établissement d’un contact positif ou négatif, qui valide ou non notre interprétation du plan de l’information, ce qui permet d’avancer dans l’alignement de la conversation autour d’un ground partagé (common ground).

La relation : finalité originelle de l’interaction

 

Les babouin gellada

l’interaction orale: une finalité sociale chez les Gellada

L’anthropologie du langage et l’analyse des interactions animales permettent aussi de renforcer cette thèse relation en premier et que celle ci se manifeste par un contact (oral et oscillatoire)

Il apparaît que la finalité première de l’interaction est sociale (évaluation de l’autre ou regroupement dissuasif vis à vis des prédateurs)

Au départ, le contact par la voix permet d’économiser les coups en restant à distance et s’établit de la même manière que le non verbal et corporel par imitation, et mouvements oscillatoires, c’est ce que l’on retrouve dans les répétitions, les montées du F0 (fréquence fondamentale de la prosodie) quand on est tourné vers l’autre, et le maintien d’une oscillation de 5 hz (5 syllabes par secondes).

On retrouve dans l’articulation orale les mouvements d’imitation (echo) et d’encouragement que l’on retrouve dans le langage corporel et l’articulation des autres membres que l’organe vocal

On retrouve cette finalité sociale et non informationnelle chez les Babouins Gelada avec les mêmes caractéristiques vocales que l’humain (fréquences syllabiques 3 à 8 hz, formants,…) et des communautés sociales étendues (500 individus) ce qui montrerait que la voix véhicule une information sociale non cumulative  (Du fait de l’étendue des communautés, les babouins Gellada ne s’évaluent pas en reconnaissant l’autre individu par effet cumulatif mais par le décodage de la fréquence  et rythmes vocaux sans avoir nécessairement rencontré cet individu auparavant).

Les auteurs signalent également que l’échange vocal entre babouin Gellada a une fonction sociale et non informationnelle.

 Morgan L. Gustison et Thore J. Bergman, « Divergent Acoustic Properties of Gelada and Baboon Vocalizations and Their Implications for the Evolution of Human Speech », Journal of Language Evolution 2, no 1 (janvier 2017): 20‑36, https://doi.org/10.1093

le rythme de 5 syllabes par secondes (3 à 8hz) est un design humain mais également de certains primates

Ci après un extrait de Gustison

The human ability to modulate sound extends beyond the spectral domain to the temporal domain. Among the ‘unique’ temporal features of human speech are the 5 Hz (3–8 Hz range) rhythm in the production rate of small meaningful units like syllables and phonemes bounded by consonants; this speaking rhythm (i.e. 3–8 syllables per second) is facilitated by the controlled movement of facial articulators (e.g. tongue and lips) and breathing (Male´cot et al. 1972; Crystal and House 1982; MacLarnon and Hewitt 1999; Greenberg et al. 2003; Crystal et al. 2008; Chandrasekaran et al. 2009). The 3–8 Hz rhythm is thought to be a universal characteristic of human speech and exists in all languages studied to date, including British English, American English and French (Chandrasekaran et al. 2009). Disrupting the natural speaking rhythm reduces intelligibility (Drullman 1994; Shannon et al. 1995; Saberi and Perrott 1999; Smith et al. 2002; Elliott and Theunissen 2009). This reduction occurs, in part, because the human auditory cortex appears designed to entrain to a speech rhythm in the approximate range of 3–8 Hz (Schroeder et al. 2008; Peelle and Davis 2012; Gross et al. 2013).

 

l’espacement des tours de parole 200 msec une particularité humaine

Une autre particularité de la conversation spontanée est sa continuité, en particulier dans les phases de contacts relationnels

Les espaces sont en moyenne dans toutes les langues de 200 msec, Levinson et Torreira

Stephen Levinson et Francisco Torreira, « Timing in turn-taking and its implications for processing models of language », Frontiers in Psychology 6 (12 juillet 2015), https://doi.org/10.3389/fpsyg.2015.00731.

La théorie de Levinson est que chaque locuteur déploie des efforts d’anticipation pour maintenir un espacement de 200 msec.

On peut noter que le décodage cognitif de l’information n’impose pas cette contrainte, elle n’existe pas par exemple dans les conversations écrites chat, elle n’existe pas non dans les phases “réfléchies” informationnelles de la conversation, poser une question, réfléchir est par moment important et provoque des pauses supérieures à la seconde.

En revanche, les pauses supérieures à 500 msec sont vécues négativement (hésitation ou négation, gêne, surprise) dans les phases d’interactions spontanées et sociales (voir par exemple Roxane Bertrand HDR, et d’autres auteurs)

cet espace de 200 msec correspond également au rythme oscillatoire de 5 hz, il peut correspondre à une besoin de continuité du signal entre les interlocuteurs (voir plus bas)

 

la conversation est faite de plusieurs phases cognitives 

des moments différents cognitivement dans la même interaction

 

  • Par moment, nous analysons ce que nous dit notre interlocuteur et réfléchissons à ce que nous souhaitons dire et le disons,
  • Par moment, nous écoutons l’autre et le percevons, nous sommes au contact

Les processus cognitifs ne sont pas les mêmes, dans le premier cas, nous sommes en dehors du cortex moteur (offline), nous analysons et préparons une réponse et sa chorégraphie et nous décidons de son élocution en transmettant cette chorégraphie au cortex moteur pour l’articuler, la prononcer (cortex prémoteur → cortex moteur)

Dans le deuxième cas, c’est le cortex sensori moteur qui mène la danse et entraîne le cortex prémoteur par simulation, imitation etc…(Cortex sensori moteur → cortex prémoteur)

Nous nous laissons entraîner par imitation, nous pouvons prolonger ce stimulus sans passer par une représentation mentale, nous sommes à la fois dans la cognition incarnée et dans les phases décrites par Garrod et Pickering pour qui la conversation est si facile, notre cortex prémoteur prolonge le rythme de 3-8hz en enchaînant par des répétitions, acquiescements, redondance, etc… il n’y a pas de planification nécessaire car il n’y a pas de représentations mais des perceptions-entraînements. Cortex prémoteur et cortex moteur s’alignent à l’unisson et idem pour notre interlocuteur, nous sommes “au contact” par un chemin continu entre nos cortex prémoteur respectifs, nous nous percevons mutuellement online et prolongeons à tour de rôle ce contact de manière continue à 5hz  

Si en revanche, nous analysons ce qui est dit, nous passons dans un mode offline déconnecté du cortex moteur et dans une pensée consciente de type système 2 et basculons dans le premier cas (phases réflexives et centrée vers nos pensées).

L’article de Levinson et Torreira décrit une planification qui effectivement doit exister lorsque nous passons en mode offline, nous nous appuyons alors sur la structure de la syntaxe et son empreinte sur la prosodie pour anticiper l’enchaînement du tour de parole (pour plus de détail sur la structure de la prosodie voir les synthèses de Cole et Wagner et Watson.

Dans les phases spontanées, l’entraînement ne nécessite pas de planification car on reste en mode online sans passer par une représentation offline, On réagit verbalement exactement comme pour le non verbal: si tu souris, je souris, si tu penches à droite, je penche à droite, nos mains oscillent à l’unisson dans une poignée de main,  le temps de réaction est celui du corps humain 200 msec (retrouver la sources dans l’article de Levinson) les articulations orales sont utilisées comme les autres articulations corporelles, pour s’aligner et osciller avec l’autre, et génèrent des redondances, imitations, acquiescements en prolongement continu et au diapason de 3-8 hz qui est la zone de confort du cortex auditif et de la motricité (ganglions de la base) Lieberman

l’influence de la prosodie

Les patrons intonatifs du français étudiés par Di Christo portent une empreinte de la structure de la syntaxe et de type auto segmentales.

 Albert Di Christo, Les musiques du français parlé, s. d.

Ils peuvent donc servir au locuteur pour analyser et anticiper les tours de parole de manière plus ou moins apprise, ou automatique.

On peut noter que de ces patrons intonatifs, une règle semble se dessiner :

  • un code de gradient montant dirigé vers la découverte de  l’autre espace cognitif,
  • un code de gradient descendant d’affirmation de son propre espace cognitif

Quand nous nous tournons vers nous en mode offline, le F0  final a tendance à baisser, quand nous tournons notre attention vers l’autre, le F0 a tendance à monter

Ce code binaire (vers toi, vers moi) peut être la signalisation en mode spontané du changement de tour de parole.et également de la bascule mentale online et offline

En synthèse, les deux plans:

le plan de l’information

le codage décodage par la chorégraphie est essentiellement  tourné vers l’intérieur vers mon espace cognitif dans une logique de comprendre et exprimer, je suis dans un traitement cognitif de l’interaction de type cognitiviste (le décodage est implicite, incarné au sens Feldman ou Lakoff, mais le traitement de la représentation est explicite: inférentiel et sériel)

et c’est le même que je sois en lecture, en chat, en conversation amicale et professionnelle

le plan de la relation

je suis en réception attentif aux stimuli de mon cortex sensori moteur: mes sens ouverts sur le monde et sur mon interlocuteur, il n’y a pas de décodage représentationnel mais simplement une perception et la reconnaissance d’une chorégraphie simple et prévisible (culturelle ou innée), je réagis au gestes et je réagis vite en mode miroir et par association car toute mon attention est tournée vers l’extérieur, c’est le cortex sensori moteur qui guide mon cortex prémoteur qui associe automatiquement et continue la chorégraphie proposée. Je maintiens ce mode le temps nécessaire pour établir le contact, puis je peux repasser en mode offline traiter l’information sériellement.

le common ground

Le common ground s’arrête à la Semspec ou le squelette du LC défini par Feldman, le reste est simulé intérieurement et se rattache à mon expérience sensible incarnée.

Afin de vérifier que nous sommes en train de converger, je retourne en mode online au contact de mon interlocuteur par moments et vérifie que le contact est toujours là, positif en fonction de ce que nous échangeons. Cette validation positive m’encourage à penser que nous partageons le même ground, Si le contact est négatif (absent, agressif, fuyant), j’en déduis que le common ground n’est pas atteint.

Dans les deux cas, mon opinion est généralement biaisée en fonction du contact social incarné et automatique (souvent je surestime le commun de notre compréhension mutuelle (comme ground) qui on le rappelle se limite au langage commun LC, ou à l’inverse, souvent je surestime la différence de nos compréhensions)

la finalité de la conversation

La finalité de la conversation est sociale, le prétexte est informationnel, chaque interlocuteur cherche à vérifier l’acceptation sociale de ses idées.  A aucun moment, les interlocuteurs ne cherchent à lever les ambiguïtés du langage et préciser le common ground, tant que le contact montre une acception sociale par l’autre de ce qui est échangé explicitement.

La compréhension du contact par chaque interlocuteur est incarnée, et passe par la perception d’une redondance, imitation synchrone, continuité temporelle à 200 msec.

Elle contribue à s’aligner socialement autour des deux grounds communs dans leur description linguistique (explicite) mais seulement voisins dans leur compréhension incarnée (implicite). 

Ce contact incarné permet de percevoir l’intention de l’autre et fait l’économie d’une représentation des états mentaux de l’autre. Il est un moyen influençant fortement l’alignement social de l’interaction.

Ce moyen n’existe plus à l’écrit: chat, réseaux sociaux qui sont sans moyen d’alignement social