 |
La
parole est un ensemble de gestes rendus visibles et audibles. La construction
d'un clone virtuel capable de produire du son à partir de gestes
permet d'étudier les relations entre programmation motrice et perception
visuelle et acoustique. Les chercheurs de l'Institut de communication
parlée1 (ICP)
ont choisi d'étudier un locuteur réel dont les gestes de
parole sont enregistrés par divers capteurs (mouvements visibles
par vidéo, invisibles par cinéradiographie, articulographie,
imagerie par résonance magnétique
). Ces études
du mouvement in vivo ont fait apparaître les "degrés
de liberté" des articulateurs de la parole, ces mouvements
élémentaires que les organes peuvent exécuter indépendamment
les uns des autres pour mettre en forme la géométrie du
conduit vocal.
Malgré
la complexité de la musculature, les chercheurs de l'ICP ont montré
qu'une dizaine de degrés de liberté étaient suffisants
pour décrire l'ensemble des mouvements de parole des locuteurs
étudiés : deux pour la mâchoire (ouverture/fermeture
et avancée/rétraction), trois pour les lèvres (étirement/protrusion,
ouverture/fermeture, élévation/abaissement), un pour le
vélum (ouverture/fermeture), un pour le larynx (élévation/abaissement)
et quatre pour la langue (avant/arrière, tendue/comprimée,
élévation/abaissement et avancée/rétraction
de la pointe de la langue).
  |
|
  |
|
  |
|
  |
|
a
|
|
b
|
|
c
|
|
d
|
|
Quatre
des six gestes faciaux élémentaires impliqués
par les mouvements de parole. (a) fermeture/ouverture de la mâchoire
; (b) étirement/arrondissement des lèvres ; (c) ouverture/fermeture
des lèvres ; (d) abaissement/élévation des
lèvres. © CNRS, ICP.
|
Les
chercheurs ont utilisé des clones articulés qui ont l'apparence
du locuteur original. Ils constituent de véritables outils de recherche
sur le développement du langage chez l'enfant, l'émergence
du langage chez l'homme ou la structure des langues du monde. Ils trouvent
leurs applications dans différents domaines :
Les
télécommunications virtuelles
La
visiophonie (transmission simultanée du son et de l'image) y
est remplacée par un système de labiophonie où
les interlocuteurs sont représentés par leurs clones respectifs,
animés par les mouvements articulatoires estimés. Le clone
participe à des téléconférences virtuelles.
La
réalité augmentée
Les
mouvements visibles et invisibles des clones estimés pour un
apprenant ou un patient peuvent les guider dans des tâches d'apprentissage,
de rééducation et aider l'orthophoniste ou le chirurgien
à identifier des déficiences ou des pathologies. La peau
du clone virtuel est rendue partiellement transparente et l'on peut
voir ainsi les mouvements des articulateurs invisibles de la parole.
Les
technologies vocales (synthèse et reconnaissance de parole)
Ces
technologies bénéficient d'une intégration forte
des composantes acoustiques et visuelles : le message synthétique
gagne en intelligibilité, en réalisme et en crédibilité
alors que la compréhension de la parole naturelle gagne en robustesse.
 |
|
 |
|
On
suit les mouvements faciaux en estimant une projection optimale
du modèle articulatoire sur l'image (issue ici d'une
microcaméra placé à 12 cm du visage). Les
paramètres estimés peuvent alors animer à
distance le clone du locuteur (ou celui d'un autre par une procédure
d'encodage/recodage des paramètres articulatoires propres
à chaque clone dans le format MPEG4/SNHC). Notez ici
l'inférence des mouvements de profil à partir
d'une vue de face.
© CNRS, ICP.
|
La parole est donc un moyen de communication multimodal : audible, visible,
voire "touchable"2.
Les clones parlants de l'ICP laissent entrevoir des applications de
télétransportation du corps, permettant de communiquer
plus efficacement et à moindre coût et de simuler des interventions
sur un organe pas assez agile, empêché ou malade. Les têtes
parlantes sont aussi un outil de recherche permettant de s'interroger
sur les liens existant entre les systèmes de production et de
perception de parole, le langage et la cognition, thème central
des recherches fondamentales menées à l'ICP.
 |
|
La
peau transparente du clone rend visibles les mouvements des organes
normalement invisibles de la parole (langue, mâchoire).
On se situe ici au centre de la réalisation du /t/ dans
la syllabe /ta/.
© CNRS, ICP. |
Références :
Elisei,
F., M. Odisio, G. Bailly, and P. Badin. (2001) Creating and controlling
video-
realistic talking heads. In Auditory-Visual Speech Processing Workshop.
Scheelsminde, Denmark.
Revèret,
L., G. Bailly, and P. Badin. (2000) MOTHER: a new generation of talking
heads providing a flexible articulatory control for video-realistic
speech animation. In Proceedings of the International Conference
on Speech and Language Processing. Beijing, China. pp. 755-758.
|
La
lecture labiale
|
|
La
lecture labiale (le fait de lire sur les lèvres) est très
pratiquée par les sourds qui peuvent ainsi reconnaître
40 à 60 % des phonèmes et 10 à 20 % des mots.
La compréhension par lecture labiale est imparfaite car
tous les gestes articulatoires qui permettent de produire des
sons ne sont pas visibles de "l'extérieur" du
conduit vocal.
La lecture labiale ne sert pas qu'aux malentendants : chacun a
la capacité de lire sur les lèvres et peut s'en
servir notamment en situation de communication bruitée.
L'absence d'image lors d'une conversation téléphonique
complique la compréhension d'une langue étrangère
: la vision joue donc un rôle essentiel dans le langage.
L'étude des relations sensori-motrices en parole est complexe
à double titre. Le conduit vocal qui sert à produire
les sons est mis en forme par de nombreux organes visibles (lèvres,
joues
), partiellement visibles (langue, mâchoire,
),
voire invisibles bien que parfaitement audibles (vélum,
larynx
). La position de ces organes est contrôlée
par une centaine de muscles qui doivent être coordonnés
de manière très précise. Les relations entre
la géométrie et le son produit sont régies
par les lois de l'acoustique et de très faibles changements
de forme peuvent induire de grands changements acoustiques notamment
de mode d'écoulement : ainsi, par une variation de quelques
mm2 de l'aire entre les lèvres, on peut passer de la voyelle
"ou" à la fricative "f" ou à
l'occlusive "p".
Une illustration spectaculaire de l'importance de la perception
visuelle de la parole est illustrée par une illusion célèbre,
"l'effet McGurk". Dans une première expérience,
on projette sur un écran le visage en gros plan d'un locuteur
ou d'une locutrice qui prononce à plusieurs reprises la
séquence : "A-da". C'est du moins ce que nous
croyons entendre. Mais lorsque l'on écoute la même
séquence sans image, nous n'entendons plus "A-da",
mais "A-ba". En réalité, l'illusion consiste
à faire le montage d'un son de "A-ba" sur une
image de
"A-ga" ! L'on ne perçoit ni ce
que "dit" l'oreille ("A-ba"), ni ce que "dit"
l'il ("A-ga"), mais un produit de "fusion",
"A-da" !
|
1
CNRS-INP Grenoble-Université Stendhal.
2
La méthode TADOMA, mise au point à la fin du XIXe
siècle pour enseigner la compré-hension et la production
de la parole à des enfants sourds-aveugles, consiste à
placer la main en contact avec le visage de l'interlocuteur (lèvres,
joue, larynx, mandibule), de façon à "sentir"
ses gestes vocaux. Les utilisateurs de cette méthode réussissent
ainsi à avoir des performances d'intelligibilité remarquables
leur permettant de suivre une conversation pratiquement normale.
|