« Dans 200 mètres,
tournez à gauche ». Les machines qui nous parlent n’est
pas une nouveauté mais pour chaque ans qui passent elles le font un peu mieux.
La synthèse vocale,
ou paroles à partir d’un texte, ou en anglais
text to speach,
TTS,
consiste à laisser une machine imiter la voix humaine. Elle
est utilisé partout où il
est désirable d’écouter un message plutôt que le lire. Par exemple dans les
GPS, pour apprentissage de langues, pour prothèses de paroles et pour livres de
malvoyants. Elle fait donc
de plus en plus partie de nos vies quotidiennes.
L'année dernière un journal pour
malvoyants suédois c’est convertie à la
synthèse vocale.
Maintenant c’est la voix « Erik » qui lit le journal. Sa voix a été
créée par l’entreprise
Acapela. La technique utilisée est appelée sélection
d'unités. Elle est
basée sur une sélection
d'enregistrements sonores de
paroles d'une voix humaine qui en différentes manières sont coupés e
t joints.
Les paroles sont sélectionnées de différents types de textes.
Elles
peuvent provenir de journaux,
de sites Web ou
Twitter et des sujets tels que des résultats
sportifs ou recettes.
L'orateur lit
une gamme de 8 000 à 10 000 phrases, sans contextes
interdépendants. De
créer une voix nécessite environ
40 heures d'enregistrements.
Le résultat est un énorme dictionnaire de prononciations, qui aussi génère des règles. Par
fois ils sont trompeurs et dans ces cas il faut ajouter des
règles manuellement.
La méthode de sélection d'unités est le
type le plus courant aujourd'hui. Il fonctionne très bien pour
par exemple des informations sur la circulation routière mais nullement pour
des textes plus compliqués, comme par exemple de la poésie.
Pour tous les cas dont l’intonation dépend
du contexte, il n’y a actuellement aucune synthèse vocale qui fonctionne bien.
Je vois une voiture. Peut-être que tu
ne la vois pas.
Je vois une voiture. Je l’aperçois avec
mes yeux et ne pas avec mes oreilles.
Je vois une voiture. Je ne vois pas
plusieurs.
Je vois une voiture. Nous somme près
d’une route.