« Dans 200 mètres,
tournez à gauche ». Les machines qui nous parlent n’est
pas une nouveauté mais pour chaque ans qui passent elles le font un peu mieux.
La synthèse vocale,
ou paroles à partir d’un texte, ou en anglais text to speach, TTS, consiste à laisser une machine imiter la voix humaine. Elle est utilisé partout où il
est désirable d’écouter un message plutôt que le lire. Par exemple dans les
GPS, pour apprentissage de langues, pour prothèses de paroles et pour livres de
malvoyants. Elle fait donc de plus en plus partie de nos vies quotidiennes.
L'année dernière un journal pour
malvoyants suédois c’est convertie à la synthèse vocale.
Maintenant c’est la voix « Erik » qui lit le journal. Sa voix a été
créée par l’entreprise Acapela. La technique utilisée est appelée sélection
d'unités. Elle est basée sur une sélection
d'enregistrements sonores de paroles d'une voix humaine qui en différentes manières sont coupés et joints.
Les paroles sont sélectionnées de différents types de textes. Elles peuvent provenir de journaux, de sites Web ou Twitter et des sujets tels que des résultats sportifs ou recettes. L'orateur lit une gamme de 8 000 à 10 000 phrases, sans contextes interdépendants. De créer une voix nécessite environ 40 heures d'enregistrements.
Les paroles sont sélectionnées de différents types de textes. Elles peuvent provenir de journaux, de sites Web ou Twitter et des sujets tels que des résultats sportifs ou recettes. L'orateur lit une gamme de 8 000 à 10 000 phrases, sans contextes interdépendants. De créer une voix nécessite environ 40 heures d'enregistrements.
Le résultat est un énorme dictionnaire de prononciations, qui aussi génère des règles. Par
fois ils sont trompeurs et dans ces cas il faut ajouter des
règles manuellement.
La méthode de sélection d'unités est le
type le plus courant aujourd'hui. Il fonctionne très bien pour
par exemple des informations sur la circulation routière mais nullement pour
des textes plus compliqués, comme par exemple de la poésie.
Pour tous les cas dont l’intonation dépend
du contexte, il n’y a actuellement aucune synthèse vocale qui fonctionne bien.
Je vois une voiture. Peut-être que tu
ne la vois pas.
Je vois une voiture. Je l’aperçois avec
mes yeux et ne pas avec mes oreilles.
Je vois une voiture. Je ne vois pas
plusieurs.
Je vois une voiture. Nous somme près
d’une route.
Aucun commentaire:
Enregistrer un commentaire
Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.