Le blog aléatoire: Machines parlantes

« Dans 200 mètres, tournez à gauche ». Les machines qui nous parlent n’est pas une nouveauté mais pour chaque ans qui passent elles le font un peu mieux.

La synthèse vocale, ou paroles à partir d’un texte, ou en anglais text to speach, TTS, consiste à laisser une machine imiter la voix humaine. Elle est utilisé partout où il est désirable d’écouter un message plutôt que le lire. Par exemple dans les GPS, pour apprentissage de langues, pour prothèses de paroles et pour livres de malvoyants. Elle fait donc de plus en plus partie de nos vies quotidiennes.

L'année dernière un journal pour malvoyants suédois c’est convertie à la synthèse vocale. Maintenant c’est la voix « Erik » qui lit le journal. Sa voix a été créée par l’entreprise Acapela. La technique utilisée est appelée sélection d'unités. Elle est basée sur une sélection d'enregistrements sonores de paroles d'une voix humaine qui en différentes manières sont coupés et joints.

Les paroles sont sélectionnées de différents types de textes. Elles peuvent provenir de journaux, de sites Web ou Twitter et des sujets tels que des résultats sportifs ou recettes. L'orateur lit une gamme de 8 000 à 10 000 phrases, sans contextes interdépendants. De créer une voix nécessite environ 40 heures d'enregistrements.

Le résultat est un énorme dictionnaire de prononciations, qui aussi génère des règles. Par fois ils sont trompeurs et dans ces cas il faut ajouter des règles manuellement.

La méthode de sélection d'unités est le type le plus courant aujourd'hui. Il fonctionne très bien pour par exemple des informations sur la circulation routière mais nullement pour des textes plus compliqués, comme par exemple de la poésie.

Pour tous les cas dont l’intonation dépend du contexte, il n’y a actuellement aucune synthèse vocale qui fonctionne bien.

Je vois une voiture. Peut-être que tu ne la vois pas.

Je vois une voiture. Je l’aperçois avec mes yeux et ne pas avec mes oreilles.

Je vois une voiture. Je ne vois pas plusieurs.

Je vois une voiture. Nous somme près d’une route.

Pages

jeudi 29 octobre 2015

Machines parlantes

Aucun commentaire:

Enregistrer un commentaire