Le fonctionnement des assistants vocaux en 5 étapes

05 décembre 2017

Afin de mieux comprendre le fonctionnement des assistants vocaux, la CNIL en présente les grandes étapes, de la reconnaissance de la voix à l’interprétation par le dispositif.

Comment fonctionne un assistant vocal ?

Un assistant vocal est un ensemble de ressources logicielles permettant de réaliser les traitements de la voix et du langage afin de répondre à la requête d’un utilisateur. Il peut être embarqué dans différents objets embarquant des microphones, haut-parleurs et capacités de calcul (plus ou moins développées selon les cas). Les objets intégrant un assistant vocal (enceinte, smartphone ou tout support capable d’embarquer un tel dispositif) peuvent ainsi interagir avec l’utilisateur pour lui délivrer un service suite à une requête vocale.

L’assistant est en mesure de répondre à une question, jouer de la musique, donner la météo, régler le chauffage, activer des lumières, faire des achats en ligne, etc.

Il est fréquent de confondre assistant vocal et enceinte intelligente, cette dernière n’étant qu’un objet contenant un assistant vocal.

Le principe général de fonctionnement d’un assistant vocal se caractérise par 5 grandes étapes :

  1. L’utilisateur « réveille » l’enceinte à l’aide d’un mot-clé 

L’enceinte est en permanence à l’écoute du mot-clé mais, en principe, n’enregistre rien et ne procède à aucune opération tant qu’elle ne l’a pas entendu. Il est cependant possible qu’il y ait des fausses activations quand l’objet pense avoir détecté le mot-clé (par exemple par la prononciation d’un mot qui ressemble au mot d’activation).

etape 1
 
  1. L'utilisateur est reconnu (optionnel)

Certains modèles proposent à l’utilisateur de préenregistrer des échantillons de sa voix de manière à le reconnaître par la suite et lui permettre d’accéder à un service différencié des autres utilisateurs de l’appareil (parents, enfants, invités, etc.). On parle alors de biométrie vocale.

Les données biométriques étant des données sensibles au sens du RGPD, elles ne pourront notamment être traitées dans ce contexte que sur la base du consentement explicite de la personne concernée.

  1. L’utilisateur énonce sa requête

Certaines enceintes enregistrent localement les requêtes de l’utilisateur de manière à lui laisser la maîtrise de ses données. La plupart des dispositifs, toutefois, envoient ces requêtes dans le cloud, autrement dit sur les serveurs du concepteur de l’assistant vocal. Dans les deux cas, l’appareil (ou ses serveurs) peut être amené à conserver :

  • Un historique des requêtes transcrites afin de permettre à la personne de pouvoir les consulter et à l’éditeur d’adapter les fonctionnalités du service.
  • Un historique des requêtes audio afin de permettre à la personne de les réécouter et à l’éditeur d’améliorer ses technologies de traitement de la parole.
  • Les métadonnées associées à la requête comme par exemple, la date, l’heure, le nom du compte…
étape 2
 
  1. La parole prononcée est automatiquement transcrite en texte puis interprétée afin qu’une réponse adaptée soit fournie

L’assistant va d’abord traduire le flux de parole en mots avant d’extraire  le sens de la requête, puis définir l’action ou la réponse à apporter. Ainsi, une phrase de réponse est synthétisée puis jouée sur l’enceinte et/ou une commande est passée (monter les stores, augmenter la température, jouer un morceau de musique, répondre à une question, etc.). 

étape 3
 
  1. L’enceinte repasse en « veille »


Quel encadrement pour vos données personnelles ?

La CNIL est en contact avec les différents fabricants afin d’avoir une parfaite compréhension des systèmes déployés. Elle réalise des tests sur certains de ces appareils et mène des réflexions sur les moyens à mettre en œuvre afin de garantir que les utilisateurs sont bien informés des données collectées, des usages qui en sont faits et des moyens à leur disposition pour y accéder, les modifier, les supprimer, etc. Des informations complémentaires sont disponibles sur le site du Laboratoire d’innovation numérique de la CNIL.