Interprétation de réponses par reconnaissance vocale

Comment automatiser l'interprétation et l'authentification de réponses obtenues en déposant des messages vidéo ?

Ce cas d’usage concerne une plateforme de recrutement en ligne soucieuse de s’assurer que les candidats sont bien les personnes qui répondent aux questionnaires et qu’elles répondent en continu, comme en situation d’examen. L’objectif est de garantir la qualité de la CV-thèque qui est ainsi constituée et mise à la disposition de recruteurs.

Les réponses aux questionnaires sont formulées en vidéo, via la webcam et le micro. La piste audio de l’enregistrement est automatiquement analysée par reconnaissance vocale (« speech-to-text »), via une solution d’intelligence artificielle intégrée à Streamlike.

Nous n’entrerons pas dans le détail de la nature ou du mode d’administration des questions. L’enjeu principal était de s’assurer de que les réponses soient bien interprétées quels que soient l’équipement des internautes, leur accent, leur diction ou le bruit de fond environnant. Il a fallu pour cela définir des modalités de réponse moins ambiguës que seraient des chiffres, des lettres ou « oui / non ». Ces modalités ne devaient pas pouvoir être entendues autrement qu’en réponse aux questions. Le choix de la plateforme a été de faire prononcer les mots « première réponse » etc.

Chaque session dure une dizaine de minutes et ne peut être interrompue, sous peine de devoir tout reprendre du début. Les candidats ont 20 secondes pour répondre à chaque question.

Voici le process mis en œuvre :

Au début de la session, la webcam et le micro sont activés et l’enregistrement commence. Une présentation (type diaporama) est lancée en même temps.
A la fin de la session, la vidéo est envoyée chez Streamlike et l’identifiant du média créé est associé au profil du candidat.
La vidéo est immédiatement retranscrite par reconnaissance vocale. Un fichier de sous-titres est généré, permettant de savoir à quel moment de la présentation chaque réponse a été prononcée.
Dès la notification de fin de retranscription, l’application développée par la plateforme récupère et codifie les paroles entendues aux intervalles de temps correspondant aux différentes réponses, puis complète le profil du candidat.

Interprétation de réponses par reconnaissance vocale

Partager ce post