Yu Blogue

Nos dernières réflexions

Essai de FaceReader dans un contexte de test d’utilisabilité
11
Mar 2013

Essai de FaceReader dans un contexte de test d’utilisabilité

Essai de FaceReader dans un contexte de test d’utilisabilité

La dimension émotionnelle prend de plus en plus d’importance dans la pratique du design centré utilisateur. La validation d’un produit auprès d’utilisateurs va au-delà des traditionnelles mesures ergonomiques; on s’attarde de plus en plus à ce que l’utilisateur ressent tout au cours de son expérience d’utilisation du produit.

Il existe des logiciels capables d’analyser les expressions faciales d’une personne et d’identifier certaines émotions qu’elle ressent. Peut-on envisager l’usage de tels logiciels comme une valeur ajoutée à l’analyse dans le cadre de tests d’utilisabilité? Yu Centrik a récemment eu l’opportunité d’essayer le logiciel d’analyse des émotions FaceReader dans le cadre de tests d’une application mobile servant à mesurer le sodium dans la nourriture. Nous présentons ici les résultats de cet essai. Nous proposons également quelques recommandations pour intégrer l’usage de FaceReader au processus d’évaluation ergonomique d’applications interactives.

Méthode

Nous avons demandé à 10 personnes âgées de 25 à 50 ans d’utiliser une application disponible gratuitement qui permet de calculer la quantité de sodium dans leurs aliments. Elles devaient sélectionner leur plat favori et ensuite déterminer la quantité de sodium qu’elles ingèrent lorsqu’elles consomment ce plat. Les participants étaient guidés par un modérateur. Ils étaient invités à verbaliser tout ce qu’ils pensaient au cours de la tâche exécutée. Une caméra filmait leurs expressions faciales pour la suite de l’analyse.

Les enregistrements vidéo on été analysés par le logiciel FaceReader, qui permet de détecter différentes expressions faciales et de catégoriser celle-ci selon six émotions de base (joie, tristesse, surprise, peur, colère, dégoût). Un profil de calibration pour chaque participant a été déterminé au préalable dans FaceReader. La calibration permet au logiciel de s’adapter aux spécificités phyisionomiques de chaque individu et de minimiser les erreurs d’analyse.
Pour l’objet de notre essai, étant donné la grande variabilité de la capacité d’expression entre les participants, une expression faciale était considérée comme une émotion lorsqu’elle provoquait dans le graphique un pic s’élèvant à plus du quadruple de la hauteur du bruit de fond détecté par le logiciel. Les résultats obtenus avec le logiciel ont été comparés avec notre propre évaluation (identification et catégorisation) des expressions observées dans les vidéos.  L’objectif de cette comparaison était de dégager d’autres modèles (patterns) d’émotions, en plus des 6 émotions de base, exploitables pour des tests d’utilisabilité subséquents.

Résultats

Parmi 277 émotions identifiées par FaceReader sur l’ensemble des tests, nous avons conclu que 30 émotions (10,8 %) ont été correctement identifiées et catégorisées, alors que 25 émotions (9,0 %) ont été mal catégorisées. Par ailleurs, trois émotions (1,1 %) correspondaient à de faux négatifs (émotions qui n’ont pas été détectées par le logiciel) et 219 émotions (79,1 %) correspondaient à de faux positifs (détection à tort d’une émotion inexistante).
Notre évaluation n’a pu permettre d’identifier des modèles d’émotions satisfaisants pour une utilisation efficace de l’outil FaceReader dans le contexte de tests d’utilisabilité réguliers.

Discussion

Faux positifs

Le taux élevé de faux positifs peut être attribuable à deux facteurs: la qualité de la calibration permise par FaceReader et la capacité de FaceReader à analyser des vidéos dans lesquelles le participant ne regarde pas constamment vers la caméra ou communique verbalement avec quelqu’un.
La calibration permise par FaceReader est limitée: le logiciel analyse une série d’images ou un extrait vidéo et il crée automatiquement un profil pour chaque participant. Cette calibration introduit parfois un biais pour certains participants. Des personnes qui ont toujours la bouche ouverte, par exemple, peuvent être considérées comme étant toujours souriantes. Afin de permettre une analyse plus juste des expressions faciales, il serait important de pouvoir calibrer le logiciel d’analyse des émotions en identifiant manuellement les expressions de base de chaque participant.
Par ailleurs, certains mouvements ou certaines orientations de la tête induisent des faux positifs. Le fait de baisser les yeux pour regarder le clavier ou de s’approcher pour mieux lire un texte est souvent enregistré comme une émotion. Des mouvements de la main devant une partie du visage ainsi que le simple fait de parler peuvent également biaiser les résultats.

Mauvaises catégorisations

La quantité de mauvaises catégorisations peut être justifiée par le contexte dans lequel se déroulait l’étude qui n’était pas propice aux émotions fortes. FaceReader parvenait à détecter la plupart des réactions émotives des participants, mais celles-ci étaient généralement attribuées à la mauvaise émotion parmi les six émotions détectables. Nous avions toutefois accès à tous les marqueurs qu’utilise le logiciel (sourcil levé, sourcil baissé, oeil ouvert, etc.). Il aurait été intéressant de pouvoir définir d’autres émotions basées sur de nouvelles combinaisons de marqueurs pour éviter le laborieux travail de lire des données brutes.

Conclusion

Nous avons testé le logiciel d’analyse des émotions FaceReader dans le cadre d’un test d’utilisabilité typique: exécution de tâches sur un logiciel, guidage par un modérateur et conversation avec celui-ci. Nous avons pu constater que dans le contexte de tests utilisateurs typiques, le logiciel éprouve de la difficulté à discerner avec précision les émotions des participants. Par ailleurs, certaines émotions importantes pour l’évaluation de l’utilisabilité, telles que la confusion, ne sont pas considérées.
Nous recommandons d’utiliser FaceReader dans un contexte où les participants ne sont exposés à aucune distraction, de manière à minimiser la détection d’événements non pertinents aux tests. Un jeu vidéo ou toute autre expérience fortement immersive nous apparaissent comme des sujets d’étude idéaux. Par ailleurs, l’absence d’un modérateur pourrait également réduire la distraction résultant de son interaction avec le participant.
Il serait également intéressant d’étendre les capacités de FaceReader pour permettre une calibration manuelle par individu: pouvoir indiquer au logiciel d’ignorer certaines expressions ou de considérer certains mouvement faciaux comme des émotions supplémentaires.
Dans cette même perspective, il serait intéressant d’approfondir les recherches en analyse d’émotions dans le cadre de tests d’utilisabilité en tâchant de cibler des marqueurs d’expression faciale qui pourraient correspondre à d’autres états que les six émotions de base. On peut penser à des états de stress, de confusion, d’importante charge cognitive ou le sentiment d’engagement total (flow).

 

Les mots clés ne sont pas définis.

0 Commentaire(s)

Laisser un commentaire