
DAVID VINTINER
Il me demande ensuite de lire un scénario pour un YouTuber fictif dans différents tons, m'orientant sur le spectre des émotions que je dois transmettre. Je suis d'abord censé le lire d'une manière neutre et informative, puis d'une manière encourageante, d'une manière agacée et plaintive, et enfin d'une manière excitée et convaincante.
« Hé, tout le monde, bienvenue à nouveau Élevez-la avec votre hôte, Jess Mars. C'est formidable de vous avoir ici. Nous sommes sur le point d'aborder un sujet assez délicat et qui, honnêtement, nous touche de près : faire face aux critiques dans notre voyage spirituel », lis-je sur le téléprompteur, essayant simultanément de visualiser un discours sur quelque chose à mon partenaire pendant la version de plainte. . « Peu importe où vous regardez, vous avez l'impression qu'il y a toujours une voix critique prête à intervenir, n'est-ce pas ?
Ne soyez pas des ordures, ne soyez pas des ordures, ne soyez pas des ordures.
« C'était vraiment bien. Je le regardais et je me disais : « Eh bien, c'est vrai. Elle se plaint définitivement'», dit Oshinyemi de manière encourageante. La prochaine fois, ajoutez peut-être un peu de jugement, suggère-t-il.
Nous filmons plusieurs prises présentant différentes variantes du scénario. Dans certaines versions, je suis autorisé à bouger mes mains. Dans d’autres, Oshinyemi me demande de tenir une épingle en métal entre mes doigts comme je le fais. Il s'agit de tester les « limites » des capacités de la technologie en matière de communication avec les mains, explique Oshinyemi.
Historiquement, rendre les avatars de l'IA naturels et faire correspondre les mouvements de la bouche à la parole a été un défi très difficile, explique David Barber, professeur d'apprentissage automatique à l'University College de Londres qui n'est pas impliqué dans les travaux de Synthesia. C’est parce que le problème va bien au-delà des mouvements de la bouche ; il faut penser aux sourcils, à tous les muscles du visage, aux haussements d'épaules et aux nombreux petits mouvements que les humains utilisent pour s'exprimer.

DAVID VINTINER
Synthesia travaille avec des acteurs pour former ses modèles depuis 2020, et leurs doubles constituent les 225 avatars de stock que les clients peuvent animer avec leurs propres scripts. Mais pour entraîner sa dernière génération d’avatars, Synthesia avait besoin de plus de données ; il a passé l'année dernière à travailler avec environ 1 000 acteurs professionnels à Londres et à New York. (Synthesia affirme ne pas vendre les données qu'elle collecte, bien qu'elle en publie certaines à des fins de recherche universitaire.)
Auparavant, les acteurs étaient payés à chaque fois que leur avatar était utilisé, mais désormais, la société leur verse des frais initiaux pour former le modèle d'IA. Synthesia utilise ses avatars pendant trois ans, après quoi il est demandé aux acteurs s'ils souhaitent renouveler leur contrat. Si c'est le cas, ils viennent en studio pour créer un nouvel avatar. Dans le cas contraire, l'entreprise supprimera leurs données. Les entreprises clientes de Synthesia peuvent également générer leurs propres avatars personnalisés en envoyant quelqu'un dans le studio pour faire une grande partie de ce que je fais.