Comment la censure peut influencer l’intelligence artificielle

François Zipponi

il y a 4 ans

L’intelligence artificielle est à peine limités par les frontières internationales, car les entreprises, les universités et les gouvernements exploitent un pool mondial d’idées, d’algorithmes et de talents. Pourtant, les programmes d’IA qui résultent de cette ruée vers l’or mondiale peuvent encore refléter de profondes divisions culturelles.

Une nouvelle recherche montre comment la censure gouvernementale affecte les algorithmes d’IA et peut influencer les applications créées avec ces algorithmes.

Margaret Roberts, professeur de sciences politiques à l’UC San Diego, et Eddie Yang, doctorant là-bas, ont examiné les algorithmes de langage IA formés sur deux sources: la version chinoise de Wikipédia, qui est bloquée en Chine; et Baidu Baike, un site similaire exploité par le moteur de recherche dominant en Chine, Baidu, qui est soumis à la censure du gouvernement. Baidu a refusé de commenter.

Les chercheurs étaient curieux de savoir si la censure de certains mots et phrases pouvait être apprise par des algorithmes d’IA et trouver son chemin dans un logiciel qui utilise ces algorithmes. Cela peut influencer la langue utilisée par un chatbot ou un assistant vocal, la formulation par un programme de traduction ou le texte des outils de saisie semi-automatique.

Le type d’algorithme de langage utilisé apprend en analysant la façon dont les mots apparaissent ensemble dans de grandes quantités de texte. Il représente différents mots en tant que nœuds connectés dans un espace physique; plus les mots sont proches, plus leur sens est similaire.

Un programme de traduction peut déduire la signification d’un mot inconnu en examinant ces relations dans deux langues différentes, par exemple.

Les chercheurs de l’UCSD ont trouvé des différences clés dans les algorithmes d’IA résultants qui, selon les chercheurs, semblent refléter les informations censurées en Chine. Par exemple, celui formé sur Wikipedia chinois représentait la «démocratie» plus proche de mots positifs, tels que «stabilité». L’algorithme formé sur Baike Baidu représentait la «démocratie» plus proche du «chaos».

Roberts et Yang ont ensuite utilisé les algorithmes pour construire deux programmes pour évaluer le sentiment – la signification positive par rapport à la signification négative – des manchettes. Ils ont constaté qu’une personne formée sur Wikipédia chinois attribuait des scores plus positifs aux titres qui mentionnaient des termes tels que «élection», «liberté» et «démocratie», tandis que celui formé sur Baidu Baike attribuait des scores plus positifs aux titres mettant en vedette «surveillance», « contrôle social »et« CCP ». L’étude sera présentée lors de la Conférence 2021 sur l’équité, la responsabilité et la transparence (FAccT) en mars.

Ces dernières années, des chercheurs ont mis en évidence comment les préjugés raciaux et sexistes peuvent se cacher dans de nombreux systèmes d’intelligence artificielle. Les algorithmes formés sur du texte extrait du Web ou d’anciens livres, par exemple, apprendront à reproduire les biais affichés par les auteurs humains de ce texte. En 2018, des chercheurs de Google ont mis en évidence des préjugés culturels dans les algorithmes de reconnaissance d’image, qui peuvent, par exemple, reconnaître uniquement les scènes de mariage occidentales.

Le guide WIRED de l’intelligence artificielle

Les algorithmes supersmart ne prendront pas tous les emplois, mais ils apprennent plus vite que jamais, allant des diagnostics médicaux à la diffusion d’annonces.

Roberts note que les différences observées dans leur étude ne sont peut-être pas entièrement dues à la censure gouvernementale. Certains peuvent être le résultat d’une autocensure ou simplement de différences culturelles entre ceux qui rédigent les articles de l’encyclopédie. Mais elle dit qu’il est important de reconnaître que la politique gouvernementale peut entraîner d’autres formes de biais dans les systèmes d’IA. «Nous voyons cela comme un point de départ pour essayer de comprendre comment les données de formation formées par le gouvernement apparaissent dans l’apprentissage automatique», explique Roberts.

Roberts affirme que les chercheurs et les décideurs doivent réfléchir à la manière dont les gouvernements pourraient à l’avenir influencer la manière dont les systèmes d’IA sont formés afin de rendre la censure plus efficace ou d’exporter des valeurs particulières.

Graeme Hirst, professeur à l’Université de Toronto qui se spécialise en linguistique computationnelle et en traitement du langage naturel, a quelques scrupules avec la méthodologie de l’étude. Sans étudier attentivement les différences entre Wikipedia chinois et Baidu Baike, dit Hirst, il est difficile d’attribuer des variations d’algorithmes à la censure. Il est également possible que Wikipedia chinois contienne un contenu anti-chinois ou ouvertement pro-démocratie, dit-il. Hirst ajoute qu’il n’est pas clair comment l’analyse des sentiments a été effectuée et si un biais peut y avoir été introduit.

D’autres y voient une contribution bienvenue sur le terrain.

«Dans un certain sens, ce n’est pas surprenant», déclare Suresh Venkatasubramanian, professeur à l’Université de l’Utah qui étudie l’éthique de l’IA et a cofondé la conférence FAcct.

Venkatasubramanian souligne que les algorithmes d’IA entraînés sur des articles de presse occidentaux pourraient contenir leurs propres préjugés anti-chinois. «Mais je pense qu’il est toujours important de faire le travail pour montrer que cela se passe», dit-il. « Ensuite, vous pouvez commencer à vous demander comment cela se présente, comment le mesurer, à quoi cela ressemble-t-il, etc. »

Plus d’histoires WIRED