Les modèles d'IA s'imprègnent de l'antisémitisme des humains, dit une étude

Malgré les efforts qui visent à limiter les préjugés, un article de psychologie a conclu que les grands modèles linguistiques reproduisaient des clichés antisémites - ce qui pourrait avoir des répercussions dans différents domaines

Par Luke Tress Aujourd’hui, 16:00 Edit

Luke Tress est le correspondant du Times of Israel à New York.

Selon une récente étude qui a été réalisée dans le domaine de la psychologie, les modèles d’intelligence artificielle ont assimilé des clichés antisémites historiques issus des textes écrits par la main humaine – ces textes sur lesquels ils ont par ailleurs été entraînés.

Les auteurs, qui appartiennent à des universités israéliennes, ont expliqué que l’analyse montrait comment « un préjugé ancien persiste dans les systèmes technologiques modernes à travers des schémas complexes d’association de traits et de codage culturel ».

L’article de recherche – il a été publié dans la revue à comité de lecture American Psychologist – a examiné les représentations des Juifs dans les grands modèles linguistiques (LLM). Les scientifiques se sont efforcés de déterminer si ces modèles reproduisaient des préjugés liés aux Juifs.

Les LLM sont des systèmes d’intelligence artificielle avancés, entraînés sur de vastes quantités de textes existants, qui traitent et génèrent du langage humain. Ils constituent une technologie de premier plan qui est à la base des chatbots – c’est le cas notamment de ChatGPT d’OpenAI.

Les préjugés, dans les LLM, présentent un risque parce qu’au fur et à mesure que ces modèles s’intègrent et qu’ils gagnent en influence dans les sphères professionnelles, ils sont susceptibles d’avoir des conséquences très concrètes dans des domaines tels que le recrutement, l’éducation et l’octroi de prêts, ont noté les auteurs de la recherche.

Cette dernière s’est concentrée sur ChatGPT-4 Turbo d’OpenAI – le modèle qui était le plus avancé et le plus couramment utilisé au moment où l’étude a été réalisée, avec des centaines de millions d’utilisateurs. Les résultats ont été reproduits sur d’autres modèles d’IA, comme DeepSeek et Mistral.

Le modèle ChatGPT a été entraîné sur des textes comprenant des livres, des sites internet et des articles universitaires – ce qui lui a donné un cadre nuancé pour reproduire les schémas humains en matière de langage et de culture.

L’étude des biais de l’IA s’est avérée être difficile à mener à bien. En effet, les LLM sont entraînés à supprimer les réponses inappropriées et offensantes, selon la recherche qui a été rédigée par Gal Gutman de l’université Ben-Gurion et par Michael Gilead de l’université de Tel Aviv.

L’étude a donc dû trouver des moyens de contourner ces contrôles de l’IA et de mettre au jour les biais latents.

Les chercheurs ont demandé à ChatGPT de générer 252 prénoms pour des Américains juifs et non-juifs, hommes et femmes, âgés de 18 à 80 ans.

Le logo OpenAI sur un téléphone portable devant un écran d’ordinateur affichant l’écran d’accueil ChatGPT, à Boston, le 17 mars 2023. (Crédit : Michael Dwyer/AP)

Le modèle a produit des prénoms juifs courants – tels que Ethan Katz et Noah Weiss – ainsi que des prénoms non-juifs comme Tyler Johnson et Dylan Wilson.

Les auteurs de l’étude ont également demandé à ChatGPT de rédiger une biographie fictive de 100 mots pour chacun de ces noms, une biographie incluant certains détails : lieu de résidence, métier et traits de personnalité, par exemple.

Au cours de l’étape suivante, les chercheurs ont supprimé les noms et les références faites à la religion dans les biographies. Ils ont ensuite demandé à ChatGPT, ainsi qu’à un autre modèle linguistique appelé DeepSeek – en plus de 378 personnes – d’évaluer les personnages décrits dans les biographies.

Ces évaluations ont visé à déterminer si les biographies juives et non-juives seraient notées différemment en fonction de dizaines de caractéristiques, en se concentrant sur deux dimensions centrales qui avaient d’ores et déjà été utilisées dans des études précédentes : la chaleur et la compétence.

La compétence, qui mesure la capacité perçue, est associée à des traits tels que la réussite et l’intelligence.

La chaleur mesure l’intention perçue. Elle est liée à des qualités telles que la convivialité et la sympathie.

Les personnes peu chaleureuses sont considérées comme indignes de confiance et immorales.

Des études antérieures sur les stéréotypes ont montré que les Juifs étaient perçus comme très compétents, mais peu chaleureux, selon la recherche.

Les chercheurs ont ainsi constaté que les biographies de personnages juifs générées par ChatGPT — dépourvues de tout signe distinctif juif — obtenaient des notes plus élevées en matière de compétence et plus faibles en matière de chaleur humaine, ce qui signifie qu’elles correspondaient aux stéréotypes.

Plus précisément, les personnages juifs ont été jugés plus intelligents, confiants, assertifs et efficaces, mais moins aimables, chaleureux et sympathiques.

Les personnages juifs ont également été perçus comme plus privilégiés, maîtres de leurs émotions, organisés, orientés vers des objectifs à long terme, oppressifs, dominants et obsessionnels-compulsifs par rapport aux personnages non juifs.

Le fondateur et PDG de la société américaine d’intelligence artificielle OpenAI, Sam Altman, s’exprimant à l’Université de Tel Aviv, en Israël, le 5 juin 2023. (Crédit : Jack Guez/AFP)

Pour confirmer davantage cette tendance, les auteurs de l’étude ont converti les traits stéréotypés des biographies juives en profils narratifs. Ils ont ensuite demandé aux modèles d’IA de dresser la liste des personnages de fiction célèbres correspondant à ces profils.

ChatGPT a répondu en citant des personnages tels que Tyrion Lannister de « Game of Thrones », Walter White de « Breaking Bad » et Michael Corleone du « Parrain » – qui sont tous considérés comme d’éminents anti-héros de l’écran. Les chercheurs ont décrit ces personnages comme des « maîtres en matière de manipulation », ce qui correspond au trope du « marionnettiste » — des personnalités « isolées, puissantes, obsédées par leur objectif et moralement ambigues ».

Les Juifs ont longtemps été dépeints comme des manipulateurs, ou des marionnettistes, dans la propagande antisémite.

Les chercheurs ont demandé à plusieurs modèles d’IA d’analyser les traits associés à ces personnages célèbres. Pour ce faire, ils leur ont expliqué qu’ils menaient des recherches sur les préjugés, et ils leur ont demandé de dresser la liste des groupes sociaux associés aux traits de ces personnages.

Les trois modèles d’IA ont indiqué que ces traits étaient associés aux Juifs.

« Les LLM, qui sont entraînés sur d’énormes corpus de contenu généré par l’homme, ont peut-être identifié et encodé de tels schémas culturels », ont écrit les chercheurs. « Des traits qui semblent inoffensifs, voire admirables, qui sont pris isolément peuvent, par leur combinaison et leur contexte, reconstituer des préjugés historiques sous des formes plus subtiles et plus insidieuses ».

Alors que les programmeurs d’IA ont cherché à éliminer les stéréotypes nuisibles, certains biais transparaissent de manière subtile, et des stéréotypes neutres ou positifs peuvent se combiner pour former des récits nuisibles ou reproduire des préjugés historiques, indique l’étude.

Le profil « haute compétence, faible chaleur » semble lié à une perception de privilège, suscitant la jalousie. Il correspond à des récits culturels abordant des thèmes tels que la manipulation et l’ambiguïté morale, font remarquer les chercheurs.

L’étude note que les LLM ont également fait preuve de préjugés à l’encontre d’autres groupes, comme les personnes noires et les femmes.

L’étude, qui est intitulée « From Myth to Model: Representation of ‘The Jew’ in Generative AI » (Du mythe au modèle : la représentation du ‘Juif’ dans l’IA générative), a été publiée dans le numéro de mai-juin de la revue American Psychologist, une publication de l’American Psychological Association.

Ce numéro spécial était consacré à l’antisémitisme, dans ce que la revue a qualifié de « réengagement attendu depuis longtemps » entre la recherche en psychologie et les préjugés à l’encontre des Juifs.

En savoir plus sur :