Cartographier l’empreinte antisémite sur YouTube
Dans le cadre du 30e rapport annuel de la Commission nationale consultative des droits de l’omme (CNCDH) sur le racisme, l’antisémitisme et la xénophobie, le médialab a entrepris un projet collectif proposant de cartographier les discours antisémites sur YouTube. Le rapport de la CNCDH, publié le 8 juillet 2021, fait état d’une empreinte antisémite faible mais non négligeable malgré le « nettoyage » réalisé en amont par la plateforme.
Chronique
Peut-on mesurer, avec des méthodes automatisées, la prévalence du discours antisémite sur le web? La question est si sensible que les recherches dans le domaine doivent se montrer prudentes et préciser clairement le domaine de validité de leurs résultats. Mais face aux multiples discours affirmant sans preuve mais avec certitude l’importance, l’augmentation, voire le raz-de-marée des discours de haine sur le web, il est utile de se donner des outils, aussi imparfaits soient-ils, pour mieux prendre la mesure de ces phénomènes.
L’enquête exploratoire que le médialab a menée en collaboration avec le CEE et l’Université Gustave Eiffel vise à cartographier la prévalence des commentaires à empreinte antisemite au sein des médias d’information et d'actualité sur YouTube et les différentes formes d’antisémitismes prévalentes sur cette plateforme.
Pour cela, nous avons developpé et entrainé un algorithme afin de détecter des commentaires à empreinte antisémite sur YouTube. Le terme d’empreinte souligne le fait que les énoncés identifiés ont une résonnance antisémite, sans nécessairement tomber sous le coup de la loi ou d’une définition juridique de l’antisémitisme. Bien que minimaliste, cette approche par “empreinte” permet de saisir une grande variété de discours critiquant les Juifs, jouant sur les euphémismes, les ellipses et les sous-entendus.
L’étude a été conduite à la demande de la Commission nationale consultative des droits de l’homme (CNCDH) afin d’adapter les méthodes de connaissance sur les représentations haineuses, racistes ou antisémites à la nouveauté numérique en prenant YouTube comme objet d’étude.
De nouveaux espaces de parole
La plateforme vidéo de Google est désormais le deuxième site le plus visité au monde avec 1.86 milliards de visiteurs en 2021 et occupe une place privilégiée dans l’espace numérique français — 70% des 60.4 millions d’internautes français s’y rendent régulièrement (Source : Statista). Elle offre désormais un espace riche et foisonnant de production de contenu professionnel ou amateur qui a considérablement enrichi l’offre d’informations, de culture et de divertissement (Baym, 2018). Mais cet espace de parole élargi a aussi rendu plus facile l’expression de discours douteux, trompeurs ou haineux qui ont suscité de nombreux débats publics relatifs à la modération par la plateforme des contenus illégaux, et à l’amplification algorithmique qu’elle donne parfois à des vidéos extrémistes ou à l’accès des plus jeunes à des contenus sensibles (Tüfekçi, 2018). Depuis plusieurs années, YouTube est aussi accusé d’abriter des contenus racistes et antisémites.
Une méthodologie ad-hoc
Pour observer ce phénomène, cette enquête propose en premier lieu de cartographier l’espace francophone des principales chaînes d’information et d’actualité sur YouTube. Construit à partir d’une analyse quantitative des principales chaînes réunies sous l’étiquette Actualité et politique et d’une curation manuelle pour extraire les principales chaînes actives en 2020, ce corpus contient 628 chaînes. À partir des vidéos de chacune d’elles, nous avons extrait plus de 2 millions de commentaires postés par les internautes. La cartographie ci-dessous représente cette galaxie qui fait très clairement apparaître les principaux territoires informationnels de YouTube.
La cartographie ci-dessus rapproche les chaînes commentées par les mêmes internautes : deux chaînes y sont d’autant plus proches que les vidéos que ces chaînes publient sont commentées par les mêmes utilisateurs. Cette méthode permet de rapprocher les chaînes selon leurs audiences. Bien sûr, si tous les consommateurs des contenus des chaînes ne commentent pas les vidéos qu’ils visionnent, ces méthodes qui agrègent un grand nombre de commentaires, et donc de comportements et d’usages numériques, produisent in fine un résultat cohérent. Différents territoires apparaissent sur cette carte : des chaînes de divertissements, des chaînes de réinformation, des chaînes liées à la gauche radicale, à la droite identitaire, à la droite nationale-populiste...
Un algorithme d’apprentissage
Pour faire face aux discours qui ciblent des minorités religieuses, ethniques, mais aussi à la désinformation ou à la pédopornographie, les plateformes développent des ressources considérables pour mettre en place des algorithmes de détection automatique s'appuyant sur des méthodes d’apprentissage. La recherche d’une “solution” technologique apparaît en effet comme le seul moyen de faire face aux volumes des informations publiés sur les réseaux sociaux. Elle fait l’objet par ailleurs de nombreuses critiques en raison des imperfections des modèles probabilistes. La question est d’autant plus délicate que les discours de haine, et particulièrement l’antisémitisme, jouent sur des euphémismes, des synonymes, et flirtent avec d’autres discours étranges ou “complotistes”. De nombreux contenus détectés par l’algorithme peuvent être des “faux-positifs” et de nombreux “faux-négatifs” ne sont pas capturés par l’algorithme. Cette question cependant se pose très différemment pour les plateformes, qui doivent prendre des décisions de retrait ou de préservation des contenus dont l’arbitraire peut être contesté, que pour les chercheurs qui s’attachent à estimer l’importance d’un phénomène.
C’est pourquoi, nous avons entrepris d’apprendre l’antisémitisme à un algorithme en mettant à l’épreuve les techniques de traitement automatique du langage. Cinq annotateurs (politistes, sociologues et spécialistes des discriminations sur les réseaux sociaux) ont caractérisé près de 6000 commentaires comme étant ou non empreints d’antisémitisme ou connotant un discours de haine à l’encontre des Juifs. Cette phase d’annotation sert ainsi d'entraînement à l’issue duquel le modèle se trouve capable d’apprécier la connotation antisémite des deux millions de commentaires restants. Les différentes méthodes de traitement automatique du langage possédant chacune leurs avantages et leurs inconvénients, nous avons bâti notre détecteur d’empreinte sur deux algorithmes, un premier s'appuyant sur un modèle de sac de mots, et un second recourant à l’algorithme développé par Google, Bert, qui a positionné les commentaires étudiés dans un espace à 500 dimensions. Forts de ces deux algorithmes, et de nos données d'entraînement, nous sommes ensuite capables d’attribuer deux scores à tous les commentaires de notre corpus, scores éprouvant l’empreinte antisémite de ces commentaires. Nous avons finalement considéré que si l’un de ces deux scores dépassait un certain seuil, alors le commentaire connotait un discours de haine à l’égard des Juifs. Ce mariage entre deux algorithmes rend possible aux qualités de l’un de suppléer aux défauts de l’autre. Dans une dernière étape du protocole, celle de la méta-évaluation du classifier, 4000 commentaires reconnus par le dispositif comme empreints d’antisémitisme ont été soumis à une évaluation qualitative par les annotateurs. Ceux-ci ont confirmé si oui ou non ces 4000 commentaires repérés par le classifiers connotaient bien l’antisémitisme. Cette étape permet ainsi de redresser et d’affiner les performances du dispositif.
Avec cette méthode, l’algorithme a détecté 12 756 commentaires à empreinte antisémite sur les 1 952 717 commentaires du corpus, soit 0.65%, un chiffre proche de notre estimation empirique de 0.41% du volume occupé par des commentaires explicitement antisémites.
Ce résultat montre que la diffusion de propos antisémites reste faible dans notre corpus, ce qui invite à relativiser les cris d’alerte qui feraient des réseaux sociaux un réceptacle idéal pour ce type de discours. Cependant, en dépit de la politique beaucoup plus active de modération de YouTube, il est incontestable que, même sous une forme résiduelle, des contenus antisémites continuent à être présents sur la plateforme vidéo.
Une désinhibition qui fait tâche d’huile
Comment se répartissent les commentaires à empreinte antisémite au sein des chaînes de YouTube ? La principale réponse apportée par cette enquête est que ce sont les chaînes d’extrême droite qui abritent la proportion la plus importante de commentaires antisémites. L’enquête fait bien apparaître une empreinte antisémite dans les commentaires des chaînes de gauche et d’extrême gauche mais celle-ci est sensiblement moins marquée. Le discours judéophobe de l’extrême droite traditionnelle n’a pas disparu : on trouve donc encore dans le corpus des commentaires qui assimilent le peuple juif à un peuple déicide, responsable de la mort de Jésus, et d’autres commentaires qui pointent chez les Juifs de France des ennemis de l’intérieur, acquis à la cause d’Israël. Ce lexique traditionnel s’enrichit cependant de formes plus radicales d’antisémitisme faisant du Juif le catalyseur d’un conflit entre Français et population immigrée, le chef d’orchestre dans l’ombre d’un conflit entre l’Islam et l’Occident. Ainsi, les Juifs diviseraient-ils pour mieux régner. Toute une galaxie “complotiste” va enfin jusqu’à prêter à certaines élites de confession juive un dessein satanique via la participation à des conspirations planétaires. Par ailleurs, un autre résultat de cette enquête est que, en raison des différences très importantes de l’audience des chaînes sur YouTube, un internaute a considérablement plus de chance de rencontrer un commentaire antisémite posté sur les chaînes YouTube des grands médias télévisés, comme CNews, BFMTV ou même Arte que dans les périphéries à faible audience de la plateforme vidéo de Google.
Différents stéréotypes antisémites
S’il s’agissait pour ce travail de recherche exploratoire d’évaluer la prévalence de propos à connotation antisémite sur un territoire informationnel donné, il visait également à tester un ensemble de méthodes numériques permettant d’identifier les différentes thématiques des commentaires antisémites.
La carte ci-dessous présente des cooccurrences de certains termes dans les commentaires reconnus par l’algorithme comme possédant une empreinte antisémite. Deux termes apparaissent proches sur la carte, s’ils apparaissent souvent dans les mêmes commentaires qui alertent l’algorithme. Un retour qualitatif permet ensuite de caractériser les groupes de termes cooccurrents.
L’extrême droite identitaire développe les thèmes de la judéophobie traditionnelle, assimilant le peuple juif à un peuple déicide, responsable de la mort de Jésus. D’autres commentaires rattachés à ce territoire pointent chez les Juifs de France des ennemis de l’intérieur, acquis à la cause d’Israël. Dans d’autres territoires, cet antisémitisme ancien s’enrichit de formes plus radicales d’antisémitisme faisant du Juif le catalyseur d’un conflit entre Français et population immigrée, le chef d’orchestre d’un conflit entre l’Islam et l’Occident. Toute une galaxie “complotiste” va jusqu’à prêter à certaines élites de confession juive un dessein satanique via la participation à des conspirations planétaires. Ainsi, les expressions à connotation antisemite en commentaires des chaînes de contre-information et santé alternative portent surtout sur l’organisation d’un complot mondial sataniste nourri par la corruption et l’immoralité des élites. La droite nationale-populiste dénonce aussi la corruption des élites, mais l’associe à un complot plus ancré dans le vocabulaire de la judéophobie et du nationalisme. Les médias de gauche dénoncent la corruption financière des élites sans souligner la dépravation morale des élites. Ces expressions associent l’antisémitisme au développement des discriminations à l’égard des Musulmans en France et dans le monde.
Cette recherche porte enfin une attention plus spécifique sur la place occupée par l’antisémitisme dans le développement de nombreuses théories complotistes liées au contexte de la pandémie de la Covid-19. Le resultats permettent de circonscrire clairement un groupe de chaînes YouTube (appelé dans cette étude chaînes de contre-information) qui ont été les agents actifs de la propagation de théories liant le nouvel ordre mondial, le virus, la vaccination à l’antisémitisme. Ce dernier est clairement présent dans les commentaires étudiés sans cependant y jouer un rôle causal et moteur. La dénonciation du satanisme et des crimes rituels d’élites accusées de pédo-pornographie, l’influence de débats importés de l’extrême droite américaine constituent les références idéologiques majeures de ces nouvelles théories du complot.
Limites et perspectives de recherches
Ce travail alimente un débat plus large dans les sciences sociales concernant l'utilisation d'outils informatiques automatisés, en fournissant l’exemple d’une méthode adaptée à une tâche nuancée et difficile. En dépit des limitations inhérentes à ce type d’outil, il nous semble qu’une approche automatisée peut être conduite sur un corpus plus large et avec une profondeur temporelle plus grande. Par ailleurs, il serait nécessaire d’envisager l’apprentissage d’autres types de discours de haine, à l’égard des Musulmans, des Roms ou des Asiatiques. Une généralisation de la méthode doit cependant être envisagée en étroite coordination avec une analyse qualitative des corpus.
Pour retrouver l'ensemble des publications relatives au Rapport 2020 sur la lutte contre le racisme, l'antisémitisme et la xénophobie, consulter le site de la CNCDH.