1. médialab Sciences Po
  2. Actualités
  3. Data Sprint sur le répertoire publicitaire du DSA

Data Sprint sur le répertoire publicitaire du DSA

Un data sprint sur les registres publicitaires des plateformes a eu lieu au médialab lors de la semaine du 24 février 2025. Organisé par l'Open Institute for Digital Transformations et par le projet « Putting the DSA into Practice », cet événement visait, d'une part, à tester l'existence et la disponibilité de « bibliothèques publicitaires » pour les plateformes de réseaux sociaux et, d'autre part, à voir si de nouveaux sujets de recherche pouvaient émerger de l'utilisation de ces nouvelles données.

Chronique

Le Digital Services Act (DSA) est une réglementation européenne qui a pour but de réduire la diffusion de contenus illégaux et d'améliorer la transparence entre les plateformes en ligne et leurs utilisateurs. Le DSA introduit deux exigences clés : toutes les publicités doivent être clairement identifiables, avec une divulgation transparente des annonceurs et des sources de financement (Art. 26) ; et les grandes plateformes doivent maintenir des bibliothèques publiques de publicités (Art. 39). Elle est entrée en vigueur le 25 août 2023 et s'applique à toutes les plateformes depuis le 17 février 2024.

Cet événement a réuni six groupes de recherche, chacun se concentrant sur un sujet particulier.

Violations des politiques dans l'écosystème publicitaire post-DSA

S'appuyant sur les travaux antérieurs menés par AI Forensics, ce groupe s'est concentré sur les escroqueries liées à la santé diffusées par le biais de publicités sur les platesformes Meta. À partir de la Meta Ad Library, qui comprend plus de 470 millions d'annonces, le groupe a identifié les doublons, c'est-à-dire les cas où plusieurs pages affichent les mêmes annonces. En effectuant des recherches par mot-clé, ils ont identifié plus de 46 000 annonces frauduleuses liées à la santé qui ont été montrées aux utilisateurs de l'UE plus de 292 millions de fois.

Ces publicités violent les normes communautaires de Meta et de nombreuses politiques publicitaires, et pourtant Meta les a examinées et approuvées. Le travail du groupe, couvert par la presse et commenté par Meta, documente l'incapacité systémique de Meta à modérer ses écosystèmes publicitaires, ce qui pourrait avoir des conséquences négatives prévisibles pour la santé publique et soulever des problèmes de conformité dans le cadre du Digital Services Act.

En savoir plus : https://aiforensics.org/uploads/meta_health.pdf

Publicités pour les biotechnologies 

Ce groupe a étudié la manière dont les investissements biotechnologiques et les futurs produits sont annoncés sur quatre grandes plateformes : X, Meta (Facebook et Instagram), Google et TikTok. Ils ont constaté que les API d'archivage des publicités sont incohérentes, mal documentées et souvent peu fiables. La plupart des données récupérées n'étaient pas structurées ou prêtaient à confusion. Dans certains cas, ils sont tombés sur des modèles inattendus tels que des tropes japonais ou polonais. Dans l'ensemble, la valeur épistémique des données dans leur forme actuelle était proche de zéro.

Si les ensembles de données contenaient clairement des signaux, tout effort de recherche sérieux était entravé par des problèmes d'entrée et de sortie. Les chercheurs ne pouvaient pas retracer la manière dont les ensembles de données avaient été construits, ni récupérer et contextualiser les publicités à grande échelle. Malgré ces difficultés, la présence de contenus douteux ou illicites suggère un manque d'application de la part des plateformes. Le groupe suggère que les futures recherches se concentrent sur une seule plateforme ou un seul sujet et développent une boîte à outils ad hoc plus agressive pour obtenir les données des interfaces web en ligne.

Contenu politique dans les publicités TikTok : Élection présidentielle roumaine de 2024

Malgré les conditions générales de TikTok interdisant le contenu politique, ce groupe a découvert comment des messages politiques se sont retrouvés sur la plateforme lors de l'élection présidentielle roumaine de 2024. Ils ont récupéré tous les contenus commerciaux publiés en Roumanie entre octobre et décembre 2024, en téléchargeant les images de couverture et en utilisant la reconnaissance optique de caractères (OCR) pour extraire le texte incorporé dans les images. Ils ont notamment recherché les posts liés au candidat Călin Georgescu dont l'élection a été annulée en raison d'une manipulation russe suspectée sur TikTok.

Leurs conclusions révèlent que la campagne de Georgescu sur TikTok a contourné les restrictions de la plateforme, promouvant le candidat à travers des contenus faisant référence aux élections, à la démocratie et à l'identité nationale. Les devises et les idées de la campagne ont circulé via ces publicités, bien que les conditions de TikTok interdisent ce type de contenu, et il n'y a pas d'informations sur les personnes qui ont financé ces vidéos. Le groupe conclut que son approche pourrait être reproduite dans d'autres contextes nationaux.

Le code et les données sont disponibles sur un dépôt github.

Dimensions ciblées (Meta)

Ce projet visait à explorer comment les publicités sur Meta exploitent différents types d’appels à l’action et utilisent des marqueurs identitaires spécifiques pour déclencher des comportements en lien avec des enjeux sociétaux. En analysant les publicités selon trois dimensions ciblées — appel à l’action, enjeu sociétal et déclencheurs identitaires — le groupe cherchait à comprendre comment l’engagement politique et civique est façonné. Cette approche permet d’examiner comment les publicités ne se contentent pas de présenter des problématiques, mais tentent aussi de susciter des réponses spécifiques, allant de la signature d’une pétition à la participation à une manifestation, souvent à travers un message identitaire émotionnellement engageant.

Les résultats ont révélé des corrélations notables, notamment entre les enjeux sociétaux et les types d’appels à l’action. Par exemple, les publicités appelant à signer des pétitions étaient liées à des causes environnementales, tandis que les appels à manifester apparaissaient plus fréquemment dans les publicités axées sur l’égalité. Ils ont aussi remarqué que les publicités comportant des appels à manifester faisaient plus souvent référence aux questions d’égalité, et que les dimensions identitaires étaient liées aux enjeux sociétaux. Bien qu’une petite part des publicités contienne des appels à l’action explicites, cette méthode d’analyse tridimensionnelle offre une alternative à la classification proposée par Meta en permettant d’identifier plus précisément les publicités liées à la mobilisation. L’analyse présente néanmoins certaines limites dues à l’utilisation de méthodes basées sur des lexiques et des modèles préentraînés comme manifestoBERTa, qui ne sont pas entièrement optimisés pour le domaine publicitaire. De futurs travaux pourraient adopter une approche centrée sur les acteurs et utiliser des jeux de données élargis afin d’améliorer la détection des stratégies de mobilisation.

Stéréotypes de genre dans les offres d’emploi

Ce groupe a étudié comment les biais de genre se manifestent dans la publicité en ligne pour les offres d’emploi. Ils ont cherché à comprendre si le ciblage fondé sur le genre est autorisé, étant donné que les règles varient selon les plateformes. Pour explorer ces dynamiques, le groupe a collecté 700 annonces d’emploi, en analysant à la fois leur contenu (texte, images, vidéos, audio) et métriques de diffusion. En utilisant la classification des métiers de l’INSEE, ils ont examiné qui apparaissait dans les annonces et comment les audiences étaient ciblées.

Leurs résultats ont révélé des tendances marquées : les hommes reçoivent plus fréquemment des publicités pour des offres d’emploi, en particulier pour des postes de cadres ou des emplois de bureau. Par ailleurs, les femmes apparaissent plus souvent dans le contenu des annonces (environ 50 % montrent des femmes, contre 30 % montrant des hommes). De plus, le genre de la personne représentée influence fortement le public touché : les annonces mettant en scène des femmes sont davantage vues par des femmes, et inversement. Les travaux futurs pourraient inclure un affinement des classifications des métiers et des contenus, des tests de robustesse, ainsi qu’une analyse des différences spécifiques à chaque plateforme afin de mieux comprendre les racines structurelles de ces biais.

La politique non étiquetée : l’écosystème publicitaire caché de Meta en France

Ce groupe a exploré la prévalence et les risques de la publicité politique non étiquetée sur les plateformes de Meta en France. Lorsqu’elles ne sont pas correctement signalées, les publicités politiques peuvent représenter des menaces majeures : contournement des lois sur le financement des campagnes, diffusion d’influences dissimulées, opacité en matière de responsabilité et affaiblissement de la confiance du public. Malgré l’existence de régulations comme le DSA, la définition du « contenu politique » reste floue. En créant une liste de 160 mots-clés politiques centrés sur les enjeux politiques, électoraux et sociaux français, ils ont croisé ces termes avec un ensemble de données comprenant plus de 15 millions de publicités françaises diffusées sur Meta. Ils ont constaté que 30 % de ces publicités pouvaient être considérées comme politiquement pertinentes, sans pour autant être étiquetées comme telles.

L’analyse a révélé que, parmi les 300 principaux annonceurs identifiés selon leurs dépenses publicitaires et la proportion de contenu politique diffusé, 47 avaient publié des publicités politiques sans étiquetage. Cela suggère non seulement des incohérences dans l’application des règles, mais aussi un possible biais systémique dans les pratiques de modération. Le groupe conclut que les mesures de transparence actuelles de Meta sont insuffisantes et appelle à des définitions plus claires, une application plus rigoureuse des règles, ainsi qu’un meilleur accès aux données pour garantir la responsabilité.