1. médialab Sciences Po
  2. Actualités
  3. Collectez les données des moteurs de recherche avec SearchEnginesBookmarklets

Collectez les données des moteurs de recherche avec SearchEnginesBookmarklets

Avec la refonte de Google Bookmarklets, un de ses outils de collecte de données, le médialab propose désormais un outil avec de nombreuses nouvelles fonctionnalités et améliorations.

Chronique

Auparavant limité aux recherches sur Google, cet outil, renommé pour l’occasion SearchEnginesBookmarklet, permet de collecter simplement, sous la forme de données tableur, les résultats des principaux moteurs de recherche sur le web : Google (web, images et Scholar), DuckDuckGo (web & images), Bing, Qwant & Baidu.

L’outil se présente sous la forme d’un “bookmarklet”, un petit bouton à installer en un simple “glisser-coller” dans la barre de favoris du navigateur web (Firefox ou Chrome) depuis la page de l’outil.

Installez SearchEnginesBookmarklets !

Pour qui ? Pourquoi ?

Destiné aux chercheurs, étudiants, journalistes ou activistes, cet outil permet de collecter des données de moteurs de recherche pour tout type d’usage, comme par exemple comparer les résultats des différents moteurs de recherche, fournir un premier jeu de sites web à Hyphe afin de créer un corpus web, collecter un ensemble d’images thématiques à analyser par exemple avec Pimmi ou Panoptic, ou encore collecter des listes d’articles académiques pour faire de la scientométrie.

Comment ça marche ?

Bien que leur fonctionnement repose sur l’extraction de contenus web, les moteurs de recherche sont généralement assez réticents à l’idée que d’autres robots collectent leurs propres pages web et mettent en place des mesures de détection et blocage des robots qui essaieraient de “scraper” leurs résultats de recherche.

L’approche de l’outil sous la forme d’un bookmarklet permet de passer outre ces blocages car elle laisse l’utilisateur charger lui-même les pages de résultats dans son navigateur, comme s’il utilisait le moteur de recherche normalement. Une fois cliqué, le bookmarklet injecte du code en Javascript directement dans la page web affichée, afin d’ajouter des menus interactifs en surimpression sur la page, permettant en quelques clicks, soit de récolter tous les résultats de la page affichée, soit de conserver en mémoire les premiers résultats avant d’accéder à la page de recherche suivante et de recommencer ainsi jusqu’au volume de résultats désirés.

Les moteurs de recherche peuvent parfois empêcher l’injection de code : l’outil le détecte alors et propose à l’utilisateur d’installer une ou plusieurs extensions sur le navigateur web afin d’éviter ces blocages.

SearchEnginesBookmarklets extrait pour chaque résultat de recherche les informations pertinentes et utiles telles que l'URL, le titre ou encore la description et parfois même la date de publication de la page web, telle que détectée par les robots du moteur de recherche.

Les résultats sont ensuite téléchargés sous la forme d’un fichier tableur CSV, permettant de les consulter simplement avec des logiciels de tableur classique, de réaliser facilement des traitements et analyses plus poussés avec des outils tels que Xan ou encore de traiter ses données avec du code dédié dans n’importe quel langage de programmation.

SearchEnginesBookmarklets fonctionne également avec les moteurs de recherche d’images de Google et DuckDuckGo et permet de récupérer les images à la fois sous la forme d’urls à collecter et de données directement intégrées au fichier CSV (au format textuel base64).

Le code source injecté par le bookmarklet étant directement téléchargé sur la page Github du logiciel, c’est toujours la dernière version publiée qui sera utilisée, sans nécessiter aucune mise à jour à l’utilisateur.

Quelles sont les limites ?

Bien que SearchEnginesBookmarklets soit un outil puissant et pratique pour collecter des données sur les principaux moteurs de recherche, il est important de prendre en compte certaines limites et contraintes avant de l’utiliser.

Depuis quelque temps, la plupart des moteurs de recherche ne proposent plus qu’une sélection de résultats relativement limitée, ne permettant plus de collecter que quelques centaines ou milliers de résultats par recherche.

La recherche sur Google Scholar s’avère par ailleurs relativement imparfaite et les métadonnées scrapées sur chaque publication scientifique (revue éditrice, auteurs de l’article…) sont parfois incomplets, mal formatés ou manquants. L’utilisation d’autres bases de données d’articles telles que Scopus, Web Of Science ou encore OpenAlex reste généralement à privilégier pour des études de scientométrie.

Enfin, reposant sur l’injection de scripts directement dans la page, cet outil est sujet à plusieurs blocages de sécurité qui obligent les utilisateurs à installer des extensions pour passer outre. Il est donc important d’être précautionneux avec ces extensions et de veiller à ne les activer que lorsque cela est nécessaire.

Vous pouvez nous faire remonter tout problème rencontré directement sur Github.

Pour conclure, si cet outil vous intéresse, nous vous encourageons à découvrir également Zeeschuimer, un outil développé par nos collègues de DMI permettant de collecter des données à partir de TikTok, LinkedIn, 9Gag et X/Twitter avec la même philosophie.