1. médialab Sciences Po
  2. Productions
  3. SearchEnginesBookmarklet (ex Google Bookmarklets)

SearchEnginesBookmarklet (ex Google Bookmarklets)fait par le médialab

un bouton à ajouter au navigateur web pour extraire en quelques clics en CSV les résultats d'une recherche Google, DuckDuckGo, Baidu...

Outils – Logiciel

Benjamin Ooghe-Tabanou, Julien Pontoire

Collecter la liste des urls, titres, dates et résumés du résultat d'une requête sur un moteur de recherche comme Google, DuckDuckGo, Bing, Baidu ou Qwant est un besoin récurrent des méthodes numériques qui s'avère difficile à automatiser du fait des restrictions imposées aux robots par ces sites.

SearchEnginesBookmarklet est une solution logicielle "low tech" à ce besoin en proposant une méthode simple pour faire cela directement depuis votre navigateur web.

Installez-le tout simplement en quelques clics depuis la page suivante : https://medialab.github.io/SearchEnginesBookmarklet/

Cela fonctionne sous la forme d'une petite icone à glisser dans la barre de favoris de votre navigateur afin de :

  • tout d'abord basculer vers une page de recherche renvoyant jusqu'à 100 résultats par page lorsque le moteur de recherche le permet ;
  • puis télécharger en un clic les résultats de la page de recherche au format tableur CSV, ou les stocker dans la mémoire du navigateur et passer à la page de résultats suivante pour télécharger plus de résultats d'un coup.

Comment l’utiliser ?

L’outil se présente sous la forme d’un “bookmarklet”, un petit bouton à installer en un simple “glisser-coller” dans la barre de favoris du navigateur web (Firefox ou Chrome).

Les moteurs de recherche supportés se divisent en trois catégories : les moteurs de recherche qui utilisent un système de pagination, ceux qui utilisent un système de scrolling et les moteurs de recherche d’images.

Dans tous les cas de figure, si vous rencontrez un message d’erreur vous suggérant d’installer une extension de navigateur, procédez ainsi puis activez là et relancez votre recherche avant de cliquer à nouveau sur le bookmarklet.

          1. Moteurs de recherche avec pagination (Google, Baidu, Bing &
             Google Scholar)

Commencez par aller sur le moteur de recherche de votre choix et saisissez votre requête. Activez ensuite SearchEnginesBookmarklets en cliquant sur le bookmarklet dans votre barre de favoris.

Un menu interactif s’ouvrira alors sur la droite de la page vous proposant de choisir différents paramètres, dont le nombre de résultats que vous souhaitez par page. Ce nombre est variable selon les moteurs de recherche et est automatiquement réglé sur le maximum possible.

Une fois les réglages effectués, cliquez sur “Redirect me!” pour être renvoyé à la page que nous allons utiliser pour la collecte. Cliquez alors à nouveau sur le bookmarklet pour commencer la collecte.

Vous pouvez alors choisir : 

  • soit de télécharger directement les résultats de la page en cours avec le bouton “Download CSV” ;
  • soit de les conserver dans la mémoire du navigateur et d’accéder à la page suivante avec le bouton “Keep existing results & continue to the next page” ; cliquez ensuite à nouveau sur le bookmarklet depuis cette nouvelle page et téléchargez les résultats agrégés ou cliquez à nouveau sur le premier bouton pour recommencer jusqu’à obtenir le nombre de résultats souhaités.

          2. Moteurs de recherche avec scrolling (DuckDuckGo & Qwant)

Pour ces moteurs de recherche, la méthode est sensiblement la même mais vous pourrez collecter directement le total de résultats souhaités sans avoir à visiter une à une les pages de résultats.

Ainsi, après avoir effectué votre requête et activé l’outil en cliquant sur le bookmarklet, commencez par saisir le nombre de résultats que vous souhaitez collecter.

Cliquez ensuite sur “Start Download!” et la collecte va commencer en cliquant automatiquement sur le bouton “Plus de résultats” petit à petit jusqu’à ce que le nombre de résultats désiré soit prêt. Un fichier CSV les contenant tous sera ensuite directement téléchargé par le navigateur.

Une intervention de l’utilisateur peut toutefois rester nécessaire en cours de collecte si le moteur de recherche demande la validation d’un captcha.

          3. Recherche d’images (Google & DuckDuckGo)

La collecte des images repose sur le même principe que pour les moteurs de recherche avec un système de scrolling : effectuez votre requête, activez le bookmarklet, saisissez le nombre d’images souhaitées, puis cliquez sur le bouton “Start download!”.

L’outil va cette fois faire défiler automatiquement la page pour charger plus d’images jusqu’au nombre total désiré.

Ici aussi, il est possible que le moteur de recherche vous demande de vérifier que vous n’êtes pas un robot en validant un captcha.

Une fois la collecte terminée, vous obtiendrez là encore un fichier CSV semblable au format suivant :

Vous retrouverez notamment deux URLs pour chaque image : source_url qui indique la page web sur laquelle l’image a été indexée par le moteur de recherche, et image_url qui correspond à l’adresse de l’image stockée par Google ou DuckDuckGo (aux dimensions souvent réduites par rapport à l’image originale). Ce dernier champ est malheureusement vide pour les 30 premiers résultats dans le cas d’une recherche Google Images car Google embarque directement ces premières images dans la page web de résultats sans fournir d’URL. Une description de l’image ainsi que ses dimensions (width & height) viennent compléter les données collectées.

Enfin, la colonne image_base64 contient les images collectées elles-mêmes, présentées au format textuel base64, aisément affichable dans un navigateur web ou exploitable avec du code. Pour les visualiser simplement, vous pouvez par exemple copier le texte de la cellule et le coller dans la barre de recherche de votre navigateur. Vous pouvez également manipuler ces images programmatiquement, par exemple en python avec la librairie standard base64.

SearchEnginesBookmarklet repose sur artoo.js et est sous licence GPL 3.0 avec son code source disponible sur Github.

collecte

tous publics

utilisable

2024