1. médialab Sciences Po
  2. Productions
  3. artoo.js

artoo.jsfait par le médialab

bookmarklet injectant du code JavaScript dans une page web pour fournir des utilitaires de scraping

Outils – Code

Guillaume Plique

artoo.js est un bookmarklet dont le but est d'injecter, dans n'importe quelle page web de votre navigateur, des utilitaires JavaScript ayant pour but de vous aider à scraper.

artoo a été injecté dans la page web!
artoo a été injecté dans la page web!

Cet outil part d'un constat très simple : les technologies web se sont beaucoup complexifiées depuis la création de l'Internet et il est devenu de plus en plus difficile de scraper des sites webs, à plus forte raison ceux nécessitant activement JavaScript pour fonctionner. Ainsi, les scrapers ont redoublé d'astuces pour "émuler" le fonctionnement des navigateurs web modernes. Mais lorsque l'on veut récupérer des données en relativement petite quantité sur le web, pourquoi s'embêter à émuler un navigateur quand on peut tout simplement parasiter le navigateur lui-même? C'est en quelque sorte ce que fait artoo en injectant son code dans les pages web contenant les données que vous souhaitez extraire.

Ainsi, artoo permet de scraper plus facilement, de faire télécharger le résultat de votre extraction au navigateur, de dérouler automatiquement des listes infinies, de lancer des spider ajax, de surveiller les requêtes lancées par le JavaScript etc.

Enfin il permet aussi, grâce à son générateur de bookmarklet, de créer facilement des bookmarklets injectant votre propre code en prime afin que quiconque puisse s'en servir facilement et sans avoir de connaissances particulière en programmation.

Il est ainsi facile d'utiliser artoo pour créer des outils adhoc automatisant la collecte de données sur le web directement depuis le navigateur des utilisateurs. Pourquoi ne pas créer un bookmarklet qui téléchargerait les résultats d'une recherche Google comme un fichier CSV, par exemple ?

collecte

développeur.e.s

utilisable

2014