1. médialab Sciences Po
  2. Productions
  3. Ural

Uralfait par le médialab

librairie python offrant de nombreux utilitaires pour manipuler les urls

Outils – Code

Guillaume Plique, Jules Farjas, Oubine Perrin, Benjamin Ooghe-Tabanou, Martin Delabre, Pauline Breteau

Ural est une librairie python exposant de multiples fonctions utiles au traitement des urls.

Elle est le produit de plusieurs années d'expérience en collecte de données sur le web (notamment via le crawler Hyphe) et offre à son utilisateur de nombreuses heuristiques à même de dompter les urls les plus retorses.

Ainsi, Ural est par exemple capable :

  • de normaliser les urls
  • de parser les urls venant de certaines plateformes (Google, Facebook, Youtube, etc.)
  • de détecter les urls raccourcies
  • de faire des requêtes hiérarchiques sur les urls
  • d'extraire les urls depuis le html
  • etc.

traitement

développeur.e.s

utilisable

2018