Uralfait par le médialab
librairie python offrant de nombreux utilitaires pour manipuler les urls
Outils – Code
Guillaume Plique, Jules Farjas, Oubine Perrin, Benjamin Ooghe-Tabanou, Martin Delabre, Pauline Breteau
Ural est une librairie python exposant de multiples fonctions utiles au traitement des urls.
Elle est le produit de plusieurs années d'expérience en collecte de données sur le web (notamment via le crawler Hyphe) et offre à son utilisateur de nombreuses heuristiques à même de dompter les urls les plus retorses.
Ainsi, Ural est par exemple capable :
- de normaliser les urls
- de parser les urls venant de certaines plateformes (Google, Facebook, Youtube, etc.)
- de détecter les urls raccourcies
- de faire des requêtes hiérarchiques sur les urls
- d'extraire les urls depuis le html
- etc.
traitement
développeur.e.s
utilisable
2018