minetfait par le médialab
librairie python et outil en ligne de commande de webmining
Outils – Code
Guillaume Plique, Jules Farjas, Pauline Breteau, Jean Descamps, Héloïse Théro, Amélie Pellé
Minet est une librairie python et un outil en ligne de commande ayant pour objectif d'aider ses utilisateurs à accomplir de nombreuses tâches typiques de webmining.
Minet peut par exemple être utilisé pour :
- Télécharger de très nombreuses urls le plus rapidement possible
- Scraper en utilisant un DSL dédié
- Crawler en utilisant un DSL dédié
- Extraire le contenu textuel de pages HTML
- De transformer et/ou parser des lots d'urls
- De collecter des données via certaines APIs comme celles de Crowdtangle ou Media Cloud
Minet est le produit d'une dizaine d'années d'expérience du laboratoire en webmining et est utilisé aujourd'hui quotidiennement dans le cadre de nombreux projets reposant sur de la collecte de données web.
collecte et traitement
développeur.e.s
utilisable
2019