1. médialab Sciences Po
  2. Productions
  3. minet

minetfait par le médialab

librairie python et outil en ligne de commande de webmining

Outils – Code

Guillaume Plique, Jules Farjas, Pauline Breteau, Jean Descamps, Héloïse Théro, Amélie Pellé

Minet est une librairie python et un outil en ligne de commande ayant pour objectif d'aider ses utilisateurs à accomplir de nombreuses tâches typiques de webmining.

Téléchargement d'urls depuis le shell en utilisant minet
Téléchargement d'urls depuis le shell en utilisant minet

Minet peut par exemple être utilisé pour :

  • Télécharger de très nombreuses urls le plus rapidement possible
  • Scraper en utilisant un DSL dédié
  • Crawler en utilisant un DSL dédié
  • Extraire le contenu textuel de pages HTML
  • De transformer et/ou parser des lots d'urls
  • De collecter des données via certaines APIs comme celles de Crowdtangle ou Media Cloud

Minet est le produit d'une dizaine d'années d'expérience du laboratoire en webmining et est utilisé aujourd'hui quotidiennement dans le cadre de nombreux projets reposant sur de la collecte de données web.

collecte et traitement

développeur.e.s

utilisable

2019