1. médialab Sciences Po
  2. Productions
  3. minet

minetfait par le médialab

librairie et outil en ligne de commande de webmining écrit en python

Outils – Code

Guillaume Plique, Jules Farjas

Minet est une librairie et un outil en ligne de commande écrit en python et ayant pour objectif d'aider ses utilisateurs à accomplir de nombreuses tâches typiques de webmining.

Téléchargement d'urls depuis le shell en utilisant minet
Téléchargement d'urls depuis le shell en utilisant minet

Minet peut par exemple être utilisé pour :

  • Télécharger de très nombreuses urls le plus rapidement possible
  • Scraper en utilisant un DSL dédié
  • Crawler en utilisant un DSL dédié
  • Extraire le contenu textuel de pages HTML
  • De transformer et/ou parser des lots d'urls
  • De collecter des données via certaines APIs comme celles de Crowdtangle ou Media Cloud

Minet est le produit d'une dizaine d'années d'expérience du laboratoire en webmining et est utilisée aujourd'hui quotidiennement dans le cadre de nombreux projets reposant sur de la collecte de données web.

collecte et traitement

développeur.e.s

utilisable

2019