1. médialab Sciences Po
  2. Productions
  3. OpenRefine

OpenRefinerecommandé par le médialab

Une application de bureau open source et gratuite pour nettoyer un corpus de données

Outils – Logiciel

Metaweb, Google

OpenRefine est particulièrement utile pour traiter des fichiers de données (format tabulaire simple comme une feuille de calcul, fichier de valeurs séparées par des virgules -.csv- ou fichier délimité par des tabulations -.tsv-) avec des incohérences internes dans les formats de données, dans la structure des données ou dans la terminologie utilisée. Cette application peut être utilisée pour normaliser et nettoyer les données  sans modifier les données originales. 

OpenRefine peut notamment aider à :

  • obtenir un aperçu d'un ensemble de données,
  • résoudre les incohérences dans un corpus de données, par exemple normaliser le formatage de la date,
  • diviser ou trier les données en parties plus granulaires,
  • faire correspondre les données locales à d'autres ensembles de données,
  • compléter un corpus de données avec des données provenant d'autres sources.

L’application conserve les données privées sur l’ordinateur de traitement jusqu'à ce que l’utilisateur décide de les partager.

traitement

tous publics

utilisable

2010