1. médialab Sciences Po
  2. Productions
  3. Gazouilloire

Gazouilloirefait par le médialab

un logiciel serveur pour faire tourner des collectes massives de données Twitter au long cours

Outils – Logiciel

Benjamin Ooghe-Tabanou

Collecter des données sur Twitter en utilisant son API est relativement aisé pour les développeurs en utilisant les nombreuses librairies prévues à cet effet. En revanche, maintenir de telles collectes sur le long terme en vue de constituer de gros corpus longitudinaux peut s'avérer plus complexe.

Gazouilloire permet de simplifier la mise en place de telles collectes en assurant le maximum d'exhaustivité par l'emploi combiné de l'API de streaming et de l'API de recherche, ceci tout en offrant une variété de fonctionnalités complémentaires et d'options de configuration de la collecte, notamment :

  • collecter tous les tweets matchant un ensemble de mots clés, d'utilisateurs ou de morceaux d'urls
  • limiter la collecte de certains mots-clés à des périodes de temps définies
  • filtrer sur la langue employée dans les tweets (telle que détectée par les algorithmes de Twitter)
  • filtrer sur une zone géographique d'envoi des tweets
  • résoudre automatiquement les urls raccourcies partagées
  • remonter intégralement le fil d'une conversation lorsqu'un tweet collecté répond à un autre
  • remonter dans le temps au maximum sur 8 jours comme le permet l'API gratuite de Twitter
  • collecter systématiquement les contenus images et vidéos embarqués dans les tweets collectés

collecte

développeur.e.s

utilisable

2014