1. médialab Sciences Po
  2. Actualités
  3. Construisez vos corpus web avec Hyphe !

Construisez vos corpus web avec Hyphe !

Hyphe a été conçu pour offrir aux chercheurs et étudiants un outil de création et nettoyage de corpus web reposant sur un crawler orienté pour la recherche.

Chronique

La cartographie des controverses peut largement bénéficier d'études sous l'angle du web. Analyser les sites internet des acteurs d'une controverse et établir la carte des liens entre eux peut constituer un objet d'étude des plus riches, mais qui peut s'avérer quelque peu complexe à réaliser pour des chercheurs en sciences humaines et sociales.Publié sous la forme d'un logiciel libre publié sur GitHub, Hyphe a été conçu pour offrir aux chercheurs et étudiants un outil de création et nettoyage de corpus web reposant sur un crawler orienté pour la recherche. Les utilisateurs sont accompagnés par une méthodologie pour construire leur corpus web de manière à la fois granulaire et flexible avec des principes de curation simples.Plutôt que de traiter de "sites web", Hyphe manipule des "Web Entités", qui peuvent être définies tout aussi bien comme de simples pages, un sous-domaine, une combinaison de sites, etc. Les pages résidant sous ces Web Entités sont ensuite crawlées, afin de collecter les liens sortants et les contenus textuels. Les entités les plus citées peuvent ensuite être prospectées afin d'enrichir le corpus avant de le visualiser sous la forme d'un réseau et de l'exporter pour nettoyage dans Gephi ou pour publication avec manylines.Nous publions aujourd'hui une nouvelle version de Hyphe désormais capable de gérer plusieurs corpus simultanément et reposant sur une toute nouvelle interface web pour les utilisateurs implementée en HTML5.Découvrez Hyphe sur son site dedié, essayez notre démo ou installez-le sur un server de votre labo !