Le 3 février, le médialab sera présent au FOSDEM’18 de Bruxelles pour présenter Hyphe, le crawler web développé par les équipes de DIME-web.


Le FOSDEM’18 est un événement à destination des développeurs de logiciels libres et open-source. Ouvert à tous et sans inscription, il permet chaque année à des milliers de développeurs internationaux de se rencontrer, partager des idées et collaborer.

Plus de 650 intervenants prendront part au programme dans différents formats de présentations : keynotes, main tracks, developer rooms, lightning talks et certification exams.

It’s a Trie… it’s a Graph… it’s a Traph! Designing an on-file multi-level graph index for the Hyphe web crawler

La présentation du web crawler Hyphe par Paul Girard, Mathieu Jacomy, Benjamin Ooghe-Tabanou et Guillaume Plique aura lieu samedi 3 février à 15h45 dans la Graph Processing devroom.

Résumé :

« Hyphe, a web crawler for social scientists developed by the SciencesPo médialab, introduced the novel concept of web entities to provide a flexible and evolutive way of grouping web pages in situations where the notion of website is not relevant enough (either too large, for instance with Twitter accounts, newspaper articles or Wikipedia pages, or too constrained to group together multiple domains or TLDs…). This comes with technical challenges since indexing a graph of linked web entities as a dynamic layer based on a large number of URLs is not as straightforward as it may seem.

We aim at providing the graph community with some feedback about the design of an on-file index – part Graph, part Trie – named the “Traph”, to solve this peculiar use-case. Additionally we propose to retrace the path we followed, from an old Lucene index, to our experiments with Neo4j, and lastly to our conclusion that we needed to develop our own data structure in order to be able to scale up. »

Toutes les infos sur le site du FOSDEM.

