1. médialab Sciences Po
  2. News
  3. Web mining pour les chercheurs en Sciences Sociales

Web mining pour les chercheurs en Sciences Sociales

Synthèse de la journée BarCamp e-diaspora du jeudi 24 Mai 2012

Post

A l'occasion de la conférence de cloture du programme de recherche e-diaspora, un barcamp sur le thème de "web mining pour les chercheurs en Sciences Sociales" a été animé par Paul Girard le jeudi 24 mai 2012.

Cet atelier a été l'occasion d'échanger sur les difficultés et opportunités méthodologiques amenés par l'utilisation des documents web dans le cadre d'une recherche en Sciences Humaines et Sociales. Au delà du retour sur nos pratiques cette journée a permis de discuter comment de futurs instruments de recherche pourraient ouvrir de nouveaux horizons.

En guise de compte rendu nous publions ici quelques notes qui relatent en mode télégraphique les thèmes abordés.

Note: le logiciel HCI évoqué dans ce compte rendu est l'ancêtre du logiciel Hyphe.

 

1- LE TEMPS

# tracker les évolutions d'un corpus une fois constitué

L'outils de création de corpus devrait être capable de le suivre dans le temps. Ce n'est pas redondant avec l'archivage car cela permet de suivre des évolutions prévisibles suite à des évènements (élections 2014), suivre des phénomènes d'extension ou concentration.

# remonter dans le temps : archivage

Politique de sélection de l'archivage INA : premier sourcing prospectif réalisé par Linkfluence + mises à jour manuelles par les documentalistes. L'archive permet de rejouer les sites (naviguer dans le temps)

Complémentarité des archives : Memento Web IIPC plugin firefox transaction, si il trouve la page dans différentes archives. A part annuaire communs : très difficiles techniquement.

-> accepter les contraintes de l'archive : interopérabilité : très difficile, malgré la publication méta-données gros problème technique. Les archives ont d'abord un objectif patrimoniale. Elles peuvent être rejouées, on peut voir le web tel qu'il était au moment de la capture mais il y a des limites à la consultation = web n'est pas fait pour être archivé

-> consultation il reste des problèmes d'interprétation : parfois la reconstruction est difficile à appréhender, incohérences difficile à comprendre

les archives sont consultables par des robots : par un proxy acceptant comme paramètre pour la date à consulter

-> le futur outils HCI permettra de créer des corpus à partir des archives existantes (au moins celle de l'INA donc l'archive e-diaspora)

qqn éléments à propos de l'archive e-diaspora :archive e-diaspora : 1 To 1 milliard d'URL, 1 fois par semaine ou 1 fois par mois. Légalement : archive appartient à e-diaspora, publication des méta-données possibles. Usage : pour le moment aucun archivage fait en vue de e-diaspora 2

-> la taille plus raisonnables des ces corpus peuvent nous laisser imaginer de réaliser du data mining au delà du moteur de recherche full text mis en place à l'INA

# analyser dans le temps

Analyser l'évolution d'un corpus web dans le temps n'est pas du tout balisé. Les outils et les méthodes sont encore très frais mais activement développés que ce soit dans le domaine de la visualisation, du data mining ou du web/media studies.
- représenter les évolutions : phylogénie en 3D
- analyse dans le temps : normalisation sur échantillonnage variable, espoir du coté théorie des réseaux détection d'évènement dans des séries temporelles sans modèle

2- L'ESPACE

# comment géolocaliser un site web ? 

(déjà traité lors d'un précédent workshop e-diaspora)

Voici les 4 méthodes pour géolocaliser un site web :
- où habitent les rédacteurs ?
- où est hébergé le site ?
- quels lieux géographiques sont cités ?
- localisation administrative



Dans le cas de passage à la géographie, il est important de préciser quelle méthode à été utilisée car aucune d'elle n'est plus évidente ou plus valides que les autres. Elles apportent toutes des considérations différentes.

# webifier la géographie : à l'inverse comment mobiliser la cartographie pour représenter les liens qu'entretient un corpus web avec le territoire réel

quelques pistes à expérimenter :
- remettre en cause la surface des pays comme indicateur de taille de la représentation
- tester donc des cartogrammes en utilisant des données venant du corpus web
- attention comme toujours à choisir une projection pertinente
- un des enjeux consiste à ne pas chercher à niveler les différents niveaux administratif (villes, régions, pays)



Si l'on s'intéresse aux noms de lieux cités dans un site web, laisser les énonciations telles qu'elles et représenter les différents niveau indépendamment en fonction de leur importance (nombre d'occurrence). (le service de nom de lieux comme geonames.org a été décrit)

- le cas des lieux imaginaires ou mythologiques (May Houa) : C.F. wikipedia atlantis "category: mythological places"

3- CONTENUS : au delà du lien

Comment dépasser la seule analyse topologique du graphe des liens hypertextes ? Comment y ajouter des couches d'analyses de contenus : textes, images, méta-données (sur les sites, pages ou liens), données structurées venant de réseaux sociaux…

# les liens hypertexte forment le squelette du corpus 

le logiciel HCI permettra de créer et stocker, stabiliser un corpus.En plus des liens ce logiciel captera les contenus textes par défaut. L'agrégation qu'il permettra des pages au niveau web entités (voir méthode) offrira la possibilité de récupérer et analyser les contenus textes. On pourra alors imaginer ajouter à l'analyse réseau hypertextes, une analyse sémantique. De la même manière à moyen terme on pourrait imaginer ajouter des couches d'extraction puis traitement de contenus spécifiques :
- extraction et reconnaissance d'images
- extraction de twitter
- extraction de données Facebook


Ces extraction pourront être traitées dans la même structure mémoire en tant qu'entités propre (non web). On pourra alors imaginer déclarer des liens entre entités :
- lien entre une image et toutes les pages web qui la contiennent
- lien entre une page web et tous les tweet qui la citent
- lien entre un profile facebook et toutes les pages qu'il a liké…


Ce travail demandera la programmation de moteur d'extraction spéficique en fonction des plateformes. Pour un futur à moyen terme.

4- METHODES : exploiter les degrés de libertés pour répondre à une question de recherche

# interactions avec les terrains classiques

dans les deux sens :
- web vers terrain : utiliser son corpus web pour préparer une étude de terrain, retourner sur le terrain pour confronter le miroir déformant qu'est le web à la réalité des acteurs
- terrain vers web : compléter une étude (quanti ou quali) par une étude web de la même question

complémentaire que si on sait "faire avec" le web. N'oubions pas que le web existe ! exemple : il existe les groupes sociaux qui souhaitent rester invisibles sur le web (pour protection de la vie privée Facebook ou pour garantir la clandestinité). Pour ces cas il faut avoir recours à la méthode bien connue des ethnologues : l'observation participative ! C'est en prenant par au groupe que vous pourrez l'observer.

# granularité : logique de site contre logique de pages

l'outils HCI est basé sur ce principe. Chaque chercheur pourra définir la juste granularité à utiliser pour chaque entité web qu'il souhaite étudier (voir : http://hyphe.medialab.sciences-po.fr/#how-it-works). On notera qu'il est théoriquement possible de créer des règles d'agrégation différentes sur un même corpus de pages web récoltés afin de permettre à différent chercheurs d'agréger/sélectionner les entités en fonction de leur question de recherche (voir http://cartonomics.org/2012/05/27/de-la-replicabilite-des-corpus-de-sites-web/)

# sélection : comment sélectionner des points d'entrées, étendre le corpus et éviter l'aspiration ver la couche haute

2 chose sont indispensables à assurer de bons critères de sélections des entités web à inclure ou exclure au corpus :
- ré-expliciter la méthode et assurer un accompagnement des chercheurs à ce travail qui demande de bien comprendre la structure du web (service fourni par l'équipement d'excellence DIME-SHS/web)
- une meilleur interaction entre décision du chercheur et l'automatisme du crawler (problème réglé par HCI) (voir sur ce point le résumé écrit par JC Plantin de la session "analyse comparée http://cartonomics.org/2012/05/27/de-la-replicabilite-des-corpus-de-sites-web/)

# Open the black box

Comme pour toute méthode, il est indispensable que les chercheurs comprennent les enjeux des données. Les logiciels que nous créer doivent donc :
- être open source pour garantir la lecture critique du code produit (voir doi:10.1038/nature10836 http://www.nature.com/nature/journal/v482/n7386/full/nature10836.html)
- toujours donner à voir aux chercheurs les conséquences de ses décisions en terme de "qualité" des données
- assurer un historique aussi complet que possible qui permettent de retracer la chaîne de décisions/traitements appliqués aux données


# méthode exploratoire : "to help the researcher construct the research question"

La méthode de construction et d'analyse de corpus web est une méthode exploratoire. Elle permet en grande partie de construire ou plutôt de faire évoluer une question de recherche. Elle demande plusieurs itérations avant d'aboutir à un corpus qui soit adapté au positionnement du chercheur. La classification est un bon exemple de ce fait. Elle est construite en aller retour entre récolte et analyse. Des efforts sont à mener pour permettre à un groupe de chercheur de comparer leurs corpus sur la base d'éléments de classification commun. Cet enjeux dépasse le cadre restraint de la méthode web. Notre approche privilégiée au médialab serait de mêler le bottom-up au top-down en permettant au chercheur de créer librement sa grille de qualification tout en y incluant des autorités de vocabulaire contrôlé. Ce serait un bon premier pas vers la comparabilité des corpus web (à ce sujet voir http://cartonomics.org/2012/05/27/de-la-replicabilite-des-corpus-de-sites-web/)

# scalabilité : aller-retour avec de grand corpus non thématiques

L'intention de départ qui a motivée la création d'outils de web mining spécialisé pour les chercheurs en Sciences sociales, mettait la priorité à la qualité devant la quantité. Nous ciblons des corpus de petites tailles (relativement à l'échelle du web). Cela étant Anat Ben-David a soulevé l'intérêt que pourrait représenter des corpus de plus grandes échelles qui permettraient de donner un contexte au corpus raffinés par le chercheur. Deux enjeux se cachent derrière cette intention :
- Qualité et robustesse d'un outils capable de passer à l'échelle (passage de l'expérimentation à la création de logiciels professionnels)
- de même les critères de sélection de cette plus grande échelle reste à être déterminés (follow the medium, TLD, en utilisant les index de grand moteur de recherche ?)

Le logiciel HCI permettra de régler le niveau du compromis entre qualité et quantité. On pourra choisir de récolter un grand nombre d'urls et les liens qu'ils échangent à condition de limiter la profondeur des détails au sein de ses entités ou bien se limiter dans le nombre d'URL afin de permettre une grande qualité de détails dans chacune d'elles. On pourra même mettre des exceptions de précisions qui permettront de sortir une page (ou un ensemble) précise comme une entité très profondément d'une entité web non détaillée suivant la règle classique

# analyse visuelle : explorer, cartographier des questions

L'analyse visuelle des corpus web est également un point méthodologique en développement. Deux difficultés :
- les sciences sociales n'ont pas la tradition de l'image scientifique comme l'ont développée les sciences naturelles
- exception faite de la raison graphique de Bertin qu'il faut ré-interpréter à l'heure des réseaux, de la dynamique de l'intéraction/explorationIl s'agit de donner les moyens au chercheur d'explorer (GEPHI) puis de cartographier (TubeMyNet en cours développement) son corpus.

Il est important d'abandonner l'idée qu'une carte suffira à synthétiser le travail effectué. Les résultats d'un travail sur corpus web doivent retracer la constitution, l'exploration et l'analyse du corpus sous ces différentes facettes. Ce n'est pas une carte mais bien des cartes, des récits, des visualisations qui pourront former l'ensemble suffisant à rendre compte du cheminement du chercheur.