1. médialab Sciences Po
  2. News
  3. Contribution of textual analysis and datascapes

Contribution of textual analysis and datascapes

Médialab's seminar presented by Muriel Epstein, Nicolas Bourgeois and Maxime Crépel

Event, Research Seminar

Salle du médialab, 13 rue de l'Université, 75007 Paris

Cette séance sera animée par Muriel Epstein et Nicolas Bourgeois qui présenteront l’apport d’une analyse textuelle quantitative menée sur des blogs enseignants et Maxime Crépel qui discutera de l’exploration qualitative et quantitative de controverses sur le thème de la data privacy.

Les présentations dureront trente minutes chacune et seront suivies d’une heure de discussion avec le public.

Ce séminaire est ouvert à tous dans la limite des places disponibles.

Des blogs enseignants comme « meilleurs entretiens non directifs » ? L’apport d’une analyse textuelle quantitative

Les blogs sont une mise en scène de soi (Rouquette 2008 - Goffman 1973) plus étudiée en marketing qu’en sociologie. Pour autant,  les blogs sont utilisés par différents professionnels pour avoir un retour réflexif sur leur métier (Mortensen & Walker 2002 pour les chercheurs, Dardy 2016 sur l’étude de bloggueurs qui veulent être écrivains, Henaff 2009 pour une enseignante). Les données produites peuvent être analysées sociologiquement sous réserve de maîtriser les conditions de production, et en premier lieu, les motivations de la personne qui blogue (Jones & Alony 2008).

Il ressort de premiers travaux de recherches ethnographiques par entretiens et observations (Epstein 2016) et quantitatifs « traditionnels » sous forme de questionnaire (Epstein Bouccara 2015) que l’usage du numérique chez les enseignants est « non conscientisé ». Ainsi les entretiens non directifs (Mathalon Giglione 1998) présentent d’importantes lacunes puisque les enseignants interrogés ne mentionnent pas le numérique (Ladage & Ravenstein 2013) et les entretiens semi-directifs conduisent à des réponses convenues. Enfin, les observations non participantes sont plus riches mais portent nécessairement sur un corpus limité. Notre souhaitons donc bénéficier à la fois de la richesse de l’entretien non directif (qui permet une recherche inductive) et du caractère massif des données, grâce l’utilisation des outils quantitatifs appropriés sur un corpus vaste et peu contraint par l’enquête elle-même.

L’objectif de nos recherches est ainsi d’étendre la théorie enracinée (Glaser et Strauss 2010) sur des sources fournissant de la donnée massive, de proposer des méthodes et d’en comprendre les limites. C’est à dire d’utiliser des outils quantitatifs et informatiques pour un travail d’exploration qualitative sociologique.

La première partie du travail consiste à accumuler les données et à programmer les outils le permettant. La seconde partie consiste en un ensemble de traitements statistiques accompagnés des codages intermédiaires nécessaires. Le périmètre exact des traitements n’est pas encore fixé à ce stade puisqu’il sera adapté à mesure de notre exploration ; nous commençons par de la lexicométrie classique, des outils de classification (classification hiérarchique, cartes auto-organisatrices[1] (Kohonen 1982)) et une modélisation par topic model[2] (Blei 2003, Bourgeois et Lavenir 2016)

Nous détaillerons dans la présentation les difficultés techniques et méthodologiques et ce que nous avons conçu comme protocole ainsi que nos premiers résultats. Nous visons ainsi à participer à la construction d’une réflexion méthodologique générale sur l’étude massive de blogs. Nous montrerons que les outils statistiques utilisés, en particulier les topics models, sont encore largement méconnus en regard de leur potentiel.

Biographies

Muriel Epstein est enseignante-chercheuse en sociologie de l'éducation. Elle travaille sur l'inclusion scolaire et les innovations pédagogiques qui le permettent. Ses recherches sur le décrochage scolaire l'ont conduite à interroger l'evolution de l'identité enseignante au gré des réformes. Statisticienne  de formation et enseignante de mathématiques au SAMM à l'université Paris 1 Panthéon Sorbonne, elle s'intéresse aux développements de méthodes au croisement de techniques quantitatives et qualitatives. Elle travaille actuellement avec Nicolas Bourgeois à développer des techniques quantitatives d'analyse qualitative des blogs enseignants.

Nicolas Bourgeois est, depuis 2012, maître de conférences en informatique à Paris I et membre du SAMM, laboratoire de mathématiques appliquées aux sciences humaines et sociales. Il a soutenu en 2010 à Paris Dauphine une thèse portant sur développement et l'analyse d'algorithmes superpolynomiaux pour les problèmes de graphes NP-difficiles. Ses recherches actuelles l'entraînent plutôt vers l'analyse quantitative de données historiques et sociologiques, notamment via la lexicométrie.

L’exploration qualitative et quantitative de controverses sur le thème de la data privacy : l’apport du datascape

Maxime Crépel est chargé d’études au médialab et s’intéresse tout particulièrement aux questions liées aux identités numériques.

Dans le cadre du projet « Insurance for building trust and enabling big data », le médialab a produit un datascape ayant comme objectif l’exploration qualitative et quantitative de controverses sur le thème de la data privacy. Le datascape a consisté en la création d’un corpus structuré de pages web catégorisées par une méthode de topic modeling et par la création d’une interface de navigation. Nous présenterons, avec les membres de l’équipe du médialab ayant contribué au projet, les objectifs et les étapes de la constitution de ce datascape en nous concentrant plus spécifiquement sur le processus de génération des topics à partir d’un large corpus de pages web.

[1] Les cartes auto-organisatrices sont une alternative (non linéaire, non supervisée, non déterministe) aux ACP pour le problème de la réduction du nombre de variables et peuvent entre autre être utilisées en classification ou en visualisation.

[2] Le topic model est une technique d’analyse probabiliste qui repose sur l’idée que les sources observées (ici, les blogs) peuvent être modélisées comme le résultat d’un processus génératif aléatoire à partir d’éléments pré-existants (essentiellement, des champs lexicaux) que l’on va chercher à retrouver.