La cartographie des traces textuelles comme méthodologie d’enquête en sciences sociales
Jean-Philippe Cointet
Ce mémoire se situe au cœur de la zone d’échange où se rencontrent big data et sciences sociales. Par « big data » on fait référence à la double transition que constituent d’une part la profusion de traces numériques, souvent produites en ligne, qui permettent de tracer les comportements individuels à des résolutions et des échelles inédites, et d’autre part le développement de nouvelles formes d’analyse de données inspirées des algorithmes d’apprentissage automatique. Nous nous concentrerons sur une pratique de l’analyse de données très particulière en sciences sociales : l’analyse automatique de contenu. Ce mémoire débute par un regard rétrospectif sur l’histoire de ces méthodes. Nous nous efforçons de décrire les opérations matricielles en jeu dans les méthodes factorielles, de revenir sur les hypothèses sociologiques de l’analyse par mots associés, de restituer le travail d’enquête que permet Prospero, etc. Une typologie commune est proposée pour distinguer ces approches en fonction des théories sociologiques qu’elles embarquent, des stratégies de modélisation de l’énonciation qu’elles adoptent et des modes de calculs et d’intelligibilité du social qu’elles permettent. À travers cette même grille, des approches plus récentes nées dans les mondes de l’informatique et de l’intelligence artificielle sont analysées : notamment topic models, et plongements de mots. Nous défendons enfin la cartographie de réseau comme une méthode à part entière qui est systématiquement comparée aux autres approches. Le dernier chapitre est l’occasion d’examiner la façon dont le web modifie la pratique de l’enquête empirique de corpus textuels. Comment les notions de locuteurs, d’énonciation et plus généralement l’épistémologie même de l’enquête en sciences sociales est-elle déplacée avec les traces numériques ? Entre analyse critique historique et description méthodologique, ce mémoire original est également traversé de nombreuses références à des projets empiriques menés durant ces huit dernières années qui illustrent la diversité de la pratique de l’analyse de corpus.