Thèse Claire Ibarboure

18/09/2025 à 14 h - D 29 (MDR)

Titre
Typologies des parcours de recherche d'information sur le Web : étude des variations thématiques dans les sessions complexes

Jury
ESHKOL-TARAVELLA Iris, Professeure des universités, Université de Paris Nanterre (rapporteur)
BELLOT Patrice, Professeur des université, Professeur des universités, Aix-Marseille Université (rapporteur)
LEGER Laure, Maîtresse de conférences, Université de Paris Nanterre , (examinateur)
MOTHE Josiane , Professeure des universités, Institut de recherche en Informatique de Toulouse , IRIT(examinateur)
TANGUY Ludovic , Professeur, Université Toulouse - Jean Jaurès, CLLE (Directeur de thèse)
AMADIEU Franck, Professeur, Université Toulouse - Jean Jaurès, CLLE (co Directeur de thèse)
 
Résumé
Cette thèse traite des variations comportementales des utilisateurs lorsqu'ils effectuent une session de recherche complexe sur le Web. Plus précisément, nous nous intéressons aux stratégies mises en place lorsque l'utilisateur est confronté à des sous-objectifs faisant référence à des thématiques distinctes. Pour ce faire, nous étudions la planification à travers les requêtes soumises au moteur de recherche en partant du principe que les sessions sont des trajectoires dans un espace sémantique (Mitra, 2015). Nous avons réalisé trois études exploratoires pour modéliser les variations comportementales à partir de données expérimentales afin de dégager une typologie des comportements. Pour cela, nous avons mobilisé plusieurs techniques pour automatiser la représentation sémantique du contenu des requêtes, afin de faire émerger des régularités à travers les comportements à partir d’analyses statistiques. Dans une première étude, nous avons représenté automatiquement les requêtes avec des modèles vectoriels. Nous avons testé des embeddings statiques (FastText (Grave et al., 2018)) et contextuels (CamemBERT (Martin et al., 2020) et FlauBERT (Le et al., 2020)) sur deux étapes d'évaluation basées sur la similarité des requêtes. Nous avons constaté qu'il était préférable d'utiliser FastText, puisque les embeddings contextuels sont très dépendants du choix des paramètres et n'apportent pas pour autant des résultats significativement meilleurs. Toutefois, malgré la possibilité de visualiser les sessions comme une trajectoire dans un espace sémantique, nous n'avons pas été capables d'interpréter les variations. Dans une deuxième étude, nous avons annoté manuellement les requêtes selon les sous-objectifs. En combinant l'étude de variables classiques (p.e. la durée des sessions ou le nombre de requêtes) et de variables exploratoires liées aux sous-objectifs (le nombre total de sous-objectifs formulés dans la session, ou la présence de requêtes consécutives en lien avec un même sous-objectif), nous avons dégagé des groupes d'utilisateurs avec des caractéristiques spécifiques. Ainsi, nous avons pu observer des utilisateurs qui montrent très peu d'investissement, d'autres qui formulent peu de requêtes, mais longues et composées de plusieurs sous-objectifs, ou encore d'autres qui recherchent un plus grand nombre de sous-objectifs à travers de longues sessions en durée ou en nombre de requêtes. Toutefois, des limites liées au jeu de données utilisé nous ont amenés à recueillir notre propre corpus basé spécifiquement sur la distinction thématique de deux sous-objectifs. Le corpus PRIVaThe (Parcours de Recherche d’Information avec Variations Thématiques) est composé de 3162 requêtes formulées par 100 participants pour répondre à deux tâches de recherche sur Google. Pour l’ensemble des sessions, nous avons les réponses formulées par les utilisateurs et évaluées par nous-mêmes. Nous avons également enregistré et retranscrit les verbalisations en concomitance à la tâche de 20 participants. Cela nous a amené à une troisième étude où nous avons testé une annotation automatique des requêtes en fonction des sous-objectifs avec des modèles d'IA générative pour l’ensemble du corpus. L’identification de groupes d’utilisateurs avec des caractéristiques distinctives n’a pas été totalement concluante. Cependant, nous retrouvons des traces de comportements de type analytique (rechercher un sous-objectif à la fois), globaux (formuler des requêtes composées des différents sous-objectifs) et exploratoires (alternance entre les différents sous-objectifs), faisant écho aux stratégies définies dans la littérature en psychologie cognitive (Marchionini, 1995 ; Navarro-Prieto et al., 1999 ; Thatcher, 2006). Ces phénomènes sont observables notamment à partir de certaines variables exploratoires telles que les changements correspondant au passage d'un sous-objectif à un autre, ou encore les requêtes formulées des deux sous-objectifs de façon équivalente.