Thèse Filip Miletic

20 juin, 15h30 (D29)

Titre : Étude des glissements de sens induits par le contact de langues en anglais québécois : apports conjoints de la modélisation vectorielle sur corpus et de l'approche sociolinguistique variationniste/An investigation into contact-induced semantic shifts in Quebec English: conciliating corpus-based vector models and variationist sociolinguistic inquiry

Jury :
Stefan DOLLINGER,Professor, University of British Columbia (Rapporteur)
Sabine SCHULTE IM WALDE, Professor Universität Stuttgart (Rapporteur)
Kris HEYLEN, Researcher, KU Leuven (Examinateur)
Amélie JOSSELIN-LERAY, Maîtresse de conférences, Université Toulouse - Jean Jaurès (Examinateur)
Anne PRZEWOZNY-DESRIAUX, Professeure des universités, Université Toulouse - Jean Jaurès, laboratoire CLLE UMR5263 (Directrice de thèse)
Ludovic TANGUY, Maître de conférences, Université Toulouse - Jean Jaurès, laboratoire CLLE UMR5263 (Co Directeur de thèse)

Résumé :
Cette thèse étudie les glissements de sens induits par le contact de langues en anglais québécois, à savoir des mots anglais préexistants utilisés avec un sens différent en raison d’une influence potentielle du français. Ce phénomène sociolinguistique est décrit dans plusieurs études antérieures, mais il reste de nombreuses inconnues quant à sa diffusion, les contraintes sur ses usages et la valeur sociale qu’il véhicule. Nous proposons une approche novatrice à l’intersection du traitement automatique des langues et de la sociolinguistique variationniste, afin de fournir une description exhaustive de ce phénomène ainsi que d’évaluer les contributions des approches sur corpus mises en œuvre ici. Afin d’effectuer des analyses computationnelles de variation sémantique, nous avons constitué un corpus composé de 78,8 millions de tweets, publiés par 196 000 locuteurs de Montréal, Toronto et Vancouver. Le corpus a été utilisé pour mettre en œuvre différents types de modèles vectoriels, à savoir des représentations computationnelles du sens des mots. Les modèles statiques ont permis d’identifier de nouveaux glissements de sens (en identifiant des différences entre les locuteurs de Montréal par rapport aux deux autres villes), alors que les modèles contextuels ont permis de caractériser plus finement leurs utilisations. Malgré des résultats prometteurs, les analyses qualitatives indiquent que ces méthodes sont limitées par le bruit lié à leurs caractéristiques intrinsèques et à la structure du corpus. Ceci est corroboré par une évaluation quantitative systématique effectuée sur un jeu de données composé de 80 items. Celle-ci a montré que des résultats comparables à l’état de l’art sur une tâche classique de détection de changement sémantique ne se traduisent pas directement par la capacité pratique à repérer de nouveaux glissements de sens. Ces approches à grande échelle ont été complétées par des données plus fines recueillies au moyen d’entretiens sociolinguistiques avec 15 locuteurs vivant à Montréal. Nous avons utilisé un protocole sociophonologique classique, garantissant des résultats comparables et fiables, ainsi qu'un nouveau test de perception portant sur l'acceptabilité de 40 glissements de sens attestés dans le corpus de tweets. Les corrélations entre ces variables linguistiques et différents facteurs sociodémographiques, ainsi que les remarques qualitatives sur leur utilisation, indiquent quatre patterns de variation synchronique ; ceux-ci pourraient à leur tour refléter des processus diachroniques. Par ailleurs, la variabilité inter-locuteurs suggère un rôle important des locuteurs bilingues et plus jeunes dans l'utilisation des glissements de sens. Enfin, les scores d'acceptabilité sont faiblement corrélés avec les mesures computationnelles, ce qui suggère que ceux-ci reflètent d’autres dimensions de variation sémantique. newpagethispagestyle{plain} Dans l'ensemble, cette thèse a fourni la première description systématique, menée sur corpus et au moyen d'entretiens, des glissements de sens en anglais québécois induits par le contact avec le français. Elle a également mis en évidence la complémentarité des approches développées dans des disciplines différentes : notre objet d’étude sociolinguistique a orienté la mise en place des expériences computationnelles ; celles-ci ont fourni les stimuli utilisés dans les entretiens sociolinguistiques ; ces derniers ont apporté une évaluation supplémentaire des méthodes computationnelles. Ces considérations ouvrent la voie à une utilisation plus avisée des méthodes computationnelles basées sur corpus dans des études de phénomènes sociolinguistiques.
 
Summary:  
This dissertation investigates contact-induced semantic shifts in Quebec English, i.e., preexisting English words which are used with a different meaning due to the potential influence of French. This sociolinguistic phenomenon has been described in several studies, but its diffusion, the constraints on its use, and the social meaning that it conveys remain poorly understood. I therefore propose a novel approach at the intersection of natural language processing and variationist sociolinguistics, aiming to provide a more comprehensive descriptive account as well as assess the contributions of the implemented methods. In order to conduct computational analyses of semantic variation, I created a corpus containing 78.8 million tweets published by 196,000 speakers from Montreal, Toronto, and Vancouver. It was used to implement different types of vector space models, i.e., computational representations of word meaning. Type-level models were used to identify new semantic shifts based on the semantic differences between Montreal and the other two cities. Token-level models were used in finer-grained analyses and allowed to further characterize their use. Despite promising results, extensive qualitative analyses suggest that these methods are hampered by noise related to their inherent characteristics as well as corpus structure. This is corroborated by a systematic quantitative evaluation on a custom-built 80-item test set, demonstrating that SOTA-like performance on a standard semantic change detection task does not directly translate to practical value in discovering new semantic shifts. These large-scale approaches were complemented with finer-grained data collected through sociolinguistic interviews with 15 speakers living in Montreal. I used a standard sociophonological protocol, ensuring comparable and reliable results, as well as a novel perception test examining the acceptability of 40 semantic shifts attested in the Twitter corpus. Varying correlations between lexical items and a range of sociodemographic factors, coupled with qualitative remarks on their use, point to four distinct patterns of synchronic variation; these in turn reflect potential diachronic processes. Moreover, interspeaker variability suggests that the use of semantic shifts is driven by speakers who tend to be younger and proficient in both English and French. Finally, the acceptability ratings are weakly correlated with computational variation measures, suggesting that they capture different dimensions of semantic variation. Overall, this dissertation has provided the first systematic description of contact-induced semantic shifts in Quebec English, based on corpus analyses and face-to-face interviews. It has highlighted the complementarity of approaches used in different disciplines: the sociolinguistic object of study determined the setup of the computational experiments, which in turn provided the stimuli used in the sociolinguistic interviews, which in turn constituted further evaluation of the computational methods. These considerations have provided a pathway towards a better-informed use of corpus-based computational methods in studies of sociolinguistic phenomena.

Mots-clés :glissements de sens,anglais québécois,modèles sémantiques vectoriels,corpus de tweets,sociolinguistique variationniste,contact de langues
Keywords:  semantic shifts,Quebec English,vector space models,Twitter corpora,variationist sociolinguistics,language contact