Publications des agents du Cirad

Cirad

La néographie dans un grand corpus de SMS français : 88milSMS

Roche M., Verine B., Lopez C., Panckhurst R.. 2016. In : García Palacios Joaquín (ed.), De Sterck Goedele (ed.), Linder Daniel (ed.), Maroto Nava (ed.) , Sánchez Ibáñez Miguel (ed.), Torres del Rey Jesús (ed.). La neología en las lenguas románicas. Berne : Peter Lang, p. 279-302.

Depuis 2014, le corpus 88milSMS est disponible en téléchargement public (Panckhurst et al., 2014, http://88milsms.huma-num.fr/). Contenant plus de 88 000 SMS authentiques en français recueillis dans le cadre du projet sud4scienceLR (http://www.sud4science.org/), ce corpus anonymisé permet aux chercheurs d'analyser, en employant ou non des techniques de traitement automatique des langues (TAL), l'évolution de l'une des facettes de la langue française, l'écriture SMS (eSMS). Dans cet article, nous laisserons de côté la néologie dans sa dimension de créativité lexicale ¿ dérivation, les mots-valises (cinglicité), les emprunts (now, wesh), l'écriture non intentionnée, correspondant souvent à des erreurs de saisie (tladucteur), ou l'écriture incluant des caractères spéciaux, des chiffres (resto+cine, Ar5gggggggh), (Détrie 2015), pour aborder plus spécifiquement la néographie, ou la créativité scripturale, bien que les frontières entre néologie (" une réalité difficile à cerner " selon Pruvost/Sablayrolles, 2012) et néographie soient parfois ténues (Cougnon 2015). Comme Anis (1998), nous désignons par néographie des variantes de graphie qui s'éloignent de la langue standardisée, souvent de manière délibérée, ludique, et qui sont très présentes et instables dans l'eSMS. Dans des travaux préliminaires, nous avons rencontré, entre autres, des phénomènes néographiques de substitution (o/eau, ossi/aussi, kikou/coucou, twa/toi), d'ajout (répétition de caractères/signes de ponctuation : booooooooof/bof, j'arrriiiiiiivvve !!!!!, ajouts de caractères : les zamours, représentations sémiologiques/frimousses/emoji, :), ^^, J), de suppression (signes diacritiques : europeen/européen, ponctuation), et de réduction, (abrègements morpho-lexicaux : mdr/mort de rire, apocopes : ordi/ordinateur, aphérèses : zou/bisou, suppression de consonnes doubles : ele/elle, fins de mots effacées : tro/trop, agglutinations : tetrangle, squelettes consonantiques : slt/salut, abréviations : qd/quand, abréviations sémantisées : f=fais/fera(i)s/faisais : tu f koi ?). Nous confronterons notre typologie, § 1 (Panckhurst 2009, Panckhurst et al. 2013), au corpus 88milSMS à partir d'un fichier généré informatiquement (Lopez/Roche/Panckhurst 2015), après exclusion des mots apparaissant au sein du Lexique Électronique des Formes Fléchies du Français (LEFFF, (Sagot 2010)). Il s'agit de mieux comprendre quelles sont les pratiques scripturales de l'eSMS qui sont les plus redondantes au sein de 88milSMS. Outre une étude statistique § 2, nous focaliserons cette communication sur les lettres uniques qui renvoient à un mot (" tu f koi ? "), en étudiant dans quelle mesure un même scripteur varie ses pratiques, et en corrélant les usages aux caractéristiques sociologiques indiquées dans le questionnaire annexé à la collecte § 3. (Résumé d'auteur)

Thématique : Documentation et information; Méthodes de relevé; Autres thèmes

Documents associés

Chapitre d'ouvrage

Agents Cirad, auteurs de cette publication :