Ce cours propose une introduction progressive au traitement automatique du langage naturel (TAL) dans le cadre des Humanités numériques. Il vise à fournir aux étudiant·e·s des outils conceptuels, techniques et critiques pour analyser des corpus textuels à l’aide de méthodes issues du TAL et des sciences des données.

Aucune compétence préalable en programmation n’est requise. À travers des séances alliant théorie et mise en pratique avec le langage Python (via des notebooks interactifs), les participant·e·s apprendront à :

  • Exploiter er analyser automatiquement des données textuelles ;

  • Réaliser des analyses lexicales et syntaxiques (lemmatisation, étiquetage,...) ;

  • Explorer des textes via des techniques d’extraction d'information et de classification ;

  • Visualiser les résultats sous forme de tableaux, nuages de mots, ou graphes de relations ;

  • Développer une lecture critique des outils d’IA et de leurs effets sur l’interprétation.

Les cas étudiés incluent des corpus littéraires, historiques, épistolaires ou médiatiques, en français et anglais. Le cours met l’accent sur les enjeux éthiques, épistémologiques et interprétatifs propres aux SHS lorsqu’on mobilise des méthodes d’automatisation.

En fin de semestre, un mini-projet permettra de concevoir une exploration numérique d’un corpus choisi, articulant question de recherche, pipeline d’analyse, et visualisation.

Bibliographie

  • Bender, Emily M. et al., On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? , FAccT 2021

  • Jurafsky, Daniel & Martin, James, Speech and Language Processing, 3e édition, draft en ligne : https://web.stanford.edu/~jurafsky/slp3/ – référence majeure.

  • Kurdi, Mohamed Zakaria, Traitement automatique des langues et linguistique informatique, Vol. 1, ISTE Éditions, 2017.

  • Tanguy, Ludovic, « Approches statistiques et linguistiques : quelles complémentarités pour le TAL ? », Traitement automatique des langues, 2005.