Vous êtes ici :
- Unité de recherche
- CY LT2D
Chaire professeur junior
Dans les sciences humaines et sociales, les méthodes numériques sont de plus en plus utilisées comme outils pour construire, améliorer et diffuser des ressources de recherche, notamment en sciences du langage. Dans ce cadre, le projet de CPJ « Ressources numériques en SHS » poursuit deux objectifs : la valorisation des ressources linguistiques existantes au laboratoire LT2D et la création de nouvelles ressources pour répondre à des besoins de recherche.
La valorisation des ressources existantes a nécessité le développement d'outils et de méthodes visant à améliorer leur accessibilité et leur facilité d'utilisation. Cela inclut la création de ressources génériques pour la création et le partage des données, qui pourront servir de référence pour des projets futurs. Un vade-mecum des pratiques de valorisation des données langagières a été conçu et une étude sur la documentation des données a été menée. Des ressources (méta)lexicographiques du LT2D ont été valorisées : le Petit Larousse 1905 numérisé a été remis en ligne et le Musée virtuel des dictionnaires a été entièrement repensé pour devenir une plateforme conviviale et extensible utilisant une base de données et Omeka S.
La création de nouvelles ressources s'est concentrée sur le développement de corpus linguistiques et d'outils informatiques. AliGator, un générateur automatique de jeux de mots, permet de montrer comment les approches algorithmiques peuvent enrichir les ressources linguistiques tout en explorant la créativité informatique. Afin de poursuivre les recherches sur la (co)référence dans le corpus Democrat, un nouvel outil permet de calculer les cooccurrences pour les mentions dans les chaînes de référence, tandis que des mesures quantitatives ont été appliquées pour faciliter une analyse linguistique fine. Un corpus à propos de Cergy-Pontoise est actuellement en cours de développement, avec un sous-corpus initial conçu pour étudier les représentations territoriales à travers les communications médiatisées par Internet. Un autre corpus, basé sur des publications sur les réseaux sociaux, permet d'étudier le phraséologisme français « t'as peur », en l'absence de corpus existant approprié.
Ces initiatives démontrent comment la linguistique et les méthodes informatiques peuvent être combinées pour créer des ressources et des outils innovants et des cadres de collaboration durables.