- Recherche,
-
Partager cette page
[CLLE] Règles de grammaires et corpus annotés - Autour du projet Autogramm (S. Herrera et S. Kahane)
Intervenants : Santiago Herrera et Sylvain Kahane (Modyco, Université Paris Nanterre & CNRS)
Résumé : Les treebanks ou corpus arborés annotés, autrefois si utile comme moyen pour développer des outils de Traitement Automatique de Langues (TAL), restent toujours un élément majeur pour la linguistique théorique et la documentation des langues. Dans cette perspective, nous présenterons un des usages que nous faisons des treebanks, celui de l'extraction automatique d'observations quantitatives et de motifs grammaticaux. Ce questionnement sur l’induction de grammaires descriptives à partir de corpus annotés est au centre du projet ANR Autogramm (Modyco, Lacito, Lisn, Loria-Sémagram). Nous discuterons de comment formaliser une règle de grammaire et de son application à des corpus annotés. Nous insisterons plus précisément sur l'extraction de règles de grammaire quantifiées et ordonnées caractérisant un corpus et à travers lui une langue ou un état de langue. Nous montrerons également les limites de telles approches.