Le projet « OTELO »
La langue, qu’il s’agisse de sa variété écrite ou orale, est intrinsèquement ambiguë et polysémique. Les linguistes aspirent à rendre compte de cette ambiguïté dans le but de comprendre son fonctionnement.
Les chercheurs en sciences et technologies de l’information sont également concernés par la formalisation de la variation linguistique dans des buts applicatifs. Les travaux qui s’intéressent à une description exhaustive de la langue sont rares car ils impliquent des démarches venant de plusieurs communautés scientifiques. Lauréat de l’appel à projets excellence lancé par l’Institut DATAIA et la MSH Paris-Saclay en 2020, OTELO propose une analyse multi-niveaux de la langue parlée à partir de grands corpus oraux, segmentés et annotés automatiquement.
Segmentées en phones et mots, ces données seront ensuite enrichies avec des connaissances concernant le statut grammatical des mots, leurs relations syntaxiques et sémantiques en contexte. Les résultats attendus concernent :
-
Le rôle de l’information phonétique dans la désambiguïsation des homophonies contextuelles impliquant des entités ;
-
L’impact des connaissances linguistiques de « haut niveau » (grammaticales, syntaxiques, sémantiques) dans la diffusion des motifs de variation phonétique au sein des mots d’une langue.
OTELO est porté par Ioana Vasilescu, chercheuse en linguistique au LIMSI, et Fabian Suchanek, chercheur en informatique à Télécom Paris. Le travail de F. Suchanek, est internationalement connu pour la création de la base de connaissances YAGO, qui est utilisée entre autres dans le système IBM Watson. Sa recherche se focalise sur l’extraction des entités et faits du texte en langage naturel, et sur la structuration de ces données dans une base de connaissances. Un des aspects abordés est l’analyse de ces bases de connaissances, la fouille de règles, et la détermination de complétude. Ses travaux sont soutenus par une Chaire IA financée par l’ANR.
Au LIMSI l’analyse de la langue écrite et orale est au cœur du Département Sciences et Technologies des langues. Au sein de ce département, I. Vasilescu et ses collègues du groupe « Traitement du Langage Parlé » sont à l’origine de nombreuses initiatives SHS portant sur l’analyse de la variation sonore à partir de grands corpus multilingues. Les analyses s’appuient sur des données massives explorées avec des outils automatiques. Les travaux de I. Vasilescu, soutenus par la MSH Paris-Saclay, ont mis en avant l’intérêt de cette méthodologie et des grands corpus, pour l’étude de la variation synchronique en lien avec l’histoire des langues. Les chercheurs du LIMSI sont également à l’origine d’une première démarche conjointe impliquant une analyse multi-niveaux des données orales en lien avec les erreurs des systèmes automatiques, dans le cadre du projet ANR VERA (adVanced ERror Analysis) (Santiago et al., 2015 ; Goryainova et al., 2014).
Contacts : Fabian Suchanek (Télécom Paris) | Ioana Vasilescu (LIMSI)