L'objectif du club de lecture ML4DH est de se tenir au courant des derniers développements dans ce domaine interdisciplinaire et d'évaluer de manière critique les recherches publiées. Au cours des réunions, les participants résumeront un article et discuteront ensuite de ses forces, de ses faiblesses et de ses implications pour les recherches à venir.
Le club se réunit toutes les deux semaines pour discuter d'articles scientifiques récents en rapport avec ces sujets. Il est organisé avec le soutien de SCAI, CERES et ObTIC.
En plus des discussions sur les articles, le club organisera d'autres activités pour promouvoir échanges et collaborations. Ces activités pourraient inclure par exemple :
- Des présentations par des membres du club ou des invités sur leurs projets de recherche actuels ;
- Des ateliers ou des séances de formation pour acquérir de nouvelles compétences ou techniques liées à l'apprentissage automatique et aux humanités numériques ;
- Des projets numériques ou des hackathons pour explorer de nouvelles applications de l'apprentissage automatique dans les humanités ;
- Des conférences par des experts invités.
Pour chaque séance, on peut présenter trois lectures, chacune de 30 minutes maximum (y compris les discussions). Un(e) membre du club proposera à l'avance un article scientifique à présenter. Il ou elle pourra ensuite détailler les points suivants :
- Situation du travail présenté par rapport à l'état de l'art ;
- Méthodologie, outils et ressources employés ;
- Résultats obtenus.
Les échanges peuvent éventuellement apporter un regard critique vis-à-vis de la recherche présentée.
9 février 2023 : Ljudmila Petkovic "Détection de phénomènes intertextuels"
Résumé : Il est désormais possible de détecter automatiquement, avec des techniques inspirées de la détection de plagiats, des fragments textuels évoquant, du fait de leurs ressemblances, des citations ou des réutilisations. Cependant, lorsque la taille des corpus est conséquente, le nombre de similitudes détectées est si grand qu’on s’y perd. De plus, des expressions figées ou des clichés enfouissent les reprises les plus intéressantes. De façon analogue, on peut repérer, sur les disques durs d’écrivains, des fichiers très semblables correspondant soit à des duplications, soit à des états différents d’un même écrit. Là encore, le nombre de fichiers semblables apparaît vertigineux. Pour surmonter ces difficultés, nous proposons de représenter les grandes masses de similitudes textuelles sur des graphes et de tirer parti des opérateurs mathématiques sur les graphes, en particulier de la détection de « communautés » ou d’arbres couvrant minimaux, pour les regrouper de manière significative.
Pour retrouver les prochains sujets et, si vous le souhaitez, vous inscrire en tant que contributeur, rendez-vous sur le document partagé.
Entrée libre pour ceux qui souhaitent seulement écouter.