Modéliser la facilité d’écoute en FLE : vaut-il mieux lire la transcription ou écouter le signal vocal ?

Ozawa, Minami;Souza Wilkens, Rodrigo;Sugiyama, Kaori;François, Thomas
(2024) 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 20 — Location: Toulouse (8.July.2024)

Files

minami.pdf
  • Open Access
  • Adobe PDF
  • 258.74 KB

Details

Authors
  • Ozawa, MinamiUCLouvain
    Author
  • Souza Wilkens, Rodrigoorcid-logoUCLouvain
    Author
  • Sugiyama, KaoriUniversité Seinan Gakuin
    Author
  • Author
Abstract
Le principal objectif de cette étude est de proposer un modèle capable de prédire automatiquement le niveau de facilité d’écoute de documents audios en français. Les données d’entrainement sont constituées d’enregistrements audios accompagnés de leurs transcriptions et sont issues de manuels de FLE dont le niveau est évalué sur l’échelle du Cadre européen commun de référence (CECR). Nous comparons trois approches différentes : machines à vecteurs de support (SVM) combinant des variables de lisibilité et de fluidité, wav2vec et CamemBERT. Pour identifier le meilleur modèle, nous évaluons l’impact des caractéristiques linguistiques et prosodiques ainsi que du style de parole(dialogue ou monologue) sur les performances. Nos expériences montrent que les variables de fluidité améliorent la précision du modèle et que cette précision est différente par style de parole. Enfin, les performances de tous les modèles varient selon les niveaux du CECR.
Affiliations

Citations

Ozawa, M., Souza Wilkens, R., Sugiyama, K., & François, T. (2024). Modéliser la facilité d’écoute en FLE : vaut-il mieux lire la transcription ou écouter le signal vocal ? Actes de JEP-TALN-RECITAL 2024. 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1, p. 549-566. https://hdl.handle.net/2078.5/232793