Projet LaCAS-IA lauréat SESAME 2024
Le dispositif « Soutien aux Équipes Scientifiques pour l’Acquisition de Moyens Expérimentaux (SESAME) » permet de cofinancer des équipements scientifiques nécessaires au fonctionnement des laboratoires de recherche publics franciliens pour mener des projets d’envergure. Sur 34 dossiers reçus, le projet LaCAS-IA fait partie des 12 lauréats.
LaCAS-IA vise à intégrer l'IA à la plateforme LaCAS (créée, en partie, dans le cadre d'un précédent projet SESAME 2020) pour automatiser le moissonnage et la classification des métadonnées, entraîner des modèles linguistiques sur des langues rares, et offrir des outils de traitement et de recherche avancés.
Les axes techniques du projet LaCAS-IA
Ce financement va permettre l'acquisition de processeurs graphiques, ou GPU (de l'anglais Graphics Processing Unit) et de baies de stockage, permettant d'optimiser les capacités de calcul et de gestion des données, deux axes techniques majeurs du projet.
Le stockage optimal de données
Les projets comme LaCAS nécessitent de gérer d’importants volumes de données (corpus linguistiques, bases de données de textes ou d’enregistrements audio, etc.). La gestion efficace de ces données est donc un enjeu crucial sur lequel repose l’ensemble des autres déploiements du projet.
Le stockage optimal de données
Les projets comme LaCAS nécessitent de gérer d’importants volumes de données (corpus linguistiques, bases de données de textes ou d’enregistrements audio, etc.). La gestion efficace de ces données est donc un enjeu crucial sur lequel repose l’ensemble des autres déploiements du projet.
Les baies de stockage nouvellement acquises permettront ainsi :
- Le stockage rapide et massif de grands ensembles de données accessibles rapidement
- Le stockage en haute qualité des données audiovisuelles et visuelles
- Le développement d’API (interface de programmation) spécifiques, permettant par exemple la transcription et l’indexation automatique des interviews dans le flux audiovisuel
- La sauvegarde et la récupération des données, évitant des pertes irréparables pour la recherche et assurant la continuité du projet
L’automatisation des procédés
Les domaines comme la traduction automatique, l’analyse sémantique ou la génération de langage naturel, nécessitent des ressources de calcul importantes. Les GPU réduisent largement le temps nécessaire à la réalisation de ces procédés.
L’automatisation des procédés
Les domaines comme la traduction automatique, l’analyse sémantique ou la génération de langage naturel, nécessitent des ressources de calcul importantes. Les GPU réduisent largement le temps nécessaire à la réalisation de ces procédés.
En combinant les GPU pour les calculs et des baies de stockage pour la gestion des données, l'équipe LaCAS va pouvoir entraîner des modèles de deep learning et analyser d’importantes bases de données en temps réel. L’enjeu est de produire des résultats précis plus rapidement, d’accélérer le processus de recherche, et d’améliorer l’efficacité globale des projets.
Les procédés pouvant être automatisés :
- Le moissonnage des métadonnées à partir des archives ouvertes et des entrepôts publics nationaux et européens
- La classification des métadonnées dans LaCAS data
- La traduction des contenus par des modèles dédiés
- La transcription et le sous-titrage de vidéos par reconnaissance vocale
- L’indexation linéaire des flux vidéos par reconnaissance d’images
Les axes politiques du projet LaCAS-IA
Les optimisations techniques, en plus de renforcer la crédibilité du projet LaCAS dans un domaine hautement compétitif (IA et TAL), contribuent de manière décisive aux ambitions politiques du projet. La science ouverte et la préservation des langues rares sont deux axes essentiels, qui distinguent le projet d’autres initiatives scientifiques ou technologiques semblables et en font un acteur incontournable de la valorisation des études aréales en France.
Les objectifs de science ouverte
Les baies de stockage centralisées permettent de partager des ressources de données plus facilement entre les chercheurs et collaborateurs, améliorant ainsi la coopération internationale et le développement de nouvelles recherches basées sur des corpus ouverts.
Les objectifs de science ouverte
Les baies de stockage centralisées permettent de partager des ressources de données plus facilement entre les chercheurs et collaborateurs, améliorant ainsi la coopération internationale et le développement de nouvelles recherches basées sur des corpus ouverts.
Les GPU permettront quant à elles de développer des modèles complexes (comme des modèles de deep learning pour le traitement automatique des langues) qui pourront ensuite être mis à disposition sous forme d’outils open source. Ces modèles pourraient être utilisés et améliorés par la communauté scientifique, renforçant ainsi le cercle vertueux de la science ouverte.
À terme, le projet LaCAS-IA doit permettre de proposer un vaste corpus de données et d’outils à un public plus large (société civile, entreprises, autres.), et un accès ouvert aux informations et connaissances sur les différentes aires du monde.
La préservation des langues rares
Les modèles de langage à grande échelle (LLM) émergent comme des catalyseurs puissants dans la préservation et l’étude des langues rares. Ces outils d’intelligence artificielle, capables de traiter et de générer du langage humain avec une précision remarquable, offrent une lueur d’espoir pour les quelques 2 500 langues menacées dans le monde.
La préservation des langues rares
Les modèles de langage à grande échelle (LLM) émergent comme des catalyseurs puissants dans la préservation et l’étude des langues rares. Ces outils d’intelligence artificielle, capables de traiter et de générer du langage humain avec une précision remarquable, offrent une lueur d’espoir pour les quelques 2 500 langues menacées dans le monde.
Les GPU permettront d’entraîner des modèles capables de travailler sur des langues pour lesquelles peu de données existent. Les algorithmes de traitement automatique des langues à faible ressource (low-resource languages) nécessitent une grande puissance de calcul pour gérer les particularités linguistiques de ces langues.
Dans le cadre de la préservation linguistique, il est souvent nécessaire de traiter non seulement des données textuelles, mais aussi des enregistrements audio et vidéo (interviews, conversations, récits oraux). Les GPU sont particulièrement adaptés à l’analyse de ce type de données multimodales, facilitant ainsi la transcription automatique, l’annotation et l’analyse des données orales pour les langues menacées.