Doctorants de l'équipe ERTIM

L'Équipe de Recherche Textes, Informatique, Multilinguisme (ERTIM) est une équipe de recherche, unité propre de l'Inalco, créée en 2005, qui travaille essentiellement en Traitement Automatique des Langues (TAL, ou NLP en anglais pour Natural Language Processing).

Au sein de l'équipe ERTIM, la recherche doctorale se situe au carrefour des problématiques traditionnelles du laboratoire : le multilinguisme, l'ingénierie linguistique, le document électronique décliné sur différents supports (web, mobile, etc.).

La plupart des doctorants actuellement en thèse sont financés dans leurs travaux par des entreprises partenaires (ARISEM, AMI Software) par l'intermédiaire de bourses CIFRE, par des contrats de recherche ou des financements type ATER.

Vous trouverez ci-dessous les travaux des étudiants en doctorant actuellement en thèse au sein de l'équipe ERTIM ainsi que les thèses des doctorants ayant déjà soutenu.

Doctorants

Samuel Chakmakjian - La transcription automatique de l'arménien : enjeux phonétiques et...

La transcription automatique de l'arménien : enjeux phonétiques et phonologiques

Samuel Chakmakjian

Date de soutenance prévue : 2025
Codirection de Recherche : Damien Nouvel et Anaïd Donabedian (SeDyL)

Résumé :

Malgré les progrès majeurs réalisés au niveau mondial en matière d’intelligence artificielle et de Reconnaissance automatique de la parole pour certaines langues du monde, il n’existe pas de modèle de reconnaissance automatique de la parole répandue ni de logiciel de reconnaissance vocale facilement disponible pour l’arménien. Ce projet répondra à la nécessité de systématiser le premier maillon de la chaîne qui constitue le traitement des langues (TAL) portant sur les données orales : l’entrée phonétique.

Notre premier objectif est de fournir une description phonétique basée sur les études instrumentales de l'arménien moderne avec tous ses paramètres de variation, qui soit exploitable par des linguistes informaticiens et ingénieurs des langues travaillant sur le traitement automatique des corpus arméniens.

Le deuxième objectif de ce projet est de compléter la chaîne, en passant par une transcription phonologique à une transcription en orthographe arménienne. Ce faisant, il sera nécessaire de déterminer s’il est possible de prendre un modèle phonologique commun pour les deux variantes principales de la langue. La possibilité d'une telle unification reste une grande question dans le domaine de la linguistique arménienne qui n'a pas encore été résolue.

En s'appuyant sur la richesse des corpus oraux (recueillis et produits par SeDyL, Labex EFL, IRISA, EANC), nous visons à établir un lien entre la recherche expérimentale et théorique en phonétique et phonologie de l'arménien, et à fournir et tester un modèle avec des algorithmes et réseaux de neurones (Modèle de Markov caché, wav2vec). Nos résultats auront une importance à la fois pour la linguistique arménienne et aussi pour des applications pratiques.

Manying Zhang - Adaptation d'agents conversationnels : génération automatique de réponses

Adaptation d'agents conversationnels : génération automatique de réponses personnalisées

Manying Zhang

Date de soutenance prévue : 2025
Co-direction de Recherche : Mathieu Valette et Damien Nouvel

Résumé :

Un agent conversationnel, aussi appelé système de dialogue, est un système computationnel qui consiste à interagir avec des humains par la langue naturelle. En prenant le message envoyé par l'utilisateur comme entrée, l'agent produit une réponse en sortie. Les agents conversationnels sont largement utilisés dans le secteur industriel pour différents usages : assistance technique, service client, psychothérapie, assistant personnel sur mobile, etc. La génération automatique de réponse, initialement réalisée par une architecture de chaîne de traitement, fonctionne de plus en plus à l'aide d'un seul module qui réalise tous les traitements de bout en bout (en anglais, end-to-end). Cette dernière architecture est rendue de plus en plus compétitive par les récents progrès de l'apprentissage profond et des réseaux de neurones.
Une problématique importante de l'agent conversationnel end-to-end est celle de générer des réponses pertinentes et diversifiées. Dans notre travail, nous nous concentrons sur la perspective de la personnalisation, d'un côté selon les différents utilisateurs pour leur proposer une réponse plus personnalisée, plus spécifique et moins vague, de l'autre côté pour conférer à l'agent conversationnel lui-même une personnalité cohérente.Deux enjeux sont à prendre en compte. D'une part, comment profiter de données publiques et générales pour s'adapter aux scènes personnalisées ? D'autre part, comment intégrer l'historique récent de la conversation pour améliorer la réponse actuelle ? Le projet prendra éventuellement l'approche de l'apprentissage par transfert (en anglais, transfer learning) et exige une enquête de méthodes hybrides pour compléter les end-to-end. Le travail sera fait en français, anglais et chinois.

Jinyuan Xu - Détection automatique de l’humeur dépressive sur les réseaux sociaux chinois

Détection automatique de l’humeur dépressive sur les réseaux sociaux chinois. Élaboration de modèles expérimentaux à base de descripteurs sémantiques

Jinyuan Xu

Date de soutenance prévue : 2025
Co-direction de Recherche : Mathieu Valette

Résumé :

Cette thèse a pour objectif de réaliser un modèle pour la détection automatique de l'humeur dépressif et l’évolution de l’humeur vers la dépression sur les réseaux sociaux chinois. Nous utiliserons a priori la méthode textométrique pour extraire et analyser les caractères sémantiques et implémentons les tâches de détection au moyen d’algorithme d'apprentissage automatique. Dans un premier temps, nous collecterons les données textuelles en chinois relatives aux paroles dépressives. Après le prétraitement de ces données provenant de réseaux sociaux chinois, nous leur catégoriserons en niveaux dépressifs différents et construirons un jeu de données diachronique. Avec le jeu de données réalisé, nous nous focalisons sur l'analyse et extraction des caractéristiques sémantiques par genres textuels et type d’humeur dépressif en utilisant des outils d’analyse statistique et diachronique des données textuelles. Puis, nous comparerons et sélectionnerons les modèles d'apprentissage automatique les plus adaptés pour notre tâche, en y incorporant les caractéristiques sémantiques identifiées. Notre espoir est de pouvoir élaborer une application pour détecter automatiquement cette humeur sur les réseaux sociaux chinois.

Docteurs

(2025) Yizhou Xu - Détection de nouveautés sur les réseaux sociaux

Détection de nouveautés sur les réseaux sociaux

Yizhou Xu

Thèse soutenue le 22 janvier 2025
Co-direction de Recherche : Frédérique Segond et Kata Gabor

Résumé :

À l'ère de l'explosion de l'information, l’internaute, se trouvant régulièrement face à un ensemble volumineux de données textuelles disponibles sur Internet, devra parcourir des piles de pages similaires portant sur le même sujet pour trouver quelques « informations nouvelles », ce qui met en exergue la nécessité de détecter et d’extraire automatiquement des nouveautés. La détection de nouveautés consiste à récupérer des éléments qui n’ont pas apparu auparavant et qui sont inconnus et originaux par rapport aux références pré-déterminées.

Les réseaux sociaux, tels que Twitter et Facebook, deviennent de plus en plus importants en tant que sources majeures de ces nouveautés : les utilisateurs partagent, discutent et suivent des actualités sur ces plateformes ; les entreprises utilisent ces plateformes pour lancer de nouveaux produits. Détecter automatiquement des nouveautés sur les réseaux sociaux est ainsi une tâche essentielle pour les systèmes de surveillance ou d’analyse dans de nombreux domaines, et parmi eux l’intelligence économique et l’intelligence dans le domaine de la défense et de la sécurité.

Cette thèse, réalisée chez Bertin IT, vise donc à d’élaborer des outils et des méthodes permettant de détecter et d’extraire automatiquement les nouveautés dans les textes provenant des réseaux sociaux. Dans cette étude, nous aborderons différents aspects de cette tâche (nouvelles entités, nouvelles relations ou nouveaux événements) et proposerons solutions pour différents scénarios d’applications (l’intelligence économique et l’intelligence dans le domaine de la défense et de la sécurité).

(2024) Johanna Cordova - Développement d'outils TAL pour une variété de quechua

Développement d'outils TAL pour une variété de quechua

Johanna Cordova

Date de soutenance prévue : 18 décembre 2024
Co-direction de Recherche : Damien Nouvel et César Itier

Résumé :

Les langues quechua constituent la famille de langue amérindienne comptant le plus grand nombre de locuteurs natifs. Au Pérou, selon le recensement de 2017, 13,9 % de la population a le quechua pour première langue et environ 20 % le parle. Pourtant, elle est presque totalement absente des usages numériques. En traitement automatique (TAL), c’est une langue peu dotée, avec une forte disparité de ressources selon la variété de quechua considérée. L’objectif de cette thèse est de développer un ensemble d’outils fondamentaux pour le traitement automatique d’une variété du quechua central, le quechua ancashino, parlé par environ 400 000 personnes (mais en danger d’extinction d’après la classification de l’UNESCO). Ce processus comporte trois étapes : la collecte de corpus oraux et écrits et la numérisation des ressources disponibles dans cette variété (dictionnaires, recueils de contes et de récits), l’implémentation d’un analyseur morphologique, et l’élaboration d’un corpus arboré (treebank). Les ressources développées seront valorisées à travers des applications telles qu’un correcteur orthographique et/ou un aligneur pour les corpus parallèles quechua-espagnol. Dans un contexte global de valorisation des langues originaires et alors que d’ambitieuses politiques liées aux droits linguistiques sont en cours de déploiement dans les pays de l’aire andine, la présence du quechua dans les technologies constituerait un important levier pour renforcer sa pratique et faciliter son enseignement.

(2024) Boyu Niu - Classification automatique des consommateurs selon leur personnalité...

Classification automatique des consommateurs selon leur personnalité et leurs valeurs exprimées à partir du discours spontané issu des réseaux sociaux dans le domaine du parfum

Boyu Niu

Thèse soutenue le 23 septembre 2024
Directrice de Recherche : Frédérique Segond

Résumé :

Cette thèse CIFRE sera réalisé au sein de l'ER-TIM et de l'équipe Consumer & Sensory Innovation de l'entreprise International Flavors & Fragrances Inc. (IFF) sous la direction de Dr Frédérique SEGOND.

Pendant la réalisation de la thèse, nous allons implémenter un système capable de détecter des valeurs de la personnalité à partir du discours spontané des consommateurs des parfums et de classifier ceux-là. Les valeurs ont été inspirées des études de Schwartz (1996, 2003, 2006). Pour implémenter ce système, nous allons utiliser des techniques dans le domaine du traitement automatique du langage naturel (TALN), en s'appuyant sur des techniques psycholinguistique et sociolinguistique. Après l'implémentation, nous ferons une campagne d'évaluation sur la performance du système, avant de le mettre en application pour que ce soit fonctionnel pour l'entreprise.

Plus concrètement, les sous-domaines du TALN que nous allons utiliser comprennent l'analyse des styles, l'analyse des sentiments, la détection du sarcasme, l'extraction de thématique, etc.

Pour commencer, nous allons étudier les connaissances d'IFF sur les consommateurs : serait-il possible de transformer ces connaissances en des outils du TALN pour que ces connaissances puissent être appliquées sur des textes en langage naturel ?

Il est aussi l'occasion de poser la question si les valeurs de personnalité de Schwartz peuvent être détectées à travers le langage naturel, et la réalisation langagière de ces valeurs correspondrait-elle à la description de celles-ci ? Serait-il possible que nous trouvions de nouvelles valeurs pendant notre recherche, plus ou moins spécifiques au monde des parfums ?

(2023) Jennifer Lewis-Wong - Fréquence lexicale et lisibilité de textes en L2...

Fréquence lexicale et lisibilité de textes en L2 : une étude comparative de textes birmans et anglais

Jennifer Lewis-Wong

Thèse soutenue le 27 janvier 2023
Codirection de Recherche : San San Hnin Tun et Mathieu Valette

Résumé :

Pour les apprenants comme pour les enseignants, les informations sur la fréquence lexicale des mots d’un texte, son profil lexical, permettent d’évaluer la difficulté relative des vocables à l’intérieur d’un texte. Ces informations peuvent s’utiliser pour calculer un indice de lisibilité, fournissant ainsi un moyen pratique de choisir automatiquement un texte qui correspondrait aux compétences linguistiques de l’apprenant en L2. Nous proposons d’examiner l’apport de la fréquence lexicale à l’évaluation du niveau de difficulté de textes pour les textes en birman. Nous testerons la méthode sur un corpus de textes en anglais déjà classifiés par niveau de difficulté avant de l’appliquer aux textes birmans de façon à avoir une base de comparaison. Ceci nous permettra non seulement d’élaborer une liste de fréquence lexicale de la langue birmane, mais aussi un dispositif qui fournira à la fois le profil lexical d’un texte en birman et un indice de lisibilité indiquant son niveau de difficulté.

(2021) Kevin Deturck - Détection de personnes influentes dans une sélection de médias...

Détection de personnes influentes dans une sélection de médias sociaux

Kevin Deturck

Thèse soutenue le 18 novembre 2021
Codirection de Recherche: Mathieu Valette, Frédérique Segond et Damien Nouvel

Résumé :

Dans cette thèse, nous développerons un cadre théorique pour identifier automatiquement les personnes influentes dans les médias sociaux à partir de leurs manifestations en termes d’interaction avec les autres utilisateurs et de leur profil aux traits particuliers. Globalement, les approches à la détection d’influence se distinguent par le type de données auquel elles s’intéressent : structurées ou non structurées. Le cadre théorique retenu pour notre thèse a la particularité de combiner ces deux types de données pour tenter d’en obtenir la meilleure complémentarité et monter le système le plus performant. Nous traduirons les traits généraux de l’influenceur d’une part en des marqueurs discursifs qui demandent d’analyser des données non structurées comme le texte, d’autre part en des caractéristiques structurelles qui feront appel à des données structurées comme les métadonnées.

Notre thèse s’inscrit dans un contexte de TAL sur le français et les corpus déjà disponibles sont en français, nous travaillerons donc majoritairement sur cette langue. Toutefois, nous veillerons à ce que les modèles implémentés puissent être adaptés dans un contexte multilingue ; les technologies des médias sociaux restent les mêmes quelle que soit la langue des messages.

Nos travaux pourront s’intégrer dans deux projets déjà amorcés à Viseo Technologies : l’un traite de l’enrichissement d’outil CRM (Customer Relationship Management) en y ajoutant les consommateurs les plus influents, l’autre a pour but la détection du recrutement des jeunes par les djihadistes, ajoutant une dimension politico-sociétale à l’application commerciale du projet.

Les médias sociaux sont cruciaux pour le dynamisme des interactions entre leurs utilisateurs et donc l’influence qui peut s’y manifester. Notre projet permettra de mieux appréhender les mécanismes pour la transmission d’information sur ces supports.

(2021) Liyun Yan - Développement des méthodes linguistiques pour la fouille...

Développement des méthodes linguistiques pour la fouille d’opinion en chinois (pour l’application XXX du Systran)

Liyun YAN

Thèse soutenue le 5 juillet 2021
Directeur de Recherche : Mathieu Valette

Résumé :

La fouille d’opinion intéresse à la fois la recherche académique et l’industrie. Son application au chinois apparaît nécessaire compte tenu de la croissance des masses de données sur internet et de l’insuffisance des recherches actuelles sur cette langue, par rapport aux langues européennes par exemple. Dans le cadre de l’entreprise, l’objectif de la fouille d’opinion est de développer des applications avec lesquelles les entreprises ou les clients peuvent obtenir une analyse synthétique des commentaires d’internautes permettant d’identifier leurs états subjectifs relatifs à des événements, objets, personnes, etc.

À partir de l’état de l’art, j’envisage d’adopter les méthodologies qui ont fait leur preuve dans les recherches existantes et d’innover en matière de méthodes linguistiques dans la lignée de travaux de sémantique effectués notamment à l’ERTIM. À travers des expérimentations variées, la solution validée sera intégrée à l’application du l’entreprise Systran dans laquelle je réaliserai ma thèse. Le corpus de l’expérimentation est constitué des commentaires du site Booking qui fournit des services du voyage, des hôtels et des locations en 41 langues, y compris le chinois.

La première étape de mon travail consistera à affiner le programme de recherche et de constituer et normaliser les corpus. La 2e année sera consacrée à l’élaboration d’une méthode ou d’une combinaison de méthodes de fouille d’opinion à base de règles linguistiques. La 3e année sera consacrée à la rédaction de la thèse. Parallèlement, je développerai une application industrielle à partir des méthodes validées.

(2020) Qinran Dang - Analyse textuelle de corpus de discours écologiques relatifs au....

Analyse textuelle de corpus de discours écologiques relatifs au wu mai (brouillard de pollution) en Chine au moyen de méthodes de fouilles de textes

Qinran DANG

Thèse soutenue le 29 juin 2020
Directeur de Recherche : Mathieu Valette

Résumé :

Du fait que la dégradation de l'environnement en Chine liée aux activités industrielles et à l’expansion de l’économie, le mot wù maí (le brouillard de pollution) est, depuis 2008, omniprésent sur les sites web, dans la presse, les réseaux sociaux, les forums, et les blogs, etc. Ce problème de pollution de l'air de Chine a non seulement suscité l’attention des instituts et médias chinois mais aussi celle de la presse occidentale. Notre projet est d'analyser les discours écologiques dans un corpus large et varié pour y relever la diversité des positions idéologiques et de leur expression. Les comparaisons s'effectueront selon les types de sites (institutionnel, médiatiques, informels), d’une part, et selon les contextes idéologiques (chinois ou occidental), d’autre part. Les méthodes d’analyses mettent en œuvre l'analyse statistique des données textuelles (textométrie) et s'appuient sur un fond théorique articulant sémantique textuelle et analyse du discours.

(2019) Bénédicte Diot-Parvaz - Elaboration d’une terminologie localisée...

Elaboration d’une terminologie localisée pour l’aide à l’accès au droit des migrants hindiphones, ourdouphones et pendjabiphones

Bénédicte Diot-Parvaz

Thèse soutenue le 30 novembre 2019
Codirection de Recherche : Annie Montaut et Mathieu Valette

Résumé :

Nul n’est censé ignorer la loi. Il est pourtant souvent difficile de comprendre le droit, discipline à la réputation absconse, surtout lorsqu’on est migrant dans un pays dont on ne maîtrise ni la langue, ni les codes culturels. Concerné par la garantie des droits du justiciable, l’Etat français prévoit la mise à disposition d’interprètes et de traducteurs pour ceux, défendants, plaignants ou victimes, qui ne comprennent pas le français afin de les intégrer au processus judiciaire. Le droit est un domaine technique qui impose un double niveau d’interprétation : heuristique (interprétation des textes) et sociolinguistique (d’une langue et d’un système culturel à l’autre), ce dernier aspect imposant l’adaptation du message pour en faciliter la compréhension par le public. Ce projet de thèse s’inscrit dans la continuité d’un master professionnel TRM et d’un master recherche en sciences du langage ciblant les communautés parlant le hindi, l’ourdou ou le pendjabi afin de leur rendre le droit accessible et faciliter leur intégration. En effet, si les populations venues d’Asie du Sud connaissent un contexte juridique empreint de common law (système anglo-saxon) et de droit coutumier spécifique à chaque religion pour le droit personnel (droit de la famille en général), de nombreux concepts du droit français leur semblent inintelligibles. Quelques pays à forte tradition migratoire dont le Canada ont toutefois développé des ressources et des techniques d’aménagement terminologique ou localisation terminologique. Par un travail de collection et d’étude de corpus du domaine judiciaire ainsi que d’une adaptation de la terminologie tenant compte des facteurs socio-culturels et linguistiques mis en jeux chez ces population migrantes, ce projet vise la production d’un dictionnaire qui servira d’interface entre les populations migrantes concernées et les intervenants sociaux.

(2017) Océane Hô Dinh - Méthodes et outils pour le traitement automatique du vietnamien...

Méthodes et outils pour le traitement automatique du vietnamien - application en humanités numériques : fouille comportementale sur le web social

Océane Hô Dinh

Thèse soutenue le 22 décembre 2017
Directeur de recherche : Mathieu Valette

Résumé :

Cette thèse propose d'adapter et de développer des méthodes et des outils de traitement automatique de la langue vietnamienne, langue peu dotée, pour des applications de fouille de données extraites de forums de discussion sur Internet.

L'objectif est d'outiller au moyen de la linguistique de corpus l'étude des sociétés contemporaines afin d'appréhender les mutations sociétales les plus récentes, telles qu'elles sont rendues perceptibles par les technologies d'information et de communication (TIC).

En ce qui concerne le cadre applicatif, nous nous situons dans le contexte d'un pays en voie de développement et d'ouverture à la globalisation, qui voit sa société évoluer rapidement et nous cherchons à étudier comment la jeunesse vietnamienne s'approprie les TIC comme nouveaux moyens d'expression et de partage de l'information, en mettant en valeur les tensions qu'elle subit entre traditions profondément ancrées et modernité attrayante. Dans ce but, le thème du VIH/SIDA a été choisi pour les nombreux enjeux de société qu'il recouvre (sanitaire et social, conflits générationnels, évolutions des mœurs, etc.) et les différents types de discours qui s'en emparent.

(2016) Zhen Wang - Extraction en langue chinoise d'actions spatio-temporalisées...

Extraction en langue chinoise d'actions spatio-temporalisées réalisées par des personnes ou des organismes

Zhen Wang

Thèse soutenue le 9 juin 2016
Directeur de Recherche : Pierre Zweigenbaum

Résumé :

L'objectif final de cette thèse est l'extraction à partir de textes en chinois provenant du web, d'actions ayant pour agent et/ou pour objet une entité nommée de type personne ou organisme(chinois ou non). on y associe dans la mesure du possible un lien précis(géolocalisable) et un temps précis(date, heure). Pour cela, on doit identifier et extraire les parties de la chaîne de caractères chinois correspondant à des noms propres ou des dates. On doit typer ces entités comme des personnes, des lieux, des organismes, des quantités numériques, des dates/heures. Dans un même texte d'une occurrence à l'autre, on doit identifier une même entité même si elle est écrite de différentes manières. cela demande aussi de résoudre les anaphores. Ensuite il faut identifier l'entité comme étant une personne, un organisme ou un lieu particulier. pour cela on s'appuiera sur des connaissances extérieures (répertoire de lieux, connaissances encyclopédiques structurées, etc.) qui seront mises sous forme d'ontologies. De plus les connaissances associées aux entités dans les différents textes doivent permettre d'une part de compléter certaines informations sur des faits qui sont relatés à différents endroits et aussi d'envisager de distinguer des activités qui ne peuvent être faites par la même personne (par exemple action en même temps en des lieux très distants).

(2015) Pierre Marchal - Acquisition de schémas prédicatifs verbaux en japonais

Acquisition de schémas prédicatifs verbaux en japonais

Pierre MARCHAL

Thèse soutenue le 15 octobre 2015
Directeur de Recherche : Thierry POIBEAU

Résumé :

L'acquisition de connaissances relatives aux constructions verbales est une question importante pour le traitement automatique des langues, mais aussi pour la lexicographie qui vise à documenter les nouveaux usages linguistiques. Cette tâche pose de nombreux enjeux, techniques et théoriques. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement à deux aspects fondamentaux de la description du verbe : la notion d'entrée lexicale et la distinction entre arguments et circonstants. A la suite de précédentes études en traitement automatique des langues et en linguistique nous posons qu'il existe un continuum entre homonymes et monosèmes ; de même nous faisons l'hypothèse qu’il n’y a pas de distinction marquée entre arguments et circonstants. Nous proposons une chaîne de traitement complète pour l'acquisition de schémas prédicatifs verbaux en japonais à partir d'un corpus non étiqueté de textes journalistiques. Cette chaîne de traitement intègre la notion d'argumentalité au processus de création des entrées lexicales et met en œuvre une modélisation de ces deux continuums. La ressource produite a fait l'objet d'une évaluation comparative qualitative, qui a permis de mettre en évidence la difficulté des ressources linguistiques à décrire de nouvelles données, plaidant par là même pour une lexicologie s'inscrivant dans le cadre épistémologique de la linguistique de corpus.

(2014) Nadia Makouar - Sémantique des textes et didactique des langues-cultures...

Sémantique des textes et didactique des langues-cultures : Application à un corpus de discours journalistiques et politiques en arabe moderne et contemporain

Nadia Makouar

Thèse soutenue en 2014
Codirection de Recherche : Mathieu Valette et Driss El-Khattab

Résumé :

Aujourd’hui, les recherches en didactique des langues étrangères s’accordent à dire que les matériaux langagiers authentiques sont indispensables pour accéder à la réalité et aux représentations socio-culturelles véhiculées par la langue en question.

Aussi pouvoir lire et comprendre la langue à partir de ce type de contenus est plus facile grâce aux Technologies de l’Information et de la Communication et notamment par l’intermédiaire des outils d’exploration ciblée des textes pour une interprétation assistée. A partir d’un corpus journalistique et politique en langue arabe moderne et contemporaine et avec les instruments théoriques de la sémantique des textes de François Rastier, l’objectif de cette thèse est de proposer des pistes d’exploitation didactique pour la langue-culture arabe et un accès sémantique des textes numériques via les logiciels de textométrie.
Il s’agit d’évaluer ces propositions pédagogiques et ainsi de donner à des étudiants de niveau intermédiaire et avancé la possibilité d’utiliser des contenus et des outils afin d’améliorer leur apprentissage et leur compétence en compréhension et production écrite de la langue-culture arabe dans une perspective plus globale d’une didactique des textes.

(2014) Mani Ezzat - Passage de données non structurées à des données structurées...

Passage de données non structurées à des données structurées : extraction de relation entre entités à partir de corpus

Mani Ezzat

Thèse soutenue le 06 mai 2014
Directeur de Recherche : Thierry POIBEAU

Résumé :

Le développement des données disponibles sur Internet a considérablement changé le domaine du traitement des langues. Les systèmes qui traitaient, il y a peu encore, quelques phrases isolées, doivent maintenant faire face à des déluges de documents variés. Initié par les conférences MUC ( Message Understanding Conference ) au début des années 90, de nombreux travaux ont porté sur un type d’unités appelées entités nommées. Elles correspondent généralement à l’ensemble des noms propres (nom de personne, nom de lieu, etc…). L’état actuel des technologies montre une maîtrise satisfaisante pour la reconnaissance de séquences isolées, notamment pour les entités nommées et les termes techniques. Ces éléments sont importants pour indexer les textes et aider les analystes à en prendre connaissance. Cependant, ces séquences ne deviennent pleinement significatives que lorsqu’elles sont reliées entre elles. Il est par exemple intéressant de savoir qu’un texte contient des occurrences des mots Google et Youtube ; mais l’analyse devient beaucoup plus intéressante si le système est capable de détecter une relation entre ces deux éléments, voire de la typer comme étant une relation d’achat ( Google ayant acheté Youtube il y a maintenant deux ans).

Le projet Infom@gic, au sein du pôle de Compétitivité Cap Digital, a permis d’explorer différentes techniques de reconnaissance des entités nommées. Ce point est loin d’être complètement maîtrisé : les performances sont très variables selon le type d’entité considéré, le genre du texte à analyser et la granularité des types considérés. Les performances sont toutefois suffisamment robustes pour qu’il soit permis d’aller plus loin vers la détection de relation.

(2014) Aurélien Lauf - Evolution du buzz sur internet - identification, analyse...

Evolution du buzz sur internet - identification, analyse, modélisation et représentation dans un contexte de veille

Aurélien LAUF

Thèse soutenue le 14 octobre 2014
Directeur de Recherche: Mathieu Valette

Résumé :

S'inscrivant principalement dans un contexte de veille informationnelle sur Internet, l'objectif de cette thèse est d'élaborer des outils et des méthodes permettant d'identifier, d'analyser, de modéliser et de représenter le cheminement d'une information circulant sur Internet (le buzz). Ces méthodes sont issues notamment de la linguistique de corpus et de la théorie des graphes.

Il s'agit ici de remonter jusqu'aux sources primaires, ainsi qu'aux sources nécessaires et suffisantes d'une information, d'en dégager des sous-thématiques ainsi que des communautés de discours, et d'analyser les différences sémantiques pouvant apparaitre entre ces sources tout au long du cycle de vie de l'information.

(2013) Gaël Patin - Extraction interactive et non supervisée de lexique en chinois...

Extraction interactive et non supervisée de lexique en chinois contemporain appliquée à la constitution de ressources linguistiques dans un domaine spécialisé

Gaël Patin

Thèse soutenue le 31 janvier 2013
Directeur de Recherche : Pierre Zweigenbaum

Résumé :

Les lexiques sont des ressources indispensables aux systèmes de recherche d'information. ils permettent d'améliorer notablement les résultats des procédés automatiques d'analyse linguistique— étiquetage morpho-syntaxique, interprétation sémantique ou indexation — dans des domaines particuliers. or la constitution de lexiques est confrontée à deux types de difficultés : les unes d'ordre pragmatique, telles que le coût de leur élaboration ou leur réutilisabilité, sont d'une grande importance pour la mise en oeuvre industrielle ; les autres d'ordre théorique, comme la définition de l'unité lexicale dans différentes langues ou la caractérisation des particularitéslexicales d'un corpus spécialisé, sont primordiales pour la pertinence et la validité des résultats. cette confrontation entre intérêt économique et qualitatif est une problématique récurrente dans le milieu de l'entreprise. la recherche scientifique appliquée doit être à même de proposer des solutions pour répondre à cette double exigence. cette étude propose un élément de réponse au problème de l'identification de lexique dans un corpus spécialisé en chinois contemporain via un système de classement de lexies (unités lexicales) candidates. cette étude s'intéresse en particulier au cas du chinois contemporain, langue pour laquelle nous ne disposons que de peu de ressources lexicales.