Personal tools
You are here: Home Members bdiarra Mes événements Soutenance de thèse de Carlo ABI CHAHINE
 
Document Actions

Soutenance de thèse de Carlo ABI CHAHINE

by Brigitte DIARRA last modified 07/10/2011 09:52

Carlo ABI CHAHINE a le plaisir de vous inviter à sa soutenance de thèse intitulée : "Indexation et recherche conceptuelles de documents pédagogiques guidées par la structure de Wikipédia ". La soutenance aura lieu le vendredi 14 Octobre à 14 h, amphi Marie Curie à l'INSA de Rouen. A la suite de la soutenance, vous êtes tous chaleureusement invités au pot en salle de réunion LITIS à l'INSA au premier étage (salle AR111).

What PHD defense
When 14/10/2011
from 14:00 to 17:00
Where INSA de Rouen, amphi BRJ02 Marie Curie, DU
Add event to calendar vCal
iCal

Le jury est  composé de :

Nathalie Aussenac-Gilles, Directeur de recherche au CNRS, IRIT, Toulouse, rapporteur

Yolaine Bourda, professeur des universités, E3S, SUPELEC, Paris, rapporteur

Monique Grandbastien, professeur des universités, LORIA, Nancy, rapporteur

Jean-Pierre Pécuchet, professeur des universités, LITIS, INSA Rouen, directeur de thèse

Nathalie Chaignaud, maître de conférence, LITIS, INSA Rouen, co-encadrant

Jean-Philippe Kotowicz, maître de conférence, LITIS, INSA Rouen, co-encadrant


Résumé de la thèse :

 

 

Cette thèse propose un système d’aide à l’indexation et à la recherche de documents pédagogiques fondé sur l’utilisation de Wikipedia.

L’outil d’aide à l’indexation permet de seconder les documentalistes dans la validation, le filtrage et la sélection des thématiques, des concepts et des mots-clés issus de l’extraction automatique d’un document. En effectuant une analyse des données textuelles d'un document, nous proposons au documentaliste une liste de descripteurs permettant de représenter et discriminer le document. Le travail du documentaliste se limite alors à une lecture rapide du document et à la sélection et suppression des descripteurs suggérés par le système pour rendre l'indexation homogène, discriminante et exhaustive.

Le corpus de documents d’étude est extrait des documents UNIT (l’une des Universités Thématiques dédiée à l'Ingénierie et aux Technologies) dont les domaines traités sont variés. Nous utilisons les données présentes dans Wikipédia pour leurs caractéristiques à la fois généralistes et semi-spécialisées, garanties par des communautés sérieuses. Les données et la structure de Wikipédia fournissent une base de connaissances hiérarchiquement semi- structurée utilisée pour extraire les descripteurs d'un document. Le modèle de représentation du document est un graphe orienté acyclique construit avec les termes du document et les relations hiérarchiques de la base de connaissances. Les nœuds de ce graphe (les titres des articles et des catégories de Wikipédia) sont appelés « concepts ». 

Pour choisir les « concepts importants » du graphe permettant l'indexation, nous introduisons trois propriétés (l’« occurrence terminologique », la « généricité conceptuelle » et la « diversité conceptuelle ») à partir desquelles nous construisons une heuristique de cotation conceptuelle des concepts du graphe. Ceux-ci permettent trois opérations :

l'extraction des termes importants du document,

l'extraction des thématiques du document,

et la désambiguïsation des termes polysémiques.

Ce modèle de représentation est aussi utilisé pour la recherche d'information. Pour cela, nous proposons une mesure de similarité entre deux graphes représentant deux documents (extraits ou complets) pour quatre opérations :

la similarité inter-document pour un système de recommandation,

la similarité intra-document pour l'analyse de la structure thématique du document,

la similarité requêtes/documents pour un système de recherche d'information,

 et la désambiguïsation. 

Après avoir réalisé une évaluation objective mettant en concurrence notre approche avec d'autres approches existantes et une évaluation subjective en présentant un prototype interactif à des documentalistes, nous sommes confortés dans l’efficacité de notre approche. L'utilisation de Wikipédia comme vocabulaire contrôlé apporte l'avantage de l'accessibilité et de l'exhaustivité pour notre analyse des documents pédagogiques UNIT. De nombreuses améliorations sont envisageables, notamment un prétraitement exploitant des approches TAL pour l'extraction des termes du document ou encore l'utilisation de méthodes d'apprentissage pour une sélection des descripteurs plus homogène avec les documents déjà indexés par les documentalistes ayant utilisé l'outil.

« June 2013 »
Su Mo Tu We Th Fr Sa
1
2345678
9101112131415
16171819202122
23242526272829
30
 

Powered by Plone CMS, the Open Source Content Management System

This site conforms to the following standards: