Soutenance de thèse de Carlo ABI CHAHINE
Carlo ABI CHAHINE a le plaisir de vous inviter à sa soutenance de thèse intitulée : "Indexation et recherche conceptuelles de documents pédagogiques guidées par la structure de Wikipédia ". La soutenance aura lieu le vendredi 14 Octobre à 14 h, amphi Marie Curie à l'INSA de Rouen. A la suite de la soutenance, vous êtes tous chaleureusement invités au pot en salle de réunion LITIS à l'INSA au premier étage (salle AR111).
| What | PHD defense |
|---|---|
| When |
14/10/2011 14:00
14/10/2011 17:00
14/10/2011 from 14:00 to 17:00 |
| Where | INSA de Rouen, amphi BRJ02 Marie Curie, DU |
| Add event to calendar |
|
Le jury est composé de :
Nathalie Aussenac-Gilles, Directeur de recherche au CNRS, IRIT, Toulouse, rapporteur
Yolaine Bourda, professeur des universités, E3S, SUPELEC, Paris, rapporteur
Monique Grandbastien, professeur des universités, LORIA, Nancy, rapporteur
Jean-Pierre Pécuchet, professeur des universités, LITIS, INSA Rouen, directeur de thèse
Nathalie Chaignaud, maître de conférence, LITIS, INSA Rouen, co-encadrant
Jean-Philippe Kotowicz, maître de conférence, LITIS, INSA Rouen, co-encadrant
Cette thèse propose un système d’aide à l’indexation et à la recherche de documents pédagogiques fondé sur l’utilisation de Wikipedia.
L’outil d’aide à l’indexation permet de seconder les documentalistes dans la validation, le filtrage et la sélection des thématiques, des concepts et des mots-clés issus de l’extraction automatique d’un document. En effectuant une analyse des données textuelles d'un document, nous proposons au documentaliste une liste de descripteurs permettant de représenter et discriminer le document. Le travail du documentaliste se limite alors à une lecture rapide du document et à la sélection et suppression des descripteurs suggérés par le système pour rendre l'indexation homogène, discriminante et exhaustive.
Le corpus de documents d’étude est extrait des documents UNIT (l’une des Universités Thématiques dédiée à l'Ingénierie et aux Technologies) dont les domaines traités sont variés. Nous utilisons les données présentes dans Wikipédia pour leurs caractéristiques à la fois généralistes et semi-spécialisées, garanties par des communautés sérieuses. Les données et la structure de Wikipédia fournissent une base de connaissances hiérarchiquement semi- structurée utilisée pour extraire les descripteurs d'un document. Le modèle de représentation du document est un graphe orienté acyclique construit avec les termes du document et les relations hiérarchiques de la base de connaissances. Les nœuds de ce graphe (les titres des articles et des catégories de Wikipédia) sont appelés « concepts ».
Pour choisir les « concepts importants » du graphe permettant l'indexation, nous introduisons trois propriétés (l’« occurrence terminologique », la « généricité conceptuelle » et la « diversité conceptuelle ») à partir desquelles nous construisons une heuristique de cotation conceptuelle des concepts du graphe. Ceux-ci permettent trois opérations :
l'extraction des termes importants du document,
l'extraction des thématiques du document,
et la désambiguïsation des termes polysémiques.
Ce modèle de représentation est aussi utilisé pour la recherche d'information. Pour cela, nous proposons une mesure de similarité entre deux graphes représentant deux documents (extraits ou complets) pour quatre opérations :
la similarité inter-document pour un système de recommandation,
la similarité intra-document pour l'analyse de la structure thématique du document,
la similarité requêtes/documents pour un système de recherche d'information,
et la désambiguïsation.
Après avoir réalisé une évaluation objective mettant en concurrence notre approche avec d'autres approches existantes et une évaluation subjective en présentant un prototype interactif à des documentalistes, nous sommes confortés dans l’efficacité de notre approche. L'utilisation de Wikipédia comme vocabulaire contrôlé apporte l'avantage de l'accessibilité et de l'exhaustivité pour notre analyse des documents pédagogiques UNIT. De nombreuses améliorations sont envisageables, notamment un prétraitement exploitant des approches TAL pour l'extraction des termes du document ou encore l'utilisation de méthodes d'apprentissage pour une sélection des descripteurs plus homogène avec les documents déjà indexés par les documentalistes ayant utilisé l'outil.


