Outils personnels
Vous êtes ici : Accueil Équipes de recherche Document et Apprentissage
News
21/02/2012
Les membres de notre équipe.

Coordinateur

Permanents

Doctorants

  • François ALLAIN
  • Selma BELGACEM
  • Ahmed BEN SALAH
  • Gautier BIDEAULT
  • Aurélie BOISBUNON
  • Julien DELPORTE
  • Chesner DESIR
  • Roland DONAT
  • David HEBERT
  • Emmanuel HERBERT
  • Abou KEITA
  • Antoine LACHAUD
  • Karima MAHNI
  • Nicolas MARTIN
  • Grégoire MESNIL
  • Yann MOMBRUN
  • Aurélien SAINT REQUIER
  • Simon THOMAS
  • Xilan TIAN
  • Florian YGER
  • Fattah ZIRARI

Post-doctorants

Ingénieurs

  • Philippine BARLAS
  • Alexandre BURNETT
  • Arnaud CITERIN ASI (20%)
  • Fabrice HERTEL ASI (50%)
  • Thomas PALFRAY
  • Pierrick TRANOUEZ IR (100%)

Membres Associés

HAL
06/03/2006

Nos publications

Sur HAL

Navigation
 

Équipe "Document et Apprentissage"

Actions sur le document

Actualités de l'équipe

Le Journal de Rouen à l’ère numérique

02/10/2012

La collaboration du Litis avec les Archives Départementales donne naissance à un prototype en ligne.

Ces travaux menés en collaboration au sein du projet GRR/FEDER PlaIR ont abouti à la mise en ligne à l'essai d'archives du journal de Rouen. 

Vous pouvez désormais accéder à une version numérique innovante du Journal de Rouen sur notre démonstrateur : 

http://plair.univ-rouen.fr 

  • La transcription du texte par reconnaissance optique de caractère

  • Le découpage automatique en articles

  • La recherche plein texte dans ces articles (titre, contenu)

  • La correction collaborative du texte mal transcrit

  • La possibilité d’annoter les articles (Tags)

L’année 1840 a été mise en ligne sur ce prototype. Venez l’essayer et faîtes nous part de vos impressions : http://goo.gl/etnMG

 

L'annonce sur le site des Archives Départementales :

http://www.archivesdepartementales76.net/actualites/149-le-journal-de-rouen-a-l%E2%80%99ere-numerique.html

Engineer Position in Image Processing and Pattern Recognition for Document Image Processing

Blocks of text detected in a newspaper
Blocks of text detected in a newspaper

28/12/2011

LITIS is pleased to invite applications for an engineer position in Image Processing and Machine Learning for Document Image processing. The scientist will be involved in a challenging national project aiming to benchmark and encompass state of the art of a general purpose reading system, including multi-lingual printed and handwritten information, in unconstrained layout documents. The engineer will be in charge of the image processing stage of the system, including pre-processing and information detection (text blocs, logos, tables, images, graphics…)

Ideal candidates should be dedicated and open-minded, speak French or English fluently, hold a Master or Engineer degree in pattern recognition or image processing.

Contact : send CV to  Thierry.Paquet@univ-rouen.fr or clement.chatelain@insa-rouen.fr 

Duration : 1 years

Starting date : ASAP

 

Proposition de post-doc ; Word Spotting dans des documents historiques

Blocks of text detected in a newspaper
Word Spotting en gothique ...

19/07/2011

Adaptation de techniques de word spotting à la variabilité rencontrée dans les documents historiques

Type de contrat : postdoc (CDD)

Durée : 12 mois

Localisation : Laboratoire LITIS, Université de Rouen, Technopôle du Madrillet (76)

Encadrants : Laurent Heutte (Professeur, LITIS), Stéphane Nicolas (Maître de Conférences, LITIS)

Contacts : {Laurent.Heutte, Stephane.Nicolas, Pierrick.Tranouez}@univ-rouen.fr

 Description :

Ce postdoc s’inscrit dans le cadre d’un projet franco-anglais (programme européen interrégional Interreg) intitulé DocExplore, visant à l’élaboration d’une plateforme logicielle pour l’étude et la valorisation de documents historiques anciens. Le but est de faciliter le travail des historiens qui étudient ces documents, en leur offrant des fonctionnalités avancées d’analyse d’images et de l ‘écriture, ainsi que des fonctionnalités avancées de recherche d’information par le moyen de technique d’indexation automatique.

Nous avons notamment choisi dans le cadre de ce projet de nous focaliser sur la problématique du word spotting [1][2], qui permet de rechercher les multiples occurrences d’un mot dans l’image d’un document, la requête pouvant être formulée de différentes manières par l’utilisateur : soit en désignant dans l’image un exemple du mot à rechercher (requête image)[3], soit en tapant directement le mot à rechercher (requête texte). Ces différents types de requête impliquent différentes manières de résoudre le problème [4].

L’intérêt de la technique du word spotting est qu’elle facilite l’indexation et la recherche d’information dans des documents historiques numérisés relativement complexes et dégradés, pour lesquels les techniques classiques de reconnaissance automatique des caractères (OCR) ne peuvent s’appliquer.

Les documents que nous avons ciblés pour le projet DocExplore sont principalement des documents manuscrits médiévaux. Parmi ces documents nous avons identifié différents groupes définis par le type d’écriture utilisé, caractéristique d’une époque donnée. Notre objectif est de vérifier la validité des techniques existantes de word spotting vis-à-vis de ces catégories de documents (ou d’écriture), et de proposer des procédures automatiques d'adaptation d'un système existant au niveau de l'état de l'art, aux diverses familles d'écritures qui seront appréhendées au cours du projet, ou d'améliorer les techniques existantes. On pourra pour cela s'appuyer notamment sur les nombreux travaux effectués dans le cadre du projet Graphem[1], sur la caractérisation des écritures [5].

Dans le cadre de ce postdoc de 12 mois,  il s'agira dans un premier temps de faire un état de l’art exhaustif et rigoureux du domaine du word spotting, et des différentes méthodes envisageables, afin de proposer un système performant sur les documents appréhendés par le projet.

Dans un deuxième temps on s'intéressera à la manière de permettre une adaptation automatique à diverses familles d'écritures, permettant ainsi l'évolution du système, ou bien à la manière de sélectionner automatiquement la meilleure approche au regard du type d'écriture présenté au système.

 Les développements pourront être effectués sous Matlab ou dans le langage de programmation de votre choix, mais il pourrait être souhaitable qu'ils soient effectués en Java pour faciliter l'intégration dans la plateforme logicielle qui est elle-même développée en Java.


Profil recherché : Il est souhaitable que le candidat ait des connaissances en traitement et analyse d'image, et en reconnaissance des formes. Quelques connaissances en analyse d'images de documents peuvent également être les bienvenues, ainsi que des compétences solides dans au moins un langage de programmation (C, C++ ou Java) ou en Matlab.

Mots-clés : word spotting, traitement d'image, reconnaissance des formes, analyse de l'écriture, analyse d'image de documents, valorisation du patrimoine

Références bibliographiques:

[1] R. Manmatha, C. Han and E. M. Riseman, "Word Spotting: A New Approach to Indexing Handwriting", CVPR, 1996, pp 631.

[2] Tony M. Rath and R. Manmatha. 2007. Word spotting for historical documents. Int. J. Doc. Anal. Recognit. 9, 2 (April 2007), 139-152.

[3] M. Rusiñol, D. Aldavert, R. Toledo and J. Lladós., "Browsing Heterogeneous Document Collections by a Segmentation-free Word Spotting Method" In Proceedings of the Eleventh International Conference on Document Analysis and Recognition, ICDAR11, pages 63-67, 2011.

[4] S.N. Srihari,  H. Srinivasan, C. Huang and S. Shetty, "Spotting Words in Latin, Devanagari and Arabic Scripts", Vivek: Indian Journal of Artificial Intelligencen vol.16, no.3, pp. 2-9, 2006. 

[5] G. Joutel, V. Eglin, H. Emptoz., "Recherche d'information dans les bases d'images de manuscrits anciens par une caractérisation multi-échelle des écritures", actes de CORIA 2007, Saint Etienne. pp. 413-424, 2007.



[1] http://liris.cnrs.fr/graphem

Recent Developments in OCR for Digital Libraries workshop

This one day workshop will disseminate the latest progress achieved in the field of Optical Character Recognition systems (OCR), within the framework of various digitization projects for Digital Libraries. The program is build with the contributions from the EU funded IMPACT project (Improving ACcess to Text), the French ANR Funded NAVIDOMASS project. The program will be attractive for end user from libraries, archives services and researchers in the field of Digital Humanities, as well as researchers and industrial practitioners involved in the development of digitization software and tools to deal with old documents.

31/03/2011 09:30 - 16:30

LITIS - Université de Rouen - UFR des Sciences et Techniques - Site du Madrillet

Thierry Paquet (+33) 2 32 95 50 13 Thierry.Paquet@univ-rouen.fr

  • Seminar

www.litislab.eu/front-page/themes/documents-et-apprentissage/rdocrdl

Mind Reading

Des membres de l'équipe Document et Apprentissage du LITIS gagnent le bronze dans une compétion organisée par le workshop MLSP 2010

Le Workshop international MLSP (MACHINE LEARNING FOR SIGNAL PROCESSING) de cette année a organisé une compétition en apprentissage statistique : "MIND READING". Le thème portait sur les interfaces cerveaux-machine (BCI). Le comité de cette compétition a publié un jeu de données de signaux cérébraux (EEG). Le but de la compétition était d'analyser les données pour déterminer des événements rares lors de la présentation d'images à un sujet. 35 équipes internationales ont participé à cette compétition. Leurs méthodes furent évaluées sur un ensemble de données inconnues.

Un groupe de membres de l'Équipe "Document et Apprentissage" du LITIS s'est hissé sur le podium de la compétition et publiera les détails de sa méthode à base de Séparateurs à Vaste Marge (SVM) dans les actes du Workshop.

Le groupe était composé de :

Rémi Flamary (2)
Benjamin Labbé (1)
Grégoire Mesnil (2,3)
Xilan Tian(1)
Florian Yger (2)
Alain Rakotomomamonjy (2) - study supervision
Gilles Gasso (1) - study supervision

(1) INSA de Rouen - LITIS
(2) Université de Rouen - LITIS
(3) Université de Montréal - LISA

2010 IEEE International Workshop on MACHINE LEARNING FOR SIGNAL PROCESSING
La compétition : http://mlsp2010.conwiz.dk/index.php?id=43
Les résultats : http://www.bme.ogi.edu/~hildk/Hild_competition_mlsp2010.pdf

Salon du Livre Ancien

Le LITIS au Salon du Livre Ancien, 26, 27 et 28 mars à l'abbatiale St Ouen de Rouen

Dans le cadre d'un projet INTERREG IV intitulé DocExplore, que le laboratoire LITIS mène en partenariat avec le Department of Engineering and Digital Arts de l'Université de Kent (Canterbury, Angleterre), et en collaboration avec la Bibliothèque Municipale de la Ville de Rouen, et les Archives de la Cathédrale de Canterbury, nous participerons les 26, 27 et 28 mars prochains au Salon du Livre Ancien qui se tiendra à l'abbatiale St Ouen de Rouen. Nous exposerons à cette occasion les résultats de nos travaux sur ce projet, sous la forme d'une édition numérique interactive de documents anciens patrimoniaux. 

Cette exposition prendra la forme d'une borne interactive réalisée à l'aide d'un écran tactile qui permettra de feuilleter et de naviguer dans les images numériques des manuscrits. Cette borne interactive constitue un premier démonstrateur des fonctionnalités de visualisation d'un système plus complet dédié à l'exploration de documents historiques qui doit être développé lors de la deuxième phase du projet pour laquelle nous venons de déposer une demande de subvention. Ce projet vise en effet à développer des outils informatiques pour explorer les documents historiques numérisés, et inciter ainsi les citoyens des deux côtés de la Manche à découvrir ou redécouvrir leur patrimone et notamment leur patrimoine commun, par le biais des nouvelles technologies de l'information. Le démonstrateur exposé ici au Salon du Livre Ancien présentera un dossier thématique que nous avons réalisé autour de documents numérisés issus d'un ouvrage emblématique des fonds documentaires de la Bibliothèque Municipale de Rouen: le sacramentaire dit de Robert de Jumièges. Il s'agit d'un magnifique livre liturgique enluminé du XIe siècle, réalisé par des maîtres enlumineurs anglais, et offert par Robert Champart à son abbaye d'origine, l'abbaye de Jumièges, lorsqu'il a été élu Evêque de Londres en 1044.

Les chercheurs du LITIS impliqués dans ce projet sont Laurent Heutte, Thierry Paquet et Stéphane Nicolas, et les deux ingénieurs qui ont réalisé ce démonstrateur côté français sont Alexandre Burnett et Thomas Palfray.

 

http://www.docexplore.eu/

 

26/03/2010 - 28/03/2010

  • Miscellaneous
Objectifs
L’objectif général consiste en l'étude des techniques de modélisation et d’apprentissage statistiques permettant d’appréhender la diversité des données (dimensionnalité, structures, non stationnarité) et la nature des solutions attendues (connaissances a priori).

Approche : 

  • Optimisation multi-critères (algorithmes évolutionnaires, calcul de chemin de régularisation)

  • Inférence de connaissances dans les masses de données

  • Modèles Bayésiens, Matching de graphes

  • Optimisation Apprentissage endurant et contexte (systèmes réactifs, adaptatifs, évolutifs en fonction du contexte)

  • Fusion d’information, combinaison de classifieurs, forêts aléatoires

  • Méthodes à noyaux

Mots-clés :

  • Graphes matching

  • SVM

  • Deep Belief Neural Network

  • Forêts aléatoires

  • Optimisation multi-objectifs

  • HMM

  • Champs aléatoires

  • Combinaison / fusion d’information

Domaines d'application

  • Traitement automatique de l’écrit et des documents

  • Recherche d’Information

  • Bibliothèques numériques

  • Diagnostic
  • Interfaces cerveau-machine

Partenaires et projets

Projets en cours

  • ANR ASAP (architectures profondes)
  • ANR ClasSel (classification croisée et sélection de variables)
  • ANR Genease (lab on a chip)
  • ANR DigiDoc (numérisation, document)
  • ANR JCJC Lemon (apprentissage multiobjectif)
  • GRR ET FEDER PlaIR (plateforme d'indexation régionale)
  • Evaluation de technologies de lecture automatique de documents (CASSIDIAN)
  • DocOnDemand (ITESOFT)
  • Interreg IVa DocExplore (Univ. Kent, UK)

Projets récents

  • ANR CADI (systèmes de recommandation)
  • ANR Navidomass (navigation dans les bases de données documentaires)
  • ANR Optima (corpus et outils pour les SHS)
  • ANR blanc KernSig (reconnaissance de formes et traitement du signal)
  • ANR Placid (sécurité informatique)
  • ACI MADONNE (LORIA, LIRIS, L3i, LI Tours, IRISA)
  • Technovision EPEIRES et RIMES

Partenaires

Collaborations Internationales

  • Réseau d’Excellence PASCAL2 (apprentissage statistique)
  • Univ. Kent, UK (programme INTERREG IV DocExplore exploration documents anciens)
  • Telefonica I&D Barcelona (système de recommandation, reconnaissance de la parole)
  • Univ. Cornell et Univ. Rutgers, USA (sélection de variables)

Partenaires industriels et institutionnels

  • BNF (qualité des données)
  • CASSIDIAN (text mining)
  • EMC Captiva (traitement du courrier entrant)
  • Itesoft (reconnaissance des entités nommées)
  • CEA (apprentissage statistique et biologie)
  • Bertin Technologies (apprentissage statistique)
  • Thalès (filtrage d'alarmes et big data)
  • OrangeLabs (sécurité des réseaux)

Grands Réseaux de Recherche

  • Transport & Logistique, Technologies de l’Information

Autres réseaux

  • Groupe de Recherche en Communication Ecrite (GRCE)
  • GDR ISIS
  • GDR I3
  • AFRIF
 

Réalisé avec Plone

Ce site respecte les normes suivantes :