Le Journal de Rouen à l’ère numérique
02/10/2012
Ces travaux menés en collaboration au sein du projet GRR/FEDER PlaIR ont abouti à la mise en ligne à l'essai d'archives du journal de Rouen.
Vous pouvez désormais accéder à une version numérique innovante du Journal de Rouen sur notre démonstrateur :
• La transcription du texte par reconnaissance optique de caractère
• Le découpage automatique en articles
• La recherche plein texte dans ces articles (titre, contenu)
• La correction collaborative du texte mal transcrit
• La possibilité d’annoter les articles (Tags)
L’année 1840 a été mise en ligne sur ce prototype. Venez l’essayer et faîtes nous part de vos impressions : http://goo.gl/etnMG
L'annonce sur le site des Archives Départementales :
Engineer Position in Image Processing and Pattern Recognition for Document Image Processing
28/12/2011
Ideal candidates should be dedicated and open-minded, speak French or English fluently, hold a Master or Engineer degree in pattern recognition or image processing.
Contact : send CV to Thierry.Paquet@univ-rouen.fr or clement.chatelain@insa-rouen.fr
Duration : 1 years
Starting date : ASAP
Proposition de post-doc ; Word Spotting dans des documents historiques
19/07/2011
Type de contrat : postdoc (CDD)
Durée : 12 mois
Localisation : Laboratoire LITIS, Université de Rouen, Technopôle du Madrillet (76)
Encadrants : Laurent Heutte (Professeur, LITIS), Stéphane Nicolas (Maître de Conférences, LITIS)
Contacts : {Laurent.Heutte, Stephane.Nicolas, Pierrick.Tranouez}@univ-rouen.fr
Description :
Ce postdoc s’inscrit dans le cadre d’un projet franco-anglais (programme européen interrégional Interreg) intitulé DocExplore, visant à l’élaboration d’une plateforme logicielle pour l’étude et la valorisation de documents historiques anciens. Le but est de faciliter le travail des historiens qui étudient ces documents, en leur offrant des fonctionnalités avancées d’analyse d’images et de l ‘écriture, ainsi que des fonctionnalités avancées de recherche d’information par le moyen de technique d’indexation automatique.
Nous avons notamment choisi dans le cadre de ce projet de nous focaliser sur la problématique du word spotting [1][2], qui permet de rechercher les multiples occurrences d’un mot dans l’image d’un document, la requête pouvant être formulée de différentes manières par l’utilisateur : soit en désignant dans l’image un exemple du mot à rechercher (requête image)[3], soit en tapant directement le mot à rechercher (requête texte). Ces différents types de requête impliquent différentes manières de résoudre le problème [4].
L’intérêt de la technique du word spotting est qu’elle facilite l’indexation et la recherche d’information dans des documents historiques numérisés relativement complexes et dégradés, pour lesquels les techniques classiques de reconnaissance automatique des caractères (OCR) ne peuvent s’appliquer.
Les documents que nous avons ciblés pour le projet DocExplore sont principalement des documents manuscrits médiévaux. Parmi ces documents nous avons identifié différents groupes définis par le type d’écriture utilisé, caractéristique d’une époque donnée. Notre objectif est de vérifier la validité des techniques existantes de word spotting vis-à-vis de ces catégories de documents (ou d’écriture), et de proposer des procédures automatiques d'adaptation d'un système existant au niveau de l'état de l'art, aux diverses familles d'écritures qui seront appréhendées au cours du projet, ou d'améliorer les techniques existantes. On pourra pour cela s'appuyer notamment sur les nombreux travaux effectués dans le cadre du projet Graphem[1], sur la caractérisation des écritures [5].
Dans le cadre de ce postdoc de 12 mois, il s'agira dans un premier temps de faire un état de l’art exhaustif et rigoureux du domaine du word spotting, et des différentes méthodes envisageables, afin de proposer un système performant sur les documents appréhendés par le projet.
Dans un deuxième temps on s'intéressera à la manière de permettre une adaptation automatique à diverses familles d'écritures, permettant ainsi l'évolution du système, ou bien à la manière de sélectionner automatiquement la meilleure approche au regard du type d'écriture présenté au système.
Les développements pourront être effectués sous Matlab ou dans le langage de programmation de votre choix, mais il pourrait être souhaitable qu'ils soient effectués en Java pour faciliter l'intégration dans la plateforme logicielle qui est elle-même développée en Java.
Profil recherché : Il est souhaitable que le candidat ait des connaissances en traitement et analyse d'image, et en reconnaissance des formes. Quelques connaissances en analyse d'images de documents peuvent également être les bienvenues, ainsi que des compétences solides dans au moins un langage de programmation (C, C++ ou Java) ou en Matlab.
Mots-clés : word spotting, traitement d'image, reconnaissance des formes, analyse de l'écriture, analyse d'image de documents, valorisation du patrimoine
Références bibliographiques:
[1] R. Manmatha, C. Han and E. M. Riseman, "Word Spotting: A New Approach to Indexing Handwriting", CVPR, 1996, pp 631.
[2] Tony M. Rath and R. Manmatha. 2007. Word spotting for historical documents. Int. J. Doc. Anal. Recognit. 9, 2 (April 2007), 139-152.
[3] M. Rusiñol, D. Aldavert, R. Toledo and J. Lladós., "Browsing Heterogeneous Document Collections by a Segmentation-free Word Spotting Method" In Proceedings of the Eleventh International Conference on Document Analysis and Recognition, ICDAR11, pages 63-67, 2011.
[4] S.N. Srihari, H. Srinivasan, C. Huang and S. Shetty, "Spotting Words in Latin, Devanagari and Arabic Scripts", Vivek: Indian Journal of Artificial Intelligencen vol.16, no.3, pp. 2-9, 2006.
[5] G. Joutel, V. Eglin, H. Emptoz., "Recherche d'information dans les bases d'images de manuscrits anciens par une caractérisation multi-échelle des écritures", actes de CORIA 2007, Saint Etienne. pp. 413-424, 2007.
Recent Developments in OCR for Digital Libraries workshop
31/03/2011 09:30 - 16:30
LITIS - Université de Rouen - UFR des Sciences et Techniques - Site du Madrillet
Thierry Paquet (+33) 2 32 95 50 13 Thierry.Paquet@univ-rouen.fr
- Seminar
www.litislab.eu/front-page/themes/documents-et-apprentissage/rdocrdl
Mind Reading
Le Workshop international MLSP (MACHINE LEARNING FOR SIGNAL PROCESSING) de cette année a organisé une compétition en apprentissage statistique : "MIND READING". Le thème portait sur les interfaces cerveaux-machine (BCI). Le comité de cette compétition a publié un jeu de données de signaux cérébraux (EEG). Le but de la compétition était d'analyser les données pour déterminer des événements rares lors de la présentation d'images à un sujet. 35 équipes internationales ont participé à cette compétition. Leurs méthodes furent évaluées sur un ensemble de données inconnues.
Un groupe de membres de l'Équipe "Document et Apprentissage" du LITIS s'est hissé sur le podium de la compétition et publiera les détails de sa méthode à base de Séparateurs à Vaste Marge (SVM) dans les actes du Workshop.
Le groupe était composé de :
Rémi Flamary (2)
Benjamin Labbé (1)
Grégoire Mesnil (2,3)
Xilan Tian(1)
Florian Yger (2)
Alain Rakotomomamonjy (2) - study supervision
Gilles Gasso (1) - study supervision
(1) INSA de Rouen - LITIS
(2) Université de Rouen - LITIS
(3) Université de Montréal - LISA
2010 IEEE International Workshop on MACHINE LEARNING FOR SIGNAL PROCESSING
La compétition : http://mlsp2010.conwiz.dk/index.php?id=43
Les résultats : http://www.bme.ogi.edu/~hildk/Hild_competition_mlsp2010.pdf
Salon du Livre Ancien
Dans le cadre d'un projet INTERREG IV intitulé DocExplore, que le laboratoire LITIS mène en partenariat avec le Department of Engineering and Digital Arts de l'Université de Kent (Canterbury, Angleterre), et en collaboration avec la Bibliothèque Municipale de la Ville de Rouen, et les Archives de la Cathédrale de Canterbury, nous participerons les 26, 27 et 28 mars prochains au Salon du Livre Ancien qui se tiendra à l'abbatiale St Ouen de Rouen. Nous exposerons à cette occasion les résultats de nos travaux sur ce projet, sous la forme d'une édition numérique interactive de documents anciens patrimoniaux.
Cette exposition prendra la forme d'une borne interactive réalisée à l'aide d'un écran tactile qui permettra de feuilleter et de naviguer dans les images numériques des manuscrits. Cette borne interactive constitue un premier démonstrateur des fonctionnalités de visualisation d'un système plus complet dédié à l'exploration de documents historiques qui doit être développé lors de la deuxième phase du projet pour laquelle nous venons de déposer une demande de subvention. Ce projet vise en effet à développer des outils informatiques pour explorer les documents historiques numérisés, et inciter ainsi les citoyens des deux côtés de la Manche à découvrir ou redécouvrir leur patrimone et notamment leur patrimoine commun, par le biais des nouvelles technologies de l'information. Le démonstrateur exposé ici au Salon du Livre Ancien présentera un dossier thématique que nous avons réalisé autour de documents numérisés issus d'un ouvrage emblématique des fonds documentaires de la Bibliothèque Municipale de Rouen: le sacramentaire dit de Robert de Jumièges. Il s'agit d'un magnifique livre liturgique enluminé du XIe siècle, réalisé par des maîtres enlumineurs anglais, et offert par Robert Champart à son abbaye d'origine, l'abbaye de Jumièges, lorsqu'il a été élu Evêque de Londres en 1044.
Les chercheurs du LITIS impliqués dans ce projet sont Laurent Heutte, Thierry Paquet et Stéphane Nicolas, et les deux ingénieurs qui ont réalisé ce démonstrateur côté français sont Alexandre Burnett et Thomas Palfray.
26/03/2010 - 28/03/2010
- Miscellaneous


