Résumé:
Résumé
L’objectif principal de cette thèse était de proposer une nouvelle approche pour la reconnaissance
automatique de l’écriture Arabe manuscrite, un style d’écriture courant dans les archives des
documents officiels et non officiels en Algérie. Nos efforts se sont concentrés sur la conception et
le développement d’une stratégie innovante utilisant à la base un réseau de neurones convolutif
récurrent (CRNN). Ainsi, nous avons suggéré que notre modèle conçu autour d’une architecture
CRNN soit assisté par un réseau d’attention gMLP (gated Multi-layer Perceptron) afin de booster
ses performances, en lui offrant une robustesse supplémentaire et une fiabilité à travers un taux
d’erreur faible et compétitif par rapport aux approches de l’état-de-l’art.
Notre approche repose sur un réseau de neurones convolutif (CNN) qui prend en entrée une image
de ligne de texte non segmentée et la traite à travers des couches convolutionnelles et de pooling
en comprimant et en filtrant les informations pertinentes dont l’ultime résultat est de regrouper
et extraire les caractéristiques. Les caractéristiques obtenues sont ensuite propagées à travers
le réseau d’attention gMLP lequel capture les interactions spatiales entre les caractéristiques
visuelles en générant une nouvelle carte de caractéristiques. La sortie du réseau gMLP alimente
l’unité de décodage représentée par le réseau de neurones récurent bidirectionnel (BRNN). Les
couches BRNN codent et décodent les caractéristiques extraites pour chaque caractère dans
les deux directions, prédisant la séquence correcte de caractères. Cette méthode a montré son
efficacité à travers les bons résultats obtenus.
En marge de notre contribution principale, nous avons également réalisé d’autres travaux notables
en validant d’abord notre modèle CNN-gMLP-RNN à travers une application de reconnaissance
des caractères imprimés pour la lecture des vignettes de médicaments Algériennes. Ainsi, notre
modèle se trouve utile à la fois pour reconnaître du texte imprimé et manuscrit. En outre, l’autre
approche CNN préalablement mise en oeuvre a été dédiée à la reconnaissance des caractères
imprimés des plaques d’immatriculation Algériennes. Du fait de sa particularité, le détecteur
d’objets YOLO (You Only Look Once), le plus efficace de la littérature, a été entraîné et em-
ployé pour détecter, dans un premier temps, les images de texte, puis dans un second temps,
la reconnaissance de la séquence de chiffres/lettres est réalisée par CRNN. Parallèlement, et
dans un souci du soutien à la recherche scientifique locale, nous avons construit et publié deux
nouveaux et uniques ensembles de données image, nommés "License Plates of Algeria Dataset"
(LPAD) et "Algerian Drug Label" (ADL), dédiés respectivement à la reconnaissance des plaques
d’immatriculation et des étiquettes de médicaments. Chaque ensemble de données est accom-
pagné d’annotations explicatives et réparti en sous-ensembles d’entraînement et de test. Tout
comme pour la reconnaissance de l’écriture manuscrite, nous avons atteint un bon taux de préci-
sion en reconnaissant du texte imprimé, ce qui témoigne de l’exhaustivité et l’efficacité de notre
approche.