Résumé:
Dans ce projet, nous avons proposé un modèle de réseau de neurones à convolution
(CNN) guidé par les points d’intérêt SIFT (scale-invariant feature transform) pour
la reconnaissance de classes d’objets. Notre modèle admet deux entrées, la première
entrée reçoit l’image originale et la seconde est alimentée par une partie de l’image
originale qui contient la plus grande densité de points SIFT appartenant à l’objet.
L’idée d’utiliser deux entrées dont l’une est une partie de l’autre est de permettre au
modèle d’apprendre des informations globales à partir de l’image entière et des informations
locales à partir de l’image partielle, cela aide à reconnaître des objets très
similaires dans leur forme globale ainsi que les objets occultés. Dans ce dernier cas,
les caractéristiques SIFT servent à guider le modèle à reconnaître les parties partielles
non occultées de l’objet. Un classifieur SVM a été utile pour identifier et extraire la
région de l’image qui contient la plus grande densité de points SIFT appartenant à
l’objet. Les caractéristiques SIFT de l’objet sont sélectionnées selon leurs capacités
discriminatives de l’apparence de l’objet à classifier. Les expérimentations ont montré
les résultats remarquables de notre modèle par rapport à un simple CNN, avec une
nette amélioration de la performance de reconnaissance qui atteint une précision de
92% sur le jeu de données kaggle cats-vs-dogs , En revanche le simple CNN n’a obtenu
que 88%. Notre modèle a également prouvé son efficacité à reconnaître les objets occultés
avec un taux de 87% contre un faible taux de reconnaissance du modèle CNN
simple.