next up previous contents index
Next: A. Corpus Up: 2 Propositions Previous: 7 Sélection des traits   Contents   Index

Subsections

8 Conclusion générale et perspectives

Pour rechercher efficacement des images, il faut prendre en compte non seulement le contenu visuel, mais également le sens de l'image. Ce sens peut être apporté par une description de l'image à l'aide de mots-clés. Ces mots-clés peuvent être obtenus de deux manières :

Ces deux types de systèmes sont complémentaires. Le premier est plus efficace, car il est plus facile de vérifier qu'un mot a ou n'a pas de rapport avec le contenu visuel d'une image, mais il nécessite que du texte soit associé à l'image, ce qui n'est pas le cas dans le second type de système. Cependant, les systèmes d'auto-annotation qui n'utilisent que le contenu visuel sont en général peu efficaces.

Pour améliorer les systèmes de recherche d'images par le contenu, la prochaine génération de systèmes doit être capable de combiner efficacement les informations textuelles fournies par le texte associé aux images et le contenu visuel de ces images.

Un autre challenge important pour ces systèmes est le passage à l'échelle. En effet, beaucoup de techniques de recherche et d'annotation d'images sont efficaces sur peu de données, mais sont inutilisables sur de grandes masses de données (critère d'échelonnabilité).

Dans cette thèse, nous avons cherché à combiner les informations textuelles et visuelles pour réduire le fossé sémantique, tout en prenant en compte les problèmes de passage à l'échelle et de malédiction de la dimension.

1 Résumé des contributions

 

Nous avons tout d'abord proposé un système d'annotation automatique d'images, appelé DIMATEX, qui obtient des scores similaires à ceux des modèles de l'état de l'art, mais qui utilise une technique d'indexation multidimensionnelle par approximation de vecteurs (VA-FILE [Weber et al., 1998]) pour annoter les images, ce qui lui permet d'annoter très rapidement les données. De plus, ce système ne nécessite aucune optimisation de paramètres et il est dynamique. Nous pourrons donc l'utiliser sur de grandes quantités de données telles que les images du web. Il permettra également d'ajouter au modèle d'annotation les images et le texte qui leur est associé au fur et à mesure de l'indexation de nouvelles pages web pour une annotation de plus en plus précise [Glotin & Tollari, 2005].

Nous avons ensuite proposé une méthode qui associe à chaque mot-clé des zones de l'espace visuel. Cette association permet de relier mots-clés et informations visuelles. Un des avantages de cette méthode est que les zones visuelles sont interprétables. De plus, comme elles sont représentées par des hyperrectangles, elles peuvent être facilement manipulées et stockées. En particulier, il est très rapide de savoir si un mot est présent ou absent d'une image, car il suffit de vérifier si au moins un vecteur de l'image est dans un des hyperrectangles du mot. Cependant, cette méthode est dans l'ensemble assez lourde à mettre en oeuvre, car elle nécessite d'optimiser de nombreux paramètres. De plus, elle n'est pas dynamique. Il serait donc intéressant d'en élaborer une autre qui ait les mêmes avantages, mais qui soit dynamique et moins lourde à mettre en oeuvre [Tollari, 2005].

Nous avons enfin étudié deux méthodes de sélection de dimensions dans le cas de données mal étiquetées, c'est-à-dire dans le cas de données annotées par images et non pas par régions d'images, comme le sont les images du Web. Nous montrons théoriquement et expérimentalement que le critère de l'analyse linéaire discriminante (LDA) peut sous certaines conditions être utilisé sur ce type de données. Nous appelons cette méthode Approximation de la LDA (ALDA). Nous montrons également expérimentalement que c'est aussi le cas de la diversité marginale maximale (MMD). Nous appelons cette méthode Approximation de la MMD (AMMD). Les résultats expérimentaux montrent que la sélection des dimensions par le critère de l'ALDA ou par l'AMMD est plus efficace que la réduction de dimensions par l'ACP. La comparaison des résultats obtenus pour l'ALDA et par l'AMMD montre que l'AMMD donne en général des résultats légèrement supérieurs à ceux de l'ALDA. Cependant, l'AMMD est plus sensible au bruit et elle nécessite plus de données d'apprentissage pour être efficace. Finalement, les résultats montrent que l'hypothèse de gaussianité des données posée par l'ALDA nuit peu à ses performances en comparaison avec l'AMMD qui ne pose pas cette hypothèse [Glotin et al., 2005,Tollari et al., 2006,Tollari & Glotin, 2006a,Tollari & Glotin, 2006b,Glotin et al., 2006].

2 Perspectives

 

Nous souhaitons par la suite travailler sur les images du web pour construire un moteur de recherche d'images fusionnant les informations visuelles et textuelles efficaces. Or l'une des difficultés est que les images du web sont mal annotées, car le texte associé à ces images n'a pas toujours de rapport avec leur contenu visuel. Nous pouvons cependant remplir dynamiquement la table de distributions jointes de DIMATEX à partir de ces images. Nous pensons que plus le nombre de données sera important, plus la table sera bien remplie malgré le fait que les images soient mal-annotées, ce qui permettra donc une annotation de plus en plus efficace.

Dans la partie 6.2.4 page [*], nous avons défini la notion de «consistance» visuelle qui indique si un mot est facilement discriminé par un système donné. Plus le système est efficace, plus la consistance d'un mot est une indication de la difficulté de détection du mot. En effet, plus un mot possède de caractéristiques visuelles spécifiques, plus il est facile à détecter, et inversement. Cette mesure, apprise sur un ensemble d'apprentissage, nous permet de savoir dans quelle proportion le système peut faire confiance au contenu visuel pour détecter un certain mot. Nous pouvons également prendre en compte la distance des vecteurs des régions de l'image au centre des hyperrectangles du mot pour avoir une mesure de la pertinence du mot par rapport à l'image. De plus, nous pouvons mesurer la pertinence d'un mot pour une image en fonction de la fréquence de ce mot dans la page web, de sa présence dans le titre, de sa proximité de l'image.... Nous pouvons donc également déterminer la pertinence du mot pour l'image en fonction du texte associé à l'image. La combinaison de ces trois mesures pourra nous permettre de proposer un score de pertinence du mot pour l'image. Ce score nous permettra d'ordonner les résultats d'une requête textuelle en fonction du contenu visuel et du texte associé à l'image.

Nous avons montré que l'ALDA et l'AMMD fonctionnent sur des données mal annotées. Nous pouvons donc utiliser ces méthodes pour déterminer quels sont les traits visuels les plus pertinents pour les mots-clés associés aux images du web afin de construire des clusters visuels qui nous permettront de filtrer efficacement le texte associé aux images du web à l'aide de leur contenu visuel. Nous pourrons également utiliser ces méthodes pour sélectionner les dimensions visuelles les plus discriminantes pour prédire chaque mot dans le système DIMATEX.

Enfin, nous souhaitons construire un système de recherche d'images pour lequel l'utilisateur fournit comme requête à la fois un mot-clé et une image. Le système recherchera alors les images de la base visuellement similaires, seulement à partir des dimensions visuelles sélectionnées par l'ALDA ou l'AMMD en fonction du mot-clé recherché. Ce type de système sera donc très rapide et ne subira pas la malédiction de la dimension, car les distances entre images seront réalisées seulement sur les dimensions les plus pertinentes. Nous avons vu comment utiliser l'ALDA dans le cas où un seul concept est étudié, mais l'utilisateur peut souhaiter fournir plusieurs mots-clés pour mieux cibler sa recherche. Une question intéressante est donc de déterminer comment sélectionner les traits visuels les plus pertinents lorsque plusieurs concepts doivent être pris en compte.


next up previous contents index
Next: A. Corpus Up: 2 Propositions Previous: 7 Sélection des traits   Contents   Index
Tollari Sabrina 2008-01-08