L'annotation automatique d'images consiste à associer à chaque image un groupe de mots qui décrit le contenu visuel de l'image au moyen d'un système sans aucune intervention humaine. Cette tâche a fait, et fait toujours, l'objet de nombreux travaux. Dans ce chapitre, nous décrivons quelques modèles d'auto-annotation d'images de l'état de l'art. Ces modèles sont principalement utilisés pour l'auto-annotation d'images, mais aussi pour d'autre tâches telles que l'annotation de région d'images avec un seul mot (appelée parfois modèle de correspondance), la recherche d'images, la désambiguiation de mots par le contenu visuel...
Pour les modèles probabilistes, l'auto-annotation consiste à estimer pour chaque mot la probabilité a posteriori :
Pour pouvoir mesurer la capacité d'un système a annoter une image, on utilise des corpus d'images pour lesquels chaque image a préalablement été annotée manuellement par un ensemble de mots de référence (légende de l'image). L'objectif du système est alors de prédire, pour chaque image, d'une part le plus de mots de sa légende, et, d'autre part le moins de mots possible.
Après avoir résumé quelques mesures standards de performances (partie 4.1), nous décrivons quelques modèles de l'état de l'art : les modèles basés sur l'analyse de la sémantique latente (partie 4.2), plusieurs modèles présentés dans [Barnard et al., 2003b] basés sur une structure hiérarchique (partie 4.3), et quelques modèles probabilistes basés sur la distribution de Dirichlet [Blei & Jordan, 2003] (partie 4.4).
Dans [Tsai et al., 2006], plusieurs façons d'évaluer les performances d'auto-annotations sont proposées :
Les systèmes d'annotations automatiques ont tendance à prédire surtout les mots très courants, comme sky, water, people, et très peu les mots peu fréquents, tels que anemone, cactus, elephant. Un modèle qui annote les images avec les mots les plus courants obtient un très bon score. Cependant, il se peut que ce modèle n'apporte en fait aucune nouvelle information. C'est pourquoi il est important de comparer ce score au score empirique obtenu à partir de la fréquence des mots dans la base (distribution a priori). De plus, cela permet de rendre comparable les scores de différents modèles obtenus sur des données de difficultés différentes.
Le score empirique ne doit pas être confondu avec le score aléatoire obtenu par classification aléatoire des données. Concrètement, il peut être obtenu en calculant une distribution a priori des mots de manière aléatoire.
(50) |
(51) |
(52) |
Une mesure similaire est proposée dans [Blei & Jordan, 2003]. La qualité de l'annotation d'un modèle est évaluée en utilisant une mesure classique de la communauté traitement du langage et appelée caption perplexity :
Nous remarquons que ces deux mesures ne prennent en compte que les mots qui sont dans la légende initiale.
Le rappel et la précision sont deux mesures classiques en recherche d'information. Le rappel (recall) est le rapport du nombre de documents pertinents trouvés au nombre total de documents pertinents. La précision (precision) est le rapport du nombre de documents pertinents trouvés au nombre total de documents sélectionnés.
Soient le nombre de documents pertinents, le nombre de documents pertinents retrouvés et le nombre de documents non-pertinents retrouvés. Le rappel et la précision sont définis par :
(54) |
(55) |
(56) |
Une mesure très largement utilisée [Barnard et al., 2003b,Monay & Gatica-Perez, 2003,Viitaniemi & Laaksonen, 2005] pour mesurer les performances des systèmes d'auto-annotation est le Normalized Score (NS). Nous en donnons d'abord la définition générale valable pour tout système de recherche d'information ou de classification à deux classes : éléments pertinents et non-pertinents, puis nous l'appliquons dans le cas de systèmes d'auto-annotation d'images.
Ce score est composé de deux termes : le premier est le nombre d'éléments pertinents retrouvés normalisé par le nombre d'éléments pertinents (appelé aussi rappel ou sensibilité), le deuxième est le nombre d'éléments non-pertinents retrouvés normalisé par le nombre d'éléments non-pertinents (il est égal à 1-spécificité). Le score est compris entre -1 et 1. quand tous les éléments retrouvés sont tous les éléments pertinents ( et ). quand tous les éléments retrouvés sont tous les éléments non-pertinents ( et ). quand tous les éléments sont trouvés ou qu'aucun élément n'est trouvé ( et ou et ).
Ce score permet de prendre en compte à la fois les éléments retrouvés par le système, mais aussi les éléments non-pertinents retrouvés en fonction du nombre d'éléments non-pertinents, et non pas en fonction du nombre d'éléments retrouvés comme le font les mesures basées sur rappel et précision. Il est donc particulièrement adapté pour les expériences où le nombre d'éléments non-pertinents retrouvés et non-retrouvés sont très grands devant le nombre d'éléments pertinents. Par exemple, les images de la base Corel possèdent en moyenne 3 mots pertinents ( =3) choisis parmi un lexique de 200 mots environ ( =200). Comme nous le verrons dans ce chapitre, retrouver les 3 mots de la légende d'une image est un problème très difficile. Cependant, un système qui est capable de retrouver 2 des 3 mots pertinents tout en acceptant 20 autres mots ( =20) sur un lexique de 200 mots ( =2/3-20/197=0.57, précision=0.09), est plus efficace qu'un système qui retrouve 2 mots sur 3, tout en acceptant 20 autres mots d'un lexique de 100 mots ( =2/3-20/97=0.46, précision=0.09). Le score NS permet donc de comparer des résultats sur des modèles qui ne possèdent pas le même nombre d'éléments.
[Viitaniemi & Laaksonen, 2005] propose une version matricielle du score NS moyen.
Afin de pouvoir comparer différents modèles, il est préférable de calculer la différence et le gain sur le modèle empirique :
(57) |
Une mesure proche du score NS est utilisée dans [Barnard et al., 2003b] et [Monay & Gatica-Perez, 2004]. Pour chaque image, on impose que le système prédise exactement le nombre de mots de la légende de l'image ( ), puis on mesure l'exactitude de l'annotation (annotation accuracy) [Monay & Gatica-Perez, 2004] en calculant :
(58) |
(59) |
Nous remarquons que dans le cas où le nombre de mots du lexique est très grand devant le nombre de mots prédits ( ), le score de prédiction moyen est une bonne approximation du score NS moyen. Cependant, cette mesure ne permet pas de comparer des expériences réalisées sur des corpus contenant un nombre de mots différents. Par exemple, soit un corpus dont le lexique comprend 100 mots et un corpus , pouvant contenir les mêmes images, dont le lexique comprend 1000 mots. Supposons qu'à partir des deux corpus, nous annotions une image et obtenons 1 mot juste sur 5, nous aurons , mais et . Le score NS prend en compte la difficulté de la tâche (la probabilité de faire une erreur est plus grande quand on a un lexique qui contient beaucoup de mots), mais pas le score .
Nous pouvons généraliser ce score pour les systèmes qui annotent chaque image avec un nombre de mots prédits fixe à condition de faire des comparaisons sur des expériences ayant le même nombre de mots dans le lexique.
Les mesures d'erreurs que nous avons décrites ne font pas la différence entre une substitution entre deux termes proches (house au lieu de building), et entre deux termes très éloignés (house au lieu de elephant). Pour construire ce type de mesure, il serait intéressant de prendre en compte dans la mesure un thésaurus.
Mesurer les scores de modèles de correspondance, c'est-à-dire de modèles permettant d'associer un mot à une région d'image, est difficile, car il est nécessaire d'annoter manuellement les régions d'une grande base d'images. De plus, la probabilité pour que deux personnes annotent une région d'images avec le même mot est faible. Pour mesurer les performances d'un modèle de correspondance, il suffit d'annoter chaque région, puis d'en dériver une annotation pour l'image, et enfin de mesurer le score du modèle d'annotation d'images obtenu. D'après [Barnard et al., 2003b], il est raisonnable de penser qu'une mauvaise méthode d'annotation d'images sera aussi mauvaise pour l'annotation de régions d'images. D'ailleurs, la plupart des modèles d'annotation d'images sont construits de telles sortes qu'ils puissent annoter une région d'images, et inversement.
Pour mesurer les performances d'un modèle d'auto-annotation, il est important de prendre aussi en compte d'autres facteurs tels que :
La valeur des scores obtenus dépend du nombre de mots dans le vocabulaire, ainsi que de la difficulté de la tâche, et des données. Il existe d'autres mesures d'auto-annotation qui prennent en compte certains de ces paramètres. Par exemple, dans [Viitaniemi & Laaksonen, 2005], une mesure appelée DTMI (De-symmetrised Termwise Mutual Information) basée sur la théorie de l'information est proposée. Cette mesure a la particularité de prendre en compte la difficulté de prédiction d'un mot.
Utilisé tout d'abord pour l'analyse de grand corpus de texte, LSA [Deerwester et al., 1990] pour Latent Semantic Analysis ou analyse de la sémantique latente (ASL), est une technique statistique automatique pour extraire et inférer des relations entre mots à partir de leur contexte. L'utilisation de LSA dans le domaine de l'analyse de documents est pertinente, car des travaux en sciences cognitives montrent que la représentation et l'acquisition de connaissances à partir de textes, la compréhension et l'évaluation de textes, l'extension à des connaissances non issues de textes, à l'aide du modèle LSA, sont comparables à celles des sujets humains lors de tests standardisés [Landauer & Dumais, 1997,Landauer et al., 1998,Lemaire & Dessus, 2003]. LSA est à la fois vu comme un modèle d'acquisition et de représentation des connaissances.
En résumé, le fonctionnement de LSA est basé sur deux principes : (1) le sens d'un mot peut-être défini statistiquement à partir de l'ensemble des contextes et (2) deux mots sont similaires s'ils apparaissent dans des contextes similaires. Il résout dans une certaine mesure les problèmes suivants :
Soit la matrice terme-document et son rang, par la méthode algébrique de décomposition en valeurs singulières, elle peut être écrite sous la forme du produit de trois matrices telles que :
(60) |
(61) |
(62) |
(63) |
La SVD effectue un changement de base pour se placer suivant les axes de plus grande variation de la matrice . De manière intuitive, on peut se représenter un mot comme un point dans un espace dont la dimension est le nombre de documents . La matrice donne les coordonnées des mots. Ce nuage de points a des axes d'inertie qui sont précisément les axes de plus grande variation de . En tronquant aux premières valeurs singulières, on conserve les axes d'inertie suivant lesquels s'alignent le mieux les points du nuage. Ainsi on capture la structure la plus significative de la matrice. Il faut voir la décomposition en valeurs singulières comme une méthode qui réduit la dimension du problème et, surtout, qui permet de représenter mots et documents dans un même espace de dimension . L'espace de dimension s'interprète comme un espace de concepts. On ne peut pas vraiment espérer mettre un nom sur ces concepts. Mais ce n'est pas gênant : tout ce dont on a besoin est de savoir dans quelle mesure les différents concepts (abstraits) sont présents dans tel mot et tel document, de manière a comparer ceux-ci. Mathématiquement, puisque le mot et le document sont représentables dans un même espace, un simple calcul de la distance entre leurs représentants fournit une quantification de leur proximité. Au final, les documents renvoyés peuvent ne contenir aucun mot de la requête mais être pertinents.
Pour comparer les documents dans l'espace réduit à un vecteur requête , nous transformons tout d'abord le vecteur en un pseudo document dans l'espace réduit. Nous avons que nous pouvons dériver en . La vecteur ligne dans l'espace réduit peut donc être obtenu par :
(65) |
Pour mesurer la similarité entre le document et le document , il suffit de réaliser le produit scalaire entre les vecteurs lignes et de la matrice . Il est aussi possible de calculer les mots les plus pertinents pour un document.
Des expériences réalisées sur des corpus de texte adaptés à la recherche d'informations montrent que LSI donne des résultats similaires ou légèrement meilleurs que les modèles classiques en RI [Deerwester et al., 1990].
Contrairement à LSA qui utilise une table de cooccurrences terme-document, PLSA nécessite une table de probabilité jointe. Soit la matrice de taille dont chaque case contient la probabilité de cooccurrences du mots et du document . On peut définir une variable de classe non observée (c'est à dire que l'on suppose l'existence d'un certain nombre de classes dont on ne sait rien) telles que :
(66) |
(67) |
(68) |
Un modèle de probabilité jointe sur est obtenue en marginalisant sur les classes :
(69) |
Les paramètres du modèle PLSA sont et . donne la probabilité d'avoir le mot sachant que l'on considère la classe , elle permet donc d'annoter de nouveaux documents (rappel : ). Par contre, ne donne aucune information sur un nouveau document. Ces paramètres sont obtenus à l'aide de l'algorithme EM (Expectation-Maximization) [Dempster et al., 1977] sur un ensemble d'apprentissage. L'algorithme standard EM apprend les paramètres et en maximisant la vraisemblance des données.
Pour annoter un document , on calcule la probabilité a posteriori d'avoir un mot donné sachant que l'on connaît :
(70) |
Le modèle PLSA ne fournit pas de modèle probabiliste au niveau du document : chaque document est représenté par la proportion de chaque concept dans le document de la base d'apprentissage. Ce qui conduit à deux problèmes :
Dans [La Cascia et al., 1998], une première utilisation de LSI combinant texte et visuel est proposée. Leur objectif est de construire un moteur de recherche d'images par le contenu sur le web, appelé ImageRover (voir partie 2.3 page ), prenant en compte les liens sémantiques reliant les deux modalités. Chaque image d'une page web (document) est représentée par un vecteur prenant en compte la fréquence des mots dans la page : les mots du titre de la page, en gras, en italique sont pondérés plus fortement, les champs ALT de IMG ainsi que les mots proches de l'image sont également plus fortement pondérés pour chaque image. La matrice terme-image est ainsi construite et peut être décomposée par SVD. Chaque image peut donc être décrite textuellement par un vecteur dans l'espace réduit. Pour le visuel, des histogrammes de couleurs et de textures simples sont extraits, puis réduit par ACP. Chaque image est finalement indexée par un vecteur global concaténant les vecteurs visuels (réduits par ACP) et textuels (réduits dans l'espace latent). La recherche d'images revient alors à une recherche par plus proche voisin. L'utilisateur peut réaliser une requête par mots-clés, transformée par le système en un document-requête, la recherche par plus proche voisin étant effectuée alors que dans l'espace textuel latent. Il peut également choisir plusieurs images-requêtes. Les deux types de requêtes pouvant être combinées et raffinées par bouclage de pertinence. Des expériences ont été menées sur un ensemble d'apprentissage de 58908 images du web, utilisées une seule fois pour obtenir les paramètres pour la SVD et l'ACP. Les résultats de recherche de 100 images (une par une) sur 10000 images, indexées avec les paramètres appris sur l'ensemble d'apprentissage, montrent que la méthode par combinaison de texte et d'images avec bouclage de pertinence est plus efficace que les méthodes de recherche par mots-clés seuls, ou par mots-clés et bouclage de pertinence, et par contenu visuel et bouclage de pertinence. Cependant, comme LSI est utilisé seulement sur le texte, le modèle n'est pas capable de trouver les cooccurrences entre les traits visuels et les mots.
Par contre, dans [Westerveld, 2000], [Zhao & Grosky, 2002] et [Monay & Gatica-Perez, 2003], chaque document est représenté par un vecteur construit par concaténation des vecteurs des deux modalités. La principale difficulté est de trouver comment équilibrer les deux modalités. En effet, les vecteurs utilisés jusqu'alors était adaptés aux textes : chaque document est décrit par peu de mots comparé aux grands nombres de mots possibles, et les valeurs sont discrètes, tandis que dans la modalité visuelle, toutes les dimensions sont renseignées et les valeurs peuvent être continues (par exemple, un histogramme de couleurs). C'est pourquoi [Westerveld, 2000] propose de définir pour la partie visuelle un espace discret qui a le même genre de distribution que le texte. Deux expériences sur environ 3000 images sont réalisées. Dans la première, le nombre de dimensions visuelles (environ 38000 dont 625 renseignées en moyenne par document) est beaucoup plus important que le nombre de dimensions textuelles (environ 4000 dont 27 renseignées en moyenne par document). Dans la seconde, les deux vecteurs ont le même nombre de dimensions (environ 4000 dont 1131, respectivement 27, renseignées en moyenne par document). Pour chacune de ces expériences, LSI est utilisé pour indexer le texte seulement, le visuel seulement, la combinaison des deux. La première expérience montre que les résultats obtenus par combinaison des deux sont plus proches des résultats obtenus pour le visuel (recouvrement de plus de 80%) que pour le textuel (recouvrement d'environ 7%). La seconde montre que lorsque les deux modalités sont bien équilibrées dans le vecteur, la combinaison des deux modalités donne de meilleurs résultats que le texte ou le visuel seul, montrant que les moteurs de recherche d'images peuvent tirer profit de la combinaison des deux modalités. [Zhao & Grosky, 2002] obtiennent des résultats similaires.
|
Dans [Monay & Gatica-Perez, 2003], LSA et PLSA sont utilisées pour construire un système d'auto-annotation. Dans leur modèles LSA et PLSA-MIXED, chaque image de la base d'apprentissage est représentée par un vecteur concaténant un vecteur textuel de 149 dimensions et un vecteur de couleurs RVB de 648 dimensions. Pour annoter une image, les dimensions du vecteur correspondant aux mots-clés sont mis à zéro. Les expériences qu'ils ont menées sur environs 16000 images de COREL et 149 mots-clés montrent, contre toute attente, que dans leur cas, le modèle LSA est meilleur que le modèle PLSA-MIXED (voir tableau 4.1 page ). Ils supposent dans [Monay & Gatica-Perez, 2004] que la raison du mauvais score de PLSA-MIXED est que les deux modalités (textuelles et visuelles) sont définies dans PLSA-MIXED avec la même importance lors de la définition de l'espace latent ([Barnard et al., 2003b] fait la même hypothèse). C'est pourquoi la modalité visuelle est fortement privilégiée. Or c'est celle qui contient le moins d'information sémantique. C'est pourquoi ils proposent dans [Monay & Gatica-Perez, 2004,Monay, 2004] de construire un espace latent pour chacune des modalités, mais en contraignant l'espace construit sur les traits visuels pour s'assurer de sa consistance sémantique, puis de joindre les deux modèles. Ce modèle PLSA-WORDS est construit ainsi :
(71) |
|
[Barnard & Forsyth, 2001,Barnard et al., 2001,Barnard et al., 2003b] proposent plusieurs modèles générateurs basés sur la même structure hiérarchique et dérivés du aspect model présenté dans [Hofmann, 1998,Hofmann et al., 1998] (le modèle PLSA [Hofmann, 2001] présenté dans la partie 4.2.2 page dérive également de ce modèle). Pour plus de facilité, nous nommerons MOM-HAM cette famille de modèles.
Ces modèles sont basés sur deux principes :
(72) |
Modèle I-0 | Modèle I-1 | Modèle I-2 | |
[Barnard et al., 2003b] | [Barnard & Forsyth, 2001] | [Barnard et al., 2001] | |
Modèle D-0 | Modèle D-1 | Modèle D-2 | |
[Barnard et al., 2003b] | [Barnard et al., 2003b] | [Barnard et al., 2003b] | |
Pour estimer la probabilité d'émettre le mot connaissant la structure hiérarchique, une distribution multinomiale basée sur la table des fréquences des mots est utilisée. La probabilité d'émettre une instance de l'espace visuel est estimée par une distribution gaussienne . Les paramètres et des distributions gaussiennes sont estimées en utilisant l'algorithme classique EM [Dempster et al., 1977] (voir annexe B page ).
Remarquons que les modèles I-0 et I-1 sont dépendants des données d'apprentissages. Ils sont donc efficaces pour les applications de type recherche de documents, mais pas pour les applications sur des données hors de la base d'apprentissage. Le modèle I-2 n'est pas dépendant de , on peut donc écrire pour ce modèle .
(74) |
Dans [Barnard et al., 2003b], les modèles d'auto-annotation et de recherche d'information que nous allons décrire sont surtout donnés pour les modèles indépendants, mais peuvent être facilement estimés pour les modèles dépendants. C'est pourquoi nous donnons seulement les formules de probabilités valables pour les modèles indépendants.
(75) |
Un modèle simple de prédiction de mot sachant une région d'image peut être dérivé à partir de la cooccurrence des mots et des régions d'images dans un même noeud :
(76) |
(77) |
Les expériences sont réalisées sur 16000 images de Corel (le même corpus que notre corpus Corel, mais pas les mêmes ensembles (voir annexe A page )) : 8000 images séparées aléatoirement en 75% pour l'apprentissage (training set), 25% pour le test (held out set), et 8000 autres images extraites de CD différents de Corel (novel set). Ce dernier ensemble permet d'estimer dans une certaine mesure la capacité des modèles à travailler sur de nouvelles images. Le vocabulaire est de 155 mots. Les traits visuels comportent des traits classiques de couleurs, textures et formes. Les vecteurs représentants les blobs sont discrétisés en 500 catégories. Les modèles à structure unaire (linear) possèdent une classe et 500 noeuds. Les modèles à structure binaire (binary) possèdent 9 niveaux, soient 511 noeuds. Les meilleurs scores obtenus avec ces modèles sont pour un nombre d'itérations de l'algorithme EM de 10.
|
La distribution a priori des classes peut être estimée directement (expérience region-only) ou bien être remplacée par la distribution de la classe connaissant les distribution des blobs (expérience region-cluster) afin de prendre an compte également l'information apportée par les autres blobs. De même, pour les poids des composants verticaux (les niveaux), peut-être être estimée en ne prenant en compte que l'information visuelle (expérience doc-vert) ou un mélange des distributions textuelles et visuelles des clusters (expérience ave-vert).
Dans [Barnard et al., 2003b], les résultats de très nombreuses expériences sont proposées. Parmi tous les modèles décrits, certains permettent de mieux annoter une image, d'autres un blob (modèle de correspondance). Il est difficile de dire quel est le meilleur modèle en général. Les modèles à structure unaire ou binaire donnent des résultats similaires. Les expériences doc-vert, ave-vert et region-only donnent en général des résultats légèrement inférieurs à l'expérience region-cluster. Les expériences D-0 et I-0 donne en général des résultats inférieurs aux expériences D-2 et I-2. Les expériences D-2 et I-2 donnent des résultats similaires sur l'ensemble de test (held out). Cependant, sur l'ensemble novel, I-2 donne des résultats très légèrement meilleurs. L'expérience binary-D-2-region-cluster donne les meilleurs résultats pour la tâche d'auto-annotation mesurée avec la mesure (un gain de +57% sur le modèle empirique ) et aussi avec la mesure (un gain de +42% sur le modèle empirique ) (voir tableau 4.3).
De nombreux autres modèles sont décrits dans [Barnard et al., 2003b] que nous ne pouvons décrire faute de place. Nous verrons cependant le modèle MoM-LDA dans la partie 4.4.4 page .
La distribution de Dirichlet (voir annexe B.1 page ) estime le vecteur de probabilités où est la probabilité que le concept (appelé aussi classe cachée ou latente) soit dans le document , en fonction du nombre d'occurrences de chaque concept dans le document.
Le modèle Latent Dirichlet Allocation (LDA) proposé dans [Blei et al., 2003] utilise la distribution de Dirichlet afin de modéliser les grand corpus de texte ou de données discrètes. Son objectif est de trouver des descripteurs de petite dimension qui permettent la classification, l'indexation et la recherche de documents, tout en gardant les relations importantes entre les documents. Le nombre de dimensions des descripteurs correspond au nombre de concepts cachés.
Après une rapide présentation du modèle LDA, nous décrivons les modèles GM-LDA, MOM-LDA et CORR-LDA qui utilisent le modèle LDA comme une sous-structure permettant le mélange des informations textuelles et visuelles. Nous rappelons au lecteur que l'annexe B.2 page propose une introduction aux modèles graphiques probabilistes.
Le modèle LDA est un modèle probabiliste génératif d'un corpus de données discrètes, comme par exemple des corpus de textes. C'est un modèle hiérarchique bayésien à trois niveaux qui suppose que les mots et les concepts sont interchangeables. Chaque document du corpus est modélisé comme un mélange de concepts.
Pour chaque document , le modèle LDA a le processus génératif suivant :
Connaissant les paramètres et , la probabilité jointe entre la proportion de concept , un ensemble de concepts et un ensemble de mots est :
(78) |
La distribution des mots pour un document donné, c'est-à-dire l'indexation du document, est obtenue par :
(79) |
Le modèle LDA peut être vu comme une technique de réduction de dimensions dans l'esprit de la LSA, mais le modèle LDA réduit l'espace à concepts qui ont un sens par rapport avec les données sur lesquelles elle travaille. Il n'est pas possible de faire de l'inférence exacte avec le modèle LDA, mais de nombreux algorithmes d'inférence par approximation peuvent être utilisés. Un des avantages du modèle LDA est sa modularité et son extensibilité (contrairement à LSA), comme nous allons le voir pour trois modèles appliqués à des documents visuo-textuels.
(80) |
Les paramètres du modèle peuvent être estimés à l'aide de l'algorithme EM, ou bien par une procédure d'inférence. On obtient alors un ensemble de distributions gaussiennes de traits visuels et de distributions multinomiales des mots qui décrivent classes visuo-textuelles. Comme chaque annotation visuo-textuelle est supposée générée par la même classe, une image qui a une forte probabilité d'avoir une certaine distribution gaussienne aura une forte probabilité d'avoir la distribution multinomiale correspondante.
(81) |
(82) |
(83) |
Du fait de la structure du modèle GM-MIXTURE, les mots et les régions sont générés par le modèle de manière indépendante conditionnellement à , il n'est donc pas possible d'associer une distribution de mots à une région spécifique de l'image.
(84) |
Les paramètres de ce modèle sont : le vecteur , les matrices , , et .
(85) |
Le modèle MOM-LDA est similaire au modèle I-0 présenté partie 4.3 page en ce qu'il dérive sa capacité à prédire des mots du niveau le plus haut du modèle. Le modèle MOM-LDA a l'avantage de permettre de traiter plusieurs concepts, ce qui n'est pas forcément le cas des modèles hiérarchiques MOM-HAM. Par exemple, le modèle I-2 essaye de trouvé un seul concept pour le document entier, et utilise ce concept pour prédire les mots, tandis que le modèle MOM-LDA peut regrouper plusieurs concepts grâce au conditionnement de par la distribution de Dirichlet (voir figure 4.4(c)).
(86) |
(87) |
(88) |
D'après les expériences menées dans [Blei & Jordan, 2003], le modèle CORR-LDA donne de meilleurs résultats que les modèles GM-MIXTURE et GM-LDA selon la mesure perplexity (voir formule 4.4 page ). Il n'existe malheureusement pas dans la littérature de comparaisons entre le modèle MOM-LDA et les modèles GM-LDA et CORR-LDA. Cependant, l'avantage des modèles probabilistes est qu'ils permettent de visualiser et d'interpréter les dépendances entre les éléments. Nous pouvons donc comparer ces modèles en comparant les dépendances entre leurs éléments. Pour cela, nous utilisons leurs modèles graphiques présentés dans les figures 4.4 et 4.5. Nous notons que les trois modèles sont constitués de deux variables observées (le nombre de blobs et le nombre de mots de chaque document), ainsi que d'un certain nombre de variables latentes (3 pour les modèles GM-LDA et CORR-LDA, et 4 pour le modèle MOM-LDA). Du fait que le modèle MOM-LDA dispose d'une structure hiérarchique comportant plus de niveaux, il est donc plus flexible que les autres modèles. Cependant, il dispose également de plus de dépendances (7 dépendances, contre 4 pour GM-LDA et 5 pour CORR-LDA), il est donc plus complexe à mettre en oeuvre que les autres modèles. Contrairement au modèle GM-LDA, les modèles MOM-LDA et CORR-LDA proposent une dépendance directe des variables et à la même variable ( pour CORR-LDA et pour MOM-LDA). Cependant, le modèle MOM-LDA propose une interchangeabilité entre les blobs et les mots. Or la comparaison des scores de GM-LDA et de CORR-LDA montre que l'interchangeabilité totale n'est pas forcément une bonne option pour l'auto-annotation. Le modèle CORR-LDA qui est plus simple et qui possède une interchangeabilité partielle entre les blobs et les mots semble donc être préférable au modèle MOM-LDA, mais la plus grande flexibilité et les mélanges adaptés des composantes sont des atouts non-négligeables du modèle MOM-LDA. Bien entendu, seule la comparaison de résultats expérimentaux permettrait réellement de conclure.
L'annotation automatique d'images est un domaine très récent.
Il semble en effet que les premiers travaux datent de 1999. Mais ce n'est qu'à partir de 2002 que l'on peut observer un accroissement
du nombre de publications dans ce domaine.
[Datta et al., 2005,Hare et al., 2006] proposent des états de l'art récents des techniques d'auto-annotation.
Dans le tableau 4.4, nous listons les principaux articles
de l'état de l'art sur l'auto-annotation d'images.
Pour chaque article, nous précisons le type de techniques utilisées.
De plus, pour les modèles expérimentés sur l'ensemble
Corel fournit par les auteurs de [Duygulu et al.,
2002],
nous avons ajouté dans ce tableau
les valeurs de précision moyenne (colonne mP), de rappel moyen (colonne mR), ainsi
que le nombre de mots qui ont un rappel et une précision supérieure à zéro
(colonne
). Ces mesures ont été décrites dans la partie 4.1.3 page .
Ces valeurs ont été collectées dans [Carneiro & Vasconcelos, 2005,Gao et al., 2006,Yavlinsky et al., 2005,Jin et al., 2004].
Les valeurs moyennes de rappel et de précision choisies pour [Yavlinsky et al., 2005]
sont celles de l'expérience TAMURACIE-
Les résultats obtenus dans [Yavlinsky et al., 2005] ne peuvent
être comparés avec les autres systèmes sans préciser que
les descripteurs visuels utilisés ne sont pas ceux utilisés par les autres systèmes.
En effet, la plupart des autres systèmes essayent de trouver
la meilleure méthode pour faire de l'auto-annotation à partir
des mêmes descripteurs visuels locaux.
Par contre, dans [Yavlinsky et al., 2005], les descripteurs visuels utilisés
sont globaux. Ils montrent que, à l'aide de descripteurs globaux
de couleurs et de simples estimations de densités,
on peut obtenir les mêmes scores que les modèles de l'état de l'art sur Corel.
Les résultats de rappel/précision moyen présentés dans le
tableau 4.4 permettent de comparer
les modèles d'auto-annotation. Nous voyons que les modèles sont
de plus en plus efficaces. Les modèles présentés dans [Carneiro & Vasconcelos, 2005,Gao et al., 2006]
donnent actuellement les meilleurs résultats.
Si nous comparons les techniques utilisées pour construire les modèles
que nous avons décrit dans ce chapitre
ainsi que ceux qui sont brièvement décrits dans le tableau,
nous voyons que la combinaison des informations textuelles et visuelles
peut s'effectuer de différentes manières :
par fusion précoce (par exemple, dans [Monay & Gatica-Perez, 2004],
les deux modalités sont regroupées dans le même espace),
de manière indépendante l'une de l'autre
(par exemple, les modèles I-0, I-1, I-2, GM-LDA, MOM-LDA...)
ou bien de manière dépendante (modèles D-0, D-1, D-2, CORR-LDA...).
Nous voyons également qu'il existe des modèles hiérarchiques
(MOM-HAM, MOM-LDA, MIX-HIER...) qui tentent
de capturer l'information sur plusieurs niveaux
et d'autres non-hiérarchiques (LSA, PLSA),
des modèles qui utilisent des techniques non-supervisées [Duygulu et al.,
2002,Barnard et al., 2003b,Blei & Jordan, 2003,Lavrenko et al., 2003,Li & Wang, 2003,Feng et al., 2004]
et d'autres supervisées [Carneiro & Vasconcelos, 2005,Li et al., 2003].
Certains utilisent des blobs [Barnard et al., 2003b,Fan et al., 2004], d'autres préfèrent des régions
rectangulaires [Jeon & Manmatha, 2004,Monay & Gatica-Perez, 2003,Feng et al., 2004], ou bien encore
utiliser l'image entière [Yavlinsky et al., 2005].
Comparer des modèles aussi différents qui n'utilisent pas
les mêmes données d'apprentissage et qui ne sont
pas toujours construits avec le même objectif est difficile.
Nous avons comparé dans le tableau 4.4
des modèles expérimentés sur les données fournies par les auteurs
de [Duygulu et al.,
2002] et qui utilisent les mesures de rappel et de précision moyennes.
Nous comparerons dans la partie 5.4 page ,
les modèles utilisant le score NS et les données utilisées
dans [Barnard et al., 2003b] avec le modèle d'auto-annotation
que nous proposons dans cette thèse et qui sera décrit au chapitre suivant.
Références
Principes
Next: 2 Propositions
Up: 1 État de l'art
Previous: 3 Apprentissage automatique et
Contents
Index
Tollari Sabrina
2008-01-08