next up previous contents index
Next: 2 Propositions Up: 1 État de l'art Previous: 3 Apprentissage automatique et   Contents   Index

Subsections


4 Annotation automatique d'images : un état de l'art

L'annotation automatique d'images consiste à associer à chaque image un groupe de mots qui décrit le contenu visuel de l'image au moyen d'un système sans aucune intervention humaine. Cette tâche a fait, et fait toujours, l'objet de nombreux travaux. Dans ce chapitre, nous décrivons quelques modèles d'auto-annotation d'images de l'état de l'art. Ces modèles sont principalement utilisés pour l'auto-annotation d'images, mais aussi pour d'autre tâches telles que l'annotation de région d'images avec un seul mot (appelée parfois modèle de correspondance), la recherche d'images, la désambiguiation de mots par le contenu visuel...

Pour les modèles probabilistes, l'auto-annotation consiste à estimer pour chaque mot $ w$ la probabilité a posteriori :

Pour pouvoir mesurer la capacité d'un système a annoter une image, on utilise des corpus d'images pour lesquels chaque image a préalablement été annotée manuellement par un ensemble de mots de référence $ \mathcal{W}_{Ref}^{d}$ (légende de l'image). L'objectif du système est alors de prédire, pour chaque image, d'une part le plus de mots de sa légende, et, d'autre part le moins de mots possible.

Après avoir résumé quelques mesures standards de performances (partie 4.1), nous décrivons quelques modèles de l'état de l'art : les modèles basés sur l'analyse de la sémantique latente (partie 4.2), plusieurs modèles présentés dans [Barnard et al., 2003b] basés sur une structure hiérarchique (partie 4.3), et quelques modèles probabilistes basés sur la distribution de Dirichlet [Blei & Jordan, 2003] (partie 4.4).


1 Mesures de performance

Dans [Tsai et al., 2006], plusieurs façons d'évaluer les performances d'auto-annotations sont proposées :

Dans cet état de l'art, nous nous intéressons seulement à la troisième façon. Il n'existe pas actuellement de base dédiée à l'auto-annotation d'images. Cependant, dans la littérature, la base la plus utilisée est la base Corel [Wang, 2004,Muller et al., 2002,Wang et al., 2001]. C'est pourquoi nous utiliserons cette base.


1 Score empirique et aléatoire

Pour mesurer la qualité d'un modèle prédictif, il est important de prendre en compte la difficulté de la tâche à effectuer. Par exemple, si l'on souhaite prédire le temps qu'il fera, et que l'on sait qu'il fait beau 350 jours par an, un modèle qui prédit qu'il fait toujours beau fait seulement 4% d'erreurs. Pour mesurer la qualité des résultats d'un modèle prédictif, il est important de mesurer le score obtenu par rapport à celui d'un modèle construit uniquement sur la connaissance a priori (appelé modèle empirique)

Les systèmes d'annotations automatiques ont tendance à prédire surtout les mots très courants, comme sky, water, people, et très peu les mots peu fréquents, tels que anemone, cactus, elephant. Un modèle qui annote les images avec les mots les plus courants obtient un très bon score. Cependant, il se peut que ce modèle n'apporte en fait aucune nouvelle information. C'est pourquoi il est important de comparer ce score au score empirique obtenu à partir de la fréquence des mots dans la base (distribution a priori). De plus, cela permet de rendre comparable les scores de différents modèles obtenus sur des données de difficultés différentes.

Le score empirique ne doit pas être confondu avec le score aléatoire obtenu par classification aléatoire des données. Concrètement, il peut être obtenu en calculant une distribution a priori des mots de manière aléatoire.

2 Mesurer la qualité de la distribution a posteriori

Pour les modèles prédictifs, Barnard et al. [Barnard et al., 2003b] proposent de mesurer la qualité de la distribution a posteriori des mots en calculant la divergence de Kullback-Leibler entre la distribution des mots $ p(w\vert\mathcal{B}^{d})$ produite par le modèle en connaissant l'ensemble des blobs $ \mathcal{B}^{d}$ de l'image $ d$ et la distribution $ p(w)$ réelles des mots de cette image. Malheureusement, cette dernière distribution est inconnue. On peut cependant supposer que les mots qui devraient réellement annoter cette image suivent une distribution uniforme, et que les autres mots ne sont pas prédits, autrement dit :

$\displaystyle p(w)=\left\{ \begin{array}{cl} \frac{1}{n_{\mathcal{W}_{Ref}^{d}}}&si w\in\mathcal{W}_{Ref}^{d} 0&sinon. \end{array} \right.$ (50)

Par définition, l'erreur sur un document $ d$ est calculée par :

\begin{displaymath}\begin{array}{rcl} E_{KL}^{(mod\grave{e}le)}(d) &=&\sum\limit...
...\mathcal{W}_{Ref}^{d}}\log p(w\vert\mathcal{B}^{d}) \end{array}\end{displaymath} (51)

$ constante=-\log n_{\mathcal{W}_{Ref}^{d}}.$ Pour mesurer la performance d'un groupe d'images, il suffit de calculer la moyenne des $ E_{KL}^{(mod\grave{e}le)}(d)$ . Pour mesurer la performance par rapport au modèle empirique sur les données de l'ensemble de test $ \mathcal{T}$ , il suffit de calculer :

$\displaystyle \Delta_{KL}=\frac{1}{n_{\mathcal{T}}}\sum\limits_{d\in\mathcal{T}}\big(E_{KL}^{(empirique)}-E_{KL}^{(mod\grave{e}le)}(d)\big).$ (52)

$ \Delta_{KL}$ est négatif quand le score du modèle est inférieur au score du modèle empirique, positif sinon.

Une mesure similaire est proposée dans [Blei & Jordan, 2003]. La qualité de l'annotation d'un modèle est évaluée en utilisant une mesure classique de la communauté traitement du langage et appelée caption perplexity :

$\displaystyle perplexity=exp\Bigg\{ -\frac {\sum_{d\in\mathcal{T}}{\sum_{w\in\m...
...ert\mathcal{B}^{d})} {\sum_{d\in\mathcal{T}}n_{\mathcal{W}_{Ref}^{d}}} \Bigg\}.$ (53)

Pour cette mesure, plus le score est faible, plus le modèle est performant.

Nous remarquons que ces deux mesures ne prennent en compte que les mots qui sont dans la légende initiale.


3 Rappel et précision

Le rappel et la précision sont deux mesures classiques en recherche d'information. Le rappel (recall) est le rapport du nombre de documents pertinents trouvés au nombre total de documents pertinents. La précision (precision) est le rapport du nombre de documents pertinents trouvés au nombre total de documents sélectionnés.

Soient $ n$ le nombre de documents pertinents, $ r$ le nombre de documents pertinents retrouvés et $ \omega $ le nombre de documents non-pertinents retrouvés. Le rappel $ R$ et la précision $ P$ sont définis par :

$\displaystyle R=\frac{r}{n}   \mathrm{et}   P=\frac{r}{r+\omega }.$ (54)

Pour utiliser ces mesures dans le cadre de l'auto-annotation, on effectue pour chaque mot du lexique une requête $ q=\{w\}$ comportant seulement le mot. On compte ensuite le nombre $ n_{\mathcal{W}_{\not=\emptyset}}$ de mots pour lesquels au moins une image a été retrouvée :

$\displaystyle n_{\mathcal{W}_{\not=\emptyset}}=\sum_{w\in\mathcal{W}}\vert\{w\vert R(w)>0 \mathrm{et} P(w)>0\}\vert.$ (55)

Puis on mesure le rappel moyen $ mR$ et la précision moyenne $ mP$ sur tous les mots de $ \mathcal{W}_{\not=\emptyset}$  :

$\displaystyle mR=\sum_{w\in\mathcal{W}_{\not=\emptyset}}\frac{r(w)}{n(w)}   ...
...et}   mP=\sum_{w\in\mathcal{W}_{\not=\emptyset}}\frac{r(w)}{r(w)+\omega (w)}$ (56)

$ n(w)$ est le nombre d'images de test annotées par $ w$ , $ r(w)$ est le nombre d'images dont la légende contient initialement le mot et que le système a annoté avec le mot, $ \omega (w)$ le nombre d'images non-annotées initialement par ce mot et annotées par le système avec ce mot. Lorsque l'on utilise les mesures $ mP$ et $ mR$ , il est important de préciser le nombre $ n_{\mathcal{W}_{\not=\emptyset}}$ de mots pour lesquels au moins une image a été retrouvée, car un système peut obtenir un fort rappel moyen et une forte précision moyenne en prédisant seulement les mots les plus fréquents.


4 Normalized Score (NS)

Une mesure très largement utilisée [Barnard et al., 2003b,Monay & Gatica-Perez, 2003,Viitaniemi & Laaksonen, 2005] pour mesurer les performances des systèmes d'auto-annotation est le Normalized Score (NS). Nous en donnons d'abord la définition générale valable pour tout système de recherche d'information ou de classification à deux classes : éléments pertinents et non-pertinents, puis nous l'appliquons dans le cas de systèmes d'auto-annotation d'images.


\begin{definition}[Normalized Score]
Soit $N$ le nombre d'éléments de l'ensembl...
...gin{equation}
NS=\frac{r}{n}-\frac{\omega }{N-n}.
\end{equation}\end{definition}

Ce score est composé de deux termes : le premier est le nombre d'éléments pertinents retrouvés normalisé par le nombre d'éléments pertinents (appelé aussi rappel ou sensibilité), le deuxième est le nombre d'éléments non-pertinents retrouvés normalisé par le nombre d'éléments non-pertinents (il est égal à 1-spécificité). Le score $ NS$ est compris entre -1 et 1. $ NS=1$ quand tous les éléments retrouvés sont tous les éléments pertinents ($ r=n$ et $ \omega =0$ ). $ NS=-1$ quand tous les éléments retrouvés sont tous les éléments non-pertinents ($ r=0$ et $ \omega =N-n$ ). $ NS=0$ quand tous les éléments sont trouvés ou qu'aucun élément n'est trouvé ($ r=n$ et $ \omega =N-n$ ou $ r=0$ et $ \omega =0$ ).

Ce score permet de prendre en compte à la fois les éléments retrouvés par le système, mais aussi les éléments non-pertinents retrouvés en fonction du nombre d'éléments non-pertinents, et non pas en fonction du nombre d'éléments retrouvés comme le font les mesures basées sur rappel et précision. Il est donc particulièrement adapté pour les expériences où le nombre d'éléments non-pertinents retrouvés et non-retrouvés sont très grands devant le nombre d'éléments pertinents. Par exemple, les images de la base Corel possèdent en moyenne 3 mots pertinents ($ n$ =3) choisis parmi un lexique de 200 mots environ ($ N$ =200). Comme nous le verrons dans ce chapitre, retrouver les 3 mots de la légende d'une image est un problème très difficile. Cependant, un système qui est capable de retrouver 2 des 3 mots pertinents tout en acceptant 20 autres mots ($ \omega $ =20) sur un lexique de 200 mots ($ NS$ =2/3-20/197=0.57, précision=0.09), est plus efficace qu'un système qui retrouve 2 mots sur 3, tout en acceptant 20 autres mots d'un lexique de 100 mots ($ NS$ =2/3-20/97=0.46, précision=0.09). Le score NS permet donc de comparer des résultats sur des modèles qui ne possèdent pas le même nombre d'éléments.


\begin{definition}[Average Normalized Score]\index{ANS} %\index{Average Normaliz...
... l'image par le système, $N$ est le nombre de mots du lexique.
\end{definition}
[Viitaniemi & Laaksonen, 2005] propose une version matricielle du score NS moyen.

Afin de pouvoir comparer différents modèles, il est préférable de calculer la différence $ \Delta_{NS_{moy}}$ et le gain $ G_{NS_{moy}}$ sur le modèle empirique :

$\displaystyle \Delta_{NS_{moy}}=NS_{moy}^{(mod\grave{e}le)}-NS_{moy}^{(empirique)}   et  G_{NS_{moy}}=\frac{\Delta_{NS_{moy}}}{NS_{moy}^{(empirique)}}.$ (57)

Une mesure proche du score NS est utilisée dans [Barnard et al., 2003b] et [Monay & Gatica-Perez, 2004]. Pour chaque image, on impose que le système prédise exactement le nombre de mots de la légende de l'image ( $ r+\omega =n_{\mathcal{W}_{Ref}^{d}}$ ), puis on mesure l'exactitude de l'annotation (annotation accuracy) [Monay & Gatica-Perez, 2004] en calculant :

$\displaystyle Acc(d)=\frac{r(d)}{n_{\mathcal{W}_{Ref}^{d}}}.$ (58)

Le score de prédiction moyen (word prediction score) [Barnard et al., 2003b] est alors calculé ainsi :

$\displaystyle PR_{moy}^{(mod\grave{e}le)}=\sum_{d\in\mathcal{T}}\frac{r(d)}{n_{\mathcal{W}_{Ref}^{d}}}.$ (59)

Ce score suppose que le nombre de mots qui annotent une image est connu. Or cette information n'est pas connue lorsque l'on souhaite annoter de nouvelles images. Cette mesure utilise donc une information qui peut fausser les performances réelles du système.

Nous remarquons que dans le cas où le nombre de mots du lexique est très grand devant le nombre de mots prédits ( $ N»(r+\omega )$ ), le score de prédiction moyen est une bonne approximation du score NS moyen. Cependant, cette mesure ne permet pas de comparer des expériences réalisées sur des corpus contenant un nombre de mots différents. Par exemple, soit un corpus $ A$ dont le lexique comprend 100 mots et un corpus $ B$ , pouvant contenir les mêmes images, dont le lexique comprend 1000 mots. Supposons qu'à partir des deux corpus, nous annotions une image $ d$ et obtenons 1 mot juste sur 5, nous aurons $ Acc_{A}(d)=Acc_{B}(d)=1/5=0.2$ , mais $ NS_{A}=1/5-4/100=0.16$ et $ NS_{B}=1/3-4/1000=0.196$ . Le score NS prend en compte la difficulté de la tâche (la probabilité de faire une erreur est plus grande quand on a un lexique qui contient beaucoup de mots), mais pas le score $ Acc$ .

Nous pouvons généraliser ce score pour les systèmes qui annotent chaque image avec un nombre de mots prédits fixe à condition de faire des comparaisons sur des expériences ayant le même nombre de mots dans le lexique.

5 Discussion

Les mesures d'erreurs que nous avons décrites ne font pas la différence entre une substitution entre deux termes proches (house au lieu de building), et entre deux termes très éloignés (house au lieu de elephant). Pour construire ce type de mesure, il serait intéressant de prendre en compte dans la mesure un thésaurus.

Mesurer les scores de modèles de correspondance, c'est-à-dire de modèles permettant d'associer un mot à une région d'image, est difficile, car il est nécessaire d'annoter manuellement les régions d'une grande base d'images. De plus, la probabilité pour que deux personnes annotent une région d'images avec le même mot est faible. Pour mesurer les performances d'un modèle de correspondance, il suffit d'annoter chaque région, puis d'en dériver une annotation pour l'image, et enfin de mesurer le score du modèle d'annotation d'images obtenu. D'après [Barnard et al., 2003b], il est raisonnable de penser qu'une mauvaise méthode d'annotation d'images sera aussi mauvaise pour l'annotation de régions d'images. D'ailleurs, la plupart des modèles d'annotation d'images sont construits de telles sortes qu'ils puissent annoter une région d'images, et inversement.

Pour mesurer les performances d'un modèle d'auto-annotation, il est important de prendre aussi en compte d'autres facteurs tels que :

La valeur des scores obtenus dépend du nombre de mots dans le vocabulaire, ainsi que de la difficulté de la tâche, et des données. Il existe d'autres mesures d'auto-annotation qui prennent en compte certains de ces paramètres. Par exemple, dans [Viitaniemi & Laaksonen, 2005], une mesure appelée DTMI (De-symmetrised Termwise Mutual Information) basée sur la théorie de l'information est proposée. Cette mesure a la particularité de prendre en compte la difficulté de prédiction d'un mot.


2 Indexation multimédia par analyse de la sémantique latente


1 LSA : un modèle par analyse de la sémantique latente

Utilisé tout d'abord pour l'analyse de grand corpus de texte, LSA [Deerwester et al., 1990] pour Latent Semantic Analysis ou analyse de la sémantique latente (ASL), est une technique statistique automatique pour extraire et inférer des relations entre mots à partir de leur contexte. L'utilisation de LSA dans le domaine de l'analyse de documents est pertinente, car des travaux en sciences cognitives montrent que la représentation et l'acquisition de connaissances à partir de textes, la compréhension et l'évaluation de textes, l'extension à des connaissances non issues de textes, à l'aide du modèle LSA, sont comparables à celles des sujets humains lors de tests standardisés [Landauer & Dumais, 1997,Landauer et al., 1998,Lemaire & Dessus, 2003]. LSA est à la fois vu comme un modèle d'acquisition et de représentation des connaissances.

1 Principe

Le sens d'un mot peut être défini statistiquement à partir de l'ensemble des contextes (phrases, paragraphes, textes) dans lesquels ce mot apparaît. Par exemple, le mot autobus sera souvent conjointement associé à démarrer, route, gare routière, et rarement à fleur, barbecue. Cependant, le contexte du mot n'est pas suffisant pour en définir le sens, car il ne dit rien sur les relations avec les mots qui n'apparaissent jamais ensemble. Par exemple, si les mots autobus et autocar n'apparaissent jamais ensemble, nous n'avons aucune information sur les liens sémantiques entre ces mots. Or autocar doit être considéré comme proche de autobus car tous les deux sont cooccurrents avec les mêmes mots. Ce sont donc des enchaînements de liens de cooccurrences à plusieurs niveaux qui permettent une représentation correcte du sens des mots. Pour résoudre cette difficulté, LSA construit une matrice de cooccurrences, constituée du nombre d'apparitions de chaque mot dans chaque contexte, sans tenir compte de leur ordre. Cette matrice est ensuite réduite à l'aide d'une décomposition en valeurs singulières (SVD) (généralisation de l'analyse factorielle) afin de capturer dans une certaine mesure les relations entre les mots et les documents et en espérant que les mots ayant un sens voisin (en particulier les synonymes) auront la même direction dans le nouveau sous-espace.

En résumé, le fonctionnement de LSA est basé sur deux principes : (1) le sens d'un mot peut-être défini statistiquement à partir de l'ensemble des contextes et (2) deux mots sont similaires s'ils apparaissent dans des contextes similaires. Il résout dans une certaine mesure les problèmes suivants :

2 Indexer et rechercher avec LSA

Le modèle d'indexation associé à LSA est LSI (Latent Semantic Indexing) [Deerwester et al., 1990]. Comme dans le modèle vectoriel, chaque document est représenté sous la forme d'un vecteur (représentation «sac de mots»). On peut ainsi construire la matrice terme-document prenant en ligne les mots du lexique et en colonne les documents. Chaque case représente la fréquence d'un mot dans un document. Un problème du modèle vectoriel est que les mots utilisés dans la requête ne sont pas forcément les mêmes que les mots utilisés dans les documents pertinents. En effet, des mots similaires peuvent avoir différents sens (polysémie) et différents mots peuvent avoir le même sens (synonymie). Pour résoudre ce problème, LSA utilise une SVD afin de prendre en compte le contexte des mots et de réduire les dimensions de l'espace.

Soit $ A$ la matrice terme-document et $ r$ son rang, par la méthode algébrique de décomposition en valeurs singulières, elle peut être écrite sous la forme du produit de trois matrices telles que :

\begin{displaymath}\begin{array}{lcr} A=W\Sigma D^t&  & \left\{\begin{array}{c...
...b{R}^{n_{\mathcal{D}}\times r} \end{array}\right. \end{array}\end{displaymath} (60)

$ W$ et $ D$ sont des matrices orthonormales contenant les vecteurs singuliers gauche et droit de $ A$ , et $ \Sigma $ est une matrice diagonale contenant les valeurs singulières de $ A$  :

$\displaystyle \left\{\begin{array}{lcr} \Sigma =diag(\sigma_1,\sigma_2,\cdots,\...
.... rang(\Sigma )=r\le min(n_{\mathcal{W}},n_{\mathcal{D}}). \end{array}\right.$ (61)

Pour diminuer le nombre de dimensions de l'espace, et si l'on suppose que les valeurs singulières de la matrice diagonale $ \Sigma $ sont ordonnées, alors on peut trouver une bonne approximation $ \Tilde{A}$ de $ A$ en mettant à zéro les petites valeurs singulières de $ \Sigma $ afin d'obtenir un espace réduit de dimension $ \Tilde{r}$ choisie :

\begin{displaymath}\begin{array}{lcr} A\cong \Tilde{A}=\Tilde{W}\Tilde{\Sigma }\...
...{\mathcal{D}}\times \Tilde{r}} \end{array}\right. \end{array}\end{displaymath} (62)

$\displaystyle \left\{\begin{array}{lcr} \Tilde{\Sigma }=diag(\sigma_1,\sigma_2,...
...\le rang(\Sigma )=r\le min(n_{\mathcal{W}},n_{\mathcal{D}}). \end{array}\right.$ (63)

Cette opération réalise la projection de l'espace original vers un espace réduit à $ \Tilde{r}$ dimensions. Il a été démontré que, sous certaines conditions, l'espace réduit capture dans une certaine mesure les relations sémantiques entre les mots du corpus [Papadimitriou et al., 1998]. Le nombre de dimensions optimal de l'espace réduit pour la langue anglaise a été estimé empiriquement à 300 dimensions [Landauer & Dumais, 1997].

La SVD effectue un changement de base pour se placer suivant les axes de plus grande variation de la matrice $ A$ . De manière intuitive, on peut se représenter un mot comme un point dans un espace dont la dimension est le nombre de documents $ n_{\mathcal{D}}$ . La matrice $ A$ donne les coordonnées des $ n_{\mathcal{W}}$ mots. Ce nuage de points a des axes d'inertie qui sont précisément les axes de plus grande variation de $ A$ . En tronquant aux $ \Tilde{r}$ premières valeurs singulières, on conserve les axes d'inertie suivant lesquels s'alignent le mieux les points du nuage. Ainsi on capture la structure la plus significative de la matrice. Il faut voir la décomposition en valeurs singulières comme une méthode qui réduit la dimension du problème et, surtout, qui permet de représenter mots et documents dans un même espace de dimension $ \Tilde{r}$ . L'espace de dimension $ \Tilde{r}$ s'interprète comme un espace de concepts. On ne peut pas vraiment espérer mettre un nom sur ces concepts. Mais ce n'est pas gênant : tout ce dont on a besoin est de savoir dans quelle mesure les différents concepts (abstraits) sont présents dans tel mot et tel document, de manière a comparer ceux-ci. Mathématiquement, puisque le mot et le document sont représentables dans un même espace, un simple calcul de la distance entre leurs représentants fournit une quantification de leur proximité. Au final, les documents renvoyés peuvent ne contenir aucun mot de la requête mais être pertinents.

Pour comparer les documents dans l'espace réduit à un vecteur requête $ d_q$ , nous transformons tout d'abord le vecteur $ d_q$ en un pseudo document $ \Tilde{d_q}$ dans l'espace réduit. Nous avons $ X=\Tilde{W}\Tilde{\Sigma }\Tilde{D}^t$ que nous pouvons dériver en $ \Tilde{D}=X^t\Tilde{W}\Tilde{\Sigma }^{-1}$ . La vecteur ligne $ \Tilde{d}_q$ dans l'espace réduit peut donc être obtenu par :

$\displaystyle \Tilde{d}_q=d_q^t\Tilde{W}\Tilde{\Sigma }^{-1}.$ (64)

Il contient le contexte associé au document. Nous pouvons alors utiliser une mesure de similarité classique comme le cosinus pour calculer la distance entre $ d_q$ et chacun des documents dans l'espace réduit. De même, pour un mot $ w_q$ , nous pouvons obtenir sa représentation $ \Tilde{w}_q$ dans l'espace réduit par :

$\displaystyle \Tilde{w}_q=\Tilde{\Sigma }^{-1}\Tilde{D}^tw_q^t.$ (65)

Pour mesurer la similarité entre le document $ i$ et le document $ j$ , il suffit de réaliser le produit scalaire entre les vecteurs lignes $ i$ et $ j$ de la matrice $ \Tilde{D}\Tilde{\Sigma }$ . Il est aussi possible de calculer les $ p$ mots les plus pertinents pour un document.

Des expériences réalisées sur des corpus de texte adaptés à la recherche d'informations montrent que LSI donne des résultats similaires ou légèrement meilleurs que les modèles classiques en RI [Deerwester et al., 1990].


2 PLSA : un modèle probabiliste

Le modèle LSA ne possède pas d'interprétation probabiliste. Cependant, [Hofmann, 2001] propose un modèle probabiliste pour LSA appelé PLSA (Probabilistic LSA) proche du modèle appelé aspect model [Hofmann et al., 1998].

Contrairement à LSA qui utilise une table de cooccurrences terme-document, PLSA nécessite une table de probabilité jointe. Soit $ P$ la matrice de taille $ n_{\mathcal{W}}\times n_{\mathcal{D}}$ dont chaque case contient la probabilité $ p(w_{j},d_{i})$ de cooccurrences du mots $ w_{j}$ et du document $ d_{i}$ . On peut définir une variable $ z$ de classe non observée $ \mathcal{Z}=\{z_1,z_2,\cdots,z_r\}$ (c'est à dire que l'on suppose l'existence d'un certain nombre de classes dont on ne sait rien) telles que :

$\displaystyle \left\{ \begin{array}{rclclclcr} W_{j,k}&=&p(w_{j}\vert z_k)&  ...
...i}\vert z_k)&   &D &\in &[0,1]^{n_{\mathcal{D}}\times r} \end{array} \right.$ (66)

Si l'on suppose que $ w$ et $ d$ sont indépendantes conditionnellement à $ z$ , on a la relation :

$\displaystyle P=W\Sigma D^t$ (67)

qui traduit la règle de Bayes :

$\displaystyle p(w_{j},d_{i})=\frac{p(w_{j}\vert z_k)p(z_k)}{p(d_{i}\vert z_k)}.$ (68)

et qui revient à une SVD sur la matrice $ P$ . La matrice $ \Sigma $ donne les probabilités des différentes classes et les matrices $ W$ et $ D$ effectuent un classement flou des mots et des documents dans les classes.

Un modèle de probabilité jointe sur $ \mathcal{D}\times\mathcal{W}$ est obtenue en marginalisant sur les classes $ z_k$  :

\begin{displaymath}\begin{array}{rcl} p(w_{j},d_{i})&=&p(d_{i})p(w_{j}\vert d_{i...
...k\in\mathcal{Z}}p(w_{j}\vert z_k)p(z_k\vert d_{i}). \end{array}\end{displaymath} (69)

On peut interpréter chaque classe $ z_k$ comme un concept. Chaque mot est généré par un concept.Un document est associé à plusieurs concepts. Les mots sont supposés être générés par un mélange de distributions multinomiales. Les documents sont les documents d'apprentissages. La figure 4.1 page [*] donne une représentation graphique[*] de ce modèle.

Figure 4.1: Le modèle graphique de PLSA (Hofmann et al., 1998).
\begin{figure}\centering
\psfig{figure=figures/figuresEPS/model_plsa.dvi.eps}\end{figure}

Les paramètres du modèle PLSA sont $ p(w_{j}\vert z_k)$ et $ p(z_k\vert d_{i})$ . $ p(w_{j}\vert z_k)$ donne la probabilité d'avoir le mot $ w_{j}$ sachant que l'on considère la classe $ z_k$ , elle permet donc d'annoter de nouveaux documents (rappel : $ p(w_{j}\vert z_k)=W_{j,k}$ ). Par contre, $ p(z_k\vert d_{i})$ ne donne aucune information sur un nouveau document. Ces paramètres sont obtenus à l'aide de l'algorithme EM (Expectation-Maximization) [Dempster et al., 1977] sur un ensemble d'apprentissage. L'algorithme standard EM apprend les paramètres $ p(w_{j}\vert z_k)$ et $ p(z_k\vert d_{i})$ en maximisant la vraisemblance des données.

Pour annoter un document $ d_{new}$ , on calcule la probabilité a posteriori d'avoir un mot donné sachant que l'on connaît $ d_{new}$  :

$\displaystyle p(w_{j}\vert d_{new})=\sum_{z_k\in\mathcal{Z}}p(w_{j}\vert z_k)p(z_k\vert d_{new}).$ (70)

La probabilité $ p(w_j\vert z_k)$ est estimée une seule fois lors de la phase d'apprentissage.

Le modèle PLSA ne fournit pas de modèle probabiliste au niveau du document : chaque document est représenté par la proportion de chaque concept dans le document de la base d'apprentissage. Ce qui conduit à deux problèmes :

L'avantage d'utiliser PLSA plutôt que LSA est que PLSA peut utiliser les travaux réalisés en probabilité pour interpréter les résultats. Par contre, LSA permet des calculs exacts contrairement à PLSA qui emploie l'algorithme EM. Les documents utilisés dans les deux modèles sont les documents d'apprentissage, c'est pourquoi LSA et PLSA ne peuvent être efficaces pour de nouveaux exemples.

3 Utilisation de LSA et PLSA en recherche multimédia

Nous venons de voir que LSA est un bon modèle pour capturer les liens sémantiques cachés entre documents et mots, et que de plus, ce modèle donne des résultats de compréhension de documents textuels comparables à ceux de l'être humain. C'est pourquoi de nombreux chercheurs ont utilisés ce modèle sur une seule modalité [Pecenovic, 1997,Huang et al., 1998,Souvannavong et al., 2003,Souvannavong et al., 2005] ou pour combiner plusieurs modalités multimédia. Nous nous intéresserons particulièrement aux combinaisons texte/image. En effet, deux images peuvent être sémantiquement proches, même si les mots qui les annotent ou leurs caractéristiques visuelles sont différents, car de même que pour le texte on retrouve les ambiguïtés dues aux problèmes de synonymie et de polysémie. Différents mots peuvent exprimer le même sens et plusieurs couleurs peuvent représenter le même objet. Également, un même mot peut avoir plusieurs sens et une même couleur peut représenter plusieurs objets. C'est pourquoi l'utilisation de modèle basé sur la sémantique latente est particulièrement approprié.

Dans [La Cascia et al., 1998], une première utilisation de LSI combinant texte et visuel est proposée. Leur objectif est de construire un moteur de recherche d'images par le contenu sur le web, appelé ImageRover (voir partie 2.3 page [*]), prenant en compte les liens sémantiques reliant les deux modalités. Chaque image d'une page web (document) est représentée par un vecteur prenant en compte la fréquence des mots dans la page : les mots du titre de la page, en gras, en italique sont pondérés plus fortement, les champs ALT de IMG ainsi que les mots proches de l'image sont également plus fortement pondérés pour chaque image. La matrice terme-image est ainsi construite et peut être décomposée par SVD. Chaque image peut donc être décrite textuellement par un vecteur dans l'espace réduit. Pour le visuel, des histogrammes de couleurs et de textures simples sont extraits, puis réduit par ACP. Chaque image est finalement indexée par un vecteur global concaténant les vecteurs visuels (réduits par ACP) et textuels (réduits dans l'espace latent). La recherche d'images revient alors à une recherche par plus proche voisin. L'utilisateur peut réaliser une requête par mots-clés, transformée par le système en un document-requête, la recherche par plus proche voisin étant effectuée alors que dans l'espace textuel latent. Il peut également choisir plusieurs images-requêtes. Les deux types de requêtes pouvant être combinées et raffinées par bouclage de pertinence. Des expériences ont été menées sur un ensemble d'apprentissage de 58908 images du web, utilisées une seule fois pour obtenir les paramètres pour la SVD et l'ACP. Les résultats de recherche de 100 images (une par une) sur 10000 images, indexées avec les paramètres appris sur l'ensemble d'apprentissage, montrent que la méthode par combinaison de texte et d'images avec bouclage de pertinence est plus efficace que les méthodes de recherche par mots-clés seuls, ou par mots-clés et bouclage de pertinence, et par contenu visuel et bouclage de pertinence. Cependant, comme LSI est utilisé seulement sur le texte, le modèle n'est pas capable de trouver les cooccurrences entre les traits visuels et les mots.

Par contre, dans [Westerveld, 2000], [Zhao & Grosky, 2002] et [Monay & Gatica-Perez, 2003], chaque document est représenté par un vecteur construit par concaténation des vecteurs des deux modalités. La principale difficulté est de trouver comment équilibrer les deux modalités. En effet, les vecteurs utilisés jusqu'alors était adaptés aux textes : chaque document est décrit par peu de mots comparé aux grands nombres de mots possibles, et les valeurs sont discrètes, tandis que dans la modalité visuelle, toutes les dimensions sont renseignées et les valeurs peuvent être continues (par exemple, un histogramme de couleurs). C'est pourquoi [Westerveld, 2000] propose de définir pour la partie visuelle un espace discret qui a le même genre de distribution que le texte. Deux expériences sur environ 3000 images sont réalisées. Dans la première, le nombre de dimensions visuelles (environ 38000 dont 625 renseignées en moyenne par document) est beaucoup plus important que le nombre de dimensions textuelles (environ 4000 dont 27 renseignées en moyenne par document). Dans la seconde, les deux vecteurs ont le même nombre de dimensions (environ 4000 dont 1131, respectivement 27, renseignées en moyenne par document). Pour chacune de ces expériences, LSI est utilisé pour indexer le texte seulement, le visuel seulement, la combinaison des deux. La première expérience montre que les résultats obtenus par combinaison des deux sont plus proches des résultats obtenus pour le visuel (recouvrement de plus de 80%) que pour le textuel (recouvrement d'environ 7%). La seconde montre que lorsque les deux modalités sont bien équilibrées dans le vecteur, la combinaison des deux modalités donne de meilleurs résultats que le texte ou le visuel seul, montrant que les moteurs de recherche d'images peuvent tirer profit de la combinaison des deux modalités. [Zhao & Grosky, 2002] obtiennent des résultats similaires.


Table: Scores NS variant le rang $ \Tilde{r}$ de la matrice $ \Tilde{\Sigma }$ pour les modèles LSA et PLSA-MIXED où chaque image est représentée par un vecteur concaténant mots-clés et traits visuels (fusion précoce) présentés dans (Monay & Gatica-Perez, 2003). Le score NS du modèle empirique (prenant en compte que la distribution des mots (prior)) est de 0.383.
Rang $ \Tilde{r}$ 15 40 60 80 100
LSA 0.495 0.526 0.531 0.535 0.540
PLSA-MIXED 0.447 0.449 0.452 0.446 0.473


Dans [Monay & Gatica-Perez, 2003], LSA et PLSA sont utilisées pour construire un système d'auto-annotation. Dans leur modèles LSA et PLSA-MIXED, chaque image de la base d'apprentissage est représentée par un vecteur concaténant un vecteur textuel de 149 dimensions et un vecteur de couleurs RVB de 648 dimensions. Pour annoter une image, les dimensions du vecteur correspondant aux mots-clés sont mis à zéro. Les expériences qu'ils ont menées sur environs 16000 images de COREL et 149 mots-clés montrent, contre toute attente, que dans leur cas, le modèle LSA est meilleur que le modèle PLSA-MIXED (voir tableau 4.1 page [*]). Ils supposent dans [Monay & Gatica-Perez, 2004] que la raison du mauvais score de PLSA-MIXED est que les deux modalités (textuelles et visuelles) sont définies dans PLSA-MIXED avec la même importance lors de la définition de l'espace latent ([Barnard et al., 2003b] fait la même hypothèse). C'est pourquoi la modalité visuelle est fortement privilégiée. Or c'est celle qui contient le moins d'information sémantique. C'est pourquoi ils proposent dans [Monay & Gatica-Perez, 2004,Monay, 2004] de construire un espace latent pour chacune des modalités, mais en contraignant l'espace construit sur les traits visuels pour s'assurer de sa consistance sémantique, puis de joindre les deux modèles. Ce modèle PLSA-WORDS est construit ainsi :

  1. les probabilités $ p(w\vert z)$ et $ p(z\vert d)$ sont apprises uniquement sur les mots-clés des images ;
  2. un deuxième modèle PLSA est appris sur l'espace des traits visuels pour $ p(v\vert z)$ , mais en gardant la probabilité $ p(z\vert d)$ apprise sur les mots-clés ;
  3. soit une nouvelle image $ d_{new}$ que l'on veut annoter (on connaît seulement les traits visuels), on peut estimer $ p(z\vert d_{new})$ à l'aide de la probabilité $ p(v\vert z)$ calculée en (2) et de l'algorithme EM ;
  4. la probabilité a posteriori des mots-clés pour l'image $ d_{new}$ est inférée par :

    $\displaystyle p(w\vert d_{new})=\sum_{z_k\in\mathcal{Z}}p(w\vert z_k)\ast p(z_k\vert d_{new}).$ (71)

Pour comparaison, le modèle PLSA-SPLIT est construit en apprenant les paramètres $ p(z_k\vert d_{i})$ indépendamment pour le visuel et le textuel. Le tableau 4.2 page [*] montre que les résultats obtenus avec PLSA-WORDS sont meilleurs que LSA et PLSA-MIXED.

Table 4.2: Comparaisons des NS moyens des méthodes : LSA et PLSA-MIXED où chaque image est représentée par un vecteur concaténant mots-clés et traits visuels (fusion précoce), EMPIRICAL basé uniquement sur la distribution a priori des mots, PLSA-SPLIT où un modèle PLSA est appris pour chaque modalité indépendamment, PLSA-WORDS où deux modèles PLSA sont appris, mais en gardant pour le modèle visuel les probabilités $ p(z\vert d)$ apprises sur les mots-clés ( $ \Tilde{r}=100$ , RVB) (Monay & Gatica-Perez, 2004).
Méthode EMPIRICAL LSA PLSA-MIXED PLSA-SPLIT PLSA-WORDS
$ NS_{moy}$ 0.427 0.540 0.473 0.298 0.571


Le modèle PLSA peut donc être plus performant que LSA. Voir aussi [Gao et al., 2006,Zhao & Grosky, 2002,Freitas & Barnard, 2001,Hare et al., 2006].


3 Modèles «Multi-Modals Hierarchical Aspect Models» (MoM-HAM)

[Barnard & Forsyth, 2001,Barnard et al., 2001,Barnard et al., 2003b] proposent plusieurs modèles générateurs basés sur la même structure hiérarchique et dérivés du aspect model présenté dans [Hofmann, 1998,Hofmann et al., 1998] (le modèle PLSA [Hofmann, 2001] présenté dans la partie 4.2.2 page [*] dérive également de ce modèle). Pour plus de facilité, nous nommerons MOM-HAM cette famille de modèles.

Ces modèles sont basés sur deux principes :

La donnée d'une classe et d'un niveau de l'arbre définie un noeud. Chaque noeud a une certaine probabilité d'émettre chaque descripteur textuel ou visuel. Chaque classe est associée à un chemin de la feuille vers la racine. La structure hiérarchique ajoutée permet de mieux capturer la sémantique qu'un modèle non-hiérarchique, en allant du plus spécifique (feuilles de l'arbre) au plus général (racine de l'arbre). Les mots et les segments visuels très récurrents seront en haut de l'arbre, tandis que les plus spécifiques seront en bas de l'arbre. De plus, elle permet un meilleur parcours (browsing) des images, et une représentation plus compacte. La figure 4.2 page [*] montre un exemple de cette structure. Ces modèles considèrent deux variables latentes : l'ensemble des classes $ \mathcal{C}$ et l'ensemble des niveaux de l'arbre $ L$ .

Figure 4.2: Exemple de structure hiérarchique binaire à 3 niveaux ( $ L=\{l_1,l_2,l_3$ }) et 4 classes ( $ \mathcal{C}=\{C_1,C_2,C_3,C_4\}$ ). Modèle présenté dans (Hofmann, 1998 ; Barnard & Forsyth, 2001).
\begin{figure}\begin{displaymath}
\xy
\xygraph{[] *{N_{l_1,C_{1-4}}}*\cir<20pt>{...
...14pt>{} - @{-} [d] *+<12pt>[F]{C_{1}}))
}
\endxy
\end{displaymath}
\end{figure}

1 Modèle générateur

L'ensemble des valeurs des descripteurs $ F^{d}=\mathcal{B}^{d}\cup\mathcal{W}^{d}$ (textuels et visuels) d'un document bimodal $ d$ d'une classe $ c$ donnée est généré par les noeuds situés au dessus de la classe dans la hiérarchie, par un terme de la forme :

$\displaystyle \prod\limits_{f}\big[\sum\limits_{l\in L}p(f\vert l,c)\times\mathcal{P}\big]$ (72)

$ f$ représente un descripteur visuel ou bien un mot de $ d$ et $ \mathcal{P}$ est un poids vertical qui traduit les dépendances de chaque niveau. Prenant en compte toutes les classes, un document est modélisé par une somme sur toutes les classes pondérée par la probabilité a priori p(c) qu'un document soit dans la classe. Pour générer l'ensemble des descripteurs $ F^{d}$ associés à une image $ d$ , tous les modèles utilisent donc :

$\displaystyle p(F^{d}\vert d)=\sum\limits_{c\in\mathcal{C}}p(c) \prod\limits_{w...
...\times\mathcal{P}_{2}\big]^{\frac{n_{\mathcal{B}^{dmax}}}{n_{\mathcal{B}^{d}}}}$ (73)

$ \mathcal{P}_{1}$ et $ \mathcal{P}_{2}$ sont estimés, en fonction du modèle, par :
Modèle I-0 Modèle I-1 Modèle I-2
  [Barnard et al., 2003b] [Barnard & Forsyth, 2001] [Barnard et al., 2001]
$ \mathcal{P}$ $ p(l\vert d)$ $ p(l\vert c,d)$ $ p(l\vert c)$
avec $ \mathcal{P}_{1}$ = $ \mathcal{P}_{2}$ = $ \mathcal{P}$ ou par :
Modèle D-0 Modèle D-1 Modèle D-2
  [Barnard et al., 2003b] [Barnard et al., 2003b] [Barnard et al., 2003b]
$ \mathcal{P}_{1}$ $ p(l\vert\mathcal{B}^{d},c,d)$ $ p(l\vert\mathcal{B}^{d},c,d)$ $ p(l\vert\mathcal{B}^{d},c,d)$
$ \mathcal{P}_{2}$ $ p(l\vert d)$ $ p(l\vert c,d)$ $ p(l)$
$ n_{\mathcal{W}^{d}}$ (respectivement $ n_{\mathcal{B}^{d}}$ ) sont le nombre de mots (respectivement de blobs) de l'image $ d$ , et $ n_{\mathcal{W}^{dmax}}$ (respectivement $ n_{\mathcal{B}^{dmax}}$ ) sont le nombre de mots (respectivement de blobs) maximal possible d'une image $ d$ (par exemple, pour notre base COREL, $ n_{\mathcal{W}^{dmax}}=5$ et $ n_{\mathcal{B}^{dmax}}=10$ ). L'utilisation des exposants $ \frac{n_{\mathcal{W}^{dmax}}}{n_{\mathcal{W}^{d}}}$ et $ \frac{n_{\mathcal{B}^{dmax}}}{n_{\mathcal{B}^{d}}}$ permet de normaliser les valeurs obtenues afin que des images décrites par un nombre de mots ou de blobs différents soient comparables. Par exemple, une image décrite avec le mot sun sera comparable à une image décrite avec les mots sun et clouds, car la probabilité du mot sun dans la première image sera doublée.

Pour estimer la probabilité $ p(w\vert l,c)$ d'émettre le mot $ w$ connaissant la structure hiérarchique, une distribution multinomiale basée sur la table des fréquences des mots est utilisée. La probabilité $ p(b\vert l,c)$ d'émettre une instance de l'espace visuel est estimée par une distribution gaussienne $ p(b\vert l,c)\sim\mathcal{N}(\Sigma_{c,l},\mu_{c,l})$ . Les paramètres $ \Sigma_{c,l}$ et $ \mu_{c,l}$ des distributions gaussiennes sont estimées en utilisant l'algorithme classique EM [Dempster et al., 1977] (voir annexe B page [*]).


2 Modèles I-0, I-1 et I-2

Pour les modèles I-0, I-1 et I-2 ($ I$ pour indépendant), les mots et les descripteurs visuels sont supposés conditionnellement indépendants. Les poids du mélange vertical sont estimés par EM, pour le modèle I-0 conditionnellement aux données d'apprentissage, pour le modèle I-1 conditionnellement aux données d'apprentissage mais aussi aux classes, tandis que pour le modèle I-2, il suffit d'estimer une moyenne en fonction de la classe, ce qui permet d'économiser de la mémoire.

Remarquons que les modèles I-0 et I-1 sont dépendants des données d'apprentissages. Ils sont donc efficaces pour les applications de type recherche de documents, mais pas pour les applications sur des données hors de la base d'apprentissage. Le modèle I-2 n'est pas dépendant de $ d$ , on peut donc écrire pour ce modèle $ p(F^{d}\vert d)=p(F^{d})$ .


3 Modèles D-0, D-1 et D-2

Les modèles D-0, D-1 et D-2 sont construits de telles sortes que les informations textuelles et visuelles soient dépendantes (d'où le D dans le nom des modèles). Plus exactement la distribution de tous les mots du document est exprimée en fonction de la distribution des blobs. Pour cela, la probabilité $ p(l\vert\mathcal{B}^{d},c,d)$ est utilisée à la place de $ p(l\vert d)$ . La $ p(l\vert\mathcal{B}^{d},c,d)$ est définie ainsi :

$\displaystyle p(l\vert\mathcal{B}^{d},c,d)\propto\sum_{b\in\mathcal{B}^{d}}p(l\vert b,c,d).$ (74)

$ p(l\vert\mathcal{B}^{d},c,d)$ est préférée à $ p(l\vert\mathcal{B}^{d},d)$ car cela permet de prendre en compte les classes dans la distribution. $ p(l\vert\mathcal{B}^{d},c,d)$ permet de prendre en compte (de manière asymétrique) la distribution des mots dans les classes en fonction de la distributions des vecteurs visuels des blobs de $ d$ . Les auteurs de [Barnard et al., 2003b] espèrent ainsi capturer des liens entre les deux informations. Les variantes entre les modèles D-0, D-1 et D-2 s'expliquent en fonction des dépendances des poids des mélanges : pour le modèle D-0 en fonction de la dépendance à l'ensemble d'apprentissage, pour le modèle D-1 à l'ensemble d'apprentissage et aux classes, et pour le modèle D-2 sans dépendance.

Dans [Barnard et al., 2003b], les modèles d'auto-annotation et de recherche d'information que nous allons décrire sont surtout donnés pour les modèles indépendants, mais peuvent être facilement estimés pour les modèles dépendants. C'est pourquoi nous donnons seulement les formules de probabilités valables pour les modèles indépendants.

4 Auto-annotation

La probabilité qu'un mot puisse être émis par un document est calculée comme la probabilité d'émettre $ w$ connaissant l'ensemble des blobs $ \mathcal{B}^{d}$ de l'image $ d$  :

\begin{displaymath}\begin{array}{rcl} p(w\vert\mathcal{B}^{d})&\propto&p(w,\math...
...\frac{n_{\mathcal{B}^{dmax}}}{n_{\mathcal{B}^{d}}}} \end{array}\end{displaymath} (75)

$ \mathcal{P}_{1}$ et $ \mathcal{P}_{2}$ sont estimées, en fonction du modèle, comme pour l'équation 4.26 page [*]. Cependant, comme ces modèles peuvent être appliqués à des données extérieures à la base d'apprentissage, la variable $ d$ n'est pas utilisée (c'est-à-dire $ \mathcal{P}_{\mathrm{I-0}}=p(l)$ , et $ \mathcal{P}_{\mathrm{I-1}}=\mathcal{P}_{\mathrm{I-2}}=p(l\vert c)$ ). Pour les modèles I-1 et I-2, les mots et les régions sont donc générés par la même classe, mais pas par forcément par le même noeud, ils proviennent de noeuds au dessus de la même classe.

Un modèle simple de prédiction de mot sachant une région d'image peut être dérivé à partir de la cooccurrence des mots et des régions d'images dans un même noeud :

$\displaystyle p(w\vert b)\propto\sum\limits_{c\in\mathcal{C}}p(c) \sum\limits_{l\in L}p(l)p(w\vert l,c)p(b\vert l,c).$ (76)

5 Recherche d'information

Pour permettre les requêtes de type : texte seul, visuel seul, ou texte et visuel, la capacité génératrice du modèle est utilisée. Pour rechercher les images correspondant à une requête, la probabilité de chaque image $ d$ d'émettre la requête $ q$ (composée d'éléments textuels et/ou visuels) est estimée par :

\begin{displaymath}\begin{array}{rcl} p(q\vert d)&=&\sum\limits_{c\in\mathcal{C}...
...n L} p(q\vert l,c)p(l\vert c,d)\big\}p(c\vert d). \end{array}\end{displaymath} (77)

6 Corpus et expérimentations

Les expériences sont réalisées sur 16000 images de Corel (le même corpus que notre corpus Corel, mais pas les mêmes ensembles (voir annexe A page [*])) : 8000 images séparées aléatoirement en 75% pour l'apprentissage (training set), 25% pour le test (held out set), et 8000 autres images extraites de CD différents de Corel (novel set). Ce dernier ensemble permet d'estimer dans une certaine mesure la capacité des modèles à travailler sur de nouvelles images. Le vocabulaire est de 155 mots. Les traits visuels comportent des traits classiques de couleurs, textures et formes. Les vecteurs représentants les blobs sont discrétisés en 500 catégories. Les modèles à structure unaire (linear) possèdent une classe et 500 noeuds. Les modèles à structure binaire (binary) possèdent 9 niveaux, soient 511 noeuds. Les meilleurs scores obtenus avec ces modèles sont pour un nombre d'itérations de l'algorithme EM de 10.


Table 4.3: Différence $ \Delta_{NS}$ des scores NS de l'auto-annotation d'images de Corel pour différentes expériences décrites dans (Barnard et al., 2003b) ( $ NS_{moy}^{(emp)}\simeq 0.425$ )
  ensemble ensemble ensemble
Expériences d'apprentissage de test novel
linear-I-0-doc-vert 0.301 0.174 0.081
linear-D-0-doc-vert 0.321 0.167 0.076
binary-I-2-region-cluster 0.324 0.179 0.076
binary-D-2-region-cluster 0.360 0.179 0.072


La distribution a priori des classes $ p(c)$ peut être estimée directement (expérience region-only) ou bien être remplacée par $ p(c\vert\mathcal{B}^{d})$ la distribution de la classe connaissant les distribution des blobs (expérience region-cluster) afin de prendre an compte également l'information apportée par les autres blobs. De même, pour les poids des composants verticaux (les niveaux), $ p(l\vert d)$ peut-être être estimée en ne prenant en compte que l'information visuelle $ p(l\vert\mathcal{B}^{d})$ (expérience doc-vert) ou un mélange des distributions textuelles et visuelles des clusters (expérience ave-vert).

Dans [Barnard et al., 2003b], les résultats de très nombreuses expériences sont proposées. Parmi tous les modèles décrits, certains permettent de mieux annoter une image, d'autres un blob (modèle de correspondance). Il est difficile de dire quel est le meilleur modèle en général. Les modèles à structure unaire ou binaire donnent des résultats similaires. Les expériences doc-vert, ave-vert et region-only donnent en général des résultats légèrement inférieurs à l'expérience region-cluster. Les expériences D-0 et I-0 donne en général des résultats inférieurs aux expériences D-2 et I-2. Les expériences D-2 et I-2 donnent des résultats similaires sur l'ensemble de test (held out). Cependant, sur l'ensemble novel, I-2 donne des résultats très légèrement meilleurs. L'expérience binary-D-2-region-cluster donne les meilleurs résultats pour la tâche d'auto-annotation mesurée avec la mesure $ PR$ (un gain de +57% sur le modèle empirique $ PR_{moy}^{(emp)}=0.19$ ) et aussi avec la mesure $ NS_{moy}$ (un gain de +42% sur le modèle empirique $ NS{emp}=0.425$ ) (voir tableau 4.3).

De nombreux autres modèles sont décrits dans [Barnard et al., 2003b] que nous ne pouvons décrire faute de place. Nous verrons cependant le modèle MoM-LDA dans la partie 4.4.4 page [*].

4 Modèles fondés sur la distribution de Dirichlet

La distribution de Dirichlet (voir annexe B.1 page [*]) estime le vecteur de probabilités $ \theta^{d}=(p_1,p_2,\cdots,p_{r})$$ p_j$ est la probabilité que le concept (appelé aussi classe cachée ou latente) $ z_{j}$ soit dans le document $ d$ , en fonction du nombre d'occurrences $ \alpha_j$ de chaque concept dans le document.

Le modèle Latent Dirichlet Allocation (LDA)[*] proposé dans [Blei et al., 2003] utilise la distribution de Dirichlet afin de modéliser les grand corpus de texte ou de données discrètes. Son objectif est de trouver des descripteurs de petite dimension qui permettent la classification, l'indexation et la recherche de documents, tout en gardant les relations importantes entre les documents. Le nombre de dimensions des descripteurs correspond au nombre de concepts cachés.

Après une rapide présentation du modèle LDA, nous décrivons les modèles GM-LDA, MOM-LDA et CORR-LDA qui utilisent le modèle LDA comme une sous-structure permettant le mélange des informations textuelles et visuelles. Nous rappelons au lecteur que l'annexe B.2 page [*] propose une introduction aux modèles graphiques probabilistes.


1 Le modèle LDA

Figure 4.3: Le modèle graphique de LDA (Blei et al., 2003).
\begin{figure}\centering
\psfig{figure=figures/figuresEPS/model_LDA.dvi.eps}\end{figure}
Le modèle LDA est un modèle probabiliste génératif d'un corpus de données discrètes, comme par exemple des corpus de textes. C'est un modèle hiérarchique bayésien à trois niveaux qui suppose que les mots et les concepts sont interchangeables. Chaque document du corpus est modélisé comme un mélange de concepts.

1 Principe

Les documents sont représentés par un mélange de concepts latents, chaque concept étant caractérisé par une distribution de mots.

Pour chaque document $ d$ , le modèle LDA a le processus génératif suivant :

  1. Le nombre de mots dans le document $ n_{\mathcal{W}^{d}}$ est supposé distribué selon une loi de Poisson $ P(n_{\mathcal{W}^{d}}\vert\xi)\sim Poisson(\xi)$
  2. Choisir les proportions des concepts $ \theta^{d}$ dans le document $ d$ selon $ P(\Theta \vert\alpha)\sim Dir(\alpha)$
  3. Pour $ j\in\{1,2,\cdots,n_{\mathcal{W}^{d}}\}$  :
    1. Choisir un concept $ z_{j}$ parmi $ \{1,2,\cdots,r\}$ selon $ P(Z^{d}\vert\theta^{d})\sim Mult(\theta^{d})$
    2. On suppose que $ w_{j}$ est choisi dans $ \mathcal{W}^{d}$ selon $ P(W^{d}\vert z_{j},\beta_{1:r})
\sim Mult(\beta_{z_{j}})$
La figure 4.3 page [*] donne le modèle graphique du modèle LDA. Le nombre $ r$ de concepts est supposé connu et fixé a priori (et donc le nombre de valeurs que peut prendre $ Z^{d}$ ). On remarque que la structure à trois niveaux permet d'associer plusieurs concepts à un document. Les mots sont générés par les concepts. Les probabilités des mots sont paramétrées par une matrice $ \beta_{1:r}$ de dimensions $ r\times n_{\mathcal{W}}$ $ \beta_{k,j}=P(w=j\vert z=k)$ est la quantité fixe à estimer. Les paramètres $ \alpha $ et $ \beta_{1:r}$ sont appris une seule fois lors du processus génératif du corpus. Les valeurs $ \theta^{d}$ sont apprises une seule fois pour chaque document. Les valeurs $ z_{j}$ et $ w_{j}$ sont apprises une seule fois pour chaque mot de chaque document.

Connaissant les paramètres $ \alpha $ et $ \beta_{1:r}$ , la probabilité jointe entre la proportion de concept $ \theta^{d}$ , un ensemble $ \mathcal{Z}$ de $ n_{\mathcal{W}}$ concepts et un ensemble $ \mathcal{W}$ de $ n_{\mathcal{W}}$ mots est :

$\displaystyle P(\theta^{d},z_{1:n_{\mathcal{W}}},w_{1:n_{\mathcal{W}}}\vert\alp...
...{j=1}^{n_{\mathcal{W}}}P(z_{j}\vert \theta^{d}) P(w_{j}\vert z_{j},\beta_{1:r})$ (78)

$ P(z_{j}\vert \theta^{d})$ est simplement la probabilité $ p_{z_{j}}$ d'avoir le concept $ z_{j}$ et $ P(w_{j}\vert z_{j},\beta_{1:r})$ est $ \beta_{z_{j}}$ la valeur de $ \beta $ pour le concept $ z_{j}$ .

La distribution des mots pour un document $ d$ donné, c'est-à-dire l'indexation du document, est obtenue par :

$\displaystyle P(w_{1:n_{\mathcal{W}}}\vert\alpha,\beta_{1:r})=\int P(\theta^{d}...
...{j}=1}^{r}P(z_{j}\vert\theta)P(w_{j}\vert z_{j},\beta_{1:r})\Bigg) d\theta^{d}.$ (79)

Le modèle LDA peut être vu comme une technique de réduction de dimensions dans l'esprit de la LSA, mais le modèle LDA réduit l'espace à $ r$ concepts qui ont un sens par rapport avec les données sur lesquelles elle travaille. Il n'est pas possible de faire de l'inférence exacte avec le modèle LDA, mais de nombreux algorithmes d'inférence par approximation peuvent être utilisés. Un des avantages du modèle LDA est sa modularité et son extensibilité (contrairement à LSA), comme nous allons le voir pour trois modèles appliqués à des documents visuo-textuels.


2 Modèle «Gaussian-Multinomial Mixture» (GM-Mixture)

Le modèle GM-MIXTURE [Blei, 2004,Barnard et al., 2003b] est un modèle simple de mélange. Il n'utilise pas le modèle LDA, mais nous le décrivons pour comprendre les modèles suivants qui utilisent le modèle LDA. Dans le modèle GM-MIXTURE, une seule variable aléatoire $ Z$ , et donc une seule composante $ z$ , est utilisée pour représenter les liens entre une image et sa légende. Il y a donc une correspondance totale (associativité) entre les blobs et la légende d'une image. Les données sont supposées être générer par $ r$ composantes.

1 Processus générateur

Le modèle GM-MIXTURE à $ r$ dimensions construit une annotation visuo-textuelle pour une image $ d$ par le processus génératif suivant :
  1. Choisir une valeur $ z$ parmi $ \{1,2,\cdots,r\}$ selon $ P(Z\vert\theta )\sim Mult(\theta )$
  2. Pour chaque blob $ b$ de l'image :
    1. On suppose que les traits visuels de $ b$ sont choisis selon $ P(B^{d}\vert z,\mu_{1:r},\sigma_{1:r})\sim\mathcal{N}(\mu_{z},\sigma_{z})$
  3. Pour chaque mot $ w$ de l'image :
    1. On suppose que $ w$ est choisi selon $ P(W^{d}\vert z,\beta_{1:r})
\sim Mult(\beta_{z})$
La figure 4.4(a) page [*] montre le modèle graphique de ce processus.

2 Modèle générateur d'une image

La distribution jointe entre les variables latentes et les variables observées est :

\begin{displaymath}\begin{array}{rcll} P(z,\mathcal{B}^{d},\mathcal{W}^{d}\vert\...
...imits_{w\in\mathcal{W}^{d}}P(w\vert z,\beta_{1:r}). \end{array}\end{displaymath} (80)

Les paramètres du modèle $ \theta ,\mu_{1:r},\sigma_{1:r},\beta_{1:r}$ peuvent être estimés à l'aide de l'algorithme EM, ou bien par une procédure d'inférence. On obtient alors un ensemble de distributions gaussiennes de traits visuels et de distributions multinomiales des mots qui décrivent $ r$ classes visuo-textuelles. Comme chaque annotation visuo-textuelle est supposée générée par la même classe, une image qui a une forte probabilité d'avoir une certaine distribution gaussienne aura une forte probabilité d'avoir la distribution multinomiale correspondante.

3 Probabilité jointe

La probabilité jointe entre les blobs et les mots d'une image est obtenue en marginalisant sur la variable latente :

$\displaystyle P(\mathcal{B}^{d},\mathcal{W}^{d}\vert\theta ,\mu_{1:r},\sigma_{1...
...mathcal{B}^{d},\mathcal{W}^{d}\vert\theta ,\mu_{1:r},\sigma_{1:r},\beta_{1:r}).$ (81)

4 Auto-annotation

La distribution conditionnelle des mots connaissant les blobs de l'image est obtenue en marginalisant sur la variable latente et en conditionnant sur les blobs de l'image :

$\displaystyle P(w\vert\mathcal{B}^{d},\theta ,\mu_{1:r},\sigma_{1:r},\beta_{1:r...
...hcal{B}^{d},\theta ,\mu_{1:r},\sigma_{1:r},\beta_{1:r}) P(w\vert z,\beta_{1:r})$ (82)

où la probabilité a posteriori de $ z$ est obtenu par la règle de Bayes :

$\displaystyle P(z\vert\mathcal{B}^{d},\theta ,\mu_{1:r},\sigma_{1:r},\beta_{1:r}) \propto P(z\vert\theta )P(\mathcal{B}^{d}\vert z,\mu_{1:r},\sigma_{1:r}).$ (83)

Du fait de la structure du modèle GM-MIXTURE, les mots et les régions sont générés par le modèle de manière indépendante conditionnellement à $ z$ , il n'est donc pas possible d'associer une distribution de mots à une région spécifique de l'image.

3 Modèle «Gaussian-Multinomial LDA» (GM-LDA)

Le modèle GM-LDA étend le modèle GM-MIXTURE.

1 Processus générateur

Un modèle GM-LDA à $ r$ composantes construit une annotation visuo-textuelle par le processus génératif suivant :
  1. Choisir les proportions $ \theta^{d}$ selon $ P(\Theta \vert\alpha)\sim Dir(\alpha)$
  2. Pour $ p\in\{1,2,\cdots,n_{\mathcal{B}^{d}}\}$  :
    1. Choisir une composante $ z_{p}$ parmi $ \{1,2,\cdots,r\}$ selon $ P(Z^{d}\vert\theta^{d})\sim Mult(\theta^{d})$
    2. Choisir le vecteur visuel $ b_{p}$ selon $ P(B^{d}\vert z_{p},\mu_{1:r},\sigma_{1:r})
\sim\mathcal{N}(\mu_{z_{p}},\sigma_{z_{p}})$
  3. Pour $ j\in\{1,2,\cdots,n_{\mathcal{W}^{d}}\}$  :
    1. Choisir une composante $ y_{j}$ parmi $ \{1,2,\cdots,r\}$ selon $ P(Y^{d}\vert\theta^{d})\sim Mult(\theta^{d})$
    2. Choisir un mot $ w_{j}$ selon $ P(W^{d}\vert y_{j},\beta_{1:r})\sim Mult(\beta_{y_{j}})$
La figure 4.4(b) page [*] montre le modèle graphique de ce processus.

2 Modèle générateur d'une image

Connaissant les paramètres $ \alpha $ , $ \beta_{1:r}$ , $ \mu_{1:r}$ et $ \sigma_{1:r},$ la probabilité jointe entre les proportions $ \theta^{d}$ de concepts, l'ensemble $ \mathcal{Z}^{d}$ des $ n_{\mathcal{B}^{d}}$ concepts associés aux blobs, l'ensemble $ \mathcal{B}^{d}$ des $ n_{\mathcal{B}^{d}}$ concepts associés aux blobs, l'ensemble $ \mathcal{Y}^{d}$ des $ n_{\mathcal{W}^{d}}$ concepts associés aux mots et l'ensemble $ \mathcal{W}^{d}$ de $ n_{\mathcal{W}^{d}}$ mots pour une image $ d$ donnée est :

\begin{displaymath}\begin{array}{lcr} \multicolumn{3}{l}{P(\mathcal{B}^{d},\math...
...theta^{d}) P(w_{j}\vert y_{j},\beta_{1:r})\Big)}. \end{array}\end{displaymath} (84)

L'inférence a posteriori est difficile, elle est donc effectuée de manière approximative. Du fait de la structure du modèle, les composantes $ z_{1:n_{\mathcal{B}^{d}}}$ et $ y_{1:n_{\mathcal{W}^{d}}}$ qui génèrent respectivement les blobs et les mots ne sont pas dépendantes conditionnellement à $ \theta^{d}$ .


4 Modèle «Mixture of Multi-Modal LDA» (MoM-LDA)

Le modèle MOM-LDA [Barnard et al., 2003b] se différencie des modèles LDA présentés précédemment par l'ajout d'un mélange d'éléments multimodaux $ G$ à $ n_{G}$ composantes, ainsi que de conditions sur les distributions des blobs et des mots des images.

Figure 4.4: Les modèles graphiques de GM-MIXTURE et GM-LDA (Blei & Jordan, 2003) et de MOM-LDA (Barnard et al., 2003b).
\begin{figure}\centering
\subfigure[GM-Mixture]
{\psfig{figure=figures/figuresE...
...Lda}{}]
{\psfig{figure=figures/figuresEPS/model_MoM-LDA.dvi.eps}}\end{figure}

1 Processus générateur

Ce modèle suppose que les images et leurs légendes sont générées par le processus génératif suivant :
  1. Choisir une composante $ g$ du mélange parmi $ \{1,2,\cdots,n_{G}\}$ selon $ P(G\vert\eta)\sim Mult(\eta)$
  2. Connaissant la composante $ g$ considérée, choisir les proportions $ \theta^{d}$ selon $ P(\Theta \vert g,\alpha_{g})\sim Dir(\alpha_{g})$
  3. Pour $ p\in\{1,2,\cdots,n_{\mathcal{B}^{d}}\}$  :
    1. Choisir une composante $ z_{p}$ parmi $ \{1,2,\cdots,r\}$ selon $ P(Z^{d}\vert\theta^{d})\sim Mult(\theta^{d})$
    2. Choisir le vecteur visuel $ b_{p}$ selon $ P(B^{d}\vert g,z_{p},\mu_{1:r},\sigma_{1:r})
\sim\mathcal{N}(\mu_{z_{p}},\sigma_{z_{p}})$
  4. Pour $ j\in\{1,2,\cdots,n_{\mathcal{W}^{d}}\}$  :
    1. Choisir une composante $ y_{j}$ parmi $ \{1,2,\cdots,r\}$ selon $ P(Y^{d}\vert\theta^{d})\sim Mult(\theta^{d})$
    2. Choisir le mot $ w_{j}$ selon $ P(W^{d}\vert g,y_{j},\beta_{1:r})\sim Mult(\beta_{y_{j}})$
La figure 4.4(c) page [*] montre le modèle graphique de ce processus.

Les paramètres de ce modèle sont : le vecteur $ \eta_{1:n_{G}}$ , les matrices $ \alpha:n_{G}\times r$ , $ \beta:n_{G}\times r\times n_{\mathcal{W}}$ , $ \mu:n_{G}\times r\times n_{\mathcal{V}}$ et $ \sigma:n_{G}\times r\times n_{\mathcal{V}}$ .

2 Auto-annotation

A partir d'une image et d'un modèle MOM-LDA, nous pouvons calculer une approximation des paramètres du mélange a posteriori notée $ \phi$ et, pour chaque composant du mélange, une approximation des paramètres $ \alpha_{g}$ de la distribution de Dirichlet, notée $ \gamma_{g}$ . La distribution des mots connaissant les blobs d'une image est :

\begin{displaymath}\begin{array}{rcl} P(w\vert\mathcal{B}^{d})&=&\sum\limits_{g=...
...gamma_{gy}} {\sum\nolimits_{y=1}^{r}\gamma_{gy}}. \end{array}\end{displaymath} (85)

Pour chaque image, il faut donc recalculer les paramètres $ \phi$ et $ \gamma $ .

Le modèle MOM-LDA est similaire au modèle I-0 présenté partie 4.3 page [*] en ce qu'il dérive sa capacité à prédire des mots du niveau le plus haut du modèle. Le modèle MOM-LDA a l'avantage de permettre de traiter plusieurs concepts, ce qui n'est pas forcément le cas des modèles hiérarchiques MOM-HAM. Par exemple, le modèle I-2 essaye de trouvé un seul concept pour le document entier, et utilise ce concept pour prédire les mots, tandis que le modèle MOM-LDA peut regrouper plusieurs concepts grâce au conditionnement de $ Y^{d}$ par la distribution de Dirichlet (voir figure 4.4(c)).

5 Modèle «Correspondance LDA» (Corr-LDA)

Tous les modèles LDA présentés précédemment considéraient que les blobs et les mots sont interchangeables, et peuvent donc être générés dans n'importe quel ordre. Le modèle CORR-LDA présenté dans [Blei & Jordan, 2003] propose une interchangeabilité partiel. Les blobs sont générés d'abord, et les mots ensuite. Ce modèle peut donc prédire les mots des images sans réordonner les composants multinomiaux de plus hauts niveaux. Il combine la flexibilité de GM-LDA et l'associativité de GM-MIXTURE.

Figure 4.5: Le modèle graphique de CORR-LDA (Blei & Jordan, 2003)
\begin{figure}
\begin{center}
\centerline{\psfig{figure=figures/figuresEPS/model_Corr-LDA.dvi.eps,}} \end{center}
\end{figure}

1 Processus générateur

Le processus générateur est :
  1. Choisir les proportions $ \theta^{d}$ selon $ P(\Theta \vert\alpha)\sim Dir(\alpha)$
  2. Pour $ p\in\{1,2,\cdots,n_{\mathcal{B}^{d}}\}$  :
    1. Choisir une composante $ z_{p}$ parmi $ \{1,2,\cdots,r\}$ selon $ P(Z^{d}\vert\theta^{d})\sim Mult(\theta^{d})$
    2. Choisir le vecteur visuel $ b_{p}$ selon $ P(B^{d}\vert z_{p},\mu_{1:r},\sigma_{1:r})
\sim\mathcal{N}(\mu_{z_{p}},\sigma_{z_{p}})$
  3. Pour $ j\in\{1,2,\cdots,n_{\mathcal{W}^{d}}\}$  :
    1. Choisir une valeur d'index $ y_{j}$ parmi $ \{1,2,\cdots,r\}$ selon une distribution uniforme $ P(Y^{d}\vert n_{\mathcal{B}^{d}})\sim Unif(\{1,2,\cdots,n_{\mathcal{B}^{d}}\})$
    2. Choisir le mot $ w_{j}$ selon $ P(W^{d}\vert y_{j},\beta_{1:r})\sim Mult(\beta_{y_{j}})$
La figure 4.5 page [*] donne une représentation graphique du modèle CORR-LDA.

2 Modèle générateur d'une image

Connaissant les paramètres $ \alpha $ , $ \beta_{1:r}$ , $ \mu_{1:r}$ et $ \sigma_{1:r},$ la probabilité jointe entre les proportions $ \theta^{d}$ de concepts, l'ensemble $ \mathcal{Z}^{d}$ des $ n_{\mathcal{B}^{d}}$ blobs, l'ensemble $ \mathcal{B}^{d}$ des $ n_{\mathcal{B}^{d}}$ concepts associés aux blobs, l'ensemble $ \mathcal{Y}^{d}$ des $ n_{\mathcal{W}^{d}}$ concepts associés aux mots et l'ensemble $ \mathcal{W}^{d}$ des $ n_{\mathcal{W}^{d}}$ mots pour une image $ d$ donnée est :

\begin{displaymath}\begin{array}{lcr} \multicolumn{3}{l}{P(\mathcal{B}^{d},\math...
...{j}\vert y_{j},\mathcal{Z}^{d},\beta_{1:r})\Big)} \end{array}\end{displaymath} (86)

3 Recherche d'images par mots-clés

Soit $ q=\{w^{q}_1,w^{q}_2,\cdots,w^{q}_{n_{q}}\}$ une requête de mots-clés. La probabilité d'avoir la requête connaissant le blob $ b_{p}$ est :

$\displaystyle P(q\vert b_{p})=\prod_{j=1}^{n_{q}}P(w_{j}^{q}\vert b_{p}).$ (87)

La correspondance entre les blobs et les mots n'est pas bijective : plusieurs mots peuvent être associés avec un même blob et un blob peut ne pas être annoté.

4 Inférence

L'inférence n'est pas possible, mais on peut trouver par approximation les paramètres $ \gamma,\phi_{1:n_{\mathcal{B}^{d}}},\lambda_{1:n_{\mathcal{W}^{d}}}$ tels que :

$\displaystyle P(\theta^{d},\mathcal{Z}^{d},\mathcal{Y}^{d} \vert\gamma,\phi_{1:...
...ig) \Big(\prod\limits_{j=1}^{n_{\mathcal{W}^{d}}}P(y_{j}\vert\lambda_{j})\Big).$ (88)

5 Discussion sur les modèles utilisant la distribution de Dirichlet

Les modèles décrits ci-avant nécessitent l'estimation des paramètres à l'aide de l'algorithme EM [Dempster et al., 1977], et peuvent souffrir de problèmes de sur-apprentissage. Pour remédier à ce problème, un lissage est utilisé dans [Blei & Jordan, 2003].

D'après les expériences menées dans [Blei & Jordan, 2003], le modèle CORR-LDA donne de meilleurs résultats que les modèles GM-MIXTURE et GM-LDA selon la mesure perplexity (voir formule 4.4 page [*]). Il n'existe malheureusement pas dans la littérature de comparaisons entre le modèle MOM-LDA et les modèles GM-LDA et CORR-LDA. Cependant, l'avantage des modèles probabilistes est qu'ils permettent de visualiser et d'interpréter les dépendances entre les éléments. Nous pouvons donc comparer ces modèles en comparant les dépendances entre leurs éléments. Pour cela, nous utilisons leurs modèles graphiques présentés dans les figures 4.4 et 4.5. Nous notons que les trois modèles sont constitués de deux variables observées (le nombre de blobs $ \mathcal{B}^{d}$ et le nombre de mots $ \mathcal{W}^{d}$ de chaque document), ainsi que d'un certain nombre de variables latentes (3 pour les modèles GM-LDA et CORR-LDA, et 4 pour le modèle MOM-LDA). Du fait que le modèle MOM-LDA dispose d'une structure hiérarchique comportant plus de niveaux, il est donc plus flexible que les autres modèles. Cependant, il dispose également de plus de dépendances (7 dépendances, contre 4 pour GM-LDA et 5 pour CORR-LDA), il est donc plus complexe à mettre en oeuvre que les autres modèles. Contrairement au modèle GM-LDA, les modèles MOM-LDA et CORR-LDA proposent une dépendance directe des variables $ \mathcal{B}^{d}$ et $ \mathcal{W}^{d}$ à la même variable ($ Z^{d}$ pour CORR-LDA et $ G$ pour MOM-LDA). Cependant, le modèle MOM-LDA propose une interchangeabilité entre les blobs et les mots. Or la comparaison des scores de GM-LDA et de CORR-LDA montre que l'interchangeabilité totale n'est pas forcément une bonne option pour l'auto-annotation. Le modèle CORR-LDA qui est plus simple et qui possède une interchangeabilité partielle entre les blobs et les mots semble donc être préférable au modèle MOM-LDA, mais la plus grande flexibilité et les mélanges adaptés des composantes sont des atouts non-négligeables du modèle MOM-LDA. Bien entendu, seule la comparaison de résultats expérimentaux permettrait réellement de conclure.


5 Comparaison des modèles de l'état de l'art

L'annotation automatique d'images est un domaine très récent. Il semble en effet que les premiers travaux datent de 1999. Mais ce n'est qu'à partir de 2002 que l'on peut observer un accroissement du nombre de publications dans ce domaine. [Datta et al., 2005,Hare et al., 2006] proposent des états de l'art récents des techniques d'auto-annotation. Dans le tableau 4.4, nous listons les principaux articles de l'état de l'art sur l'auto-annotation d'images. Pour chaque article, nous précisons le type de techniques utilisées. De plus, pour les modèles expérimentés sur l'ensemble Corel fournit par les auteurs de [Duygulu et al., 2002], nous avons ajouté dans ce tableau les valeurs de précision moyenne (colonne mP), de rappel moyen (colonne mR), ainsi que le nombre de mots qui ont un rappel et une précision supérieure à zéro (colonne $ n_{\mathcal{W}_{\not=\emptyset}}$ ). Ces mesures ont été décrites dans la partie 4.1.3 page [*]. Ces valeurs ont été collectées dans [Carneiro & Vasconcelos, 2005,Gao et al., 2006,Yavlinsky et al., 2005,Jin et al., 2004]. Les valeurs moyennes de rappel et de précision choisies pour [Yavlinsky et al., 2005] sont celles de l'expérience TAMURACIE- MATHEND000#. Pour [Lavrenko et al., 2003], elles correspondent au modèle CRM (Continuous Relevance Model). Pour [Jin et al., 2004], elles correspondent au modèle CLM (Coherent Langage Model) qui a le plus fort rappel.

Les résultats obtenus dans [Yavlinsky et al., 2005] ne peuvent être comparés avec les autres systèmes sans préciser que les descripteurs visuels utilisés ne sont pas ceux utilisés par les autres systèmes. En effet, la plupart des autres systèmes essayent de trouver la meilleure méthode pour faire de l'auto-annotation à partir des mêmes descripteurs visuels locaux. Par contre, dans [Yavlinsky et al., 2005], les descripteurs visuels utilisés sont globaux. Ils montrent que, à l'aide de descripteurs globaux de couleurs et de simples estimations de densités, on peut obtenir les mêmes scores que les modèles de l'état de l'art sur Corel.

Les résultats de rappel/précision moyen présentés dans le tableau 4.4 permettent de comparer les modèles d'auto-annotation. Nous voyons que les modèles sont de plus en plus efficaces. Les modèles présentés dans [Carneiro & Vasconcelos, 2005,Gao et al., 2006] donnent actuellement les meilleurs résultats.

Si nous comparons les techniques utilisées pour construire les modèles que nous avons décrit dans ce chapitre ainsi que ceux qui sont brièvement décrits dans le tableau, nous voyons que la combinaison des informations textuelles et visuelles peut s'effectuer de différentes manières : par fusion précoce (par exemple, dans [Monay & Gatica-Perez, 2004], les deux modalités sont regroupées dans le même espace), de manière indépendante l'une de l'autre (par exemple, les modèles I-0, I-1, I-2, GM-LDA, MOM-LDA...) ou bien de manière dépendante (modèles D-0, D-1, D-2, CORR-LDA...). Nous voyons également qu'il existe des modèles hiérarchiques (MOM-HAM, MOM-LDA, MIX-HIER...) qui tentent de capturer l'information sur plusieurs niveaux et d'autres non-hiérarchiques (LSA, PLSA), des modèles qui utilisent des techniques non-supervisées [Duygulu et al., 2002,Barnard et al., 2003b,Blei & Jordan, 2003,Lavrenko et al., 2003,Li & Wang, 2003,Feng et al., 2004] et d'autres supervisées [Carneiro & Vasconcelos, 2005,Li et al., 2003]. Certains utilisent des blobs [Barnard et al., 2003b,Fan et al., 2004], d'autres préfèrent des régions rectangulaires [Jeon & Manmatha, 2004,Monay & Gatica-Perez, 2003,Feng et al., 2004], ou bien encore utiliser l'image entière [Yavlinsky et al., 2005].

Comparer des modèles aussi différents qui n'utilisent pas les mêmes données d'apprentissage et qui ne sont pas toujours construits avec le même objectif est difficile. Nous avons comparé dans le tableau 4.4 des modèles expérimentés sur les données fournies par les auteurs de [Duygulu et al., 2002] et qui utilisent les mesures de rappel et de précision moyennes. Nous comparerons dans la partie 5.4 page [*], les modèles utilisant le score NS et les données utilisées dans [Barnard et al., 2003b] avec le modèle d'auto-annotation que nous proposons dans cette thèse et qui sera décrit au chapitre suivant.


Table 4.4: Comparaisons de quelques modèles de l'état de l'art de l'annotation automatique d'images
Références Principes      
         
         
         
     
         
     
         
     
         
   
         
     
         
   
         
         
     
         
     
         
     
         
         
         
         
         
     
         
         
         



next up previous contents index
Next: 2 Propositions Up: 1 État de l'art Previous: 3 Apprentissage automatique et   Contents   Index
Tollari Sabrina 2008-01-08