suivant: Classification textuelle, visuelle et monter: Rehaussement de la classification précédent: Présentation du corpus et

Sous-sections

Représentation vectorielle du texte des images
Mesure de similarité
Paramétrages du critère d'agrégation et du critère d'arrêt

Construction d'une base de référence par CAH

Dans un premier temps, il s'agit de construire une classification (non-supervisée) des images à partir de leur indexation textuelle uniquement. Cette classification constituera une base de référence qui permettra de mesurer les erreurs de classification, et par la suite, d'indexer de nouvelles images.

Pour réaliser cette classification, nous avons choisi d'utiliser la méthode classique de classification ascendante hiérarchique(CAH)(Lance et Williams, 1967) :


Algorithme Classification ascendante hiérarchique

Données :

  : ensemble de  éléments à classer


Tableau  des distances entre éléments

Variables :

 : ensemble des  classes

Début



Pour chaque individu  de  faire


Créer une classe dans  contenant 

fin pour

Tant que  faire

Pour chaque couple  de classes de  faire


Calculer la distance entre   et 


pour le critère d'agrégation considéré

fin pour


Agréger les deux classes  et  de distance minimale

		 		

fin tant que

Fin

Pour mettre en oeuvre cette classification, il faut disposer de trois composantes :

(i): une représentation textuelle des images,
(ii): une mesure de similarité qui permet de comparer les images,
(iii): un critère d'agrégation qui permet de fusionner les classes.

Dans le cas standard, l'agrégation s'arrête lorsque tous les individus ont été rassemblés dans la même classe. Dans notre cas, le critère d'arrêt sera d'avoir obtenu un ensemble de classes représentatives du corpus d'images et suffisamment homogènes.

Représentation vectorielle du texte des images

Nous avons choisi de représenter(décrire, indexer) une image

par un vecteur $\vec{d_i}$ comme présenté à la section 1.2.2, car c'est une représentation efficace classiquement utilisée. A chaque mot-clé du thésaurus est associée une case du vecteur dans l'ordre d'apparition des mots. Une case est initialisée à 1 si le mot-clé appartient à l'image, à 0 sinon. On a donc $\omega_{j,i} \in \{0,1\}$ .

De plus, le thésaurus est structuré hiérarchiquement par une relation de généricité ( $\prec$ ) qui implique que si une image est indexée par un mot-clé et que $t_j \prec t_k$ alors cette image est aussi indexée par le mot-clé . Il faut donc, comme dans [MCM02], étendre le vecteur $\vec{d_i}=(\omega_{1,i},\ \omega_{2,i},\ \dots,\ \omega_{j,i},\ \dots,\ \omega_{n,i})$ d'une image de façon à ce que

$\begin{displaymath} \forall j,k\ \in [1,n],\ \omega_{k,i}=1\ si\ \omega_{j,i}=1\ et\ t_j \prec t_k. \end{displaymath}$

(18)

Cette méthode d'extension des vecteurs permet de raprocher des documents qui contiennent des termes `frères' dans le thésaurus.

Exemple _exemple Considérons le thésaurus et l'indexation de l'image

dans la figure 5. Le vecteur $\vec{d_3}$ initial est

. Puisque $T\acute{e}l\acute{e}phonie \prec Communication$ , on a $\omega_{1,3}=1$ , et puisque $Radio \prec M\acute{e}dia \prec Communication$ , on a $\omega_{4,3}=1$ et $\omega_{1,3}=1$ . Le vecteur étendu de l'image

est donc

. Les vecteurs étendus des images

sont obtenus de façon similaire.

**Figure:** Extension d'un vecteur relativement à un thésaurus
$\begin{figure}\unitlength=1cm \fbox{ \begin{picture}(15,4.2) \put(2.5,3.5){Commu... ...Radio\}$} \put(11,0.5){$\vec{d_3}=(1,1,0,1,1,0)$} \end{picture}}\par\end{figure}$

Mesure de similarité

En recherche d'information(RI), on utilise souvent le cosinus défini en 1.3.3 entre le vecteur représentant le document

et le vecteur représentant la requête

comme expliqué dans la section 1.2.2. Mais dans notre cas, nous voulons mesurer la similarité entre deux documents

. De plus, compte tenu que les poids sont égaux à 0 ou à 1, on peut simplifier la formule du cosinus en :

$\begin{displaymath} sim(d_k,d_l)=cos(\vec{d_k},\vec{d_l})= \frac{\sum_{j=1}^{n}\... ...{j=1}^{n}\omega_{j,k}}\times\sqrt{\sum_{j=1}^{n}\omega_{j,l}}} \end{displaymath}$

(19)

où $\omega_{j,k}$ , $\omega_{j,l}$ et $\omega^*_{j,k,l} \in \{0,1\}$ , et $\omega^*_{j,k,l}=1$ si les images

sont indexées par

, sinon $\omega^*_{j,k,l}=0$ .

Pour la classification, c'est la distance entre deux images que l'on a besoin de connaître. Nous la calculons par la formule :

$\begin{displaymath} dist(d_k,d_l)=1-sim(d_k,d_l). \end{displaymath}$

(20)

Deux images similaires ont une distance égale à 0 et deux images entièrement dissimilaires ont une distance égale à 1.

Exemple _exemple Si l'on considère les images

de la figure 5, on a

Paramétrages du critère d'agrégation et du critère d'arrêt

A chaque étape d'une classification ascendante hiérarchique, on agrège les deux classes

qui ont une distance

minimum. Il existe plusieurs formules pour calculer cette distance

dont les plus classiques sont définies à la section 2.3. Les distances par plus proche voisin, diamètre maximum et distance moyenne ont été expérimentées.

Le tableau 2 présente les meilleurs résultats que nous avons pu obtenir pour chacun des critères. Les classes obtenues avec les critères du plus proche voisin et de la distance moyenne sont sémantiquement homogènes, mais on observe que les classes les plus peuplées sont les plus attractives, et donc il y une grande hétérogénéité numérique (une grande classe qui contient la plupart des images, et beaucoup de petites classes qui contiennent une seule image). Cette grande classe est peut-être due à la configuration de nos données, en effet, certains mots génériques comme `portrait' sont présents dans beaucoup d'images. Le critère du diamètre maximum donne des classes numériquement plus homogènes, mais les images appartenant à une même classe sont sémantiquement trop différentes.

Tableau: Résultat des meilleurs classifications ascendantes hiérarchiques obtenues pour chacun des critères (min : nombre minimal d'images dans une classe, max : nombre maximal d'images dans une classe, moy : nombre moyen d'images par classe, c : nombre de classes obtenues et m : nombre d'images totales). Le critère choisi pour la CAH est le diamètre maximum contraint 0.7 filtré.

Résultats CAH	min	max	moy	écart-type	c	m
Plus proche voisin	1	238	13.3	33.7	50	665
Plus proche voisin	8	238	41.2	65.9	10	412
filtré
Diamètre maximum	1	98	10.2	14.6	65	665
Diamètre maximum	8	98	20.6	20.6	23	474
filtré
Diamètre maximum	1	98	11.7	16.5	57	665
contraint 0.7
Diamètre maximum	8	98	21.5	21.4	24	517
contraint 0.7 filtré

Ces résultats étant peu satisfaisants, un compromis a alors été recherché entre la méthode du plus proche voisin et celle du diamètre maximum pour garder les avantages de l'une et de l'autre. Ce compromis a été d'utiliser le diamètre maximum, mais au lieu de prendre la distance maximale, nous avons pris la plus grande distance inférieure à un certain seuil (la contrainte ).

On appelle diamètre maximum contraint de contrainte $CT \in [0,1]$ la distance entre la classe et la classe :

$\begin{displaymath} D(C_p,C_q)=\Bigg\{ \begin{array}{ll} 0&si\ \exists d_r, d_s... ...min\{dist(d_r,d_s);d_r\in C_p,\ d_s\in C_q\}&sinon. \end{array}\end{displaymath}$

(21)

La première condition permet aux documents ayant exactement les mêmes descriptions de se retrouver dans la même classe. La deuxième élargit la recherche aux documents éloignés, mais pas trop. La dernière est pour les cas extrêmes ou toutes les distances entre deux images seraient plus grandes que la contrainte.

Nous avons déterminé de manière empirique que pour nos données les meilleurs résultats étaient obtenus pour . En effet, ils sont meilleurs numériquement, car les classes sont plus homogènes que celles obtenues par le critère du plus proche voisin (écart-type 21.465.9). Et sémantiquement les images d'une même classe sont plus similaires que par le critère du diamètre maximum.

Pour le critère d'arrêt de la classification, nous avons déterminé de manière empirique que pour obtenir des classes représentatives, il fallait arrêter la classification lorsque la distance d'agrégation obtenue était de 0,55. On a ainsi obtenu 57 classes.

Pour obtenir des classes qui soient suffisamment représentatives, il faut que les classes aient certaines caractéristiques. Une classe doit avoir un nombre d'images $n_{C_k}$ suffisant (fixé à 8) pour contenir assez d'informations visuelles, et les images qu'elle contient ne doivent pas être indexées par les mêmes mot-clés pour avoir suffisamment de diversités textuelles. On exprime cela sous-forme de contraintes dont l'union forme un filtre. Chaque classe doit vérifier :

$\begin{displaymath} \exists d_r,d_s \in C_k,\ dist(d_r,d_s)\not=0\ et\ n_{C_k}\geq 8, %%et \ sim(i,j)<0.55\ \end{displaymath}$

(22)

sinon elle est supprimée ainsi que les images qu'elle contient.

Après filtrage, nous obtenons 24 classes sémantiquement pertinentes et dont les images sont suffisamment bien réparties. Nous pouvons donc l'utiliser comme base de référence. Le tableau 3 donne un aperçu des mot-clés de chacune des classes obtenues et la figure 6 montre un exemple d'une classe et de ses images.

Tableau: Nombre (

) d'images par classe et liste des 3 premiers mot-clés les plus fréquents (

) dans chaque classe

Classe		$T_{f_1}$	$T_{f_2}$	$T_{f_3}$
1	19	Mexique	Politique	Portrait
2	8	Israël	Judaïsme	Patrimoine
3	9	Constructeurs	Transport	Automobile
4	18	Contemporaine	Portrait	Rhône
5	29	Portrait	Armée de l'air	Aéronautique
6	8	Société	Famille	Enfant
7	18	Cameroun	Agriculture	Géographie physique
8	22	Municipalité	Portrait	Les Verts
9	12	Elevages	Santé	Police national
10	9	Portrait	Média	Administrations
11	10	Femme	Ouvriers	Industrie de précision
12	8	Région	Municipalité	Conseil régionaux
13	9	Communication	Télécommunications	Multimédia
14	8	Production	Travail	Alimentation
15	8	Israël	Liban	Urbanisation
16	28	Parti socialiste	Portrait	Municipalité
17	8	Multimédia	Start'up	Ouvriers
18	21	Jeux de société	Humain	Librairies
19	18	Problèmes sociaux	Conflits sociaux	Europe
20	48	Politique	Paris	Bourse
21	71	Bars et Café	Restauration rapide	Etats-Unis
22	12	Infrastructures routières	Innondation	Véhicules
23	98	Portrait	Municipalité	RPR-UMP
24	18	Justice	Portrait	Scandales politiques

**Figure 6:** Exemple de classe obtenue par notre CAH
$\includegraphics[]{tollari_images/classe11.eps}$

suivant: Classification textuelle, visuelle et monter: Rehaussement de la classification précédent: Présentation du corpus et

Tollari Sabrina 2003-06-10