Índex de Rand

L'Índex de Rand és una mesura de semblança entre dues particions d'objectes (per exemple, entre les categories resultants d'aplicar dos mètodes de categorització).

Definició

[modifica]

Sigui un conjunt de objectes , i dues particions i del conjunt d'objectes.

Aleshores, si definim

r': correspon al nombre de parells (a,b) on a i b es troben en un mateix grup tant a la partició com a la partició .

s: correspon al nombre de parells (a,b) on a i b es troben en un mateix grup de però no de .

t: correspon al nombre de parells (a,b) on a i b es troben en grups diferents de però en canvi es troben en el mateix grup de .

u: correspon al nombre de parells (a,b) on a i b es troben en grups diferents tant de com de .

l'índex Rand correspon al quocient:

L'índex de Rand ajustat

[modifica]

L'índex de Rand ajustat correspon a una modificació de l'índex de Rand per tal que l'esperança de l'índex sigui zero quan considerem particions aleatòries on totes les categories de la partició tenen el mateix nombre d'objectes.

Per definir-lo, tal com hem fet abans, considerem dues particions i sobre el conjunt d'objectes . Aleshores, l'índex de Rand ajustat correspon a:

on correspon al valor esperat de l'índex de Rand i el valor màxim. Aquests valors es defineixen com segueix:

amb definit com:

on, com s'ha dit, n és el nombre d'objectes i on és el nombre d'objectes que hi ha a la partició .

A diferència de l'índex de Rand que sempre dona valors positius, l'ajustat pot prendre valors negatius.