Caltech 101 és un conjunt de dades d'imatges digitals creat el setembre del 2003 i compilat per Fei-Fei Li, Marco Andreetto, Marc 'Aurelio Ranzato i Pietro Perona a l'Institut Tecnològic de Califòrnia. Està pensat per facilitar la investigació i les tècniques de visió per computador i és més aplicable a les tècniques que impliquen classificació i categorització de reconeixement d'imatges. Caltech 101 conté un total de 9.146 imatges, dividides en 101 categories d'objectes diferents (cares, rellotges, formigues, pianos, etc.) i una categoria de fons. Amb les imatges es proporcionen un conjunt d'anotacions que descriuen els contorns de cada imatge, juntament amb un script de Matlab per visualitzar-lo.
La majoria dels algorismes de visió per ordinador i d'aprenentatge automàtic funcionen entrenant-se amb entrades d'exemple. Requereixen un conjunt ampli i variat de dades d'entrenament per funcionar de manera eficaç. Per exemple, el mètode de detecció de cares en temps real utilitzat per Paul Viola i Michael J. Jones es va entrenar en 4.916 cares etiquetades a mà.[1]
Retallar, redimensionar i marcar a mà els punts d'interès és tediós i requereix molt de temps.
Històricament, la majoria de conjunts de dades utilitzats en la investigació en visió per computador s'han adaptat a les necessitats específiques del projecte en el qual es treballa. Un gran problema a l'hora de comparar les tècniques de visió per ordinador és el fet que la majoria de grups utilitzen els seus propis conjunts de dades. Cada conjunt pot tenir propietats diferents que fan que els resultats reportats de diferents mètodes siguin més difícils de comparar directament. Per exemple, les diferències en la mida de la imatge, la qualitat de la imatge, la ubicació relativa dels objectes dins de les imatges i el nivell d'oclusió i el desordre present poden donar lloc a resultats diferents.[2]
El conjunt de dades Caltech 101 pretén alleujar molts d'aquests problemes comuns.
Tanmateix, un estudi recent [3] demostra que les proves basades en imatges naturals no controlades (com el conjunt de dades Caltech 101) poden ser seriosament enganyoses, i poden orientar el progrés en la direcció equivocada.
El conjunt de dades de Caltech 101 consta d'un total de 9.146 imatges, dividides en 101 categories d'objectes diferents, així com una categoria addicional de fons/desordre.
Cada categoria d'objectes conté entre 40 i 800 imatges. Les categories habituals i populars, com ara cares, solen tenir un nombre d'imatges més gran que altres.
Cada imatge és d'uns 300x200 píxels. Les imatges d'objectes orientats com ara avions i motocicletes es van reflectir per alinear-se d'esquerra a dreta i les estructures orientades verticalment, com ara edificis, es van girar per quedar fora de l'eix.
El conjunt de dades Caltech 101 es va utilitzar per entrenar i provar diversos algorismes de reconeixement i classificació de visió per ordinador. El primer article que va utilitzar Caltech 101 va ser un enfocament bayesià incremental per a l'aprenentatge d'un sol cop, un intent de classificar un objecte utilitzant només uns quants exemples, basant-se en el coneixement previ d'altres classes.
Les imatges de Caltech 101, juntament amb les anotacions, es van utilitzar per a un altre document d'aprenentatge d'un sol cop a Caltech.[4]
Altres documents de Computer Vision que informen que utilitzen el conjunt de dades Caltech 101 inclouen: