El índice Lincoln es una medida estadística utilizada en varios campos para estimar el número de casos que aún no se han observado, en base a dos conjuntos independientes de casos observados. Descrito por Frederick Charles Lincoln en 1930, también se lo conoce a veces como el método Lincoln-Petersen después de C.G. Johannes Petersen, quien fue el primero en usar el método de marca y recaptura relacionado.[1]
Considere dos observadores que cuentan por separado las diferentes especies de plantas o animales en un área determinada. Si cada uno regresa después de haber encontrado 100 especies, pero ambos observadores solo encuentran 5 especies particulares, entonces cada observador claramente perdió al menos 95 especies (es decir, las 95 que solo encontró el otro observador). Por lo tanto, sabemos que ambos observadores extrañan mucho. Por otro lado, si 99 de las 100 especies que encontró cada observador habían sido encontradas por ambos, es justo esperar que hayan encontrado un porcentaje mucho mayor del total de especies que están allí para encontrar.
El mismo razonamiento se aplica a la marca y recaptura. Si se capturan y marcan algunos animales en un área determinada, y luego se realiza una segunda ronda de capturas: el número de animales marcados que se encuentran en la segunda ronda se puede utilizar para generar una estimación de la población total.[2]
Otro ejemplo surge en la lingüística computacional para estimar el vocabulario total de un idioma. Dadas dos muestras independientes, la superposición entre sus vocabularios permite una estimación útil de cuántos elementos de vocabulario más existen pero que no aparecieron en ninguna de las muestras. Un ejemplo similar implica estimar el número de errores tipográficos que quedan en un texto, a partir de los recuentos de dos revisores.
El Índice Lincoln formaliza este fenómeno. Si E1 y E2 son el número de especies (o palabras u otros fenómenos) observados por dos métodos independientes, y S es el número de observaciones en común, entonces el Índice de Lincoln es simplemente
Para valores de S < 10, esta estimación es aproximada y se vuelve extremadamente aproximada para valores de S < 5) En el caso donde S = 0 (es decir, no hay superposición en absoluto) el Índice Lincoln está formalmente indefinido. Esto puede surgir si los observadores solo encuentran un pequeño porcentaje de la especie real (tal vez al no mirar lo suficiente o lo suficiente), si los observadores están utilizando métodos que no son estadísticamente independientes (por ejemplo, si uno solo busca criaturas grandes y el otro solo para pequeños), o en otras circunstancias.
El Índice Lincoln es simplemente una estimación. Por ejemplo, las especies en un área dada podrían ser muy comunes o muy raras, o ser muy difíciles o muy fáciles de ver.[3] Entonces sería probable que ambos observadores encontraran una gran parte de las especies comunes, y que ambos observadores perderían una gran parte de las raras. Tales distribuciones arrojarían la estimación consecuente. Sin embargo, tales distribuciones son inusuales para los fenómenos naturales, como lo sugiere la Ley de Zipf ).
T.J. Gaskell y B.J. George proponen una mejora del Índice Lincoln que afirma reducir el sesgo.[4]