شاخص لینکلن یک معیار اندازهگیری آماری در زمینههای مختلف است که به منظور برآورد تعداد موردهایی است که هنوز مشاهده نشدهاست که بر اساس دو مجموعه مستقل که هردو به صورت جداگانه مشاهده شدهاند. توسط فردریک چارلز لینکلن در سال ۱۹۳۰ توضیح داده شدهاست که این شاخص را به به عنوان روش لینکلن-پترسون پس از C. G. یوهانس پترسن که اولین نفری بود که از روش مشابه علامت زدن و بازگرفتن استفاده کرد.[۱]
دو ناظر را در نظر بگیرید که بهطور جداگانه به شمارش تعداد گونه مختلف از گیاهان یا حیوانات در یک منطقه میپردازند. اگر هر یک از آنها برگردد و پس از پیدا کردن ۱۰۰ گونه که تنها ۵ گونه خاص یکسان توسط هر دو ناظر پیدا شدهاند، بنابراین ۹۵ گونه حداقل توسط یک ناظر از بین رفتهاست. (که این عدد یعنی ۹۵ گونه دیگر توسط ناظر دیگر پیدا شدهاست). بنابراین هر دو ناظر مقداری زیادی گونه ناشناخته را از دست دادهاند. از سوی دیگر، اگر ۹۹ از ۱۰۰ گونه هر ناظر مشابه ناظر دیگر باشد، این انتظار منصفانه است که درصد بالایی از گونههایی که در آنجا زندگی میکنند را پیدا کردند.
همان استدلال برای روش علامت زدن و بازگرفتن انجام میشود. اگر برخی از حیوانات در یک منطقه مشخص شده علامت زده شوند و سپس آزاد شوند، و سپس بعداً دور دومی همین کار صورت بگیرد: تعداد حیوانات علامت زده شده در دور دوم میتواند برای تولید تخمینی از کل جمعیت استفاده شود.[۲]
مثال دیگری مطرح در زبانشناسی محاسباتی برای برآورد کل واژههای یک زبان است. با توجه به دو نمونه مستقل، از همپوشانی بین واژههای آنها، این ویژگی مفید برآورد که چه بسیار واژههایی وجود دارند اما در هیچ نمونه ای مشاهده نشدهاست. یک مثال مشابه شامل برآورد تعداد اشتباهات تایپی باقی مانده در یک متن از شمارش دو ویرایشگر متن میتوان اشاره کرد.
شاخص لینکلن این پدیده را قابل حل میکند. اگر E1 و E2 عددی از تعداد گونهها باشند (یا کلمات یا پدیدههای دیگر) و توسط دو روش مستقل مشاهده شوند و S عدد تعداد مشاهدات مشترک باشد، سپس شاخص لینکلن به سادگی به صورت زیر تعریف میشود
برای مقادیر S < 10 این برآورد سخت است و برای مقادیر S < 5 بسیار سختتر است. در مورد که در آن S = ۰ (که نشان دهندهٔ عدم تداخل دادههای مشاهده شدهاست) شاخص لینکلن تعریف نشدهاست. این حالت در شرایطی میتواند به وجود بیاید که ناظران تنها درصد کمی تفاوت از این گونه (احتمالا به خاطر خوب دقت نکردن یا زمان کافی را نگذاشتن) بیابند، اگر ناظران هم از روش آماری استفاده کنند که به طول کامل مستقل نباشد (برای مثال یکی از مشاهده گران فقط دنبال موجودات بزرگ و دیگری دنبال موجودات کوچک باشد) یا در حالتهای دیگر چنین اتفاقی میافتد.
شاخص لینکلن صرفاً یک تخمین است. برای مثال، گونههای داده شده در یک منطقه میتوانند بسیار رایج یا بسیار نادر به هم باشند یا بسیار سخت یا بسیار آسان قابل دیدن باشند.[۳] بنابراین احتمال اینکه هر دو ناظر سهم زیادی از گونههای رایج پیدا کنند زیاد است که ممکن سهم زیادی از موجودات نادر را از دست بدهند. چنین توزیعی دیگر در این برآورد کارایی ندارد. البته، چنین توزیعهایی غیرمعمول برای پدیدههای طبیعی هستند همانطور که طبق قانونZipf اشاره شدهاست).
همچنین T. J. Gaskell و B. J. جورج ادعا میکند که شاخص لینکلن سبب کاهش یکنواختی در دادهها میشود.[۴]