Про́бит-регрессия (пробит-модель, англ. probit) — применяемая в различных областях (эконометрика, токсикология и др.) статистическая (нелинейная) модель и метод анализа зависимости качественных (в первую очередь — бинарных) переменных от множества факторов, основанная на нормальном распределении (в отличие от, например, аналогичной логит-регрессии, основанной на логистическом распределении). В экономике (эконометрике) пробит-модели (наряду с логит-, гомпит- и др.) используются в моделях бинарного выбора или в моделях множественного выбора между различными альтернативами, для моделирования дефолтов компаний, в страховании жизни - для оценки вероятности смерти в зависимости от возраста и пола и т. д. В токсикологии пробит-регрессия используется для оценки влияния дозы или концентрации тех или иных веществ на биологические объекты.
Пробит-модель позволяет оценить вероятность того, что анализируемая (зависимая) переменная примет значение 1 при заданных значениях факторов (то есть это оценка доли "единиц" при данном значении факторов). В пробит-модели пробит-функция от вероятности моделируется как линейная комбинация факторов (включая константу). Пробит-функцией принято называть функцию, обратную к интегральной функции (CDF) стандартного нормального распределения, то есть функцию, определяющую квантиль стандартного нормального распределения для заданной вероятности .
Термин «probit» как производное от англ. probability unit предложил (впервые использовал) Честер Блисс (Chester Ittner Bliss [1899—1979])[1] в своей статье, посвященной количественному анализу смертельного действия ядов на примере действия никотина на щавелевую тлю (Aphis rumicis L.)[1]. С тех пор метод пробит-анализа особенно популярен в токсикологии. Само использование функции нормального распределения для описания зависимости «доза — эффект» восходит к английскому математику J. W. Trevan который показал, что интенсивность клеточного ответа на данную дозу лекарственного вещества подчиняется распределению Гаусса[2].
Пробит-модель является частным случаем модели бинарного выбора в которой используется нормальное распределение. А именно, пусть зависимая переменная является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными и . Например, может означать наличие/отсутствие каких-либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) , которые оказывают влияние на . В пробит-модели предполагается, что вероятность того, что определяется нормальным распределением, таким образом пробит-модель имеет вид:
где — интегральная функция распределения (CDF) стандартного нормального распределения, — неизвестные параметры, которые требуется оценить.
Использование именно стандартного нормального распределения не ограничивает общности модели, так как возможное ненулевое среднее учтено в константе, которая обязательно присутствует в числе факторов, а возможная неединичная дисперсия учитывается за счет соответствующего нормирования всех коэффициентов b.
Как и в общем случае модели бинарного выбора в основе модели лежит предположение о наличии некоторой скрытой (ненаблюдаемой) переменной , в зависимости от значений которой наблюдаемая переменная принимает значение или :
Предполагается, что скрытая переменная зависит от факторов в смысле обычной линейной регрессии , где случайная ошибка в данном случае имеет стандартное нормальное распределение . Тогда
Последнее равенство следует из симметричности нормального распределения.
Также модель может быть обоснована через полезность альтернатив — не наблюдаемой функции , то есть фактически двух функций и соответственно для двух альтернатив. Функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной.
Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма факторов и зависимой переменной . Для данного номера наблюдения используем индекс . Логарифмическая функция правдоподобия имеет вид:
Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:
где — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке):
где — функция плотности вероятности (PDF) стандартного нормального распределения.
Матрица неизвестна и используется её состоятельная оценка:
Обычно оценка модели производится в специализированных (статистических, эконометрических) программных продуктах, например, Statistica, EViews, Matrixer, R[3], SPSS и др.[4], хотя возможна «ручная» оценка, например в MS Office Excel, используя встроенный «Поиск решения» для максимизации логарифмической функции правдоподобия.
Для оценки качества построенной пробит-регрессии применяются стандартные для моделей бинарного выбора статистики:
Важное значение имеет анализ доли правильных прогнозов. В частности анализируется доля правильных и (или) неправильных прогнозов для значения каждого из значений зависимой переменной (0 и 1).
Рассмотрим пробит-модель на примере действия инсектицида на насекомых[5][6]. Зависимой бинарной переменной является переменная, принимающая значение 1, если данное насекомое погибло, и 0 в противном случае. В выборке насекомых реакция на инсектицид одних насекомых не зависит от реакции других. В качестве фактора модели выступает «измеритель» дозы , где -доза инсектицида. Вероятность того, что случайно отобранное из совокупности насекомое погибнет за данное время, равна
Если параметры модели и известны (обозначим оценки и соответственно), то уровень дозы , при котором погибает некоторый процент насекомых, находится из уравнения
где — квантиль уровня стандартного нормального распределения.
В частности, для уровня дозы , при которой погибает 50 % насекомых, . Эту величину в токсикологии принято обозначать ЛД50.
Можно также построить приблизительный доверительный интервал для следующим образом: . Дисперсию можно оценить приблизительно следующим образом:
где — оценка дисперсии оценок параметров модели, — оценка ковариации между оценками параметров.
Более точный доверительный интервал можно оценить исходя теоремы Феллера, в соответствии с которой 95%-е доверительные границы для являются корнями , квадратного уравнения
где — 95%-я точка распределения Стьюдента.
На практике встречаются ситуации, когда необходимо исследовать не две альтернативы, а несколько альтернатив. Если эти альтернативы неупорядоченные, то говорят о множественной (multinominal) пробит-модели. В случае упорядоченных альтернатив (например, 5-балльная оценка качества услуги или товара) говорят о порядковой или упорядоченной (ordered) пробит-модели.