Метрика интересна в нескольких отношениях. По теореме Ченцова, информационная метрика Фишера на статистических моделях является единственной (с точностью до масштабирования) римановой метрикой, инвариантной при достаточной статистике.[1][2]
Пусть задано статистическое многообразие с координатами . Через обозначим распределение вероятностей как функцию от . Здесь принадлежит пространству значений дискретной или непрерывной случайной величины. Вероятность нормирована равенством .
Тогда информационная метрика Фишера определяется как
.
Интегрирование выполняется по всем значениям из . Переменная становится координатой на римановом многообразии. Метки и указывают на локальные оси координат на многообразии.
Когда вероятность выводится из меры Гиббса, как это было бы для любого марковского процесса, то также можно понимать как множитель Лагранжа. Множители Лагранжа обеспечивают ограничения, такие как постоянство ожидаемого значения[англ.] некоторой величины. Если существует ограничений, обеспечивающих постоянство различных ожидаемых значений, то размерность многообразия на измерений меньше исходного пространства. В этом случае метрика может быть явно получена из статистической суммы.
Через замену из теории информации получается эквивалентная форма приведенного выше определения:
.
Для доказательства эквивалентности определений выше следует заметить, что
Метрика может быть определена иначе: как вторая производная относительной энтропии, или расстояния Кульбака — Лейблера.[3] Для этого необходимо рассмотреть два распределения вероятностей и , инфинитезимально близких друг к другу, так что
,
где — инфинитезимально малое изменение в направлении . Тогда поскольку расстояние Кульбака — Лейблера принимает минимальное абсолютное значение 0 при , то можно разложить до второго порядка по следующую форму:
.
Симметричная матрица положительно (полу)определена и является гессианом функции в точке экстремума . Неформально это можно описать так: расстояние между двумя инфинитезимально близкими точками на статистическом дифференциальном многообразии и есть информационная разница между ними.
Параметр пути здесь — время . Это действие можно понимать как изменение свободной энтропии системы при ее перемещении от времени к времени .[4] А именно, изменение свободной энтропии выражается через действие формулой:
Для дискретного вероятностного пространства, то есть вероятностного пространства на конечном наборе объектов, метрику Фишера можно понимать просто как евклидову метрику, ограниченную областью единичной сферы, в которой все координаты неотрицательны. Чтобы показать эту связь, нужно сделать соответствующую замену переменной.[5]
Рассмотрим плоское евклидово пространство размерности N+1, заданное точками . Метрика для евклидова пространства задается выражением
Верхний индекс "" означает, что в координатной форме эта метрика относится к координате плоского пространства.
N-мерную единичную сферу в (N+1)-мерном евклидовом пространстве можно задать как
.
Такое вложение индуцирует метрику на сфере. Метрика наследуется непосредственно от евклидовой метрики на объемлющем пространстве. Она принимает точно такую же форму, что и выше, с тем лишь ограничением, что координаты лежат на поверхности сферы. Это можно сделать, например, с помощью техники множителей Лагранжа.
Рассмотрим теперь замену переменной . Уравнение сферы превращается в условие нормирования вероятности:
.
При этом метрика принимает вид
Можно заметить, что последний результат — это одна четвертая информационной метрики Фишера. Наконец, вспомним, что вероятности являются параметрическими функциями переменных многообразия , то есть . Таким образом, сказанное выше индуцирует метрику на многообразии параметров:
Или, в координатной форме, информационная метрика Фишера:
где, как и раньше,
Верхний индекс "" означает, что выражение применяется к координатам , тогда как некоординатная форма та же, что и у евклидовой метрики (в плоском пространстве). То есть информационная метрика Фишера на статистическом многообразии — это просто учетверенная евклидова метрика, ограниченная неотрицательной по всем координатам областью сферы, после соответствующей замены переменной.
Если же случайная величина не дискретна, а непрерывна, рассуждение остается в силе. Это можно показать двумя разными способами.
Первый — аккуратно повторить все вышеперечисленные шаги в бесконечномерном пространстве, стараясь правильно определить пределы и т. д., чтобы быть уверенными, что все преобразования четко определены, сходятся и т. д.
Другой способ, как отмечено М. Л. Громовым[5], — применить теоретико-категориальный подход, то есть отметить, что описанные выше манипуляции остаются в силе в категории вероятностей. Здесь следует отметить, что такая категория обладала бы свойством Радона — Никодима[англ.], то есть в этой категории справедлива теорема Радона — Никодима. В том числе это верно для гильбертовых пространств. Они интегрируемы с квадратом, и в описанных выше преобразованиях этого достаточно, чтобы безопасно заменить суммирование по квадратам на интеграл квадрата.
Вышеупомянутый вывод метрики Фишера из евклидовой метрики можно распространить и на комплексные проективные гильбертовы пространства[англ.]. В этом случае получается метрика Фубини — Штуди.[6] Это вполне закономерно, поскольку метрика Фубини — Штуди позволяет измерять информацию в квантовой механике. Метрика Буреса[англ.], также известная как метрика Хельстрома, идентична метрике Фубини — Штуди, хотя последняя обычно записывается в терминах чистых состояний, как показано ниже, тогда как метрика Буреса записывается для смешанных состояний. Установив фазу комплексной координаты равной нулю, можно получить ровно одну четвертую метрики информации Фишера точно так же, как указано выше.
Здесь — комплекснозначная амплитуда вероятности, и строго действительны. Предыдущие расчеты получены подстановкой . Стандартное условие, что вероятности лежат внутри симплекса, то есть
Когда действительно, это условие задаёт поверхность сферы.
Метрика Фубини — Штуди, записанная в инфинитезимальной форме с использованием квантово-механических обозначений бра и кет, имеет вид:
В этих обозначениях и интеграл по всему измеримому пространству записывается так:
Выражение можно понимать как инфинитезимальную вариацию. Эквивалентно его можно понимать как ковариантный вектор в кокасательном пространстве. Используя инфинитезимальную нотацию, можно представить вышеупомянутую полярную форму вероятности так:
.
Подстановка этого результата в метрику Фубини — Штуди дает:
При подстановке в выражении выше становится ясно, что первый член является одной четвертой информационной метрики Фишера. Полную запись вышеизложенного можно сделать немного яснее, изменив обозначения на стандартную риманову геометрию, чтобы метрика стала симметричной 2-формой, действующей на касательное пространство. Смена обозначений заключается в простой замене: и — и в замечании, что интегралы — это просто математические ожидания:
Опять же, можно легко заметить, что первый член — это одна четвертая от информационной метрики Фишера при . Эквивалентно метрику Фубини — Штуди можно понимать как метрику комплексного проективного гильбертова пространства, индуцированную комплексным расширением плоской евклидовой метрики. Разница между этой метрикой и метрикой Буреса заключается в том, что последняя записывается в терминах смешанных состояний.
Статистическое многообразие[англ.] пространства определяется как пространство всех мер на (с зафиксированной сигма-алгеброй ). Следует заметить, что это пространство бесконечномерно и обычно считается пространством Фреше. Точки являются мерами.
Здесь и — векторы в касательном пространстве: . Злоупотребление обозначениями состоит в том, что касательные векторы записаны, как если бы они были производными, и в добавлении постороннего знака дифференциала при написании интеграла: интегрирование должно выполняться с использованием меры по всему пространству . На самом деле, такое злоупотребление обозначениями считается совершенно нормальным в теории меры. Это стандартное обозначение для производной Радона — Никодима.
Можно показать в несколько этапов, что это определение метрики эквивалентно предыдущему. Сначала следует выбрать подмногообразие в из только тех мер , которые параметризованы некоторым гладко изменяющимся параметром . Тогда если конечномерен, то и подмногообразие также конечномерно. Аналогично касательное пространство имеет ту же размерность, что и .
Выражаясь еще менее строго, стоит отметить, что экспоненциальное отображение ставит в соответствие векторам в касательном пространстве точки в нижележащем многообразии. Таким образом, если — вектор в касательном пространстве, то — соответствующая вероятность, связанная с точкой (после параллельного перенесения экспоненциального отображения на ). Обратно, для заданной точки логарифм определяет точку в касательном пространстве (грубо говоря, опять же нужно перенести из начала в точку ). Таким образом, в более простом определении, данном ранее, возникают логарифмы.
↑Amari, Shun-ichi. Chentsov's theorem and some historical remarks // Methods of Information Geometry : [англ.] / Shun-ichi Amari, Horishi Nagaoka. — New York : Oxford University Press, 2000. — P. 37–40. — ISBN 0-8218-0531-2.
Shun'ichi Amari (1985) Differential-geometrical methods in statistics, Lecture Notes in Statistics, Springer-Verlag, Berlin.
Shun'ichi Amari, Hiroshi Nagaoka (2000) Methods of information geometry, Translations of mathematical monographs; v. 191, American Mathematical Society.
Paolo Gibilisco, Eva Riccomagno, Maria Piera Rogantin and Henry P. Wynn, (2009) Algebraic and Geometric Methods in Statistics, Cambridge U. Press, Cambridge.