Информационная метрика Фишера

Информационная метрика Фишера в информационной геометрии[англ.] — это особая риманова метрика, которая может быть определена на гладком статистическом многообразии[англ.], то есть на гладком многообразии, точки которого являются вероятностными мерами из общего вероятностного пространства. Ее можно использовать для расчета информационной разницы между измерениями.

Метрика интересна в нескольких отношениях. По теореме Ченцова, информационная метрика Фишера на статистических моделях является единственной (с точностью до масштабирования) римановой метрикой, инвариантной при достаточной статистике.[1][2]

Также ее можно рассматривать как инфинитезимальную форму, а точнее, гессиан относительной энтропии (то есть расстояния Кульбака — Лейблера).

С другой стороны, ее можно понимать как метрику, индуцированную евклидовой метрикой плоского пространства, после соответствующей замены переменной. При расширении на комплексное проективное гильбертово пространство[англ.] она становится метрикой Фубини — Штуди, а в терминах смешанных состояний это квантовая метрика Буреса[англ.].

В качестве просто матрицы она известна как информационная матрица Фишера[англ.]. В качестве метода измерения, где метрика используется для оценки скрытых параметров с точки зрения наблюдаемых случайных величин, она известна как наблюдаемая информация[англ.].

Определение

[править | править код]

Пусть задано статистическое многообразие с координатами . Через обозначим распределение вероятностей как функцию от . Здесь принадлежит пространству значений дискретной или непрерывной случайной величины . Вероятность нормирована равенством .

Тогда информационная метрика Фишера определяется как

.

Интегрирование выполняется по всем значениям из . Переменная становится координатой на римановом многообразии. Метки и указывают на локальные оси координат на многообразии.

Когда вероятность выводится из меры Гиббса, как это было бы для любого марковского процесса, то также можно понимать как множитель Лагранжа. Множители Лагранжа обеспечивают ограничения, такие как постоянство ожидаемого значения[англ.] некоторой величины. Если существует ограничений, обеспечивающих постоянство различных ожидаемых значений, то размерность многообразия на измерений меньше исходного пространства. В этом случае метрика может быть явно получена из статистической суммы.

Через замену из теории информации получается эквивалентная форма приведенного выше определения:

.

Для доказательства эквивалентности определений выше следует заметить, что

,

и применить дифференцирование к обеим частям.

Связь с расстоянием Кульбака — Лейблера

[править | править код]

Метрика может быть определена иначе: как вторая производная относительной энтропии, или расстояния Кульбака — Лейблера.[3] Для этого необходимо рассмотреть два распределения вероятностей и , инфинитезимально близких друг к другу, так что

,

где — инфинитезимально малое изменение в направлении . Тогда поскольку расстояние Кульбака — Лейблера принимает минимальное абсолютное значение 0 при , то можно разложить до второго порядка по следующую форму:

.

Симметричная матрица положительно (полу)определена и является гессианом функции в точке экстремума . Неформально это можно описать так: расстояние между двумя инфинитезимально близкими точками на статистическом дифференциальном многообразии и есть информационная разница между ними.

Изменение свободной энтропии

[править | править код]

Действие кривой на римановом многообразии задается формулой:

.

Параметр пути здесь — время . Это действие можно понимать как изменение свободной энтропии системы при ее перемещении от времени к времени .[4] А именно, изменение свободной энтропии выражается через действие формулой:

.

Связь с дивергенцией Йенсена — Шеннона

[править | править код]

Метрика Фишера также связывает действие и длину кривой с дивергенцией Йенсена — Шеннона.[4] В частности,

,

где под понимается инфинитезимальное изменение дивергенции Йенсена — Шеннона на выбранном пути. Аналогично для длины кривой выполняется

.

То есть квадратный корень из дивергенции Йенсена — Шеннона — это просто метрика Фишера, деленная на квадратный корень из 8.

Связь с евклидовой метрикой

[править | править код]

Для дискретного вероятностного пространства, то есть вероятностного пространства на конечном наборе объектов, метрику Фишера можно понимать просто как евклидову метрику, ограниченную областью единичной сферы, в которой все координаты неотрицательны. Чтобы показать эту связь, нужно сделать соответствующую замену переменной.[5]

Рассмотрим плоское евклидово пространство размерности N+1, заданное точками . Метрика для евклидова пространства задается выражением

,

где — это ковариантные векторы. Они являются базисными векторами для кокасательного пространства. Приняв за базисные векторы для касательного пространства, так что

,

можем записать евклидову метрику как

.

Верхний индекс "" означает, что в координатной форме эта метрика относится к координате плоского пространства.

N-мерную единичную сферу в (N+1)-мерном евклидовом пространстве можно задать как

.

Такое вложение индуцирует метрику на сфере. Метрика наследуется непосредственно от евклидовой метрики на объемлющем пространстве. Она принимает точно такую же форму, что и выше, с тем лишь ограничением, что координаты лежат на поверхности сферы. Это можно сделать, например, с помощью техники множителей Лагранжа.

Рассмотрим теперь замену переменной . Уравнение сферы превращается в условие нормирования вероятности:

.

При этом метрика принимает вид

Можно заметить, что последний результат — это одна четвертая информационной метрики Фишера. Наконец, вспомним, что вероятности являются параметрическими функциями переменных многообразия , то есть . Таким образом, сказанное выше индуцирует метрику на многообразии параметров:

Или, в координатной форме, информационная метрика Фишера:

где, как и раньше,

Верхний индекс "" означает, что выражение применяется к координатам , тогда как некоординатная форма та же, что и у евклидовой метрики (в плоском пространстве). То есть информационная метрика Фишера на статистическом многообразии — это просто учетверенная евклидова метрика, ограниченная неотрицательной по всем координатам областью сферы, после соответствующей замены переменной.

Если же случайная величина не дискретна, а непрерывна, рассуждение остается в силе. Это можно показать двумя разными способами.

Первый — аккуратно повторить все вышеперечисленные шаги в бесконечномерном пространстве, стараясь правильно определить пределы и т. д., чтобы быть уверенными, что все преобразования четко определены, сходятся и т. д.

Другой способ, как отмечено М. Л. Громовым[5], — применить теоретико-категориальный подход, то есть отметить, что описанные выше манипуляции остаются в силе в категории вероятностей. Здесь следует отметить, что такая категория обладала бы свойством Радона — Никодима[англ.], то есть в этой категории справедлива теорема Радона — Никодима. В том числе это верно для гильбертовых пространств. Они интегрируемы с квадратом, и в описанных выше преобразованиях этого достаточно, чтобы безопасно заменить суммирование по квадратам на интеграл квадрата.

Связь с метрикой Фубини — Штуди

[править | править код]

Вышеупомянутый вывод метрики Фишера из евклидовой метрики можно распространить и на комплексные проективные гильбертовы пространства[англ.]. В этом случае получается метрика Фубини — Штуди.[6] Это вполне закономерно, поскольку метрика Фубини — Штуди позволяет измерять информацию в квантовой механике. Метрика Буреса[англ.], также известная как метрика Хельстрома, идентична метрике Фубини — Штуди, хотя последняя обычно записывается в терминах чистых состояний, как показано ниже, тогда как метрика Буреса записывается для смешанных состояний. Установив фазу комплексной координаты равной нулю, можно получить ровно одну четвертую метрики информации Фишера точно так же, как указано выше.

Вывод начинается с того же приема — построения амплитуды вероятности, записанной в полярных координатах:

.

Здесь — комплекснозначная амплитуда вероятности, и строго действительны. Предыдущие расчеты получены подстановкой . Стандартное условие, что вероятности лежат внутри симплекса, то есть

,

эквивалентно выражается нормированием квадрата амплитуды:

.

Когда действительно, это условие задаёт поверхность сферы.

Метрика Фубини — Штуди, записанная в инфинитезимальной форме с использованием квантово-механических обозначений бра и кет, имеет вид:

В этих обозначениях и интеграл по всему измеримому пространству записывается так:

Выражение можно понимать как инфинитезимальную вариацию. Эквивалентно его можно понимать как ковариантный вектор в кокасательном пространстве. Используя инфинитезимальную нотацию, можно представить вышеупомянутую полярную форму вероятности так:

.

Подстановка этого результата в метрику Фубини — Штуди дает:

При подстановке в выражении выше становится ясно, что первый член является одной четвертой информационной метрики Фишера. Полную запись вышеизложенного можно сделать немного яснее, изменив обозначения на стандартную риманову геометрию, чтобы метрика стала симметричной 2-формой, действующей на касательное пространство. Смена обозначений заключается в простой замене: и — и в замечании, что интегралы — это просто математические ожидания:

Мнимый член — это симплектическая форма и фаза Берри, или геометрическая фаза. В индексной записи метрика записывается так:

Опять же, можно легко заметить, что первый член — это одна четвертая от информационной метрики Фишера при . Эквивалентно метрику Фубини — Штуди можно понимать как метрику комплексного проективного гильбертова пространства, индуцированную комплексным расширением плоской евклидовой метрики. Разница между этой метрикой и метрикой Буреса заключается в том, что последняя записывается в терминах смешанных состояний.

Непрерывные вероятности

[править | править код]

Несколько более формальное, абстрактное определение информационной метрике Фишера можно дать следующим образом.[7]

Пусть ориентируемое многообразие и мера на . Равнозначно, пусть вероятностное пространство на с сигма-алгеброй и вероятностью .

Статистическое многообразие[англ.] пространства определяется как пространство всех мер на (с зафиксированной сигма-алгеброй ). Следует заметить, что это пространство бесконечномерно и обычно считается пространством Фреше. Точки являются мерами.

Выберем точку и рассмотрим касательное пространство . Тогда информационная метрика Фишера — это внутреннее произведение в касательном пространстве.

Злоупотребляя обозначениями[англ.], это можно записать так:

.

Здесь и — векторы в касательном пространстве: . Злоупотребление обозначениями состоит в том, что касательные векторы записаны, как если бы они были производными, и в добавлении постороннего знака дифференциала при написании интеграла: интегрирование должно выполняться с использованием меры по всему пространству . На самом деле, такое злоупотребление обозначениями считается совершенно нормальным в теории меры. Это стандартное обозначение для производной Радона — Никодима.

Чтобы интеграл был корректно определен, пространство должно обладать свойством Радона — Никодима[англ.]. Точнее, касательное пространство сужается до векторов, которые интегрируются с квадратом. Следует отметить, что гильбертовы пространства обладают этим свойством.

Можно показать в несколько этапов, что это определение метрики эквивалентно предыдущему. Сначала следует выбрать подмногообразие в из только тех мер , которые параметризованы некоторым гладко изменяющимся параметром . Тогда если конечномерен, то и подмногообразие также конечномерно. Аналогично касательное пространство имеет ту же размерность, что и .

Выражаясь еще менее строго, стоит отметить, что экспоненциальное отображение ставит в соответствие векторам в касательном пространстве точки в нижележащем многообразии. Таким образом, если — вектор в касательном пространстве, то — соответствующая вероятность, связанная с точкой (после параллельного перенесения экспоненциального отображения на ). Обратно, для заданной точки логарифм определяет точку в касательном пространстве (грубо говоря, опять же нужно перенести из начала в точку ). Таким образом, в более простом определении, данном ранее, возникают логарифмы.

Примечания

[править | править код]
  1. Amari, Shun-ichi. Chentsov's theorem and some historical remarks // Methods of Information Geometry : [англ.] / Shun-ichi Amari, Horishi Nagaoka. — New York : Oxford University Press, 2000. — P. 37–40. — ISBN 0-8218-0531-2.
  2. Dowty, James G. (2018). "Chentsov's theorem for exponential families". Information Geometry (англ.). 1 (1): 117—135. arXiv:1701.08895. doi:10.1007/s41884-018-0006-4.
  3. Cover, Thomas M. Elements of Information Theory : [англ.] / Thomas M. Cover, Joy A. Thomas. — 2nd. — Hoboken : John Wiley & Sons, 2006. — ISBN 0-471-24195-4.
  4. 1 2 Crooks, Gavin E. (2009). "Measuring thermodynamic length". Physical Review Letters (англ.). 99 (10): 100602. arXiv:0706.0559. doi:10.1103/PhysRevLett.99.100602. PMID 17930381.
  5. 1 2 Gromov, Misha (2012). "In a Search for a Structure, Part 1: On Entropy" (PDF) (англ.). Архивировано (PDF) 6 мая 2021. Дата обращения: 9 июня 2021. {{cite journal}}: Cite journal требует |journal= (справка)
  6. Facchi, Paolo (2010). "Classical and Quantum Fisher Information in the Geometrical Formulation of Quantum Mechanics". Physics Letters A (англ.). 374 (48): 4801—4803. arXiv:1009.5219. Bibcode:2010PhLA..374.4801F. doi:10.1016/j.physleta.2010.10.005.
  7. Itoh, Mitsuhiro (2008). "Fisher information metric and Poisson kernels". Differential Geometry and Its Applications (англ.). 26 (4): 347—356. doi:10.1016/j.difgeo.2007.11.027.

Литература

[править | править код]
  • Feng, Edward H.; Crooks, Gavin E. (2009). "Far-from-equilibrium measurements of thermodynamic length". Physical Review E (англ.). 79 (1 Pt 1): 012104. arXiv:0807.0621. Bibcode:2009PhRvE..79a2104F. doi:10.1103/PhysRevE.79.012104. PMID 19257090.
  • Shun'ichi Amari (1985) Differential-geometrical methods in statistics, Lecture Notes in Statistics, Springer-Verlag, Berlin.
  • Shun'ichi Amari, Hiroshi Nagaoka (2000) Methods of information geometry, Translations of mathematical monographs; v. 191, American Mathematical Society.
  • Paolo Gibilisco, Eva Riccomagno, Maria Piera Rogantin and Henry P. Wynn, (2009) Algebraic and Geometric Methods in Statistics, Cambridge U. Press, Cambridge.